APENDICE  2

 

 

 

El Análisis Factorial como Instrumento Decisorio ante los Problemas de Multicolinialidad en una Regresión.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Por

 

Ing. Roberto Piol Puppio

E-Mail: rpiol@yahoo.com

www.rpiol.com

 

 

I.- Introducción

 

En el texto de esta monografía, se ha hecho mucho hincapié en el problema que representa la Multicolinialidad entre Variables Independientes en una Regresión.

 

Como ya se indicó, un coeficiente de determinación alto (R²), no es garantía para que la regresión exista.

 

Una alta correlación entre Dos (2) o mas variables independientes, lo afectan directamente.

 

Para la detección de un problema de Multicolinialidad en una regresión; se utiliza como instrumento: La Matriz de Correlación (o la matriz de covarianza). Interpretando a un coeficiente de correlación alto (r>0.75) entre dos variables independientes como señal de su presencia.

 

También en el texto se explicó que dos variables independientes autocorrelacionadas, no podían convivir juntas en una regresión. Por lo tanto una de las dos debía eliminarse.

 

La pregunta ante un problema de multicolinealidad, que una persona se hace es: ¿Cuál es la variable independiente que hay que eliminar del juego de datos referenciales?.

 

La respuesta a esta pregunta es: La menos significativa.

 

Pero, ¿Cómo se identifica esa variable “menos significativa” en una regresión?. No es fácil. Tampoco se puede deducir empíricamente de una simple observación a los datos.

 

Aquí es donde entra el “Análisis Factorial”. Este procedimiento estadístico, será utilizado para identificar la o las variables menos significativas de una regresión con problemas de Multicolinialidad,

 

 

 

 

 

 

 

 

 

 

II.- Conceptos Básicos

 

Se define como Análisis Factorial, al procedimiento estadístico que permite identificar un número de factores que representan la relación que existe entre un conjunto de variables independientes autocorrelacionadas entre si.

 

 

Por lo tanto, el procedimiento intenta agrupar las variables independientes autocorrelacionadas entre sí, de manera que las mismas tenga una correlación baja con el resto de las variables independientes.

 

 

De esta manera, identificaremos el grupo de variables independientes correlacionadas entre sí y podremos clasificarlas según su importancia; de manera que podamos eliminar la menos representativa sin perturbar (o con la mínima perturbación) a la serie de datos.

 

 

Otros de las ventajas del Método de Análisis Factorial, es el de reducir la número de variables independientes en un modelo de regresión, de tal manera de obtener otro modelo de regresión con menos variables independientes. Sin embargo, esto no forma parte del curso y nos centraremos en el problema de la Multicolinialidad.

 

 

El hecho de eliminar la Variable Independiente menos representativa, no implica necesariamente que el nuevo nivel de significación (R²) del modelo de regresión aumente. Puede que la variable eliminada sea en realidad representativa en el modelo de regresión múltiple definitiva. En su lugar puede ser sustituida por la siguiente variable en orden de su representatividad.

 

 

Lo realmente importante es que solo una de las variables independientes de un factor compuesto por variables muy correlacionadas entre sí podrá quedar en la regresión. En caso de que esto no se cumpliera, seguiríamos teniendo problemas de multicolinialidad.

 

 

Es de hacer notar, que este procedimiento estadístico es valido para series grandes; mientras mas pequeña sea la serie, el método menos significativo será.

 

 

III.- El uso del paquete estadístico SPSS (versión 9), en el desarrollo del Análisis Factorial.

 

El paquete estadístico dedicado SPSS, por su facilidad y amigabilidad de sus comandos, es uno de los preferidos a nivel global.

 

En este curso, no se enseñará el manejo de dicho paquete; tan solo se explicará paso a paso el procedimiento.

 

El objetivo final será el de clasificar la variable (o variables) menos significativas dentro de un factor y eliminarla (o eliminarlas), a fin de resolver el problema de la multicolinialidad en una regresión.

 

Generalizando, los pasos para una Análisis Factorial son:

 

  1. Generar la Matriz de Correlación
  2. Extraer los factores de la Matriz, en base a los coeficientes de correlación de las variables
  3. Rotar los factores con el fin de maximizar la relación entre las variables a algunos de los factores
  4. Seleccionar Una (1) Variable Independiente por Factor.

 

 

Es de notar, que para lograr los enunciados anteriores es necesario tener nociones del manejo de un paquete estadístico dedicado. En este caso se usará el software SPSS versión 9. En este texto, se tratará de indicar paso a paso el procedimiento, sin embargo, esta monografía no es suficiente para el dominio de este procedimiento automatizado.

 

 

 

IV EL Análisis Factorial paso a paso:

 

1.- Preparación de la Data

 

En el editor de datos (DATA EDITOR) del SPSS, se debe crear la data a procesar. El software permite enterar directamente la data o importarla desde la Hoja de Cálculo Excel.

 

 

 

El siguiente ejemplo se corresponde a una serie de 20 referenciales de Casas Quintas en el sureste de Caracas. Las Variables seleccionadas son:

 

 

punit              Precio Unitario del inmueble

aterreno        Area del Terreno

aconstr          Area de Construcción

año                 Año de construcción del inmueble

habitac#        Número de dormitorios

baños                        Número de baños

vista               Inmuebles con vista a Caracas  = 1. Con vista al los Valles del Tuy  =0

fecha              Fecha[1] de protocolización de la compra-venta

 

..\WINDOWS\Escritorio\SPSS Logo.JPG

 

 

 

Salida del Editor de Datos del SPSS:

 

 

 

 

 

 

 


 

2.- Acceso al la Subrutina de Análisis Factorial (FACTOR ANÁLISIS):

 

Una vez cargados los datos en el Editor de Datos (DATA EDITOR), en la Barra de Menú seleccione:

 

Analyze

Data Reduction

Factor

 

Estos comandos presentaran la caja de diálogo principal del Análisis Factorial (FACTOR ANÁLISIS), que tendrá la forma siguiente[2]:

 

 

 

 

 

..\Archivos de Scaner\Factor Anlaysis Box.JPG

 

 

Ilumínese con el ratón únicamente las Variables Independientes de la ventanilla izquierda y por medio de la flecha central (>) pásense a la ventanilla derecha (denominada Variables:).

 

 

A continuación, configúrese cada uno de los Cinco (5) botones que conformarán la salida (OUTPUT) de la subrutina Análisis Factorial (FACTOR ANÁLISIS):

 

..\Archivos de Scaner\Dos ventanillas de variables.JPG

 

 

2.1.- Configuración del botón Descriptives:

 

La caja de diálogo del botón Descriptives, debe estar configurado de la siguiente manera:

 

 

..\Archivos de Scaner\Descriptives.JPG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.2.- Configuración del botón Extraction:

 

La caja de diálogo del botón Extraction, debe estar configurado de la siguiente manera:

 

 

..\Archivos de Scaner\Extraction.JPG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.3.- Configuración del botón Rotation:

 

La caja de diálogo del botón Rotation, debe estar configurado de la siguiente manera:

 

 

..\Archivos de Scaner\Rotation.JPG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.4.- Configuración del botón Scores:

 

La caja de diálogo del botón Scores, debe estar configurado de la siguiente manera:

 

 

..\Archivos de Scaner\Scores.JPG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.5.- Configuración del botón Options:

 

La caja de diálogo del botón Options, debe estar configurado de la siguiente manera:

 

 

..\Archivos de Scaner\Options.JPG

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.- Interpretación de la Salida (OUTPUT) de la Subrutina Análisis Factorial (FACTOR ANÁLISIS):

 

3.1.- La Matriz de Correlación:

 

La primera salida del software es la matriz de correlación:

 

 

..\Archivos de Scaner\Correlation Matrix.JPG

 

 

Obsérvese que existe una correlación muy alta entre las variables:

 

 

HABITC# - ACONSTR :                   0.978

BAÑOS – ACONSTR:                      0.977

BAÑOS – HABITAC#:                      0.930

 

 

Como puede observarse, existe un problema de Multicolinialidad en la serie y por lo tanto solo una de las tres variables: HABITC# - ACONSTR – BAÑOS debe quedar para que la regresión exista.

 

 

 

 

 

 

 

 

3.2 Tests KMO y de Bartlett:

 

Para que sea significativo el Análisis Factorial, el test KMO (Kaiser – Meyer – Olkin) debe ser > 0.5.

 

 

El test de esfericidad de Bartlett, indica que la matriz de correlación no sea una matriz identidad[3].

 

El nivel de significancia (sig.) debe ser < 0.05 (mientras mas se aproxime a cero (0) mejor).

 

 

..\Archivos de Scaner\KMO.JPG

 

 

 

 

 

 

 

 

 

 

3.3.- Las Comunalidades (COMMUNALITIES):

 

La tabla de Comunalidades, muestra la proporción de la varianza de cada variable explicada por los factores extraídos.

 

 

3.4.- La Varianza Total Explicada (TOTAL VARIANCE EXPLAINED)

 

No son significativos
 

“B”

 

“A”

 
..\Archivos de Scaner\Total Varianze.JPG

 

 

 

La tabla de Varianza Total Explicita (TOTAL VARIANCE EXPLAINED), muestra todos los Factores extraíbles ordenados de acuerdo a su Valor Propio (EIGENVALUES).

 

Si se observa la columna identificada “Total “ (por nosotros como “A”); se puede notar que solamente en Dos (2) Factores su Valor Propio (EIGENVALUES) es mayor que 1.00.

 

Todos los demás factores no son significativos y por lo tanto serán ignorados.

 

Obsérvese en la columna identificada “Cumulative %” (por nosotros como “B”), que los Dos (2) factores seleccionados suman el 72.546% de la varianza (52.922% + 19.624%).

 

 

 

 

3.5.- La Rotación de la Estructura de los Factores

 

El objetivo de la rotación de la estructura de los factores, es la de obtener un claro esquema para su correcta interpretación de la relación entre las variables y los factores extraídos.

 

El método de rotación de mayor uso en este tipo de análisis, es el denominado “Varimax”; y consiste rotar los ejes en cualquier dirección, sin cambiar la localización relativa de los factores extraídos, hasta obtener una claro esquema de la posición de las variables independientes en relación a los factores extraídos.

 

 

..\Archivos de Scaner\Rotate component matrix.JPG

 

 

La tabla denominada “Matriz de Componentes Rotados” (ROTATED COMPONENT MATRIZ); indican la correlación existente entre cada una de las variables independientes y su correspondiente factor:

 

 

Cuadro de texto: FACTOR 1:		ACONSTR		0.980		Fuerte/directa
			HABITAC#		0.967		Fuerte/directa
				BAÑOS		0.948		Fuerte/directa

FACTOR 2:		VISTA			0.778		Fuerte/directa
			AÑO			0.776		Fuerte/directa

 

 

Nótese que la matriz está ordenada bajo el criterio del grado de correlación de las variables independientes con respecto al “Factor Extraído”; de manera que sea fácil identificar las variables independientes incluidas en cada Factor.

 

 

Pero, regresando nuevamente a la Matriz de Correlación de la serie observamos:

 

 

 

 

..\Archivos de Scaner\Correlation Matrix.JPG

 

 

 

 

 

 

 

 

 

Las variables autocorrelacionadas entre sí (que generan los problema de multicolinealidad) son únicamente: ACONST       HABITAC#    BAÑOS

 

 

 

 

Como se puede observar, esas variables son precisamente las mismas que conforman el FACTOR 1. Por lo tanto solamente una de esas tres variables podrá existir en la regresión y las demás deben ser excluidas, porque si así no se hiciera el problema de multicolinialidad persistiría en la serie.

 

 

3.6.- Representación Gráfica

 

La representación gráfica de los Factores Extraídos, nos permiten una mas fácil comprensión de las variables incluidas en cada Factor:

 

 

..\Archivos de Scaner\component plot.JPG

 

 

Nótese que las variables con un factor de correlación mas cercano a 1.00 (y por lo tanto mas correlacionados con el FACTOR 1 (Eje X) son:

 

ACONST

HABITAC#

BAÑOS

 

4.0.- La Selección de la Variable Independiente

 

Ya se definió en el punto anterior que de las Tres (3) variables independientes que se encuentran correlacionadas entre si, solo una podrá entrar en el modelo de regresión múltiple.

 

Si volvemos a observar la tabla “Matriz de Componentes Rotados” (ROTATED COMPONENT MATRIX):

 

 

Component Matriz

 

 

Component

 

1

2

BAÑOS

.931

-.284

ACONSTR

.923

-.361

HABITAC#

.888

-.397

VISTA

.726

.480

FECHA

.616

.425

AÑO

.538

.586

ATERRENO

4.917E-02

.501

 

Extraction Method: Principal Component Analysis.

a  2 components extracted.

 

 

Observaríamos que la variable independiente “BAÑOS”, tiene el coeficiente de correlación mas alto. Pero, estos coeficientes de correlación son los correspondientes entre la variable BAÑOS y el FACTOR 1.

 

Por lo tanto, no necesariamente es esta la variable que va a quedar en el modelo de regresión múltiple.

 

El criterio para aceptar la variable que va a quedar en la regresión múltiple, debemos buscarla en la Matriz de Correlación de la serie:

 

En este caso debemos solicitar al software SPSS la Matriz de Correlación incluyendo la Variable Dependiente (PUNIT)[4]

 

4.1.- Cálculo de la Matriz de Correlación incluyendo la Constante

 

Para obtener la Matriz de Correlación incluyendo la constante; debemos regresar al menú principal de SPSS:

 

ANALYZE      DATA REDUCTION                        FACTOR

 

y al obtener la caja de diálogo principal marcar todas las variables (dependientes e independientes), cuidando que en la parte superior de la ventanilla derecha sea inicializada por la variable dependiente (PUNIT):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

..\Archivos de Scaner\Todas las variables.JPG

 

 

Cerciorarse que dentro de la configuración del boton DESCRIPTIVES, se marque el recuadro “Coeficients” para poder obtener la salida de la matriz de la siguiente forma:

 

 

 

 

Cte.

 

Cte.

 
..\Archivos de Scaner\Matriz con var dep.JPG

 

 

Si analizamos la primera columna redefinida como Cte., podremos inferir la correlación que existe entre cada variable independiente con la variable dependiente (regresión).

 

Podemos observar, que la correlación mas alta es 0.876 (AÑO – Cte).

 

Sin embargo, lo que nos interesa a nosotros es seleccionar la Variable Independiente que quedará en la regresión entre ACONSTR – HABITAC# - BAÑOS (que generan nuestros problemas de multicolinialidad).

 

De la matriz de correlación observamos los siguientes coeficientes de correlación:

 

 

Cte – ACONST                r= 0.379

Cte – HABITAC#             r= 0.339

Cte – BAÑOS                  r= 0.448

 

 

Obsérvese que el coeficiente de correlación mas alto corresponde a la variable independiente BAÑOS.

 

En teoría, este sería la variable independiente que quedaría dentro del modelo de regresión; mientras que las variables ACONST y HABITAC# tendrían que salir para darle solución al problema de multicolinialidad de la serie.

 

4.2.- Comprobación de los Resultados

 

Para comprobar la hipótesis anterior; correremos tres veces el modelo de regresión lineal múltiple; utilizando para cada corrida una de las tres variables diferentes:

 

 

Serie 1                                               Serie 2                                               Serie 3

 

PUNIT                                     PUNIT                                     PUNIT

 

ACONST                                           HABITAC#                                        BAÑOS

ATERRENO                                      ATERRENO                                      ATERRENO

AÑO                                                    AÑO                                                    AÑO

VISTA                                                 VISTA                                                 VISTA

FECHA                                              FECHA                                              FECHA

 

 

 

 

 

 

 

4.3.- Regresión Lineal Múltiple con SPSS

 

Para correr los modelos anteriores, utilizaremos la subrutina del paquete SPSS denominado “Regresión Lineal Múltiple”.

 

Desde el Editor de Datos (DATA EDITOR), accionaremos los siguientes comandos:

 

Analize

Regresión

Lineal

 

Y se activará la caja de diálogo correspondiente al módulo de regresión lineal múltiple.

 

 

Se selecciona como variable dependiente PUNIT y las variables independientes señaladas en la “Serie 1”:

 

 

..\Archivos de Scaner\Variables regresion.BMP.JPG

 

 

Hacer Clic sobre el botón “Estadísticas” (STADISTICS) y configurar la caja de diálogo de la siguiente forma:

 

 

 

..\Archivos de Scaner\Statistics.JPG

 

 

 

 

 

Clic en el botón “Contínue” y el SPSS lo devolverá al menú principal de regresión múltiple lineal y Clic en el botón “OK”.

 

El software correrá la regresión de la Serie 1 y la salida del Resumen del Modelo (MODEL SUMMARY) será:

 

 

..\Archivos de Scaner\R2 1.JPG

 

 

De igual manera se correrá la Serie 2; y su resultado será:

 

 

..\Archivos de Scaner\R2 2.JPG

 

 

 

 

Repetimos el procedimiento para la Serie 3:

 

 

..\Archivos de Scaner\R2 3.JPG

 

 

 

 

 

 

 

4.4.- Resumen de los Resultados:

 

Serie                                               R² adj.             Variable

 

Serie 1                        0.972              0.962              ACONSTR

Serie 2                        0.972              0.962              HABITAC#

Serie 3                        0.973              0.963              BAÑOS

 

 

Como se puede observar, el modelo que mejor explica el fenómeno es la Serie 3; por lo tanto la variable independiente BAÑOS, es la queda en la regresión múltiple y las otras dos (ACONSTR y HABITAC#) saldrán. Quedando de esta manera comprobada la hipótesis planteada en el punto anterior.

 

 

 

5.- Conclusión

 

5.1.- Salida del software

 

El modelo de regresión que explica el comportamiento de los precios unitarios de casas en el suroeste de Caracas será:

 

 

..\Archivos de Scaner\Coeficientes regresion.JPG

 

 

..\Archivos de Scaner\ANOVA.JPG

 

 

Fo = 2.39

F >> Fo

5.2.- Modelo

 

El modelo de regresión lineal múltiple, quedará de la siguiente forma:

 

 

 

Donde:                       X1:      Area del terreno

                                    X2:      Año de construcción de la casa

                                    X3:      Vista a la ciudad de caracas

                                    X4:      Fecha de protocolización

                                    X5:      Números de baños

 

 

 

 

 

 

 

 

Revisión: Febrero-2011



[1] La fecha (Variable No Numérica), esta expresada en el formato de MS-Excel; donde cuenta los días transcurridos desde el 1ro de Enero del año 1900. Este formato permite a la Hoja de Cálculo expresar la fecha o bien como un número o bien como algunos de los formatos tradicionales: dd-mm-aa.

[2] Nótese que la caja de dialogo tiene Dos (2) ventanillas verticales. En la ventanilla izquierda el software presentó todas las variables de nuestra serie en estudio. También fíjense los Cinco Botones en la parte baja de la caja:

 

Descriptives               Extraction                   Rotation                      Scores             Options

 

Estos Cinco (5) botones conforman la configuración del Análisis Factorial y su uso es fundamental para la correcta salida del programa.

[3] Se define como Matriz Identidad, aquella que todos sus elementos son Cero (0) menos la diagonal principal que es Uno (1), por ejemplo:

1              0              0              0

0              1              0              0

0              0              1              0

0              0              0              1