miércoles, 9 de septiembre de 2009

ANALISIS MULTIVARIANTE

Análisis multivariante
El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (
bioestadística), variables independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de
regresión tradicionales:
se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes
puede trabajar con matrices que contengan más variables que observaciones
puede trabajar con matrices incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10%
puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la información del ruido. Se asume que las X se miden con ruido.
Técnicas Multivariantes
Análisis de Componentes principales
Análisis factorial
Análisis discriminante
Análisis de Correlación Canónica
Análisis Cluster
Análisis de Escalamiento Dimensional
Análisis de correspondencias
Análisis factorial confirmatorio
Modelo de Ecuaciones Estructurales (SEM), análisis causal.
Análisis conjunto
Escalamiento Óptimo
Regresión Lineal Múltiple
Regresión Logit y Probit
Análisis Manova
Tres o más variables. Estas relaciones pueden ser de diversos tipos. Descriptivas como establecer perfiles, separación de grupos, segmentación, determinar influencias eficientes entre varias variables, entre otras
En general se las clasifica en dos grandes grupos
1. Métodos explicativos como regresión lineal, análisis discriminante, regresión logística, modelos de respuesta probit, logic, modelos loglineales, entre otros
2. Métodos descriptivos como análisis de conglomerados, análisis factorial, análisis de componentes principales, análisis de correspondencias simples y múltiples, etc. Este tipo de análisis ha avanzado mucho y hoy ocupa el corazón del análisis estadístico avanzado. Desafortunadamente es exigente y poco amigable en comprensión matemática aunque lo es gráficamente La gran virtud de este tipo de análisis es que sintetiza las relaciones entre las variables estudiadas, que de otro modo, tendrían que establecerse con los análisis anteriores, largos y que conllevan a equívocos Su difusión depende en gran medida de la disposición del profesional a adoptar nuevos enfoques.
TIPOS DE TECNICAS MULTIVARIANTES El análisis multivariante es un conjunto de técnicas de análisis de datos en expansión. Entre las técnicas más conocidas expuestas en este texto tenemos (1) regresión múltiple y correlación múl­tiple; (2) análisis discriminante múltiple; (3) componentes principales y análisis factorial común; (4) análisis multivariante de varianza y covarianza; (5) correlación canónica; (6) análisis cluster; (7) análisis multidimensional y (8) análisis conjunto. Entre las técnicas emergentes también incluidas están (9) análisis de correspondencias; (10) modelos de probabilidad lineal como logit y probit; y (11) modelos de ecuaciones simultáneas/estructurales. En este apartado, introduciremos cada una de las técnicas multivariantes, definiendo brevemente la técnica y el objetivo de su aplicación.
COMPONENTES FACTORIALES Y ANALISIS FACTORIAL COMUNEl análisis factorial, que incluye variaciones tales como el análisis de componentes y el análisis factorial común, es una aproximación estadística que puede usarse para analizar interrelaciones entre un gran número de variables y explicar estas variables en términos de sus dimensiones subyacentes comunes (factores). El objetivo es encontrar un modo de condensar la información contenida en un número de variables originales en un conjunto más pequeño de variables (factores) con una pérdida mínima de información.Si se proporciona una estimación empírica de la estructura de las variables consideradas, el análisis factorial se convierte en una base objetiva para crear escalas aditivas.
REGRESION MULTIPLE La regresión múltiple es el método de análisis apropiado cuando el problema del investigador in­cluye una única variable métrica dependiente que se supone está relacionada con una o más variables métricas independientes. El objetivo del análisis de la regresión múltiple es predecir los cambios en la variable dependiente en respuesta a cambios en varias de las variables independientes. Este objetivo se consigue muy a menudo a través de la regla estadística de los mínimos cuadrados. La regresión múltiple es útil siempre que el investigador esté interesado en predecir la cantidad o la magnitud de la variable dependiente. Por ejemplo, se puede hacer la predicción de los gastos mensuales de cenar fuera de casa (variables dependientes) con información referente a la renta familiar, su tamaño y la edad del cabeza de familia (variables independientes). De la misma forma. el investigador puede intentar predecir las ventas de una compañía a partir de información sobre sus gastos en publicidad, el número de vendedores y el número de tiendas que distribuyen sus productos.



ANALISIS DISCRIMANTE MULTIPLE Si la única variable dependiente es dicotómica (es decir, comprador-no comprador) o multidico­tómica (es decir, alto-medio-bajo) y por tanto no métrica, la técnica multivariante apropiada es un análisis discriminante múltiple (MDA). Como con la regresión múltiple, las variables independientes se supone que son métricas. El análisis discriminante es útil en situaciones donde la muestra total puede dividirse en grupos basándose en una variable dependiente caracterizada por varias clases conocidas. Los objetivos primarios del análisis discriminante múltiple son entender las diferencias de los grupos y predecir la verosimilitud de que una entidad (persona u objeto) pertenezca a una clase o grupo particular basándose en varias variables métricas independientes. Por ejemplo, el análisis discriminante puede usarse para distinguir innovadores de no innovadores de acuerdo a sus perfiles demográficos y psicográficos. Otras aplicaciones incluyen la distinción entre usuarios habituales u ocasionales de un producto, compradores de marcas de ámbito nacional o restringido y el riesgo de crédito bueno del riesgo de crédito malo. Incluso la Agencia Tributaria utiliza un análisis discriminante para comparar las declaraciones seleccionadas con las devoluciones compuestas hipotéticas del contribuyente normal (para distintos niveles de renta) con el fin de identificar las devoluciones y áreas más prometedoras para la auditoria.
ANALISIS MULTIVARIANTE DE LA VARIANZA Y COVARIANZA El análisis multivariante de la varianza (MANOVA) es una técnica estadística que puede ser usa­da simultáneamente para explorar las relaciones entre diversas categorías de variables indepen­dientes (usualmente denominadas como tratamientos) y dos o más variables métricas depen­dientes. Como tal, representa una extensión del análisis invariante de la varianza (ANOVA). El análisis multivariante de la covarianza {MANCOVA) puede usarse en conjunción con MA­NOVA para eliminar (después del experimento) el efecto de cualquier variable independiente no controlada sobre las variables dependientes. El procedimiento es similar al que se encuentra en la correlación parcial vicariante. MANOVA es útil cuando el investigador diseña una situación experimental (manipulación de varias variables de tratamiento no métricas) para comprobar hipótesis concernientes a la varianza de respuestas de grupos sobre dos o más variables métricas dependientes.
ANALISIS CONJUNTO El análisis conjunto es una técnica de dependencia emergente que ha introducido una nueva sofisticación en la evaluación de objetos. Sean nuevos productos, servicios o ideas. La aplicación más directa está en productos nuevos o desarrollo de servicios, permitiendo la evaluación de productos complejos mientras que mantiene un contexto de decisión realista para el encuestado. El analista de mercado es capaz de evaluar la importancia de atributos así como los niveles de cada atributo mientras que los consumidores evalúan sólo los perfiles de unos pocos productos, que son com­binaciones de niveles de producto. Por ejemplo, un concepto de un producto que tiene tres atribu­tos (precio, calidad y color), cada uno de los cuales a tres niveles (por ejemplo, rojo, amarillo y azul). En lugar de tener que evaluar todas las 27 combinaciones posibles (3 X 3 X 3), se puede evaluar un subconjunto (9 o más) por su atractivo para los consumidores: y el investigador sabe no sólo cuál es la importancia de cada atributo sino también la importancia de cada nivel (el atractivo del rojo frente al amarillo y frente al azul). Más aun, cuando se completan las evaluaciones del consumidor, pueden usarse los resultados del análisis conjunto en simuladores del diseño del producto, que mostrarán la aceptación del cliente para cualquier número de formulaciones de producto y ayudar en el diseño del producto óptimo.
CORRELACION CANONICA El análisis de correlación canónica puede verse como una extensión lógica de un análisis de re­gresión múltiple. Recordemos que el análisis de regresión múltiple implica una única variable de­pendiente métrica y varias variables métricas independientes. Con el análisis canónico el objetivo es correlacionar simultáneamente varias variables dependientes métricas y varias variables métri­cas independientes. Mientras que la regresión múltiple implica una única variable dependiente, la correlación canónica implica múltiples variables dependientes. El principio subyacente es desarrollar una combinación lineal de cada conjunto de variables (tanto independientes como dependientes) para maximizar la correlación entre los dos conjuntos. O dicho de otra forma, el procedimiento im­plica obtener un conjunto de ponderaciones para las variables dependientes e independientes que proporcione la correlación única máxima entre el conjunto de variables dependientes y el conjun­to de variables independientes.
ANALISIS CLUSTER El análisis cluster es una técnica analítica para desarrollar subgrupos significativos de individuo u objetos. De forma específica, el objetivo es clasificar una muestra de. Entidades (personas u objetos) en un número pequeño de grupos mutuamente excluyentes basados en similitudes entre las entidades. En el análisis cluster, a diferencia del análisis discriminante, los grupos no están pre­definidos. Por consiguiente, se usa la técnica para identificar los grupos. Habitualmente, el análisis cluster implica al menos dos etapas. La primera es la medida de alguna forma de similitud o asociación entre las entidades para determinar cuántos grupos existen en realidad en la muestra. La segunda etapa es describir las personas o variables pata determinar su composición. Este paso puede llevarse a cabo aplicando el análisis discriminante a los grupos identificados por la técnica cluster.
ANALISIS MULTIDIMENSIONAL En el análisis multidimensional, el objetivo es transformar los juicios de los consumidores de si­militud o preferencia (por ejemplo, preferencias por tiendas o marcas comerciales) en distancias. Representadas en un espacio multidimensional. Si los objetos A y B son en opinión de los encuestados más similares que el resto de los pares posibles de objetos, las técnicas de análisis mul­tidimensional situarán a los objetos A y B de tal forma que la distancia entre ellos en un espacio multidimensional es menor que la distancia entre cualquier otro par de objetos. Los mapas per­ceptuales resultantes muestran el posicionamiento relativo entre los objetos, pero es necesario un análisis adicional para evaluar qué atributos predicen la posición de cada objeto.
ANALISIS DE CORRESPONDENCIAS Para finalizar, el análisis de correspondencias es una técnica de interdependencia recientemente desarrollada que facilita tanto la reducción dimensional de una clasificación de objetos (por ejemplo: productos, personas, etc.,) sobre un conjunto de atributos y el mapa perceptual de objetos relativos a estos atributos. Los investigadores se enfrentan constantemente a la necesidad de «cuantificar datos cualitativos» que encuentran en variables nominales. El análisis de correspondencias difiere de otras técnicas de interdependencia discutidas antes en su capacidad para acomodar tanto datos no métricos como relaciones no lineales. En su forma más básica, el análisis de correspondencias emplea una tabla de contingencia, que es la tabulación cruzada de dos variables categóricas. A continuación transforma los datos no métricos en un nivel métrico y realiza una reducción dimensional (similar al análisis factorial) y un mapa perceptual (similar al análisis multidimensional). A modo de ejemplo, las preferencias por una marca de los encuestados pueden ser tabuladas de forma cruzada con variables demográficas (por ejemplo, género, categorías de renta, ocupación) indicando cuánta gente que prefiere cada una de las marcas entra dentro de cada categoría de las variables demográficas. A través del análisis de correspondencias, la asociación o «correspondencia» de marcas y las ca­racterísticas distintivas de aquellos que prefieren cada marca se muestran en un mapa bi o tridimensional, tanto de marcas como características de los encuestados. Las marcas percibidas como similares están localizadas en una cercana proximidad unas de otras. De la misma forma, las características más distintivas de los encuestados que prefieren cada marca están determinadas también por la proximidad de las categorías de las variables demográficas respecto de la posición de la marca. El análisis de las correspondencias proporciona una representación multivariante de la interdependencia de datos no métricos que no es posible realizar con otros métodos.
MODELOS DE PROBABILIDAD LINEAL Los modelos de probabilidad lineal, a menudo llamados análisis logit, consisten en una combina­ción de regresión múltiple y análisis de discriminante múltiple. Esta técnica es similar al análisis de regresión múltiple en que una o más variables independientes se usan para predecir una única variable dependiente. Lo que distingue un modelo de probabilidad lineal de la regresión múltiple es que la variable dependiente es no métrica, como en el análisis discriminante. La escala no mé­trica de la variable dependiente requiere diferencias en el método de estimación y supuestos sobre el tipo de distribución subyacente, siendo en la mayoría de sus otras facetas similar a la regresión múltiple. Por tanto, una vez que la variable dependiente está especificada correctamente y se em­plea la técnica de estimación apropiada, se usan igualmente los supuestos básicos considerados en la regresión múltiple. Los modelos de probabilidad lineal se distinguen del análisis discriminante en que acomodan todos los tipos de variables independientes (métricas y no métricas) y no requieren el supuesto de normalidad multivariante. Sin embargo, en muchos casos. particularmente con más de dos niveles de la variable dependiente, el análisis discriminante es la técnica más apropiada.
MODELOS DE ECUACIONES ESTRUCTURALES El modelo de ecuaciones estructurales, a menudo denominado simplemente como LISREL (el nom­bre de uno de los paquetes informáticos más populares), es una técnica que permite separar las re­laciones para cada conjunto de variables dependientes. En su acepción más simple, el modelo de ecuaciones estructurales proporciona la técnica de estimación más adecuada y eficiente para se­ries de estimaciones de ecuaciones simultáneas mediante regresiones múltiples. Se caracteriza por dos componentes básicos: (1) el modelo estructural y (2) el modelo de medida. El modelo estruc­tural es el modelo «guía», que relaciona variables independientes y variables dependientes. En ta­les situaciones, la teoría, antes que la experiencia u otras directrices, permitirá al investigador distinguir qué variables independientes predicen cada variable dependiente. Los modelos previa­mente discutidos que incluyen múltiples variables dependientes -análisis multivariante de la va­rianza y correlación canónica- no son apropiados en esta situación. dado que permiten sólo una única relación entre variables dependientes e independientes. El modelo de medida permite al investigador usar varias variables (indicadores), para una única variable dependiente o independiente. Por ejemplo, la variable dependiente puede ser un concepto representado por una escala aditiva, tal como el amor propio. En el modelo de me­dida el investigador puede evaluar la contribución de cada ítem de la escala así como incor­porar cómo la escala mide el concepto (fiabilidad) en la estimación de las variables dependientes e independientes. Este procedimiento es similar al desarrollo del análisis factorial (discutido en una sección posterior) de los ítems de la escala y utiliza las cargas factoriales en la regre­sión.
OTRAS TECNICAS MULTIVARIANTES EMERGENTES El uso generalizado de las herramientas informáticas ayudó a iniciar la era del análisis multivariante tal y como lo conocemos hoy, con un número de técnicas especializadas que se pueden aplicar a una gama amplia de situaciones. No obstante. Ahora nos encontramos al principio de una era en la cual el análisis multivariante incorpora nuevos enfoques para identificar y representar las relaciones multivariantes. Un área de desarrollo en el análisis multivariante es la búsqueda de datos y las redes neuronales. La búsqueda de datos es el intento de cuantificar las relaciones entre grandes cantidades de información con una especificación previa mínima de la naturaleza de las relaciones. Una técnica que se usa muchas veces junto con la búsqueda de datos son las re­des neuronales, una técnica de análisis flexible que es capaz de llevar a cabo una identificación de relaciones (parecida a la regresión múltiple o al análisis discriminante) o la reducción de datos y el análisis estructural (semejante al análisis factorial o cluster). Las redes neuronales son diferentes a las técnicas multivariantes más tradicionales citadas previamente tanto en la formulación del modelo como en los tipos de relaciones más complejos que se pueden formular. Otra área que incluye un distanciamiento de la teoría estadística inferencial tradicional es el desarrollo de la técnica de la muestra repetida o «arranque». Esta técnica elimina la necesidad de cumplir determinados supuestos estadísticos (como la normalidad), mediante el uso del ordenador para replicar una «muestra repetida» de la muestra original, con el reemplazo y la generación de una estimación empírica de la distribución muestral.