[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/adan-rs/AnalisisDatos/blob/main/notebooks/08_Analisis_de_correspondencias.ipynb)

# Análisis de correspondencias múltiple

*¿Para qué se utiliza?* 
El Análisis de Correspondencias (AC) es una técnica estadística exploratoria que permite representar gráficamente tablas de contingencia, revelando la relación entre categorías de filas y columnas. Su principal utilidad es generar mapas perceptuales que muestran asociaciones entre marcas, atributos, respuestas u otras variables categóricas. Es particularmente útil en investigación de mercados, sociología y estudios de opinión.

*¿Qué variables considera?*
    Una tabla de contingencia (frecuencias cruzadas) que cruza dos variables categóricas nominales.
    Las categorías pueden provenir de escalas tipo Likert, preguntas cerradas o etiquetas de productos/servicios.
    A diferencia de otras técnicas, no requiere datos cuantitativos, y puede utilizar categorías sin orden implícito.

*¿Cómo funciona?*
El AC transforma la tabla de contingencia en una representación geométrica usando la distancia chi-cuadrado como métrica de semejanza. Así cada categoría de fila y columna se representa como un punto en un espacio bidimensional (o de más dimensiones). Las distancias entre puntos reflejan el grado de asociación: menor distancia = mayor asociación. Finalmente, las coordenadas de cada punto son derivadas de la descomposición de valores propios de la tabla estandarizada.

*Supuestos y recomendaciones*
- No se requiere normalidad ni homocedasticidad.
- Es ideal para datos cualitativos o nominales con suficientes frecuencias por celda.
- Se recomienda interpretar el porcentaje de varianza explicada por cada dimensión.
- En estudios más complejos puede utilizarse el análisis de correspondencias múltiple, que permite incluir más de dos variables categóricas.


Para realizar el análisis de correspondencia se recomienda instalar la biblioteca *Prince* (solo es necesario hacerlo la primera vez) 
`!pip install prince`  
La documentación se puede consultar en: documentación https://libraries.io/pypi/prince

In [None]:
# Instalar la biblioteca Prince
#!pip install prince

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import prince

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

Seleccionamos un conjunto de variables cualitativas

In [None]:
#df = pd.read_excel('../data/enigh2020.xlsx')
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/data/enigh2020.xlsx')
variables_categoricas = ['est_socio', 'sexo_jefe', 'ubica_geo']
dataframe = df[variables_categoricas]

In [None]:
dataframe.head(5)

In [None]:
# Creación de instancia del modelo
mca = prince.MCA(n_components = 2)
# Ajuste del modelo a los datos
mca = mca.fit(dataframe)
# Crea gráfico
ax = mca.plot(dataframe, show_column_labels=True, show_row_markers=False)
ax

Cada punto corresponde a una observación o una categoría. La interpretación de las dimensiones depende del contexto. 
- En general, la distancia entre los puntos de cada categoría indican la relación entre ellas. Entre más corta sea la distancia, mayor será la asociación de las categorías.
- Observaciones y categorías en el mismo cuadrante tienden a tener relaciones más fuertes, mientras que observaciones y categorías en cuadrantes opuestos pueden representar relaciones negativas.
- Una categoría cerca del centro generalmente indica que esa categoría no está fuertemente asociada con ninguna de las dimensiones, por ejemplo, por ser independiente, tener baja variabilidad o baja frecuencia.


Ejemplo de resultados:
> Se aplicó un análisis de correspondencias a una tabla de contingencia entre marcas y atributos percibidos por los consumidores. El mapa bidimensional resultante explicó el 84% de la varianza total. Marca A se asoció fuertemente con el atributo "Precio bajo", mientras que Marca C mostró afinidad con "Innovación". Marca B fue percibida en relación con "Calidad alta".

## Ejercicio

In [None]:
url = 'https://github.com/adan-rs/AnalisisDatos/raw/main/data/aerolineas.xlsx'
aerolineas = pd.read_excel(url)
var_cat_aerolineas = ['sentimiento', 'aerolinea']
dataframe = aerolineas[var_cat_aerolineas]

In [None]:
# Creación de instancia del modelo
mca = prince.MCA(n_components = 2)
# Ajuste del modelo a los datos
mca = mca.fit(dataframe)
# Crea gráfico
ax = mca.plot(dataframe, show_column_labels=True, show_row_markers=False)
ax

Interpreta los resultados

## Referencias
- Página del proyecto: https://maxhalford.github.io/prince/