In [24]:
#%% Importando os pacotes necessários
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
import prince
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'browser'
import plotly.graph_objects as go
from itertools import combinations

In [4]:
# Importando o banco de dados
dados_mca = pd.read_csv("/Users/administrador/Documents/usp_ds_analytics/usp_ds_analytics/anacor_mca/data/estudantes_adapta.csv")

In [5]:
dados_mca.head()

Unnamed: 0,Education,Institution,Financial,Internet,Adaptivity
0,University,Non Government,Mid,Wifi,Moderate
1,University,Non Government,Mid,Mobile Data,Moderate
2,College,Government,Mid,Wifi,Moderate
3,School,Non Government,Mid,Mobile Data,Moderate
4,School,Non Government,Poor,Mobile Data,Low


In [6]:
# Informações descritivas sobre as variáveis
print(dados_mca['Education'].value_counts())
print("")
print(dados_mca['Institution'].value_counts())
print("")
print(dados_mca['Financial'].value_counts())
print("")
print(dados_mca['Internet'].value_counts())
print("")
print(dados_mca['Adaptivity'].value_counts())

Education
School        530
University    456
College       219
Name: count, dtype: int64

Institution
Non Government    823
Government        382
Name: count, dtype: int64

Financial
Mid     878
Poor    242
Rich     85
Name: count, dtype: int64

Internet
Mobile Data    695
Wifi           510
Name: count, dtype: int64

Adaptivity
Moderate    625
Low         480
High        100
Name: count, dtype: int64


In [7]:
dados_mca.describe(include='all')

Unnamed: 0,Education,Institution,Financial,Internet,Adaptivity
count,1205,1205,1205,1205,1205
unique,3,2,3,2,3
top,School,Non Government,Mid,Mobile Data,Moderate
freq,530,823,878,695,625


### Analisando as tabelas de contingência
Lembrando que elas são sempre para pares de variáveis.

Para mais de 2 variáveis, existem 2 métodos, com uma matriz auxiliar: 

**Matriz binária Z**
- coordenadas-padrão, transformo as observações em dummies para cada categoria.
- aqui a quantidade de dimensões é definido por J - Q, onde J é a quantidade total de categorias em todas as variáveis Q no mapa perceptual dessa matriz
- Inércia Principal Total = J - Q / Q

**Matriz de Burt**
- B = Z'* Z
- É possível combinar em uma única matriz o cruzamento de todos os pares variáveis
e suas categorias, obtendo, desta forma, uma matriz que contém as frequências
absolutas observadas para todos os cruzamentos
- Ao considerar a matriz de Burt como uma tabela de contingência, é possível realizar
uma Anacor e obter as coordenadas das categorias das variáveis

In [9]:
# Vamos gerar as tabelas de contingência em relação à "Adaptivity"

tabela_mca_1 = pd.crosstab(dados_mca["Adaptivity"], dados_mca["Education"])
tabela_mca_2 = pd.crosstab(dados_mca["Adaptivity"], dados_mca["Institution"])
tabela_mca_3 = pd.crosstab(dados_mca["Adaptivity"], dados_mca["Financial"])
tabela_mca_4 = pd.crosstab(dados_mca["Adaptivity"], dados_mca["Internet"])

print(tabela_mca_1)
print("")
print(tabela_mca_2)
print("")
print(tabela_mca_3)
print("")
print(tabela_mca_4)

Education   College  School  University
Adaptivity                             
High              3      47          50
Low             120     182         178
Moderate         96     301         228

Institution  Government  Non Government
Adaptivity                             
High                 20              80
Low                 234             246
Moderate            128             497

Financial   Mid  Poor  Rich
Adaptivity                 
High         36    22    42
Low         341   129    10
Moderate    501    91    33

Internet    Mobile Data  Wifi
Adaptivity                   
High                 36    64
Low                 288   192
Moderate            371   254


### Analisando a significância estatística da associação (teste qui²)
Avaliamos para os pares de variáveis, se não apresentar uma associação estatisticamente significante, nem entra no mapa perceptual.
Neste caso aqui, como elegemos uma variável, vamos verificar o chi2 com base nela.

In [10]:
tab_1 = chi2_contingency(tabela_mca_1)

print("Adaptivity x Education")
print(f"estatística qui²: {round(tab_1[0], 2)}")
print(f"p-valor da estatística: {round(tab_1[1], 4)}")
print(f"graus de liberdade: {tab_1[2]}")

tab_2 = chi2_contingency(tabela_mca_2)

print("Adaptivity x Institution")
print(f"estatística qui²: {round(tab_2[0], 2)}")
print(f"p-valor da estatística: {round(tab_2[1], 4)}")
print(f"graus de liberdade: {tab_2[2]}")

tab_3 = chi2_contingency(tabela_mca_3)

print("Adaptivity x Financial")
print(f"estatística qui²: {round(tab_3[0], 2)}")
print(f"p-valor da estatística: {round(tab_3[1], 4)}")
print(f"graus de liberdade: {tab_3[2]}")

tab_4 = chi2_contingency(tabela_mca_4)

print("Adaptivity x Internet")
print(f"estatística qui²: {round(tab_4[0], 2)}")
print(f"p-valor da estatística: {round(tab_4[1], 4)}")
print(f"graus de liberdade: {tab_4[2]}")

Adaptivity x Education
estatística qui²: 38.69
p-valor da estatística: 0.0
graus de liberdade: 4
Adaptivity x Institution
estatística qui²: 107.11
p-valor da estatística: 0.0
graus de liberdade: 2
Adaptivity x Financial
estatística qui²: 236.86
p-valor da estatística: 0.0
graus de liberdade: 4
Adaptivity x Internet
estatística qui²: 21.04
p-valor da estatística: 0.0
graus de liberdade: 2


Como teste de hipótese, eu posso olhar direto para o p-value da estatística. Ele mostra se é estatisticamente significativo e se podemos rejeitar H0 (não existe associação significativa entre as variáveis).

O teste chi2 apenas mostra se existe uma associação, porém ainda não sabemos de onde vem essa associação, quais categorias envolvem isso. 

## Elaborando a MCA

In [11]:
# Na função, o input é a tabela com os dados das variáveis
# n_components, quero 3 eixos, uma mapa 3D
mca = prince.MCA(n_components=3).fit(dados_mca)

### Quantidade de dimensões
Igual total de categorias - qtde de variáveis

In [12]:
# Quantidade total de categorias
mca.J_

13

In [13]:
# Quantidade de variáveis na análise
mca.K_

5

In [14]:
# Quantidade de dimensões
quant_dim = mca.J_ - mca.K_
quant_dim

8

### Obtendo os eigenvalues (autovalores)

In [15]:
tabela_autovalores = mca.eigenvalues_summary
print(tabela_autovalores)
# São gerados 'm' autovalores: m = mín(I-1,J-1)

          eigenvalue % of variance % of variance (cumulative)
component                                                    
0              0.321        20.06%                     20.06%
1              0.308        19.24%                     39.30%
2              0.258        16.10%                     55.40%


Os eigenvalues representam as inércias parciais de cada dimensão.

- Eixo X: 0 (20.06% )
- Eixo Y: 1 (19.24%)
- Eixo Z: (16.10%)

- O primeiro autovalor é sempre maior que os demais.
- O valor do acumulado mostra se houve e quanto tivemos de perda.

### Obtendo a inércia principal total

In [16]:
# É a soma dos eigenvalues (também é a divisão: estat. qui² / N)
# Quanto maior a inércia principal total, maior é a associação entre categorias
print(mca.total_inertia_)

1.5999999999999586


### Inércia total média

In [17]:
mca.total_inertia_/quant_dim

np.float64(0.19999999999999482)

- É interessante plotar apenas dimensões com autovalores maiores do que a média
- Neste caso, as 3 dimensões extraídas têm autovalores > 0.199
- Se tiver um eigenvalue menor, significa que tem pouca informação

### Obtendo as coordenadas do mapa perceptual

In [19]:
# Coordenadas principais das categorias das variáveis
coord_burt = mca.column_coordinates(dados_mca)
coord_burt

Unnamed: 0,0,1,2
Education_College,-1.266116,0.559165,-0.011469
Education_School,0.476726,-0.675321,0.099547
Education_University,0.053979,0.516366,-0.110193
Institution_Government,-0.846907,0.380226,0.69252
Institution_Non Government,0.393097,-0.176484,-0.321437
Financial_Mid,-0.262792,0.125889,-0.393927
Financial_Poor,0.245959,-1.023834,0.97946
Financial_Rich,2.014228,1.614552,1.280454
Internet_Mobile Data,-0.0572,-0.631284,0.21255
Internet_Wifi,0.077949,0.860279,-0.289652


In [20]:
# Obtendo as coordenadas-padrão das categorias das vaiáveis
coord_padrao = mca.column_coordinates(dados_mca)/np.sqrt(mca.eigenvalues_)
coord_padrao

Unnamed: 0,0,1,2
Education_College,-2.234816,1.007914,-0.022596
Education_School,0.841467,-1.217289,0.196122
Education_University,0.095278,0.930767,-0.217097
Institution_Government,-1.494873,0.685371,1.364369
Institution_Non Government,0.693853,-0.318119,-0.633279
Financial_Mid,-0.463853,0.22692,-0.776095
Financial_Poor,0.43414,-1.845496,1.929683
Financial_Rich,3.555306,2.910286,2.522688
Internet_Mobile Data,-0.100964,-1.137912,0.418756
Internet_Wifi,0.137588,1.550684,-0.570658


Em termos de resultados, posso escolher uma das duas, geralmente elas são semelhantes, mudando pouco os eixos.

Vamos então seguir com as coordenadas-padrao (para as observações tbm).

### Obtendo as coordenadas das observações do banco de dados

In [21]:
# Na função, as coordenadas das observações vêm das coordenadas-padrão

coord_obs = mca.row_coordinates(dados_mca)
coord_obs

Unnamed: 0,0,1,2
0,0.164470,0.410168,-0.719597
1,0.116760,-0.127551,-0.521715
2,-0.739294,0.626296,-0.281168
3,0.265998,-0.557162,-0.439071
4,0.135029,-0.914878,0.640151
...,...,...,...
1200,-0.612116,0.482365,-0.142631
1201,-0.301548,0.425598,-0.680697
1202,0.265998,-0.557162,-0.439071
1203,-0.612116,0.482365,-0.142631


### Plotando o mapa percentual (coordenadas-padrão)

In [25]:
# Primeiro passo: gerar um DataFrame detalhado
chart = coord_padrao.reset_index()

var_chart = pd.Series(chart['index'].str.split('_', expand=True).iloc[:,0])

nome_categ=[]
for col in dados_mca:
    nome_categ.append(dados_mca[col].sort_values(ascending=True).unique())
    categorias = pd.DataFrame(nome_categ).stack().reset_index()

chart_df_mca = pd.DataFrame({'categoria': chart['index'],
                             'obs_x': chart[0],
                             'obs_y': chart[1],
                             'obs_z': chart[2],
                             'variavel': var_chart,
                             'categoria_id': categorias[0]})

# Segundo passo: gerar o gráfico de pontos

fig = px.scatter_3d(chart_df_mca, 
                    x='obs_x', 
                    y='obs_y', 
                    z='obs_z',
                    color='variavel',
                    text=chart_df_mca.categoria_id)
fig.show()

Categorias que estão próximas, são aquelas que estão associadas.
É uma análise por proximidade.

Nós partimos de variáveis categóricas para variáveis métricas (posição x, y e z), sem poderação arbitrária!