# A an√°lise de componentes principais üéØ

Esse notebook √© um estudo sobre PCA no qual se debru√ßar√° sobre um estudo de caso acerca de dados da cidade de S√£o Paulo, o qual busca estabelecer um ranking acerca de qual distrito apresenta mais promo√ß√£o √† vida.

### Breve Introdu√ß√£o :

T√©cnica respons√°vel por realizar a transforma√ß√£o de dados, de modo a reduzir a dimensionalidade dos dados. Al√©m disso, ao reduzir a dimensionalidade dos dados, consegue-se reduzir tamb√©m a multicolinearidade, aspecto no qual um dado apresenta grande correla√ß√£o com o outro, produzindo redund√¢ncia.

### Funcionamento :

O PCA funciona a partir da jun√ß√£o de quatro t√©cnicas, que s√£o:

- Realizar a subtra√ß√£o dos dados de uma dimens√£o, com base em sua m√©dia, buscando com isso captar a sua varia√ß√£o;

- Realizar o calculo da matriz de covari√¢ncia, para identificar quais dimens√µes apresentam similaridade no quanto variam - se variam ou n√£o juntas. Consiste de uma t√©cnica fundamental para a cria√ß√£o dos autovetores e autovalores;

- Autovetores e autovalores : autovetores apontam, no conjunto de dados, para a direa√ß√£o de maior varia√ß√£o nos dados, enquanto que os autovalores s√£o a sua magnitude.

>

**Em s√≠ntese:**

Os componentes principais, ent√£o, s√£o os autovetores ordenados com base em seus autovalores, de modo que o primeiro tende a ter comportamento ou car√°ter mais representativo, enquanto que o segundo menos em rela√ß√£o ao primeiro e assim por diante.

### Dicion√°rio do dataframe

- cod_ibge:

Este √© o c√≥digo do Instituto Brasileiro de Geografia e Estat√≠stica (IBGE) que identifica cada munic√≠pio.
distritos: N√∫mero de distritos dentro do munic√≠pio.
renda: Renda m√©dia da popula√ß√£o do munic√≠pio, geralmente medida em reais.

>

- quota:

Este campo pode ter diferentes interpreta√ß√µes dependendo do contexto, mas provavelmente refere-se a algum tipo de √≠ndice ou propor√ß√£o. Seria √∫til saber a descri√ß√£o completa da vari√°vel para te dar uma resposta mais precisa.

>

- escolaridade:

N√≠vel m√©dio de escolaridade da popula√ß√£o do munic√≠pio.
idade: Idade m√©dia da popula√ß√£o do munic√≠pio.

>

- mortalidade:

Taxa de mortalidade do munic√≠pio, geralmente medida por n√∫mero de mortes por 1000 habitantes.

>

- txcresc:

Taxa de crescimento populacional do munic√≠pio, medida em percentual.

>

- causasext:

N√∫mero de mortes por causas externas no munic√≠pio (acidentes, homic√≠dios, etc.).

>

- favel:

Propor√ß√£o da popula√ß√£o do munic√≠pio que vive em favelas.
denspop: Densidade populacional do munic√≠pio, medida em habitantes por km¬≤.

### Bibliotecas Utilizadas üìö

In [None]:
!pip install factor_analyzer



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from factor_analyzer import calculate_kmo, calculate_bartlett_sphericity

In [None]:
df = pd.read_csv('/content/distritos_sp.csv')

df.head()

Unnamed: 0,cod_ibge,distritos,renda,quota,escolaridade,idade,mortalidade,txcresc,causasext,favel,denspop
0,1,√Ågua Rasa,1961,34.619999,7.6,32,13.86,-1.84,52.98,0.0,125.610001
1,12,Alto de Pinheiros,4180,75.959999,8.4,33,8.68,-2.52,38.57,0.69,57.560001
2,23,Anhanguera,1093,4.5,5.8,23,15.36,18.120001,22.68,0.0,8.57
3,34,Aricanduva,1311,21.02,6.8,27,18.43,-1.07,76.220001,5.38,138.539993
4,45,Artur Alvim,1248,15.91,7.0,27,19.73,-1.4,67.25,4.11,167.399994


N√£o h√° dados nulos, n√£o dispon√≠veis ou nulos:

In [None]:
df.isna().sum()

cod_ibge        0
distritos       0
renda           0
quota           0
escolaridade    0
idade           0
mortalidade     0
txcresc         0
causasext       0
favel           0
denspop         0
dtype: int64

In [None]:
df.duplicated().sum()

0

In [None]:
df.isnull().sum()

cod_ibge        0
distritos       0
renda           0
quota           0
escolaridade    0
idade           0
mortalidade     0
txcresc         0
causasext       0
favel           0
denspop         0
dtype: int64

In [None]:
df.columns

Index(['cod_ibge', 'distritos', 'renda', 'quota', 'escolaridade', 'idade',
       'mortalidade', 'txcresc', 'causasext', 'favel', 'denspop'],
      dtype='object')

### Criando um novo dataframe, utilizando o PCA

**OBS:**

Importante dizer que o PCA trabalha apenas com vari√°veis num√©ricas e, portanto, n√£o com dados categ√≥ricos, 'strings', palavras, o que significa que para a sua realiza√ß√£o ser√£o no primeiro momento exclu√≠das, podendo ser chamadas novamente para a forma√ß√£o de um dataframe j√° fatorizado (termo que estou utilizando como refer√™ncia a dizer que ele j√° passara pela transforma√ß√£o do PCA, pois os componentes principais que formam as colunas s√£o tamb√©m denominados fatores).

In [None]:
df_2 = df.drop(['cod_ibge', 'distritos'], axis = 1)

In [None]:
df_2.head()

Unnamed: 0,renda,quota,escolaridade,idade,mortalidade,txcresc,causasext,favel,denspop
0,1961,34.619999,7.6,32,13.86,-1.84,52.98,0.0,125.610001
1,4180,75.959999,8.4,33,8.68,-2.52,38.57,0.69,57.560001
2,1093,4.5,5.8,23,15.36,18.120001,22.68,0.0,8.57
3,1311,21.02,6.8,27,18.43,-1.07,76.220001,5.38,138.539993
4,1248,15.91,7.0,27,19.73,-1.4,67.25,4.11,167.399994


### Crit√©rios para se analisar se podemos efetuar ou n√£o o PCA

Ainda que apresentamos um dataframe que tenha pouca dimensionalidade, sendo de apenas 9, em compara√ß√£o ao que √© visto comumente, devemos antes de realizar uma transforma√ß√£o dos dados mediante ao PCA responder a pergunta: esses dados est√£o dispostos de modo que possam ser, de fato, submetidos ao PCA ?

Para responder a essa pergunta, h√° duas abordagens, que √© o crit√©rio de KMO e a esfericidade de Bartlett (extremamente necess√°ria para avaliar se o dataframe pode ou n√£o ser aplicado ao PCA).

>

**KMO:**

Avalia a propor√ß√£o da vari√¢ncia compartilhada entre as vari√°veis, medindo a adequa√ß√£o do dataframe √† an√°lise fatorial, o que inclui o PCA.

- Interpreta√ß√£o :

Possui um intervalo de 0 a 1, de modo que os valores pr√≥ximos a 1 indicam que o conjunto de dados s√£o adequados para serem passados ao PCA, enquanto que valores abaixo, normalmente inferior a 0.6, indicam o oposto.

>

**Esfericidade de Bartlett:**

Teste de hip√≥tese que verifica se a matriz de correla√ß√£o das suas vari√°veis √© significativamente (com signific√¢ncia estat√≠stica) diferente de uma matriz de identidade, a qual implica que n√£o h√° uma correla√ß√£o entre as vari√°veis, informando, portanto, que a transforma√ß√£o por meio do PCA n√£o seria adequada.

Para a compreens√£o da hip√≥tese, de que pode ser utilizada o PCA ou n√£o, utilizamos da hip√≥tese nula - Ho - (hip√≥tese que pressup√µe que que a matriz de correla√ß√£o √© equivalente √† matriz de identidade) e a hip√≥tese alternativa - Ha -, com signific√¢ncia estat√≠stica de, geralmente, 5%. Nesse sentido se o c√°lculo da esfericidade de Bartlett resulta num valor inferior a 0.05, informa que a Ho deve ser rejeitada, de modo que considera-se que a alternativa.



In [None]:
# Realizando os crit√©rios:

matriz_corr = df_2.corr()

# M√©tricas kmo:
kmo_variaveis, kmo = calculate_kmo(matriz_corr)

# Esfericidade de Bartlett:
qui_quadrado, pvalor = calculate_bartlett_sphericity(matriz_corr)

print(f'M√©trica KMO para cada coluna do dataframe : \n {kmo_variaveis} \n\n M√©trica KMO para o conjunto total dos dados : \n {kmo} \n\n')

print(f' Valor do q-quadrado : {qui_quadrado.round(2)} \n Valor do p-value : {pvalor} \n')

M√©trica KMO para cada coluna do dataframe : 
 [0.7355042  0.7801622  0.68300246 0.66335166 0.75703291 0.62242182
 0.72930105 0.87250207 0.68069643] 

 M√©trica KMO para o conjunto total dos dados : 
 0.7179374989798737 


 Valor do q-quadrado : 246.8 
 Valor do p-value : 2.970758005748527e-33 





In [None]:
# Verificando se pvalor √© menor que 5%:

pvalor < 0.05

True

Como √© menor, rejeitamos Ho, o que significa dizer que a esfericidade de Bartlett mostra que o conjunto de dados presentes √© adequado ao PCA.

### Normaliza√ß√£o :    

Sabemos o que consiste a transforma√ß√£o dos dados via o PCA, bem como das m√©tricas necess√°rias para verificar se um conjunto de dados pode ser ou n√£o submetido a essa t√©cnica, mas falta revisar algo, a normaliza√ß√£o.

Uma vez que a t√©cnica do PCA se relaciona com a vari√¢ncia dos dados, faz-se necess√°rio coloc√°-los sujeito a uma similar escala de modo que, do contr√°rio, n√£o seja eficiente a redu√ß√£o da dimensionalidade. Em virtude disso, surge a normaliza√ß√£o, que fixa os dados na m√©dia, na medida que esses variam segundo um desvio padr√£o.

Assim, compreende-se que antes de submeter os dados a um PCA √© necess√°rio que sejam escalonados numa determinada escala, geralmente, por sua robustez, com a normaliza√ß√£o (Z-Score).

In [None]:
# Normalizando os dados e aplicando
# a transforma√ß√£o do PCA, por meio do pipeline:

SEED = 22

pipeline = Pipeline([('scaler', StandardScaler()), ('PCA',
                                                    PCA(n_components= 9,
                                                        random_state=SEED))])

pca = pipeline.fit_transform(df_2)

pca_components = pipeline[1].components_

# Visualizando a nova matriz gerada ap√≥s o PCA:

df_2_pca = pd.DataFrame(data = pca)

df_2_pca.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,1.519105,-0.761299,0.44037,0.256326,-0.13406,-0.202264,-0.177369,0.025619,-0.350088
1,3.9856,1.555514,0.313021,0.070926,0.100206,0.332763,0.655952,-0.105873,-0.055641
2,-2.681205,2.356295,3.872196,3.061874,1.039798,0.920633,-0.793794,0.194619,-0.11107
3,-0.574202,-1.06171,-0.214948,-0.121274,0.105649,-0.204103,-0.011002,0.042348,-0.10005
4,-0.457007,-1.688282,-0.110352,0.089602,0.452111,-0.437592,-0.037891,-0.168406,-0.013653


In [None]:
# Verificando a taxa de vari√¢ncia explicada por coluna
# em rela√ß√£o a cada uma das colunas:

print(f' Vari√¢ncia explicada por coluna : \n {pipeline[1].explained_variance_.round(4)} \n')
print(f' Total de colunas que s√£o explicadas : {pipeline[1].explained_variance_.sum().round(3)} \n')
print(f' Percentual de explica√ß√£o do novo dataframe : {pipeline[1].explained_variance_ratio_.sum().round(3)}')

 Vari√¢ncia explicada por coluna : 
 [5.0082 1.1766 1.0068 0.7317 0.5349 0.4025 0.131  0.0658 0.0372] 

 Total de colunas que s√£o explicadas : 9.095 

 Percentual de explica√ß√£o do novo dataframe : 1.0


### Identificando os autovetores

In [None]:
# Essa matriz informa os autovetores presentes na transforma√ß√£o
# dos dados para a sua forma redimensionada.

# Cada um desses autovetores se referem a uma dimens√£o, o qual
# se relaciona a cada uma das vari√°veis do conjunto de dados,
# como renda, mortalidade e afins, aplicando um peso a elas.

# Os valores que vemos nesse array s√£o os pesos a elas atribuidos

pca_components

array([[ 0.37378561,  0.40454585,  0.43416448,  0.431286  , -0.29453553,
        -0.31298937, -0.29942197, -0.20536447,  0.0746924 ],
       [ 0.34194215,  0.20986443, -0.02279207, -0.06065282, -0.16369471,
         0.31272645, -0.04069338,  0.41039975, -0.73495343],
       [-0.17295765, -0.15501444, -0.00935731,  0.06348322,  0.17379496,
         0.27775581, -0.43911857, -0.68814007, -0.41015077],
       [-0.06339126, -0.13996332, -0.08458471, -0.12690816, -0.58019562,
         0.45311541, -0.49035151,  0.1587924 ,  0.38148578],
       [ 0.34200389,  0.27796072,  0.00388393, -0.03140668,  0.68113225,
         0.35010444, -0.28968662,  0.14639622,  0.33601377],
       [ 0.30718994,  0.21266882, -0.051763  , -0.06507346, -0.21449531,
         0.46702002,  0.58641913, -0.46772469,  0.16347059],
       [ 0.35731885,  0.14779821, -0.5314497 , -0.53511308, -0.08829316,
        -0.42300489, -0.21675972, -0.21903914, -0.00154526],
       [-0.56495425,  0.74089992, -0.33214191,  0.12879361, -0

In [None]:
fatores = ['F1', 'F2', 'F3', 'F4', 'F5', 'F6', 'F7', 'F8', 'F9']

n_fatores = df_2_pca.shape[1]
autovalores = pipeline[1].explained_variance_ratio_ * n_fatores

resumo = pd.DataFrame({'Fator': fatores, 'Autovalor': autovalores,
                       'Vari√¢ncia explicada': pipeline[1].explained_variance_ratio_})

resumo

Unnamed: 0,Fator,Autovalor,Vari√¢ncia explicada
0,F1,4.956031,0.55067
1,F2,1.164338,0.129371
2,F3,0.996354,0.110706
3,F4,0.724067,0.080452
4,F5,0.529302,0.058811
5,F6,0.398324,0.044258
6,F7,0.129669,0.014408
7,F8,0.065066,0.00723
8,F9,0.036849,0.004094


### Carga Fatorial

A carga fatorial representa o coeficiente da correla√ß√£o entre uma vari√°vel original e um fator, podendo ser positiva ou negativa, de modo que se pr√≥xima de 1 significa que s√£o correlacionadas e se pr√≥xima de -1 que s√£o inversamente correlacionadas.


In [None]:
# Verificando os autovetores num dataframe:

colunas = [['renda', 'quota', 'escolaridade', 'idade',
            'mortalidade', 'txcres', 'causasext', 'favel', 'denspop']]

pd.DataFrame(pca_components, columns = colunas, index = [f'autovetor {i+1}' for i in range(9)])

Unnamed: 0,renda,quota,escolaridade,idade,mortalidade,txcres,causasext,favel,denspop
autovetor 1,0.373786,0.404546,0.434164,0.431286,-0.294536,-0.312989,-0.299422,-0.205364,0.074692
autovetor 2,0.341942,0.209864,-0.022792,-0.060653,-0.163695,0.312726,-0.040693,0.4104,-0.734953
autovetor 3,-0.172958,-0.155014,-0.009357,0.063483,0.173795,0.277756,-0.439119,-0.68814,-0.410151
autovetor 4,-0.063391,-0.139963,-0.084585,-0.126908,-0.580196,0.453115,-0.490352,0.158792,0.381486
autovetor 5,0.342004,0.277961,0.003884,-0.031407,0.681132,0.350104,-0.289687,0.146396,0.336014
autovetor 6,0.30719,0.212669,-0.051763,-0.065073,-0.214495,0.46702,0.586419,-0.467725,0.163471
autovetor 7,0.357319,0.147798,-0.53145,-0.535113,-0.088293,-0.423005,-0.21676,-0.219039,-0.001545
autovetor 8,-0.564954,0.7409,-0.332142,0.128794,-0.043236,0.046332,-0.022126,0.019462,-0.010178
autovetor 9,-0.226373,0.2354,0.638974,-0.694279,0.002605,-0.004163,-0.011863,-0.045723,-0.027849


In [None]:
raiz_autovalores = np.sqrt(autovalores)

In [None]:
# Obtendo as cargas fatoriais por meio dos autovetores e autovalores:

cargas_fatoriais = pd.DataFrame(pca_components.T * raiz_autovalores,
                                columns = fatores,
                                index = colunas)

cargas_fatoriais

Unnamed: 0,F1,F2,F3,F4,F5,F6,F7,F8,F9
renda,0.832127,0.368971,-0.172642,-0.053941,0.248819,0.193877,0.128669,-0.144109,-0.043455
quota,0.900606,0.226453,-0.154732,-0.119098,0.202225,0.134222,0.053221,0.18899,0.045188
escolaridade,0.966543,-0.024594,-0.00934,-0.071975,0.002826,-0.032669,-0.191373,-0.084723,0.122658
idade,0.960135,-0.065447,0.063367,-0.107989,-0.022849,-0.04107,-0.192692,0.032853,-0.133274
mortalidade,-0.655699,-0.176634,0.173478,-0.493701,0.495545,-0.135374,-0.031794,-0.011029,0.0005
txcres,-0.696781,0.337446,0.277249,0.385565,0.254712,0.29475,-0.152322,0.011818,-0.000799
causasext,-0.666578,-0.04391,-0.438317,-0.41725,-0.210756,0.370106,-0.078054,-0.005644,-0.002277
favel,-0.457185,0.44284,-0.686884,0.13512,0.106508,-0.295195,-0.078875,0.004964,-0.008777
denspop,0.166281,-0.793048,-0.409402,0.324614,0.244461,0.103171,-0.000556,-0.002596,-0.005346


Utilizando o crit√©rio de Kaiser, selecionamos apenas os fatores F1 e F2:

In [None]:
resumo = cargas_fatoriais.copy()

resumo = resumo[['F1', 'F2']]

resumo['Comunalidade'] = (resumo ** 2).sum(axis = 1)

resumo

Unnamed: 0,F1,F2,Comunalidade
renda,0.832127,0.368971,0.828575
quota,0.900606,0.226453,0.862372
escolaridade,0.966543,-0.024594,0.934811
idade,0.960135,-0.065447,0.926143
mortalidade,-0.655699,-0.176634,0.461141
txcres,-0.696781,0.337446,0.599374
causasext,-0.666578,-0.04391,0.446254
favel,-0.457185,0.44284,0.405126
denspop,0.166281,-0.793048,0.656574
