# **PRÉ-PROCESSAMENTO**

##### Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np

##### Lendo o arquivo tratado

In [2]:
df = pd.read_csv('../data/csv/processed/heart_tratado.csv', encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289.0,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180.0,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283.0,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214.0,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195.0,0,Normal,122,N,0.0,Up,0


In [4]:
df.shape

(917, 12)

In [5]:
df_2 = df.copy()

##### Codificação das variáveis categóricas manualmente

In [6]:
df_2['Sex'] = df_2['Sex'].replace({'M': 0, 'F':1})
df_2['ChestPainType'] = df_2['ChestPainType'].replace({'TA':0, 'ATA':1, 'NAP': 2, 'ASY':3})
df_2['RestingECG'] = df_2['RestingECG'].replace({'Normal':0, 'ST':1, 'LVH':2})
df_2['ExerciseAngina'] = df_2['ExerciseAngina'].replace({'N':0, 'Y':1})
df_2['ST_Slope'] = df_2['ST_Slope'].replace({'Up':0, 'Flat': 1, 'Down':2})

  df_2['Sex'] = df_2['Sex'].replace({'M': 0, 'F':1})
  df_2['ChestPainType'] = df_2['ChestPainType'].replace({'TA':0, 'ATA':1, 'NAP': 2, 'ASY':3})
  df_2['RestingECG'] = df_2['RestingECG'].replace({'Normal':0, 'ST':1, 'LVH':2})
  df_2['ExerciseAngina'] = df_2['ExerciseAngina'].replace({'N':0, 'Y':1})
  df_2['ST_Slope'] = df_2['ST_Slope'].replace({'Up':0, 'Flat': 1, 'Down':2})


In [7]:
df_2.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,0,1,140,289.0,0,0,172,0,0.0,0,0
1,49,1,2,160,180.0,0,0,156,0,1.0,1,1
2,37,0,1,130,283.0,0,1,98,0,0.0,0,0
3,48,1,3,138,214.0,0,0,108,1,1.5,1,1
4,54,0,2,150,195.0,0,0,122,0,0.0,0,0


In [8]:
df_2.dtypes

Age                 int64
Sex                 int64
ChestPainType       int64
RestingBP           int64
Cholesterol       float64
FastingBS           int64
RestingECG          int64
MaxHR               int64
ExerciseAngina      int64
Oldpeak           float64
ST_Slope            int64
HeartDisease        int64
dtype: object

In [9]:
df_2.shape

(917, 12)

**LEGENDA**

* Age = Idade (anos);
* Sex = Sexo (0=M, 1=F);
* Chest Pain Type = Tipo de dor no peito (0=TA: Tangina Atípica; 1=ATA: Angina Atípica; 2=NAP: Dor Não Anginosa;3=ASY: Assintomático);
* Resting BP = Pressão sanguínia em repouso (mmHg);
* Cholesterol = Colesterol sérico (mg/dl)
* Fasting BS = Açucar no sangue em jejum (mg/dl) (0=Fasting BS < 120 (não diabético); 1=Fasting BS>= 120 (diabético));
* Resting ECG = Eletrocardiograma em repouso (0=Normal; 1=ST: Anormalidade de onda ST-T; 2=LVH: Hipertrofia ventricular esquerda);
* MaxHR = Frequência cardiáca máxima;
* Exercise Angina = Angina indusida por exercício (0=N; 1=Y);
* Old Peak = Depressão de ST induzida por exercício em relação ao repouso;
* ST_Slope = Inclinação do seguimento ST (0=UP; 1=Flat; 2=Down);
* Heart Disease = Doença cardíaca (0=Não possui; 1=Possui).

## **ATRIBUTOS PREVISORES E ALVO**

In [10]:
previsores = df_2.iloc[:, 0:11].values # iloc -> localiza pelo índice [todas as linhas, 10 primeiras colunas]
previsores

array([[40. ,  0. ,  1. , ...,  0. ,  0. ,  0. ],
       [49. ,  1. ,  2. , ...,  0. ,  1. ,  1. ],
       [37. ,  0. ,  1. , ...,  0. ,  0. ,  0. ],
       ...,
       [57. ,  0. ,  3. , ...,  1. ,  1.2,  1. ],
       [57. ,  1. ,  1. , ...,  0. ,  0. ,  1. ],
       [38. ,  0. ,  2. , ...,  0. ,  0. ,  0. ]], shape=(917, 11))

In [11]:
previsores.shape

(917, 11)

In [12]:
target = df_2.iloc[:, 11] # Target -> alvo
target

0      0
1      1
2      0
3      1
4      0
      ..
912    1
913    1
914    1
915    1
916    0
Name: HeartDisease, Length: 917, dtype: int64

In [13]:
target.shape

(917,)

### **Análise das escalas (Escalonamento)**

Escalonamento busca fazer com que média fique próxima de zero e o desvio padrão fique próximo de 1 (como uma distribuição normal padrão).

In [14]:
df_2.describe()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
count,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0
mean,53.509269,0.210469,2.251908,132.540894,244.635389,0.23337,0.604144,136.789531,0.40458,0.886696,0.63795,0.55289
std,9.437636,0.407864,0.931502,17.999749,53.347125,0.423206,0.806161,25.467129,0.491078,1.06696,0.60727,0.497466
min,28.0,0.0,0.0,80.0,85.0,0.0,0.0,60.0,0.0,-2.6,0.0,0.0
25%,47.0,0.0,2.0,120.0,214.0,0.0,0.0,120.0,0.0,0.0,0.0,0.0
50%,54.0,0.0,3.0,130.0,244.635389,0.0,0.0,138.0,0.0,0.6,1.0,1.0
75%,60.0,0.0,3.0,140.0,267.0,0.0,1.0,156.0,1.0,1.5,1.0,1.0
max,77.0,1.0,3.0,200.0,603.0,1.0,2.0,202.0,1.0,6.2,2.0,1.0


Padronização (utiliza média e desvio padrão como referência)  
Normalização (utiliza os valores máximo e mínimo como referência)

In [15]:
from sklearn.preprocessing import StandardScaler # Padronização (StandardScaler) -> escala z-score. Média 0 e desvio padrão 1.
# Já a Normalização (MinMaxScaler) deixa os valores entre 0 e 1.

In [16]:
previsores_esc = StandardScaler().fit_transform(previsores) #Transformação de previsores quanto a sua escala utilizando padronização
previsores_esc

array([[-1.43220634, -0.51630861, -1.34470119, ..., -0.82431012,
        -0.83150225, -1.05109458],
       [-0.47805725,  1.9368261 , -0.27058012, ..., -0.82431012,
         0.10625149,  0.59651863],
       [-1.75025603, -0.51630861, -1.34470119, ..., -0.82431012,
        -0.83150225, -1.05109458],
       ...,
       [ 0.37007527, -0.51630861,  0.80354095, ...,  1.21313565,
         0.29380223,  0.59651863],
       [ 0.37007527,  1.9368261 , -1.34470119, ..., -0.82431012,
        -0.83150225,  0.59651863],
       [-1.64423947, -0.51630861, -0.27058012, ..., -0.82431012,
        -0.83150225, -1.05109458]], shape=(917, 11))

In [17]:
previsores_df = pd.DataFrame(previsores_esc) # Transforma o previsores_esc em um dataframe
previsores_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,-1.432206,-0.516309,-1.344701,0.414627,0.832075,-0.551733,-0.749818,1.383339,-0.824310,-0.831502,-1.051095
1,-0.478057,1.936826,-0.270580,1.526360,-1.212261,-0.551733,-0.749818,0.754736,-0.824310,0.106251,0.596519
2,-1.750256,-0.516309,-1.344701,-0.141240,0.719543,-0.551733,0.491306,-1.523953,-0.824310,-0.831502,-1.051095
3,-0.584074,1.936826,0.803541,0.303453,-0.574578,-0.551733,-0.749818,-1.131075,1.213136,0.575128,0.596519
4,0.052026,-0.516309,-0.270580,0.970493,-0.930931,-0.551733,-0.749818,-0.581047,-0.824310,-0.831502,-1.051095
...,...,...,...,...,...,...,...,...,...,...,...
912,-0.902124,-0.516309,-2.418822,-1.252973,0.363191,-0.551733,-0.749818,-0.188170,-0.824310,0.293802,0.596519
913,1.536257,-0.516309,0.803541,0.636973,-0.968441,1.812470,-0.749818,0.165420,-0.824310,2.356860,0.596519
914,0.370075,-0.516309,0.803541,-0.141240,-2.131275,-0.551733,-0.749818,-0.856061,1.213136,0.293802,0.596519
915,0.370075,1.936826,-1.344701,-0.141240,-0.161960,-0.551733,1.732430,1.461915,-0.824310,-0.831502,0.596519


In [18]:
previsores_df.mean()

0     1.859654e-16
1     7.748558e-18
2     1.046055e-16
3     7.767929e-16
4    -1.869340e-16
5     4.649135e-17
6     0.000000e+00
7    -5.114048e-16
8    -1.046055e-16
9     7.748558e-17
10   -3.874279e-17
dtype: float64

In [19]:
previsores_df.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
count,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0
mean,1.859654e-16,7.748558e-18,1.046055e-16,7.767929e-16,-1.86934e-16,4.649135e-17,0.0,-5.114048e-16,-1.046055e-16,7.748558000000001e-17,-3.8742790000000005e-17
std,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546
min,-2.704405,-0.5163086,-2.418822,-2.920572,-2.994023,-0.5517333,-0.749818,-3.016886,-0.8243101,-3.269662,-1.051095
25%,-0.6900904,-0.5163086,-0.2705801,-0.6971063,-0.5745784,-0.5517333,-0.749818,-0.6596226,-0.8243101,-0.8315022,-1.051095
50%,0.05202558,-0.5163086,0.803541,-0.1412398,0.0,-0.5517333,-0.749818,0.04755658,-0.8243101,-0.26885,0.5965186
75%,0.688125,-0.5163086,0.803541,0.4146267,0.4194568,-0.5517333,0.491306,0.7547357,1.213136,0.5751284,0.5965186
max,2.490407,1.936826,0.803541,3.749826,6.721265,1.81247,1.73243,2.561971,1.213136,4.982571,2.244132


In [20]:
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289.0,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180.0,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283.0,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214.0,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195.0,0,Normal,122,N,0.0,Up,0


#### **Codificação de Variáveis Categóricas**

In [21]:
from sklearn.preprocessing import LabelEncoder

In [22]:
previsores2 = df.iloc[:,0:11].values
previsores2


array([[40, 'M', 'ATA', ..., 'N', 0.0, 'Up'],
       [49, 'F', 'NAP', ..., 'N', 1.0, 'Flat'],
       [37, 'M', 'ATA', ..., 'N', 0.0, 'Up'],
       ...,
       [57, 'M', 'ASY', ..., 'Y', 1.2, 'Flat'],
       [57, 'F', 'ATA', ..., 'N', 0.0, 'Flat'],
       [38, 'M', 'NAP', ..., 'N', 0.0, 'Up']],
      shape=(917, 11), dtype=object)

In [23]:
previsores2[:,1] = LabelEncoder().fit_transform(previsores2[:,1])
previsores2[:,2] = LabelEncoder().fit_transform(previsores2[:,2])
previsores2[:,6] = LabelEncoder().fit_transform(previsores2[:,6])
previsores2[:,8] = LabelEncoder().fit_transform(previsores2[:,8])
previsores2[:,10] = LabelEncoder().fit_transform(previsores2[:,10])
previsores2

array([[40, 1, 1, ..., 0, 0.0, 2],
       [49, 0, 2, ..., 0, 1.0, 1],
       [37, 1, 1, ..., 0, 0.0, 2],
       ...,
       [57, 1, 0, ..., 1, 1.2, 1],
       [57, 0, 1, ..., 0, 0.0, 1],
       [38, 1, 2, ..., 0, 0.0, 2]], shape=(917, 11), dtype=object)

##### **OneHotEncoder - Criação de variáveis Dummy (fictícia)**

>⚠️**Cuidado** com multicolinearidade (variáveis altamente corelacionadas entre si)

Variáveis dummy (fictícias) são criadas para evitar multicolinearidade. Multicolinearidade ocorre quando duas ou mais variáveis independentes em um modelo de regressão estão altamente correlacionadas, o que pode distorcer os resultados do modelo. Assim é possível eliminar uma das variáveis dummy para cada categoria, reduzindo a redundância e melhorando a interpretabilidade do modelo.

<p><strong>Cuidado com a multicolinearidade</strong> (variáveis altamente correlacionadas entre si).</p>

<table style="border:1px solid #ccc; border-collapse:collapse;">
<tr>
<td style="padding:10px; vertical-align:top;">
<strong>Você faz atividade física?</strong>
</td>
<td style="padding:10px;">
<table style="border-collapse:collapse;">
<tr><td><b>A = 0</b></td><td>Não.</td></tr>
<tr><td><b>B = 1</b></td><td>Sim, um ou dois dias por semana.</td></tr>
<tr><td><b>C = 2</b></td><td>Sim, três ou quatro dias por semana.</td></tr>
<tr><td><b>D = 3</b></td><td>Sim, pelo menos cinco dias por semana.</td></tr>
</table>
</td>
</tr>
</table>

<pre>
A B C D
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
</pre>


In [24]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

**Parâmetros ColumnTransformer**

* name: nome dado a transformação;
* transformer: tipo de transformador (OneHotEncoder);
* columns: colunas a serem transformadas;
* remaider: o que acontecerá com o restante das colunas não relacionadas: 1) drop = exclui as outras colunas; 2) passthrough = mantém as outras colunas. drop é o default;
* sparse_threshold: parâmetro classificador de matrizes esparsas: default = 0.3;
* n_jobs: número de trabalhos a serem executados em paralelo: default -> nenhum;
* transformer_weights: definição dos pesos aos transformadores;
* verbose: default = False; se True a execução é apresentada na tela.

In [25]:
previsores3 = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1,2,6,8,10])], remainder='passthrough', verbose=True).fit_transform(previsores2)

[ColumnTransformer] ........ (1 of 2) Processing OneHot, total=   0.0s
[ColumnTransformer] ..... (2 of 2) Processing remainder, total=   0.0s


In [26]:
previsores3

array([[0.0, 1.0, 0.0, ..., 0, 172, 0.0],
       [1.0, 0.0, 0.0, ..., 0, 156, 1.0],
       [0.0, 1.0, 0.0, ..., 0, 98, 0.0],
       ...,
       [0.0, 1.0, 1.0, ..., 0, 115, 1.2],
       [1.0, 0.0, 0.0, ..., 0, 174, 0.0],
       [0.0, 1.0, 0.0, ..., 0, 173, 0.0]], shape=(917, 20), dtype=object)

In [27]:
previsores3.shape

(917, 20)

In [28]:
previsores3_df= pd.DataFrame(previsores3)
previsores3_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,40,140,289.0,0,172,0.0
1,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,49,160,180.0,0,156,1.0
2,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,37,130,283.0,0,98,0.0
3,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,48,138,214.0,0,108,1.5
4,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,54,150,195.0,0,122,0.0


In [29]:
df.head() # Original DataFrame

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289.0,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180.0,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283.0,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214.0,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195.0,0,Normal,122,N,0.0,Up,0


##### **Escalonamento de previsores3**

In [30]:
previsores3_esc = StandardScaler().fit_transform(previsores3)
previsores3_esc

array([[-0.51630861,  0.51630861, -1.08542493, ..., -0.55173333,
         1.38333943, -0.83150225],
       [ 1.9368261 , -1.9368261 , -1.08542493, ..., -0.55173333,
         0.75473573,  0.10625149],
       [-0.51630861,  0.51630861, -1.08542493, ..., -0.55173333,
        -1.52395266, -0.83150225],
       ...,
       [-0.51630861,  0.51630861,  0.92129817, ..., -0.55173333,
        -0.85606123,  0.29380223],
       [ 1.9368261 , -1.9368261 , -1.08542493, ..., -0.55173333,
         1.46191489, -0.83150225],
       [-0.51630861,  0.51630861, -1.08542493, ..., -0.55173333,
         1.42262716, -0.83150225]], shape=(917, 20))

In [31]:
previsores3_esc_df = pd.DataFrame(previsores3_esc)
previsores3_esc_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,-0.516309,0.516309,-1.085425,2.073784,-0.531524,-0.229810,-0.507826,0.815013,-0.490781,0.824310,-0.824310,-0.271607,-1.001091,1.149573,-1.432206,0.414627,0.832075,-0.551733,1.383339,-0.831502
1,1.936826,-1.936826,-1.085425,-0.482210,1.881384,-0.229810,-0.507826,0.815013,-0.490781,0.824310,-0.824310,-0.271607,0.998910,-0.869888,-0.478057,1.526360,-1.212261,-0.551733,0.754736,0.106251
2,-0.516309,0.516309,-1.085425,2.073784,-0.531524,-0.229810,-0.507826,-1.226974,2.037569,0.824310,-0.824310,-0.271607,-1.001091,1.149573,-1.750256,-0.141240,0.719543,-0.551733,-1.523953,-0.831502
3,1.936826,-1.936826,0.921298,-0.482210,-0.531524,-0.229810,-0.507826,0.815013,-0.490781,-1.213136,1.213136,-0.271607,0.998910,-0.869888,-0.584074,0.303453,-0.574578,-0.551733,-1.131075,0.575128
4,-0.516309,0.516309,-1.085425,-0.482210,1.881384,-0.229810,-0.507826,0.815013,-0.490781,0.824310,-0.824310,-0.271607,-1.001091,1.149573,0.052026,0.970493,-0.930931,-0.551733,-0.581047,-0.831502
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
912,-0.516309,0.516309,-1.085425,-0.482210,-0.531524,4.351412,-0.507826,0.815013,-0.490781,0.824310,-0.824310,-0.271607,0.998910,-0.869888,-0.902124,-1.252973,0.363191,-0.551733,-0.188170,0.293802
913,-0.516309,0.516309,0.921298,-0.482210,-0.531524,-0.229810,-0.507826,0.815013,-0.490781,0.824310,-0.824310,-0.271607,0.998910,-0.869888,1.536257,0.636973,-0.968441,1.812470,0.165420,2.356860
914,-0.516309,0.516309,0.921298,-0.482210,-0.531524,-0.229810,-0.507826,0.815013,-0.490781,-1.213136,1.213136,-0.271607,0.998910,-0.869888,0.370075,-0.141240,-2.131275,-0.551733,-0.856061,0.293802
915,1.936826,-1.936826,-1.085425,2.073784,-0.531524,-0.229810,1.969177,-1.226974,-0.490781,0.824310,-0.824310,-0.271607,0.998910,-0.869888,0.370075,-0.141240,-0.161960,-0.551733,1.461915,-0.831502


In [32]:
previsores3_esc_df.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
count,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0
mean,1.084798e-16,-1.472226e-16,1.937139e-17,-3.8742790000000005e-17,3.8742790000000005e-17,6.973702000000001e-17,0.0,-9.298269e-17,1.549712e-17,-4.2617070000000006e-17,4.2617070000000006e-17,8.523413e-17,0.0,-3.8742790000000005e-17,1.859654e-16,7.884157e-16,3.014189e-15,-1.549712e-17,-5.114048e-16,-1.859654e-16
std,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546
min,-0.5163086,-1.936826,-1.085425,-0.4822104,-0.5315237,-0.2298105,-0.507826,-1.226974,-0.490781,-1.213136,-0.8243101,-0.2716072,-1.001091,-0.8698879,-2.704405,-2.920572,-2.994023,-0.5517333,-3.016886,-3.269662
25%,-0.5163086,0.5163086,-1.085425,-0.4822104,-0.5315237,-0.2298105,-0.507826,-1.226974,-0.490781,-1.213136,-0.8243101,-0.2716072,-1.001091,-0.8698879,-0.6900904,-0.6971063,-0.5745784,-0.5517333,-0.6596226,-0.8315022
50%,-0.5163086,0.5163086,0.9212982,-0.4822104,-0.5315237,-0.2298105,-0.507826,0.8150134,-0.490781,0.8243101,-0.8243101,-0.2716072,0.99891,-0.8698879,0.05202558,-0.1412398,3.19836e-15,-0.5517333,0.04755658,-0.26885
75%,-0.5163086,0.5163086,0.9212982,-0.4822104,-0.5315237,-0.2298105,-0.507826,0.8150134,-0.490781,0.8243101,1.213136,-0.2716072,0.99891,1.149573,0.688125,0.4146267,0.4194568,-0.5517333,0.7547357,0.5751284
max,1.936826,0.5163086,0.9212982,2.073784,1.881384,4.351412,1.969177,0.8150134,2.037569,0.8243101,1.213136,3.681787,0.99891,1.149573,2.490407,3.749826,6.721265,1.81247,2.561971,4.982571


**RESUMO PRÉ-PROCESSAMENTO**

* target = variável que se pretende atingir (tem ou não doença cardiáca);
* previsores = conjunto de variáveis previsoras junto com as variáveis categóricas transformadas em numéricas, sem escalonar;
* previsores_esc = conjunto de variáveis previsoras junto com as variáveis categóricas transformadas em numéricas escalonadas;
* previsores2 = conjunto das variáveis previsoras com as categóricas transformadas em numéricas pelo LabelEncoder;
* previsores3 = conjunto de variáveis previsoras transformadas pelo LabelEncoder e OneHotEncoder, sem escalonar;
* previsores3_esc = conjunto de variáveis previsoras transformadas pelo LabelEncoder e OneHotEncoder escalonadas.


### **Redução de Dimensionalidade**

O objetivo é selecionar os melhores componentes (atributos) para o treinamento do algoritmo, através da análise correlações entre as variáveis.
4 técnicas principais PCA, Kernel PCA, LDA e t-SNE:
| **Característica**               | **PCA (Principal Component Analysis)**                        | **LDA (Linear Discriminant Analysis)**                        | **t-SNE (t-Distributed Stochastic Neighbor Embedding)**  |
| -------------------------------- | ------------------------------------------------------------- | ------------------------------------------------------------- | -------------------------------------------------------- |
| **Tipo de técnica**              | Linear, **não supervisionada**                                | Linear, **supervisionada**                                    | **Não linear**, não supervisionada                       |
| **Categoria geral**              | Projeção / Transformação linear                               | Projeção linear supervisionada                                | Incorporação (Manifold Learning)                         |
| **Objetivo principal**           | Maximizar a **variância** dos dados                           | Maximizar a **separação entre classes**                       | Preservar **relações de vizinhança** (distâncias locais) |
| **Entrada necessária**           | Apenas os dados (sem rótulos)                                 | Dados **com rótulos (classes)**                               | Apenas os dados (sem rótulos)                            |
| **Saída**                        | Componentes principais (combinações lineares)                 | Componentes discriminantes (combinações lineares)             | Coordenadas de baixa dimensão (normalmente 2D ou 3D)     |
| **Tipo de relação capturada**    | Linear                                                        | Linear                                                        | **Não linear**                                           |
| **Uso típico**                   | Pré-processamento e redução para modelos de ML                | Classificação supervisionada                                  | Visualização de alta dimensão (ex.: embeddings, imagens) |
| **Preserva distâncias globais?** | Sim (globalmente)                                             | Parcialmente                                                  | Não (foca nas distâncias locais)                         |
| **Interpretação matemática**     | Baseada em autovalores e autovetores da matriz de covariância | Baseada em razão entre dispersão entre-classes e intra-classe | Baseada em distribuições de probabilidade de vizinhança  |
| **Velocidade**                   | Rápido                                                        | Rápido                                                        | Lento (custo computacional alto)                         |
| **Dimensões de saída**           | Qualquer número ≤ número de variáveis                         | Máximo = número de classes – 1                                | Normalmente 2D ou 3D                                     |
| **Aplicações comuns**            | Compressão de dados, visualização linear, pré-processamento   | Reconhecimento facial, classificação supervisionada           | Visualização de clusters e embeddings complexos          |


### 🔄 Comparando:

| Técnica          | Lida bem com separações lineares? | Lida bem com separações não lineares? |
| ---------------- | --------------------------------- | ------------------------------------- |
| **PCA**          | ✅ Sim                             | ❌ Não                                 |
| **LDA**          | ✅ Sim (usa rótulos)               | ❌ Não                                 |
| **t-SNE / UMAP** | ✅ Parcialmente                    | ✅ Sim (ótimos para isso)              |

#### **Análise dos Componentes Principais (PCA: Principal Component Analysis)**

* **Seleção de características:** seleciona os melhores atributos e utiliza sem transformações;
* **Extração de características:** Encotra relacionamentos dos melhores atributos e cria novos atributos.

É um algoritmo de aprendizagem não-supervisionada.  
Aplica-se **MELHOR** em dados não linearmente separáveis.

In [33]:
from sklearn.decomposition import PCA

In [34]:
pca = PCA(n_components=4, svd_solver='arpack') # n_components -> número de componentes principais a serem mantidos. No caso, cria 4 novos atributos. svd_solver -> algoritmo utilizado para decomposição dos dados. 'arpack' é mais eficiente para n_components menor que o número de atributos originais, 'full' se aplica quando n_components é igual ao número de atributos originais e 'auto' deixa o algoritmo escolher o melhor método (default).

In [35]:
# Lembrando: previsores2 é a matriz original com os atributos categóricos transformados em numéricos via LabelEncoder
previsores_pca = pca.fit_transform(previsores2)
previsores_pca.shape

(917, 4)

In [36]:
previsores_pca

array([[  44.01218603,   36.15137592,   10.64727631,   -9.47126222],
       [ -63.9918455 ,   13.93849233,   31.69212503,   -5.30052573],
       [  38.53844277,  -33.91712222,  -12.48837374,  -21.53860158],
       ...,
       [-113.3467467 ,  -23.48595247,   -2.51064362,    1.14935806],
       [  -9.1141306 ,   35.90083188,    4.81814643,    9.1238555 ],
       [ -70.01342608,   35.68741686,   12.10984845,  -10.51663588]],
      shape=(917, 4))

In [37]:
# Quanto cada componente (coluna) contribui para explicar a variância dos dados originais. A primeira coluna é a principal componente, a segunda coluna é o segundo componente principal e assim por diante. Ou seja, quando cada componente explica os dados originais. Ideal é que poucas componentes expliquem a maior parte dos dados originais. É ideal que soma de todas as variâncias explicadas deve ser igual a 1 (100% dos dados originais).
for i in range((pca.explained_variance_ratio_).size):
   print(f'Variância explicada pela Componente Principal {i+1}: {pca.explained_variance_ratio_[i]*100:.3f}%')


Variância explicada pela Componente Principal 1: 72.848%
Variância explicada pela Componente Principal 2: 17.184%
Variância explicada pela Componente Principal 3: 8.122%
Variância explicada pela Componente Principal 4: 1.767%


In [38]:
print(f'Novos componentes explicam {pca.explained_variance_ratio_.sum()*100:.3f}% dos dados originais. No caso, todos os atributos {len(df.columns)-1} originais.') # -1, pois a última coluna é o target

Novos componentes explicam 99.921% dos dados originais. No caso, todos os atributos 11 originais.


#### **Kernel PCA**

Versão **não linear** do PCA tradicional que usa o **kernel trick** (mesmo conceito usado no SVM) pra projetar os dados num espaço de alta dimensão e permitir capturar padrões **não lineares**, mantendo ainda a estrutura matemática elegante do PCA. O kernel trick é tipo fazer o computador enxergar em “4D”, mas só calcular em “2D”. Ele economiza cálculo e permite capturar padrões curvos e complexos sem sair da matemática linear.

In [39]:
from sklearn.decomposition import KernelPCA

In [40]:
# rbf é o kernel mais comum, mas existem outros como 'linear', 'poly', 'sigmoid','cossine' e 'precomputed' 'rbf' faz a transformação não linear dos dados, capturando relações mais complexas entre os atributos. linear é equivalente ao PCA tradicional, poly é para relações polinomiais, sigmoid é inspirado em redes neurais e consegue capturar relações não lineares complexas, 'sigmoid' é inspirado em redes neurais e captura relações não lineares complexas, 'cossine' usa similaridade cosseno para medir a distância entre pontos, 'precomputed' permite usar uma matriz de similaridade pré-calculada.

# Criação e ajuste do modelo
kpca = KernelPCA(kernel='rbf', n_components=4)
kpca.fit(previsores2)

# Transformação dos dados
previsores_kpca = kpca.transform(previsores2)
previsores_kpca.shape

(917, 4)

In [41]:
previsores_kpca

array([[-0.00249772, -0.00290225, -0.0027372 , -0.00191636],
       [-0.00249877, -0.00290359, -0.00273854, -0.00191743],
       [-0.00249785, -0.00290241, -0.00273736, -0.00191649],
       ...,
       [-0.00249774, -0.00290227, -0.00273723, -0.00191638],
       [-0.00249793, -0.00290252, -0.00273748, -0.00191659],
       [-0.00249772, -0.00290225, -0.0027372 , -0.00191637]],
      shape=(917, 4))

In [42]:
# Recupera autovalores conforme a versão do sklearn
if hasattr(kpca, "eigenvalues_"):  # versões novas
    lambdas = kpca.eigenvalues_
elif hasattr(kpca, "lambdas_"):    # versões antigas
    lambdas = kpca.lambdas_
else:
    raise AttributeError("Essa versão do scikit-learn não expõe autovalores publicamente.")

# Exibe proporção de variância (aproximada)
soma = np.sum(lambdas)
soma_contribuicao = 0
for i, l in enumerate(lambdas):
    soma_contribuicao += (l / soma) * 100
    print(f'Componente {i+1}: {(l / soma) * 100}% (proporcional à variância)')
print(f'Total aproximado de variância explicada pelos componentes: {soma_contribuicao}%')
# Mostra a forma do resultado
print("Shape final:", previsores_kpca.shape)

Componente 1: 26.485301465791984% (proporcional à variância)
Componente 2: 25.319954549818856% (proporcional à variância)
Componente 3: 24.7501168429629% (proporcional à variância)
Componente 4: 23.44462714142626% (proporcional à variância)
Total aproximado de variância explicada pelos componentes: 100.0%
Shape final: (917, 4)


#### **Análise do Discriminante Linear (LDA: Linear Discriminant Analysis)**

Algoritmo supervisionado, pois utiliza a classe como referência de seleção (utiliza o **target**).  
Aplicado em situações com muitos atributos previsores e também com atributo com muitas classes.

In [43]:
# n_components -> número de componentes principais a serem mantidos. No caso, cria 1 novo atributo. Número maximo de componentes é igual ao número de classes menos 1. Nesse caso, 2 classes - 1 = 1 componente máximo. No caso, 1 é pouco, mas é apenas um exemplo.
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis(n_components=1)

In [44]:
previsores_lda = lda.fit_transform(previsores2, target)
previsores_lda

array([[-1.47297727],
       [-1.41360735],
       [-0.96705302],
       [ 0.53331037],
       [-1.45783427],
       [-1.78559221],
       [-2.28906835],
       [-1.26844095],
       [ 1.03044735],
       [-1.8033219 ],
       [-2.56103248],
       [ 1.08833702],
       [-1.4298088 ],
       [ 1.02172609],
       [-2.51881925],
       [-0.75582909],
       [-0.27447783],
       [-2.33841952],
       [ 0.50562225],
       [ 0.03155735],
       [-2.89530718],
       [-0.23402029],
       [-2.26833719],
       [ 0.97019565],
       [-1.70998121],
       [-2.0730337 ],
       [ 1.62722174],
       [-0.96486408],
       [-1.52502126],
       [-1.33460621],
       [-0.03948873],
       [-1.44459749],
       [ 0.63936919],
       [ 0.34808635],
       [-2.23945383],
       [-1.48957548],
       [ 2.4746182 ],
       [-2.13691975],
       [-1.54252555],
       [ 0.30741381],
       [-1.8748176 ],
       [-0.26749988],
       [-1.51713745],
       [-1.79186716],
       [ 1.00348547],
       [ 0

In [45]:
lda.explained_variance_ratio_

array([1.])