In [3]:
import numpy as np
import pandas as pd

# Dados de exemplo
data = {
    'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],
    'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],
    'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],
    'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],
    'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],
    'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']
}

df = pd.DataFrame(data)
print(df.shape)
print(df)

(10, 6)
   Idade Gênero  Colesterol  Pressão Sanguínea Fumante  Risco
0   25.0      F       190.0                 70     Não  baixo
1   35.0      M         NaN                 80     Sim  médio
2   45.0      F       240.0                 78     Não   alto
3    NaN      F       225.0                 75     Não  baixo
4   55.0      M       210.0                 72     Sim   alto
5   65.0      M         NaN                130     Não  médio
6   75.0      F       180.0                 60     Sim  baixo
7    NaN      M       195.0                 85     Não  médio
8   85.0      F       220.0                 90     Não  baixo
9   95.0      M         NaN                 77     Sim   alto


In [11]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy="mean")
df["Idade"] = imputer.fit_transform(df[["Idade"]])
df["Colesterol"] = imputer.fit_transform(df[['Colesterol']])

print(df)

   Idade Gênero  Colesterol  Pressão Sanguínea Fumante  Risco
0   25.0      F  190.000000                 70     Não  baixo
1   35.0      M  208.571429                 80     Sim  médio
2   45.0      F  240.000000                 78     Não   alto
3   60.0      F  225.000000                 75     Não  baixo
4   55.0      M  210.000000                 72     Sim   alto
5   65.0      M  208.571429                130     Não  médio
6   75.0      F  180.000000                 60     Sim  baixo
7   60.0      M  195.000000                 85     Não  médio
8   85.0      F  220.000000                 90     Não  baixo
9   95.0      M  208.571429                 77     Sim   alto


In [12]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Enconding da coluna genero e fumante
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), ["Gênero", "Fumante"])],
    remainder="passthrough"
)

# Aplicando o ColumnTransformer aos dados, excluindo a coluna 'Risco'
x = column_transformer.fit_transform(df.drop('Risco', axis=1))
 
# Encoding da coluna 'Risco' usando LabelEncoder
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['Risco'])

In [14]:
from sklearn.preprocessing import StandardScaler

# Instanciando o objeto StandardScaler
scaler = StandardScaler()

# Aplicando o escalonamento no nosso array de características 'X'
x_scaled = scaler.fit_transform(x)


print(x_scaled)

[[ 1.         -1.          0.81649658 -0.81649658 -1.70782513 -1.12281949
  -0.65424414]
 [-1.          1.         -1.22474487  1.22474487 -1.21987509  0.
  -0.09506111]
 [ 1.         -1.          0.81649658 -0.81649658 -0.73192505  1.90015606
  -0.20689772]
 [ 1.         -1.          0.81649658 -0.81649658  0.          0.9932634
  -0.37465263]
 [-1.          1.         -1.22474487  1.22474487 -0.24397502  0.08637073
  -0.54240754]
 [-1.          1.          0.81649658 -0.81649658  0.24397502  0.
   2.70085402]
 [ 1.         -1.         -1.22474487  1.22474487  0.73192505 -1.7274146
  -1.21342717]
 [-1.          1.          0.81649658 -0.81649658  0.         -0.82052194
   0.1845304 ]
 [ 1.         -1.          0.81649658 -0.81649658  1.21987509  0.69096584
   0.46412191]
 [-1.          1.         -1.22474487  1.22474487  1.70782513  0.
  -0.26281602]]
