#### Biblioteca usadas no Pré-processamento

- pandas: leitura e manipulação de dados em tabelas (DataFrames)
- imputação (preenchimento) de **valores faltantes**
- codificação **categórica** e **normalização**
- separa dados em **treino/teste**

In [1]:
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA

### Lendo arquivo de dados

In [2]:
df = pd.read_csv('https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIM/DO23OPEN.csv', encoding='latin1', sep=';')

  df = pd.read_csv('https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIM/DO23OPEN.csv', encoding='latin1', sep=';')


### Informações Data Frame

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465610 entries, 0 to 1465609
Data columns (total 86 columns):
 #   Column      Non-Null Count    Dtype  
---  ------      --------------    -----  
 0   contador    1465610 non-null  int64  
 1   ORIGEM      1465610 non-null  int64  
 2   TIPOBITO    1465610 non-null  int64  
 3   DTOBITO     1465610 non-null  int64  
 4   HORAOBITO   1416392 non-null  float64
 5   NATURAL     1399908 non-null  float64
 6   CODMUNNATU  1381624 non-null  float64
 7   DTNASC      1462816 non-null  float64
 8   IDADE       1465610 non-null  int64  
 9   SEXO        1465610 non-null  int64  
 10  RACACOR     1442526 non-null  float64
 11  ESTCIV      1399251 non-null  float64
 12  ESC         1375905 non-null  float64
 13  ESC2010     1367238 non-null  float64
 14  SERIESCFAL  404622 non-null   float64
 15  OCUP        1263542 non-null  float64
 16  CODMUNRES   1465610 non-null  int64  
 17  LOCOCOR     1465610 non-null  int64  
 18  CODESTAB    1064156 no

### Estatísticas Descritivas

- Retorna medidas de tendência central (análise geral).

In [4]:
df.describe

<bound method NDFrame.describe of          contador  ORIGEM  TIPOBITO   DTOBITO  HORAOBITO  NATURAL  CODMUNNATU  \
0               1       1         2  14022023      930.0    833.0    330270.0   
1               2       1         2  14022023     1730.0    822.0    221110.0   
2               3       1         2  14022023      500.0    822.0    220790.0   
3               4       1         2  14022023     2235.0    823.0    231180.0   
4               5       1         2  14022023      940.0    841.0    411350.0   
...           ...     ...       ...       ...        ...      ...         ...   
1465605   1465606       1         2  30112023     2100.0    816.0    160050.0   
1465606   1465607       1         2  12122023     1220.0    815.0    150060.0   
1465607   1465608       1         2  22122023     1734.0    815.0    150060.0   
1465608   1465609       1         2  22122023     2030.0    813.0    130140.0   
1465609   1465610       1         2  31122023        NaN    851.0    510385

### Dimensões do DF

- Analise a estrutura do **DataFrame** para entender o conjunto de dados: formato, tipo de dados e valores ausentes.

In [5]:
# Formato dos dados
df.shape

(1465610, 86)

In [6]:
# Tipos de variáveis
df.dtypes

contador        int64
ORIGEM          int64
TIPOBITO        int64
DTOBITO         int64
HORAOBITO     float64
               ...   
ALTCAUSA      float64
CAUSABAS_O     object
TPPOS          object
TP_ALTERA     float64
CB_ALT         object
Length: 86, dtype: object

### Dimensões do DF

In [7]:
# Primeiras 5 linhas
df.head()

Unnamed: 0,contador,ORIGEM,TIPOBITO,DTOBITO,HORAOBITO,NATURAL,CODMUNNATU,DTNASC,IDADE,SEXO,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
0,1,1,2,14022023,930.0,833.0,330270.0,10071954.0,468,1,...,,,,,,,I10,,,
1,2,1,2,14022023,1730.0,822.0,221110.0,12091956.0,466,1,...,,,,,,,I678,,,
2,3,1,2,14022023,500.0,822.0,220790.0,10011953.0,470,2,...,,,,,,,K750,,,
3,4,1,2,14022023,2235.0,823.0,231180.0,15121943.0,479,2,...,,,,,,,I64,S,,
4,5,1,2,14022023,940.0,841.0,411350.0,9041973.0,449,2,...,,M,,,,,C189,S,,


### Redução da dimensão horizontal (seleção de colunas)

In [8]:
cols_num = ['IDADE', 'PESO_NASC', 'QTDE_EMB']
cols_cat = ['RACACOR', 'ESTCIVIL', 'ESC', 'OCUP', 'CAUSABAS', 'LOCOCOR']

### Dimensões do DF

In [9]:
# Valores ausentes
df.isnull().sum()

contador            0
ORIGEM              0
TIPOBITO            0
DTOBITO             0
HORAOBITO       49218
               ...   
ALTCAUSA      1436759
CAUSABAS_O       1037
TPPOS          517975
TP_ALTERA     1460449
CB_ALT        1460869
Length: 86, dtype: int64

### Biblioteca para Tratamento de Valores Ausentes

- `SimpleImputer` é usado para tratar **dados ausentes** (também chamados de "NaN" ou "missing values").

Ele oferece diferentes estratégias para preencher esses valores ausentes, como:

- `mean` **(média)**: Preenche os valores ausentes com a **média da coluna**.
- `median` **(mediana)**: Preenche os valores ausentes com a **mediana da coluna**.
- `most_frequent` **(mais frequente)**: Preenche os valores ausentes **com o valor mais comum (o que mais se repete)** da coluna.
- `constant` **(constante)**: Preenche os valores ausentes com um **valor constante definido** por você.
- `Moda`: valor/texto que aparece com maior frequência em um conjunto de dados

### Tratamento de Valores Ausentes

In [10]:
im_num = SimpleImputer(strategy='median')
im_cat = SimpleImputer(strategy='most_frequent')

In [11]:
for col in cols_num:
    if col in df.columns:
        df[col] = im_num.fit_transform(df[[col]])

### Biblioteca para Transformação de Variáveis Categóricas

`OneHotEncoder`: cria uma nova coluna binária para cada categoria única.
Por exemplo, se a coluna "cidade" tem os valores "São Paulo", "Rio de Janeiro" e "Belo Horizonte", o `OneHotEncoder` **criará três novas colunas, uma para cada cidade** e atribuirá um valor de 1 na coluna correspondente e 0 nas outras.

### Transformação de Variáveis Categóricas

In [12]:
cols_cat_to_encode = ['RACACOR', 'ESC', 'OCUP', 'CAUSABAS']
enc = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

In [13]:
df_processed = pd.concat([df.drop(columns=cols_cat_to_encode).reset_index(drop=True)], axis=1)

### Biblioteca para Padronização de Variáveis Numéricas

- `StandardScaler`: Normaliza dados numéricos.
- Transforma os dados de forma que eles tenham uma média de 0 e 1 e um desvio padrão de 1.

É útil para muitos algoritmos, pois o algoritmo pode dar mais peso às
variáveis com valores maiores, o que pode prejudicar a performance.

### Padronização de Variáveis Numéricas

In [14]:
cols_cat_to_scale = ['IDADE']
scaler = StandardScaler()

In [15]:
df_processed[cols_cat_to_scale] = scaler.fit_transform(df_processed[cols_cat_to_scale])

### Divisão da Base em Treino e Teste

- Para finalizar, prepare os dados para treinamento do modelo. O objetivo é prever o sexo do indivíduo com base em outras características.
- Separar a variável alvo (SEXO) das demais e, em seguida, dividir os
dados em 70% para treino e 30% para teste.

In [16]:
X = df_processed.drop(columns=['ORIGEM', 'TIPOBITO', 'SEXO'])
y = df_processed['SEXO']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [17]:
# Tamanho do conjunto de treino
X_train.shape

(1025927, 79)

In [18]:
# Tamanho do conjunto de teste
X_test.shape

(439683, 79)

### Exibição das bases

- 20 primeiros registros de X_train (características de treino)

In [19]:
X_train.head(20)

Unnamed: 0,contador,DTOBITO,HORAOBITO,NATURAL,CODMUNNATU,DTNASC,IDADE,ESTCIV,ESC2010,SERIESCFAL,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
985644,985645,2092023,1235.0,831.0,310620.0,25071966.0,-0.125073,1.0,0.0,,...,,,,,,,C349,N,,
620810,620811,7062023,1532.0,823.0,230930.0,16091980.0,-0.435294,2.0,2.0,,...,,M,,,,,I619,N,,
137573,137574,6022023,10.0,835.0,351200.0,29071947.0,0.247191,9.0,9.0,,...,,,,,,,J81,N,,
726529,726530,1072023,1030.0,841.0,412220.0,25101932.0,0.557412,3.0,1.0,4.0,...,,,,,,,I110,N,,
405508,405509,16042023,2144.0,835.0,353140.0,8081948.0,0.22651,1.0,5.0,,...,,,,,,,A418,N,,
750795,750796,7072023,2133.0,826.0,260350.0,9051988.0,-0.580064,1.0,1.0,,...,,M,,,,,A270,,,
630831,630832,9062023,1910.0,831.0,311710.0,17051938.0,0.454005,1.0,0.0,,...,,,,,,,E142,N,,
1350638,1350639,2122023,535.0,835.0,351090.0,1041923.0,0.764226,2.0,1.0,2.0,...,,,,,,,J690,N,,
59398,59399,16012023,2323.0,831.0,312360.0,6021938.0,0.433324,3.0,1.0,2.0,...,,,,,,,B342,,,
996459,996460,5092023,2158.0,,,15021950.0,0.205829,1.0,3.0,,...,,,,,,,N390,N,,


- 20 primeiros registros de y_train (rótulos de treino)

In [20]:
y_train.head(20)

985644     2
620810     2
137573     1
726529     1
405508     2
750795     2
630831     1
1350638    1
59398      2
996459     2
767744     2
309782     2
1417476    2
362182     1
984722     2
982511     2
440832     1
326252     2
502257     1
431603     1
Name: SEXO, dtype: int64

- 20 primeiros registros de X_test (características de teste) 

In [21]:
X_test.head(20)

Unnamed: 0,contador,DTOBITO,HORAOBITO,NATURAL,CODMUNNATU,DTNASC,IDADE,ESTCIV,ESC2010,SERIESCFAL,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
44622,44623,12012023,1310.0,822.0,221100.0,10081998.0,-0.807559,1.0,4.0,,...,,M,,,,,R96,S,,
387085,387086,12042023,939.0,822.0,220820.0,15031959.0,0.019696,2.0,1.0,4.0,...,,,,,,,E142,N,,
235197,235198,4032023,1551.0,,,20081963.0,-0.083711,2.0,3.0,3.0,...,,,,,,,J189,N,,
407214,407215,16042023,500.0,831.0,316010.0,18111987.0,-0.580064,2.0,5.0,,...,,M,,,,,W194,S,,
490581,490582,7052023,1856.0,843.0,431500.0,31101954.0,0.102422,3.0,2.0,8.0,...,,,,,,,K319,N,,
729820,729821,2072023,922.0,835.0,355220.0,15031945.0,0.309236,2.0,3.0,3.0,...,,,,,,,C169,N,,
762105,762106,9072023,1400.0,842.0,420840.0,20051950.0,0.205829,2.0,1.0,4.0,...,,,,,,,J440,N,,
1239191,1239192,5112023,1830.0,822.0,220050.0,10101921.0,0.805589,1.0,1.0,,...,,,,,,,C61,N,,
1340371,1340372,30112023,2323.0,841.0,411330.0,3031968.0,-0.166436,3.0,9.0,,...,,,,,,,C169,N,,
509650,509651,11052023,2000.0,831.0,312570.0,6061943.0,0.329917,3.0,1.0,,...,,,,,,,R99,,,


-  20 primeiros registros de y_test (rótulos de teste)

In [22]:
y_test.head(20)

44622      2
387085     1
235197     1
407214     2
490581     2
729820     2
762105     2
1239191    1
1340371    1
509650     2
484301     2
79453      1
463397     1
460543     1
539971     2
1282077    1
317009     2
231313     1
1397855    2
1408223    2
Name: SEXO, dtype: int64