In [1]:
import warnings
warnings.filterwarnings("ignore")
from scipy.io import arff
#transformação das variáveis
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from random import sample
import pandas as pd
import numpy as np

In [2]:
#funções que auxiliam no tratamento dos dados
#remove os caracteres estranhos da base de dados 
def remove_caracteres(dataset, name_col):
    result = []
    for value in dataset[name_col]:
        result.append(str(value).strip('b\''))
    dataset[name_col] = result

#transforma as variáveis do dataset em numéricas
def transform_variables(columns_df, df):
    labelEncoder_columns_df = LabelEncoder()
    for i in range(len(df.columns)-1):
        columns_df[:,i] = labelEncoder_columns_df.fit_transform(columns_df[:,i])
    return columns_df

#transformar valores incosistentes em nan - caso específico
def transform_nan(df, word):
    for i in range(len(df.columns)-1):
        e = df.iloc[:, i:i+1]
        e[e == word] = np.nan

In [3]:
path = '~/datascience/infant_death/dados.arff'
data = arff.loadarff(path)
df = pd.DataFrame(data[0])

In [4]:
df.columns = ['idade', 'qtdfilhovivo', 'qtfilhomorto', 'escolaridademae', 'estadocivilmae', 
              'gestacao', 'gravidez', 'parto', 'consultas', 'sexo', 'apgar1', 'racacor', 
              'apgar5', 'localnascimento', 'anomalia', 'peso', 'morto']

In [5]:
df

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
0,b'20-23',b'3-4',b'1-2',b'8-11',b'Solteira',b'>=42',b'Unica',b'Vaginal',b'1-3',b'Masculino',b'9-10',b'Parda',b'9-10',b'Domicilio',b'Sem-anomalia',b'2501-4000',b'NO'
1,b'16-19',b'1-2',b'0.0',b'4-7',b'U-Cons',b'37-41',b'Unica',b'Vaginal',b'4-6',b'Masculino',b'7-8',b'Parda',b'9-10',b'Domicilio',b'Sem-anomalia',b'2501-4000',b'NO'
2,b'24-27',b'0.0',b'0.0',b'8-11',b'Casada',b'37-41',b'Unica',b'Vaginal',b'>=7',b'Feminino',b'7-8',b'Parda',b'9-10',b'Hospital',b'Sem-anomalia',b'2501-4000',b'NO'
3,b'16-19',b'0.0',b'1-2',b'4-7',b'Solteira',b'37-41',b'Unica',b'Vaginal',b'>=7',b'Feminino',b'7-8',b'Branca',b'9-10',b'Hospital',b'Sem-anomalia',b'2501-4000',b'NO'
4,b'16-19',b'0.0',b'0.0',b'8-11',b'Solteira',b'37-41',b'Unica',b'Vaginal',b'>=7',b'Masculino',b'7-8',b'Branca',b'9-10',b'Hospital',b'Sem-anomalia',b'2501-4000',b'NO'
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124871,b'10-15',b'0.0',b'0.0',b'4-7',b'Solteira',b'22-27',b'Unica',b'Vaginal',b'4-6',b'Feminino',b'3-4',b'Campo-em-branco',b'7-8',b'Hospital',b'Sem-anomalia',b'<=1000',b'YES'
124872,b'16-19',b'0.0',b'0.0',b'8-11',b'Casada',b'37-41',b'Unica',b'Cesario',b'>=7',b'Feminino',b'0-2',b'Campo-em-branco',b'0-2',b'Hospital',b'Sem-anomalia',b'2501-4000',b'YES'
124873,b'16-19',b'0.0',b'0.0',b'8-11',b'Casada',b'37-41',b'Dupla',b'Cesario',b'>=7',b'Feminino',b'3-4',b'Campo-em-branco',b'7-8',b'Hospital',b'Sem-anomalia',b'2501-4000',b'YES'
124874,b'24-27',b'1-2',b'1-2',b'8-11',b'Solteira',b'28-31',b'Unica',b'Vaginal',b'4-6',b'Feminino',b'7-8',b'Campo-em-branco',b'9-10',b'Hospital',b'Sem-anomalia',b'1501-2500',b'YES'


In [6]:
df.isnull()

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124871,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
124872,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
124873,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
124874,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [7]:
#Limpeza de dados
for i, j in enumerate(df):
    remove_caracteres(df, j)

In [8]:
df_no = df.loc[(df['morto'] == 'NO')]
df_no

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
0,20-23,3-4,1-2,8-11,Solteira,>=42,Unica,Vaginal,1-3,Masculino,9-10,Parda,9-10,Domicilio,Sem-anomalia,2501-4000,NO
1,16-19,1-2,0.0,4-7,U-Cons,37-41,Unica,Vaginal,4-6,Masculino,7-8,Parda,9-10,Domicilio,Sem-anomalia,2501-4000,NO
2,24-27,0.0,0.0,8-11,Casada,37-41,Unica,Vaginal,>=7,Feminino,7-8,Parda,9-10,Hospital,Sem-anomalia,2501-4000,NO
3,16-19,0.0,1-2,4-7,Solteira,37-41,Unica,Vaginal,>=7,Feminino,7-8,Branca,9-10,Hospital,Sem-anomalia,2501-4000,NO
4,16-19,0.0,0.0,8-11,Solteira,37-41,Unica,Vaginal,>=7,Masculino,7-8,Branca,9-10,Hospital,Sem-anomalia,2501-4000,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123689,24-27,Campo-em-branco,Campo-em-branco,8-11,Solteira,37-41,Unica,Vaginal,4-6,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
123690,20-23,1-2,1-2,8-11,Solteira,37-41,Unica,Vaginal,>=7,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
123691,16-19,1-2,0.0,4-7,Solteira,37-41,Unica,Vaginal,4-6,Feminino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
123692,20-23,0.0,0.0,0.0,Solteira,37-41,Unica,Vaginal,4-6,Masculino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO


<b>Seleção aleatória de valores do dataframe</b>

In [9]:
df_no = df_no.sample(n=1182, random_state=1)
df_no

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
70940,16-19,0.0,0.0,8-11,U-Cons,37-41,Unica,Vaginal,4-6,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
121971,16-19,0.0,0.0,8-11,U-Cons,37-41,Unica,Vaginal,>=7,Feminino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
1396,20-23,1-2,0.0,8-11,Solteira,37-41,Unica,Vaginal,1-3,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
23978,28-31,3-4,1-2,8-11,U-Cons,37-41,Unica,Cesario,4-6,Feminino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,4001-7000,NO
83560,20-23,1-2,1-2,8-11,Solteira,37-41,Unica,Cesario,4-6,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13124,28-31,1-2,0.0,8-11,Casada,37-41,Unica,Cesario,>=7,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
9894,28-31,1-2,1-2,>=12,Casada,37-41,Unica,Cesario,1-3,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
33941,36-39,0.0,0.0,8-11,Solteira,32-36,Unica,Cesario,>=7,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
34827,24-27,3-4,0.0,4-7,Casada,32-36,Unica,Cesario,4-6,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO


In [10]:
df_yes = df.loc[(df['morto'] == 'YES')]
df_yes

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
123694,20-23,1-2,0.0,8-11,Casada,22-27,Unica,Vaginal,>=7,Feminino,0-2,Parda,0-2,Hospital,Sem-anomalia,<=1000,YES
123695,24-27,1-2,0.0,4-7,Solteira,37-41,Unica,Vaginal,>=7,Masculino,3-4,Branca,3-4,Hospital,Sem-anomalia,2501-4000,YES
123696,10-15,1-2,0.0,4-7,Solteira,Campo-em-branco,Unica,Vaginal,1-3,Feminino,7-8,Parda,7-8,Hospital,Sem-anomalia,<=1000,YES
123697,24-27,0.0,0.0,>=12,Solteira,Campo-em-branco,Unica,Vaginal,0.0,Masculino,0-2,Campo-em-branco,0-2,Hospital,Sem-anomalia,<=1000,YES
123698,24-27,1-2,0.0,8-11,Campo-em-branco,37-41,Unica,Vaginal,>=7,Masculino,7-8,Campo-em-branco,7-8,Hospital,Sem-anomalia,2501-4000,YES
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124871,10-15,0.0,0.0,4-7,Solteira,22-27,Unica,Vaginal,4-6,Feminino,3-4,Campo-em-branco,7-8,Hospital,Sem-anomalia,<=1000,YES
124872,16-19,0.0,0.0,8-11,Casada,37-41,Unica,Cesario,>=7,Feminino,0-2,Campo-em-branco,0-2,Hospital,Sem-anomalia,2501-4000,YES
124873,16-19,0.0,0.0,8-11,Casada,37-41,Dupla,Cesario,>=7,Feminino,3-4,Campo-em-branco,7-8,Hospital,Sem-anomalia,2501-4000,YES
124874,24-27,1-2,1-2,8-11,Solteira,28-31,Unica,Vaginal,4-6,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,1501-2500,YES


In [11]:
df = pd.concat([df_no, df_yes])
df

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
70940,16-19,0.0,0.0,8-11,U-Cons,37-41,Unica,Vaginal,4-6,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
121971,16-19,0.0,0.0,8-11,U-Cons,37-41,Unica,Vaginal,>=7,Feminino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
1396,20-23,1-2,0.0,8-11,Solteira,37-41,Unica,Vaginal,1-3,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
23978,28-31,3-4,1-2,8-11,U-Cons,37-41,Unica,Cesario,4-6,Feminino,9-10,Campo-em-branco,9-10,Hospital,Sem-anomalia,4001-7000,NO
83560,20-23,1-2,1-2,8-11,Solteira,37-41,Unica,Cesario,4-6,Masculino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,2501-4000,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124871,10-15,0.0,0.0,4-7,Solteira,22-27,Unica,Vaginal,4-6,Feminino,3-4,Campo-em-branco,7-8,Hospital,Sem-anomalia,<=1000,YES
124872,16-19,0.0,0.0,8-11,Casada,37-41,Unica,Cesario,>=7,Feminino,0-2,Campo-em-branco,0-2,Hospital,Sem-anomalia,2501-4000,YES
124873,16-19,0.0,0.0,8-11,Casada,37-41,Dupla,Cesario,>=7,Feminino,3-4,Campo-em-branco,7-8,Hospital,Sem-anomalia,2501-4000,YES
124874,24-27,1-2,1-2,8-11,Solteira,28-31,Unica,Vaginal,4-6,Feminino,7-8,Campo-em-branco,9-10,Hospital,Sem-anomalia,1501-2500,YES


In [12]:
for i, j in enumerate(df):
    print(i,j)

0 idade
1 qtdfilhovivo
2 qtfilhomorto
3 escolaridademae
4 estadocivilmae
5 gestacao
6 gravidez
7 parto
8 consultas
9 sexo
10 apgar1
11 racacor
12 apgar5
13 localnascimento
14 anomalia
15 peso
16 morto


In [13]:
transform_nan(df, 'Campo-em-branco')

In [14]:
df.isnull()

Unnamed: 0,idade,qtdfilhovivo,qtfilhomorto,escolaridademae,estadocivilmae,gestacao,gravidez,parto,consultas,sexo,apgar1,racacor,apgar5,localnascimento,anomalia,peso,morto
70940,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
121971,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
1396,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
23978,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
83560,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124871,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
124872,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
124873,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
124874,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


<b>Classificação dos tipos das variáveis</b>

<ul>
<li>idade - numérica discreta</li>
<li>qtdfilhovivo - numérica discreta</li>
<li>qtfilhomorto - numérica discreta</li>
<li>escolaridademae - numérica discreta</li>
<li>estadocivilmae - categórica nominal</li>
<li>gestacao - numérica discreta</li>
<li>gravidez - categórica nominal</li>
<li>parto - categórica nominal</li>
<li>consultas - numérica discreta</li>
<li>sexo - categórica nominal</li>
<li>apgar1 - numérica discreta</li>
<li>racacor - categórica nominal</li>
<li>apgar5 - numérica discreta</li>
<li>localnascimento - categórica nominal</li>
<li>anomalia - numérica discreta</li>
<li>peso - numérica contínua</li>
<li>morto - categórica nominal ou numérica discreta</li>
</ul>

In [15]:
columns_df = df.iloc[:, 0:16].values
column_class = df.iloc[:, 16].values

<b>Tratamento de valores nulos</b>

In [16]:
imputer = SimpleImputer(missing_values = np.nan, strategy = 'most_frequent')
imputer = imputer.fit(columns_df[:, 0:16])
columns_df[:, 0:16] = imputer.transform(columns_df[:, 0:16])
columns_df

array([['16-19', '0.0', '0.0', ..., 'Hospital', 'Sem-anomalia',
        '2501-4000'],
       ['16-19', '0.0', '0.0', ..., 'Hospital', 'Sem-anomalia',
        '2501-4000'],
       ['20-23', '1-2', '0.0', ..., 'Hospital', 'Sem-anomalia',
        '2501-4000'],
       ...,
       ['16-19', '0.0', '0.0', ..., 'Hospital', 'Sem-anomalia',
        '2501-4000'],
       ['24-27', '1-2', '1-2', ..., 'Hospital', 'Sem-anomalia',
        '1501-2500'],
       ['10-15', '0.0', '0.0', ..., 'Hospital', 'Sem-anomalia', '<=1000']],
      dtype=object)

<b>Transformação das variáveis numéricas</b>

In [17]:
columns_df = transform_variables(columns_df, df)
columns_df

array([[1, 0, 0, ..., 1, 2, 2],
       [1, 0, 0, ..., 1, 2, 2],
       [2, 1, 0, ..., 1, 2, 2],
       ...,
       [1, 0, 0, ..., 1, 2, 2],
       [3, 1, 1, ..., 1, 2, 1],
       [0, 0, 0, ..., 1, 2, 4]], dtype=object)

<b>Transformação das variáveis categóricas - variáveis dummy</b>

In [18]:
columns_tranformer = ColumnTransformer([('one_hot_encoder', OneHotEncoder(), [4, 6, 7, 9, 11, 13])],remainder='passthrough')
columns_df = columns_tranformer.fit_transform(columns_df)
columns_df

array([[0.0, 0.0, 0.0, ..., 4, 2, 2],
       [0.0, 0.0, 0.0, ..., 4, 2, 2],
       [0.0, 0.0, 0.0, ..., 4, 2, 2],
       ...,
       [1.0, 0.0, 0.0, ..., 3, 2, 2],
       [0.0, 0.0, 0.0, ..., 4, 2, 1],
       [0.0, 0.0, 0.0, ..., 2, 2, 4]], dtype=object)

<b>Transformação do atributo classe</b>

In [19]:
labelencoder_class = LabelEncoder()
column_class = labelencoder_class.fit_transform(column_class)
column_class

array([0, 0, 0, ..., 1, 1, 1])

<b>Escalonamento de atributos</b>

In [20]:
scaler = StandardScaler()
columns_df = scaler.fit_transform(columns_df)
columns_df

array([[-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       [-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       [-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       ...,
       [ 1.49020416, -0.04603849, -0.04603849, ..., -0.13267717,
         0.29004555, -0.06643192],
       [-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -1.00682147],
       [-0.67104899, -0.04603849, -0.04603849, ..., -0.91876446,
         0.29004555,  1.81434719]])

<b>Aplicação dos algoritmos de Machine Learning</b>

In [21]:
from sklearn.model_selection import train_test_split

<b>Separação da base de dados para treino e teste</b>

In [22]:
x_train, x_test, y_train, y_test = train_test_split(columns_df, column_class, test_size=0.25, random_state=0)

In [25]:
x_train

array([[-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       [ 1.49020416, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       [-0.67104899, -0.04603849, -0.04603849, ..., -0.13267717,
        -1.64141273,  1.81434719],
       ...,
       [-0.67104899, -0.04603849, -0.04603849, ..., -0.13267717,
         0.29004555, -1.00682147],
       [-0.67104899, -0.04603849, -0.04603849, ...,  0.65341012,
         0.29004555, -0.06643192],
       [-0.67104899, -0.04603849, -0.04603849, ..., -0.13267717,
         0.29004555, -1.94721103]])