# Tratamento de dados

In [770]:
# Importando o pandas
import pandas as pd

<a id="etapas"></a>
Vamos dividir esse tratamento em algumas etapas:<br>
1. [Etapa 0: Relembrando o que fizemos na última aula](#Etapa0)
2. [Etapa 1: Começando o tratamento de dados](#Etapa1)
3. [Etapa 2: Incluindo a informação de gênero na base](#Etapa2)
4. [Etapa 3: Incluindo a informação do porto de embarque](#Etapa3)
5. [Etapa 4: Retirando colunas da base](#Etapa4)

<a id="Etapa0"></a>
## Etapa 0: Relembrando o que ja fiz

In [771]:
# Para a base de treino
dados = pd.read_csv('titanic_train.csv')
dados = dados.drop('Cabin',axis=1)
dados = dados.dropna()
colunas = dados.dtypes[dados.dtypes.values == 'object'].index
dados = dados.drop(colunas,axis=1)

In [772]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop('Cabin',axis=1)
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa1"></a>
## Etapa 1: Começando o tratamento de dados

In [773]:
# Importando novamente a base
dados = pd.read_csv('titanic_train.csv')
dados.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


**Retirando colunas com alta cardinalidade**

In [774]:
# Retirando as colunas
dados = dados.drop(['PassengerId' , 'Name'] , axis=1)

**Eliminando a coluna Cabin pela alta cardinalidade e quantidade de valores vazios**

In [775]:
# Novamente eliminando a coluna 'Cabin'
dados = dados.drop('Cabin',axis=1)

**Ao invés de apagar as linhas onde idade é vazio, vamos substituir esses valores pela média das idades**

In [776]:
# Calculando a média
dados['Age'].mean()

29.69911764705882

In [777]:
# Filtrando apenas Age vazio
dados.loc[dados['Age'].isnull() , 'Age']

5     NaN
17    NaN
19    NaN
26    NaN
28    NaN
       ..
859   NaN
863   NaN
868   NaN
878   NaN
888   NaN
Name: Age, Length: 177, dtype: float64

In [778]:
# Atribuindo a média para esses valores
dados.loc[dados['Age'].isnull() , 'Age'] = dados['Age'].mean()

display(dados)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,0,3,male,22.000000,1,0,A/5 21171,7.2500,S
1,1,1,female,38.000000,1,0,PC 17599,71.2833,C
2,1,3,female,26.000000,0,0,STON/O2. 3101282,7.9250,S
3,1,1,female,35.000000,1,0,113803,53.1000,S
4,0,3,male,35.000000,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.000000,0,0,211536,13.0000,S
887,1,1,female,19.000000,0,0,112053,30.0000,S
888,0,3,female,29.699118,1,2,W./C. 6607,23.4500,S
889,1,1,male,26.000000,0,0,111369,30.0000,C


**E só então apagar as linhas com valores vazios**

In [779]:
# Eliminando todas as outras linhas com valores vazios
dados = dados.dropna()
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Sex       889 non-null    object 
 3   Age       889 non-null    float64
 4   SibSp     889 non-null    int64  
 5   Parch     889 non-null    int64  
 6   Ticket    889 non-null    object 
 7   Fare      889 non-null    float64
 8   Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(3)
memory usage: 69.5+ KB


**Para conseguir usar esses dados, não podemos ter dados do tipo objeto, eliminando novamente**

In [780]:
# Novamente eliminando os dados do tipo objeto
colunas = dados.dtypes[dados.dtypes.values == 'object'].index
dados = dados.drop(colunas,axis=1)

**Verificando as informações**

In [781]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
dtypes: float64(2), int64(4)
memory usage: 48.6 KB


In [782]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste['Age'].isnull(),'Age'] = teste['Age'].mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id=#Etapa2></a>
## Etapa 2: Incluindo a informação de gênero na base

In [783]:
# Para a base de treino
dados = pd.read_csv('titanic_train.csv')
dados.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [784]:
# Quais informações temos na nossa coluna de gênero?
dados['Sex'].value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

**Criando uma nova coluna apenas verificando se o valor é Male**

In [785]:
# Criando uma função lambda para verificar essa informação

dados['Genero'] = dados['Sex'].apply(lambda x:1 if x == 'male' else 0)

In [786]:
# Usando o groupby para verificar a coluna criada

dados.groupby(['Sex' , 'Genero'])['Sex'].count()

Sex     Genero
female  0         314
male    1         577
Name: Sex, dtype: int64

**Fazendo os mesmos tratamentos da etapa 1**

In [787]:
dados = dados.drop(['PassengerId','Name'],axis=1)
dados = dados.drop('Cabin',axis=1)
dados.loc[dados.Age.isnull(),'Age'] = dados.Age.mean()
dados = dados.dropna()
dados = dados.drop(colunas,axis=1)

In [788]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
 6   Genero    889 non-null    int64  
dtypes: float64(2), int64(5)
memory usage: 55.6 KB


In [789]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa3"></a>
## Etapa 3: Incluindo a informação do porto de embarque

In [790]:
# Para a base de treino
dados = pd.read_csv('titanic_train.csv')
dados.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Como não existe uma relação entre os valores (um valor maior que o outro), vamos usar o One Hot Encoding**
- Para isso, podemos usar o OneHotEncoder do Scikit-Learn:
    - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
- Ou o próprio get_dummies do pandas:
    - https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [791]:
# Utilizando o get_dummies]
pd.get_dummies(dados.Embarked).head(3)

Unnamed: 0,C,Q,S
0,False,False,True
1,True,False,False
2,False,False,True


In [792]:
# Unindo essas informações na base
dados = pd.concat([dados,pd.get_dummies(dados.Embarked)] , axis=1) 
display(dados)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,C,Q,S
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,False,False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,True,False,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,False,False,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,False,False,True
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,False,False,True
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,False,False,True
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,False,False,True
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,True,False,False


**Fazendo os mesmos tratamentos das etapas anteriores**

In [793]:
dados = dados.drop(['PassengerId','Name'],axis=1)
dados['IsMale'] = dados['Sex'].apply(lambda x:1 if x == 'male' else 0)
dados = dados.drop('Cabin',axis=1)
dados.loc[dados.Age.isnull(),'Age'] = dados.Age.mean()
dados = dados.dropna()
dados = dados.drop(colunas,axis=1)

In [794]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id='Etapa4'></a>
## Etapa 4: Retirando colunas da base

In [795]:
# Vamos fazer todos os tratamentos que fizemos anteriormente
dados = pd.read_csv('titanic_train.csv')
# dados = pd.concat([dados,pd.get_dummies(dados.Embarked)],axis=1)
dados = dados.drop(['PassengerId','Name'],axis=1)
dados['IsMale'] = dados['Sex'].apply(lambda x:1 if x == 'male' else 0)
dados = dados.drop('Cabin',axis=1)
dados.loc[dados.Age.isnull(),'Age'] = dados.Age.mean()
dados = dados.dropna()
dados = dados.drop(colunas,axis=1)
dados.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,IsMale
0,0,3,22.0,1,0,7.25,1
1,1,1,38.0,1,0,71.2833,0


In [796]:
# Podemos retirar outras colunas da base
retirar = ['SibSp' , 'Parch']
dados = dados.drop(retirar , axis=1)

display(dados)

Unnamed: 0,Survived,Pclass,Age,Fare,IsMale
0,0,3,22.000000,7.2500,1
1,1,1,38.000000,71.2833,0
2,1,3,26.000000,7.9250,0
3,1,1,35.000000,53.1000,0
4,0,3,35.000000,8.0500,1
...,...,...,...,...,...
886,0,2,27.000000,13.0000,1
887,1,1,19.000000,30.0000,0
888,0,3,29.699118,23.4500,0
889,1,1,26.000000,30.0000,1


In [797]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
# teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)
teste = teste.drop(retirar,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="AvaliandoModelo"></a>
### Avaliando o modelo

In [798]:
# Definindo o X e y para o treino
X_treino = dados.drop('Survived',axis=1)
y_treino = dados.Survived

In [799]:
# Separando X e y da base
X_teste = teste.drop('Survived',axis=1)
y_teste = teste.Survived

### Usando os algoritmos e avaliando o erro

In [800]:
# Importando os algoritmos e criando os classificadores
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)

from sklearn import tree
clfArvore = tree.DecisionTreeClassifier(random_state=0)

from sklearn.linear_model import LogisticRegression
clfLog = LogisticRegression(random_state=0,max_iter=1000)

In [801]:
# Fazendo o fit do modelo
neight = neigh.fit(X_treino, y_treino)

clfArvore = clfArvore.fit(X_treino, y_treino)

clfLog = clfLog.fit(X_treino, y_treino)


In [802]:
# Fazendo a predicão
pred_KNN = neigh.predict(X_teste)

pred_Arvore = clfArvore.predict(X_teste)

pred_Log = clfLog.predict(X_teste)

In [803]:
# Importando as métricas de avaliação
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

In [804]:
# Acurácia
print(accuracy_score(y_teste,pred_KNN))
print(accuracy_score(y_teste,pred_Arvore))
print(accuracy_score(y_teste,pred_Log))     

0.6546762589928058
0.7961630695443646
0.9568345323741008


In [805]:
# Precisão
print(precision_score(y_teste,pred_KNN))
print(precision_score(y_teste,pred_Arvore))
print(precision_score(y_teste,pred_Log)) 

0.527027027027027
0.7278911564625851
0.935064935064935


In [806]:
# Recall
print(recall_score(y_teste,pred_KNN))
print(recall_score(y_teste,pred_Arvore))
print(recall_score(y_teste,pred_Log)) 

0.5131578947368421
0.7039473684210527
0.9473684210526315


**Voltando para verificar outras etapas: [etapas](#etapas)**