# Tratamento de dados

In [None]:
# Importando o pandas
import pandas as pd

<a id="etapas"></a>
Vamos dividir esse tratamento em algumas etapas:<br>
1. [Etapa 0: Relembrando o que fizemos na última aula](#Etapa0)
2. [Etapa 1: Começando o tratamento de dados](#Etapa1)
3. [Etapa 2: Incluindo a informação de gênero na base](#Etapa2)
4. [Etapa 3: Incluindo a informação do porto de embarque](#Etapa3)
5. [Etapa 4: Retirando colunas da base](#Etapa4)

<a id="Etapa0"></a>
## Etapa 0: Relembrando o que fizemos na última aula

In [58]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base = base.drop('Cabin',axis=1)
base = base.dropna()
colunas = base.dtypes[base.dtypes.values == 'object'].index
base = base.drop(colunas,axis=1)

In [59]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop('Cabin',axis=1)
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa1"></a>
## Etapa 1: Começando o tratamento de dados

In [93]:
# Importando novamente a base
base = pd.read_csv('titanic_train.csv')
base.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


**Retirando colunas com alta cardinalidade**

In [74]:
# Retirando as colunas

**Eliminando a coluna Cabin pela alta cardinalidade e quantidade de valores vazios**

In [75]:
# Novamente eliminando a coluna 'Cabin'
base = base.drop('Cabin',axis=1)

**Ao invés de apagar as linhas onde idade é vazio, vamos substituir esses valores pela média das idades**

In [76]:
# Calculando a média

In [None]:
# Filtrando apenas Age vazio

In [None]:
# Atribuindo a média para esses valores

**E só então apagar as linhas com valores vazios**

In [77]:
# Eliminando todas as outras linhas com valores vazios

**Para conseguir usar esses dados, não podemos ter dados do tipo objeto, eliminando novamente**

In [78]:
# Novamente eliminando os dados do tipo objeto
colunas = base.dtypes[base.dtypes.values == 'object'].index
base = base.drop(colunas,axis=1)

**Verificando as informações**

In [79]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 889 entries, 0 to 890
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
dtypes: float64(2), int64(4)
memory usage: 48.6 KB


In [80]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id=#Etapa2></a>
## Etapa 2: Incluindo a informação de gênero na base

In [118]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [1]:
# Quais informações temos na nossa coluna de gênero?

**Criando uma nova coluna apenas verificando se o valor é Male**

In [102]:
# Criando uma função lambda para verificar essa informação

In [2]:
# Usando o groupby para verificar a coluna criada

**Fazendo os mesmos tratamentos da etapa 1**

In [105]:
base = base.drop(['PassengerId','Name'],axis=1)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)

In [106]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 889 entries, 0 to 890
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
 6   IsMale    889 non-null    int64  
dtypes: float64(2), int64(5)
memory usage: 55.6 KB


In [107]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa3"></a>
## Etapa 3: Incluindo a informação do porto de embarque

In [146]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Como não existe uma relação entre os valores (um valor maior que o outro), vamos usar o One Hot Encoding**
- Para isso, podemos usar o OneHotEncoder do Scikit-Learn:
    - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
- Ou o próprio get_dummies do pandas:
    - https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [3]:
# Utilizando o get_dummies

In [148]:
# Unindo essas informações na base

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,C,Q,S
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0,0,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,0,1


**Fazendo os mesmos tratamentos das etapas anteriores**

In [149]:
base = base.drop(['PassengerId','Name'],axis=1)
base['IsMale'] = base['Sex'].apply(lambda x:1 if x == 'male' else 0)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)

In [150]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id='Etapa4'></a>
## Etapa 4: Retirando colunas da base

In [245]:
# Vamos fazer todos os tratamentos que fizemos anteriormente
base = pd.read_csv('titanic_train.csv')
base = pd.concat([base,pd.get_dummies(base.Embarked)],axis=1)
base = base.drop(['PassengerId','Name'],axis=1)
base['IsMale'] = base['Sex'].apply(lambda x:1 if x == 'male' else 0)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)
base.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,IsMale
0,0,3,22.0,1,0,7.25,1
1,1,1,38.0,1,0,71.2833,0


In [4]:
# Podemos retirar outras colunas da base
retirar = []

In [247]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
# teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)
teste = teste.drop(retirar,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="AvaliandoModelo"></a>
### Avaliando o modelo

In [248]:
# Definindo o X e y para o treino
X_treino = base.drop('Survived',axis=1)
y_treino = base.Survived

In [249]:
# Separando X e y da base
X_teste = teste.drop('Survived',axis=1)
y_teste = teste.Survived

### Usando os algoritmos e avaliando o erro

In [250]:
# Importando os algoritmos e criando os classificadores
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)

from sklearn import tree
clfArvore = tree.DecisionTreeClassifier(random_state=0)

from sklearn.linear_model import LogisticRegression
clfLog = LogisticRegression(random_state=0,max_iter=1000)

In [251]:
# Fazendo o fit do modelo
neight = neigh.fit(X_treino, y_treino)

clfArvore = clfArvore.fit(X_treino, y_treino)

clfLog = clfLog.fit(X_treino, y_treino)

In [252]:
# Fazendo a predicão
pred_KNN = neigh.predict(X_teste)

pred_Arvore = clfArvore.predict(X_teste)

pred_Log = clfLog.predict(X_teste)

In [253]:
# Importando as métricas de avaliação
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

In [254]:
# Acurácia
print(accuracy_score(y_teste,pred_KNN))
print(accuracy_score(y_teste,pred_Arvore))
print(accuracy_score(y_teste,pred_Log))     

0.6666666666666666
0.7961630695443646
0.9568345323741008


In [255]:
# Precisão
print(precision_score(y_teste,pred_KNN))
print(precision_score(y_teste,pred_Arvore))
print(precision_score(y_teste,pred_Log)) 

0.5424836601307189
0.7278911564625851
0.935064935064935


In [256]:
# Recall
print(recall_score(y_teste,pred_KNN))
print(recall_score(y_teste,pred_Arvore))
print(recall_score(y_teste,pred_Log)) 

0.5460526315789473
0.7039473684210527
0.9473684210526315


**Voltando para verificar outras etapas: [etapas](#etapas)**