# Tratamento de dados

In [1]:
# Importando o pandas
import pandas as pd

<a id="etapas"></a>
Vamos dividir esse tratamento em algumas etapas:<br>
1. [Etapa 0: Relembrando o que fizemos na última aula](#Etapa0)
2. [Etapa 1: Começando o tratamento de dados](#Etapa1)
3. [Etapa 2: Incluindo a informação de gênero na base](#Etapa2)
4. [Etapa 3: Incluindo a informação do porto de embarque](#Etapa3)
5. [Etapa 4: Retirando colunas da base](#Etapa4)

<a id="Etapa0"></a>
## Etapa 0: Relembrando o que fizemos na última aula

In [2]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base = base.drop('Cabin',axis=1)
base = base.dropna()
colunas = base.dtypes[base.dtypes.values == 'object'].index
base = base.drop(colunas,axis=1)

In [3]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop('Cabin',axis=1)
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa1"></a>
## Etapa 1: Começando o tratamento de dados

In [4]:
# Importando novamente a base
base = pd.read_csv('titanic_train.csv')
base.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


**Retirando colunas com alta cardinalidade**

In [5]:
# Retirando as colunas
base = base.drop (['PassengerId','Name'],axis = 1)

**Eliminando a coluna Cabin pela alta cardinalidade e quantidade de valores vazios**

In [6]:
# Novamente eliminando a coluna 'Cabin'
base = base.drop('Cabin',axis=1)

**Ao invés de apagar as linhas onde idade é vazio, vamos substituir esses valores pela média das idades**

In [7]:
# Calculando a média
base['Age'].mean()

np.float64(29.69911764705882)

In [8]:
# Filtrando apenas Age vazio
base.loc[base.Age.isnull(),'Age']

5     NaN
17    NaN
19    NaN
26    NaN
28    NaN
       ..
859   NaN
863   NaN
868   NaN
878   NaN
888   NaN
Name: Age, Length: 177, dtype: float64

In [9]:
# Atribuindo a média para esses valores
base.loc[base.Age.isnull(),'Age'] = base['Age'].mean()

**E só então apagar as linhas com valores vazios**

In [10]:
# Eliminando todas as outras linhas com valores vazios
base = base.dropna()

**Para conseguir usar esses dados, não podemos ter dados do tipo objeto, eliminando novamente**

In [11]:
# Novamente eliminando os dados do tipo objeto
colunas = base.dtypes[base.dtypes.values == 'object'].index
base = base.drop(colunas,axis=1)

**Verificando as informações**

In [12]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
dtypes: float64(2), int64(4)
memory usage: 48.6 KB


In [13]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id=#Etapa2></a>
## Etapa 2: Incluindo a informação de gênero na base

In [14]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [15]:
# Quais informações temos na nossa coluna de gênero?
base.Sex.value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

**Criando uma nova coluna apenas verificando se o valor é Male**

In [16]:
# Criando uma função lambda para verificar essa informação
base['IsMale'] = base.Sex.apply(lambda x:1 if x == 'male' else 0)

In [17]:
# Usando o groupby para verificar a coluna criada
base.groupby(['Sex','IsMale'])['Sex'].count()

Sex     IsMale
female  0         314
male    1         577
Name: Sex, dtype: int64

**Fazendo os mesmos tratamentos da etapa 1**

In [18]:
base = base.drop(['PassengerId','Name'],axis=1)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)

In [19]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  889 non-null    int64  
 1   Pclass    889 non-null    int64  
 2   Age       889 non-null    float64
 3   SibSp     889 non-null    int64  
 4   Parch     889 non-null    int64  
 5   Fare      889 non-null    float64
 6   IsMale    889 non-null    int64  
dtypes: float64(2), int64(5)
memory usage: 55.6 KB


In [20]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="Etapa3"></a>
## Etapa 3: Incluindo a informação do porto de embarque

In [21]:
# Para a base de treino
base = pd.read_csv('titanic_train.csv')
base.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


**Como não existe uma relação entre os valores (um valor maior que o outro), vamos usar o One Hot Encoding**
- Para isso, podemos usar o OneHotEncoder do Scikit-Learn:
    - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
- Ou o próprio get_dummies do pandas:
    - https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [22]:
# Utilizando o get_dummies
pd.get_dummies(base.Embarked).head(3)

Unnamed: 0,C,Q,S
0,False,False,True
1,True,False,False
2,False,False,True


In [23]:
# Unindo essas informações na base
base = pd.concat([base,pd.get_dummies(base.Embarked)],axis=1)

**Fazendo os mesmos tratamentos das etapas anteriores**

In [24]:
base = base.drop(['PassengerId','Name'],axis=1)
base['IsMale'] = base['Sex'].apply(lambda x:1 if x == 'male' else 0)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)

In [25]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id='Etapa4'></a>
## Etapa 4: Retirando colunas da base

In [40]:
# Vamos fazer todos os tratamentos que fizemos anteriormente
base = pd.read_csv('titanic_train.csv')
#base = pd.concat([base,pd.get_dummies(base.Embarked)],axis=1)
base = base.drop(['PassengerId','Name'],axis=1)
base['IsMale'] = base['Sex'].apply(lambda x:1 if x == 'male' else 0)
base = base.drop('Cabin',axis=1)
base.loc[base.Age.isnull(),'Age'] = base.Age.mean()
base = base.dropna()
base = base.drop(colunas,axis=1)
base.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,IsMale
0,0,3,22.0,1,0,7.25,1
1,1,1,38.0,1,0,71.2833,0


In [41]:
# Podemos retirar outras colunas da base
retirar = ['Fare']
base = base.drop(retirar, axis=1)

In [42]:
# Para a base de teste
teste = pd.read_csv('titanic_test.csv')
teste['IsMale'] = teste['Sex'].apply(lambda x:1 if x == 'male' else 0)
# teste = pd.concat([teste,pd.get_dummies(teste.Embarked)],axis=1)
teste = teste.drop(['PassengerId','Name'],axis=1)
teste = teste.drop('Cabin',axis=1)
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()
teste = teste.dropna()
teste = teste.drop(colunas,axis=1)
teste = teste.drop(retirar,axis=1)

**Agora vamos avaliar o modelo com esses dados**<br>
[Avaliando o modelo](#AvaliandoModelo)

<a id="AvaliandoModelo"></a>
### Avaliando o modelo

In [43]:
# Definindo o X e y para o treino
X_treino = base.drop('Survived',axis=1)
y_treino = base.Survived

In [44]:
# Separando X e y da base
X_teste = teste.drop('Survived',axis=1)
y_teste = teste.Survived

### Usando os algoritmos e avaliando o erro

In [45]:
# Importando os algoritmos e criando os classificadores
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)

from sklearn import tree
clfArvore = tree.DecisionTreeClassifier(random_state=0)

from sklearn.linear_model import LogisticRegression
clfLog = LogisticRegression(random_state=0,max_iter=1000)

In [46]:
# Fazendo o fit do modelo
neight = neigh.fit(X_treino, y_treino)

clfArvore = clfArvore.fit(X_treino, y_treino)

clfLog = clfLog.fit(X_treino, y_treino)

In [47]:
# Fazendo a predicão
pred_KNN = neigh.predict(X_teste)

pred_Arvore = clfArvore.predict(X_teste)

pred_Log = clfLog.predict(X_teste)

In [48]:
# Importando as métricas de avaliação
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

In [49]:
# Acurácia
print(accuracy_score(y_teste,pred_KNN))
print(accuracy_score(y_teste,pred_Arvore))
print(accuracy_score(y_teste,pred_Log))     

0.7529976019184652
0.7577937649880095
0.9328537170263789


In [50]:
# Precisão
print(precision_score(y_teste,pred_KNN))
print(precision_score(y_teste,pred_Arvore))
print(precision_score(y_teste,pred_Log)) 

0.6814814814814815
0.6888888888888889
0.8875


In [51]:
# Recall
print(recall_score(y_teste,pred_KNN))
print(recall_score(y_teste,pred_Arvore))
print(recall_score(y_teste,pred_Log)) 

0.6052631578947368
0.6118421052631579
0.9342105263157895


**Voltando para verificar outras etapas: [etapas](#etapas)**