# Aula 3 - Pandas e EDA com Titanic dataset

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) EDA
- 2) Titanic

___

## 1) EDA

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso nas próximas aulas, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

____
____
____

## 2) Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!


In [1]:
# como sempre, começamos importando o pandas e o numpy

import numpy as np
import pandas as pd

#### Titanic

Vamos ler a base **de treino** baixada do kaggle, utilizando o método **pd.read_csv()**

In [2]:
df = pd.read_csv("../../datasets/titanic.csv")

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


**Pra quem estiver usando o colab:**

Pra ler arquivos do drive através do colab, temos que fazer o seguinte procedimento:

```python
from google.colab import drive
drive.mount('/content/drive')
```

Ao executar o código acima e fazer a autenticação, você poderá copiar o caminho da pasta de bases, após ela aparecer no menu à esquerda. Sugiro criar uma variável para armazenar o caminho:

```python
caminho_pasta = "/content/drive/..."
```

Depois, basta ler o arquivo desejado a partir do caminho da pasta:

```python
df = pd.read_csv(caminho_pasta + "titanic.csv")
```

In [4]:
# use essa função sempre que vc quiser ver todas as linhas e colunas de um dataframe
# (mas use com cuidado!)

def show_all(df):
    
    # setando opções sem limites
    pd.set_option('display.max_columns', None)
    pd.set_option('display.max_rows', None)
    pd.set_option('max_colwidth', None)
    
    display(df)
    
    # resetando opções pro padrão    
    pd.reset_option('display.max_columns')
    pd.reset_option('display.max_rows')
    pd.reset_option('max_colwidth')

In [5]:
show_all(df.head(20))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Agora que os dados foram lidos, vamos começar a **olhar** pra eles

In [6]:
# primeiras 5 linhas

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
# ultimas 5 linhas

df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [8]:
# dimensão do dataframe
# é uma tupla na forma (numero_de_linhas, numero_de_colunas)

df.shape

(891, 12)

In [9]:
# uma lista com as colunas

df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [10]:
# informações sobre o df

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


A informação acima é fundamental para diferenciarmos quais colunas contêm dados **categóricos** e quais contêm dados **numéricos**

- **Dados categóricos**: são dados qualitativos, quase sempre expressos na forma de **strings**. Praticamente todos os modelos não conseguem lidar com dados categóricos diretamente. Por isso, se quisermos utilizá-los, teremos que fazer algum procedimento que trasnforme os dados categórios em dados numéricos. Veremos como fazer isso mais pra frente.

- **Dados numéricos**: são dados numéricos, que podemos utilizar diretamente!

In [11]:
# olhando apenas o tipo de dado em cada coluna

df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [12]:
# dando uma olhada nas colunas que contêm dados categóricos

df.loc[:, df.dtypes != object]

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.2500
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.9250
3,4,1,1,35.0,1,0,53.1000
4,5,0,3,35.0,0,0,8.0500
...,...,...,...,...,...,...,...
886,887,0,2,27.0,0,0,13.0000
887,888,1,1,19.0,0,0,30.0000
888,889,0,3,,1,2,23.4500
889,890,1,1,26.0,0,0,30.0000


In [13]:
df.shape[0]

891

In [14]:
# procurando por valores nulos

df.isnull().sum() / df.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

O que fazer com dados missing? Vamos discutir isso mais tarde!

Por enquanto, vamos continuar explorando a base

In [15]:
# pegando estatísticas simples de todas as colunas (numéricas)

df.describe().apply(lambda x: round(x, 1))

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.4,2.3,29.7,0.5,0.4,32.2
std,257.4,0.5,0.8,14.5,1.1,0.8,49.7
min,1.0,0.0,1.0,0.4,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.1,0.0,0.0,7.9
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.5
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3


Vamos analisar os dados um pouco mais...


#### Groupby

O .groupby() é um método super útil que nos ajuda a construir uma **tabela dinâmica** (pivot table) com os dados.

Esse tipo de estrutura nos ajuda muito a fazer a importante etapa de **olhar pros dados**

Imagine que eu quero investigar qual a relação entre a classe no navio e a sobrevivência.

Para fazer isso, eu **agrupo** os dados por essas duas colunas:

In [16]:
# quais os valores possíveis na coluna "Pclass"?

df["Pclass"].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [17]:
df["Sex"].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [18]:
df["Survived"].mean()

0.3838383838383838

In [19]:
df.groupby(["Pclass", "Sex"])["Survived"].mean()

Pclass  Sex   
1       female    0.968085
        male      0.368852
2       female    0.921053
        male      0.157407
3       female    0.500000
        male      0.135447
Name: Survived, dtype: float64

In [20]:
df.groupby(["Pclass", "Sex"])[["Survived"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Pclass,Sex,Unnamed: 2_level_1
1,female,0.968085
1,male,0.368852
2,female,0.921053
2,male,0.157407
3,female,0.5
3,male,0.135447


Preciso de uma **função de agregação**, que é qual a função que vou aplicar aos dados agrupados.

**Pergunta: qual é proporção de homens na primeira classe que morreram?**

Eu quero olhar pros valores da coluna "Survived", agrupados por "Pclass" e "Sex".

Mas que função de agregação usar?

Como a coluna "Survived" tem apenas valores binários 1 e 0, eu posso usar a média!

Ex: [1 0 0 0 0 1 1], média: 3/7 = 42.85%. Ou seja, 42.86% sobreviveram, e 57.14% morreram

In [21]:
df.groupby(["Pclass", "Sex"])[["Survived"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Pclass,Sex,Unnamed: 2_level_1
1,female,0.968085
1,male,0.368852
2,female,0.921053
2,male,0.157407
3,female,0.5
3,male,0.135447


Também é possível fazer uma pivot table através da função **pd.pivot_table()**

In [22]:
pd.pivot_table(df, values='Survived', index='Pclass', columns='Sex', aggfunc=np.mean)

Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.968085,0.368852
2,0.921053,0.157407
3,0.5,0.135447


Também seria possível fazer isso com **filtros**

In [23]:
# taxa de sobrevivencia de homens na primeira classe

df[(df["Pclass"] == 1) & (df["Sex"] == "male")]["Survived"].mean()

0.36885245901639346

In [24]:
df[(df["Pclass"] == 1) & (df["Sex"] == "male")]["Survived"].value_counts(normalize=True)

0    0.631148
1    0.368852
Name: Survived, dtype: float64

Outra pergunta: **qual a relação entre o porto de embarque, a taxa de sobrevivência, e a classe?**

É possível passar mais de uma função de agregação:

In [25]:
df.groupby(["Embarked", "Pclass"])[['Survived']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Embarked,Pclass,Unnamed: 2_level_1
C,1,0.694118
C,2,0.529412
C,3,0.378788
Q,1,0.5
Q,2,0.666667
Q,3,0.375
S,1,0.582677
S,2,0.463415
S,3,0.189802


In [26]:
df.groupby(["Embarked", "Pclass"])[['Survived']].agg(["count", "sum", "mean"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived,Survived,Survived
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,mean
Embarked,Pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
C,1,85,59,0.694118
C,2,17,9,0.529412
C,3,66,25,0.378788
Q,1,2,1,0.5
Q,2,3,2,0.666667
Q,3,72,27,0.375
S,1,127,74,0.582677
S,2,164,76,0.463415
S,3,353,67,0.189802


In [27]:
df[(df["Embarked"] == "Q") & (df["Pclass"] == 1)]["Survived"]

245    0
412    1
Name: Survived, dtype: int64

Também é possível usar a função **pd.crosstab()**:

In [28]:
pd.crosstab([df["Survived"]], 
            [df["Embarked"], df["Pclass"]], 
            margins=True)

Embarked,C,C,C,Q,Q,Q,S,S,S,All
Pclass,1,2,3,1,2,3,1,2,3,Unnamed: 10_level_1
Survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0,26,8,41,1,1,45,53,88,286,549
1,59,9,25,1,2,27,74,76,67,340
All,85,17,66,2,3,72,127,164,353,889


___
___
___

Sua vez de explorar!

Responda as seguintes perguntas:

In [29]:
# quantas pessoas morreram? Quantas sobreviveram?

df["Survived"].value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [30]:
# qual a proporção de sobreviventes e mortos?

df["Survived"].value_counts(normalize=True)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

In [31]:
# qual a quantidade de pessoas de casa sexo que morreu e sobreviveu?
# dica: agrupe os dados por "Survived" e "Sex", e use a função de agregação "count", na propria coluna "survived"

df.groupby(["Survived", "Sex"])[["Survived"]].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Survived,Sex,Unnamed: 2_level_1
0,female,81
0,male,468
1,female,233
1,male,109


In [32]:
# modifique o groupby que fizemos acima do porto e classe pra incluir também o sexo como agrupador
# esse dataframe dá uma visão bem completa!

df.groupby(["Embarked", "Pclass", "Sex"])[['Survived']].agg(["count", "sum", "mean"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Survived,Survived,Survived
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,sum,mean
Embarked,Pclass,Sex,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
C,1,female,43,42,0.976744
C,1,male,42,17,0.404762
C,2,female,7,7,1.0
C,2,male,10,2,0.2
C,3,female,23,15,0.652174
C,3,male,43,10,0.232558
Q,1,female,1,1,1.0
Q,1,male,1,0,0.0
Q,2,female,2,2,1.0
Q,2,male,1,0,0.0


In [33]:
df[(df["Embarked"] == "C") & 
   (df["Pclass"] == 1) &
   (df["Sex"] == "male")]["Survived"].value_counts()

0    25
1    17
Name: Survived, dtype: int64

In [34]:
# agrupe agora por porto, classe, sexo e survived, e pegue as contagens de "survived"
# essa análise também dá uma visão interessante do perfil dos passageiros

df.groupby(["Embarked", "Pclass", "Sex", "Survived"])[['Survived']].agg(["count"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Survived
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,count
Embarked,Pclass,Sex,Survived,Unnamed: 4_level_2
C,1,female,0,1
C,1,female,1,42
C,1,male,0,25
C,1,male,1,17
C,2,female,1,7
C,2,male,0,8
C,2,male,1,2
C,3,female,0,8
C,3,female,1,15
C,3,male,0,33


In [35]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)
# dica: faça os filtros adequados 
# e lembre do atributo ".shape" que é uma tupla na forma (numero_de_linhas, numero_de_colunas)

print("0-15 anos:\t", df[df["Age"] <= 15].shape[0])

print("15-30 anos:\t", df[(df["Age"] > 15) & (df["Age"] <= 30)].shape[0])

print("30-45 anos:\t", df[(df["Age"] > 30) & (df["Age"] <= 45)].shape[0])

print("45+ anos:\t", df[df["Age"] > 45].shape[0])

0-15 anos:	 83
15-30 anos:	 326
30-45 anos:	 202
45+ anos:	 103


In [36]:
df['faixa'] = pd.cut(df['Age'], [0,15,30,45,df["Age"].max()], include_lowest = True, right=True).copy()

df["faixa"].value_counts()

(15.0, 30.0]      326
(30.0, 45.0]      202
(45.0, 80.0]      103
(-0.001, 15.0]     83
Name: faixa, dtype: int64

In [37]:
df["FE"] = df["Age"].apply(lambda x: x//15.01 if (x//15.01)<=3 else 3)

df["FE"].value_counts()

1.0    326
3.0    280
2.0    202
0.0     83
Name: FE, dtype: int64

In [38]:
# e qual a distribuição de sexo dentro de cada faixa etária?

print(df[df["Age"] <= 15]["Sex"].value_counts(normalize=True), "\n")

print(df[(df["Age"] > 15) & (df["Age"] <= 30)]["Sex"].value_counts(normalize=True), "\n")

print(df[(df["Age"] > 30) & (df["Age"] <= 45)]["Sex"].value_counts(normalize=True), "\n")

print(df[df["Age"] > 45]["Sex"].value_counts(normalize=True), "\n")

female    0.518072
male      0.481928
Name: Sex, dtype: float64 

male      0.647239
female    0.352761
Name: Sex, dtype: float64 

male      0.638614
female    0.361386
Name: Sex, dtype: float64 

male      0.708738
female    0.291262
Name: Sex, dtype: float64 



In [39]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?

print(df[df["Age"] <= 15]["Survived"].value_counts(normalize=True), "\n")

print(df[(df["Age"] > 15) & (df["Age"] <= 30)]["Survived"].value_counts(normalize=True), "\n")

print(df[(df["Age"] > 30) & (df["Age"] <= 45)]["Survived"].value_counts(normalize=True), "\n")

print(df[df["Age"] > 45]["Survived"].value_counts(normalize=True), "\n")

1    0.590361
0    0.409639
Name: Survived, dtype: float64 

0    0.641104
1    0.358896
Name: Survived, dtype: float64 

0    0.574257
1    0.425743
Name: Survived, dtype: float64 

0    0.631068
1    0.368932
Name: Survived, dtype: float64 



___
___
___

Vamos agora conhecer o método **.apply()**, que é extremamente útil para **modificar colunas** ou **criar novas colunas a partir de colunas antigas**

Primeiramente, vamos dar uma olhada na coluna de nomes:

In [40]:
show_all(df["Name"])

0                                                                 Braund, Mr. Owen Harris
1                                     Cumings, Mrs. John Bradley (Florence Briggs Thayer)
2                                                                  Heikkinen, Miss. Laina
3                                            Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                                                                Allen, Mr. William Henry
5                                                                        Moran, Mr. James
6                                                                 McCarthy, Mr. Timothy J
7                                                          Palsson, Master. Gosta Leonard
8                                       Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                                                     Nasser, Mrs. Nicholas (Adele Achem)
10                                                        Sandstrom, Miss. Marguerite Rut
11        

Note que a estrutura dos nomes é:

**Sobrenome, Título. Primeiros Nomes**

Será que conseguimos extrair uma coluna **só com os sobrenomes?**

E outra coluna **só com os títulos?**

Vamos ver...

Começamos pegando apenas o primeiro nome:

In [41]:
nome = df["Name"][0]

nome

'Braund, Mr. Owen Harris'

Cada nome será uma string! Se nós usarmos o método **.split(",")**, obteremos uma lista:

In [42]:
nome.split(",")

['Braund', ' Mr. Owen Harris']

Note que o primeiro elemento da lista é o sobrenome!

In [43]:
nome.split(",")[0]

'Braund'

Vamos dar uma olhada nos 5 primeiros elementos da coluna de nomes, pra ver se essa estrutura se mantém:



In [44]:
for i in range(5):
    
    nome = df["Name"][i]
    
    print(nome, " | ", nome.split(",")[0])

Braund, Mr. Owen Harris  |  Braund
Cumings, Mrs. John Bradley (Florence Briggs Thayer)  |  Cumings
Heikkinen, Miss. Laina  |  Heikkinen
Futrelle, Mrs. Jacques Heath (Lily May Peel)  |  Futrelle
Allen, Mr. William Henry  |  Allen


Parece que funcionou!

Agora, como podemos **aplicar** esse mesmo procedimento simultaneamente a todos os elementos da coluna de nomes?

Fazemos isso com o método **.apply()**!

O que esse método faz é **aplicar uma função simultaneamente a todos os elementos de uma série (coluna)**

Podemos definir uma função que faz o que queremos, ou então, de forma mais simples, usar **funções lambda**!

Basta pegar a ação que fizemos (que é essencialmente o ".split(",")[0]"), e passar pra função lambda dentro do apply:

In [45]:
df["Name"]

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [46]:
df["Name"].apply(lambda nome: nome.split(",")[0])

0         Braund
1        Cumings
2      Heikkinen
3       Futrelle
4          Allen
         ...    
886     Montvila
887       Graham
888     Johnston
889         Behr
890       Dooley
Name: Name, Length: 891, dtype: object

Note que foi retornada uma outra série, mas dessa vez apenas com os sobrenomes!

Podemos fazer com que essa série se torne uma nova coluna do df:


In [47]:
df["Surname"] = df["Name"].apply(lambda x: x.split(",")[0])

In [48]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,faixa,FE,Surname
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,"(15.0, 30.0]",1.0,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,"(30.0, 45.0]",2.0,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,"(15.0, 30.0]",1.0,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,"(30.0, 45.0]",2.0,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,"(30.0, 45.0]",2.0,Allen
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,"(15.0, 30.0]",1.0,Montvila
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,"(15.0, 30.0]",1.0,Graham
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,,3.0,Johnston
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,"(15.0, 30.0]",1.0,Behr


As colunas novas sempre vão, por padrão, pro fim do df.

Para mudar a ordem das colunas:

In [49]:
# pega aqui uma lista com as colunas na ordem original, e copia o output

df.columns.tolist()

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked',
 'faixa',
 'FE',
 'Surname']

In [50]:
# muda a ordem como quiser, e redefina o df

df = df[['PassengerId',
         'Survived',
         'Pclass',
         'Name',
         'Surname',
         'Sex',
         'Age',
         'SibSp',
         'Parch',
         'Ticket',
         'Fare',
         'Cabin',
         'Embarked']].copy()

In [51]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",Allen,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",Behr,male,26.0,0,0,111369,30.0000,C148,C


Como podemos fazer pra extrair agora o título?

In [52]:
nome

'Allen, Mr. William Henry'

In [53]:
nome.split(', ')[1].split(".")[0]

'Mr'

Vamos ver se o padrão se mantém pros 5 primeiros:

In [54]:
for i in range(5):
    
    nome = df["Name"][i]
    
    print(nome, " | ", nome.split(', ')[1].split(".")[0])

Braund, Mr. Owen Harris  |  Mr
Cumings, Mrs. John Bradley (Florence Briggs Thayer)  |  Mrs
Heikkinen, Miss. Laina  |  Miss
Futrelle, Mrs. Jacques Heath (Lily May Peel)  |  Mrs
Allen, Mr. William Henry  |  Mr


Parece que funcionou!

Vamos usar o apply na coluna inteira, e já criar uma nova coluna:

In [55]:
df["Title"] = df["Name"].apply(lambda x: x.split(', ')[1].split(".")[0]) 

In [56]:
df = df[['PassengerId',
         'Survived',
         'Pclass',
         'Name',
         'Surname',
         'Title',
         'Sex',
         'Age',
         'SibSp',
         'Parch',
         'Ticket',
         'Fare',
         'Cabin',
         'Embarked']].copy()

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,Mr,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",Allen,Mr,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,Rev,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,Miss,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,Miss,female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",Behr,Mr,male,26.0,0,0,111369,30.0000,C148,C


In [57]:
# vamos dar uma olhada nos títulos...

df["Title"].value_counts()

Mr              517
Miss            182
Mrs             125
Master           40
Dr                7
Rev               6
Mlle              2
Col               2
Major             2
Jonkheer          1
Mme               1
Lady              1
Capt              1
Ms                1
Don               1
the Countess      1
Sir               1
Name: Title, dtype: int64

In [58]:
df[df["Title"] == "Jonkheer"]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
822,823,0,1,"Reuchlin, Jonkheer. John George",Reuchlin,Jonkheer,male,38.0,0,0,19972,0.0,,S


Esse é um passageiro real (procure no google!)

Vejamos alguns outros:

In [59]:
# uma forma de filtrar por mais de um valor, é usando o método ".isin()"

df[~df["Title"].isin(["Jonkheer", "the Countess", "Capt", "Sir", "Don"])]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,Mr,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",Allen,Mr,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,Rev,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,Miss,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,Miss,female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",Behr,Mr,male,26.0,0,0,111369,30.0000,C148,C


Essas pessoas existiram!

<a href=https://en.wikipedia.org/wiki/Manuel_Uruchurtu_Ram%C3%ADrez>Manuel Uruchurtu</a>

<a href=https://www.encyclopedia-titanica.org/titanic-victim/edward-gifford-crosby.html>Edward Crosby</a>

<a href=https://www.themarysue.com/the-countess-of-rothes/>Countess of Rothes</a>

Vamos ver alguns religiosos...

In [60]:
df[df["Title"].isin(["Rev"])]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
149,150,0,2,"Byles, Rev. Thomas Roussel Davids",Byles,Rev,male,42.0,0,0,244310,13.0,,S
150,151,0,2,"Bateman, Rev. Robert James",Bateman,Rev,male,51.0,0,0,S.O.P. 1166,12.525,,S
249,250,0,2,"Carter, Rev. Ernest Courtenay",Carter,Rev,male,54.0,1,0,244252,26.0,,S
626,627,0,2,"Kirkland, Rev. Charles Leonard",Kirkland,Rev,male,57.0,0,0,219533,12.35,,Q
848,849,0,2,"Harper, Rev. John",Harper,Rev,male,28.0,0,1,248727,33.0,,S
886,887,0,2,"Montvila, Rev. Juozas",Montvila,Rev,male,27.0,0,0,211536,13.0,,S


Este processo que fizemos é o chamado **feature engineering**, que consiste em utilizar features originais (nome) para criar **novas features** que possivelment podem ser mais úteis que a feature original.

Isto é, o nome completo de uma pessoa, pode não ser um indicativo tão forte da morte/sobrevivência... Mas o título, pode ser que seja!

Neste processo inicial de EDA não precisamos nos preocupar em criar novas features (fazemos isso em uma etapa posterior, quando estivermos criando modelos, com o objetivo de melhorá-los). A ideia aqui é realmente apenas **explorarmos** a base!

Mas, é legal que agora sabemos como fazer isso, para quando for necessário!

Por fim, vamos utilizar o apply com uma função um pouco mais complexa que as funções lambda que usamos até então.

Criaremos uma nova coluna de faixa etária (**Age Group**), contendo as faixas etárias que analisamos antes.

Pra isso, vamos utilizar a seguinte função:

In [61]:
# faixas: (0-15, 15-30, 30-45, 45+) (fechado superior)

def faixa_etaria(idade):
    
    if idade <= 15:
        
        return "0-15"
    
    elif idade <= 30:
        
        return "15-30"
    
    elif idade <= 45:
        
        return "30-45"
    
    else:
        
        return "45+"

In [62]:
idade = df["Age"][0]

print(idade, faixa_etaria(idade))

22.0 15-30


In [63]:
for i in range(5):
    
    idade = df["Age"][i]
    
    print(idade, " | ", faixa_etaria(idade))

22.0  |  15-30
38.0  |  30-45
26.0  |  15-30
35.0  |  30-45
35.0  |  30-45


Está funcionando! Agora, basta aplicar essa funlção a todos os elementos da coluna de idades:

In [64]:
df["Age"].apply(faixa_etaria)

0      15-30
1      30-45
2      15-30
3      30-45
4      30-45
       ...  
886    15-30
887    15-30
888      45+
889    15-30
890    30-45
Name: Age, Length: 891, dtype: object

In [65]:
# dá pra ser mais explícito usando a função lambda, se vc preferir:

df["Age"].apply(lambda x: faixa_etaria(x))

0      15-30
1      30-45
2      15-30
3      30-45
4      30-45
       ...  
886    15-30
887    15-30
888      45+
889    15-30
890    30-45
Name: Age, Length: 891, dtype: object

In [66]:
# criando a coluna nova:

df["Age Group"] = df["Age"].apply(lambda x: faixa_etaria(x))

In [67]:
df.columns.tolist()

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Surname',
 'Title',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked',
 'Age Group']

In [68]:
df = df[['PassengerId',
        'Survived',
        'Pclass',
        'Name',
        'Surname',
        'Title',
        'Sex',
        'Age',
        'Age Group',
        'SibSp',
        'Parch',
        'Ticket',
        'Fare',
        'Cabin',
        'Embarked']].copy()

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,Age Group,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,Mr,male,22.0,15-30,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,38.0,30-45,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,26.0,15-30,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,35.0,30-45,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",Allen,Mr,male,35.0,30-45,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,Rev,male,27.0,15-30,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,Miss,female,19.0,15-30,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,Miss,female,,45+,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",Behr,Mr,male,26.0,15-30,0,0,111369,30.0000,C148,C


Note que agora fica muito mais fácil responder às perguntas que respondemos antes com filtros:

In [69]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)

df["Age Group"].value_counts()

15-30    326
45+      280
30-45    202
0-15      83
Name: Age Group, dtype: int64

In [70]:
# e qual a distribuição de sexo dentro de cada faixa etária?

df.groupby(["Age Group", "Sex"])[["Sex"]].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Sex
Age Group,Sex,Unnamed: 2_level_1
0-15,female,43
0-15,male,40
15-30,female,115
15-30,male,211
30-45,female,73
30-45,male,129
45+,female,83
45+,male,197


In [71]:
# se quisermos as proporções

df.groupby(["Age Group", "Sex"])[["Sex"]].count().groupby(level=0).apply(lambda x: x/x.sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,Sex
Age Group,Sex,Unnamed: 2_level_1
0-15,female,0.518072
0-15,male,0.481928
15-30,female,0.352761
15-30,male,0.647239
30-45,female,0.361386
30-45,male,0.638614
45+,female,0.296429
45+,male,0.703571


In [72]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?

df.groupby(["Age Group", "Survived"])[["Survived"]].count().groupby(level=0).apply(lambda x: x/x.sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Age Group,Survived,Unnamed: 2_level_1
0-15,0,0.409639
0-15,1,0.590361
15-30,0,0.641104
15-30,1,0.358896
30-45,0,0.574257
30-45,1,0.425743
45+,0,0.678571
45+,1,0.321429


Usando a função pd.pivot_table():

In [73]:
pd.pivot_table(df,
               columns = 'Sex',
               index = 'Age Group',
               values = 'Survived',
               aggfunc = np.mean)

Sex,female,male
Age Group,Unnamed: 1_level_1,Unnamed: 2_level_1
0-15,0.651163,0.525
15-30,0.747826,0.146919
30-45,0.780822,0.224806
45+,0.746988,0.142132


In [74]:
df.pivot_table(columns = 'Sex',
               index = 'Age Group',
               values = 'Survived',
               aggfunc = 'mean')

Sex,female,male
Age Group,Unnamed: 1_level_1,Unnamed: 2_level_1
0-15,0.651163,0.525
15-30,0.747826,0.146919
30-45,0.780822,0.224806
45+,0.746988,0.142132


___


Agora que conhecemos melhor a base, vamos olhar novamente para os dados missing:

In [75]:
# quantos dados missing há em cada coluna?

df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Surname          0
Title            0
Sex              0
Age            177
Age Group        0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Existem diferentes formas de atacar o problema de dados missing na base. Vamos ver algumas delas!

Mas, é importante mencionar que o que faremos aqui é apenas **para fins exploratórios**! Quando lidamos com dados missing **para a modelagem**, é importante usar ferramentas mais robustas, que aprenderemos no futuro.

Lembre-se: o que estamos fazendo aqui, é apenas para **explorar** a base e aprendermos algumas ferramentas legais do pandas!

**Excluir linhas/colunas dados missing**

In [76]:
# axis=0 representa linhas
# se houver qualquer valor vazio naquela linha, ela é dropada

df_dropna_linhas = df.dropna(axis=0, how="any")

In [77]:
# comparando...

df.shape, df_dropna_linhas.shape

((891, 15), (183, 15))

In [78]:
# checando os missing após removê-los

df_dropna_linhas.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Surname        0
Title          0
Sex            0
Age            0
Age Group      0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

In [79]:
# axis=1 representa colunas
# se houver qualquer valor vazio naquela coluna, ela é dropada

df_dropna_colunas = df.dropna(axis=1, how="any")

In [80]:
# comparando...

df.shape, df_dropna_colunas.shape

((891, 15), (891, 12))

In [81]:
# checando os missing após removê-los

df_dropna_colunas.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Surname        0
Title          0
Sex            0
Age Group      0
SibSp          0
Parch          0
Ticket         0
Fare           0
dtype: int64

Nas abordagens acima estamos jogando dados fora, e isso raramente é uma opção interessante (dados são preciosos!)

Se pudermos **preencher** os dados que estão faltando de alguma forma que seja justificável, isso pode ser uma boa abordagem! Vamos ver como fazer isso...


**Preencher dados missing**

Vamos discutir agora como preencher as colunas "Embarked" e "Age"

A coluna "Cabin" tem muitíssimos dados vazios, de difícil preenchimento, e talvez ela não traga tanta informação assim... Então, podemos simplesmente deletá-la da base:

In [82]:
# dropando coluna "cabin"

df = df.drop(columns="Cabin")

Para o preenchimento dos dados missing de "Embarked", vamos dar uma olhada:

In [83]:
df[df["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,Age Group,SibSp,Parch,Ticket,Fare,Embarked
61,62,1,1,"Icard, Miss. Amelie",Icard,Miss,female,38.0,30-45,0,0,113572,80.0,
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",Stone,Mrs,female,62.0,45+,0,0,113572,80.0,


São duas mulheres da primeira classe, que sobreviveram. Vamos dar uma olhada novamente no agrupamento destas colunas:

In [84]:
df.groupby(["Pclass", "Survived", "Sex", "Embarked"])[["Survived"]].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Survived
Pclass,Survived,Sex,Embarked,Unnamed: 4_level_1
1,0,female,C,1
1,0,female,S,2
1,0,male,C,25
1,0,male,Q,1
1,0,male,S,51
1,1,female,C,42
1,1,female,Q,1
1,1,female,S,46
1,1,male,C,17
1,1,male,S,28


Grande parte das mulheres que sobreviveram da primeira classe embarcaram no porto C ou S. Como decidir entre estes dois?

In [85]:
# olhando pra coluna "Fare"

df.groupby(["Embarked", "Pclass", "Sex"])[["Fare"]].agg(["count", "mean", "median"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,mean,median
Embarked,Pclass,Sex,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
C,1,female,43,115.640309,83.1583
C,1,male,42,93.536707,61.6792
C,2,female,7,25.268457,24.0
C,2,male,10,25.42125,25.8604
C,3,female,23,14.694926,14.4583
C,3,male,43,9.352237,7.2292
Q,1,female,1,90.0,90.0
Q,1,male,1,90.0,90.0
Q,2,female,2,12.35,12.35
Q,2,male,1,12.35,12.35


Assim, vamos seguir com "S"! Para preencher os missings com este valor, usamos o .fillna():

In [86]:
# preenchendo NaNs da coluna e a redefinindo

df["Embarked"] = df["Embarked"].fillna(value = "S")

In [87]:
# checando...

df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Surname          0
Title            0
Sex              0
Age            177
Age Group        0
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         0
dtype: int64

Para preencher as idades (um dado numérico, mas com muitos dados missing), há várias alternativas possíveis. Vamos ver algumas

In [88]:
# criando uma cópia da base até o momento, caso queiramos recuperá-la

df_checkpoint = df.copy()

Opção 1: Preenchendo com a média geral

In [89]:
# preenche os missings da coluna completa com a média de idades geral

df["Age"] = df["Age"].fillna(value=df["Age"].mean())

In [90]:
# checando...

df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Surname        0
Title          0
Sex            0
Age            0
Age Group      0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Opção 2: Preenchendo com a média separada por classe

In [91]:
# recuperando o df com as idades missing

df = df_checkpoint.copy()

In [92]:
# check...

df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Surname          0
Title            0
Sex              0
Age            177
Age Group        0
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         0
dtype: int64

In [93]:
# agrupando por classe e tomando a média de idades
# o reset_index no final é importante pro cruzamento

media_idades_classes = df.groupby("Pclass")[["Age"]].mean().reset_index()

media_idades_classes

Unnamed: 0,Pclass,Age
0,1,38.233441
1,2,29.87763
2,3,25.14062


Agora, podemos cruzar a base acima com a sub-base original com as linhas que têm idades missing!

Isso vai trazer as idades:

In [94]:
# sub-base com idades missing
# obs: dá pra pegar apnas a chave de cruzamento!!

df_idades_missing = df.loc[df["Age"].isnull()][["Pclass"]]

df_idades_missing

Unnamed: 0,Pclass
5,3
17,2
19,3
26,3
28,3
...,...
859,3
863,3
868,3
878,3


In [95]:
# fazendo o cruzamento
# é importante manter os índices da base da esquerda!!

df_idades_missing.merge(media_idades_classes, 
                        on="Pclass", 
                        how="left").set_index(df_idades_missing.index)

Unnamed: 0,Pclass,Age
5,3,25.14062
17,2,29.87763
19,3,25.14062
26,3,25.14062
28,3,25.14062
...,...,...
859,3,25.14062
863,3,25.14062
868,3,25.14062
878,3,25.14062


In [96]:
# vamos pegar apenas a idade do cruzamento acima

idades_a_preencher = df_idades_missing.merge(media_idades_classes, 
                                             on="Pclass", 
                                             how="left").set_index(df_idades_missing.index)["Age"]

idades_a_preencher

5      25.14062
17     29.87763
19     25.14062
26     25.14062
28     25.14062
         ...   
859    25.14062
863    25.14062
868    25.14062
878    25.14062
888    25.14062
Name: Age, Length: 177, dtype: float64

In [97]:
# Agora, basta setar a série acima às idades missing!
# fazemos isso com o .loc:

df.loc[df["Age"].isnull(), "Age"] = idades_a_preencher

In [98]:
# check

df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Surname        0
Title          0
Sex            0
Age            0
Age Group      0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Opção 3: Generalizar o procedimento acima pra quantas colunas quisermos usar no cruzamento!


In [99]:
# recuperando o df com as idades missing

df = df_checkpoint.copy()

# check
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Surname          0
Title            0
Sex              0
Age            177
Age Group        0
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         0
dtype: int64

In [100]:
# preencher com a média de idade das respectivas: classe, sexo, porto de embarque

# definindo os atributos pro cruzamento
cols = ["Pclass", "Sex", "Embarked"]

# fazendo o agrupamento: muda as colunas de agrupamento!
media_idades = df.groupby(cols)[["Age"]].mean().reset_index()

# sub-base com idades missing, e apenas as colunas de cruzamento: muda as colunas selecionadas
df_idades_missing = df.loc[df["Age"].isnull()][cols]

# fazendo o cruzamento: muda as colunas de chave pro curzamento
idades_a_preencher = df_idades_missing.merge(media_idades, 
                                             on=cols, 
                                             how="left").set_index(df_idades_missing.index)["Age"]

idades_a_preencher

5      28.142857
17     30.875889
19     14.062500
26     25.016800
28     22.850000
         ...    
859    25.016800
863    23.223684
868    26.574766
878    26.574766
888    23.223684
Name: Age, Length: 177, dtype: float64

In [101]:
# setando as idades missing

df.loc[df["Age"].isnull(), "Age"] = idades_a_preencher

In [102]:
# check

df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Surname        0
Title          0
Sex            0
Age            0
Age Group      0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Agora sim, nossa base está 100% preenchida e pronta pra modelar! :D

In [103]:
# dando uma olhada final na base

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,Age Group,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,Mr,male,22.000000,15-30,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,38.000000,30-45,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,26.000000,15-30,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,35.000000,30-45,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",Allen,Mr,male,35.000000,30-45,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,Rev,male,27.000000,15-30,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,Miss,female,19.000000,15-30,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,Miss,female,23.223684,45+,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",Behr,Mr,male,26.000000,15-30,0,0,111369,30.0000,C


In [104]:
# redefinindo o checkpoint neste ponto

df_checkpoint = df.copy()

___


### Processando dados categóricos

Os modelos de machine learning não conseguem utilizar dados categóricos diretamente!

Por isso, é necessário transformá-los em dados numéricos antes, o que faz parte do pré-processamento.

Vamos ver duas formas de fazer isso!

Aqui, novamente, nosso fim é **exploratório**. Para a construção de modelos, devemos fazer esta codificação numérica de features categóricas de maneira mais robusta, que aprenderemos no futuro. Por enquanto, o que faremos abaixo é apenas para ilustrar ferramentas do pandas, e explorarmos a base!

In [105]:
# redefinindo o df

df = df_checkpoint.copy()

# capture um subdataframe com as colunas que não são numéricas
# dica: df.select_dtypes(exclude=[np.number])

df.select_dtypes(exclude=[np.number])

Unnamed: 0,Name,Surname,Title,Sex,Age Group,Ticket,Embarked
0,"Braund, Mr. Owen Harris",Braund,Mr,male,15-30,A/5 21171,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,30-45,PC 17599,C
2,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,15-30,STON/O2. 3101282,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,30-45,113803,S
4,"Allen, Mr. William Henry",Allen,Mr,male,30-45,373450,S
...,...,...,...,...,...,...,...
886,"Montvila, Rev. Juozas",Montvila,Rev,male,15-30,211536,S
887,"Graham, Miss. Margaret Edith",Graham,Miss,female,15-30,112053,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,Miss,female,45+,W./C. 6607,S
889,"Behr, Mr. Karl Howell",Behr,Mr,male,15-30,111369,C


In [107]:
# dê uma olhada nos valores únicos de cada uma das colunas categóricas

for coluna in df.select_dtypes(exclude=[np.number]).columns:
    
    print("Coluna:", coluna)
    
    # mostre (display) apenas as colunas com menos que 50 níveis categóricos
    # (se não, vai ser dificil de ver)
    if len(df[coluna].unique().tolist()) > 50:
        print("Há muitos níveis categóricos:", len(df[coluna].unique().tolist()))
    else:
        display(df[coluna].unique().tolist())
    
    print("\n\n")

Coluna: Name
Há muitos níveis categóricos: 891



Coluna: Surname
Há muitos níveis categóricos: 667



Coluna: Title


['Mr',
 'Mrs',
 'Miss',
 'Master',
 'Don',
 'Rev',
 'Dr',
 'Mme',
 'Ms',
 'Major',
 'Lady',
 'Sir',
 'Mlle',
 'Col',
 'Capt',
 'the Countess',
 'Jonkheer']




Coluna: Sex


['male', 'female']




Coluna: Age Group


['15-30', '30-45', '45+', '0-15']




Coluna: Ticket
Há muitos níveis categóricos: 681



Coluna: Embarked


['S', 'C', 'Q']






Em algumas colunas, ["Title", "Sex", "Age Group", "Embarked"], não há muitos **níveis categóricos**! 

Quando este é o caso, podemos **representar cada categoria como um número!**

Isso faz com que possamos utilizar as colunas com dados categóricos em nosso modelo!

O que vamos fazer é:

- Convertemos a coluna para category (com o método `astype('category')`);
- Utilizamos então os atributos `cat.codes` para criar códigos numéricos que representem as categorias. 


In [108]:
# apenas as colunas identificadas acima
for coluna in ["Title", "Sex", "Age Group", "Embarked"]:
    
    # altera a coluna
    df[coluna] = df[coluna].astype('category').cat.codes

In [109]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Surname      891 non-null    object 
 5   Title        891 non-null    int8   
 6   Sex          891 non-null    int8   
 7   Age          891 non-null    float64
 8   Age Group    891 non-null    int8   
 9   SibSp        891 non-null    int64  
 10  Parch        891 non-null    int64  
 11  Ticket       891 non-null    object 
 12  Fare         891 non-null    float64
 13  Embarked     891 non-null    int8   
dtypes: float64(2), int64(5), int8(4), object(3)
memory usage: 73.2+ KB


In [110]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,Age Group,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,11,1,22.000000,1,1,0,A/5 21171,7.2500,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,12,0,38.000000,2,1,0,PC 17599,71.2833,0
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,8,0,26.000000,1,0,0,STON/O2. 3101282,7.9250,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,12,0,35.000000,2,1,0,113803,53.1000,2
4,5,0,3,"Allen, Mr. William Henry",Allen,11,1,35.000000,2,0,0,373450,8.0500,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,14,1,27.000000,1,0,0,211536,13.0000,2
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,8,0,19.000000,1,0,0,112053,30.0000,2
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,8,0,23.223684,3,1,2,W./C. 6607,23.4500,2
889,890,1,1,"Behr, Mr. Karl Howell",Behr,11,1,26.000000,1,0,0,111369,30.0000,0


_____

Vamos mudar a abordagem de uso de variáveis categóricas...

#### One-hot encoding

Outra forma muito comum de utilizar variáveis categóricas é através da criação de **variáveis mudas** (dummy variables)

<img src="https://miro.medium.com/max/2474/1*ggtP4a5YaRx6l09KQaYOnw.png" width=700>

Isso é facilmente feito com o pandas utilizando a função [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

In [121]:
# restaurando o df com as features categóricas originais
df = df_checkpoint.copy()

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Title,Sex,Age,Age Group,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",Braund,Mr,male,22.0,15-30,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,Mrs,female,38.0,30-45,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,Miss,female,26.0,15-30,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,Mrs,female,35.0,30-45,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",Allen,Mr,male,35.0,30-45,0,0,373450,8.05,S


In [122]:
# get dummies apenas nas colunas com poucos níveis categóricos!

pd.get_dummies(df, columns = ["Title", "Sex", "Age Group", "Embarked"])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Age,SibSp,Parch,Ticket,Fare,...,Title_the Countess,Sex_female,Sex_male,Age Group_0-15,Age Group_15-30,Age Group_30-45,Age Group_45+,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",Braund,22.000000,1,0,A/5 21171,7.2500,...,0,0,1,0,1,0,0,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,38.000000,1,0,PC 17599,71.2833,...,0,1,0,0,0,1,0,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,26.000000,0,0,STON/O2. 3101282,7.9250,...,0,1,0,0,1,0,0,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,35.000000,1,0,113803,53.1000,...,0,1,0,0,0,1,0,0,0,1
4,5,0,3,"Allen, Mr. William Henry",Allen,35.000000,0,0,373450,8.0500,...,0,0,1,0,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,27.000000,0,0,211536,13.0000,...,0,0,1,0,1,0,0,0,0,1
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,19.000000,0,0,112053,30.0000,...,0,1,0,0,1,0,0,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,23.223684,1,2,W./C. 6607,23.4500,...,0,1,0,0,0,0,1,0,0,1
889,890,1,1,"Behr, Mr. Karl Howell",Behr,26.000000,0,0,111369,30.0000,...,0,0,1,0,1,0,0,1,0,0


Mas note que há uma redundância nas colunas!

Pra resolver isso, podemos utilizar o argumento drop_first=True:

In [123]:
# não esqueça do argumento "columns"
df = pd.get_dummies(df, columns = ["Title", "Sex", "Age Group", "Embarked"], drop_first=True)

In [124]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Surname,Age,SibSp,Parch,Ticket,Fare,...,Title_Ms,Title_Rev,Title_Sir,Title_the Countess,Sex_male,Age Group_15-30,Age Group_30-45,Age Group_45+,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",Braund,22.000000,1,0,A/5 21171,7.2500,...,0,0,0,0,1,1,0,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings,38.000000,1,0,PC 17599,71.2833,...,0,0,0,0,0,0,1,0,0,0
2,3,1,3,"Heikkinen, Miss. Laina",Heikkinen,26.000000,0,0,STON/O2. 3101282,7.9250,...,0,0,0,0,0,1,0,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle,35.000000,1,0,113803,53.1000,...,0,0,0,0,0,0,1,0,0,1
4,5,0,3,"Allen, Mr. William Henry",Allen,35.000000,0,0,373450,8.0500,...,0,0,0,0,1,0,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",Montvila,27.000000,0,0,211536,13.0000,...,0,1,0,0,1,1,0,0,0,1
887,888,1,1,"Graham, Miss. Margaret Edith",Graham,19.000000,0,0,112053,30.0000,...,0,0,0,0,0,1,0,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Johnston,23.223684,1,2,W./C. 6607,23.4500,...,0,0,0,0,0,0,0,1,0,1
889,890,1,1,"Behr, Mr. Karl Howell",Behr,26.000000,0,0,111369,30.0000,...,0,0,0,0,1,1,0,0,0,0


In [125]:
df.columns.tolist()

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Surname',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Title_Col',
 'Title_Don',
 'Title_Dr',
 'Title_Jonkheer',
 'Title_Lady',
 'Title_Major',
 'Title_Master',
 'Title_Miss',
 'Title_Mlle',
 'Title_Mme',
 'Title_Mr',
 'Title_Mrs',
 'Title_Ms',
 'Title_Rev',
 'Title_Sir',
 'Title_the Countess',
 'Sex_male',
 'Age Group_15-30',
 'Age Group_30-45',
 'Age Group_45+',
 'Embarked_Q',
 'Embarked_S']

__________

Agora que terminamos de processar a base, seria interessante salvá-la para que não perdêssesmos as alteracões que fizemos.

O pandas permite salvar os arquivos com uma única linha de código!

Para salvar o arquivo em formato ".csv":

In [None]:
df.to_csv("titanic_processada.csv")

Se quiser salvar como um arquivo de excel:

In [None]:
df.to_excel("titanica_processada.xlsx")