# Aula 3 - Pandas e EDA com Titanic dataset

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) EDA
- 2) Titanic

___

## 1) EDA

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso nas próximas aulas, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

____
____
____

## 2) Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!


In [1]:
import numpy as np
import pandas as pd

#### Titanic

Vamos ler a base **de treino** baixada do kaggle, utilizando o método **pd.read_csv()**

In [2]:
df = pd.read_csv("../datasets/titanic.csv")

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


**Pra quem estiver usando o colab:**

Pra ler arquivos do drive através do colab, temos que fazer o seguinte procedimento:

```python
from google.colab import drive
drive.mount('/content/drive')
```

Ao executar o código acima e fazer a autenticação, você poderá copiar o caminho da pasta de bases, após ela aparecer no menu à esquerda. Sugiro criar uma variável para armazenar o caminho:

```python
caminho_pasta = "/content/drive/..."
```

Depois, basta ler o arquivo desejado a partir do caminho da pasta:

```python
df = pd.read_csv(caminho_pasta + "titanic.csv")
```

_____________
_____________
_____________
_____________

Agora que os dados foram lidos, vamos começar a **olhar** pra eles

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [4]:
# primeiras 5 linhas
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
# ultimas 5 linhas
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [7]:
# dimensão do dataframe
# é uma tupla na forma (numero_de_linhas, numero_de_colunas)
df.shape

(891, 12)

In [8]:
# uma lista com as colunas
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [17]:
# informações sobre o df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB


A informação acima é fundamental para diferenciarmos quais colunas contêm dados **categóricos** e quais contêm dados **numéricos**

- **Dados categóricos**: são dados qualitativos, quase sempre expressos na forma de **strings**. Praticamente todos os modelos não conseguem lidar com dados categóricos diretamente. Por isso, se quisermos utilizá-los, teremos que fazer algum procedimento que trasnforme os dados categórios em dados numéricos. Veremos como fazer isso mais pra frente.

- **Dados numéricos**: são dados numéricos, que podemos utilizar diretamente!

In [18]:
# olhando apenas o tipo de dado em cada coluna
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [19]:
# dando uma olhada nas colunas que contêm dados categóricos com o 
df.select_dtypes(exclude=[np.number])


Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
0,"Braund, Mr. Owen Harris",male,A/5 21171,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,PC 17599,C85,C
2,"Heikkinen, Miss. Laina",female,STON/O2. 3101282,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,113803,C123,S
4,"Allen, Mr. William Henry",male,373450,,S
...,...,...,...,...,...
886,"Montvila, Rev. Juozas",male,211536,,S
887,"Graham, Miss. Margaret Edith",female,112053,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,W./C. 6607,,S
889,"Behr, Mr. Karl Howell",male,111369,C148,C


In [27]:
n = np.array[1,2,3,'4']

TypeError: 'builtin_function_or_method' object is not subscriptable

In [29]:
# procurando por valores nulos
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [30]:
df.isnull().sum() / df.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

> Cabin com 77% de NAN pode desconsiderar a coluna

O que fazer com dados missing? Vamos discutir isso mais tarde!

Por enquanto, vamos continuar explorando a base

In [31]:
# pegando estatísticas simples de todas as colunas (numéricas)
df.select_dtypes(exclude=[np.number])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
0,"Braund, Mr. Owen Harris",male,A/5 21171,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,PC 17599,C85,C
2,"Heikkinen, Miss. Laina",female,STON/O2. 3101282,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,113803,C123,S
4,"Allen, Mr. William Henry",male,373450,,S
...,...,...,...,...,...
886,"Montvila, Rev. Juozas",male,211536,,S
887,"Graham, Miss. Margaret Edith",female,112053,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,W./C. 6607,,S
889,"Behr, Mr. Karl Howell",male,111369,C148,C


__________
_________
________
_______
__________
_________
________
_______


### Sua vez de explorar!!

Que perguntas você acha que são interessantes de ser feita sobre o titanic?
__________
_________
________
_______
__________
_________
________
_______

In [32]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [34]:
df["Survived"].unique()

array([0, 1], dtype=int64)

In [35]:
df["Survived"].value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [36]:
df["Survived"].value_counts(normalize=True)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

In [44]:
df.loc[df['Survived']==1].groupby('Sex').describe()

Unnamed: 0_level_0,PassengerId,PassengerId,PassengerId,PassengerId,PassengerId,PassengerId,PassengerId,PassengerId,Survived,Survived,...,Parch,Parch,Fare,Fare,Fare,Fare,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
female,233.0,429.699571,255.048296,2.0,238.0,400.0,636.0,888.0,233.0,1.0,...,1.0,5.0,233.0,51.938573,64.102256,7.225,13.0,26.0,76.2917,512.3292
male,109.0,475.724771,244.717482,18.0,272.0,508.0,680.0,890.0,109.0,1.0,...,1.0,2.0,109.0,40.821484,71.355967,0.0,9.5,26.2875,39.0,512.3292


Vamos analisar os dados um pouco mais...


In [47]:
# quais os valores possíveis na coluna "Pclass"?
df["Pclass"]

array([3, 1, 2], dtype=int64)

In [63]:
# quantas pessoas tem de cada sexo?
df.groupby('Sex').sum()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,135343,233,678,7286.0,218,204,13966.6628
male,262043,109,1379,13919.17,248,136,14727.2865


In [49]:
# qual a média da coluna "survived"?
# ou seja, qual a taxa de sobrevivencia geral?
df.loc[df['Survived']==1].groupby('Pclass').sum()

Unnamed: 0_level_0,PassengerId,Survived,Age,SibSp,Parch,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,66881,136,4314.92,67,53,13002.6919
2,38200,87,2149.83,43,56,1918.8459
3,46893,119,1754.92,52,50,1629.6916


**Pergunta: qual é proporção de homens na primeira classe que morreram?**

É possível fazer isso com **filtros**

In [59]:
# taxa de sobrevivencia de homens na primeira classe
df.loc[df['Survived']==1].groupby('Pclass').sum()

Unnamed: 0_level_0,PassengerId,Survived,Age,SibSp,Parch,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,66881,136,4314.92,67,53,13002.6919
2,38200,87,2149.83,43,56,1918.8459
3,46893,119,1754.92,52,50,1629.6916


In [90]:
cAge = lambda x : 'crianca' if x <= 20 else ('adulto' if x > 20 and x <= 70 else 'idoso')

In [92]:
df['cAge'] = df['Age'].apply(cAge)
df.groupby(['Survived','Sex','cAge']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PassengerId,Pclass,Age,SibSp,Parch,Fare
Survived,Sex,cAge,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,female,adulto,460.975,2.75,33.2375,0.5,1.1,20.790835
0,female,crianca,362.916667,2.916667,11.395833,1.75,1.041667,26.073612
0,female,idoso,474.941176,3.0,,2.117647,0.882353,23.975006
0,male,adulto,444.155477,2.339223,35.261484,0.254417,0.173145,22.945094
0,male,crianca,453.835616,2.794521,15.30137,1.219178,0.506849,23.106963
0,male,idoso,458.598214,2.616071,71.625,0.401786,0.098214,18.727453
1,female,adulto,447.236111,1.680556,35.010417,0.493056,0.506944,61.484867
1,female,crianca,440.396226,2.207547,12.103774,0.641509,0.811321,39.771308
1,female,idoso,343.805556,2.444444,,0.416667,0.111111,31.666319
1,male,adulto,484.206349,1.809524,35.301587,0.269841,0.095238,49.517198


#### Groupby

O .groupby() é um método super útil que nos ajuda a construir uma **tabela dinâmica** (pivot table) com os dados.

Esse tipo de estrutura nos ajuda muito a fazer a importante etapa de **olhar pros dados**

Vamos usar esta estrutura para responder a pergunta acima!

Precisamos de uma **função de agregação**, que é qual a função que vamos aplicar aos dados agrupados.

Eu quero olhar pros valores da coluna "Survived", agrupados por "Pclass" e "Sex".

Mas que função de agregação usar?

Como a coluna "Survived" tem apenas valores binários 1 e 0, eu posso usar a média!

Ex: [1 0 0 0 0 1 1], média: 3/7 = 42.85%. Ou seja, 42.86% sobreviveram, e 57.14% morreram

In [None]:
# agrupando os dados por classe, sexo, e tomando a taxa de sobrevivencia


Também é possível fazer uma pivot table através da função **pd.pivot_table()**

In [None]:
# parametros df, values, index, columns e aggfunc


Outra pergunta: **qual a relação entre o porto de embarque, a taxa de sobrevivência, e a classe?**

In [None]:
# agrupa por embarked, pclass


É possível passar mais de uma função de agregação:

In [None]:
# usando .agg([]) pra utilizar outras funções de agregação


In [None]:
# sempre dá pra usar filtros também... porto "Q" e classe 1:


Também é possível usar a função **pd.crosstab()**:

In [None]:
# sintaxe:
# [coluna a agregar], [colunas a agregar], margins = True


___
___
___

Sua vez de explorar!

Responda as seguintes perguntas:

In [None]:
# quantas pessoas morreram? Quantas sobreviveram?


In [None]:
# qual a proporção de sobreviventes e mortos?


In [None]:
# qual a quantidade de pessoas de casa sexo que morreu e sobreviveu?
# dica: agrupe os dados por "Survived" e "Sex", e use a função de agregação "count", na propria coluna "survived"


In [None]:
# modifique o groupby que fizemos acima do porto e classe pra incluir também o sexo como agrupador
# esse dataframe dá uma visão bem completa!


In [None]:
# agrupe agora por porto, classe, sexo e survived, e pegue as contagens de "survived"
# essa análise também dá uma visão interessante do perfil dos passageiros


In [None]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)
# dica: faça os filtros adequados 
# e lembre do atributo ".shape" que é uma tupla na forma (numero_de_linhas, numero_de_colunas)


In [None]:
# e qual a distribuição de sexo dentro de cada faixa etária?


In [None]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?


___
___
___

Vamos agora conhecer o método **.apply()**, que é extremamente útil para **modificar colunas** ou **criar novas colunas a partir de colunas antigas**

Primeiramente, vamos dar uma olhada na coluna de nomes:

In [None]:
# coluna de nomes


Note que a estrutura dos nomes é:

**Sobrenome, Título. Primeiros Nomes**

Será que conseguimos extrair uma coluna **só com os sobrenomes?**

E outra coluna **só com os títulos?**

Vamos ver...

Começamos pegando apenas o primeiro nome:

In [None]:
# pegando o primeiro nome


Cada nome será uma string! Se nós usarmos o método **.split(",")**, obteremos uma lista:

In [None]:
# splita na ","


Note que o primeiro elemento da lista é o sobrenome!

In [None]:
# primeiro elemento


Vamos dar uma olhada nos 5 primeiros elementos da coluna de nomes, pra ver se essa estrutura se mantém:



In [None]:
# vendo se a estrutura se mantém...


Parece que funcionou!

Agora, como podemos **aplicar** esse mesmo procedimento simultaneamente a todos os elementos da coluna de nomes?

Fazemos isso com o método **.apply()**!

O que esse método faz é **aplicar uma função simultaneamente a todos os elementos de uma série (coluna)**

Podemos definir uma função que faz o que queremos, ou então, de forma mais simples, usar **funções lambda**!

Basta pegar a ação que fizemos (que é essencialmente o ".split(",")[0]"), e passar pra função lambda dentro do apply:

In [None]:
# utilizando o apply


Note que foi retornada uma outra série, mas dessa vez apenas com os sobrenomes!

Podemos fazer com que essa série se torne uma nova coluna do df:


In [None]:
# criando uma nova coluna, de sobrenomes


As colunas novas sempre vão, por padrão, pro fim do df.

Para mudar a ordem das colunas:

In [None]:
# pega aqui uma lista com as colunas na ordem original, e copia o output


In [None]:
# muda a ordem como quiser através da indexação, e redefina o df
# IMPORTANTE: use o .copy() no final pra não dar warning de cópia!


Como podemos fazer pra extrair agora o **título** do sobrenome?

In [None]:
# tente algo splitar em ", ", depois em "." 


Vamos ver se o padrão se mantém pros 5 primeiros:

In [None]:
# vendo se a estrutura se mantém...


Parece que funcionou!

Vamos usar o apply na coluna inteira, e já criar uma nova coluna:

In [None]:
# criando a coluna de título


In [None]:
# mudando a ordem


In [None]:
# vamos dar uma olhada nos títulos e quantidades...


In [None]:
# titulo "jonkheer"

Esse é um passageiro real (procure no google!)

Vejamos alguns outros:

In [None]:
# uma forma de filtrar por mais de um valor, é usando o método ".isin()"
# vamos procurar os titulos menos comuns "Jonkheer", "the Countess", "Capt", "Sir", "Don"


Essas pessoas existiram!

<a href=https://en.wikipedia.org/wiki/Manuel_Uruchurtu_Ram%C3%ADrez>Manuel Uruchurtu</a>

<a href=https://www.encyclopedia-titanica.org/titanic-victim/edward-gifford-crosby.html>Edward Crosby</a>

<a href=https://www.themarysue.com/the-countess-of-rothes/>Countess of Rothes</a>

Vamos ver alguns religiosos...

In [None]:
# filtrando título "rev"


Este processo que fizemos é o chamado **feature engineering**, que consiste em utilizar features originais (nome) para criar **novas features** que possivelment podem ser mais úteis que a feature original.

Isto é, o nome completo de uma pessoa, pode não ser um indicativo tão forte da morte/sobrevivência... Mas o título, pode ser que seja!

Por fim, vamos utilizar o apply com uma função um pouco mais complexa que as funções lambda que usamos até então.

Criaremos uma nova coluna de faixa etária (**Age Group**), contendo as faixas etárias que analisamos antes.

Pra isso, vamos utilizar a seguinte função:

In [None]:
# faixas: (0-15, 15-30, 30-45, 45+) (fechado superior)
# crie uma função pra isso, usando a idade como input


In [None]:
# check se a função tá correta


Está funcionando! Agora, basta aplicar essa função a todos os elementos da coluna de idades:

In [None]:
# apply com o nome da função diretamente


In [None]:
# dá pra ser mais explícito usando a função lambda, se vc preferir:


In [None]:
# criando a coluna nova:


Também é possível criar faixas com o método **pd.cut()**:

In [None]:
# usando o pd.cut(), sintaxe:
# coluna a ser cortada, [lista de limites pros intervalos], labels = [nome dos intervalos]


Note que agora fica muito mais fácil responder às perguntas que respondemos antes com filtros:

In [None]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)


In [None]:
# e qual a distribuição de sexo dentro de cada faixa etária?


In [None]:
# se quisermos as proporções


In [None]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?


Usando a função pd.pivot_table():

In [None]:
# qual a taxa de sobrevivencia por sexo e grupo de idade?
# pivot com columns = 'Sex', index = 'Age Group', values = 'Survived', aggfunc = np.mean


____________

Agora que conhecemos melhor a base, vamos olhar novamente para os dados missing:

In [None]:
# quantos dados missing há em cada coluna?


Existem diferentes formas de atacar o problema de dados missing na base. Vamos ver algumas delas:

**Excluir linhas/colunas dados missing**

In [None]:
# axis=0 representa linhas
# se houver qualquer valor vazio naquela linha, ela é dropada


In [None]:
# comparando os shapes


In [None]:
# checando os missing após removê-los


In [None]:
# axis=1 representa colunas
# se houver qualquer valor vazio naquela coluna, ela é dropada


In [None]:
# comparando os shapes


In [None]:
# checando os missing após removê-los


Nas abordagens acima estamos jogando dados fora, e isso raramente é uma opção interessante (dados são preciosos!)

Se pudermos **preencher** os dados que estão faltando de alguma forma que seja justificável, isso pode ser uma boa abordagem! Vamos ver como fazer isso...


**Preencher dados missing**

Vamos discutir agora como preencher as colunas "Embarked" e "Age"

A coluna "Cabin" tem muitíssimos dados vazios, de difícil preenchimento, e talvez ela não traga tanta informação assim... Então, podemos simplesmente deletá-la da base:

In [None]:
# dropando coluna "cabin"


Para o preenchimento dos dados missing de "Embarked", vamos dar uma olhada:

In [None]:
# filtrando o dataframe pra pegar as linhas com "embarked" missing


São duas mulheres da primeira classe, que sobreviveram. Vamos dar uma olhada novamente no agrupamento destas colunas:

In [None]:
# agrupe os dados por classe, survived, sex e embarked, pra calcular a contagem de sobreviventes


Grande parte das mulheres que sobreviveram da primeira classe embarcaram no porto C ou S. Como decidir entre estes dois?

In [None]:
# olhando pra coluna "Fare": count, media e mediana.
# agrupando por porto, classe e sexo


Assim, vamos seguir com "S"! Para preencher os missings com este valor, usamos o .fillna():

In [None]:
# preenchendo NaNs da coluna e a redefinindo 


In [None]:
# checando se ainda há dados nulos


Para preencher as idades (um dado numérico, mas com muitos dados missing), há várias alternativas possíveis. Vamos ver algumas

In [None]:
# criando df_checkpoint, uma cópia da base até o momento, caso queiramos recuperá-la


**Opção 1**: Preenchendo com a média geral

In [None]:
# preenche os missings da coluna completa com a média de idades geral


In [None]:
# checando se ainda há missings


**Opção 2**: Preenchendo com a média separada por classe

In [None]:
# recuperando o df com as idades missing


In [None]:
# check se recuperou


In [None]:
# agrupando por classe e tomando a média de idades
# o reset_index no final é importante pro cruzamento


Agora, podemos cruzar a base acima com a sub-base original com as linhas que têm idades missing!

Isso vai trazer as idades:

In [None]:
# sub-base com idades missing
# obs: dá pra pegar apenas a chave de cruzamento, que será "Pclass"!!


In [None]:
# fazendo o cruzamento (usando "Pclass" como chave, left join)
# é importante manter os índices da base da esquerda!! 
# por isso, usamos o set_index()


In [None]:
# vamos pegar apenas a idade do cruzamento acima
# (selecionamos a coluna "Age") -- note que os índices são mantidos!!


In [None]:
# Agora, basta setar a série acima às idades missing!
# fazemos isso com o .loc, pra selecionar as idades missing e a coluna de idades:


In [None]:
# check se não tem mais missings


**Opção 3**: Generalizar o procedimento acima pra quantas colunas quisermos usar no cruzamento!


In [None]:
# recuperando o df com as idades missing

# check valores missing


In [None]:
# preencher com a média de idade das respectivas: classe, sexo, porto de embarque

# definindo as colunas pro cruzamento

# fazendo o agrupamento: muda as colunas de agrupamento!

# sub-base com idades missing, e apenas as colunas de cruzamento: muda as colunas selecionadas

# fazendo o cruzamento: muda as colunas de chave pro curzamento

# chamando as idades a preencher


In [None]:
# setando as idades missing


In [None]:
# check


Agora sim, nossa base está 100% preenchida e (quase) pronta pra modelar! :D

In [None]:
# dando uma olhada final na base


In [None]:
# redefinindo o checkpoint como sendo o df neste ponto


___


### Processando dados categóricos

Os modelos de machine learning não conseguem utilizar dados categóricos diretamente!

Por isso, é necessário transformá-los em dados numéricos antes, o que faz parte do pré-processamento.

Vamos ver duas formas de fazer isso!

In [None]:
# redefinindo o df

# capturando um subdataframe com as colunas que não são numéricas
# dica: df.select_dtypes(exclude=[np.number])


In [None]:
# dê uma olhada nos valores únicos de cada uma das colunas categóricas

# mostre (display) apenas as colunas com menos que 50 níveis categóricos
# (se não, vai ser dificil de ver)


Em algumas colunas, ["Title", "Sex", "Age Group", "Embarked"], não há muitos **níveis categóricos**! 

Quando este é o caso, podemos **representar cada categoria como um número!**

Isso faz com que possamos utilizar as colunas com dados categóricos em nosso modelo!

O que vamos fazer é:

- Convertemos a coluna para category (com o método `astype('category')`);
- Utilizamos então os atributos `cat.codes` para criar códigos numéricos que representem as categorias. 


In [None]:
# apenas as colunas identificadas acima

# altera a coluna com df[coluna].astype('category').cat.codes


In [None]:
# olha o info


_____

Vamos mudar a abordagem de uso de variáveis categóricas...

#### One-hot encoding

Outra forma muito comum de utilizar variáveis categóricas é através da criação de **variáveis mudas** (dummy variables)

<img src="https://miro.medium.com/max/2474/1*ggtP4a5YaRx6l09KQaYOnw.png" width=700>

Isso é facilmente feito com o pandas utilizando a função [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

In [None]:
# restaurando o df com as features categóricas originais


In [None]:
# get dummies apenas nas colunas com poucos níveis categóricos!


Mas note que há uma redundância nas colunas!

Pra resolver isso, podemos utilizar o argumento drop_first=True:

In [None]:
# não esqueça do argumento "columns", e já redefinimos o df


In [None]:
# chama o info

__________

Agora que terminamos de processar a base, seria interessante salvá-la para que não perdêssesmos as alteracões que fizemos.

O pandas permite salvar os arquivos com uma única linha de código!

Para salvar o arquivo em formato ".csv":

In [None]:
# to_csv

Se quiser salvar como um arquivo de excel:

In [None]:
# to_excel

___
