# Aula 3 - Pandas e EDA com Titanic dataset

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) EDA
- 2) Titanic

___

## 1) EDA

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso nas próximas aulas, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

____
____
____

## 2) Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!


In [1]:
import numpy as np
import pandas as pd

#### Titanic

Vamos ler a base **de treino** baixada do kaggle, utilizando o método **pd.read_csv()**

In [115]:
df = pd.read_csv("../datasets/titanic_completa_oficial.csv")

df = df.replace({"?":np.nan})

df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,151.55,C22 C26,S,,135,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304,
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,7.225,,C,,,


In [116]:
df = pd.read_csv("../datasets/titanic_completa_oficial.csv", na_values="?")

df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


**Pra quem estiver usando o colab:**

Pra ler arquivos do drive através do colab, temos que fazer o seguinte procedimento:

```python
from google.colab import drive
drive.mount('/content/drive')
```

Ao executar o código acima e fazer a autenticação, você poderá copiar o caminho da pasta de bases, após ela aparecer no menu à esquerda. Sugiro criar uma variável para armazenar o caminho:

```python
caminho_pasta = "/content/drive/..."
```

Depois, basta ler o arquivo desejado a partir do caminho da pasta:

```python
df = pd.read_csv(caminho_pasta + "titanic.csv")
```

__________________

Agora que os dados foram lidos, vamos começar a **olhar** pra eles

In [117]:
df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


In [118]:
# primeiras 5 linhas

df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [119]:
df.head(1)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"


In [120]:
# ultimas 5 linhas

df.tail()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0,0,0,2670,7.225,,C,,,
1308,3,0,"Zimmerman, Mr. Leo",male,29.0,0,0,315082,7.875,,S,,,


In [121]:
df.tail(1)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1308,3,0,"Zimmerman, Mr. Leo",male,29.0,0,0,315082,7.875,,S,,,


In [122]:
# dimensão do dataframe
# é uma tupla na forma (numero_de_linhas, numero_de_colunas)

df.shape

(1309, 14)

In [123]:
# uma lista com as colunas

df.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [124]:
df.index

RangeIndex(start=0, stop=1309, step=1)

In [125]:
# informações sobre o df

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(3), int64(4), object(7)
memory usage: 143.3+ KB


In [102]:
np.array([1, 2, 4, 5])

array([1, 2, 4, 5])

In [103]:
np.array([1, 2, 4, "5"])

array(['1', '2', '4', '5'], dtype='<U11')

In [126]:
# contabiliza dados nulos em cada coluna

df.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

In [127]:
df.shape[0]

1309

In [128]:
df.isnull().sum() / df.shape[0]

pclass       0.000000
survived     0.000000
name         0.000000
sex          0.000000
age          0.200917
sibsp        0.000000
parch        0.000000
ticket       0.000000
fare         0.000764
cabin        0.774637
embarked     0.001528
boat         0.628724
body         0.907563
home.dest    0.430863
dtype: float64

In [129]:
df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


O que fazer com dados missing? Vamos discutir isso mais tarde!

Por enquanto, vamos continuar explorando a base

In [130]:
df.dtypes

pclass         int64
survived       int64
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket        object
fare         float64
cabin         object
embarked      object
boat          object
body         float64
home.dest     object
dtype: object

A informação acima é fundamental para diferenciarmos quais colunas contêm dados **categóricos** e quais contêm dados **numéricos**

- **Dados categóricos/qualitativos**: são dados qualitativos, quase sempre expressos na forma de **strings**. Praticamente todos os modelos não conseguem lidar com dados categóricos diretamente. Por isso, se quisermos utilizá-los, teremos que fazer algum procedimento que trasnforme os dados categórios em dados numéricos. Veremos como fazer isso mais pra frente.

- **Dados numéricos**: são dados numéricos, que podemos utilizar diretamente!

In [39]:
# # setando opções sem limites
# pd.set_option('display.max_columns', 5)
# pd.set_option('display.max_rows', 10)
# pd.set_option('max_colwidth', None)

# display(df)

# # resetando opções pro padrão    
# pd.reset_option('display.max_columns')
# pd.reset_option('display.max_rows')
# pd.reset_option('max_colwidth')

In [131]:
df.select_dtypes(include=np.number)

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
0,1,1,29.0000,0,0,211.3375,
1,1,1,0.9167,1,2,151.5500,
2,1,0,2.0000,1,2,151.5500,
3,1,0,30.0000,1,2,151.5500,135.0
4,1,0,25.0000,1,2,151.5500,
...,...,...,...,...,...,...,...
1304,3,0,14.5000,1,0,14.4542,328.0
1305,3,0,,1,0,14.4542,
1306,3,0,26.5000,0,0,7.2250,304.0
1307,3,0,27.0000,0,0,7.2250,


In [133]:
df["boat"].unique()

array(['2', '11', nan, '3', '10', 'D', '4', '9', '6', 'B', '8', 'A', '5',
       '7', 'C', '14', '5 9', '13', '1', '15', '5 7', '8 10', '12', '16',
       '13 15 B', 'C D', '15 16', '13 15'], dtype=object)

In [132]:
df.select_dtypes(exclude=np.number)

Unnamed: 0,name,sex,ticket,cabin,embarked,boat,home.dest
0,"Allen, Miss. Elisabeth Walton",female,24160,B5,S,2,"St Louis, MO"
1,"Allison, Master. Hudson Trevor",male,113781,C22 C26,S,11,"Montreal, PQ / Chesterville, ON"
2,"Allison, Miss. Helen Loraine",female,113781,C22 C26,S,,"Montreal, PQ / Chesterville, ON"
3,"Allison, Mr. Hudson Joshua Creighton",male,113781,C22 C26,S,,"Montreal, PQ / Chesterville, ON"
4,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,113781,C22 C26,S,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...
1304,"Zabour, Miss. Hileni",female,2665,,C,,
1305,"Zabour, Miss. Thamine",female,2665,,C,,
1306,"Zakarian, Mr. Mapriededer",male,2656,,C,,
1307,"Zakarian, Mr. Ortin",male,2670,,C,,


In [135]:
# pegando estatísticas simples de todas as colunas (numéricas)

df.describe()

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


In [137]:
df["survived"].unique()

array([1, 0], dtype=int64)

In [138]:
df["survived"].value_counts()

0    809
1    500
Name: survived, dtype: int64

In [139]:
df["survived"].value_counts(normalize=True)

0    0.618029
1    0.381971
Name: survived, dtype: float64

In [140]:
df["survived"].mean()

0.3819709702062643

__________
_________
________
_______
__________
_________
________
_______


### Sua vez de explorar!!

Que perguntas você acha que são interessantes de ser feita sobre o titanic?
__________
_________
________
_______
__________
_________
________
_______

In [51]:
df["Cabin"]

0       NaN
1       C85
2       NaN
3      C123
4       NaN
       ... 
886     NaN
887     B42
888     NaN
889    C148
890     NaN
Name: Cabin, Length: 891, dtype: object

PERGUNTAS:

- (Taxa de sobrevivência por:)

- idade? ok

- faixa etária? +/-

- sexo? ok

- classe? ok

- porto de embarque? ok

- preço medio por classe? ok

- fare? ok


(Dos que sobreviveram:)

- qtos parentes tinham no navio? ok

- qtos da mesma família sobreviveram? +/- (nome? cabine? sbsp/parch?)


- Jack? rose?

____


____

Vamos analisar os dados um pouco mais...


In [143]:
df["pclass"]

0       1
1       1
2       1
3       1
4       1
       ..
1304    3
1305    3
1306    3
1307    3
1308    3
Name: pclass, Length: 1309, dtype: int64

In [142]:
# quais os valores possíveis na coluna "Pclass"?

df["pclass"].unique()

array([1, 2, 3], dtype=int64)

In [144]:
df["pclass"].value_counts()

3    709
1    323
2    277
Name: pclass, dtype: int64

Perfil demográfico do titanic (em termo das classes)

In [145]:
df["pclass"].value_counts(normalize=True)

3    0.541635
1    0.246753
2    0.211612
Name: pclass, dtype: float64

In [147]:
# quantas pessoas tem de cada sexo?

df["sex"].value_counts()

male      843
female    466
Name: sex, dtype: int64

In [148]:
df["sex"].value_counts(normalize=True)

male      0.644003
female    0.355997
Name: sex, dtype: float64

In [154]:
df["fare"].describe()

count    1308.000000
mean       33.295479
std        51.758668
min         0.000000
25%         7.895800
50%        14.454200
75%        31.275000
max       512.329200
Name: fare, dtype: float64

In [157]:
df["sibsp"].value_counts()

0    891
1    319
2     42
4     22
3     20
8      9
5      6
Name: sibsp, dtype: int64

In [165]:
df[(df["sibsp"] == 8) | (df["parch"] == 9)]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1170,3,0,"Sage, Master. Thomas Henry",male,,8,2,CA. 2343,69.55,,S,,,
1171,3,0,"Sage, Master. William Henry",male,14.5,8,2,CA. 2343,69.55,,S,,67.0,
1172,3,0,"Sage, Miss. Ada",female,,8,2,CA. 2343,69.55,,S,,,
1173,3,0,"Sage, Miss. Constance Gladys",female,,8,2,CA. 2343,69.55,,S,,,
1174,3,0,"Sage, Miss. Dorothy Edith 'Dolly'",female,,8,2,CA. 2343,69.55,,S,,,
1175,3,0,"Sage, Miss. Stella Anna",female,,8,2,CA. 2343,69.55,,S,,,
1176,3,0,"Sage, Mr. Douglas Bullen",male,,8,2,CA. 2343,69.55,,S,,,
1177,3,0,"Sage, Mr. Frederick",male,,8,2,CA. 2343,69.55,,S,,,
1178,3,0,"Sage, Mr. George John Jr",male,,8,2,CA. 2343,69.55,,S,,,
1179,3,0,"Sage, Mr. John George",male,,1,9,CA. 2343,69.55,,S,,,


In [164]:
df[(df["sibsp"] == 5) | (df["parch"] == 6)]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
825,3,0,"Goodwin, Master. Harold Victor",male,9.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
826,3,0,"Goodwin, Master. Sidney Leonard",male,1.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
827,3,0,"Goodwin, Master. William Frederick",male,11.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
828,3,0,"Goodwin, Miss. Jessie Allis",female,10.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
829,3,0,"Goodwin, Miss. Lillian Amy",female,16.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
830,3,0,"Goodwin, Mr. Charles Edward",male,14.0,5,2,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
831,3,0,"Goodwin, Mr. Charles Frederick",male,40.0,1,6,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"
832,3,0,"Goodwin, Mrs. Frederick (Augusta Tyler)",female,43.0,1,6,CA 2144,46.9,,S,,,"Wiltshire, England Niagara Falls, NY"


In [158]:
df["parch"].value_counts()

0    1002
1     170
2     113
3       8
5       6
4       6
9       2
6       2
Name: parch, dtype: int64

In [155]:
# qual a média da coluna "survived"?
# ou seja, qual a taxa de sobrevivencia geral?

df["survived"].mean()

0.3819709702062643

In [156]:
df["survived"].value_counts(normalize=True)

0    0.618029
1    0.381971
Name: survived, dtype: float64

É possível fazer isso com **filtros**

In [169]:
df["survived"].mean()

0.3819709702062643

In [168]:
df[df["pclass"] == 1]["survived"].mean()

0.6191950464396285

In [170]:
df[df["pclass"] == 2]["survived"].mean()

0.4296028880866426

In [171]:
df[df["pclass"] == 3]["survived"].mean()

0.2552891396332863

In [173]:
df.groupby("pclass")["survived"].mean()

pclass
1    0.619195
2    0.429603
3    0.255289
Name: survived, dtype: float64

In [175]:
df.groupby("pclass")[["survived", "age"]].mean()

Unnamed: 0_level_0,survived,age
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.619195,39.159918
2,0.429603,29.506705
3,0.255289,24.816367


_______

In [176]:
df[(df["pclass"] == 1) & (df["sex"] == "male")]["survived"].mean()

0.3407821229050279

In [179]:
df.groupby(["pclass", "sex"])[["survived", "age"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,0.965278,37.037594
1,male,0.340782,41.02925
2,female,0.886792,27.499191
2,male,0.146199,30.815401
3,female,0.490741,22.185307
3,male,0.15213,25.962273


In [182]:
df[df['age']<18].groupby(['pclass', 'sex'])[['survived', 'age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,0.875,14.125
1,male,0.857143,9.845243
2,female,1.0,8.27315
2,male,0.733333,6.22222
3,female,0.543478,8.416667
3,male,0.233333,9.838888


In [181]:
df[df['age']>18].groupby(['pclass', 'sex'])[['survived', 'age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,0.966667,39.358333
1,male,0.328671,42.716783
2,female,0.878049,32.067073
2,male,0.087591,34.069343
3,female,0.43617,29.457447
3,male,0.158845,29.799639


**Pergunta: qual é proporção de homens na primeira classe que morreram?**

#### Groupby

O .groupby() é um método super útil que nos ajuda a construir uma **tabela dinâmica** (pivot table) com os dados.

Esse tipo de estrutura nos ajuda muito a fazer a importante etapa de **olhar pros dados**

Vamos usar esta estrutura para responder a pergunta acima!

Precisamos de uma **função de agregação**, que é qual a função que vamos aplicar aos dados agrupados.

Eu quero olhar pros valores da coluna "Survived", agrupados por "Pclass" e "Sex".

Mas que função de agregação usar?

Como a coluna "Survived" tem apenas valores binários 1 e 0, eu posso usar a média!

Ex: [1 0 0 0 0 1 1], média: 3/7 = 42.85%. Ou seja, 42.86% sobreviveram, e 57.14% morreram

In [None]:
# agrupando os dados por classe, sexo, e tomando a taxa de sobrevivencia


Também é possível fazer uma pivot table através da função **pd.pivot_table()**

In [None]:
# parametros df, values, index, columns e aggfunc


Outra pergunta: **qual a relação entre o porto de embarque, a taxa de sobrevivência, e a classe?**

In [None]:
# agrupa por embarked, pclass


É possível passar mais de uma função de agregação:

In [None]:
# usando .agg([]) pra utilizar outras funções de agregação


In [None]:
# sempre dá pra usar filtros também... porto "Q" e classe 1:


Também é possível usar a função **pd.crosstab()**:

In [None]:
# sintaxe:
# [coluna a agregar], [colunas a agregar], margins = True


___
___
___

Sua vez de explorar!

Responda as seguintes perguntas:

In [None]:
# quantas pessoas morreram? Quantas sobreviveram?


In [None]:
# qual a proporção de sobreviventes e mortos?


In [None]:
# qual a quantidade de pessoas de casa sexo que morreu e sobreviveu?
# dica: agrupe os dados por "Survived" e "Sex", e use a função de agregação "count", na propria coluna "survived"


In [None]:
# modifique o groupby que fizemos acima do porto e classe pra incluir também o sexo como agrupador
# esse dataframe dá uma visão bem completa!


In [None]:
# agrupe agora por porto, classe, sexo e survived, e pegue as contagens de "survived"
# essa análise também dá uma visão interessante do perfil dos passageiros


In [None]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)
# dica: faça os filtros adequados 
# e lembre do atributo ".shape" que é uma tupla na forma (numero_de_linhas, numero_de_colunas)


In [None]:
# e qual a distribuição de sexo dentro de cada faixa etária?


In [None]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?


___
___
___

Vamos agora conhecer o método **.apply()**, que é extremamente útil para **modificar colunas** ou **criar novas colunas a partir de colunas antigas**

Primeiramente, vamos dar uma olhada na coluna de nomes:

In [None]:
# coluna de nomes


Note que a estrutura dos nomes é:

**Sobrenome, Título. Primeiros Nomes**

Será que conseguimos extrair uma coluna **só com os sobrenomes?**

E outra coluna **só com os títulos?**

Vamos ver...

Começamos pegando apenas o primeiro nome:

In [None]:
# pegando o primeiro nome


Cada nome será uma string! Se nós usarmos o método **.split(",")**, obteremos uma lista:

In [None]:
# splita na ","


Note que o primeiro elemento da lista é o sobrenome!

In [None]:
# primeiro elemento


Vamos dar uma olhada nos 5 primeiros elementos da coluna de nomes, pra ver se essa estrutura se mantém:



In [None]:
# vendo se a estrutura se mantém...


Parece que funcionou!

Agora, como podemos **aplicar** esse mesmo procedimento simultaneamente a todos os elementos da coluna de nomes?

Fazemos isso com o método **.apply()**!

O que esse método faz é **aplicar uma função simultaneamente a todos os elementos de uma série (coluna)**

Podemos definir uma função que faz o que queremos, ou então, de forma mais simples, usar **funções lambda**!

Basta pegar a ação que fizemos (que é essencialmente o ".split(",")[0]"), e passar pra função lambda dentro do apply:

In [None]:
# utilizando o apply


Note que foi retornada uma outra série, mas dessa vez apenas com os sobrenomes!

Podemos fazer com que essa série se torne uma nova coluna do df:


In [None]:
# criando uma nova coluna, de sobrenomes


As colunas novas sempre vão, por padrão, pro fim do df.

Para mudar a ordem das colunas:

In [None]:
# pega aqui uma lista com as colunas na ordem original, e copia o output


In [None]:
# muda a ordem como quiser através da indexação, e redefina o df
# IMPORTANTE: use o .copy() no final pra não dar warning de cópia!


Como podemos fazer pra extrair agora o **título** do sobrenome?

In [None]:
# tente algo splitar em ", ", depois em "." 


Vamos ver se o padrão se mantém pros 5 primeiros:

In [None]:
# vendo se a estrutura se mantém...


Parece que funcionou!

Vamos usar o apply na coluna inteira, e já criar uma nova coluna:

In [None]:
# criando a coluna de título


In [None]:
# mudando a ordem


In [None]:
# vamos dar uma olhada nos títulos e quantidades...


In [None]:
# titulo "jonkheer"

Esse é um passageiro real (procure no google!)

Vejamos alguns outros:

In [None]:
# uma forma de filtrar por mais de um valor, é usando o método ".isin()"
# vamos procurar os titulos menos comuns "Jonkheer", "the Countess", "Capt", "Sir", "Don"


Essas pessoas existiram!

<a href=https://en.wikipedia.org/wiki/Manuel_Uruchurtu_Ram%C3%ADrez>Manuel Uruchurtu</a>

<a href=https://www.encyclopedia-titanica.org/titanic-victim/edward-gifford-crosby.html>Edward Crosby</a>

<a href=https://www.themarysue.com/the-countess-of-rothes/>Countess of Rothes</a>

Vamos ver alguns religiosos...

In [None]:
# filtrando título "rev"


Este processo que fizemos é o chamado **feature engineering**, que consiste em utilizar features originais (nome) para criar **novas features** que possivelment podem ser mais úteis que a feature original.

Isto é, o nome completo de uma pessoa, pode não ser um indicativo tão forte da morte/sobrevivência... Mas o título, pode ser que seja!

Por fim, vamos utilizar o apply com uma função um pouco mais complexa que as funções lambda que usamos até então.

Criaremos uma nova coluna de faixa etária (**Age Group**), contendo as faixas etárias que analisamos antes.

Pra isso, vamos utilizar a seguinte função:

In [None]:
# faixas: (0-15, 15-30, 30-45, 45+) (fechado superior)
# crie uma função pra isso, usando a idade como input


In [None]:
# check se a função tá correta


Está funcionando! Agora, basta aplicar essa função a todos os elementos da coluna de idades:

In [None]:
# apply com o nome da função diretamente


In [None]:
# dá pra ser mais explícito usando a função lambda, se vc preferir:


In [None]:
# criando a coluna nova:


Também é possível criar faixas com o método **pd.cut()**:

In [None]:
# usando o pd.cut(), sintaxe:
# coluna a ser cortada, [lista de limites pros intervalos], labels = [nome dos intervalos]


Note que agora fica muito mais fácil responder às perguntas que respondemos antes com filtros:

In [None]:
# quantos passageiros há em cada faixa etária? (0-15, 15-30, 30-45, 45+) (fechado superior, aberto inferior)


In [None]:
# e qual a distribuição de sexo dentro de cada faixa etária?


In [None]:
# se quisermos as proporções


In [None]:
# e qual a proporção de mortes/sobrevivência dentro de cada faixa etária?


Usando a função pd.pivot_table():

In [None]:
# qual a taxa de sobrevivencia por sexo e grupo de idade?
# pivot com columns = 'Sex', index = 'Age Group', values = 'Survived', aggfunc = np.mean


____________

Agora que conhecemos melhor a base, vamos olhar novamente para os dados missing:

In [None]:
# quantos dados missing há em cada coluna?


Existem diferentes formas de atacar o problema de dados missing na base. Vamos ver algumas delas:

**Excluir linhas/colunas dados missing**

In [None]:
# axis=0 representa linhas
# se houver qualquer valor vazio naquela linha, ela é dropada


In [None]:
# comparando os shapes


In [None]:
# checando os missing após removê-los


In [None]:
# axis=1 representa colunas
# se houver qualquer valor vazio naquela coluna, ela é dropada


In [None]:
# comparando os shapes


In [None]:
# checando os missing após removê-los


Nas abordagens acima estamos jogando dados fora, e isso raramente é uma opção interessante (dados são preciosos!)

Se pudermos **preencher** os dados que estão faltando de alguma forma que seja justificável, isso pode ser uma boa abordagem! Vamos ver como fazer isso...


**Preencher dados missing**

Vamos discutir agora como preencher as colunas "Embarked" e "Age"

A coluna "Cabin" tem muitíssimos dados vazios, de difícil preenchimento, e talvez ela não traga tanta informação assim... Então, podemos simplesmente deletá-la da base:

In [None]:
# dropando coluna "cabin"


Para o preenchimento dos dados missing de "Embarked", vamos dar uma olhada:

In [None]:
# filtrando o dataframe pra pegar as linhas com "embarked" missing


São duas mulheres da primeira classe, que sobreviveram. Vamos dar uma olhada novamente no agrupamento destas colunas:

In [None]:
# agrupe os dados por classe, survived, sex e embarked, pra calcular a contagem de sobreviventes


Grande parte das mulheres que sobreviveram da primeira classe embarcaram no porto C ou S. Como decidir entre estes dois?

In [None]:
# olhando pra coluna "Fare": count, media e mediana.
# agrupando por porto, classe e sexo


Assim, vamos seguir com "S"! Para preencher os missings com este valor, usamos o .fillna():

In [None]:
# preenchendo NaNs da coluna e a redefinindo 


In [None]:
# checando se ainda há dados nulos


Para preencher as idades (um dado numérico, mas com muitos dados missing), há várias alternativas possíveis. Vamos ver algumas

In [None]:
# criando df_checkpoint, uma cópia da base até o momento, caso queiramos recuperá-la


**Opção 1**: Preenchendo com a média geral

In [None]:
# preenche os missings da coluna completa com a média de idades geral


In [None]:
# checando se ainda há missings


**Opção 2**: Preenchendo com a média separada por classe

In [None]:
# recuperando o df com as idades missing


In [None]:
# check se recuperou


In [None]:
# agrupando por classe e tomando a média de idades
# o reset_index no final é importante pro cruzamento


Agora, podemos cruzar a base acima com a sub-base original com as linhas que têm idades missing!

Isso vai trazer as idades:

In [None]:
# sub-base com idades missing
# obs: dá pra pegar apenas a chave de cruzamento, que será "Pclass"!!


In [None]:
# fazendo o cruzamento (usando "Pclass" como chave, left join)
# é importante manter os índices da base da esquerda!! 
# por isso, usamos o set_index()


In [None]:
# vamos pegar apenas a idade do cruzamento acima
# (selecionamos a coluna "Age") -- note que os índices são mantidos!!


In [None]:
# Agora, basta setar a série acima às idades missing!
# fazemos isso com o .loc, pra selecionar as idades missing e a coluna de idades:


In [None]:
# check se não tem mais missings


**Opção 3**: Generalizar o procedimento acima pra quantas colunas quisermos usar no cruzamento!


In [None]:
# recuperando o df com as idades missing

# check valores missing


In [None]:
# preencher com a média de idade das respectivas: classe, sexo, porto de embarque

# definindo as colunas pro cruzamento

# fazendo o agrupamento: muda as colunas de agrupamento!

# sub-base com idades missing, e apenas as colunas de cruzamento: muda as colunas selecionadas

# fazendo o cruzamento: muda as colunas de chave pro curzamento

# chamando as idades a preencher


In [None]:
# setando as idades missing


In [None]:
# check


Agora sim, nossa base está 100% preenchida e (quase) pronta pra modelar! :D

In [None]:
# dando uma olhada final na base


In [None]:
# redefinindo o checkpoint como sendo o df neste ponto


___


### Processando dados categóricos

Os modelos de machine learning não conseguem utilizar dados categóricos diretamente!

Por isso, é necessário transformá-los em dados numéricos antes, o que faz parte do pré-processamento.

Vamos ver duas formas de fazer isso!

In [None]:
# redefinindo o df

# capturando um subdataframe com as colunas que não são numéricas
# dica: df.select_dtypes(exclude=[np.number])


In [None]:
# dê uma olhada nos valores únicos de cada uma das colunas categóricas

# mostre (display) apenas as colunas com menos que 50 níveis categóricos
# (se não, vai ser dificil de ver)


Em algumas colunas, ["Title", "Sex", "Age Group", "Embarked"], não há muitos **níveis categóricos**! 

Quando este é o caso, podemos **representar cada categoria como um número!**

Isso faz com que possamos utilizar as colunas com dados categóricos em nosso modelo!

O que vamos fazer é:

- Convertemos a coluna para category (com o método `astype('category')`);
- Utilizamos então os atributos `cat.codes` para criar códigos numéricos que representem as categorias. 


In [None]:
# apenas as colunas identificadas acima

# altera a coluna com df[coluna].astype('category').cat.codes


In [None]:
# olha o info


_____

Vamos mudar a abordagem de uso de variáveis categóricas...

#### One-hot encoding

Outra forma muito comum de utilizar variáveis categóricas é através da criação de **variáveis mudas** (dummy variables)

<img src="https://miro.medium.com/max/2474/1*ggtP4a5YaRx6l09KQaYOnw.png" width=700>

Isso é facilmente feito com o pandas utilizando a função [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

In [None]:
# restaurando o df com as features categóricas originais


In [None]:
# get dummies apenas nas colunas com poucos níveis categóricos!


Mas note que há uma redundância nas colunas!

Pra resolver isso, podemos utilizar o argumento drop_first=True:

In [None]:
# não esqueça do argumento "columns", e já redefinimos o df


In [None]:
# chama o info

__________

Agora que terminamos de processar a base, seria interessante salvá-la para que não perdêssesmos as alteracões que fizemos.

O pandas permite salvar os arquivos com uma única linha de código!

Para salvar o arquivo em formato ".csv":

In [None]:
# to_csv

Se quiser salvar como um arquivo de excel:

In [None]:
# to_excel

___


______
_____
___

## Construindo a base completa...

In [77]:
df1 = pd.read_csv("../datasets/train.csv")

df1.shape

(891, 12)

In [71]:
df2 = pd.read_csv("../datasets/test.csv")

df2.shape

(418, 11)

In [72]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)

In [79]:
df3.shape

(1309, 12)

In [73]:
df1.shape[0] + df2.shape[0] == df3.shape[0]

True

In [80]:
df3

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
1305,1306,,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
1306,1307,,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1307,1308,,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [74]:
df3.to_csv("../datasets/titanic_completa.csv", index=False)

______
_____
___