# 🚢🐼🌳 Engenharia de Feautes com Pandas 

Neste `notebook` vamos estudar a biblioteca `pandas` usando um conjunto de dados dos passageiros do **titanic**. Por último tentaremos extrair informação dos dados a partir de árvores de decisão.

![Pandas](dados/944693_1_1029_panda_diplomacy_standard.jpg)


### O Que é `pandas`?

> ### Python Data Analysis Library
> Um conjunto de ferramentas para análise de dados em `Python`.

## 1. DataFrames
A estrutura de dados mais utilizada em `pandas` é o [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), que armazena os dados na forma de uma tabela. Os dados são indexados pelas colunas ( _columns_ ) e pelas linhas ( _indexes_ ).

Existem várias maneiras de declarar um `DataFrame`. Uma forma comum é passar um dicionário (`dict`) onde as chaves são as colunas e os valores são listas das linhas:

In [110]:
import pandas as pd

dados = {
    "bamboo": [0, 10, 20],
    "taquara": [5, 15, 25],
    "grama": [-1, -2, None],
}
df_panda = pd.DataFrame(dados)
df_panda

Unnamed: 0,bamboo,taquara,grama
0,0,5,-1.0
1,10,15,-2.0
2,20,25,


Também é possível passar apenas os valores e declarar as colunas ou linhas no construtor do `DataFrame`:

In [7]:
dados = [[0, 5, -1], [10, 15, -2], [20, 25, None]]
pd.DataFrame(dados, columns=["bamboo", "taquara", "grama"])

Unnamed: 0,bamboo,taquara,grama
0,0,5,-1.0
1,10,15,-2.0
2,20,25,


Provavelmente as formas mais utilizadas para carregar um `DataFrame` são aquelas que carregam dados em disco. Entre os formatos suportados estão:
1. CSV
1. Excel
1. HDFS
1. JSON
1. Pickle
1. Parquet
1. SQL

Temos um arquivo `csv` de exemplo em `dados/train.csv`. As primeiras linhas do arquivo são:

In [51]:
ARQUIVO_TRAIN = "dados/train.csv"

with open(ARQUIVO_TRAIN, "r") as fp:
    dados = fp.read()
    print("O arquivo: {0} contém {1} linhas\n".format(ARQUIVO_TRAIN, len(dados.split("\n"))))
    print("\n".join(dados.split("\n")[:5]))

O arquivo: dados/train.csv contém 893 linhas

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S


Para abrir um arquivo `csv` basta invocar a função `read_csv` do `pandas`. Os métodos `head` e `tail` permitem investigar o começo e o fim do `DataFrame`.

In [78]:
df = pd.read_csv(ARQUIVO_TRAIN)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [136]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### Exercícios
#### E1.1:
Declare um `DataFrame` com o nome `df_test` abrindo o arquivo `dados/test.csv` usando a função `read_csv`.

In [138]:
# Preencher a linha abaixo
df_test = 

# Esta linha serve pra mostrar o DataFrame
df_test.head()

SyntaxError: invalid syntax (<ipython-input-138-5c76672f57eb>, line 2)

#### E1.2:
Declare um `DataFrame` com o nome de `df_filmes` contendo os seguintes dados:

|Filme|Ano|País|Amor|
|---|---|---|---|
|Saved from The Titanic|1912|Estados Unidos|False|
|In Nacht und Eis|1912|Alemanha|False|
|Atlantik|1929|Inglaterra/Alemanha|False|
|Titanic|1943|Alemanha|False|
|Titanic|1953|Estados Unidos|False
|A Night to Remember|1958|Inglaterra|False|
|Titanica|1992|Estados Unidos/Russia/Canadá|False|
|Titanic|1997|Estados Unidos|True|
|La leggenda del Titanic|1999|Itália|False|
|Ghosts of the Abyss|2003|Estados Unidos|False|
|[Titanic II](https://en.wikipedia.org/wiki/Titanic_II_(film))|2010|Estados Unidos|False|

In [None]:
### Responder nas linhas abaixo
df_filmes = 











###

# Esta linha serve pra mostrar o DataFrame
df_filmes

## 2. ... near, far, wherever you are

<img src="dados/titanic-movie-promo-stills-wallpaper-4.jpg" width=800>

Vamos entender um pouco do conjunto de dados que acabamos de carregar. 

Pra quem nunca viu o filme, o navio **RMS Titanic**, considerado inaufragável, partiu no dia 10 de abril de 1912 de Southampton com destino à Nova York, fazendo paradas em Cherbourg e Queenstown. Ás 23:40 da noite do dia 14 de abril o navio colidiu com um iceberg danificando o lado de estibordo da embarcação e iniciando a inundação de 5 compartimentos, o que inevitávelmente causaria seu naufrágio.

![Mapa Titanic](dados/Titanic_voyage_map.png)

O navio se parte ao meio às 2:20 da madrugada ainda com mais de 1000 passageiros à bordo. Das estimadas 2224 pessoas à bordo, cerca de 705 sobreviveram. O Titanic estava a dois dias de viagem de seu destino.

### [spoilers]
> Nesse meio tempo Rose, que está noiva, conhece Jack, rola um arrocha, ela larga o boy lixo pra ficar com Jack, o navio afunda e o casal também. Rose consegue subir numa porta à deriva e Jack não tem competência suficiente pra subir na porta e acaba morrendo.

<img src="dados/titanic_door.jpg" width=600>

### Conjunto de dados

Cada linha do conjunto de dados representa um passageiro. As colunas são as seguintes:

1. PassengerId: Id único do passageiro
1. Survived: (1) se o passageiro sobreviveu ao naufrágio, (0) caso contrário
1. Pclass: Classe do passageiro (1ª, 2ª ou 3ª)
1. Name: Nome do passageiro
1. Sex: Sexo do passageiro
1. SibSp: Número de irmãos ou esposo(a)s
1. Parch: Número de pais ou filhos
1. Ticket: Número do ticket
1. Fare: Tarifa da passagem
1. Cabin: Número da cabine
1. Embarked: Cidade em que o passageiro embarcou (C - Cherbourg, S - Southampton, Q - Queenstown)

Os dados são da competição de _Machine Learning_ do [Kaggle](https://www.kaggle.com/c/titanic)

### 2.1 Indexação e Seleção de dados
O método `loc` é utilizado para selecionar dados no `DataFrame`. Este método implementa o `__getitem__`, ou seja, ao contrário de `__call__` que usa parênteses `()` para chamar uma função, esse método é invocado por colchetes `[]`.

In [80]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Para ler uma linha do `DataFrame` basta passar um único índice para o método `loc`:

In [91]:
df.loc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                                 22
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

Também é possível passar um intervalo para o método:

In [66]:
df.loc[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Ou então uma lista de índices:

In [71]:
df.loc[[0, 3, 5]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


Para um `DataFrame` também é possível selecionar colunas com o método `loc`:

In [92]:
df.loc[:, ["Name"]].head()

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"


Outra forma de indexação é feita diretamente sobre o objeto do `DataFrame`, selecionando as colunas:

In [96]:
df["Name"].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [97]:
df[["Name"]].head()

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"


> ### Pandas Series
É importante ressaltar que existe outra estrutura de dados importante em `pandas` que se chama `Series`. Esta estrutura representa uma sequência de dados de apenas uma dimensão, enquanto o `DataFrame` tem duas dimensões. Análogamente as `Series` seriam equivalentes a **listas** enquanto os `DataFrame`s seriam equivalentes à **matrizes**. Muitos métodos dessas duas estruturas são idênticos.

### Exercícios

#### E2.1.1
Qual é o nome do passageiro na linha `456`?

### 2.2 Indexação Booleana

Algumas operações em `pandas` retornam séries _booleanas_, que podem ser usadas para selecionar (filtrar) os dados. As formas mais comuns de filtragem envolvem a utilização dos operadores de comparação do `python`.

Para selecionar apenas os passageiros da primeira classe, primeiramente é preciso constrir uma `Series` booleana:

In [135]:
(df["Pclass"] == 1).head()

0    False
1     True
2    False
3     True
4    False
Name: Pclass, dtype: bool

Com a `Series` é possível usar a indexação direta para filtrar os dados:

In [134]:
df[df["Pclass"] == 1].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


### 2.2. Atribuição de valores
Para atribuir um valor à uma célula é preciso usar o método `loc`:

In [112]:
df_panda

Unnamed: 0,bamboo,taquara,grama
0,0,5,-1.0
1,10,15,-2.0
2,20,25,


In [118]:
df_panda.loc[2, "grama"] = -3
df_panda

Unnamed: 0,bamboo,taquara,grama,floresta
0,0,5,-1.0,densa
1,10,15,-2.0,densa
2,20,25,-3.0,densa


Para atribuir valores à uma coluna basta usar a indexação direta:

In [121]:
df_panda["floresta"] = "densa"
df_panda

Unnamed: 0,bamboo,taquara,grama,floresta
0,0,5,-1.0,densa
1,10,15,-2.0,densa
2,20,25,-3.0,densa


A atribuição por coluna também pode receber uma série:

In [124]:
df_panda["bamboo"] >= 10

0    False
1     True
2     True
Name: bamboo, dtype: bool

In [109]:
df_panda

Unnamed: 0,bamboo,taquara,grama
0,0,5,-1.0
1,10,15,-2.0
2,20,25,
4,10,10,10.0
