<img src = "https://images2.imgbox.com/c1/79/4H1V1tSO_o.png" width="1200">

#  MANIPULAÇÃO DE BASES DE DADOS COM PANDAS
---

Olá! Esse um texto de preparo para a aula de Análise exploratória e levantamento de hipóteses.

Diferentemente do primeiro, em que abordamos diversos conceitos e trouxemos reflexões, este será um guia prático onde vamos agrupar uma série de conhecimentos básicos e intermediários sobre um dos pacotes mais fundamentais para a área de dados: o Pandas!

Não se engane! Apesar do nome fofinho, o Pandas é uma ferramenta poderosa para importar, tratar e explorar dados de forma ágil e precisa. Entre os principais motivos de sua popularidade junto aos profissionais de dados está: a capacidade de carregar e processar grandes volumes de dados com excelente performance, a facilidade e precisão para selecionar e transformar o dataset e o suporte e/ou compatibilidade com diversos pacotes desde visualização de dados como o Matplotlib e o Bokeh; bibliotecas de Machine Learning como o Scikit Learn e o XGboost e ainda como base na criação de poderosos modelos de Deep Learning com o Tensor Flow, o Keras e o Pytorch. Tudo isso e ela ainda é uma biblioteca gratuita. 

O que é? Para que serve? 

O Pandas começou a ser criado em 2008 por Wes McKinney. A ideia surgiu porque na época ele trabalhava na ARQ Capital Management e sentia necessidade de uma ferramenta flexível e de alta performance para análises qualitativas de dados financeiros. Em 2011 ele publica um paper intitulado **“pandas: a Foundational Python Library for Data Analysis and Statistics”** onde consolida sua visão, explica a origem e lista algumas das principais funcionalidades. 

Ok, mas por que Pandas? 

Muitos atribuem associam o nome do pacote de wes ao título de seu paper, extraindo algumas iniciais para formar um acrônimo de: Pan = Python (Library for) 

D= Data 

A = Analisys 

S = Statistics 

Bem, isso não é verdade. Logo na introdução do artigo, Wes explica que o nome da biblioteca vem de Panel Data, um termo atribuído a datasets multidimensionais comuns em econometria e estatística. Um exemplo clássico de um painel de dados, é um dataset de preços de ações. Nele é possível observar diversas variáveis e como elas se comportam diante de uma ou mais dimensões, geralmente, essa dimensão é o tempo.

Então vamos lá! 

Para uma maior proveito desse conteúdo, é recomendável que você divida a tela do computador ao meio deixando o lado esquerdo com esse texto e ao lado direito um jupyter notebook para que possa ir testando o código, vendo os resultados e testando algumas novas possibilidades. A qualquer momento divida conosco seus progressos, suas dúvidas e dificuldades. Sente-se na sua cadeira e vamos juntos.

## Começe importando o pandas e seu co-irmão numpy 
---

Criou-se uma convenção de que ao importar alguns dos pacotes mais usados, data scientists do mundo inteiro os importa como uma alias. No caso do pandas essa alias é "pd". Isso além de enxugar um pouco o código, universaliza a leitura e a criação de novos códigos. No caso do Numpy a alias é np

In [2]:
import pandas as pd
import numpy as np

## Pandas Series e Pandas DataFrames 
---

Esses são os dois principais tipos de objetos em pandas. Basicamente uma Serie é uma coluna vinculada com o seu respectivo index e um DataFrame é um agrupamento de Series, também vinculado ao index. Mas ao agrupar colunas lado a lado, o DataFrame passa a ter formato tabular com linhas e colunas.

### Inserção manual, através de objetos ou lendo arquivos 

Essas são as 3 formas mais comuns de se criar um DataFrame em Pandas. Apesar de possível, essas três formas não acontecem com a mesma frequência. Na ordem do mais frequente para o mais raro teríamos: lendo arquivos, através de objetos e inserção manual.

### Inserção manual

Quando chamamos o DataFrame grades, temos as chaves do dicionário como nomes das colunas e a lista de valores agrupada lado a lado formando linhas relativas a cada entrada do dataset.

In [4]:
grades = pd.DataFrame(
                 {'Math'    : [72, 69, 90, 47, 76, 71, 88, 40],
                  'Reading' : [72, 90, 95, 57, 78, 83, 95, 43],
                  'Writing' : [74, 88, 93, 44, 75, 78, 92, 39],
                  'Gender'  : ['FM', 'FM', 'FM', 'ML', 'ML', 'FM', 'FM', 'ML']})

In [5]:
grades

Unnamed: 0,Math,Reading,Writing,Gender
0,72,72,74,FM
1,69,90,88,FM
2,90,95,93,FM
3,47,57,44,ML
4,76,78,75,ML
5,71,83,78,FM
6,88,95,92,FM
7,40,43,39,ML


## Através de Objetos 
---

É possível criar DataFrames a partir dos principais objetos de Python como listas, dicionários e tuplas. Como esses objetos geralmente são resultados de iterações, loops, funções e processamentos de APIs, por exemplo, podemos afirmar praticamente qualquer dado pode gerar um DataFrame.

### Criando um DataFrame a partir de um dicionário

É possível criar DataFrames a partir dos principais objetos de Python como listas, dicionários e tuplas. Como esses objetos geralmente são resultados de iterações, loops, funções e processamentos de APIs, por exemplo, podemos afirmar praticamente qualquer dado pode gerar um DataFrame.

In [6]:
grades_dic = {'Math'    : [72, 69, 90, 47, 76, 71, 88, 40],
              'Reading' : [72, 90, 95, 57, 78, 83, 95, 43],
              'Writing' : [74, 88, 93, 44, 75, 78, 92, 39],
              'Gender'  : ['FM', 'FM', 'FM', 'ML', 'ML', 'FM', 'FM', 'ML']}

In [7]:
grades_from_dic = pd.DataFrame(grades_dic)
grades_from_dic

Unnamed: 0,Math,Reading,Writing,Gender
0,72,72,74,FM
1,69,90,88,FM
2,90,95,93,FM
3,47,57,44,ML
4,76,78,75,ML
5,71,83,78,FM
6,88,95,92,FM
7,40,43,39,ML


### Criando um DataFrame a partir de listas

É importante perceber que se o DataFrame é criado a partir de um dicionário de listas, você faz agrega colunas, enquanto se é criado a partir de listas de listas, você agrega linhas. 

In [8]:
A = [72, 72, 74, 'FM']
B = [69, 90, 88, 'FM']
C = [90, 95, 93, 'FM']
D = [47, 57, 44, 'ML']
E = [76, 78, 75, 'ML']
F = [71, 83, 78, 'FM']
G = [88, 95, 92, 'FM']
H = [40, 43, 39, 'ML']

In [9]:
grades_from_list = pd.DataFrame([A, B, C, D, E, F, G, H],
                                columns=['Math', 'Reading', 'Writing', 'Gender'])
grades_from_list

Unnamed: 0,Math,Reading,Writing,Gender
0,72,72,74,FM
1,69,90,88,FM
2,90,95,93,FM
3,47,57,44,ML
4,76,78,75,ML
5,71,83,78,FM
6,88,95,92,FM
7,40,43,39,ML


### Criando um DataFrame a partir de arquivos 

Apesar do csv ser o arquivo mais comum a ser lido no Pandas, ele não é o único. Existem muitas possibilidades de formatos em que é possível importar e exportar dados, ou para ficar numa linguagem mais Pandas, “read_format” e write “to_format” como você pode conferir na tabela abaixo ou na documentação oficial do Pandas (clicando no link).

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [12]:
grades_df = pd.read_json('datasets/grades.json')
grades_df

Unnamed: 0,Math,Reading,Writing,Gender
0,72,72,74,FM
1,69,90,88,FM
2,90,95,93,FM
3,47,57,44,ML
4,76,78,75,ML
5,71,83,78,FM
6,88,95,92,FM
7,40,43,39,ML


### Criando um DataFrame a partir de um CSV

No nosso caso, vamos usar o dataset de treino do desafio do Titanic da plataforma Kaggle. Ufa! Finalmente. Esse é um dos comandos mais executados por Data Scientists e Data Analytics em todo o mundo. 

In [17]:
#Lê o arquivo csv, tranforma em um DataFrame e o armazena em uma variável (df):
titanic_df = pd.read_csv('datasets/train.csv')

In [18]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## 10 Observações iniciais e finais
---

O df com os dados de treino do Titanic não é tão grande, mesmo assim, percebemos que ele exibe apenas as primeiras e as últimas 5 linhas. Apesar de ele só exibir essas linhas, o Pandas lê todo o dataset. Isso pode ser extremamente ineficiente em datasets com milhares de linhas. Por isso, quando queremos apenas visualizar a “cara” dos nossos dados, usamos os comandos .head() ou .tail(). Por default, eles vão exibir apenas as primeiras ou últimas 5 linhas do df. Mas é possível mudar isso passando um número como parâmetro. Por exemplo: df.tail(8) >>> df.head()

In [22]:
titanic_df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [20]:
titanic_df.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## Tipos de variáveis

Hora de inspecionar o df e podemos começar com os tipos de dados em cada coluna.

In [27]:
titanic_df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

## Tamanho do dataframe 
---

Se você abrir o df sem .head() ou .tail(), vai conseguir visualizar seu formato, ou shape na última linha. Mas existe uma forma de conseguir essa informação sem fazer o pandas ler todas as linhas e colunas. Agora pode não parecer tão importante, mas lembre-se, algumas operações entre df só podem acontecer se ambos tiverem o mesmo shape.

In [28]:
titanic_df.shape

(891, 12)

## Info: o sumário técnico 
---

Ao chamar df.info(), temos uma espécie de fusão entre o Dtypes e o Shape e mais: ele informa em um sumário, quantas colunas existem no df, os nomes de cada coluna, a quantidade de valores não nulos e o tipo de dado em cada coluna. É uma excelente forma de sabermos se todas as colunas estão com o tipo de dados que deveriam e se temos dados ausentes.

In [29]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Valores únicos 
---

Indo um passo além nessa investigação, saber os valores não nulos pode não ser o suficiente. Afinal, quais dessas colunas possuem valores que podem indicar a presença de dados categóricos?

In [42]:
titanic_df.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
dtype: int64

## Identificando possíveis categorias 
---

Agora fica muito mais claro que temos um valor único para cada PassengerId e para Name. Mas temos fortes indícios de que Pclass, Sex, SibSp, Parch e Embarked possuem dados categóricos. Mas por que isso é importante? Por dois motivos: performance e encoding. Ao armazenar um nome para cada linha em uma mesma coluna, o Pandas perde performance. Some a isso o fato de que algumas opções de DataViz e de Machine Learning e Testes de Hipótese não dão suporte a objects ou strs. A solução para ambos é transformar uma coluna que você não quer abandonar, em categoria.


### Verificando valores nas colunas categóricas 

Para ter certeza que se trata de dados categóricos, selecione uma coluna (calma, vamos detalhar e aprofundar isso mais adiante) e chame o método .unique()

In [43]:
titanic_df['Sex'].unique()

array(['male', 'female'], dtype=object)

In [44]:
titanic_df['Parch'].unique()

array([0, 1, 2, 5, 3, 4, 6], dtype=int64)

In [46]:
titanic_df['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [47]:
titanic_df['Pclass'].unique()

array([3, 1, 2], dtype=int64)

In [48]:
titanic_df['SibSp'].unique()

array([1, 0, 3, 4, 2, 5, 8], dtype=int64)

### Transformando uma coluna em categórica 

Para transformar uma coluna em categórica é preciso selecionar a coluna atual e substituí-la por sua nova versão categórica. O método para converter qualquer dtype é o df[“coluna”].astype(‘novo_formato’)

In [53]:
titanic_df['Sex'] = titanic_df['Sex'].astype('category')

Veja que a coluna Sex não é mais um ‘object’ e sim uma ‘category’

In [54]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Pclass       891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    category
 5   Age          714 non-null    float64 
 6   SibSp        891 non-null    int64   
 7   Parch        891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabin        204 non-null    object  
 11  Embarked     889 non-null    object  
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 77.7+ KB


In [56]:
titanic_df['Sex'].cat.codes.head()

0    1
1    0
2    0
3    0
4    1
dtype: int8

## Criando um DataFrame a partir de um CSV (pro mode) 
---

Uma das melhores formas de se evitar vários dos erros acima é tratar o máximo possível deles diretamente na hora de importar ou ler o arquivo no pandas. Preparamos um cheklist para você abrir o arquivo como um profissional. Veja sempre se: 

1. O arquivo está na mesma pasta do notebook, caso contrário sera necessário passar o caminho junto com o nome do arquivo exemplo: “usuários/seunome/desktop/datasets/arquivo.csv” 

2. É necessário pular uma ou algumas linhas: skiprows=n, 

3. Você precisa explicitar em qual linha estão os nomes das colunas: header=n, 

4. O elemento que separa as colunas está especificado corretamente: sep= “;” 

5. Teste diferentes encodings para seu arquivo caso haja erro de acentuação e afins: encoding=“UTF-8” 

6. Caso você perceba que os nomes das colunas estão confusos ou inexistentes, você pode passar uma lista na hora de importar o seu arquivo com o argumento names. A única exigência é que a quantidade de colunas do df seja igual a quantidade de elementos da sua lista: names=[‘col 1’, ‘col2’, ‘col3’, ‘col4’] 

7. Perceba que eu renomei colunas e especifiquei o dtype de Sex como category. Consulte a documentação do read_csv para mais detalhes e muitas outras possibilidades.

In [92]:
df_test = pd.read_csv(
             'datasets/train.csv',
             sep = ',', encoding='UTF-8',
             header = 0,
             names = ['Pass_Id', 'Survived', 'Tk_class', 'Name', 'Sex', 'Age',
                      'Family_abrd', 'Par_Chld', 'Ticket', 'Fare', 'Cabi_N', 'Embk_Port'],
             dtype = {'Sex':'category'}
             )

In [93]:
df_test.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Selecionando colunas
---

Selecionar colunas é um dos principais comandos para trabalhar com os dados no Pandas. E existem basicamentes duas formas de selecionar uma coluna

In [76]:
df_test.Name

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [62]:
df_test['Name']

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

### Selecionando várias colunas de uma vez 

Para selecionar mais de uma coluna basta abrir os colchetes como se fosse passar o nome de uma coluna, só que ao invés disso, você vai passar uma lista como argumento. 

df_test[‘nome da coluna’] --->> df_test[[‘coluna 1’, ‘coluna2’, ‘coluna3’]] 

No nosso caso, vamos selecionar a classe, o numero do ticket e a tarifa paga

In [60]:
df_test[['Tk_class', 'Ticket', 'Fare']]

Unnamed: 0,Tk_class,Ticket,Fare
0,3,A/5 21171,7.2500
1,1,PC 17599,71.2833
2,3,STON/O2. 3101282,7.9250
3,1,113803,53.1000
4,3,373450,8.0500
...,...,...,...
886,2,211536,13.0000
887,1,112053,30.0000
888,3,W./C. 6607,23.4500
889,1,111369,30.0000


## Criando novos Dataframes: Armazenando uma seleção de um df em uma nova variável 
---

Vamos criar um novo df a partir dessa seleção prévia, acrescentando a coluna Name e vamos chamá-lo de df_richness

In [63]:
df_richness = df_test[['Tk_class', 'Name', 'Ticket', 'Fare']]
df_richness.head()

Unnamed: 0,Tk_class,Name,Ticket,Fare
0,3,"Braund, Mr. Owen Harris",A/5 21171,7.25
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",PC 17599,71.2833
2,3,"Heikkinen, Miss. Laina",STON/O2. 3101282,7.925
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",113803,53.1
4,3,"Allen, Mr. William Henry",373450,8.05


## Ordenando o DataFrame
---

É possível ordenar todos os valores de um df ou uma seleção de um df a partir de uma coluna seja com valores crescentes ou decrescentes.

In [64]:
df_test[['Tk_class', 'Name', 'Ticket', 'Fare']].sort_values('Fare')

Unnamed: 0,Tk_class,Name,Ticket,Fare
271,3,"Tornquist, Mr. William Henry",LINE,0.0000
597,3,"Johnson, Mr. Alfred",LINE,0.0000
302,3,"Johnson, Mr. William Cahoone Jr",LINE,0.0000
633,1,"Parr, Mr. William Henry Marsh",112052,0.0000
277,2,"Parkes, Mr. Francis ""Frank""",239853,0.0000
...,...,...,...,...
438,1,"Fortune, Mr. Mark",19950,263.0000
341,1,"Fortune, Miss. Alice Elizabeth",19950,263.0000
737,1,"Lesurer, Mr. Gustave J",PC 17755,512.3292
258,1,"Ward, Miss. Anna",PC 17755,512.3292


In [65]:
df_richness.sort_values('Fare')

Unnamed: 0,Tk_class,Name,Ticket,Fare
271,3,"Tornquist, Mr. William Henry",LINE,0.0000
597,3,"Johnson, Mr. Alfred",LINE,0.0000
302,3,"Johnson, Mr. William Cahoone Jr",LINE,0.0000
633,1,"Parr, Mr. William Henry Marsh",112052,0.0000
277,2,"Parkes, Mr. Francis ""Frank""",239853,0.0000
...,...,...,...,...
438,1,"Fortune, Mr. Mark",19950,263.0000
341,1,"Fortune, Miss. Alice Elizabeth",19950,263.0000
737,1,"Lesurer, Mr. Gustave J",PC 17755,512.3292
258,1,"Ward, Miss. Anna",PC 17755,512.3292


In [66]:
df_richness.sort_values('Fare', ascending=False).head(10)

Unnamed: 0,Tk_class,Name,Ticket,Fare
258,1,"Ward, Miss. Anna",PC 17755,512.3292
737,1,"Lesurer, Mr. Gustave J",PC 17755,512.3292
679,1,"Cardeza, Mr. Thomas Drake Martinez",PC 17755,512.3292
88,1,"Fortune, Miss. Mabel Helen",19950,263.0
27,1,"Fortune, Mr. Charles Alexander",19950,263.0
341,1,"Fortune, Miss. Alice Elizabeth",19950,263.0
438,1,"Fortune, Mr. Mark",19950,263.0
311,1,"Ryerson, Miss. Emily Borie",PC 17608,262.375
742,1,"Ryerson, Miss. Susan Parker ""Suzette""",PC 17608,262.375
118,1,"Baxter, Mr. Quigg Edmond",PC 17558,247.5208


## Excluindo colunas ou selecionando apenas as desejadas
---

Frequentemente nos deparamos com colunas que realmente não vão contribuir para as nossas análises ou precisamos trabalhar apenas com um grupo de colunas do dataset. Para isso, temos dois caminhos: selecionar as colunas que desejamos ou excluir as que não queremos

In [94]:
df_test.drop(['Pass_Id', 'Par_Chld', 'Cabi_N', 'Embk_Port'], axis=1, inplace=True)

In [95]:
df_test

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,A/5 21171,7.2500
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,PC 17599,71.2833
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,STON/O2. 3101282,7.9250
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,113803,53.1000
4,0,3,"Allen, Mr. William Henry",male,35.0,0,373450,8.0500
...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",male,27.0,0,211536,13.0000
887,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,112053,30.0000
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,W./C. 6607,23.4500
889,1,1,"Behr, Mr. Karl Howell",male,26.0,0,111369,30.0000


## Index, iloc & loc
---

Lembra do nosso df_test?

In [110]:
df_test.head()

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,A/5 21171,7.25
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,PC 17599,71.2833
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,STON/O2. 3101282,7.925
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,113803,53.1
4,0,3,"Allen, Mr. William Henry",male,35.0,0,373450,8.05


Esses números em negrito ao lado de cada linha é o index. Embora cada coluna possua um nome, ela também um index numérico. Para verificar isso, basta passar o argumento header=None no read_csv

In [112]:
df_noheader = pd.read_csv('datasets/train.csv', header=None)
df_noheader.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
3,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S


### Iloc: integer location 

Assim como listas e strings DataFrames podem ser fatiados com uma sintaxe parecida, sempre através do operador .iloc[] ou .iloc[[]] : df.iloc[n] : retorna uma série com a linha em questão. Lembrando que o DataFrame é um agrupamento de Séries, ou seja cada coluna de um df é uma série.

In [96]:
df_test.iloc[222]

Survived                             0
Tk_class                             3
Name           Green, Mr. George Henry
Sex                               male
Age                               51.0
Family_abrd                          0
Ticket                           21440
Fare                              8.05
Name: 222, dtype: object

df.iloc[[n]]: retorna um df com a linha escolhida

In [97]:
df_test.iloc[[222]]

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
222,0,3,"Green, Mr. George Henry",male,51.0,0,21440,8.05


df.iloc[i:n]: retorna um df com o range escolhido

In [98]:
df_test.iloc[38:42]

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
38,0,3,"Vander Planke, Miss. Augusta Maria",female,18.0,2,345764,18.0
39,1,3,"Nicola-Yarred, Miss. Jamila",female,14.0,1,2651,11.2417
40,0,3,"Ahlin, Mrs. Johan (Johanna Persdotter Larsson)",female,40.0,1,7546,9.475
41,0,2,"Turpin, Mrs. William John Robert (Dorothy Ann ...",female,27.0,1,11668,21.0


df.iloc[:,n]: retorna uma série com a coluna escolhida

In [99]:
df_test.iloc[:,5].head(3)

0    1
1    1
2    0
Name: Family_abrd, dtype: int64

In [100]:
df_test.iloc[:,[5]].head(3)

Unnamed: 0,Family_abrd
0,1
1,1
2,0


df.iloc[i:n, x:y]: retorna um df com o range de linhas escolhidas x range de colunas escolhidas

In [101]:
df_test.iloc[12:16, 4:9]

Unnamed: 0,Age,Family_abrd,Ticket,Fare
12,20.0,0,A/5. 2151,8.05
13,39.0,1,347082,31.275
14,14.0,0,350406,7.8542
15,55.0,0,248706,16.0


df.iloc[[n, i, v]: [k, x y]: retornam linhas e colunas de acordo com seus respectivos indexes

In [102]:
df_test.iloc[[11, 42, 666, 420], [4, 5, 1]]

Unnamed: 0,Age,Family_abrd,Tk_class
11,58.0,0,1
42,,0,3
666,25.0,0,2
420,,0,3


## Loc: Labes 
---

Loc: procurando valores no index ou através de operações e máscaras com boleanos Ao contrário do iloc que busca selecionar linhas e colunas por seu index numérico, o operador .loc, busca por valores que podem ser strings ou números dentro de colunas e indexes. 

### Loc com operações boleanas 

Usado para buscar valores específicos em uma coluna e selecionar o dataset a partir dela. Essa não é a única forma de fazer seleções a partir de um único valor.

In [103]:
df_test.loc[df_test['Sex'] == 'female'].head()

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,PC 17599,71.2833
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,STON/O2. 3101282,7.925
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,113803,53.1
8,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,347742,11.1333
9,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,237736,30.0708


### Loc por valores no index 

Colocar uma coluna como qualquer como index fere um pouco os princípios de tide data. Mas dependendo da natureza dos dados que você está analisando, pode fazer sentido e até mesmo ser necessário. Uma exceção a isso, é quanto temos séries temporais. E nesse caso em particular, a função .loc[ ] se torna particularmente útil e poderosa. Mas vamos falar de timeseries mais à frente.

### Reindex & Loc 

Essa ferramenta pode ser especialmente útil quando estamos avaliando o dados a partir de uma variável específica. As timeseries são as mais comuns entre elas. Mas também pode ser uma forma rápida de selecionar uma coluna específica de através de ranges ou categorias de um df.

In [104]:
df_reindex = df_test.set_index(['Age']).sort_index()

In [105]:
df_reindex.loc[10:12]

Unnamed: 0_level_0,Survived,Tk_class,Name,Sex,Family_abrd,Ticket,Fare
Age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10.0,0,3,"Van Impe, Miss. Catharina",female,0,345773,24.15
10.0,0,3,"Skoog, Master. Karl Thorsten",male,3,347088,27.9
11.0,0,3,"Andersson, Miss. Sigrid Elisabeth",female,4,347082,31.275
11.0,0,3,"Hassan, Mr. Houssein G N",male,0,2699,18.7875
11.0,0,3,"Goodwin, Master. William Frederick",male,5,CA 2144,46.9
11.0,1,1,"Carter, Master. William Thornton II",male,1,113760,120.0
12.0,1,3,"Nicola-Yarred, Master. Elias",male,1,2651,11.2417


## Seleção condicional 
---

Quando você passa uma condição em um DataFrame no Pandas, ele processa através de uma matriz de boleanos. Dessa, forma podemos passar uma série de condições até formar o recorte/seleção que desejamos.

In [163]:
df_test_2 = pd.read_csv(
             'datasets/train.csv',
             sep = ',', encoding='UTF-8',
             header = 0,
             names = ['Pass_Id', 'Survived', 'Tk_class', 'Name', 'Sex', 'Age',
                      'Family_abrd', 'Par_Chld', 'Ticket', 'Fare', 'Cabi_N', 'Embk_Port'],
             dtype = {'Sex':'category'}
             )

In [122]:
df_test_2.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [113]:
df_test_2['Sex'] == 'female'

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889    False
890    False
Name: Sex, Length: 891, dtype: bool

Porém se passamos esse boleano dentro da seleção do df, temos um df com a seleção condicional.

In [114]:
df_test_2[df_test_2['Sex'] == 'female'].head()

Unnamed: 0,Survived,Tk_class,Name,Sex,Age,Family_abrd,Ticket,Fare
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,PC 17599,71.2833
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,STON/O2. 3101282,7.925
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,113803,53.1
8,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,347742,11.1333
9,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,237736,30.0708


### Supercombo 1 

Agora imagine que podemos combinar várias das técnicas que aprendemos até aqui para criar seleções bem específicas.

In [116]:
df_test_2[['Sex', 'Age', 'Fare', 'Family_abrd']][df_test_2['Family_abrd'] 
                                               >= 3].iloc[:10].sort_values('Family_abrd', ascending=False)

Unnamed: 0,Sex,Age,Fare,Family_abrd
59,male,11.0,46.9,5
71,female,16.0,46.9,5
16,male,2.0,29.125,4
50,male,7.0,39.6875,4
68,female,17.0,7.925,4
7,male,2.0,21.075,3
24,female,8.0,21.075,3
27,male,19.0,263.0,3
63,male,4.0,27.9,3
85,female,33.0,15.85,3


### Supercombo 2

In [127]:
df_test_2[['Sex', 'Age', 'Fare']][df_test_2['Fare'] >= 
                                100].loc[df_test_2['Embk_Port'] == 'C'].sort_values('Fare', ascending=False).iloc[:10]

Unnamed: 0,Sex,Age,Fare
737,male,35.0,512.3292
258,female,35.0,512.3292
679,male,36.0,512.3292
742,female,21.0,262.375
311,female,18.0,262.375
118,male,24.0,247.5208
299,female,50.0,247.5208
716,female,38.0,227.525
700,female,18.0,227.525
557,male,,227.525


## Hora da limpeza! 
---

É quase impossível passar todas as possíveis combinações de seleção e comandos. Mas acho que já acumulamos uma boa bagagem. Hora de limpar o DataFrame e deixá-lo pronto para as nossas análises.

### O que há para limpar? 

Uma boa limpeza varia muito do tipo de análise que se deseja fazer. Mas podemos afirmar que nenhuma limpeza está completa sem lidar com: 
Dados faltantes 
Dados nulos 
Renomear colunas 
Corrigindo palavras 
Informações diferentes em uma mesma coluna 
Substituindo códigos através de funções com .apply(lambda) 
Mapear variáveis categóricas 
Datetime (extra no final do texto)

### Dados faltantes 

O primeiro passo é identificar quem são eles

In [128]:
df_test_2.isnull().sum()

Pass_Id          0
Survived         0
Tk_class         0
Name             0
Sex              0
Age            177
Family_abrd      0
Par_Chld         0
Ticket           0
Fare             0
Cabi_N         687
Embk_Port        2
dtype: int64

Fica claro que as colunas com o número da cabine e a idade são os nossos maiores problemas.

Algumas das estratégias mais comuns podem ser simplesmente apagar todas as linhas ou colunas com dados faltantes. Isse seria fácilmente executado com um comando. Mas precisamos entender as consequências de nossas escolhas.

### Dropna() 

In [129]:
df_test_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Pass_Id      891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Tk_class     891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    category
 5   Age          714 non-null    float64 
 6   Family_abrd  891 non-null    int64   
 7   Par_Chld     891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabi_N       204 non-null    object  
 11  Embk_Port    889 non-null    object  
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 77.7+ KB


In [130]:
# Exclui qualquer linha com valor vazio
df_burn_0 = df_test_2.dropna()
df_burn_0.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 183 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Pass_Id      183 non-null    int64   
 1   Survived     183 non-null    int64   
 2   Tk_class     183 non-null    int64   
 3   Name         183 non-null    object  
 4   Sex          183 non-null    category
 5   Age          183 non-null    float64 
 6   Family_abrd  183 non-null    int64   
 7   Par_Chld     183 non-null    int64   
 8   Ticket       183 non-null    object  
 9   Fare         183 non-null    float64 
 10  Cabi_N       183 non-null    object  
 11  Embk_Port    183 non-null    object  
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 17.5+ KB


In [131]:
# Exclui qualquer coluna com valor vazio
df_burn_1 = df_test_2.dropna(axis=1)
df_burn_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Pass_Id      891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Tk_class     891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    category
 5   Family_abrd  891 non-null    int64   
 6   Par_Chld     891 non-null    int64   
 7   Ticket       891 non-null    object  
 8   Fare         891 non-null    float64 
dtypes: category(1), float64(1), int64(5), object(2)
memory usage: 56.8+ KB


### Fillna() 

Um método rápido e fácil para preencher os espaços vazios é o df.fillna(). Para poder comparar, vou fazer uma cópia do df_test e chamá-la de df_fill

In [132]:
df_fill = df_test_2.copy()
df_test_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Pass_Id      891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Tk_class     891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    category
 5   Age          714 non-null    float64 
 6   Family_abrd  891 non-null    int64   
 7   Par_Chld     891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabi_N       204 non-null    object  
 11  Embk_Port    889 non-null    object  
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 77.7+ KB


In [133]:
df_fill['Age'].fillna(df_fill['Age'].mean(), inplace=True)
df_fill.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Pass_Id      891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Tk_class     891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    category
 5   Age          891 non-null    float64 
 6   Family_abrd  891 non-null    int64   
 7   Par_Chld     891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabi_N       204 non-null    object  
 11  Embk_Port    889 non-null    object  
dtypes: category(1), float64(2), int64(5), object(4)
memory usage: 77.7+ KB


O argumento passado substitui todos os nulls pela média dos valores não nulos da coluna Age

In [136]:
df_test_2['Age'].mean()

29.69911764705882

## Renomear colunas 
---

O jeito mais simples de renomear uma ou mais colunas, é usar o df.rename() passando um dicionário com os valores a serem alterados. Para tornar a mudança permanente, não esqueça de usar o (inplace=True)

In [143]:
df_test_2.rename(columns={'Family_abrd': 'Family_aboard'})

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_aboard,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Lembrando que é possível passar str.lower ou str.upper para tornar MAIÚSCULAS ou minúsculas os nomes de todas as colunas.

In [144]:
df_test_2.rename(str.lower, axis=1).head(1)

Unnamed: 0,pass_id,survived,tk_class,name,sex,age,family_abrd,par_chld,ticket,fare,cabi_n,embk_port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


### Corrigindo palavras em uma coluna 

Caso você perceba que uma palavra está escrita de forma errada, pode passar um dicionário na coluna para substituí-la:

In [154]:
df_test_2.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [165]:
df_test_2['Sex'] = df_test_2['Sex'].replace(['male','female'],['m', 'f'])
df_test_2.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",m,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",f,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",f,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",f,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",m,35.0,0,0,373450,8.05,,S


In [187]:
df_test_2['Sex'] = df_test_2['Sex'].replace(['m', 'f'], ['male','female'])
df_test_2.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Informações diferentes em uma mesma coluna

É possível que os sobrenomes das pessoas tenha alguma influência em sua sobrevivencia ou não, além de facilitar para encontrar as pessoas da mesma família.

In [157]:
df_test['Name'].unique()

array(['Braund, Mr. Owen Harris',
       'Cumings, Mrs. John Bradley (Florence Briggs Thayer)',
       'Heikkinen, Miss. Laina',
       'Futrelle, Mrs. Jacques Heath (Lily May Peel)',
       'Allen, Mr. William Henry', 'Moran, Mr. James',
       'McCarthy, Mr. Timothy J', 'Palsson, Master. Gosta Leonard',
       'Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)',
       'Nasser, Mrs. Nicholas (Adele Achem)',
       'Sandstrom, Miss. Marguerite Rut', 'Bonnell, Miss. Elizabeth',
       'Saundercock, Mr. William Henry', 'Andersson, Mr. Anders Johan',
       'Vestrom, Miss. Hulda Amanda Adolfina',
       'Hewlett, Mrs. (Mary D Kingcome) ', 'Rice, Master. Eugene',
       'Williams, Mr. Charles Eugene',
       'Vander Planke, Mrs. Julius (Emelia Maria Vandemoortele)',
       'Masselmani, Mrs. Fatima', 'Fynney, Mr. Joseph J',
       'Beesley, Mr. Lawrence', 'McGowan, Miss. Anna "Annie"',
       'Sloper, Mr. William Thompson', 'Palsson, Miss. Torborg Danira',
       'Asplund, Mrs. Carl Oscar 

### Criando uma nova coluna com apply(lambda) em uma linha

In [188]:
df_name = df_test_2.copy()

In [189]:
df_name['Last_name'] = df_name['Name'].apply(lambda x: x.split(",")[0].replace('', ""))

In [190]:
df_name.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port,Last_name
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Allen


### Criando uma função e aplicando com apply(lambda) 

Vamos criar uma função que substitui as letras dos portos de embarque pelos seus nomes.

In [191]:
def port_emkd(x):
    if x == 'S':
        x = 'Southampton'
    if x == 'C':
        x = 'Cherbourg'
    if x == 'Q':
        x = 'Queenstown'
    return x

In [192]:
df_name['Embk_Port'] = df_name['Embk_Port'].apply(lambda x: port_emkd(x))

In [193]:
df_name.head()

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port,Last_name
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,Southampton,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,Southampton,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,Southampton,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,Southampton,Allen


### Transformando categóricas 

Muitos algorítimos e ferramentas de visualização simplesmente não suportam strings. Precisamos transformar as colunas ou substituindo por números dentro da própria coluna ou no que chamamos de Dummies. Esse último método será amplamente explorado em Feature Engineering para ML. Vamos aos dois métodos.

### Usando .astype(‘category’).cat.codes 

Você precisa especificar a coluna na qual o pandas vai retornar os códigos referente a cada categoria. Em uma só linha é possível transformar uma coluna em categórica e extrair os códigos referentes a cada elemento dela.

In [194]:
df_name['c_Embk_Port'] = df_name['Embk_Port'].astype('category').cat.codes
df_name.head(3)

Unnamed: 0,Pass_Id,Survived,Tk_class,Name,Sex,Age,Family_abrd,Par_Chld,Ticket,Fare,Cabi_N,Embk_Port,Last_name,c_Embk_Port
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,Southampton,Braund,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg,Cumings,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,Southampton,Heikkinen,2


### Usando get.dummies 

Esse método retorna todas as categorias em colunas preenchidas de forma binária com zeros e ums em um novo DataFrame. Aí é só concatenar os dois. Vamos fazer primeiro e explicar os detalhes sobre Merge e Concat.

Vamos chamar o pd.get.dummies() passando a coluna que deve ter suas dummies extraídas e precisamos armazenar em uma nova variável.

In [195]:
dummy = pd.get_dummies(df_name['Sex'])
dummy.head()

Unnamed: 0,female,male
0,0,1
1,1,0
2,1,0
3,1,0
4,0,1


In [196]:
df_w_dummies = pd.concat([df_name, dummy], axis=1)
df_w_dummies[['Sex', 'Age', 'Last_name', 'female', 'male']].head()

Unnamed: 0,Sex,Age,Last_name,female,male
0,male,22.0,Braund,0,1
1,female,38.0,Cumings,1,0
2,female,26.0,Heikkinen,1,0
3,female,35.0,Futrelle,1,0
4,male,35.0,Allen,0,1


## Merge & Concat 
---

Após todos esses processos de limpeza, eu me dei conta que não vamos imputar os dados em algoritmos de machine learning, por hora. Então eu vou querer analisar o dataset completo.

Começo importando os dos csv's.

In [198]:
df_train = pd.read_csv('datasets/train.csv')

In [199]:
df_test = pd.read_csv('datasets/test.csv')

### E chamando o metodo info()

In [200]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [201]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


Eles são muito parecidos. Exceto pelo fato de que o df_test tem apenas 11 colunas enquantoo de df_train tem 12. Está faltando a coluna Survived. Sem ela não podemos fazer concatenar os dois datasets. Porém temos a coluna que está faltando na pasta dos datasets.

In [203]:
df_survivor = pd.read_csv('gender_submission.csv')
df_survivor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   PassengerId  418 non-null    int64
 1   Survived     418 non-null    int64
dtypes: int64(2)
memory usage: 6.7 KB


### Merge 

Esse é um comando mais completo e flexível. Permite combinar tanto para baixo quanto para os lados, especificando colunas e até mesmo mostrando passando parâmetros que especificam de qual dataset pertence tal coluna. No nosso caso, a coluna PassengerId possui o mesmo nome nos dois datasets, não sendo necessário especificar left_on e right_on. Vamos combinar df_survivour e o df_test no df_target

In [205]:
df_target = pd.merge(df_survivor, df_test, how='left', on='PassengerId') #left_on, right_on, para nomes diferentes!
df_target.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


### Concat 

Uma operação mais simples e menos flexível é concatenar. Agora que os dois datasets possuem o mesmo formato de 12 colunas, é possível concatená-los em um df_full.

In [206]:
df_full = pd.concat([df_train, df_target])
df_full.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1309 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 132.9+ KB


### Exportando 

Agora que temos um dataset único podemos exportá-lo.

In [207]:
df_full.to_csv('full.csv')

## Desafio
---

Antes de você ir… 

Temos mais um dataset para você colocar à prova seus novos conhecimentos. São 5 datasets do último ano de 5 das maiores empresas de tecnologia do mundo Apple, Google, Netflix, Amazon e Tesla. 

Sua tarefa é adicionar uma coluna com o código de cada ação, passar a data como dtype datatime e transformá-la em index. Depois deve juntar todos os arquivos em um só. Quando tiver feito tudo isso, responda a pergunta: Qual das 5 ações teve a maior média de fechamento no período de julho a setembro de 2019?

Esses são os datasets. 

https://drive.google.com/open?id=1fAxAc2L_gmvCaEIWQvCTWUN_NJJVWKou


    
Para completar essa tarefa você vai precisar converter dates em datetimes:

In [224]:
# Transformando os dados em data frames
apple = pd.read_csv('datasets/AAPL.csv')
google  = pd.read_csv('datasets/GOOG.csv')
netflix = pd.read_csv('datasets/NFLX.csv')
amazon  = pd.read_csv('datasets/AMZN.csv')
tesla = pd.read_csv('datasets/TSLA.csv')

In [209]:
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-07,205.880005,207.419998,200.830002,202.860001,200.239075,38763700
1,2019-05-08,201.899994,205.339996,201.75,202.899994,200.278534,26339500
2,2019-05-09,200.399994,201.679993,196.660004,200.720001,198.126709,34908600
3,2019-05-10,197.419998,198.850006,192.770004,197.179993,195.381973,41208700
4,2019-05-13,187.710007,189.479996,182.850006,185.720001,184.026489,57430600


In [210]:
google.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-07,1180.469971,1190.439941,1161.040039,1174.099976,1174.099976,1551400
1,2019-05-08,1172.01001,1180.42395,1165.73999,1166.27002,1166.27002,1309300
2,2019-05-09,1159.030029,1169.660034,1150.849976,1162.380005,1162.380005,1185700
3,2019-05-10,1163.589966,1172.599976,1142.5,1164.27002,1164.27002,1314500
4,2019-05-13,1141.959961,1147.939941,1122.109985,1132.030029,1132.030029,1860600


In [211]:
netflix.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-07,377.0,379.910004,365.809998,370.459991,370.459991,6974900
1,2019-05-08,367.920013,369.0,361.359985,364.369995,364.369995,6572000
2,2019-05-09,360.899994,364.200012,352.75,362.75,362.75,5882600
3,2019-05-10,361.619995,365.26001,353.059998,361.040009,361.040009,5657100
4,2019-05-13,352.290009,354.26001,343.100006,345.26001,345.26001,8026700


In [212]:
amazon.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-07,1939.98999,1949.099976,1903.380005,1921.0,1921.0,5902100
1,2019-05-08,1918.869995,1935.369995,1910.0,1917.77002,1917.77002,4078600
2,2019-05-09,1900.0,1909.400024,1876.0,1899.869995,1899.869995,5308300
3,2019-05-10,1898.0,1903.790039,1856.0,1889.97998,1889.97998,5718000
4,2019-05-13,1836.560059,1846.540039,1818.0,1822.680054,1822.680054,5783400


In [213]:
tesla.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-07,256.799988,257.209991,245.100006,247.059998,247.059998,10131400
1,2019-05-08,246.940002,250.600006,244.199997,244.839996,244.839996,6176400
2,2019-05-09,242.0,243.679993,236.940002,241.979996,241.979996,6711400
3,2019-05-10,239.75,241.990005,236.020004,239.520004,239.520004,7008300
4,2019-05-13,232.009995,232.470001,224.5,227.009995,227.009995,10834800


In [225]:
apple['Company'] = 'Apple'
google['Company'] = 'Google'
netflix['Company'] = 'Netflix'
amazon['Company'] = 'Amazon'
tesla['Company'] = 'Tesla'

In [229]:
df = pd.concat([apple,google,netflix,amazon,tesla])
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Company
0,2019-05-07,205.880005,207.419998,200.830002,202.860001,200.239075,38763700,Apple
1,2019-05-08,201.899994,205.339996,201.750000,202.899994,200.278534,26339500,Apple
2,2019-05-09,200.399994,201.679993,196.660004,200.720001,198.126709,34908600,Apple
3,2019-05-10,197.419998,198.850006,192.770004,197.179993,195.381973,41208700,Apple
4,2019-05-13,187.710007,189.479996,182.850006,185.720001,184.026489,57430600,Apple
...,...,...,...,...,...,...,...,...
249,2020-05-01,755.000000,772.770020,683.039978,701.320007,701.320007,32531800,Tesla
250,2020-05-04,701.000000,762.000000,698.000000,761.190002,761.190002,19237100,Tesla
251,2020-05-05,789.789978,798.919983,762.179993,768.210022,768.210022,16991700,Tesla
252,2020-05-06,776.500000,789.799988,761.109985,782.580017,782.580017,11089400,Tesla


In [230]:
# Convertendo a data como datetime
df['Date'] = pd.to_datetime(df['Date'])

In [231]:
# Setando Date como index
df.set_index('Date')

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume,Company
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2019-05-07,205.880005,207.419998,200.830002,202.860001,200.239075,38763700,Apple
2019-05-08,201.899994,205.339996,201.750000,202.899994,200.278534,26339500,Apple
2019-05-09,200.399994,201.679993,196.660004,200.720001,198.126709,34908600,Apple
2019-05-10,197.419998,198.850006,192.770004,197.179993,195.381973,41208700,Apple
2019-05-13,187.710007,189.479996,182.850006,185.720001,184.026489,57430600,Apple
...,...,...,...,...,...,...,...
2020-05-01,755.000000,772.770020,683.039978,701.320007,701.320007,32531800,Tesla
2020-05-04,701.000000,762.000000,698.000000,761.190002,761.190002,19237100,Tesla
2020-05-05,789.789978,798.919983,762.179993,768.210022,768.210022,16991700,Tesla
2020-05-06,776.500000,789.799988,761.109985,782.580017,782.580017,11089400,Tesla


Qual das 5 ações teve a maior média de fechamento no período de julho a setembro de 2019?

In [266]:
maior = df[df['Date'].between('2019-07-01', '2019-09-01')].set_index(['Date']).sort_index()
maior

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume,Company
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2019-07-01,203.169998,204.490005,200.649994,201.550003,199.712143,27316700,Apple
2019-07-01,1098.000000,1107.579956,1093.703003,1097.949951,1097.949951,1436300,Google
2019-07-01,230.210007,233.100006,226.279999,227.169998,227.169998,8238000,Tesla
2019-07-01,1922.979980,1929.819946,1914.660034,1922.189941,1922.189941,3203300,Amazon
2019-07-01,373.500000,376.660004,372.000000,374.600006,374.600006,4992600,Netflix
...,...,...,...,...,...,...,...
2019-08-30,1797.489990,1799.739990,1764.569946,1776.290039,1776.290039,3058700,Amazon
2019-08-30,1198.500000,1198.500000,1183.802979,1188.099976,1188.099976,1129800,Google
2019-08-30,210.160004,210.449997,207.199997,208.740005,207.622437,21143400,Apple
2019-08-30,298.779999,298.940002,290.850006,293.750000,293.750000,4446400,Netflix


In [267]:
maior.groupby('Company')['Close'].mean().sort_values(ascending=False)

Company
Amazon     1879.742501
Google     1166.381808
Netflix     326.954998
Tesla       233.742500
Apple       205.087046
Name: Close, dtype: float64

### As ações da Amazon foram as que tiveram a maior médica de fechamento no período determinado.