<h2>Pandas</h2>
O pandas é uma biblioteca muito versátil e simples de se utilizar quando vamos trabalhar com tabelas.
Para entender o funcionamento do pandas precisamos entender suas estruturas base, a Series e o DataFrame.

## 1.1 Series  
As Series são basicamente as colunas das tabelas e armazenam suas informações com o numpy array.   
Neste caso, porém, esse array possuirá um índice associado, permitindo o acesso aos conteúdos dessa estrutura por ele.  
  
## 1.1.1 Criação de uma Series  
A partir de uma lista  
Vamos ver abaixo, como criar uma Series à partir de uma lista:  

In [1]:
import pandas as pd

minha_lista = [10, 20, 30]
serie = pd.Series(minha_lista)

O conteúdo de serie será uma pd.Series com os elementos da lista e como não foram definidos índices, os valores serão default, a numeração sequencial iniciada por zero.

A partir de um Array
O processo é igual ao anterior, com a diferença que ao invés de utilizarmos uma lista, utilizaremos um np.array.

Criação de uma Series com índice
Nesse caso, iremos passar duas listas, uma contendo os valores e outra contendo os índices:

In [2]:
import pandas as pd

labels = ['a', 'b', 'c', 'd']
valores = [10, 20, 30, 40]
serie = pd.Series(data=valores, index=labels)

## 1.1.2 Acessando elementos da Series  
Pelo índice  
Uma das maneiras de se acessar valores das nossas Series,   
é sabendo em qual índice eles se encontram:  

In [3]:
import pandas as pd

labels = ['a', 'b', 'c', 'd']
valores = [10, 20, 30, 40]
serie = pd.Series(data=valores, index=labels)

serie['c']

30

Nesse exemplo acessamos o elemento 30, que está associado ao índice c.  
  
Utilizando filtros  
Podemos aplicar filtros para selecionar apenas os elementos que satisfaçam determinada condição.  
No exemplo abaixo, iremos selecionar apenas os elementos que sejam maiores que 15:  

In [4]:
import pandas as pd

labels = ['a', 'b', 'c', 'd']
valores = [10, 20, 30, 40]
serie = pd.Series(data=valores, index=labels)

serie[serie > 15] 

b    20
c    30
d    40
dtype: int64

Note que serie > 15 nos retorna uma series com elementos True e False,    
caso os elementos da serie satisfaçam a condição.    
Ao utilizar esse comando dentro dos colchetes, serie\[serie > 15\],   
estamos selecionado apenas os elementos que satisfazem a condição.

1.1.3 Métodos
O Pandas possui diversos métodos que podem ser utilizados nessa estrutura.
Abaixo estão alguns métodos que essa estrutura de dados possui e facilitam alguns cálculos:

|Método	| Descrição|
|-------|-----------|
|sum|	soma|
|mean|	média|
|std|	desvio padrão|
|mode|	moda|
|max|	valor máximo|
|min|	valor mínimo|
|value_counts|	contagem de valores|
|describe|	estatísticas básicas|
Exemplos de utilização  
  
1) Neste exemplo iremos utilizar o método sum para somar os valores da série.  

In [5]:
import pandas as pd

valores = [1, 1, 2, 3, 5, 8, 13]
fibonacci = pd.Series(valores)

fibonacci.sum()

33

2) Podemos utilizar também os filtros, de maneira a soma apenas os valores maiores que 4.

In [6]:
import pandas as pd

valores = [1, 1, 2, 3, 5, 8, 13]
fibonacci = pd.Series(valores)

fibonacci[fibonacci > 4].sum()

26

## 1.2 DataFrame
O DataFrame é a estrutura que se assemelha à tabela.    
Ela é representada por um dicionário em que a chave é o nome da coluna e os valores são as Series (todas com mesmo índice).

## 1.1.1 Criação de um DataFrame
Existem diversas maneiras de se criar um dataframe, pode ser à partir de listas, dicionários etc.  
Um dos modos mais comuns é a criação à partir da leitura de um arquivo do formato .csv,    
como veremos à seguir para o caso do dataset titanic, muito conhecido por quem trabalha com data science.   
   
Dataframe à partir de um csv   

In [12]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

Note que titanic_df é um DataFrame com os dados do arquivo titanic.csv localizados em ../datasets/. Ou seja, o parâmetro do método pd.read_csv é o arquivo (com a localização) que se deseja ler. Existem outros parâmetros, mas não entraremos neles neste momento.

> Observação:  
> Note que podemos também utilizar um arquivo do formato .xlsx, natural do excel.  
> Para tanto, devemos utilizar o método pd.read_excel.  

**DataFrame à partir de um dicionário**   
Este é um método muito útil, pois a estrutura do dicionário é bem semelhante à de um DataFrame.   
Neste caso, cada chave do nosso dicionário se tornará uma coluna e os valores (que podem ser na forma de listas, arrays, series...) serão os elementos do DF.

In [9]:
import pandas as pd

dicionario = {
    'coluna_A': [1, 2, 3, 4, 5],
    'coluna_B': ['a', 'b', 'c', 'd', 'e'],
    'coluna_C': [0.5, 1.5, 4.5, 6.5, 8.5]
}

df = pd.DataFrame(dicionario)

## 1.1.2 Acessando elementos do DataFrame  
Existem diversas maneiras de se acessar valores de um ``DataFrame``, veremos a seguir algumas maneiras principais de o fazer.  
  
Selecionando apenas algumas colunas  
Esse é o método mais simples, entretanto muito útil, para se selecionar apenas algumas colunas da nossa estrutura.  
No exemplo que segue, iremos selecionar apenas as colunas ``\[PassengerId, Name, Sex e Survived\]``.  

In [13]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')
df_titanic[['PassengerId', 'Name', 'Sex', 'Survived']]

Unnamed: 0,PassengerId,Name,Sex,Survived
0,1,"Braund, Mr. Owen Harris",male,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1
2,3,"Heikkinen, Miss. Laina",female,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1
4,5,"Allen, Mr. William Henry",male,0
...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,0
887,888,"Graham, Miss. Margaret Edith",female,1
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,0
889,890,"Behr, Mr. Karl Howell",male,1


## Acessando pela posição  
O método a seguir se chama iloc, com ele podemos acessar os elementos do df em questão através das posições das linhas e colunas.  
Neste exemplo, iremos selecionar o elemento da linha 2 e coluna 5.  

In [14]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.iloc[1, 4]

'female'

**Acessando pelos índices**   
De maneira bem semelhante à anterior, podemos acessar os elementos pelos índices   
  
e pelos nomes das colunas utilizando o método loc. Neste exemplo,    
iremos selecionar o elemento do índice 4 (linha 5) e coluna 'Name'.  

In [15]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.loc[4, 'Name']

'Allen, Mr. William Henry'

**Utilizando filtros**   
De maneira análoga às Series, podemos utilizar os filtros também nos DataFrames.     
No exemplo abaixo, iremos selecionar apenas os passageiros que tenham mais que 18 anos:   

In [16]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic[df_titanic['Age'] > 18]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


> De maneira alternativa, podemos utilizar o método query do Pandas, como segue:

In [20]:
df_titanic.query('Age > 19')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


##  1.1.3 Tratando os dados   
É muito comum num conjunto de dados, seja ele proveniente de um banco dados ou de um arquivo de texto,   
existirem valores nulos.    
Para fins de análises/modelos é muito importante identificar a incidência desses valores    
e tomar alguma atitude, seja a de remover os valores nulos, ou a de substituí-los. Veremos abaixo como os fazer:   
   
Identificando Elementos Nulos por Coluna   
Identificar a quantidade de nulos por coluna é muito importante, pois assim podemos identificar qual ação é mais adequada.   

In [21]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Removendo os valore Nulos  
Para remover os nulos, iremos utilizar o comando dropna, como segue:   

In [22]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


**Substituindo Valores Nulos**    
Como muitas vezes não queremos diminuir o tamanho do nosso conjunto de dados     
e mesmo assim utilizá-los (muitos modelos não aceitam valores nulos),      
uma abordagem é substituir esses valores (seja pela média dos valores, pela moda etc.).    
Para fazer isso, utilizaremos o método fillna, em que o parâmetro passado será o valor de substituição.   
Neste exemplo irei substituir os valores por -1, mas poderia ser qualquer outro valor, até mesmo uma string.   

In [24]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.fillna(-1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,-1,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,-1,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,-1,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,-1,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,-1.0,1,2,W./C. 6607,23.4500,-1,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


##  1.1.4 Agrupando valores   
Quando estamos fazendo análises no nosso conjunto de dados,    
é muito útil saber alguns comportamentos dados pela combinação de duas ou mais variáveis.   
Para tanto, vamos utilizar o método groupby do Pandas.   
   
Utilizando o Groupby  
Neste exemplo, iremos analisar a média de idade por sexo.   

In [25]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

df_titanic.groupby('Sex')['Age'].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

>Note que nesse exemplo utilizamos a média,    
mas poderíamos utilizar outras funções de agregação que vimos no item 1.1.3, os métodos das Series.

**O comando pivot_table**   
Note que podemos querer cruzar mais informações, como por exemplo a média de idade por sexo e classe.   
Para tanto utilizamos o método pivot_table, que é semelhante à tabela dinâmica do Excel.   

In [27]:
import numpy as np
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')

pd.pivot_table(df_titanic, values='Age', index='Pclass', columns='Sex', aggfunc=np.mean)

Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,34.611765,41.281386
2,28.722973,30.740707
3,21.75,26.507589


In [None]:
## 1.1.5 Salvando os DFs em arquivos   
É muito útil, depois de se tratar um conjunto de dados, salvar esse DataFrame num arquivo de texto.   
Veremos à seguir duas maneiras de se salvar, num .csv e num .xlsx.   
   
Salvando em csv   

In [28]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')


df_titanic.to_csv('arquivo_com_dataframe.csv')

Salvando em xlsx

In [30]:
import pandas as pd

df_titanic = pd.read_csv('../datasets/titanic.csv')


df_titanic.to_excel('arquivo_com_dataframe.xlsx')