<img src="https://www.politecnicos.com.br/img/075.jpg" alt="Grupo Turing" height="420" width="420">

Notebook de conceitos e funções básicas da biblioteca pandas do Grupo Turing

Autor: Ariel Guerreiro 

![Pandas](https://pandas.pydata.org/_static/pandas_logo.png)



# Introdução

   Pandas é uma biblioteca para Python muito utilizada na área de Data Science, sendo a melhor forma de se trabalhar com os dados uma vez que permite limpar, organizar, transformar e analisar o dataset, com o auxílio de outras bibliotecas de visualização, como Matplotlib ou Seaborn, ou com bibliotecas de IA, como SKLearn.

   
   
   Os dados em pandas podem ser analisados de duas formas: **Series** e **Dataframes**. Series são listas unidimensionais, que podem guardar dados de qualquer tipo, enquanto os Dataframes são estruturas bidimensionais, como uma tabela, consistindo de linhas e colunas.

# Importando a biblioteca

A biblioteca pode ser baixada por meio do pip, com o Anaconda ou diversas outras formas, como disponível no [tutorial oficial](https://pandas.pydata.org/pandas-docs/stable/install.html). Uma vez disponível, a biblioteca é importada da seguinte forma:

In [0]:
import pandas as pd # é normal utilizar 'pd' como abreviação para pandas

# Criando e visualizando um dataset

É costumeiro criar um dataset através de um arquivo [CSV](https://pt.wikipedia.org/wiki/Comma-separated_values), mas outras formas de arquivos podem ser utilizados. Para a criação de um dataframe '**df**', utilizamos a função **read_csv**. Alguns de seus parâmetros são:
* **filepath_or_buffer**: nome do arquivo (com a extensão utilizada), com o caminho explicitado ou implícito, caso esteja na mesma pasta do notebook
* **sep, delimiter** : ',' como padrão
* **header**: lista para informar onde os nomes das colunas estão
* **names**: lista para ser utilizada como nome das colunas, muitas vezes já disponível como a primeira linha do CSV
* **usecols**: lista para fornecer quais colunas devem ou não devem ser utilizadas no dataframe

Para este notebook, será utilizado o dataframe 'Titanic', que possui informações de passageiros e se sobreviveram ou não, bastante utilizado para machine learning. O dataset foi retirado [deste link](https://www.kaggle.com/c/titanic/data)

In [0]:
df = pd.read_csv('titanic.csv')

Agora é interessante vizualizar alguns detalhes sobre o dataset. São utilizadas as funções:
* **df.head()**: imprime as 5 primeiras linhas (pode ser alterado), análogo ao **df.tail()**, que imprime as últimas linhas
* **df.describe()**: mostra medidas estatísticas de cada coluna (onde tais medidas são possíveis)
* **df.info()**: fornece informação de número de linhas preeenchidas e tipo de dados

In [0]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [0]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [0]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


Caso se queira separar parte do dataframe, para uma análise ou manipulação, existem funções dentro do pandas para tal: 
* **df.loc[ ]**: pega linhas (ou colunas) com uma **label** particular do index
* **df.iloc[ ]**: pega linhas (ou colunas) com uma **posição** particular do index (portanto somente recebe inteiros) 
* **df.ix[ ]** tenta se comportar como loc, mas se comporta como iloc se não recebe o label


In [0]:
df.iloc[:5,:5] #separa as 5 primeiras linhas e as 5 primeiras colunas

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex
0,1,0,3,"Braund, Mr. Owen Harris",male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,3,1,3,"Heikkinen, Miss. Laina",female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
4,5,0,3,"Allen, Mr. William Henry",male


In [0]:
df.loc[0:5, 'Survived':'Age'] #separa as 6 primeiras linhas e as colunas de 'Survived' até 'Age' 

Unnamed: 0,Survived,Pclass,Name,Sex,Age
0,0,3,"Braund, Mr. Owen Harris",male,22.0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,1,3,"Heikkinen, Miss. Laina",female,26.0
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,0,3,"Allen, Mr. William Henry",male,35.0
5,0,3,"Moran, Mr. James",male,


Também é possível separar o dataframe por meio de condições, podendo ser utilizadas ferramentas lógicas como o **& (and)** e **| (ou)**. Por exemplo, é possível separar o dataset com os passageiros que possuem menos de 25 anos e estavam na 1a classe:

In [0]:
df[(df['Age']<25) & (df['Pclass']==1)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
97,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
102,103,0,1,"White, Mr. Richard Frasar",male,21.0,0,1,35281,77.2875,D26,S
118,119,0,1,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
139,140,0,1,"Giglio, Mr. Victor",male,24.0,0,0,PC 17593,79.2,B86,C
151,152,1,1,"Pears, Mrs. Thomas (Edith Wearne)",female,22.0,1,0,113776,66.6,C2,S
291,292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S


# Manipulando um dataset

Um dataset não é imutável, o pandas permite a manipulação completa dos dados e de suas características. 

 Por exemplo, o CSV utilizado já possui uma coluna de índice das linhas, mas o pandas criou uma outra própria. Para eliminar essa repetição, podemos transformar a coluna 'PassengerId' no índice do dataframe, por meio da função
**df.set_index('colname')**

In [0]:
df = df.set_index('PassengerId') # é possível utilizar a igualdade ou passar o parâmetro 'inplace = True' na função,
                                 # como será explorado depois, mas o efeito é igual

df.head() #podemos ver que a 'PassengerId' está sendo utilizada como index agora 

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


A maior parte dos algoritmos de IA não conseguem lidar com [NaN (not a number)](https://pt.wikipedia.org/wiki/NaN), portanto, é interessante substituí-los por um valor numérico ou categórico. Como um exemplo, vamos ver se existem dados faltantes na coluna 'Age':

In [0]:
df['Age'].isnull().any()

True

Como podemos ver, existem sim dados faltantes na coluna de idade. Podemos preencher com algum valor, como por exemplo a mediana das idades. Para tal, utiliza-se a função **df['colname'].fillna('value')** (caso o nome da coluna não seja fornecido, os NaN do dataframe todo serão preenchidos)

In [0]:
df['Age'].fillna(df['Age'].median(), inplace = True)
df['Age'].isnull().any() # verificando se todos os valores foram substituídos

False

Em alguns algortimos de IA, também muitas vezes só podem ser usados valores númericos, mesmo que para dados categóricos. Portanto, na coluna 'Sex', por exemplo, podemos trocar 'male' por 0 e 'female' por 1, utilizando-se da função **df.replace([antes],[depois])**, que se utiliza dos termos que serão trocados e por quais serão trocados, que podem ser passados por meio de listas. Com o código ficará mais intuitivo:

In [0]:
df.replace(['male','female'],[0,1], inplace = True) 
#neste caso, o n-ésimo item da primeira lista será substituído pelo n-ésimo valor da segunda lista
df.head() #somente para visualizar a mudança

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,S


Outras alterações também são possíveis. É possível que se queira, por exemplo, alterar o nome de uma das colunas, o que será feito por meio da função '**df.rename(columns={dict})**, com um dicionário correspondende das alterações, ou se queira excluir uma coluna, por julgar desnecessária, por meio da função '**df.drop(list)**, onde uma lista das colunas pode ser passada.

Por exemplo, podemos renomear a coluna 'Parch' para 'Parents_and_Children', para torná-la mais intuitiva, e podemos apagar a coluna 'Cabin', por julgá-la irrelevante para a situação:

In [0]:
df.rename(columns={'Parch': 'Parents_and_Children'}, inplace = True)

df.drop('Cabin', axis=1, inplace = True)

df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parents_and_Children,Ticket,Fare,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C
3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,S
5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,S


# Separando e unindo dataframes

É possível separar do dataframe em diversos outros. Por exemplo, vamos criar o dataframe df_jovens_1, que possui somente pessoas da 1a classe que possuíam menos de 25 anos, conforme foi feito anteriormente. Também vamos criar o dataframe df_homens, que possui somente os homens:

In [0]:
df_jovens_1 = df[df['Age']< 25]

df_homens = df[df['Sex'] == 0] #lembrando a alteração feita anteriormente que transformou 'male' para 0

Agora, vamos supor que a intenção seja de unir estes dataframes. Para a união de dataframes, existem as seguintes funções:
* **pd.concat()**: [concatena](https://pt.wikipedia.org/wiki/Concatena%C3%A7%C3%A3o) 2 dataframes, útil para dataframes sem colunas em comum
* **pd.merge()**: junta dataframes que possui colunas em comum 

Como os dataframes que queremos possui colunas em comum, usaremos do **pd.merge()** para criar um dataframe df2, união dos dois dataframes que criamos antes.

In [0]:
df2 = pd.merge(df_jovens_1, df_homens)

df2.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parents_and_Children,Ticket,Fare,Embarked
0,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,S
1,0,3,"Palsson, Master. Gosta Leonard",0,2.0,3,1,349909,21.075,S
2,0,3,"Saundercock, Mr. William Henry",0,20.0,0,0,A/5. 2151,8.05,S
3,0,3,"Rice, Master. Eugene",0,2.0,4,1,382652,29.125,Q
4,0,1,"Fortune, Mr. Charles Alexander",0,19.0,3,2,19950,263.0,S


# Salvando o dataframe

Após as alterações, talvez seja interessante salvar o dataset atualizado, gerando um novo arquivo CSV (ou de outro tipo). Para tal, utiliza-se a função **df.to_csv()**. Esta função possui estes parâmetros como principais:
* O path até o caminho, como é feito no read_csv
* **sep**: simbolo usado para separar os valores (normalmente ',')
* **na_rep**: como os NaNs serão representados
* **header**: lista com nome pras colunas
* **columns**: colunas selecionadas pra serem colocadas no arquivo
* **index**: booleano, define se vai ter ou não id no arquivo

In [0]:
df.to_csv('titanic_novo.csv', index = True)

# E agora?

Este notebook mostra algumas ferramentas básicas e mais essenciais para a criação e manipulação de dataframes por meio da biblioteca Pandas, de forma a gerar dataframes melhores e mais aplicados para utilização em visualização de dados, treinamento de algoritmos de IA, entre outras.

Existe muito além do que foi apresentado aqui, visto que Pandas se trata de uma biblioteca extremamente completa. Para aprendizado de novos mecanismos, recomendo os seguintes mecanismos:
* Função 'help' do python: extremamente completa, detalha os parâmetros de cada função, ex: help(df.head())
* Documentação do Pandas: [disponível neste link](https://pandas.pydata.org/pandas-docs/stable/index.html), possui o mesmo detalhamento de parâmetros que a função 'help', mas a maior parte das entradas possui exemplos de aplicação para melhor entendimento
* Posts no Medium: existem diversos, alguns estão disponíveis no documento associado a esse notebook
* Stack Overflow: dispensa explicações

<img src="https://www.politecnicos.com.br/img/075.jpg" alt="Grupo Turing" height="420" width="420">