# Introdução a Pandas

Nessa aula (ou melhor, notebook ~~valeu Corona~~ ) vamos falar um pouco sobre a biblioteca Pandas, sobre como utilizá-la e como fazer as primeiras análises.  

## Sumário

- [Extras de Jupyter](#Extras-de-Jupyter)
- [O que é Pandas](#O-que-é-Pandas?) 
- [Setup Inicial](#Setup-Inicial?)
- [Mãos à Obra](#Mãos-à-obra!)
    - [Importando a Biblioteca](#Importando-a-biblioteca)
    - [Tipos de Estruturas](#Tipos-de-estruturas)
    - [Leitura de dados](#Leitura-de-dados)
    - [Visualização do Dataframe](#Visualização-do-Dataframe)
    - [Seleção dos Dados](#Seleção-dos-dados)
    - [Indexação booleana](#Indexação-booleana)
    - [Operações](#Operações)
    - [Apply](#Apply)
    - [Funções Úteis](#Funções-Úteis)
    - [Dados Faltantes](#Dados-faltantes)
    - [Plot](#Plot)
    - [Exportação](#Exportação)
- [Exercícios](#Exercícios)
- [Conclusão](#Conclusão)
- [Referências](#Referências)
- [Dúvidas?](#Dúvidas?)

## Extras de Jupyter

Já vimos um pouco sobre o que é e como utilizar um Jupyter Notebook, mas esta é uma ferramenta muito poderosa e interessante, então vejamos mais algumas possibilidades legais que ela nos oferece:

- %%time: calcula o tempo de execução de uma célula, para utilizar essa função basta inserir *%%time* no início de uma célula.
- ??: sabe quando você quer usar uma função, mas não lembra os parâmetros? É para isso que serve o *??*. Escrevendo as duas interrogações antes de uma função, ficará visível sua documentação no próprio jupyter!
- ?: uma única interrogação é utilizada para obter informações sobre uma variável.

Os comandos acima podem ser usados assim:

In [None]:
# informações sobre a função range, que vamos usar logo mais
??range

In [None]:
%%time
# calculando o tempo de execução do laço de repetição que utiliza o range e altera a variável soma

soma = 0
for i in range(1000):
    soma += i

In [None]:
# informações sobre a variável soma
?soma

## O que é Pandas?
Pandas é uma biblioteca Python. Ela permite que façamos uma série de manipulações e análises de dados de forma simples e eficiente.

## Setup Inicial
Assim como boa parte das bibliotecas, é preciso instalar Pandas no seu computador. Isso vai depender um pouco do seu Sistema Operacional, por isso recomendo seguirem os [tutoriais de instalação](https://pandas.pydata.org/pandas-docs/stable/getting_started/install.html).  

Além disso, para que esse notebook funcione adequadamente é preciso que seja feito o download e a extração desse [aquivo](https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset)  e que ele se encontre na mesma pasta do arquivo desse notebook.

## Mãos à obra!

### Importando a biblioteca
O primeiro passo é importar a biblioteca. Para isso, utilizamos o comando abaixo. 

In [1]:
import pandas as pd

### Tipos de estruturas
Existem basicamente dois tipos de estruturas de dados em Pandas: as Series e os Dataframes.

Uma **Serie** é como uma lista, ou um array unidimensional. Ela é capaz de armazenar diversos tipos de dados (inteiros, strings, floats, objetos....), mas é preciso que os dados de uma Serie sejam todos de um mesmo tipo, ao contrário de uma lista normal que permite misturas. Podemos criar uma serie passando uma lista de valores para a função que a gera:


In [None]:
quantidades = pd.Series([10, 9, 9, 4, 5, 7])

quantidades

Falamos acima que uma Serie é um array unidimensional, então por que vemos duas colunas ao imprimir Notas?

Bom, isso acontece pois a Serie possui uma coluna de Index, ou seja, uma coluna de rótulos para os seus elementos. Dessa forma, podemos definir nossos próprios indices para uma Serie:

In [2]:
frutas_serie = pd.Series(data = [10, 9, 9, 4, 5, 7], 
                        index = ['Maçã', 'Banana', 'Pera', 'Uva', 'Mamão', 'Laranja'])

frutas_serie

Maçã       10
Banana      9
Pera        9
Uva         4
Mamão       5
Laranja     7
dtype: int64

Para facilitar a criação de Series com idices, podemos utilizar dicionários (vistos na [aula 0](https://github.com/icmc-data/Intro-DS-2020.1/blob/master/Aula0/Jupyter%20e%20Python.ipynb)) da seguinte forma:

In [3]:
dict_frutas = {'Maçã' : 10, 'Banana' : 9, 'Pera' : 9, 'Uva' : 4, 'Mamão' : 5, 'Laranja' : 7}
frutas_serie = pd.Series(dict_frutas)

frutas_serie

Maçã       10
Banana      9
Pera        9
Uva         4
Mamão       5
Laranja     7
dtype: int64

Já um **Dataframe** é mais próximo de uma planilha ou uma tabela, ou seja, uma estrutura bidimensional de dados. Podemos pensar num Dataframe como um conjunto de Series, onde cada uma das colunas da tabela é uma Serie. Cada linha da planilha será um *Exemplo* e terá diversas informações, as quais serão nomeadas nas colunas, e esses são os nossos *Atributos* ou *Features*. Assim como para as Series, podemos criar um Dataframe de diversas maneiras. Por exemplo utilizando um dicionário:

In [None]:
dict_frutas = {'Nome': ['Maçã', 'Banana', 'Pera', 'Uva', 'Mamão', 'Laranja'], 
               'Quantidade': [10, 9, 9, 4, 5, 7], 
               'Preço': [1, 0.5, 9, 4.99, 2.50, 1.99],
               'Fornecedor': ['Beto', 'Ze', 'Chico', 'Tião', 'Jão', 'Marcão']}

frutas_df = pd.DataFrame(dict_frutas)
frutas_df

No exemplo acima, temos quatro features (Nome, Quantidade, Preço e Fornecedor) e seis exemplos. Cada exemplo tem um valor para cada uma das suas features.  

Essa é a ideia do Dataframe: linhas de dados separados em colunas.

### Leitura de dados
Em geral os nossos dados são armazenados em arquivos. Precisamos, assim, que as informações sejam lidas do arquivo para que possamos tratá-lo como um Dataframe e utilizar seus métodos.

Existem diferentes funções para ler os arquivos, a depender do seu formato. Por exemplo:

- [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): lê arquivos no formato csv (comma-separated values)
- [read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html): lê planilhas do excel (é preciso instalar uma [extensão](https://pypi.org/project/xlrd/) para utilizá-la)
- [read_htlm](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html): lê tabelas direto de um site

Cada uma dessas funções tem diversos parâmetros que serão mais explorados conforme formos utilizando a biblioteca.
O que todos têm em como é que devemos informar o nome do arquivo jutamente com caminho completo para alcançá-lo.  

Vamos utilizar, no exemplo, a função para ler arquivos no formato csv. Esse tipo de arquivo tem seus valores separados por vírgula, ponto-e-vírgula ou outro caracter. Alguns dos parâmetros relevantes são:

- filepath: o caminho para o arquivo (único parâmetro obrigatório)
- sep: caracter utilizado como separador no arquivo, por padrão é ','
- index_col = coluna que define o indice

O arquivo que utilizaremos nessa aula contém dados sobre o Coronavírus (sempre legal usar dados reais e recentes).

In [12]:
df = pd.read_csv('covid_19_data.csv', index_col = 0)
df

Unnamed: 0_level_0,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
SNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,01/22/2020,Anhui,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
2,01/22/2020,Beijing,Mainland China,1/22/2020 17:00,14.0,0.0,0.0
3,01/22/2020,Chongqing,Mainland China,1/22/2020 17:00,6.0,0.0,0.0
4,01/22/2020,Fujian,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
5,01/22/2020,Gansu,Mainland China,1/22/2020 17:00,0.0,0.0,0.0
...,...,...,...,...,...,...,...
11337,03/23/2020,,Uzbekistan,2020-03-23 23:19:21,46.0,0.0,0.0
11338,03/23/2020,,Venezuela,2020-03-23 23:19:21,77.0,0.0,15.0
11339,03/23/2020,,Vietnam,2020-03-23 23:19:21,123.0,0.0,17.0
11340,03/23/2020,,Zambia,2020-03-23 23:19:21,3.0,0.0,0.0


### Visualização do Dataframe

Muitas vezes queremos visualizar o nosso Dataframe para obter novas informações, debugar (T.T), tirar dúvidas e muito mais.

Podemos ver a dimensão do dataframe e, assim, saber quantas linhas (exemplos) e quantas colunas (features) temos. Com o atributo **shape** teremos uma tupla com a quantidade de linhas e a quantidade de colunas, respectivamente:

In [None]:
df.shape

É possível ver os indices do dataframe com o atributo **index**:

In [None]:
df.index

E os nomes das colunas (features) com o atributo **columns**:

In [None]:
df.columns

Os tipos dos dados de cada um das colunas com o **dtypes**:

In [None]:
df.dtypes

Os primeiros exemplos do dataframe com o método **head**:

In [None]:
df.head()

E os últimos exemplos do dataframe com o método **tail**:

In [None]:
df.tail()

Uma breve descrição estatística de cada uma das features numéricas com o **describe**:

In [None]:
df.describe()

### Seleção dos dados

Outra funcionalidade muito útil e importante é a de selecionar e acessar parte dos dados.

Podemos, por exemplo, selecionar uma feature específica. Para isso, acessamos o dataframe como se fosse um dicionário (visto na [Aula 0](https://github.com/icmc-data/Intro-DS-2020.1/blob/master/Aula0/Jupyter%20e%20Python.ipynb)), colocando entre colchetes o nome da feature que queremos.  
Vimos quais são as colunas do dataframe com o comando utilizando seu atributo [columns](#Visualização-do-Dataframe), então agora basta acessar qualquer uma delas.

In [None]:
df['Province/State']

In [None]:
df['ObservationDate']

Outra possibilidade é a de selecionar uma linha do dataframe. É possível fazê-lo utilizando comandos diferentes:

- [iloc[]](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html): acessa uma linha pela sua posição no dataframe. Se acessarmos a posição 1, teremos o segundo exemplo do dataframe.
- [loc[]](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html): acessa uma linha por meio de uma *label*. Pode ser, por exemplo, uma indexação booleana (como veremos a seguir) ou o indice da linha. Se acessarmos o indice 1, teremos o primeiro exemplo do dataframe, já que esse é o indice.

Abaixo vemos a execução dos dois. Note que apesar de acessarmos '1' em ambos os casos, com iloc temos o exemplo cujo Name é 2, ou seja, o segundo exemplo do dataframe, enquanto no caso do loc temos o exemplo com Name 1, ou seja, o primeiro exemplo do dataframe.

In [None]:
df.iloc[1]

In [None]:
df.loc[1]

É importante ressaltar que tanto *loc* quanto *iloc* são ideais para o acesso de linhas, mas não para a sua modificação. Para tanto é preciso utilizar *at* e *iat*, que se comportam de forma semelhante ao *loc* e *iloc* respectivamente.

### Indexação booleana
Já vimos como selecionar linhas e colunas do nosso dataframe, mas e se quisermos selecionar apenas as linhas que cumprem certo requisito?  
Para isso, utilizamos a chamada indexação booleana. Utiliza-se uma expressão que retorna uma Serie ou um Dataframe apenas com valores booleanos (True ou False), o qual é utilizado para fazer a seleção do Dataframe.

Se quisermos, por exemplo, ver apenas as linhas que tem informações dos dias nos quais não houve nenhuma uma morte devido ao vírus. Primeiro geramos uma Serie com valores booleanos:

In [None]:
df['Deaths'] == 0

Em seguida utilizamos tal Serie para indexar o Dataframe:

In [None]:
df[df['Deaths'] == 0]

Também é possível que mais de uma condição seja considerada. Nesse caso utilizamos os operadores and, or e not como operadores bitwise, ou seja, como &, | e ~.  
Vamos selecionar as linhas que indicam dias nos quais não houve nenhuma morte e nenhum caso confirmado:

In [None]:
df[(df['Deaths'] == 0) & (df['Confirmed'] == 0)]

Se quisermos saber quanto exemplos satisfazem essas condições, é possível utilizar os operadores (que serão vistos logo mais) nesse novo dataframe filtrado:

In [None]:
df[(df['Deaths'] == 0) & (df['Confirmed'] == 0)].count()

Selecionemos, agora, os exemplos a respeito dos Estados Unidos ou no Brasil.

In [None]:
df[(df['Country/Region'] == 'Brazil') | (df['Country/Region'] == 'US')]

### Operações
Podemos fazer diversas operações com os nossos dados. Muitas deles já são nativas do próprio Pandas, mas tabém podemos criar as nossas próprias.

Com funções nativas podemos somar todos os valores de cada uma das fetures, encontrar os valores máximo e mínimo, o desvio padrão, a média e muito mais.

In [None]:
# média
df.mean()

In [None]:
# desvio padrão
df.std()

In [None]:
# soma
df.sum()

In [None]:
# máximo
df.max()

In [None]:
# mínimo
df.min()

In [None]:
# contagem dos valores não nulos
df.count()

Se quisermos a média de apenas uma única feature, basta selecioná-la e utilizar o método:

In [None]:
df['Confirmed'].mean()

Também é possível fazer operações com os valores das features.  

No caso do dataset que estamos usando, temos a quantidade de casos confirmados e recuperados. Podemos utilizar essas informações para criar uma nova feature, a proporção entre confirmações e recuperações. Para isso basta dividir as features:

In [None]:
df['Proportion'] = df['Recovered'] / df['Confirmed']
df.head()

Podemos ver se a operação deu certo utilizando uma indexação booleana:

In [None]:
df[df['Proportion'] > 0]

### Apply

Pode ser necessário aplicar uma operação que não está definida na biblioteca aos exemplos. Se quisermos, por exemplo, iterar sobre todas as linhas e deixar os nomes de todos os países com letras minúsculas.
Poderíamos pensar em utilizar uma estrutura de repetição para criar essa nova feature, iterando sobre cada uma das linhas do dataframe. Essa solução não está errada.

In [None]:
%%time

for i in range(df.shape[0]):
    new_value = df.iloc[i]['Country/Region'].lower()
    df['Country/Region'].iat[i] = new_value

Porém existe uma forma mais elegante e eficiente de fazer tal operação: usando o método **apply**. Com ele podemos aplicar uma função a cada uma das linhas do dataframe:

In [None]:
%%time

df['Country/Region'].apply(lambda x : x.lower())

### Funções Úteis
Existem diversas funções que auxiliam a análise dos dados. Vamos ver algumas delas:

O método **info** dá informações sobre o Dataframe incluindo os tipos do index e das colunas, valores não nulos e uso de memória:

In [None]:
df.info()

Já vimos antes, mas temos a função **describe**, que nos dá um breve resumo estatístico sobre as features do dataframe:

In [None]:
df.describe()

Também é possível ver os valores únicos que uma feature pode assumir utilizando o **unique**:

In [None]:
df['Country/Region'].unique()

In [None]:
df['ObservationDate'].unique()

Podemos contar, para cada valor único da feature, quantos exemplo são desse tipo com o método **value_counts**, isto é, gerar um histograma:

In [None]:
df['Country/Region'].value_counts()

Utilizando o value_counts, podemos selecionar os valores mais frequentes. Se quisermos, por exemplo, ver quais são os 10 países mais frequentes no Dataframe:

In [None]:
df['Country/Region'].value_counts()[:10]

### Dados faltantes
Em geral, quando utilizamos tabelas reais, temos muitos valores faltantes. Isso significa que, para alguns exemplos, não temos informações para algumas de suas features.  
Como cientistas de dados, é importante que saibamos encontrar tais dados e lidar com eles.

É possível ver, para cada exemplo, quais são as features que tem valores faltantes:

In [None]:
df.isna()

Podemos somar as colunas que indicam se o dado é faltante ou não, o que nos dá uma contagem desses valores. 

In [None]:
df.isna().sum()

É possível lidar com esses valores nulos de diversas formas. Uma delas é apenas ignorar os exemplos que possuem valores nulos, removendo-os do dataframe. Essa função é não é o que chamados de *inplace*, ou seja, as alterações que ela faz são retornadas como uma cópia do dataframe, não alterando-o diretamente.

Vimos acima que temos apenas duas features com valores nulos: Province/State e Proportion. Os valores faltantes de Province/State já vieram assim no arquivo que utilizamos, já os faltantes de Proportion surgiram quando fizemos uma divisão por zero ao gerar a nova feature.  

Por hora vamos ignorar as linhas que tem sua província/estado nula:

In [None]:
print('Dimensões antes de excluir linhas: ', df.shape)
df = df.dropna(subset = ['Province/State'])
print('Dimensões após de excluir linhas: ', df.shape)

Note que antes nossas dimensões eram (11341, 8) e passaram a ser (7746, 8), justamente pois excluimos as linhas que não tinham a informação do Estado.  

Vamos ver quantos valores nulos temos agora:

In [None]:
df.isna().sum()

Ainda temos proporções que são valores nulos. Vamos lidar com esses valores de outra forma: substituindo-os. Vamos substituir os valores faltantes pela média dos valores existentes em cada uma das features.

In [None]:
df = df.fillna(df.mean())
df.head()

Vejamos novamente como estamos com nossos dados faltantes:

In [None]:
df.isna().sum()

Agora não temos mais valores nulos no nosso Dataframe!

### Plot
Utilizando a própria biblioteca Pandas podemos plotar alguns gráficos com os dados do DataFrame. Os métodos que nos permitem utilizar tal funcionalidade são feitos com base na biblioteca Matplotlib. Tal biblioteca é mais completa e mais eficiente, mas falaremos mais sobre ela na próxima aula. Por enquanto continuaremos utilizando Pandas, que tem uma sintaxe simples para necessidades iniciais.  

Todos os gráficos podem ser utilizado com o atributo **plot**, seguido pelo tipo de gráfico desejado. Vejamos abaixo alguns deles.

**Histograma**

Podemos observar a distribuição dos dados utilizando um histograma. Vejamos a distribuição da contagem das frequências de cada Provincia/Estado:

In [None]:
df['Province/State'].value_counts().plot.hist()

**Gráfico de barra**

Um gráfico com barras proporcionais aos valores que são representados em seus eixos. Aqui temos os 10 países/regiões mais frequentes.

In [None]:
df['Country/Region'].value_counts()[:10].plot.bar()

**Gráfico de barra horizontal**

Mesma ideia do gráfico anterior, mas com as barras horizontais.

In [None]:
df['Country/Region'].value_counts()[:10].plot.barh()

**Scatter Plot**

Os gráficos de dispersão são utilizados para analisar a relação entre duas variáveis. Vemos, por exemplo, que conforme o número de casos confirmados cresce, o número de casos recuperados também o faz. 

In [None]:
df.plot.scatter(x = 'Confirmed', y = 'Recovered')

**Pie Plot**

Gráficos de pizza são representações proporcionais de dados numéricos. Aqui vemos, dentre os 10 países/regiões mais frequentes, qual a proporção de cada um deles no total.

In [None]:
df['Country/Region'].value_counts()[:10].plot.pie()

### Exportação
Assim como lemos os dados de um arquivo, é possível salvar o dataframe criado/modificado num arquivo também. Algumas das possíveis funções são:

- [to_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html): exporta o arquivo no formato CSV.
- [to_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html): exporta o arquivo como uma planilha Excel.
- [to_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html): exporta o arquivo como o Json.
- [to_latex](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_latex.html): exporta o arquivo para Latex.

In [None]:
df.to_csv('covid_after.csv', sep = ';')

## Exercícios

Os exercícios da aula podem ser encontrados [aqui](https://github.com/icmc-data/Intro-DS-2020.1/blob/master/Aula2/introducao_pandas.ipynb).

## Conclusão

Vimos na aula de hoje várias funcionalidades e sintaxes da biblioteca Pandas. Essa biblioteca é bem extensa e possui muuuuuitas funções legais. Recomendamos que façam os exercícios passados e que vejam a documentação das funções que acharem interessantes, pois cada uma delas tem suas próprias especificidades.  

Feedbacks e dúvidas são super bem vindos! Espero que tenham aprendido com essa aula, e sintam-se a vontade para conversar conosco sobre quaisquer dúvidas e curiosidades. o/

## Referências

- [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html)
- [Uma introdução simples ao Pandas](https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1)
- [Documentação Pandas](https://pandas.pydata.org/docs/)
- [Dataset Original - Kaggle](https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset)

## Dúvidas?

Caso algo não tenha ficado, sintam-se à vontade para entrar em contato conosco por meio do canal do Slack ou pelo telegram! 