<a href="https://colab.research.google.com/github/jsampaiosa/nusga/blob/main/Introdu%C3%A7%C3%A3o_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img alt="Colaboratory logo" width="10%" src="https://nusga.com.br/wp-content/uploads/2021/01/cropped-cropped-cropped-Logo-2-1.png"><center>

#### <CENTER><H1>**NUSGA**<H1><CENTER>
*by [nusga.com.br](https://nusga.com.br)*<CENTER>

---

# Introdução ao Pandas

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.

Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e utilizando o Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou 

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [None]:
# importar a biblioteca pandas
import pandas as pd

### Importar arquivos `csv`

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baixei os dados da ação ordinária do Banco do Brasil (BBAS3) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/bbas3_excel.png" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.



In [None]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/jsampaiosa/nusga/main/BBAS3.SA.csv")

Pronto! O arquivo `BBAS3.SA.csv` foi importado com sucesso e já está pronto para ser usado neste *notebook*. 

### Conhecendo os componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`. 

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável


In [None]:
# ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [None]:
type(100)

int

In [None]:
type(['Open'])

list

In [None]:
type(df['Volume'])

pandas.core.series.Series

In [None]:
# ver o tipo de uma coluna da variável df
type(df['Date'])

pandas.core.series.Series

In [125]:
df.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,246.0,246.0,246.0,246.0,246.0,246.0
mean,32.935935,33.442317,32.431423,32.886057,31.70496,18400310.0
std,2.716492,2.744264,2.651604,2.688801,2.447484,8548925.0
min,27.450001,28.790001,27.02,27.860001,27.377552,7301400.0
25%,30.4525,30.872501,29.925,30.4325,29.624222,13313900.0
50%,33.01,33.465001,32.535,33.06,31.455303,17034150.0
75%,34.425,34.947501,33.807501,34.349998,32.921363,21588250.0
max,39.849998,40.560001,39.290001,39.790001,38.509823,102036100.0


### Ver dimensões do DataFrame

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [None]:
# ver o tamanho do dataframe (formato)
df.shape

(247, 7)

In [None]:
df.shape[0]

247

In [None]:
df.shape[1]

7

Quando você executar a célula acima, vai receber como *output* os valores `(247, 7)`. Isso significa que o arquivo importado possui 1245 linhas e 7 colunas. 

### Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação BBAS3 contém 248 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [None]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-05-28,30.610001,31.459999,30.209999,30.790001,29.048223,20732700.0
1,2020-05-29,30.5,30.85,29.75,30.84,29.09539,26926700.0
2,2020-06-01,30.77,32.150002,30.559999,31.799999,30.001083,22043600.0
3,2020-06-02,32.599998,32.900002,32.279999,32.82,30.963381,15772200.0
4,2020-06-03,34.470001,35.0,33.84,34.75,32.784206,29497200.0


In [None]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
242,2021-05-21,33.0,33.220001,32.700001,33.080002,32.665558,14726800.0
243,2021-05-24,32.939999,33.029999,32.779999,32.880001,32.880001,11099200.0
244,2021-05-25,32.939999,33.02,32.209999,32.439999,32.439999,9570500.0
245,2021-05-26,32.59,33.09,32.259998,32.98,32.98,16118700.0
246,2021-05-27,32.939999,33.599998,32.689999,33.43,33.43,17922800.0


In [None]:
df.tail(9)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
238,2021-05-17,31.34,31.860001,31.139999,31.709999,31.312719,12550500.0
239,2021-05-18,31.709999,32.369999,31.709999,32.150002,31.74721,14836600.0
240,2021-05-19,31.799999,32.799999,31.530001,32.700001,32.290318,14952800.0
241,2021-05-20,32.75,33.0,32.560001,32.799999,32.389065,17411700.0
242,2021-05-21,33.0,33.220001,32.700001,33.080002,32.665558,14726800.0
243,2021-05-24,32.939999,33.029999,32.779999,32.880001,32.880001,11099200.0
244,2021-05-25,32.939999,33.02,32.209999,32.439999,32.439999,9570500.0
245,2021-05-26,32.59,33.09,32.259998,32.98,32.98,16118700.0
246,2021-05-27,32.939999,33.599998,32.689999,33.43,33.43,17922800.0


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [None]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo de variável que está representado em cada coluna é essencial. Por exemplo:

* Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo `float`.
* Quando estamos lidando com anos (2017, 2018, 2019), iremos desejar trabalhar com variáveis do tipo `int`.
* Quanto temos datas completas (`2019-12-30 07:37`), iremos desejar usar o formato `datetime`, para conseguir manipular adequadamente o *dataset*.

Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [None]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 247 entries, 0 to 246
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       247 non-null    object 
 1   Open       246 non-null    float64
 2   High       246 non-null    float64
 3   Low        246 non-null    float64
 4   Close      246 non-null    float64
 5   Adj Close  246 non-null    float64
 6   Volume     246 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.6+ KB


### Selecionando colunas

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [None]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      31.459999
1      30.850000
2      32.150002
3      32.900002
4      35.000000
         ...    
242    33.220001
243    33.029999
244    33.020000
245    33.090000
246    33.599998
Name: High, Length: 247, dtype: float64

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você consegue selecionar ela de outra maneira (muito mais prática, na minha opinião).

No lugar de `df["High"]` você pode usar `df.High`, que terá o mesmo efeito.

In [None]:
# selecionar a variável (coluna) "High" da nossa variável df
df.High

0      31.459999
1      30.850000
2      32.150002
3      32.900002
4      35.000000
         ...    
242    33.220001
243    33.029999
244    33.020000
245    33.090000
246    33.599998
Name: High, Length: 247, dtype: float64

### Calculando a média de uma coluna

Quando executamos o código `df.High`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar `df.High.mean()`.

In [None]:
# calcular a média da coluna "High"
df.High.mean()

33.442317199187

Isso significa que a média dos valores da coluna `High` é `33.442317199187`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.

In [None]:
df.Open.mean()

32.935934902439016

In [None]:
df.Close.mean()

32.88605688617887

In [None]:
df.Close.min()

27.860001

In [None]:
df.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-05-28,30.610001,31.459999,30.209999,30.790001,29.048223,20732700.0
1,2020-05-29,30.5,30.85,29.75,30.84,29.09539,26926700.0
2,2020-06-01,30.77,32.150002,30.559999,31.799999,30.001083,22043600.0
3,2020-06-02,32.599998,32.900002,32.279999,32.82,30.963381,15772200.0
4,2020-06-03,34.470001,35.0,33.84,34.75,32.784206,29497200.0


In [None]:
df.Close.max()

39.790001000000004

## Trabalhando com datas (`datetime`)

Quando você importar um arquivo que tenha datas, provavelmente o Pandas não irá reconhecer as mesmas de maneira automática.

Quando você checou `df.info()`, viu que a coluna `Date` estava como `object`. No caso, ela é apenas texto (`string`) e não permite a extração de muita coisa útil.

Vamos converter a coluna usando `pd.to_datetime` e informando qual o formato da nossa data.

In [None]:
# antes como objeto
df.Date

0      2020-05-28
1      2020-05-29
2      2020-06-01
3      2020-06-02
4      2020-06-03
          ...    
242    2021-05-21
243    2021-05-24
244    2021-05-25
245    2021-05-26
246    2021-05-27
Name: Date, Length: 247, dtype: object

In [None]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [None]:
# depois
df.Date

0     2020-05-28
1     2020-05-29
2     2020-06-01
3     2020-06-02
4     2020-06-03
         ...    
242   2021-05-21
243   2021-05-24
244   2021-05-25
245   2021-05-26
246   2021-05-27
Name: Date, Length: 247, dtype: datetime64[ns]

Olhe como agora eu consigo acessar apenas os componentes de uma data, individualmente, usando `df.Date.dt`

In [None]:
df.Date.dt.year

0      2020
1      2020
2      2020
3      2020
4      2020
       ... 
242    2021
243    2021
244    2021
245    2021
246    2021
Name: Date, Length: 247, dtype: int64

In [None]:
df.Date.dt.month

0      5
1      5
2      6
3      6
4      6
      ..
242    5
243    5
244    5
245    5
246    5
Name: Date, Length: 247, dtype: int64

In [None]:
df.Date.dt.day

0      28
1      29
2       1
3       2
4       3
       ..
242    21
243    24
244    25
245    26
246    27
Name: Date, Length: 247, dtype: int64

In [None]:
df.Date.dt.weekday

0      3
1      4
2      0
3      1
4      2
      ..
242    4
243    0
244    1
245    2
246    3
Name: Date, Length: 247, dtype: int64

In [None]:
df.Date.dt.weekofyear

  """Entry point for launching an IPython kernel.


0      22
1      22
2      23
3      23
4      23
       ..
242    20
243    21
244    21
245    21
246    21
Name: Date, Length: 247, dtype: int64


No entanto, há vários formatos que um usuário pode lançar como sendo datas. Você pode encontrar exemplos como:

* 31/06/15
* 31/06/2015
* 31-6-15
* 2015-6-31
* 31 de junho de 2015

Para lidar com tudo isso, você vai ter que entender a documentação. Seguem dois links que serão úteis para isso:

* https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
* https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior