<a href="https://colab.research.google.com/github/msilvadev/Data-Science-Portfolio/blob/main/notebooks/Introdu%C3%A7%C3%A3o_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img src="https://raw.githubusercontent.com/msilvadev/Data-Science-Portfolio/main/banner.png"></center>

*by [Matheus Silva](https://www.linkedin.com/in/msilvadev/)*

---

# Introdução ao Pandas

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.

Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e utilizando o Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou 

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [1]:
# importar a biblioteca pandas
import pandas as pd

### Importar arquivos `csv`

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/B3SA3.SA/history?p=B3SA3.SA), baixei os dados da ação ordinária do Banco do Brasil (B3SA3) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/msilvadev/Data-Science-Portfolio/main/datasets/B3SA3.SA.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://raw.githubusercontent.com/msilvadev/Data-Science-Portfolio/main/imgs/B3SA3%20dataset.png" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.



In [4]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/msilvadev/Data-Science-Portfolio/main/datasets/B3SA3.SA.csv")

Pronto! O arquivo `B3SA3.SA.csv` foi importado com sucesso e já está pronto para ser usado neste *notebook*. 

### Conhecendo os componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`. 

<center><img src="https://raw.githubusercontent.com/msilvadev/Data-Science-Portfolio/main/imgs/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável


In [11]:
# ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [12]:
# ver o tipo de uma coluna da variável df
type(df['Date'])

pandas.core.series.Series

### Ver dimensões do DataFrame

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [17]:
# ver o tamanho do dataframe (formato)
df.shape

(246, 7)

Quando você executar a célula acima, vai receber como *output* os valores `(246, 7)`. Isso significa que o arquivo importado possui 246 linhas e 7 colunas. 

#### Visualizar apenas umaa dimensão
É possível selecionar apenas uma das dimensões do nosso `dataframe`.

In [19]:
# ver apenas a quantidade de linhas do nosso dataframe
df.shape[0]

246

In [20]:
# ver apenas a quantidade de colunas do nosso dataframe
df.shape[1]

7

### Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação B3SA3 contém 246 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [21]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-06-22,17.049999,17.16,16.6,16.776667,16.145081,22384200.0
1,2020-06-23,16.943333,17.546665,16.883333,17.426666,16.770609,40578300.0
2,2020-06-24,17.436666,17.879999,17.236666,17.549999,16.889299,36292200.0
3,2020-06-25,17.6,18.356667,17.546665,18.333332,17.643141,32242200.0
4,2020-06-26,18.213333,18.396666,17.633333,17.816666,17.145927,28312500.0


In [22]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
241,2021-06-14,16.24,16.450001,16.17,16.32,16.32,49076200.0
242,2021-06-15,16.379999,16.76,16.280001,16.67,16.67,67472700.0
243,2021-06-16,16.67,17.25,16.65,16.91,16.91,108820900.0
244,2021-06-17,17.059999,17.17,16.889999,17.17,17.17,54573400.0
245,2021-06-18,17.120001,17.4,17.07,17.379999,17.379999,66759800.0


**OBS:** É possível determinar a quantidade de dados que quermos visualizar tanto com o `df.head()` quanto `df.tail()`. Ambos recebem um paraâmetro númerico que determina a quantidade de dados a ser exibido

In [23]:
# mostrar apenas as 2 primeiras linhas de nosso DataFrame
df.head(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-06-22,17.049999,17.16,16.6,16.776667,16.145081,22384200.0
1,2020-06-23,16.943333,17.546665,16.883333,17.426666,16.770609,40578300.0


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [24]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo de variável que está representado em cada coluna é essencial. Por exemplo:

* Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo `float`.
* Quando estamos lidando com anos (2017, 2018, 2019), iremos desejar trabalhar com variáveis do tipo `int`.
* Quanto temos datas completas (`2019-12-30 07:37`), iremos desejar usar o formato `datetime`, para conseguir manipular adequadamente o *dataset*.

Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [25]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       246 non-null    object 
 1   Open       245 non-null    float64
 2   High       245 non-null    float64
 3   Low        245 non-null    float64
 4   Close      245 non-null    float64
 5   Adj Close  245 non-null    float64
 6   Volume     245 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.6+ KB


### Selecionando colunas

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [27]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      17.160000
1      17.546665
2      17.879999
3      18.356667
4      18.396666
         ...    
241    16.450001
242    16.760000
243    17.250000
244    17.170000
245    17.400000
Name: High, Length: 246, dtype: float64

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você consegue selecionar ela de outra maneira (muito mais prática, na minha opinião).

No lugar de `df["High"]` você pode usar `df.High`, que terá o mesmo efeito.

In [28]:
# selecionar a variável (coluna) "High" da nossa variável df
df.High

0      17.160000
1      17.546665
2      17.879999
3      18.356667
4      18.396666
         ...    
241    16.450001
242    16.760000
243    17.250000
244    17.170000
245    17.400000
Name: High, Length: 246, dtype: float64

### Calculando a média de uma coluna

Quando executamos o código `df.High`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar `df.High.mean()`.

In [29]:
# calcular a média da coluna "High"
df.High.mean()

19.228489465306108

Isso significa que a média dos valores da coluna `High` é `19.228489465306108`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.

## Trabalhando com datas (`datetime`)

Quando você importar um arquivo que tenha datas, provavelmente o Pandas não irá reconhecer as mesmas de maneira automática.

Quando você checou `df.info()`, viu que a coluna `Date` estava como `object`. No caso, ela é apenas texto (`string`) e não permite a extração de muita coisa útil.

Vamos converter a coluna usando `pd.to_datetime` e informando qual o formato da nossa data.

In [30]:
# antes
df.Date

0      2020-06-22
1      2020-06-23
2      2020-06-24
3      2020-06-25
4      2020-06-26
          ...    
241    2021-06-14
242    2021-06-15
243    2021-06-16
244    2021-06-17
245    2021-06-18
Name: Date, Length: 246, dtype: object

In [31]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

#### pandas to_datetime()
Para ver outros tipos de `format` aceitos, podemos consultar na  [documentação oficial](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).

In [34]:
# depois
df.Date

0     2020-06-22
1     2020-06-23
2     2020-06-24
3     2020-06-25
4     2020-06-26
         ...    
241   2021-06-14
242   2021-06-15
243   2021-06-16
244   2021-06-17
245   2021-06-18
Name: Date, Length: 246, dtype: datetime64[ns]

Olhe como agora eu consigo acessar apenas os componentes de uma data, individualmente, usando `df.Date.dt`

In [35]:
df.Date.dt.year

0      2020
1      2020
2      2020
3      2020
4      2020
       ... 
241    2021
242    2021
243    2021
244    2021
245    2021
Name: Date, Length: 246, dtype: int64

In [36]:
df.Date.dt.month

0      6
1      6
2      6
3      6
4      6
      ..
241    6
242    6
243    6
244    6
245    6
Name: Date, Length: 246, dtype: int64

In [37]:
df.Date.dt.day

0      22
1      23
2      24
3      25
4      26
       ..
241    14
242    15
243    16
244    17
245    18
Name: Date, Length: 246, dtype: int64


No entanto, há vários formatos que um usuário pode lançar como sendo datas. Você pode encontrar exemplos como:

* 31/06/15
* 31/06/2015
* 31-6-15
* 2015-6-31
* 31 de junho de 2015

Para lidar com tudo isso, você vai ter que entender a documentação. Seguem dois links que serão úteis para isso:

* https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
* https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

## Conteúdo Extra Aula

Teste para entender mais da biblioteca `Pandas`.

In [43]:
# Realiza a cópia do DataFrame original
df_bkp = df

In [45]:
# No DataFrame novo crio uma nova Serie chamada Year, e populo com o ano de linha
df_bkp['Year'] = df_bkp.Date.dt.year

In [48]:
# Visualizar as 5 primeiras linhas para conferir
df_bkp.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Year
0,2020-06-22,17.049999,17.16,16.6,16.776667,16.145081,22384200.0,2020
1,2020-06-23,16.943333,17.546665,16.883333,17.426666,16.770609,40578300.0,2020
2,2020-06-24,17.436666,17.879999,17.236666,17.549999,16.889299,36292200.0,2020
3,2020-06-25,17.6,18.356667,17.546665,18.333332,17.643141,32242200.0,2020
4,2020-06-26,18.213333,18.396666,17.633333,17.816666,17.145927,28312500.0,2020
