<a href="https://colab.research.google.com/github/rafamarquesrmb/data_science/blob/main/introducao_ao_pandas/introducao_ao_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Introdução ao Pandas

O **Pandas** é uma Biblioteca do Python muito popular para lidar com Dados. Provavelmente a mais popular biblioteca quando se trata de Data Science.

Pandas significa **"Python Data Analysis Library"**, ou seja, Biblioteca de Análise de Dados em Python. A biblioteca Pandas foi contruida baseada na biblioteca **NumPy**, que também é muito popular dentro da comunidade do Python.

Através do Pandas, podemos importar dados através de arquivos **csv**, **xls** e outros, inclusive, conseguimos importar dados do formato **JSON**. 

O pandas no permite tratar esses dados, transforma-los e realizar diversas análises com esses dados.

Dentre algumas possibilidades do que podemos fazer em um conjunto de dados utilizando o pandas temos:

* Extrair informações estatísticas;
* Identificar valores como média, mediana, valores máximos e mínimos;
* Identificar a distribuição das variáveis;
* Identificar correlações entre duas variáveis quaisquer;
* Exportar os dados para outro formato de arquivo;
* Alterar o formato dos dados;
* Alterar, acrescentar ou remover linhas, colunas e valores;
* Visualizar gráficos dos mais diferentes tipos;

Além dos citados, é possível realizar muitas outras coisas com o Pandas.

Outro grande destaque do Pandas é a facil integração com a biblioteca **SciKit-Learn**, muito utilizada para o treinamento de modelos de Machine Learning.

A documentação do Pandas se encontra no link https://pandas.pydata.org/docs/ , onde vale a pena conferir para entender suas funcionalidades.

## Instalar e Utilizar o Pandas

O pandas é um biblioteca open source e de de uso gratuito.

Atualmente a maioria das IDEs do Python já trazem consigo o Pandas. Porém, caso sua IDE não possua o Pandas instalado, você pode instalar o código na sua máquina local. Para isso, basta utilizar linhas de comando no seu gerenciador de pacotes(`pip` ou `conda`).

Se você utiliza o pip, então basta digitar o comando:

`pip install pandas`

Mas, caso utilize o conda, então utilize o comando:

`conda install pandas`

Caso você utilize o Jupyter Notebook ou o Google Colab, você não precisa instalar, pois o Pandas já vem instalado por padrão. Dessa forma, você apenas precisará importar a biblioteca Pandas para o seu projeto.

para realizar a Importação do pandas, basta utilizar o `import nome_da_biblioteca`. Vale ressaltar que a maioria dos projetos que utilizam o pandas abreviam o nome da biblioteca para `pd`. Claro que você pode escolher a forma que desejar, porém, ao utilizar a abraviação pd, seu código será facilmente entendido pela comunidade. Portanto, a nossa importação será feita com: `import pandas as pd`.

Fazendo os passos acima, você já tem o pandas instalado e importado no seu projeto.

In [2]:
# importar a biblioteca pandas
import pandas as pd

### Importando uma base de Dados CSV

Pelo site [Yahoo Finance](https://finance.yahoo.com/), coletamos os dados da ação *Itaúsa - Investimentos Itaú S.A.* (ITSA4.SA) em formato csv para o período de 09 de Fev de 2020 à 09 de fev de 2021. Os mesmos dados coletados estão disponíveis [neste link](https://raw.githubusercontent.com/rafamarquesrmb/data_science/main/introducao_ao_pandas/ITSA4.SA.csv).

Para realizarmos a importação da nossa base de dados, vamos utilizar a função read_csv do pandas. Também iremos criar um variavél `df` que será a variável responsável por armazenar o nosso dataframe (base de dados).

Portanto, utilizaremos o formato de código pd.read_csv("local_do_arquivo.csv") para isso! Como já criei um repositório público contendo o nosso arquivo csv, posso importar utilizando a url desse arquivo.

In [3]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/rafamarquesrmb/data_science/main/introducao_ao_pandas/ITSA4.SA.csv")

Pronto! Agora a minha base de dados do arquivo **ITSA4.SA.csv** já está importado para o meu projeto! Viu como é facinho importar um base de dados com o Pandas?

### Series e DataFrame

Apesar de ser simples, é importante entender os componentes básicos do Pandas. São eles os componentes `Series` e `DataFrame`.

Para entende-los, podemos resumir que o DataFrame comporta toda a nossa base de dados, ou seja, todas as linhas e colunas. Poderíamos comparar à uma planilha do excel. Já uma Series seria representada apenas por um coluna, individualmente.

Na imagem abaixo você consegue visualizar isso de uma forma melhor:



---


<center><img src="https://raw.githubusercontent.com/rafamarquesrmb/data_science/main/introducao_ao_pandas/componentes_pandas.png.png" alt="Exemplo visual de Series e Dataframe da biblioteca Pandas"></center>

*-**Imagem** : Exemplo Visual de Series e DataFrame da Biblioteca Pandas. Fonte: [Carlos Melo](https://github.com/carlosfab) - [Escola Sigmoidal](https://escola.sigmoidal.ai/).*

---



Esses dois componentes do Pandas auxiliam muito ao trabalhar com dados, já que são capazes de armazenar todo tipo de dados.

Quando queremos identificar o tipo de um dado/variável, utilizamos a função `type()`.

Vamos então verificar o tipo da nossa variável `df`.

In [4]:
# ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

Observe que foi retornado a mensagem `pandas.core.frame.DataFrame`, o que significa que a nossa variável `df` representa o tipo DataFrame.

Digamos que queremos pegar apenas um coluna, vamos então utilizar o mesmo código acima para uma de nossas colunas, por exemplo: a coluna "open".[texto do link](https://)

In [4]:
# ver o tipo da coluna "open" da variável df
type(df['Open'])

pandas.core.series.Series

Observe que, agora, foi retornado a mensagem `pandas.core.series.Series`, o que representa o tipo Series. Isso está totalmente correto, pois a nossa variável `df['open']` representa, de fato, uma coluna do nosso DataFrame. Poderíamos fazer o mesmo teste para qualquer um de nossas colunas.

### Verificando o Tamanho da nossa Base de Dados

Como citado anteriormente, a nossa base de dados (DataFrame) é "parecido" com uma tabela. Portanto, ela é composta de linhas e colunas.

Uma forma simples e rápida de dimensionarmos o formato de nosso DataFrame é utilizando o atributo `shape`.

In [5]:
# verificar as dimensões do dataframe (formato)
df.shape

(246, 7)

Observe que ao executar o código acima, temos como resposta os valores (246, 7). O retorno representa o número de linhas x número de colunas. Portanto, no nosso DataFrame, temos 246 linhas e 7 colunas.

### Análise inicial das entradas do nosso DataFrame


Através da importação da base de dados para o Pandas, podemos utilizar diversos métodos nativos da estrutura DataFrame. Esses métodos possuem diversas funcionalidade que facilitam a nossa exploração de dados.

Diversas vezes, vamos trabalhar com bases de dados enormes. Seria inviável análisar linha por linha manualmente. Porém, é muito importante que a gente tenha uma noção de como estão os dados das linhas iniciais e finais de nossa base. Apenas ao identificarmos os dados iniciais e finais, já conseguimos análisar o estado de nossos dados, ter noção dos dados que iremos lidar.

Duas funções extremamente importantes e muito utilizadas em projetos de Análise de Dados são as funções `df.head()` e `df.tail()`. Através delas, conseguimos ler as primeiras e ultimas linhas de nosso DataFrame. Se utilizarmos sem passar nenhum parâmetro, essas funções irão retornar as 5 primeiras ou ultimas entradas do conjunto de dados.

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [6]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-02-10,12.85,13.16,12.75,13.05,12.53729,21223000.0
1,2020-02-11,13.22,13.39,13.09,13.28,12.758253,29302500.0
2,2020-02-12,13.32,13.51,13.25,13.37,12.844719,29504800.0
3,2020-02-13,13.27,13.36,13.13,13.17,12.652575,13984500.0
4,2020-02-14,13.15,13.17,13.0,13.0,12.489255,13364400.0


In [7]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
241,2021-02-02,10.85,10.92,10.55,10.81,10.81,76871000.0
242,2021-02-03,10.82,11.02,10.77,10.82,10.82,27407500.0
243,2021-02-04,10.85,10.9,10.75,10.82,10.82,32973100.0
244,2021-02-05,10.84,10.89,10.7,10.77,10.77,13020300.0
245,2021-02-08,10.73,10.75,10.58,10.61,10.61,18009500.0


Mas, se queremos ver um número especifico dessas entradas, podemos passar esse valor como parâmetro.

In [8]:
# mostrar as 10 primeiras entradas do DataFrame
df.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-02-10,12.85,13.16,12.75,13.05,12.53729,21223000.0
1,2020-02-11,13.22,13.39,13.09,13.28,12.758253,29302500.0
2,2020-02-12,13.32,13.51,13.25,13.37,12.844719,29504800.0
3,2020-02-13,13.27,13.36,13.13,13.17,12.652575,13984500.0
4,2020-02-14,13.15,13.17,13.0,13.0,12.489255,13364400.0
5,2020-02-17,13.1,13.17,13.0,13.0,12.489255,10280300.0
6,2020-02-18,13.01,13.19,12.88,13.19,12.67179,78579900.0
7,2020-02-19,13.19,13.47,13.15,13.34,12.815897,41161400.0
8,2020-02-20,13.38,13.43,13.17,13.25,12.729432,25207300.0
9,2020-02-21,12.72,12.81,12.57,12.81,12.520274,18050500.0


In [9]:
# mostrar as 2 últimas entradas do DataFrame
df.tail(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
244,2021-02-05,10.84,10.89,10.7,10.77,10.77,13020300.0
245,2021-02-08,10.73,10.75,10.58,10.61,10.61,18009500.0


Existem também uma forma de você coletar valores randômicos do seu DataFrame. Para isso, basta usar a função `sample()`. Dessa forma, ele vai coletar entradas no seu dataset sem uma ordem específica, de forma randômica. Diferente das funções anteriores, se você não colocar um parâmetro ela coletará apenas 1 entrada. Portanto coloque o parâmetro do número de entradas que deseja que seja coletado.

In [17]:
# mostrar 1 entrada escolhida aleatóriamente do DataFrame
df.sample()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
89,2020-06-22,10.37,10.4,10.04,10.15,9.959464,33664700.0


In [18]:
# mostrar 10 entradas escolhidas aleatóriamente do DataFrame
df.sample(10)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
96,2020-07-01,9.67,9.87,9.64,9.79,9.606222,25626700.0
10,2020-02-26,,,,,,
95,2020-06-30,9.8,9.85,9.58,9.59,9.409975,38928400.0
12,2020-02-28,11.86,12.04,11.7,12.01,11.738367,47839800.0
147,2020-09-11,9.48,9.49,9.22,9.27,9.153064,25654800.0
204,2020-12-04,11.26,11.29,11.07,11.21,11.089554,24138900.0
72,2020-05-27,9.09,9.15,8.98,9.11,8.918809,26588400.0
145,2020-09-09,9.7,9.78,9.62,9.68,9.557892,16523600.0
161,2020-10-01,8.85,8.92,8.76,8.9,8.787729,22780600.0
92,2020-06-25,9.83,10.0,9.71,9.96,9.773031,26714500.0


###Identificando nossos Dados

Caso você precise extrair apenas os nomes de cada coluna do nosso DataFrame, podemos utilizar o atributo `columns`.

In [10]:
# Identificar os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Nesse exemplo, recebemos como resposta o nome de cada uma das nossas colunas: 'Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'.

Além disso, é muito importante conhecer o tipo de variável que está sendo trabalhado em nossas colunas. Dessa forma, podemos verificar se a variável está apropriada para o nosso objetivo, ou se será necessário modifica-las para alcançarmos nosso objetivo.

Para conhecer os tipos de variáveis de cada coluna, usamos o atributo `dtypes`.

In [13]:
#Identificando os tipos de Variáveis de Cada coluna
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

No nosso exemplo acima, observe que o tipo da variável da coluna Date é um objeto. Isso acontece pois ao ler a data, a nossa máquina identifica como texto, e não como um valor de data (`datetime`). Isso pode ser um problema na hora de manipularmos esses dados. Já os demais valores, estão completamente de acordo com o tipo que desejamos. Portanto, posteriormente, vamos fazer uma transformação desses dados da coluna Date para transforma-la no tipo de `Datetime`.

Além do `dtypes`, também podemos utilizar outra maneira para descobrir o tipo de variaveis, a função `info()`. Além do tipo, ela também nos retorna os valores ausentes nas células. Vale ressaltar que, apesar de ser mais completo, a função `info()` pode demorar muito mais para retornar do que utilizando o atributo `dtypes`. Isso acontece pois a função info() necessita de muito mais poder de processamento e memória para entregar o resultado. Porém, para pequenas quantidades de dados, como no nosso exemplo, isso pode ser irrelevante.

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       246 non-null    object 
 1   Open       245 non-null    float64
 2   High       245 non-null    float64
 3   Low        245 non-null    float64
 4   Close      245 non-null    float64
 5   Adj Close  245 non-null    float64
 6   Volume     245 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.6+ KB


### Selecionando Colunas

Existem diversas formas de selecionarmos sub-conjuntos de dados do nosso dataFrame. Uma delas, a mais utilizada, é selecionando uma coluna.

Para isso é bem simples, basta chamar a nossa variável do DataFrame com o parâmetro da nossa coluna dentro dele. Ou seja, algo como df["nome da coluna"]. Observe que, dessa forma, não há problemas que o nome de nossa coluna possua caracteres especiais, como o próprio espaço.

Vamos utilizar esse método para selecionarmos a nossa coluna High

In [15]:
#Selecionando a coluna High
df["High"]

0      13.16
1      13.39
2      13.51
3      13.36
4      13.17
       ...  
241    10.92
242    11.02
243    10.90
244    10.89
245    10.75
Name: High, Length: 246, dtype: float64

Observe que ele retorna somente a coluna selecionada, assim como ainda nos informa o nome, tamanho e tipo de variável.

Porém, nós também podemos selecionar um coluna em forma de atributo. Mas é importante ressaltar que essa forma só funciona para colunas que não possuam caracteres especiais em seu nome. Usando a mesma coluna acima, basta selecionarmos a coluna com `df.High`



In [16]:
#Selecionando a coluna High
df.High

0      13.16
1      13.39
2      13.51
3      13.36
4      13.17
       ...  
241    10.92
242    11.02
243    10.90
244    10.89
245    10.75
Name: High, Length: 246, dtype: float64

Além da seleção de um única coluna, também podemos selecionar mais de uma coluna por vez. Para isso, basta usarmos o primeiro método, porém enviando o parâmetro de nossas colunas em forma de array, separando por virgulas`[["coluna1","coluna2","coluna3",...,"coluna N"]]`. Por exemplo, digamos que queremos selecionar duas colunas, as colunas High e Low, vamos então utilizar `df[["High","Low"]]`

In [19]:
#Seleção de multiplas colunas
df[["High","Low"]]

Unnamed: 0,High,Low
0,13.16,12.75
1,13.39,13.09
2,13.51,13.25
3,13.36,13.13
4,13.17,13.00
...,...,...
241,10.92,10.55
242,11.02,10.77
243,10.90,10.75
244,10.89,10.70


### Funções Estatísticas básicas com Pandas

A biblioteca Pandas também nos auxilia muito para realizar alguns cálculos estatísticos.

Caso você queira calcular a media de uma coluna, basta utilizar a função `mean()`

In [20]:
# calcular a média da coluna "High"
df.High.mean()

10.285673469387755

Observe que a média da nossa Coluna High é 10.285673469387755.

Também podemos utilizar as funções `min()` e `max()` para identificarmos facilmente qual é o valor minímo encontrado e o valor máximo encontrado em nossa coluna.


In [21]:
df.High.min()

8.3

Isso significa que o menor valor encontrado na nossa coluna High é de 8.3

In [22]:
df.High.max()

13.51

Isso significa que o maior valor encontrado na nossa coluna High é de 13.51

Além disso, podemos ainda calcular rapidamente a mediana de nossa coluna usando a função `median()`

In [24]:
df.High.median()

10.05

Portanto, a mediana da coluna High é de 10.05.

Além dessas, existem diversas outras funções que facilitam muito para uma análise estatística através do Pandas. Vale a pena ver a documentação e buscar o que está precisando.

### Trabalhando com datas e o formato datetime

Ao importarmos Base de Dados que contém datas, é muito provavel que o Pandas não consigar reconhecer as mesmas de forma automática. Assim como no nosso exemplo, as datas acabaram sendo identificadas como objetos, pois ao analisar os dados, o Pandas interpretou nossas datas como texto. Quando trabalhamos com datas, o formato ideal é o formato `datetime`. 

O Pandas nos permite realizar a conversão de colunas de datas que não estão no formato ideal para o formato correto. Para isso utilizamos a função `pd.to_datetime`. Esta função deve receber dois parâmetros. O primeir é a coluna que será trabalhado, já o segundo e o formato que nossas datas estão escritas na coluna.

Vamos então analisar a nossa coluna Date no formato atual...

In [5]:
df.Date

0      2020-02-10
1      2020-02-11
2      2020-02-12
3      2020-02-13
4      2020-02-14
          ...    
241    2021-02-02
242    2021-02-03
243    2021-02-04
244    2021-02-05
245    2021-02-08
Name: Date, Length: 246, dtype: object

Agora já sabemos que a coluna Date está com as datas escrita em Ano - Mês - Dia... Portanto, o formato será: "%Y-%m-%d". Utilizando nossa funçao `pd.to_datetime`, vamos então converter e já substituir os valores da nossa Date pelos valores atualizados.

In [6]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

Pronto, agora vamos análisar novamente a coluna.

In [7]:
df.Date

0     2020-02-10
1     2020-02-11
2     2020-02-12
3     2020-02-13
4     2020-02-14
         ...    
241   2021-02-02
242   2021-02-03
243   2021-02-04
244   2021-02-05
245   2021-02-08
Name: Date, Length: 246, dtype: datetime64[ns]

Observe que, apesar de não notarmos diferença ao ler as datas, a nossa máquina agora foi capaz de identificar o tipo da nossa variável como dtype: datetime64[ns], portanto, agora podemos trabalhar melhor com esses dados!

Mas, é importante saber que um usuário pode lanças as datas de diversas formas diferentes. Você pode encontrar exemplos como:

* 31/06/15
* 31/06/2015
* 31-6-15
* 2015-6-31
* 31 de junho de 2015

Para esses casos, o nosso parametro format deve ser alterado conforme o necessário. Portanto, você vai precisar de auxilio das documentações. Seguem dois links que serão úteis para isso:

* https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
* https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior