<a href="https://colab.research.google.com/github/sirleudo/sigmoidal_data_science/blob/master/Introdu%C3%A7%C3%A3o_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="pensatah" width="25%" src="https://github.com/sirleudo/sigmoidal_data_science/blob/master/logo_pensatah.png?raw=true">

#### **Data Science na Prática 2.0**
*by Sirleudo Evaristo*

---

# Introdução ao Pandas

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.

Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e utilizando o Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou 

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [0]:
# importar a biblioteca pandas
import pandas as pd

### Importar arquivos `csv`

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baixei os dados da ação ordinária do Banco do Brasil (BBAS3) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/bbas3_excel.png" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.



In [0]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/sirleudo/sigmoidal_data_science/master/BBAS3.SA.csv")

Pronto! O arquivo `BBAS3.SA.csv` foi importado com sucesso e já está pronto para ser usado neste *notebook*. 

### Conhecendo os componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`. 

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável


In [0]:
# ver o tipo da variável df
type(df)

In [0]:
# ver o tipo de uma coluna da variável df
type(df['Date'])

### Ver dimensões do DataFrame

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [5]:
# ver o tamanho do dataframe (formato)
df.shape

(249, 7)

Quando você executar a célula acima, vai receber como *output* os valores `(249, 7)`. Isso significa que o arquivo importado possui 249 linhas e 7 colunas. 

### Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação BBAS3 contém 249 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [6]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-06-10,52.049999,52.200001,50.970001,51.869999,49.679665,9141300.0
1,2019-06-11,52.400002,52.900002,51.84,52.900002,50.666183,13132800.0
2,2019-06-12,52.880001,53.0,51.919998,52.259998,50.215572,8819600.0
3,2019-06-13,52.25,52.669998,51.27,51.43,49.418053,15531800.0
4,2019-06-14,51.34,51.5,49.939999,50.52,48.543644,13100600.0


In [7]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
244,2020-06-03,34.470001,35.0,33.84,34.75,34.75,29497200.0
245,2020-06-04,34.43,35.57,33.52,34.939999,34.939999,23947100.0
246,2020-06-05,37.41,38.169998,35.009998,35.200001,35.200001,35546100.0
247,2020-06-08,35.82,36.810001,35.5,36.389999,36.389999,22264000.0
248,2020-06-09,35.540001,37.080002,35.119999,35.790001,35.790001,28728300.0


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [8]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo de variável que está representado em cada coluna é essencial. Por exemplo:

* Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo `float`.
* Quando estamos lidando com anos (2017, 2018, 2019), iremos desejar trabalhar com variáveis do tipo `int`.
* Quanto temos datas completas (`2019-12-30 07:37`), iremos desejar usar o formato `datetime`, para conseguir manipular adequadamente o *dataset*.

Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [9]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 249 entries, 0 to 248
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       249 non-null    object 
 1   Open       248 non-null    float64
 2   High       248 non-null    float64
 3   Low        248 non-null    float64
 4   Close      248 non-null    float64
 5   Adj Close  248 non-null    float64
 6   Volume     248 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.7+ KB


### Selecionando colunas

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [11]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      52.200001
1      52.900002
2      53.000000
3      52.669998
4      51.500000
         ...    
244    35.000000
245    35.570000
246    38.169998
247    36.810001
248    37.080002
Name: High, Length: 249, dtype: float64

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você consegue selecionar ela de outra maneira (muito mais prática, na minha opinião).

No lugar de `df["High"]` você pode usar `df.High`, que terá o mesmo efeito.

In [12]:
# selecionar a variável (coluna) "High" da nossa variável df
df.High

0      52.200001
1      52.900002
2      53.000000
3      52.669998
4      51.500000
         ...    
244    35.000000
245    35.570000
246    38.169998
247    36.810001
248    37.080002
Name: High, Length: 249, dtype: float64

### Calculando a média de uma coluna

Quando executamos o código `df.High`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar `df.High.mean()`.

In [13]:
# calcular a média da coluna "High"
df.High.mean()

44.5160887701613

Isso significa que a média dos valores da coluna `High` é `46.57639677327938`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.

## Trabalhando com datas (`datetime`)

Quando você importar um arquivo que tenha datas, provavelmente o Pandas não irá reconhecer as mesmas de maneira automática.

Quando você checou `df.info()`, viu que a coluna `Date` estava como `object`. No caso, ela é apenas texto (`string`) e não permite a extração de muita coisa útil.

Vamos converter a coluna usando `pd.to_datetime` e informando qual o formato da nossa data.

In [14]:
# antes
df.Date

0      2019-06-10
1      2019-06-11
2      2019-06-12
3      2019-06-13
4      2019-06-14
          ...    
244    2020-06-03
245    2020-06-04
246    2020-06-05
247    2020-06-08
248    2020-06-09
Name: Date, Length: 249, dtype: object

In [0]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [16]:
# depois
df.Date

0     2019-06-10
1     2019-06-11
2     2019-06-12
3     2019-06-13
4     2019-06-14
         ...    
244   2020-06-03
245   2020-06-04
246   2020-06-05
247   2020-06-08
248   2020-06-09
Name: Date, Length: 249, dtype: datetime64[ns]

Olhe como agora eu consigo acessar apenas os componentes de uma data, individualmente, usando `df.Date.dt`

In [17]:
df.Date.dt.year

0      2019
1      2019
2      2019
3      2019
4      2019
       ... 
244    2020
245    2020
246    2020
247    2020
248    2020
Name: Date, Length: 249, dtype: int64

In [18]:
df.Date.dt.month

0      6
1      6
2      6
3      6
4      6
      ..
244    6
245    6
246    6
247    6
248    6
Name: Date, Length: 249, dtype: int64

In [19]:
df.Date.dt.day

0      10
1      11
2      12
3      13
4      14
       ..
244     3
245     4
246     5
247     8
248     9
Name: Date, Length: 249, dtype: int64


No entanto, há vários formatos que um usuário pode lançar como sendo datas. Você pode encontrar exemplos como:

* 31/06/15
* 31/06/2015
* 31-6-15
* 2015-6-31
* 31 de junho de 2015

Para lidar com tudo isso, você vai ter que entender a documentação. Seguem dois links que serão úteis para isso:

* https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
* https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior