<a href="https://colab.research.google.com/github/JhonnyLimachi/Sigmoidal/blob/main/2_Introdu%C3%A7%C3%A3o_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 4.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Introdução ao Pandas

<center><img src="https://miro.medium.com/max/819/1*Dss7A8Z-M4x8LD9ccgw7pQ.png" height="300px"></center>

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.



Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e utilizando o Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [2]:
# importar a biblioteca pandas
import pandas as pd

### Importar arquivos `csv`

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baixei os dados da ação ordinária do Banco do Brasil (BBAS3) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/bbas3_excel.png" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.

In [3]:
import pandas as pd

In [4]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/BBAS3.SA.csv")

Pronto! O arquivo `BBAS3.SA.csv` foi importado com sucesso e já está pronto para ser usado neste *notebook*.

### Conhecendo os componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável

In [5]:
# ver o tipo da variável df
type(df)

In [6]:
# ver o tipo de uma coluna da variável df
type(df['Date'])

### Ver dimensões do DataFrame

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [7]:
# ver o tamanho do dataframe (formato)
df.shape

(248, 7)

Quando você executar a célula acima, vai receber como *output* os valores `(248, 7)`. Isso significa que o arquivo importado possui 1245 linhas e 7 colunas.

### Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação BBAS3 contém 248 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [8]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-06,49.470001,49.669998,49.18,49.369999,46.886795,6314800.0
1,2019-05-07,49.080002,49.68,48.220001,49.490002,47.000763,10846100.0
2,2019-05-08,49.5,50.84,49.5,50.59,48.045422,14459600.0
3,2019-05-09,50.91,51.259998,50.119999,51.029999,48.463291,15377500.0
4,2019-05-10,51.099998,51.189999,49.860001,50.16,47.637051,8975300.0


In [9]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
243,2020-04-27,25.5,26.200001,25.110001,25.690001,25.690001,32132800.0
244,2020-04-28,27.219999,29.25,27.110001,29.139999,29.139999,43232700.0
245,2020-04-29,30.040001,30.209999,28.73,29.559999,29.559999,24628700.0
246,2020-04-30,28.309999,28.780001,27.85,28.5,28.5,23935300.0
247,2020-05-04,27.370001,27.76,26.99,27.76,27.76,16586000.0


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [10]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo de variável que está representado em cada coluna é essencial. Por exemplo:

* Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo `float`.
* Quando estamos lidando com anos (2017, 2018, 2019), iremos desejar trabalhar com variáveis do tipo `int`.
* Quanto temos datas completas (`2019-12-30 07:37`), iremos desejar usar o formato `datetime`, para conseguir manipular adequadamente o *dataset*.

Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [11]:
df.head(6)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-06,49.470001,49.669998,49.18,49.369999,46.886795,6314800.0
1,2019-05-07,49.080002,49.68,48.220001,49.490002,47.000763,10846100.0
2,2019-05-08,49.5,50.84,49.5,50.59,48.045422,14459600.0
3,2019-05-09,50.91,51.259998,50.119999,51.029999,48.463291,15377500.0
4,2019-05-10,51.099998,51.189999,49.860001,50.16,47.637051,8975300.0
5,2019-05-13,48.709999,49.389999,48.34,48.369999,45.937088,10248300.0


In [12]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       248 non-null    object 
 1   Open       247 non-null    float64
 2   High       247 non-null    float64
 3   Low        247 non-null    float64
 4   Close      247 non-null    float64
 5   Adj Close  247 non-null    float64
 6   Volume     247 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.7+ KB


### Selecionando colunas

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [14]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      49.669998
1      49.680000
2      50.840000
3      51.259998
4      51.189999
         ...    
243    26.200001
244    29.250000
245    30.209999
246    28.780001
247    27.760000
Name: High, Length: 248, dtype: float64

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você consegue selecionar ela de outra maneira (muito mais prática, na minha opinião).

No lugar de `df["High"]` você pode usar `df.High`, que terá o mesmo efeito.

In [15]:
# selecionar a variável (coluna) "High" da nossa variável df
df.High

0      49.669998
1      49.680000
2      50.840000
3      51.259998
4      51.189999
         ...    
243    26.200001
244    29.250000
245    30.209999
246    28.780001
247    27.760000
Name: High, Length: 248, dtype: float64

### Calculando a média de uma coluna

Quando executamos o código `df.High`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar `df.High.mean()`.

In [None]:
# calcular a média da coluna "High"
df.High.mean()

Isso significa que a média dos valores da coluna `High` é `46.57639677327938`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.

## Trabalhando com datas (`datetime`)

Quando você importar um arquivo que tenha datas, provavelmente o Pandas não irá reconhecer as mesmas de maneira automática.

Quando você checou `df.info()`, viu que a coluna `Date` estava como `object`. No caso, ela é apenas texto (`string`) e não permite a extração de muita coisa útil.

Vamos converter a coluna usando `pd.to_datetime` e informando qual o formato da nossa data.

In [16]:
# antes
df.Date

0      2019-05-06
1      2019-05-07
2      2019-05-08
3      2019-05-09
4      2019-05-10
          ...    
243    2020-04-27
244    2020-04-28
245    2020-04-29
246    2020-04-30
247    2020-05-04
Name: Date, Length: 248, dtype: object

In [17]:
pd.to_datetime(df.Date, format="%Y-%m-%d")

0     2019-05-06
1     2019-05-07
2     2019-05-08
3     2019-05-09
4     2019-05-10
         ...    
243   2020-04-27
244   2020-04-28
245   2020-04-29
246   2020-04-30
247   2020-05-04
Name: Date, Length: 248, dtype: datetime64[ns]

In [18]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [19]:
# depois
df.Date

0     2019-05-06
1     2019-05-07
2     2019-05-08
3     2019-05-09
4     2019-05-10
         ...    
243   2020-04-27
244   2020-04-28
245   2020-04-29
246   2020-04-30
247   2020-05-04
Name: Date, Length: 248, dtype: datetime64[ns]

Olhe como agora eu consigo acessar apenas os componentes de uma data, individualmente, usando `df.Date.dt`

In [20]:
df["Year"] = df.Date.dt.year

In [21]:
df.Date.dt.month

0      5
1      5
2      5
3      5
4      5
      ..
243    4
244    4
245    4
246    4
247    5
Name: Date, Length: 248, dtype: int64