<a href="https://colab.research.google.com/github/jtkomati/Portfolio/blob/master/Intro_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.

Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e utilizando o Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou 

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [0]:
# importar a biblioteca pandas
import pandas as pd

### Importar arquivos `csv`

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baixei os dados da ação da Casio Computer Co.,Ltd. (6952.T) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/jtkomati/Portfolio/master/6952.T.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://github.com/jtkomati/Portfolio/blob/master/Excel%20Casio%20Computer.JPG" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.

In [0]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/jtkomati/Portfolio/master/6952.T.csv")

### Conhecendo os componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`. 

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável

In [4]:
# ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

### Ver dimensões do DataFrame

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [5]:
# ver o tamanho do dataframe (formato)
df.shape

(243, 7)

Quando você executar a célula acima, vai receber como *output* os valores `(243, 7)`. Isso significa que o arquivo importado possui 243 linhas e 7 colunas. 

### Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação Casio Computer Co.,Ltd. (6952.T) contém 243 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [6]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-06-10,1290.0,1292.0,1280.0,1283.0,1246.699219,1370700
1,2019-06-11,1281.0,1297.0,1276.0,1290.0,1253.501221,943400
2,2019-06-12,1291.0,1304.0,1289.0,1299.0,1262.24646,1093200
3,2019-06-13,1300.0,1308.0,1294.0,1305.0,1268.07666,1263500
4,2019-06-14,1310.0,1323.0,1302.0,1313.0,1275.850464,1667000


In [7]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
238,2020-06-03,1937.0,1952.0,1875.0,1896.0,1896.0,1218400
239,2020-06-04,1921.0,1921.0,1859.0,1885.0,1885.0,989100
240,2020-06-05,1888.0,1900.0,1863.0,1893.0,1893.0,1107800
241,2020-06-08,1919.0,1965.0,1908.0,1958.0,1958.0,1296200
242,2020-06-09,1956.0,1957.0,1937.0,1951.0,1951.0,100900


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [8]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo de variável que está representado em cada coluna é essencial. Por exemplo:

* Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo `float`.
* Quando estamos lidando com anos (2017, 2018, 2019), iremos desejar trabalhar com variáveis do tipo `int`.
* Quanto temos datas completas (`2019-12-30 07:37`), iremos desejar usar o formato `datetime`, para conseguir manipular adequadamente o *dataset*.

Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [9]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume         int64
dtype: object

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 243 entries, 0 to 242
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       243 non-null    object 
 1   Open       243 non-null    float64
 2   High       243 non-null    float64
 3   Low        243 non-null    float64
 4   Close      243 non-null    float64
 5   Adj Close  243 non-null    float64
 6   Volume     243 non-null    int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 13.4+ KB


### Selecionando colunas

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [11]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      1292.0
1      1297.0
2      1304.0
3      1308.0
4      1323.0
        ...  
238    1952.0
239    1921.0
240    1900.0
241    1965.0
242    1957.0
Name: High, Length: 243, dtype: float64

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você consegue selecionar ela de outra maneira (muito mais prática, na minha opinião).

No lugar de `df["High"]` você pode usar `df.High`, que terá o mesmo efeito.

In [12]:
# selecionar a variável (coluna) "High" da nossa variável df
df.High

0      1292.0
1      1297.0
2      1304.0
3      1308.0
4      1323.0
        ...  
238    1952.0
239    1921.0
240    1900.0
241    1965.0
242    1957.0
Name: High, Length: 243, dtype: float64

### Calculando a média de uma coluna

Quando executamos o código `df.High`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar `df.High.mean()`.

In [13]:
# calcular a média da coluna "High"
df.High.mean()

1743.2592592592594

Isso significa que a média dos valores da coluna `High` é `1743.2592592592594`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.

## Trabalhando com datas (`datetime`)

Quando você importar um arquivo que tenha datas, provavelmente o Pandas não irá reconhecer as mesmas de maneira automática.

Quando você checou `df.info()`, viu que a coluna `Date` estava como `object`. No caso, ela é apenas texto (`string`) e não permite a extração de muita coisa útil.

Vamos converter a coluna usando `pd.to_datetime` e informando qual o formato da nossa data.

In [14]:
# antes
df.Date

0      2019-06-10
1      2019-06-11
2      2019-06-12
3      2019-06-13
4      2019-06-14
          ...    
238    2020-06-03
239    2020-06-04
240    2020-06-05
241    2020-06-08
242    2020-06-09
Name: Date, Length: 243, dtype: object

In [0]:
# converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [16]:
# depois
df.Date

0     2019-06-10
1     2019-06-11
2     2019-06-12
3     2019-06-13
4     2019-06-14
         ...    
238   2020-06-03
239   2020-06-04
240   2020-06-05
241   2020-06-08
242   2020-06-09
Name: Date, Length: 243, dtype: datetime64[ns]

Olhe como agora eu consigo acessar apenas os componentes de uma data, individualmente, usando `df.Date.dt`

In [17]:
df.Date.dt.year

0      2019
1      2019
2      2019
3      2019
4      2019
       ... 
238    2020
239    2020
240    2020
241    2020
242    2020
Name: Date, Length: 243, dtype: int64

In [18]:
df.Date.dt.month

0      6
1      6
2      6
3      6
4      6
      ..
238    6
239    6
240    6
241    6
242    6
Name: Date, Length: 243, dtype: int64

In [19]:
df.Date.dt.day

0      10
1      11
2      12
3      13
4      14
       ..
238     3
239     4
240     5
241     8
242     9
Name: Date, Length: 243, dtype: int64

No entanto, há vários formatos que um usuário pode lançar como sendo datas. Você pode encontrar exemplos como:

* 31/06/15
* 31/06/2015
* 31-6-15
* 2015-6-31
* 31 de junho de 2015

Para lidar com tudo isso, você vai ter que entender a documentação. Seguem dois links que serão úteis para isso:

* https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
* https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior