# Introdução ao Pandas

A biblioteca _**Pandas**_ é provavelmente a mais popular de todas quando se trata de _Data Science_ em _Python_. 

Por intermédio dela, você se torna apto a importar dados (arquivos `csv` e `xls`, por exemplo), tratá-los, transformá-los e analisá-los.

Uma vez que o conjunto de dados é importado utilizando-se _Pandas_, há certa facilidade em realizar tarefas do tipo:

- Extrações de informações estatísticas
 - Qual a média, mediana, valores máximos e mínimos?
 - Qual é a distribuição das variáveis?
 - Qual a correlação entre duas variáveis quaisquer?
- Exportar os dados para um novo formato de arquivo
- Visualizar gráficos dos mais diferentes tipos
- Alimentar modelos de aprendizado de máquina (_machine learning_) construídos no _Scikit-learn_

A biblioteca _Pandas_ é construída baseada numa outra biblioteca popular, o _**Numpy**_. Há diversas similaridades entre ambas.


## Instalação e utilização

No caso de código executado na máquina local, o _Pandas_ pode ser instalado por comando utilizando o gerenciador de pacotes (`pip` ou `conda`).

A depender qual seja, o comando utilizado será:
> - `pip install pandas` 

Ou
> - `conda install pandas`

Utilizando o Google Colab, entretanto, o _Pandas_ já vem instalado por padrão. A única tarefa que precisa ser realizada é a importação do pacote, o que normalmente é feito utilizando o comando `import nome_do_pacote`.

A abreviação das bibliotecas é comumente utilizada em Python. Por exemplo, no caso do _Pandas_: `import pandas as pd`. 

Caso repare em outros projetos de ciência de dados, provavelmente é assim que utilizam.

In [0]:
# importando a biblioteca pandas
import pandas as pd

## Importando arquivos `csv`

A fim de exemplificar a importação de dados com _Pandas_, observe:

Por meio do site [Yahoo Finance](https://finance.yahoo.com/quote/WEGE3.SA/history?p=WEGE3.SA), foram obtidos os dados da ação ordinária da WEG (WEGE3) em formato `csv` e o arquivo foi carregado para [este link](https://raw.githubusercontent.com/gsbcamargo/datasets/master/WEGE3.SA.csv).

Para importar o conjunto de dados em formato `csv` basta executar a função  `pd.read_csv('local_do_arquivo')`, informando, entre os parênteses, o local onde o arquivo se encontra (na máquina ou na internet).

In [0]:
# importar o arquivo csv
df = pd.read_csv('https://raw.githubusercontent.com/gsbcamargo/datasets/master/WEGE3.SA.csv')

Voilà! O arquivo `WEGE3.SA.csv` foi importado com sucesso e está pronto para ser utilizado neste _notebook_.

## Conhecendo os componentes básicos do _Pandas_

Os dois componentes básicos que devemos conhecer quando trabalhamos com Pandas são `series` e `DataFrame`.

A fim de ilustrar o que cada um desses itens representa:

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

De forma simples: o `DataFrame` é uma planilha do Excel, enquanto `series` é uma coluna individual.

Tais estruturas, apesar de parecerem triviais, são poderosas, já que possuem a capacidade de armazenar qualquer tipo de dado, facilitando o trabalho com dados.
> - `type()` - mostra o tipo da variável

In [3]:
# checando o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [4]:
# checando o tipo de uma coluna presente na variável df
type(df['Date'])

pandas.core.series.Series

## Dimensões do DataFrame

Observe novamente a imagem acima. Basicamente, o arquivo importado se parece com uma tabela Excel, composta por linhas e colunas. A fim de descobrirmos o tamanho da tabela (checando seu formado, _shape_), executamos a função `df.shape`.

In [5]:
# chechar o tamanho do DataFrame
df.shape

(246, 7)

O _output_ (ou saída) da função acima é `(246, 7)`, ou seja, o arquivo importado possui 246 linhas e 7 colunas.

## Conhecendo os dados

Uma vez importada a base de dados para o _Pandas_, há muitos atributos e métodos nativos da estrutura _DataFrame_ que permitem a sua exploração.

Duas das principais funções da biblioteca (utilizadas em praticamente todos os projetos) são: `df.head()` e `df.tail()`.

O arquivo `csv` com os dados das ações da WEGE3 contém 246 linhas, porém é normal que esse número ultrapasse os milhares ou centenas de milhares. Seria inviável observar cada linha a fim de enteder como os dados estão sendo interpretados.

Quando se importa um _dataset_, é importante conhecer a estrutura das entradas, objetivando a familiarização com os dados que serão analisados. Para isso servem tais funções:
> - `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
> - `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [6]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-06-17,19.950001,20.530001,19.82,20.299999,20.038895,3065700.0
1,2019-06-18,20.450001,20.75,20.370001,20.639999,20.374521,3753800.0
2,2019-06-19,20.639999,21.26,20.559999,21.17,20.897703,3032800.0
3,2019-06-21,21.4,21.559999,21.129999,21.43,21.154362,4705600.0
4,2019-06-24,21.43,21.6,21.030001,21.58,21.302431,2486200.0


In [7]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
241,2020-06-05,44.5,45.43,44.049999,44.330002,44.330002,6099000.0
242,2020-06-08,44.889999,46.279999,44.259998,45.799999,45.799999,5162800.0
243,2020-06-09,44.73,46.080002,43.849998,45.810001,45.810001,4179400.0
244,2020-06-10,45.93,46.639999,44.470001,44.990002,44.990002,4847800.0
245,2020-06-12,0.0,0.0,0.0,44.25,44.25,0.0


Um dos motivos da popularidade do _Pandas_ é justamente a sua capacidade de conseguir mnostrar os dados como se estivessem tabelados, um formato amigável para a facilitar a compreensão.

Agora, suponhamos que haja a necessidade de se extrair apenas os nomes das colunas do _DataFrame_. Simples: execute a função `df.columns`.

In [8]:
# ver nome das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Conhecer o tipo da variável representada em cada coluna é primordial. Vejamos:
- Quando há coluna que trata de receita, despesa ou lucro, é desejável que as variáveis sejam do tipo `float`
- Quando se há coluna de anos (2015, 2016...), a varável recomendada é a do tipo `int`
- Quando trata-se de datas completas (`1990-12-23 08:49`), o recomendável é que a entrada seja do formato `datetime`, para que se possa manipular adequadamente o conjunto de dados.

Para tomar conhecimento dos tipos das variáveis da cada coluna, basta executar a função `df.dtypes`.

In [9]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Há, entretanto, outra função que retorna informações ainda mais completas: `df.info()`.
Vejamos:

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246 entries, 0 to 245
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       246 non-null    object 
 1   Open       245 non-null    float64
 2   High       245 non-null    float64
 3   Low        245 non-null    float64
 4   Close      245 non-null    float64
 5   Adj Close  245 non-null    float64
 6   Volume     245 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.6+ KB


## Selecionando colunas

Há algumas maneiras de selecionar um sub-conjunto de dados de uma estrutura _DataFrame_.
Na maior parte dos casos, porém, o que se faz é selecionar apenas uma coluna.
Para selecionar uma variável, coloca-se o nome da coluna entre colchetes, referenciando a variável de onde seus dados foram importados.

In [11]:
# selecionar a variável (coluna) "volume" do DataFrame df
df["Volume"]

0      3065700.0
1      3753800.0
2      3032800.0
3      4705600.0
4      2486200.0
         ...    
241    6099000.0
242    5162800.0
243    4179400.0
244    4847800.0
245          0.0
Name: Volume, Length: 246, dtype: float64

Caso o nome da coluna não contenha caracteres especiais e nem espaços em branco, há a possibilidade de executar o mesmo comando de forma mais simples: `df.Volume`.

In [12]:
# selecionar a variável (coluna) "volume" do DataFrame df
df.Volume

0      3065700.0
1      3753800.0
2      3032800.0
3      4705600.0
4      2486200.0
         ...    
241    6099000.0
242    5162800.0
243    4179400.0
244    4847800.0
245          0.0
Name: Volume, Length: 246, dtype: float64

## Calculando a média dos valores de uma coluna

Quando executa-se o comando df.Volume, é retornado apenas a coluna `Volume`. Para encontrar a média dos dados, basta utilizar a função complementar `.mean()`, assim: `df.High.mean`.


In [13]:
# encontrando a média da coluna "Voluime"
df.Volume.mean()

4885963.265306123

Isso significa que a média dos valores é `4885963.265306123`. Existem outras medidas importantes.

## Reformatando datas (`datetime`)
Quando se importa um arquivo com datas, muito provavelmente o _Pandas_ não as reconhecerá de maneira automática, pois mal formatadas.

Quando houve a checagem dos tipos utilizando `df.info()`, observa-se que a coluna `Date` é um `object`. No caso, ela é uma `string` e não permite facilmente a extração de informações úteis.

Portanto, há maneiras de se padronizar tais dados com a função `pd.to_datetime` e informando o formado da data apresentada pelo _DataFrame_.

In [14]:
# antes
df.Date

0      2019-06-17
1      2019-06-18
2      2019-06-19
3      2019-06-21
4      2019-06-24
          ...    
241    2020-06-05
242    2020-06-08
243    2020-06-09
244    2020-06-10
245    2020-06-12
Name: Date, Length: 246, dtype: object

In [0]:
# converter coluna Date para datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [16]:
# depois da conversão
df.Date

0     2019-06-17
1     2019-06-18
2     2019-06-19
3     2019-06-21
4     2019-06-24
         ...    
241   2020-06-05
242   2020-06-08
243   2020-06-09
244   2020-06-10
245   2020-06-12
Name: Date, Length: 246, dtype: datetime64[ns]

Observe a facilidade de se acessar os componentes da data de forma individualizada utilizando `df.Date.dt`:

In [17]:
df.Date.dt.year

0      2019
1      2019
2      2019
3      2019
4      2019
       ... 
241    2020
242    2020
243    2020
244    2020
245    2020
Name: Date, Length: 246, dtype: int64

In [18]:
df.Date.dt.month

0      6
1      6
2      6
3      6
4      6
      ..
241    6
242    6
243    6
244    6
245    6
Name: Date, Length: 246, dtype: int64

In [19]:
df.Date.dt.day

0      17
1      18
2      19
3      21
4      24
       ..
241     5
242     8
243     9
244    10
245    12
Name: Date, Length: 246, dtype: int64

Como o ser humano tem capacidade ímpar de inventar moda, um usuário pode lançar diversos formados de data. Exemplos:
- 29/06/1998
- 29/06/98
- 29-6-98
- 1998-6-29
- 29 de junho de 1998

Para estar apto a transformar tais informações não-padronizadas em um tipo de fácil manipulação, há a necessidade de se entender a documentação e de como se procurar a informação desejada na documentação.

Dois links úteis para uso:
- https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
- https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior