# Pandas

<center><img width = 40% src = 'https://miro.medium.com/max/700/1*fUO28EIHi1bkZPhjZ451tQ.jpeg'></center>

[Fonte da iamgem](https://medium.com/horadecodar/como-usar-o-query-do-pandas-fdf4a00727dc)

Pandas é poderosa, flexível e fácil de usar. Ela é uma biblioteca para manipulação e análise de dados, que permite ler, manipular, agregar e plotar dados. É a principal e mais completa biblioteca para análise de Dados, por isso se tornou a mais famosa e mais utilizada. Há diversos tipos de arquivos que são passíveis de serem lidos utilizando o Pandas. 

Outra vantagem do Pandas é que a leitura dos dados podem ser apresentados como tabelas, o que para o ser humano é mais visualmente aceito. Com o Pandas é possível carregar, manipular o modelo, analisar dados, mesclar dados de diferentes bancos de dados, remodelar os dados. Tudo isso gira em torno de uma estrutura chamada *DataFrame*, que é basicamente um conjunto de colunas contendo dados. Os dados presentes podem ser de qualquer tipo (inteiro, objeto, string, float, bool, etc)

Algumas outras bibliotecas trabalham em conjunto com o pandas para poder refinar as análises, tais como:
* Seaborn
* NumPy
* Matplotib
* Scikit-Learn



## Instalando Pandas

Caso esteja utilizando o *Google Colab* ou Anaconda não é necessário a instalação, pois o Pandas já vem integrado a eles por padrão.

Caso esteja utilizando outro recurso basta utilizar a seguinte linha de comando no terminal:

`pip install pandas`

ou 

`conda install pandas`

Após a instalação, caso ela tenha sido necessária, basta importar a biblioteca para poder a utilizar. Para importar qualquer pacote é necessário dar o comando `import nome_do_pacote`, o pandas é muito comum ser importado como `import pandas as pd' porque dessa forma o nome da biblioteca é abreviado e facilita a sua utilização. Até hoje não vi um cientista de dados que fugiu dessa regra e importou a biblioteca de outra forma. 


In [1]:
#Importar biblioteca pandas
import pandas as pd

## Importar arquivos `csv`

Importar dados utilizando a biblioteca Pandas é muito fácil, basta utilizar uma linha de comando. 

Nesse *notebook* será utizado o *dataset* retirado do site [Yahoo Finance](https://finance.yahoo.com/), os dados são referentes a comparação do valor do Real em relação ao Dolár. Os dados de um arquivo `csv` podem ser abertos utilizando o *Excel* que é uma ferramenta muito conhecida hoje, o arquivo utilizado ficaria dessa forma se fosse aberto do *Excel*:

<center><img width = 100% src = 'https://github.com/renatagsr/Data-Science-na-Pratica/blob/main/excel.png?raw=true'></center>

Imagem: Autoria própria

Como dito anteriormente o Pandas possui uma grande vantagem que é a poder visualizar os dados em forma de tabela tendo uma ideia semelhante a apresentação de dados do Excel.

Para ler os dados basta utilizar a função `pd.read_csv('local_do_arquivo.csv')`.

In [2]:
#Importar o arquivo csv para o Pandas
df = pd.read_csv('/home/renata/Desktop/Cursos/Data-Science-na-Pratica/Datasets/BRL=X.csv')

O arquivo CSV já foi importado e está pronto para ser utilizado.

## Componentes Básicos do Pandas

Os dois componentes básicos que são necessários para conhecr quando se trabalha com Pandas são: 

* `Series`: De forma simples, é uma coluna individual de dados.
* `DataFrame`: Pode ser entendida como sendo uma planilha do Excel. Um conjunto de `series` forma um `DataFrame`.

<center><img width = 50% src = 'https://storage.googleapis.com/lds-media/images/series-and-dataframe.original.png'></center>

[Fonte da imagem](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)

Essas duas estruturas são muito úteis com o trabalho com dados visto que elas podem armazenar qualquer tipo de dados.

Para ver o tipo de uma variável basta utilizar a função `type()`, dentro do parenteses é fornecido a variável que se deseja saber o tipo.

In [3]:
#Ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [4]:
#Ver o tipo de uma coluna da variável df
type(df['High'])

pandas.core.series.Series

## Ver dimensões do DataFrame

Para saber o tamanho da tabela que foi importada também utiliza-se apenas uma função a `dados.shape`, a resposta será, respectivamente, quantas linhas e quantas colunas estão presentes no conjunto de dados.

In [5]:
#Ver o tamanh do dataframe (formato)
df.shape

(4482, 7)

Percebe-se que há mais de 4000 linhas nesse conjunto de dados. Cada linha corresponde a um dia do mês sendo que o período é de Novembro de 2003 até Fevereiro de 2021, que é o período máximo fornecido pelo site fonte.

## Conhecendo os dados

Após a importação dos dados é possível utilizar diversos métodos e atributos presentes na biblioteca Pandas que facilitam a exploração de dados. 

Uma das funções usadas mais recorrentemente é a `dados.head()`, o "*head*" vem de **cabeça**, ou seja, mostra os primeiros dados do conjunto, se essa função for colocada do jeito que está o exemplo irá mostrar, por padrão, apenas as 5 primeiras entradas, mas ela permite que se altere essa padrão simplesmente colocando entre parenteses o número de linhas que se deseja ler. Similarmente, há a função `dados.tail()` que parte das mesmas premissas do *head*, porém irá mostrar a **calda** dos elementos, ou seja, os últimos elementos do conjunto. 

Resumindo:

* `dados.head()`: Exibe as 5 **primeiras** entradas;
* `dados.tail()`: Exibe as 5 **últimas** entradas.

Essas duas funções são úteis porque muitas vezes se torna inviável olhar linha por linha de um conjunto de dados, então utiliza-se essas duas funções para que se tenha uma noção geral de como o conjunto de dados se apresenta.

In [7]:
#Mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2003-12-01,2.946,2.946,2.923,2.923,2.923,0.0
1,2003-12-02,2.923,2.931,2.923,2.931,2.931,0.0
2,2003-12-03,2.931,2.936,2.926,2.931,2.931,0.0
3,2003-12-04,2.931,2.943,2.931,2.943,2.943,0.0
4,2003-12-05,2.943,2.948,2.934,2.934,2.934,0.0


In [8]:
#Mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
4477,2021-01-27,5.354,5.4173,5.3492,5.3538,5.3538,0.0
4478,2021-01-28,5.4119,5.4541,5.388964,5.4126,5.4126,0.0
4479,2021-01-29,5.437484,5.5037,5.411807,5.437989,5.437989,0.0
4480,2021-02-01,5.4608,5.4825,5.417943,5.4608,5.4608,0.0
4481,2021-02-02,5.4322,5.4597,5.3422,5.3629,5.3629,0.0


Como pode ser visto, realmente a forma de apresentação dos dados é tabular, o que é mais amigável para os nossos olhos por ser um formato que estamos habituados de enxergar. 

Há alguns casos que é necessário extrair o nome de todas as colunas do *DataFrame*, para isso basta utilizar o seguinte método:

In [9]:
#Ver os nomes da colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Um fator essencial ao analisar os dados é saber qual o tipo de variável em cada coluna. Os tipos são os mais diversos como:

* `float`: Números não inteiros, exemplos: 4.5, 6.7, 10.0;
* `int`: Números inteiros, exemplos: 8, 12;
* `string`: É entendido como palavras ou textos, mas pode ser números também (caso sejam números caracterizados como *string* não será possível fazer operações com eles), exemplos: 'Renata', 'animal', 'R$ 15,6';
* `datetime`: Numeros em formato de datas, exemplos: 30-01-2020, 25/12/2019 15:55:00.

É importante saber qual o tipo porque esses dados serão manipulados depois para obter os resultados desejados na análise, ao saber o tipo sabe-se como lidar com os dados, se é necessário modificar o seu tipo, sabe-se o que é possível fazer com eles. 

In [10]:
#Conhecer o tipo de variável de cada coluna
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

Outra forma de descobrir o tipo das variáveis é utilizando a função `dados.info()`, essa função é mais completa do que a que foi utilizada anteriormente.

A saída da função apresenta três colunas:

* Column: Mostra o nome da coluna do conjunto de dados;
* Non-Null Count: Mostra quantos valores não nulos há em cada coluna. É de grande importância saber quantos dados estão ausentes para decidir o que será feito em relação a eles.
* Dtype: Tipo dos dados da coluna.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4482 entries, 0 to 4481
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       4482 non-null   object 
 1   Open       4015 non-null   float64
 2   High       4015 non-null   float64
 3   Low        4015 non-null   float64
 4   Close      4015 non-null   float64
 5   Adj Close  4015 non-null   float64
 6   Volume     4015 non-null   float64
dtypes: float64(6), object(1)
memory usage: 245.2+ KB


Ao observar a resposta gerada percebe-se que apenas a coluna "*date* " possui todos os dados presentes, as demais possuem mais de 400 dados ausentes.

## Selecionando Colunas

Muitas vezes será necessário obter apenas parte das colunas do conjunto inteiro, para isso há duas formas de selecionar apenas uma (s) coluna (s):

In [12]:
#Selecionar a variável (coluna) "High" da nossa variável df
df['High']

0       2.9460
1       2.9310
2       2.9360
3       2.9430
4       2.9480
         ...  
4477    5.4173
4478    5.4541
4479    5.5037
4480    5.4825
4481    5.4597
Name: High, Length: 4482, dtype: float64

In [13]:
#Segunda forma de selecionar a variável (coluna) "High" de outra foma
df.High

0       2.9460
1       2.9310
2       2.9360
3       2.9430
4       2.9480
         ...  
4477    5.4173
4478    5.4541
4479    5.5037
4480    5.4825
4481    5.4597
Name: High, Length: 4482, dtype: float64

Essa segunda forma de selecionar a coluna é mais rápida e mais enxuta, porém não é sempre que pode utilizar ela, quando o nome da variável tiver espaços em branco ou caracteres especiais não será possível utilizá-la pois dará erro.

## Calculando a média de uma coluna 

Para calcular a média de uma coluna basta chamar essa coluna, conforme feito anteriormente, e utilizar a função `.mean()`.

In [14]:
#Calcular a média da coluna "High"
df.High.mean()

2.758473834122052

## Trabalhando com Datas (`datetime`)

Na maior parte das vezes que for importado um arquivo que tenha datas o Pandas não irá reconhecer automaticamente que são datas, para resolver isso basta fazer a conversão para ***DateTime***.

In [15]:
#Antes
df.Date

0       2003-12-01
1       2003-12-02
2       2003-12-03
3       2003-12-04
4       2003-12-05
           ...    
4477    2021-01-27
4478    2021-01-28
4479    2021-01-29
4480    2021-02-01
4481    2021-02-02
Name: Date, Length: 4482, dtype: object

É visto em ***dtype*** que a coluna *Date* é um *object* e não **DateTime**, para fazer a conversão basta utilizar `pd.to_datetime()`.

Dentro da função é necessário fornecer o formato (*format*) que a data está, há diversas formas que as datas podem ser apresentadas, como por exemplo:

* 31/12/2020
* 31/12/20
* 31-6-20
* 2020-12-31
* 31 de dezembro de 2020

Para saber qual a forma certa para fornecer os na função é necessário analisar como os dados estão apresentados e como será o fornecimento dessa informação, para isso tem que entender a documentação. Links úteis:

* [https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)
* [https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime)



In [16]:
#Converter coluna Date em datetime
df.Date = pd.to_datetime(df.Date, format='%Y-%m-%d')

In [17]:
df.Date

0      2003-12-01
1      2003-12-02
2      2003-12-03
3      2003-12-04
4      2003-12-05
          ...    
4477   2021-01-27
4478   2021-01-28
4479   2021-01-29
4480   2021-02-01
4481   2021-02-02
Name: Date, Length: 4482, dtype: datetime64[ns]

A conversão é útil pois com ela é possível acessar cada data individualmente usando `df.Date.dt.`

In [18]:
#Ano
df.Date.dt.year

0       2003
1       2003
2       2003
3       2003
4       2003
        ... 
4477    2021
4478    2021
4479    2021
4480    2021
4481    2021
Name: Date, Length: 4482, dtype: int64

In [19]:
#Mês
df.Date.dt.month

0       12
1       12
2       12
3       12
4       12
        ..
4477     1
4478     1
4479     1
4480     2
4481     2
Name: Date, Length: 4482, dtype: int64

In [20]:
#Dia
df.Date.dt.day

0        1
1        2
2        3
3        4
4        5
        ..
4477    27
4478    28
4479    29
4480     1
4481     2
Name: Date, Length: 4482, dtype: int64

In [21]:
#Dia da semana
df.Date.dt.weekday

0       0
1       1
2       2
3       3
4       4
       ..
4477    2
4478    3
4479    4
4480    0
4481    1
Name: Date, Length: 4482, dtype: int64

In [22]:
#semana do ano
df.Date.dt.weekofyear

0       49
1       49
2       49
3       49
4       49
        ..
4477     4
4478     4
4479     4
4480     5
4481     5
Name: Date, Length: 4482, dtype: int64

## Conclusão

Esse foi um pequeno tutorial sobre o Pandas, como pôde ser visto a sua aplicação é muito grande e por isso que essa biblioteca é tão útil para análise de dados.