<a href="https://colab.research.google.com/github/giovannabetti/giovannabetti/blob/master/Introdu%C3%A7%C3%A3o_ao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

Pandas é uma biblioteca do Python, provavelmente a mais popular de todas quando se trata de *Data Science*.

Por meio do Pandas, você consegue importar dados (arquivos `csv`e `xls`, por exemplo), tratar esses dados, transformá-los e realizar análises completas dos mesmos.

Uma vez que você importa um conjunto de dados usando Pandas, fica muito fácil fazer coisas do tipo:

* Extrai informações estatísticas
  * Qual a média, mediana, valores máximos e mínimos?
  * Qual é a distribuição das suas variáveis?
  * Qual a correlação entre duas variáveis quaisquer?
* Exportar os dados para um novo formato de arquivo
* Visualizar gráficos dos mais diferentes tipos
* Alimentar modelos de *machine learning* feitos em cima do Scikit-learn

Pandas é construído em cima de outra biblioteca extremamente popular, o **NumPy**. Quem já utilizou esta, vai encontrar muita similaridade com aquela.

## Instalando e Utilizando Pandas

Caso você esteja rodando o código na sua máquina local, o Pandas pode ser instalado pela linha de comando usando o seu gerenciador de pacotes (`pip` ou `conda`).

Dependendo de qual deles seja, o comando que você deve usar é

`pip install pandas`

ou 

`conda install pandas`

Como estamos usando o Colab neste curso, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. Normalmente, para importar qualquer pacote basta apenas usar o comando `import nome_do_pacote`.

No entanto, é muito comum a gente importar o Pandas usando `import pandas as pd` para abreviar o nome da biblioteca. Se você reparar em projetos de outros cientistas de dados, vai ver que esse é (provavelmente) a maneira que eles utilizam.

In [None]:
# importar a biblioteca pandas
import pandas as pd

Para dar um exemplo de como é simples importar dados com o Pandas, veja o seguinte exemplo.

Pelo site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baixei os dados da ação ordinária do Banco do Brasil (BBAS3) em formato `csv` e disponibilizei o arquivo [neste link](https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv). Se eu abrir esse arquivo na minha máquina pelo Excel, é assim que ele vai aparecer para mim:

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/bbas3_excel.png" height="300px"></center>

Importar esse mesmo arquivo usando o Pandas é tão simples quanto executar a função `pd.read_csv("local_do_arquivo.csv")`, informando qual o endereço que o `csv` se encontra (endereço na internet ou caminho na máquia local.



In [None]:
# importar o arquivo csv para o Pandas
df = pd.read_csv("https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv")

Pronto! O arquivo `BBAS3.SA.csv` foi importado com sucesso e já está pronto para ser usado neste *notebook*. 

Veja novamente a imagem acima. Basicamente, o arquivo que importamos se parece com uma simples tabela de Excel, composta por linhas e colunas. Para você ver o tamanho dessa "tabela", o que significa ver o formato (*shape*) dela, basta executar `df.shape`.

In [None]:
# ver o tamanho do dataframe (formato)
df.shape

(246, 7)

Quando você executar a célula acima, vai receber como *output* os valores `(246, 7)`. Isso significa que o arquivo importado possui 246 linhas e 7 colunas. 

## Componentes básicos do Pandas

Os dois componentes básicos que a gente deve conhecer quando lidando com Pandas são `Series` e `DataFrame`. 

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, você pode pensar o `DataFrame` como sendo uma planilha de Excel, e `Series` como sendo apenas uma coluna individual.

Apesar de parecer conceitualmente simples, estas duas estruturas nativas do Pandas facilitam muito o trabalho com dados, uma vez que elas podem armazenar qualquer tipo de dado.

* `type()` - mostra qual o tipo da variável


In [None]:
# ver o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [None]:
# ver o tipo de uma coluna da variável df
type(df['Date'])

pandas.core.series.Series

## Conhecendo os dados

Uma vez que você importou a sua base de dados para o Pandas, existem muitos atributos e métodos nativos da estrutura *DataFrame* que facilitam muito a exploração de dados.

Uma das principais funções da biblioteca, e que você irá usar em praticamente todos os seus projetos é `df.head()` e `df.tail()`.

O arquivo `csv` com os dados da ação BBAS3 contém 246 linhas, mas o normal é você lidar com milhares ou centenas de milhares de linhas. Obviamente, seria inviável se tivessemos que olhar cada linha para entender como os dados estão apresentados.

Na verdade, quando a gente importa um *dataset*, queremos dar uma olhadinha rápida em algumas entradas, só para ter noção dos dados que iremos lidar. Isso é feito facilmente com:

* `df.head()` - exibe as 5 primeiras entradas do conjunto de dados
* `df.tail()` - exibe as 5 últimas entradas do conjunto de dados

In [None]:
# mostrar as 5 primeiras entradas do DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2018-09-21,29.73,30.58,29.34,30.58,28.680056,16301600
1,2018-09-24,30.379999,30.700001,29.5,29.73,27.882866,13086900
2,2018-09-25,29.030001,29.76,28.809999,29.549999,27.714045,11742900
3,2018-09-26,29.65,29.969999,29.209999,29.450001,27.620264,12842400
4,2018-09-27,29.68,30.299999,29.68,30.290001,28.408072,8767900


In [None]:
# mostrar as 5 últimas entradas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
241,2019-09-16,47.040001,47.560001,46.299999,46.650002,46.650002,8175500
242,2019-09-17,46.389999,47.450001,46.119999,47.299999,47.299999,6744200
243,2019-09-18,47.459999,48.25,47.16,48.02,48.02,8528300
244,2019-09-19,48.41,48.700001,46.77,46.77,46.77,9661800
245,2019-09-20,47.0,47.98,46.900002,47.509998,47.509998,15284500


Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável para a compreensão do nosso cérebro.

Compare com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.

Vamos supor que você precise extrair apenas os nomes das colunas do seu *DataFrame* - basta executar:

In [None]:
# ver os nomes das colunas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [None]:
# selecionar a variável (coluna) "High" da nossa variável df
df["High"]

0      30.580000
1      30.700001
2      29.760000
3      29.969999
4      30.299999
5      29.980000
6      29.760000
7      31.559999
8      35.419998
9      35.880001
10     36.290001
11     40.750000
12     39.700001
13     38.200001
14     38.169998
15     38.439999
16     39.500000
17     39.740002
18     39.980000
19     39.860001
20     40.240002
21     40.189999
22     40.320000
23     40.349998
24     42.570000
25     43.400002
26     43.400002
27     43.599998
28     43.560001
29     43.590000
         ...    
216    47.799999
217    48.250000
218    47.070000
219    46.639999
220    46.549999
221    46.689999
222    45.180000
223    47.459999
224    47.560001
225    46.540001
226    45.700001
227    45.599998
228    44.299999
229    45.220001
230    46.560001
231    46.790001
232    46.320000
233    45.930000
234    47.779999
235    49.389999
236    50.529999
237    50.500000
238    49.970001
239    48.369999
240    48.500000
241    47.560001
242    47.450001
243    48.2500

Quando executamos o código `df["High"]`, você viu acima que foi impressa apenas a coluna de valores `High`. Para encontrar a média desses valores, basta utilizar:

In [None]:
# calcular a média da coluna "High"
df["High"].mean()

48.15211368292682

Isso significa que a média dos valores da coluna `High` é `48.15211368292682`. Como vamos ver ao longo do curso, existem muitas outras medidas importantes.