# **Primeiros passos com pandas para análise de dados**

Nesse tutorial vamos utilizar a linguagem python e a biblioteca pandas para analisar dados tabulares, que são qualquer conjunto de informações armazenado
na forma de tabelas, onde:

- **colunas** indicam **características** ou atributos dos dados.
- **Linhas** representam **registros** ou observações sobre os dados.

Vamos aplicar o pandas a um conjunto de dados sobre preços de combustíveis no Brasil, disponível [aqui](https://www.kaggle.com/ficosta/combustible-price-brasil/download), aprendendo como ler dados no formato .csv (valores separados por vírgulas), um dos formatos mais comuns de dados tabulares. Em seguida vamos explorar os dados para aprender sobre eles e descobrir que informações eles podem nos fornecer.

Baixe o arquivo .zip no link fornecido e descompacte em uma pasta do seu computador e coloque o arquivo no seu Google Drive. Em seguida, execute a célula abaixo e siga as instruções para ter acesso aos seus arquivos do Drive por esse colab.  


In [0]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=email%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdocs.test%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.photos.readonly%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/drive


# 1 - Importando o pandas

Primeiro devemos importar alguns recursos do pacote pandas para o ambiente de análise Colab. Para importar um recurso em python, devemos informar a biblioteca de onde vamos importar e quais recursos precisaremos. Neste exemplo valos importar o recurso *read_csv*, para ler arquivos de dados tabulares do tipo csv. 

Ex. 1 - Descomente o código abaixo (apague o \#) e aperte o play no lado esquerdo da linha (ou utilize ***shift + enter***).

In [0]:
from pandas import read_csv

# 2 - Lendo um arquivo csv


Com o arquivo csv pronto, precisamos acessá-lo pelo colab. Primeiro, defina um nome para o conjunto de dados (por exemplo, *dados*). a função ***read_csv()*** será usada para ler o arquivo, da seguinte maneira:

```
dados = read_csv('/caminho/do/arquivo.csv)
```
No exemplo acima, o nome *dados* representa um objeto do pandas. Falaremos desse objeto adiante.

Obs.: Para obter o caminho do arquivo no diretório do colab, navegue até o seu arquivo através das pastas mostradas no painel lateral esquerdo deste colab, clique com o botão direito sobre o arquivo e em seguida em ***copiar caminho***.



Ex. 2.1: Crie um nome para o conjunto de dados e leia arquivo usando *read_csv*.

In [0]:
dados = read_csv('/content/drive/My Drive/AULAS/MINERAÇÃO DE DADOS/SEMANAL_BRASIL-DESDE_2013.csv')

# 3 - Explorando os dados

Depois de ler os dados, precisamos descobrir quais são os **atributos** presentes e quantos **registros** existem. O pandas possui várias funções e métodos que podemos aplicar a um conjunto de dados a fim de conseguir mais informações sobre ele. Para descobrir quantos registros e atributos existem, use o método ***shape*** nos dados lidos do arquivo csv. No exemplo anterior, você criou um objeto pandas de nome *dados*. Em python, usamos métodos em objetos pandas da seguinte forma:


```
dados.nome_do_método
```



Ex. 3.1: Encontre a quantidade de registros e atributos (linhas, colunas) do conjunto de dados com o método ***shape***.

In [0]:
dados.shape

(1824, 16)

É possível visualizar as primeiras linhas de um conjunto de dados em pandas utilizando a função ***head()***. Em python, utilizamos funções e métodos da mesma forma, com a diferença que funções utilizam parênteses **(** **)** no fim.

Ex. 3.2: Com a função ***head()***, mostre as primeiras linhas do conjunto de dados. A quantidade de colunas mostrada é a mesma indicada pelo método ***shape***?

In [0]:
dados.head(2)

Unnamed: 0,DATA INICIAL,DATA FINAL,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,12/30/12,1/5/13,ETANOL HIDRATADO,8173,R$/l,1948,244,1479,3000,262,125,1686,219,1300,2363,130
1,12/30/12,1/5/13,ÓLEO DIESEL,6813,R$/l,2153,114,1869,2950,226,53,1927,82,1728,2570,43



Para visualizar as últimas linhas dos dados, basta utilizar a função ***tail()*** do pandas. Perceba que no Ex. 3.2, a primeira linha possui índice **0** (zero). Assim, o índice da última linha da tabela será igual ao número de linhas da tabela menos 1.

Ex. 3.3 - Utilize a função ***tail()*** para visualizar as últimas linhas dos dados.

In [0]:
dados.tail()

Unnamed: 0,DATA INICIAL,DATA FINAL,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
1819,10/28/18,11/3/18,ÓLEO DIESEL,3096,R$/l,3719,201,3239,4950,342,54,3377,154,2946,4073,46
1820,10/28/18,11/3/18,ÓLEO DIESEL S10,4641,R$/l,3796,193,3099,5090,361,51,3435,149,2892,4242,43
1821,10/28/18,11/3/18,GASOLINA COMUM,5782,R$/l,4709,280,3899,6290,477,59,4232,236,3600,5022,56
1822,10/28/18,11/3/18,GLP,4374,R$/13Kg,68327,8150,50000,120000,16352,119,51975,7178,32000,86500,138
1823,10/28/18,11/3/18,GNV,294,R$/m3,2894,338,1999,3599,659,117,2235,271,1640,2853,121


# 4 - Objetos do pandas e tipos de dados

O pandas tem duas estruturas de dados principais, sendo:

**- Series:** Matriz unidimensional de dados tabulares de um mesmo tipo (ex.: uma matriz de uma coluna e várias linhas com datas).

**- DataFrame:** Matriz de dados tabulares com duas ou mais dimensões, com tipos de dados diferentes.

O objeto pandas criado no item 1 é um DataFrame, já que possui mais de 1 coluna. É possível identificar o tipo de um objeto pandas DataFrame utilizando a função **info()**.

Com essa função, é possível ver também um sumário dos dados, a quantidade de linhas, o tipo de dados dos atributos (colunas), a quantidade de valores não nulos em cada coluna,entre outras. 



4.1 - Utilize a função ***info()*** para ver um resumo do seu DataFrame:

In [0]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1824 entries, 0 to 1823
Data columns (total 16 columns):
DATA INICIAL                     1824 non-null object
DATA FINAL                       1824 non-null object
PRODUTO                          1824 non-null object
NÚMERO DE POSTOS PESQUISADOS     1824 non-null int64
UNIDADE DE MEDIDA                1824 non-null object
PREÇO MÉDIO REVENDA              1824 non-null object
DESVIO PADRÃO REVENDA            1824 non-null object
PREÇO MÍNIMO REVENDA             1824 non-null object
PREÇO MÁXIMO REVENDA             1824 non-null object
MARGEM MÉDIA REVENDA             1824 non-null object
COEF DE VARIAÇÃO REVENDA         1824 non-null object
PREÇO MÉDIO DISTRIBUIÇÃO         1824 non-null object
DESVIO PADRÃO DISTRIBUIÇÃO       1824 non-null object
PREÇO MÍNIMO DISTRIBUIÇÃO        1824 non-null object
PREÇO MÁXIMO DISTRIBUIÇÃO        1824 non-null object
COEF DE VARIAÇÃO DISTRIBUIÇÃO    1824 non-null object
dtypes: int64(1), object(15)
m


Ao analisar dados, é importante se certificar de utilizar os tipos de dados corretos. Do contrário, resultados equivocados podem ser obtidos, ou ainda, pode não ser possível executar determinadas operações com alguns atributos.
O pandas é capaz de inferir alguns tipos de dados, o que permite avança na análise dos dados. Contudo, é importante se certificar de que os tipos determinados automaticamente pelo pandas são os mais indicados para a sua situação. Para mais informações sobre tipos de dados do pandas, consulte esse [link](https://pbpython.com/pandas_dtypes.html).





Os principais tipos de dados do pandas são:

| Tipo       | Descrição        |
|------------|------------------|
| object     | Formato de texto |
| int64      | Números inteiros |
| float64    | Números decimais |
| datetime64 | Data e hora      |
| bool       | Valores V ou F   |

É importante perceber que colunas do DataFrame que não possuam o tipo de dado adequado para determinadas operações não poderão ser analisadas integralmente. Nesses casos, será preciso converter o tipo de dado para um adequado às necessidades de análise. no pandas, o método ***dtypes*** permite visualizar todos os tipos de dados no DataFrame.

4.2 - Use o método ***dtypes*** para ver os tipos de dados do DataFrame:

In [0]:
dados.dtypes


DATA INICIAL                     object
DATA FINAL                       object
PRODUTO                          object
NÚMERO DE POSTOS PESQUISADOS      int64
UNIDADE DE MEDIDA                object
PREÇO MÉDIO REVENDA              object
DESVIO PADRÃO REVENDA            object
PREÇO MÍNIMO REVENDA             object
PREÇO MÁXIMO REVENDA             object
MARGEM MÉDIA REVENDA             object
COEF DE VARIAÇÃO REVENDA         object
PREÇO MÉDIO DISTRIBUIÇÃO         object
DESVIO PADRÃO DISTRIBUIÇÃO       object
PREÇO MÍNIMO DISTRIBUIÇÃO        object
PREÇO MÁXIMO DISTRIBUIÇÃO        object
COEF DE VARIAÇÃO DISTRIBUIÇÃO    object
dtype: object

É possível converter dados em pandas utilizando a função astype(), para forçar um novo tipo em uma coluna do DataFrame. Como exemplo, em um DataFrame de nome *dados*, é possível mudar o tipo de uma coluna da seguinte forma:



```
dados['nome_da_coluna'] = dados['nome_da_coluna'].astype('tipo_desejado)
```



4.3 - Utilize a função ***astype()*** para mudar o tipo da coluna 'PREÇO MÉDIO DE REVENDA' para *'float'*.



In [0]:
dados['PREÇO MÉDIO REVENDA'] = dados['PREÇO MÉDIO REVENDA'].astype('float')

ValueError: ignored

No exercício anterior, o seguinte erro deve ter ocorrido:

**ValueError: could not convert string to float: '1,948'**


Esse erro ocorre por que, para o pandas, o delimitador de um número decimal ('float') é o ponto " . ", e não a vírgula " , ". Assim, para poder converter os dados do nosso DataFrame, é preciso substituir a vírgula, em cada número de cada coluna, por um ponto.  


A função ***read_csv()***, utilizada para ler o arquivo csv e transformá-lo em um objeto pandas do tipo DataFrame, possui vários argumentos (parâmetros que permitem que a função exerça outras tarefas). Um deles permite indicar qual o delimitador de números decimais do conjunto de dados. Podemos utilizar esse argumento conforme segue:


```
dados = read_csv('/content/SEMANAL_BRASIL-DESDE_2013.csv', decimal=',')
```



Ex.: 4.4 - Leia o arquivo csv novamente e salve no DataFrame dados_2:
  1 - informe na função read_csv que o delimitador decimal dos dados é vírgula, de acordo com o exemplo;
  2 - utilize o método dtypes e verifique o tipo dos dados

In [0]:
dados_2 = read_csv('/content/drive/My Drive/AULAS/MINERAÇÃO DE DADOS/SEMANAL_BRASIL-DESDE_2013.csv', decimal=',')

In [0]:
dados_2.dtypes

DATA INICIAL                      object
DATA FINAL                        object
PRODUTO                           object
NÚMERO DE POSTOS PESQUISADOS       int64
UNIDADE DE MEDIDA                 object
PREÇO MÉDIO REVENDA              float64
DESVIO PADRÃO REVENDA            float64
PREÇO MÍNIMO REVENDA             float64
PREÇO MÁXIMO REVENDA             float64
MARGEM MÉDIA REVENDA             float64
COEF DE VARIAÇÃO REVENDA         float64
PREÇO MÉDIO DISTRIBUIÇÃO         float64
DESVIO PADRÃO DISTRIBUIÇÃO       float64
PREÇO MÍNIMO DISTRIBUIÇÃO        float64
PREÇO MÁXIMO DISTRIBUIÇÃO        float64
COEF DE VARIAÇÃO DISTRIBUIÇÃO    float64
dtype: object

# 5 - Preparação para análise

Depois de explorar o conjunto de dados e definir corretamente o tipo de dado de cada coluna, podemos partir para a análise dos dados. 

Sempre que se deseja explorar e extrair informação de um conjunto de dados, é preciso entender, antes, quais tipos de informações é possível obter com os dados disponíveis. De modo geral, os dados se classificam em:

**Dados Numéricos:** Também chamados de quantitativos, são conjuntos de dados que representam contagens ou medidas, por exemplo: Idade, altura, peso. Esses dados se dividem ainda em dois grupos, sendo:


*   ***Discretos:*** Representados por números inteiros não negativos (ex.: Idade).
*   ***Contínuos:*** Podem assumir qualquer valor real (ex.: peso, altura).

Com esse tipo de dado é possível fazer análises estatísticas e determinar média, desvio padrão, etc.

**Dados categóricos:** Também chamados de qualitativos, são conjuntos de dados que refletem características não numéricas, podendo ser:


*   ***Ordinais:*** Podem ser ordenados de alguma forma que faça sentido (ex.: Faixa etária, estágios de uma doença, datas).
*   ***Nominais:*** se definem exclusivamente por nomes, sem ordem específica (ex.: grupo sanguíneo, raça, sexo, Sim/não).









## 5.1 Dados inválidos ou faltantes

Sempre que um conjunto de dados é coletado e posto para análise, uma série de atividades precisam ser feitas até que de fato seja confiável extrair alguma informação relevante. Nos tópicos anteriores vimos como iniciar a exploração de dados com pandas. Porém, depois de obter nosso dataframe, precisamos checar a integridade dos nossos dados, e limpá-los antes de fazer qualquer análise. De acordo com a [IBM Data Analytics](https://www.ibm.com/cloud/blog/ibm-data-catalog-data-scientists-productivity), 80% do tempo dedicado a um conjunto de dados disponível para análise é gasto com limpeza dos dados.

Uma fase importante na limpeza de dados é o tratamento de dados faltando ou inválidos (pense que, se um dado não serve para a análise, ele está faltando). Vamos utilizar uma [base dados](https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv) pequena, porém suficiente para entendermos como lidar com dados missing.  

Execute a célula abaixo para importar os dados do exemplo.

In [0]:
dados_faltando = read_csv('https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv',sep=',')


Ex. 5.1: Imprima o data frame dados_faltando, na célula seguinte.

In [0]:
dados_faltando

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
2,100003000.0,,LEXINGTON,N,,1,850
3,100004000.0,201.0,BERKELEY,12,1,,700
4,,203.0,BERKELEY,Y,3,2,1600
5,100006000.0,207.0,BERKELEY,Y,,1,800
6,100007000.0,,WASHINGTON,,2,HURLEY,950
7,100008000.0,213.0,TREMONT,Y,1,1,
8,100009000.0,215.0,TREMONT,Y,na,2,1800


É possível perceber os dados inválidos do dataframe acima. O pandas consegue detectar alguns valores inválidos ou faltantes. Para esses dados, ele utiliza a etiqueta ***NaN***.

o pandas possui uma função específica para identificar valores faltantes em uma coluna, de nome ***isnull()***. Essa função pode ser utilizada como foi mostrado no tópico 3.

Lembrando que para mostrar uma única coluna de um dataframe, basta utilizar a seguinte sintaxe:


```
nome_dataframe['nome_da_coluna']
```

Ex. 5.2 - Utilize a função ***isnull()*** para verificar os valores missing na coluna *NUM_BATH*. 


In [0]:
dados_faltando['NUM_BATH'].isnull()

0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
8    False
Name: NUM_BATH, dtype: bool

Perceba que a função ***isnull()*** retorna True sempre que existe um valor faltando no campo avaliado.

Nem sempre o pandas será capaz de identificar um dado inválido. No nosso exemplo, existe um dado inválido **'na'** na coluna *NUM_BEDROOMS* e outro valor inválido **'--'** na coluna SQ_FT. 

Outro caso de dados inválidos ocorre quando um dado de tipo diferente do esperado para uma dada característica é encontrado. A coluna *OWN_OCCUPIED* deveria conter somente valores no formato **Y** ou **N**. Contudo, em uma as linhas é encontrado o valor **12**, que não tem relação com os valores esperados.

Para um conjunto de dados muito grande, é impraticável utiizar a função ***isnull()*** como mostrado no Ex. 5.2. Para avaliar a quantidade de valores faltando (identificados pelo pandas) em todas as colunas, basta combinar a função ***sum()*** com a função ***isnull()*** aplicada a todo o conjunto de dados.


```
nome_dataframe.isnull().sum()
```

Ex. 5.3 - Combine as funções **isnull()** e **sum()** para visualizar todos os dados faltando em cada coluna do datraframe. 


In [0]:
dados_faltando.isnull().sum()

PID             1
ST_NUM          2
ST_NAME         0
OWN_OCCUPIED    1
NUM_BEDROOMS    2
NUM_BATH        1
SQ_FT           1
dtype: int64