# Primeiros passos com Pandas para análise de dados

Neste tutorial, vamos utilizar a linguagem Python e a biblioteca Pandas para analisar dados tabulares, que são qualquer conjunto de informações armazenados na forma de tabelas, onde:

- **Colunas** indicam **características** ou atributos.
- **Linhas** representam **observações** ou registros.

Vamos usar o Pandas para analisar um conjunto de dados sobre preços de combustíveis no Brasil, disponível [aqui](https://www.kaggle.com/ficosta/combustible-price-brasil/download), aprendendo como ler dados no formato `.csv` (valores separados por vírgulas), um dos formatos mais comuns de dados tabulares. Em seguida vamos explorar os dados para aprender sobre eles e descobrir que informações eles podem nos fornecer.

Baixe o arquivo `.zip` no link fornecido, descompacte em uma pasta do seu computador e coloque o arquivo no seu Google Drive. Em seguida, execute a célula abaixo e siga as instruções para ter acesso aos seus arquivos do Drive por esse Colab.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Importando o pandas

Primeiro devemos importar alguns recursos do pacote Pandas para o ambiente de análise Colab. Para importar um recurso em Python, devemos informar a biblioteca de onde vamos importar e quais recursos precisaremos. Neste exemplo valos importar o recurso `read_csv`, um **método** para ler arquivos de dados tabulares do tipo csv. 

1 - Descomente o código abaixo (apague o \#) e aperte o play no lado esquerdo da linha (ou utilize ***shift + enter***).

In [None]:
# from pandas import read_csv

## Lendo um arquivo csv

Com o arquivo csv pronto, precisamos acessá-lo pelo colab. Primeiro, defina um nome para o conjunto de dados (por exemplo, *dados*). A função `read_csv()` será usada para ler o arquivo, da seguinte maneira:

```
dados = read_csv('/caminho/do/arquivo.csv')
```
No exemplo acima, o nome *dados* é associado a um objeto do Pandas. Falaremos desse objeto adiante.

Obs.: Para obter o caminho do arquivo no diretório do colab, navegue até o seu arquivo através das pastas mostradas no painel lateral esquerdo deste colab, clique com o botão direito sobre o arquivo e em seguida em ***copiar caminho***.



2 - Crie um nome para o conjunto de dados e leia o arquivo usando o método `read_csv`.

## Explorando os dados

Depois de ler os dados, precisamos descobrir quais são as **características** presentes e quantas **observações** existem. O Pandas possui vários métodos que podemos aplicar a um conjunto de dados a fim de conseguir mais informações sobre ele. Para descobrir quantas observações e características existem, verificamos o atributo `shape` nos dados lidos do arquivo csv. No exemplo anterior, você criou um objeto Pandas de nome `dados`. Em Python, visualizamos atributos de objetos Pandas da seguinte forma:

```
dados.nome_do_atributo
```

3.1 - Encontre a quantidade de registros e atributos (linhas, colunas) do conjunto de dados através do atributo `shape`.

In [None]:
# dados.shape

É possível visualizar as primeiras linhas de um conjunto de dados em pandas utilizando o método `head(número_de_linhas)`. Em Python, utilizamos métodos e atributos da mesma forma, com a diferença que métodos utilizam parênteses em seguida ao seu nome. O `número_de_linhas` é um número positivo que, se informado como **argumento**, define quantas linhas serão exibidas. 

**Observação**: Se você optar por não informar o número de linhas, o Python usa 5 como padrão.

3.2 - Com o método `head()`, mostre as primeiras linhas do conjunto de dados. A quantidade de colunas mostrada é a mesma indicada pelo atributo `shape`?

In [None]:
# dados.head(2)

Perceba que na tabela acima, a primeira observação possui índice `0` (zero). Assim, o índice da última linha da tabela será igual ao número de linhas da tabela menos 1.

Para visualizar as últimas linhas dos dados, basta utilizar o método `tail()` do Pandas.

3.3 - Utilize a função `tail()` para visualizar as últimas linhas dos dados.

## Objetos do Pandas e tipos de dados

O Pandas tem duas estruturas de dados principais, sendo:

**- Series:** representa uma série unidimensional de dados tabulares de uma mesma natureza (números, nomes, idades, etc.).
**- DataFrame:** coleção de séries, onde cada série pode apresentar sua própria natureza.

O objeto Pandas criado a partir do método `read_csv()` é um DataFrame, já que o arquivo `.csv` apresenta várias características, cada uma interpretada pelo Pandas como uma série. É possível identificar o tipo de um objeto utilizando o método `type()` do Python.

Objetos do tipo `DataFrame` apresentam o método `info()`, que mostra também um sumário dos dados, a quantidade de linhas, o tipo de dados dos atributos (colunas), a quantidade de valores não nulos em cada coluna, entre outras. 

4.1 - Utilize o método `type()` para ver o tipo do objeto associado ao nome `dados`:

In [None]:
# type(dados)

4.2 - Utilize o método `info()` para ver um resumo do seu `DataFrame`:


Ao analisar dados, é importante se certificar de utilizar os tipos de dados corretos. Do contrário, resultados equivocados podem ser obtidos, ou ainda, pode não ser possível executar determinadas operações com alguns atributos.
O pandas é capaz de inferir alguns tipos de dados, o que permite avança na análise dos dados. Contudo, é importante se certificar de que os tipos determinados automaticamente pelo pandas são os mais indicados para a sua situação. Para mais informações sobre tipos de dados do pandas, consulte esse [link](https://pbpython.com/pandas_dtypes.html).





Os principais tipos de dados do pandas são:

| Tipo       | Descrição        |
|------------|------------------|
| object     | Formato de texto |
| int64      | Números inteiros |
| float64    | Números decimais |
| datetime64 | Data e hora      |
| bool       | Verdadeiro (V) ou falso (F)   |

É importante perceber que colunas do dataframe que não possuam o tipo de dado adequado para determinadas operações não poderão ser analisadas integralmente. Nesses casos, será preciso converter o tipo de dado para um adequado às necessidades de análise. No pandas, o atributo `dtypes` permite visualizar todos os tipos de dados de um dataframe.

4.2 - Use o atributo `dtypes` para ver os tipos de dados do dataframe:

In [None]:
dados.dtypes

É possível converter dados em pandas utilizando o método `astype()`, para forçar um novo tipo em uma coluna do DataFrame. Como exemplo, em um DataFrame de nome *dados*, é possível mudar o tipo de uma coluna da seguinte forma:

```python
dados['nome_da_coluna'] = dados['nome_da_coluna'].astype('tipo_desejado')
```

4.3 - Utilize o método `astype()` para mudar o tipo da coluna 'PREÇO MÉDIO DE REVENDA' para `float64`.

In [None]:
# dados['PREÇO MÉDIO REVENDA'] = dados['PREÇO MÉDIO REVENDA'].astype('float64')

No exercício anterior, o seguinte erro deve ter ocorrido:

```python3
ValueError: could not convert string to float: '1,948'
```

Esse erro ocorre por que, para o Python, o delimitador de um número decimal é o ponto e não a vírgula. Assim, para poder converter os dados do nosso DataFrame, seria preciso substituir a vírgula, em cada número de cada coluna, por um ponto.

O método `read_csv()`, utilizado para ler o arquivo csv e transformá-lo em um objeto pandas do tipo DataFrame, possui vários argumentos (parâmetros que permitem que a função exerça outras tarefas). Um deles permite indicar qual o delimitador de números decimais do conjunto de dados. Podemos utilizar esse argumento conforme segue:
```python
dados = read_csv('/content/SEMANAL_BRASIL-DESDE_2013.csv', decimal=',')
```

4.4 - Leia o arquivo csv novamente e nomeie o `DataFrame` gerado como `dados_2`:
  1 - informe no método `read_csv()` que o delimitador decimal dos dados é a vírgula, de acordo com o exemplo acima;
  2 - utilize o atributo `dtypes` e verifique os tipos dos dados

In [None]:
# use o método read_csv()

In [None]:
# verifique o atributo dtypes