# Minicurso: Análise e Manipulação de Dados com Python: Parte 1

**Minicurso:** Análise e Manipulação de Dados com Python

**Instrutor:** Humberto da Silva Neto

**Aluno:** 

## Tabela de conteúdos:

### Parte 1:
1. [Introdução ao Pandas](#int-pandas)

2. [Correção dos dados](#correcao-dos-dados)
 - [Identificando e lidando com valores ausentes](#valores-nan)
 - [Corrigindo os tipos dos dados](#astype)
 
3. [Padronização de dados](#padronizacao)
 
4. [Normalização de dados](#normalizacao)
 
5. [_Binning_](#binning)
 
6. [Correlação](#correlacao)

### [Parte 2:](https://github.com/hsneto/py-pandas-minicourse/blob/master/notebooks/pandas_plot.ipynb)
7. Preparando os dados
8. Visualização de dados usando Matplotlib
 - Gráficos de Linha
 - Gráficos de Área
 - Histogramas
 - Gráficos de Barras
 - Gráficos de Pizza
 - Diagrama de Caixa
 - Gráfico de Dispersão

### Outros:

- [Dicas e observações](#dicas)
- [Referências](#ref)

## Introdução ao Pandas<a name="int-pandas"></a>

![pandas-logo](https://pandas.pydata.org/_static/pandas_logo.png)

Este módulo contém estruturas de dados e ferramentas de manipulação de dados projetadas para facilitar e agilizar a correção e a análise de dados no Python. 
Pandas consegue obter base de dados de diferentes lugares e formatos (.csv, .json, .xlxs). Nesse curso, iremos trabalhar somente com arquivos no formato .csv (*Comma-separated values*).

A primeira parte desta seção é aprender a importar a base de dados. Contudo, o Google Colaboratory funciona como um container que roda em um servidor da Google e, por essa razão, os demais arquivos da sua pasta no drive não foram carregados$^{[1]}$. A seção extra [Dicas e observações](#dicas) demonstra duas formas de carregar seus arquivos. A primeira é para carregar direto da sua máquina (via upload) e a segunda carrega seus arquivos diretamente do drive (criando um novo volume na aplicação do container). Sinta-se a vontade de procurar uma outra forma para contornar esse problema.

Continuando$^{[2]}$, primeiro devemos importar o módulo Pandas, para isso use 

```python
import pandas as pd
```

---
$^{[1]}$ Caso o arquivo esteja na web, é possível carregá-los sem ter que importar os arquivos para a aplicação.

$^{[2]}$ Iremos utilizar um banco de dados online para facilitar e processo.

---

In [0]:
import pandas as pd

### Lendo arquivos:

A função **`pd.read_csv()`** lê um arquivo .csv através do endereço do arquivo. O endereço do arquivo pode ser um URL ou o endereço do seu arquivo local. 

Obs.: Em casos em que a tabela não possua um cabeçalho previamente definido, o _dataframe_ irá considerar a primeira linha da tabela como o cabeçalho ao invés de dados. Para evitar isso, adicione o argumento **`header=None`** dentro do método **`read_csv()`**, para que o Pandas gere um cabeçalho automaticamente.

In [0]:
# Lê o arquivo online e atribui os dados a variável df
path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data'
df = pd.read_csv(path)

Você pode utilizar o método **`dataframe.head(n)`** para visualizar os n primeiras linhas do _dataframe_ ou **`dataframe.tail(n)`** para as n últimos. Por padrão, o valor de n é 5.

In [0]:
############################################################################
# TODO: Mostre as três primeiras linhas usando o método df.head()          #
############################################################################
pass
############################################################################
#                             END OF YOUR CODE                             #
############################################################################

Observando o *dataframe*, é possível notar que as colunas representam uma categoria de dados, como por exemplo:
- a terceira coluna representa o modelo do carro 
- a quarta coluna representa o tipo de combustível 
- ... 
- a utlima coluna representa o preço do carro

Entretanto, também é possível perceber que os nomes das colunas também são dados ao invés de nomes/categorias. Para lidar com isso, devemos sinalizar que o cabeçalho é não existente quando o importamos. Para isso, utilize o argumento **header** do método **`pd.read_csv()`** discutido acima.

In [0]:
path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data'
df = pd.read_csv(path, header=None)
df.head(3)

Observando a nossa tabela, nota-se que o pandas automaticamente definiu o cabeçalho com inteiros a partir de 0.

Para melhor descrever nossos dados, iremos introduzir o cabeçalho utilizando as informações em: https://archive.ics.uci.edu/ml/datasets/Automobile.

Para isso, iremos incluir manualmente o cabeçalho. Começando por criar uma lista$^{[1]}$ que inclui todos os nomes das colunas em ordem. Então utilizaremos o comando **dataframe.columns = headers** para repor o cabeçalho por aquele que criamos.

---
$^{[1]}$ Utilize a lista abaixo:

```python
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
```
---

In [0]:
############################################################################
# TODO: Adicione o cabeçalho acima ao DataFrame                            #
############################################################################
pass
####################################################
#                             END OF YOUR CODE                             #
############################################################################

df.head(3)

### Salvando arquivos:

De forma correspondente, o Pandas nos permite salvar o conjunto de dados em csv usando o método **`dataframe.to_csv()`**.

Por exemplo, se você salvasse o dataframe "df" como "automobile.csv" em sua máquina local, você pode usar a sintaxe abaixo:

```python
df.to_csv ("automobile.csv")```

Também podemos ler e salvar outros formatos de arquivo, podemos usar funções semelhantes a **`pd.read_csv()`** e **`df.to_csv()`** para outros formatos de dados, as funções são listadas na seguinte tabela:

| Data Formate | Read           | Save          |
|:------------:|:--------------:|:-------------:|
| csv          | pd.read_csv()  | df.to_csv()   |
| json         | pd.read_json() | df.to_json()  |
| excel        | pd.read_excel()| df.to_excel() |
| hdf          | pd.read_hdf()  | df.to_hdf()   |
| sql          | pd.read_sql()  | df.to_sql()   |
| ...          | ...            | ...           |

### Comandos básicos:

Agora que conseguimos ler os dados em *Pandas dataframe*, vamos explorar algumas funcionalidades que irão nos ajudar a entender os nossos dados.

#### Selecionando colunas:

Para selecionar uma coluna específica do *dataframe*, utilize o seguinte comando: **`dataframe['nome_da_coluna']`**. Por exemplo: 

```python 
df['price'].head()```
  
Para selecionar mais de uma coluna do *dataframe*, utilize o seguinte comando: **`dataframe[['nome_da_coluna_1, nome_da_coluna_2']]`**. Por exemplo:  

```python 
df[['make','price']].head()```

#### Tipos de dados:

O *dataframe* pode possuir uma variedade de dados de diferentes tipos. Os tipos principais em *Pandas Dataframe* são: `object, float, int, bool e datetime64`. O comando **dataframe.dtypes** retorna uma Série com os tipos de dados de cada coluna.

#### Descrição:

1. **`dataframe.describe()`**$^{[1,2]}$ é um método que gera um resumo estatístico de cada coluna. Entre as informações fornecidas, estão a média, mínimo, máximo, desvio padrão, etc.

2. Outro método para checar as informações da sua base de dados é **`dataframe.info`**

---
$^{[1]}$ Esse método fornecerá várias estatísticas de resumo, excluindo os valores NaN (não um número).

$^{[2]}$ No entanto, se desejarmos verificar os dados de todas as colunas, incluindo aquelas que são do tipo objeto (ou seja, não numero), devemos adicionar o argumento **`include="all"`** dentro do método.

---

Agora, faça as seguintes atividades:

1. Teste os comandos acima descritos acima.
2. Utilize o médodo **`dataframe.describe()`** somenta para a coluna de preços.

In [0]:
############################################################################
# TODO: Cheque os tipos de dados do dataframe                              #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
############################################################################
# TODO: Obtenha as informacoes do dataframe com info()                     #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
############################################################################
# TODO: Obtenha os dados estatísticos de dataframe                         #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
############################################################################
# TODO: Obtenha os dados estatísticos da coluna de preços do dataframe     #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

Como você pode notar, a descrição estatística dos preços não apresentou os dados esperados. Isso acontece porque a coluna de preços foi interpretada como tipo objeto ao invés de float, conforme exibido pelo comando **`df.dtypes`**

## Correção dos dados<a name="correcao-dos-dados"></a>

O banco de dados atual ainda possui alguns problemas tais como dados perdidos (representados por **'?'**) ou possuem o formato dos dados errados, como é o caso da coluna de preços que tem seus dados como tipo `object` ao invés de `int`*$^{[1]}$.

---
$^{[1]}$ O que fez com que `df[['price']].describe()` não apresentasse os valores estatísticos esperados.

### Lidando com dados perdidos ('?'):<a name="valores-nan"></a>

No bando de dados, a ausência de alguns dados é representado por pontos de interrogações ('?'). 

Para lidar com esses elementos, iremos transformar '?' para NaN (*Not a Number*) que é o marcador padrão em Python para valores perdidos. Para isso, utilize o comando abaixo substituir A por B:

```python
df.replace(A, B, inplace=True)
```


In [0]:
from numpy import nan

############################################################################
# TODO: Substitua os elementos "?" por NaN no DataFrame                    #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

df.head(3)

Há dois métodos para identificar os dados perdidos, ou seja, encontrar os valores NaN no banco de dados.
1. **isnull()**
1. **notnull()**

In [0]:
missing_data = df.isnull()
missing_data.head(3)

É possível quantos valores perdidos cada coluna possui conforme o código abaixo:

In [0]:
for column in missing_data.columns.values.tolist():
  print(column)
  print (missing_data[column].value_counts())
  print("")    

Com base no resumo acima, cada coluna possui 205 linhas de dados, sete colunas contendo dados ausentes:

1.     "normalized-losses": 41 dados perdidos
1.     "num-of-doors": 2 dados perdidos
1.     "bore": 4 dados perdidos
1.    "stroke": 4 dados perdidos
1.     "horsepower": 2 dados faltantes
1.     "peak-rpm": 2 dados perdidos
1.     "price": 4 dados faltantes

Agora que substituímos todos os valores ausentes para np.nan, podemos decidir o que fazer com esses dados. Segue abaixo algumas opções:
    
    1. Descartar dados 
        a. Descartar a linha inteira 
        b. Descartar a coluna inteira
    2. Substituir dados
        a. substituir pela média
        b. substituir pela frequência
        c. substituir baseando-se em outras funções

Colunas inteiras devem ser descartadas apenas se a maioria das entradas na coluna estiver vazia. Em nosso conjunto de dados, nenhuma das colunas está vazia o suficiente para ser descartada completamente.
Temos alguma liberdade na escolha de qual método substituir os dados; no entanto, alguns métodos podem parecer mais razoáveis  do que outros. 

Vamos aplicar os seguintes métodos.

**1. Substituir pela média:**

    "normalized-losses": 41 dados perdidos
    "stroke": 4 dados perdidos
    "bore": 4 dados perdidos
    "horsepower": 2 dados perdidos
    "peak-rpm": 2 dados perdidos

**2. Substituir por frequência:**

    "num-of-doors": 2 dados perdidos, substitua-os por "quatro".
 *Razão: 84% dos sedans são quatro portas. Como quatro portas são mais frequentes, é mais provável*
    
\\
**3. Solte a linha inteira:**

    "price": 4 dados faltantes, simplesmente exclua a linha inteira
*Razão: preço é o que queremos prever. Qualquer entrada de dados sem dados de preço não pode ser usada para previsão; portanto, eles não são úteis para nós*

#### Substituindo pelo valor médio:

In [0]:
############################################################################
# TODO: Calcule o valor medio da coluna: "normalized-losses"               #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
print("Antes de substituir:")
print(df["normalized-losses"].head())
print("\n######################################")

############################################################################
# TODO: Substitua "NaN" pelo valor médio na coluna: "normalized-losses"    #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

print("\nDepois de substituir:")
print(df["normalized-losses"].head())

In [0]:
print("Antes de substituir:")
print(df.iloc[[55,56,57,58,130,131],[18,19,21,22]])
print("\n######################################")

############################################################################
# TODO: Repita o processo acima para as colunas: "stroke", "bore",         #
# "horsepower", "peak-rpm"                                                 #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

print("\nDepois de substituir:")
print(df.iloc[[55,56,57,58,130,131],[18,19,21,22]])

#### Substituindo pela frequência:

In [0]:
############################################################################
# TODO: Calcule a frequência de cada elemento da coluna: "num-of-doors".   #
#                                                                          #
# DICA: O metodo df.value_counts() pode ser util.                          #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
print("Antes de substituir:")
print(df.loc[[27,63], "num-of-doors"])
print("\n######################################")

############################################################################
# TODO: Substitua "NaN" pelo valor médio na coluna: "normalized-losses"    #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

print("\nDepois de substituir:")
print(df.loc[[27,63], "num-of-doors"])

#### Removendo as linhas:

In [0]:
############################################################################
# TODO: Remova as linhas que contem NaN na coluna "prices"                 #
#                                                                          #
# DICA: O metodo df.dropna() pode ser util.                                #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

In [0]:
# Reseta o indice, pois descartamos duas linhas
df.reset_index(drop = True, inplace = True)

### Corrigindo formato de dados: <a name="astype"></a>

O último passo da correção de dados é checar se todos os dados estão no formato correto (`int, float, text ou outro`).

Em Pandas, nós usamos:
> **.dtype()** para verificar o tipo do dado \
> **.astype()** para modificar o tipo do dado

In [0]:
df.dtypes

Os tipos de cada coluna dependem de suas variáveis. O formato correto deveria seguir a seguinte ideia:
> Variáveis numéricas devem ser do tipo `int` ou `float` \
> Variáveis com `strings` devem ser do tipo `object`

Sabendo disso, é possível observar que algumas colunas possuem o tipo de dado errado, como é o caso `'bore'` e `'price'` que deveriam ser variáveis numéricas.


```
>> df['price'].head()
    0    13495
    1    16500
    2    16500
    3    13950
    4    17450
    Name: price, dtype: object

```

Agora utilize o método **.astype()** para acertar todas as colunas* que estejam com os tipos errados!

---



>'bore', 'stroke', 'price', 'peak-rpm' **$\to$ float** \
>'normalized-losses', 'horsepower' **$\to$ int**




In [0]:
############################################################################
# TODO: Faca as correcoes sugeridas acima                                  #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

df.dtypes


## Padronização dos dados<a name="padronizacao"></a>

Os dados geralmente são coletados de diferentes agências com diferentes formatos. (Padronização de dados também é um termo para um tipo particular de normalização de dados, onde subtraímos a média e dividimos pelo desvio padrão)

**O que é padronização?**

Padronização é o processo de transformar dados em um formato comum que permite ao pesquisador fazer uma comparação significativa.

**Exemplo:**

-> Transforme o mpg em L / 100km:

> Em nosso conjunto de dados, as colunas de consumo de combustível "city-mpg" e "highway-mpg" são representadas por unidades de mpg (milhas por galão). Suponha que estamos desenvolvendo uma aplicação em um país que aceita o consumo de combustível com o padrão L / 100km.

**Questão:**  Converta os dados das colunas "city-mpg" e "highway-mpg" de mpg para L/100km $^{[1]}$

---
$^{[1]}$ A fórmula para conversão de unidade é L/100km = 235/mpg

In [0]:
############################################################################
# TODO: Converta as unidades das colunas "city-mpg" e "highway-mpg" de mpg #
# para L/100km. Para isso, crie as colunas "city-L/100km" e "highway-mpg". #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

df[["city-mpg", "highway-mpg", "city-L/100km", "highway-L/100km"]].head(3)

## Normalização dos dados<a name="normalizacao"></a>

**Por que normalização?**

Normalização é o processo de transformar valores de diversas variáveis em um intervalo similar. Normalizações típicas incluem escalonar a variável de modo que :
 - a média da variável seja 0;
 - a variância da variável seja 1;
 - os valores da variável variem de 0 a 1

**Exemplo:**

Para demonstrar a normalização, digamos que queremos escalar as colunas "length", "width" e "height"

> **Objetivo:** Gostaríamos de normalizar essas variáveis para que seu valor varie de 0 a 1.

> **Abordagem:** substituir o valor original por $z_i= \frac{x_i−min(x)}{max(x)−min(x)}$

In [0]:
############################################################################
# TODO: Normalize os dados das colunas "length", "width" e "height" entre  #
# 0 e 1.                                                                   #
############################################################################
pass
############################################################################
#               END OF YOUR CODE                                           #
############################################################################

print(df[["length", "width", "height"]].head(3))
df[["length", "width", "height"]].describe()

## _Binning_<a name="binning"></a>

**O que é _Binning_?**

_Binning_ é um processo de transformação de variáveis numéricas contínuas em classes discretos e categóricas, para análises agrupadas.

**Exemplo:**

Em nosso conjunto de dados, "horsepower" é uma variável de valor real variando de 48 a 288, possui 57 valores únicos. E se apenas nos importarmos com a diferença de preço entre carros com alta potência, média potência e baixa potência (3 tipos)? Podemos rearranjá-los em três classes para simplificar a análise?

Vamos usar o método Pandas **`.cut`** para segmentar a coluna "horsepower" em 3 grupos.


In [0]:
from numpy import arange

# Calcular a "largura" das classes
bin_width = (max(df["horsepower"])-min(df["horsepower"]))/4
print(bin_width)

# Encontrar as faixas de valores de cada classe
bins = arange(min(df["horsepower"]), max(df["horsepower"]), bin_width)
print(bins)

# Define as classes
group_names = ['Low', 'Medium', 'High']

# Agrupamos a coluna "horsepower" de acordo com as classes criadas
df["horsepower-binned"] = pd.cut(df["horsepower"], bins, labels=group_names, 
                                 include_lowest=True)

df[["horsepower","horsepower-binned"]].head(20)

## Correlação<a name="correlacao"></a>

A primeira coisa que faremos agora é verificar a correlação$^{[1]}$ entre as variáveis (colunas) do DataFrame. Para isso utilizaremos o método **`df.corr()`**

---
> $^{[1]}$ Na estatística o coeficiente de correlação de Pearson (r), que também é chamado de coeficiente de correlação produto-momento, mede a relação que existe entre duas variáveis dentro de uma mesma escala métrica.

> A função do coeficiente de correlação é determinar qual é a intensidade da relação que existe entre conjuntos de dados ou informações conhecidas.

> O valor do coeficiente de correlação pode variar entre -1 e 1 e o resultado obtido define se a correlação é negativa ou positiva.

> Para interpretar o coeficiente é preciso saber que 1 significa que a correlação entre as variáveis é perfeita positiva e -1 significa que é perfeita negativa. Se o coeficiente for igual a 0 significa que as variáveis não dependem uma da outra.

![corr](https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/800px-Correlation_examples2.svg.png)

In [0]:
df.corr()

A partir de agora, veremos alguns métodos para visualizar a relação entre esses dados. Em particular, veremos a relação entre o preço e as demais variáveis.

In [0]:
# df[["engine-size", "highway-mpg", "compression-ratio", "price"]].corr()
df.corr()["price"]

### Gráfico de dispersão + Regressão Linear

In [0]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#### Correlação positiva:

In [0]:
sns.regplot(x="engine-size", y="price", data=df)
plt.ylim(0,)

#### Correlação negativa:

In [0]:
sns.regplot(x="highway-mpg", y="price", data=df)

#### Correlação próxima de zero:

In [0]:
sns.regplot(x="compression-ratio", y="price", data=df)

### Diagrama de caixa

In [0]:
sns.boxplot(x="body-style", y="price", data=df)

---

Tem outra parte ainda?!
---

![a](https://media.giphy.com/media/PV7CZGyKghri0/giphy.gif)


---
## Dicas e observações:<a name="dicas"></a>

### Utilizando o Google  Colaboratory:

#### 1. Comandos no terminal:
Para utilizar qualquer comando no terminal, comece com um **`!`**. Por exemplo, para mostrar os arquivos do diretório atual utilize

```sh
!ls
```

#### 2. Baixar biliotecas:
Em caso do módulo não estar instalado na máquina, utilize o comando 

```python
!pip install nome_do_modulo
```

#### 3. Importando arquivos:
Para importar arquivos da sua máquina para o Colaboratory, o comando abaixo pode ser útil
```pyhon
from google.colab import files
uploaded = files.upload()
```

Para importar de seu drive, o comando abaixo pode ser útil


```python
!apt-get install -y -qq software-properties-common python-software-properties module-init-tools
!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null
!apt-get update -qq 2>&1 > /dev/null
!apt-get -y install -qq google-drive-ocamlfuse fuse
from google.colab import auth
auth.authenticate_user()
from oauth2client.client import GoogleCredentials
creds = GoogleCredentials.get_application_default()
import getpass
!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL
vcode = getpass.getpass()
!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}

!mkdir -p drive
!google-drive-ocamlfuse drive
```

## Referências: <a name="ref"></a>

### Livros:

- [Python for Data Analysis, 2nd Edition](http://shop.oreilly.com/product/0636920050896.do)

### Cursos onlines:
- [Cognitive Class (IBM): *Applied Data Science with Python*](https://cognitiveclass.ai/learn/data-science-with-python/)
