# Introdução a análise de dados com Pandas
## Pré processamento
Em alguns casos, teremos a necessidade de ajustar as informações contidas no dataframe em estudo. O pacote ```pandas``` dispões de diferentes funções para tratamento de dados. Utilizaremos o arquivo ```housing.csv``` para exemplificar a aplicação de algumas dessas funções.


In [1]:
import pandas as pd
import matplotlib.pyplot as plt

housing = pd.read_csv('housing.csv')
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11306 entries, 0 to 11305
Data columns (total 14 columns):
Bairro                    11304 non-null object
Endereco                  11304 non-null object
Quartos                   11304 non-null float64
Tipo                      11304 non-null object
Preco                     8827 non-null float64
Distancia do aeroporto    11304 non-null float64
CEP                       11304 non-null float64
Banheiro                  11015 non-null float64
Vagas                     11055 non-null float64
Area terreno              9031 non-null float64
Area construida           6104 non-null float64
Ano da construcao         7016 non-null float64
Latitude                  11306 non-null object
Longitude                 11092 non-null object
dtypes: float64(9), object(5)
memory usage: 1.2+ MB


Através do comando ```DataFrame.info()```, observamos alguns problemas existentes no dataframe.

1. Quase todas as colunas possuem dados em branco;
2. Os nomes das colunas possuem espaços e letras maiúsculas (não é uma boa prática);
3. As colunas Latitude e Longitude foram interpretadas como tipo ```object```;
4. Todas as colunas numericas são do tipo ```float64```.

Trataremos primeiro os dados em branco.
Podemos (basicamente) lidar com dados em brancos de duas formas:
* Eliminar linhas ou colunas que contanham um ou mais dados em branco
* Substituir os dados em branco por valores específicos

Para eliminar todas as linhas contendo pelo menos um valor em branco o utilizamos o comando ```DataFrame.dropnan()```. Como parâmetro, passamos ```axis=0```, indicando que as linhas contendo valores em branco serão eliminadas (caso o valor do parâmetro fosse alterado para 1, todas as colunas contendo pelo menos um valor em branco seriam eliminadas). Para que a alteração seja executada, o parâmetro ```inplace=True``` precisa ser adicionado.

In [2]:
housing.dropna(axis=0, inplace=True)
housing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3627 entries, 1 to 7015
Data columns (total 14 columns):
Bairro                    3627 non-null object
Endereco                  3627 non-null object
Quartos                   3627 non-null float64
Tipo                      3627 non-null object
Preco                     3627 non-null float64
Distancia do aeroporto    3627 non-null float64
CEP                       3627 non-null float64
Banheiro                  3627 non-null float64
Vagas                     3627 non-null float64
Area terreno              3627 non-null float64
Area construida           3627 non-null float64
Ano da construcao         3627 non-null float64
Latitude                  3627 non-null object
Longitude                 3627 non-null object
dtypes: float64(9), object(5)
memory usage: 425.0+ KB


Passamos de 11306 linhas para 3627. Redução de quase 70% da base.

Faremos agora a mudança dos nomes das colunas. Uma boa prática no uso de dataframes está associado ao formato utilizando para a nomeção das colunas. Devemos evitar o uso de 
* caracteres especiais (acentuações e símbolos);
* letras maiúsculas;
* espaços entre palavras

Para renomear colunas em um dataframe, utilizamos o comando ```DataFrame.remane()```. O comando recebe o parâmetro ```columns``` que deve ser definido como um dicionário, onde a chave definine o nome a ser modificada e o valor define o novo nome. Para efetivar a modificação, acrescentamos o parâmetro ```inplace=True```. Utilizando o comando ```DataFrame.columns```, conseguimos verificar se a alteração foi bem sucedida.

In [3]:
housing.rename(columns={'Bairro': 'bairro', 'Endereco': 'endereco', 'Quartos': 'quartos', 
                        'Tipo': 'tipo', 'Preco': 'preco', 'Distancia do aeroporto': 'distancia_aeroporto',
                        'CEP': 'cep', 'Banheiro': 'banheiros', 'Vagas': 'vagas', 
                        'Area terreno': 'area_terreno', 'Area construida': 'area_construida', 
                        'Ano da construcao': 'ano_construcao', 
                        'Latitude': 'latitude', 'Longitude': 'longitude'}, inplace=True)
housing.columns

Index(['bairro', 'endereco', 'quartos', 'tipo', 'preco', 'distancia_aeroporto',
       'cep', 'banheiros', 'vagas', 'area_terreno', 'area_construida',
       'ano_construcao', 'latitude', 'longitude'],
      dtype='object')

Agora faremos a transformação das colunas ```latitude``` e ```longitude``` de ```object``` (texto) para ```float64```, utilizando o comando ```pd.to_numeric()```.

In [4]:
housing.longitude = pd.to_numeric(housing.longitude, errors='coerce')
housing.latitude = pd.to_numeric(housing.latitude, errors='coerce')

O comando ```pd.to_numeric()``` recebe dois parâmetros: 
* coluna: nesse caso a latitude e longitude
* forma de lidar com erros: configurando o parâmetro ```errors```

O parâmetro ```erros='coerce'``` significa que o conversor irá forçar a conversão. Para o parâmetro, temos três opções:
* _raise_: valores inválidos retornarão erro
* _coerce_: valores inválidos serão transformados em ```NaN```
* _ignore_: valores inválidos irão retornar o _input_
Observando as informações da tabela, é possível observar que a conversão foi feita com sucesso.

In [5]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3627 entries, 1 to 7015
Data columns (total 14 columns):
bairro                 3627 non-null object
endereco               3627 non-null object
quartos                3627 non-null float64
tipo                   3627 non-null object
preco                  3627 non-null float64
distancia_aeroporto    3627 non-null float64
cep                    3627 non-null float64
banheiros              3627 non-null float64
vagas                  3627 non-null float64
area_terreno           3627 non-null float64
area_construida        3627 non-null float64
ano_construcao         3627 non-null float64
latitude               3627 non-null float64
longitude              3626 non-null float64
dtypes: float64(11), object(3)
memory usage: 425.0+ KB


Para investigar possíveis anomalias nos valores das colunas ```latitude``` e ```longitude``` utilizando o comando ```DataFrame.describe()```. Para exibir somente as duas colunas, utilizamos a notação ```DataFrame[['nome_da coluna_1', 'nome_da_coluna_2']]```.

In [6]:
housing[['latitude', 'longitude']].describe()

Unnamed: 0,latitude,longitude
count,3627.0,3626.0
mean,-3254.972992,13407.429455
std,10543.701635,41780.754937
min,-37946.0,144.7918
25%,-37.867,144.9317
50%,-37.8055,145.0022
75%,-37.7627,145.0688
max,-37.6862,145138.0


Observa-se uma divergência nos valores da Latitude e Longitude.
No valor mínimo da Latitude aparece um valor muito menor do que a média, indicando erro de cadastro. O mesmo acontece com o valor máximo da Longitude.

O erro de cadastro, claramente, envolveu a ausência do divisor decimal. Para corrigir, faremos a divisão dos valores da latitude e longitude que estão com esse problema por 1000. Para aplicar a modificação somente nos valores de interesse, utilizamos o comando ```DataFrame.loc[]```. O comando ```loc[]``` recebe dois parâmetros. O primeiro defini a regra de seleção das linhas e o segundo defini a selação de uma ou mais colunas.

In [7]:
housing.loc[housing.latitude < -1000, 'latitude'] = housing.latitude / 1000
housing.loc[housing.longitude > 1000, 'longitude'] = housing.longitude / 1000
housing[['latitude', 'longitude']].describe()

Unnamed: 0,latitude,longitude
count,3627.0,3626.0
mean,-37.805456,144.986199
std,0.062661,0.078533
min,-37.946,144.7918
25%,-37.84905,144.925125
50%,-37.7966,144.9953
75%,-37.758635,145.0503
max,-37.6862,145.1436


Pronto! As coordenadas geográficas estão devidamente corrigidas. 

Faremos agora a modificação do tipo de algumas colunas do dataframe. Sabemos que as colunas ```Quartos```, ```Banheiro```, ```Vagas``` e ```Ano da construcao``` são do tipo inteiro. Apesar disso, na criação do dataframe, essas colunas foram definidas como do tipo ```float64``` (formato utilizado para guardar valores numéricos fracionados). Faremos a transformação dessas colunas para o formato inteiro. 

Temos três opções:
* ```int8```: valores de -128 até 127
* ```int16```: valores de –32,768 até 32,767
* ```int32```: valores de –2,147,483,648 até 2,147,483,647
* ```int64```: valores de −9,223,372,036,854,775,808 até +9,223,372,036,854,775,807

In [8]:
housing[['quartos', 'banheiros', 'vagas', 'ano_construcao']].describe()

Unnamed: 0,quartos,banheiros,vagas,ano_construcao
count,3627.0,3627.0,3627.0,3627.0
mean,3.092914,1.6311,1.609319,1956.990074
std,0.901321,0.743868,0.955635,38.744626
min,1.0,1.0,0.0,1830.0
25%,3.0,1.0,1.0,1925.0
50%,3.0,2.0,2.0,1960.0
75%,4.0,2.0,2.0,1995.0
max,8.0,8.0,8.0,2018.0


Observando os limites dos valores das colunas em questão, podemos transformar as colunas ```Quartos```, ```Banheiro``` e ```Vagas``` para o formato ```int8``` e a coluna ```Ano da construcao``` para o formato ```int16```.

Esse tipo de tratamento reduz o tamanho (em termos de memória) do ```DataFrame```, aumentando sua eficiência computacional. Podemos verificar a memória utilizada para guardar as inforamções de cada coluna utilizando o comando ```DataFrame.memory_usage()```.

In [9]:
housing[['quartos', 'banheiros', 'vagas', 'ano_construcao']].memory_usage(index=False)

quartos           29016
banheiros         29016
vagas             29016
ano_construcao    29016
dtype: int64

Para fazer a transformação, utilizando o comando ```DataFrame.nome_da_coluna.astype()```. Para verificar se as mudanças foram bem sucedidas, utilizamos o comando ```DataFrame.stypes```.

In [18]:
housing.quartos = housing.quartos.astype('int8')
housing.banheiros = housing.banheiros.astype('int8')
housing.vagas = housing.vagas.astype('int8')
housing.ano_construcao = housing.ano_construcao.astype('int16')
housing[['quartos', 'banheiros', 'vagas', 'ano_construcao']].dtypes

quartos            int8
banheiros          int8
vagas              int8
ano_construcao    int16
dtype: object

Verificaremos a redução do uso de memória após a transformação.

In [11]:
housing[['quartos', 'banheiros', 'vagas', 'ano_construcao']].memory_usage(index=False)

quartos           3627
banheiros         3627
vagas             3627
ano_construcao    7254
dtype: int64