## Aula 6 - Limpeza e Transformação de Dados com Pandas

**Documentação:** https://pandas.pydata.org/docs/index.html

**Conteúdo da aula:**

- Análise geral de uma tabela pandas
    - info
    - describe
    - dtypes
    - duplicates
    - NA (notna, isna)
- Excluindo e substituindo dados
    - Drop
    - Fill
    - replace
    - np.where
    - map
    - apply


**Dataset de exemplo:** titanic (https://github.com/pandas-dev/pandas/blob/main/doc/data/titanic.csv)

- **PassengerId:** Identificação de cada passageiro.
- **Survived:** Recebe 0 se o passageiro não sobreviveu; 1 caso tenha sobrevivido.
- **Pclass:** Classe do passageiro (1 = 1ª classe, 2 = 2ª classe, 3 = 3ª classe).
- **Name:** Nome do passageiro.
- **Sex:** Gênero do passageiro.
- **Age:** Idade do passageiro.
- **SibSp:** Número de irmãos/esposo(a) a bordo.
- **Parch:** Número de pais/filhos a bordo.
- **Ticket:** Número da passagem do passageiro.
- **Fare:** Valor da taxa do passageiro.
- **Cabin:** Número da cabine do passageiro.
- **Embarked:** Porto de embarcação do passageiro (C = Cherbourg, Q = Queenstown, S = Southampton).


In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('data/titanic.csv')

### Limpeza dos dados

O que seria limpar os dados? Quais seriam os benefícios?

A limpeza de um conjunto de dados é fundamental na análise e ciência de dados:
- Campos com valores faltantes podem ser um problema na hora de executar alguma função;
- Campos com valores atípicos podem causar erros de interpretação, gerando problemas nas tomadas de decisão;
- Podem haver colunas com tipos de dados diferentes do esperado, impedindo algumas funções de serem utilizadas. Exemplo: Coluna de idade como string -> Impede de calcular corretamente a idade média, máxima, mínima... 

A fim de mitigar esses problemas, podemos "limpar" os dados de diversas formas. Mas primeiro, temos que identificá-los!

**Funções usuais para analisar informações gerais de uma tabela:**
- 'dtypes' - exibe o tipo das variáveis
- 'describe' - descreve, por default, as colunas numéricas com estatísticas pontuais (contagem, média, desvio padrão, valor mínimo, quartis e valor máximo)
- 'info' - Retorna várias informações a respeito da tabela: número de linhas e colunas, tipo das colunas, quantidade de valores não nulos por coluna, resumo da quantidade de colunas por tipo de dados.
- 'isnull' ou 'isna' - verifica se tem valores nulos
- 'notnull' ou 'notna' - verifica se tem valores não nulos
- 'duplicated' - exibe dados duplicados em um conjunto de dados
- 'unique' - Mostra os valores únicos de uma serie (coluna)
- 'nunique' - devolve o número de valores únicos de uma série (coluna)
- 'value_counts' - devolve a contagem que cada valor da série (coluna) aparece


### Substituindo e eliminando valores valores

Após identificar valores que devam ser tratados, podemos usar muitas abordagens:
- Eliminar a informação (cortar a linha)
- Eliminar a coluna (Se uma variável tiver muitos valores estranhos/missings, podemos optar por não usá-la na análise - mas temos que ter CUIDADO, pois pode ser uma informação importante).
- Substituir valores por um valor fixo (0, média, etc)
- Substituir valores por condições (utilizando funções)

**Algumas funções para eliminar linhas e/ou colunas:**
- drop_duplicates
- dropna
- drop

**Algumas formas de substiuir valores:**
- De forma pontual
    - Seleção por posição (iloc; iat)
    - Seleção por label (loc; at)
- Função "fillna": Uma forma rápida de substituir valores nulos
- Por regras/funções mais complexas 
    - np.where
    - replace
    - map
    - apply
    - applymap

## Replace x np.where x map x apply x applymap

Utilizam dicionários e/ou funções para facilitar a transformação de dados a partir de regras.

![map_apply_applymap](images/map_apply_applymap.png)

**Map:** Utilizado quando queremos alterar os valores de uma Series

**Apply:** Utilizado tanto em dataframes como Series

**Applymap:** Utilizado apenas em dataframes, quando queremos alterar todos os valores (não importa a coluna)

### Variáveis Dummies

Chamamos de variáveis dummies as variáveis binárias (0 ou 1) criadas para representar categorias. 

**Exemplo:**
Uma variável 'Gênero Feminino' com valores binários (0 ou 1) indica se a observação é do gênero feminino (1) ou não (0). 

Função get_dummies: Converte variáveis categóricas em variáveis dummies