<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2s2024/An%C3%A1lise%20de%20Dados/Aula_10_Pandas_Limpeza_preparacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Limpeza e preparação de dados.**

Nesta aula, vamos aprender como limpar e preparar dados para sua posterior análise. Veremos, então, como tratar valores ausentes, remover duplicatas, alterar a formatação de dados e transformar variáveis. Vale ressaltar que essa etapa é essencial na análise exploratória de dados e, principalmente, na criação de modelos de aprendizado de máquina (disciplina que terão no próximo semestre).

Para abordar os conceitos e códigos dessa aula, vamos utilizar a base de dados Titanic, disponível no link: https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_titanic_train.csv

Nessa base de dados, cada linha representa uma pessoa que estava no Titanic. Para cada pessoa, tem-se as seguintes informações (nas colunas):

- **PassengerID**: Idendificação do passageiro.

- **Survived**: Indica se a pessoa sobreviveu (1) ou não (0).

- **Pclass**: Tipo de bilhete, sendo 1 = primeira classe, 2 = segunda classe e 3 = terceira classe

- **Name**: Nome do passageiro.

- **Sex**: Sexo.

- **Age**: Idade.

- **SibSp**: 	Número de irmãos/cônjuges a bordo do Titanic

- **Parch**: Número de pais/filhos a bordo do Titanic.

- **Ticket**: Número do bilhete.

- **Fare**: Tarifa do passageiro.

- **Cabin**: Número da cabine.

- **Embarked**: Porto de embarcação, sendo C = Cherbourg, Q = Queenstown e S = Southampton.

Note que o atributo **Pclass** serve como uma *proxy* para o status socio-econômico do indivíduo.

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

dados = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_titanic_train.csv")
dados.head()

## Limpeza de dados

Uma das primeiras etapas quando vamos "limpar os dados" é lidar com valores ausentes. Em resumo, valores ausentes são células no nosso DataFrame que não contém informação (ou seja, células vazias). Essa falta de informação pode resultar em interpretações erradas acerca dos dados ou até mesmo erro nas funções em Python.

Há várias formas de lidar com esse inconveniente. Mas primeiro, vamos verificar a presença (se é que há) de valores ausentes e em quais colunas estão.

In [None]:
dados.info()

Pela função `.info()` já podemos perceber que algumas colunas (*Age*, *Cabin* e *Embarked*) possuem valores nulos, uma vez que o número de não nulos é menor que o número de linhas. Uma outra forma de contar tais valores é usando a função `isnull()`. Essa função aponda como verdadeiro na célula onde há uma ausência de informação. Portanto, ao somar os valores verdadeiros dessa coluna, encontramos o número de células vazias.

In [None]:
missing_data = dados.isnull().sum()
print(missing_data)

Há algumas formas de lidar com valores ausentes. Na disciplina, já vimos o uso do `dropna()`. Essa função retira todas as linhas que contém pelo menos uma célula ausente. No entanto, em situações onde temos poucos dados, por exemplo, excluir linhas pode prejudicar a análise de ponto de vista estatístico, pois teremos um número menor de amostras. Então, podemos utilizar outras técnicas, como as seguintes:

- Para informações numéricas, podemos preencher as células vazias com o valor médio (ou mediana) do conjunto de dados.

- Para informações categóricas, podemos preencher as células vazias com a categorias que mais aparece (a moda) no conjunto de dados.

- Se uma coluna apresenta muitos valores ausentes, às vezes é interessante simplesmente retirar essa informação da base de dados.

In [None]:
# Preenche com a média os valores ausentes na coluna 'Age'
dados['Age'].fillna(dados['Age'].mean(), inplace=True)

# Preenche com o valor mais frequente (por isso o [0] no código) os valores ausentes na coluna 'Embarked'
dados['Embarked'].fillna(dados['Embarked'].mode()[0], inplace=True)

# Remove a coluna 'Cabin' devido à alta proporção de valores ausentes
dados.drop(columns='Cabin', inplace=True)

Reparem no uso do `inplace=True` nos códigos acima. Ao colocar esse parâmetro, informamos para o Python realizar a operação e sobrescrever o DataFrame. Ou seja, o DataFrame será atualizado após a limpeza dos dados.

Confira, agora, se há células vazias:

In [None]:
print(dados.isnull().sum())

Outro aspecto para considerar, dependendo da análise a ser realizada, é a remoção de linhas duplicadas. Se, por algum motivo, é indesejável ter linhas repetidas na base de dados, podemos removê-las da seguinte forma:

In [None]:
dados.drop_duplicates(inplace=True)

## Formatando dados

Lembre-se que conjuntos de dados podem conter informações numéricas e/ou categóricas. No entanto, é comum encontrar bases de dados com informações categóricas representadas por números. Nos dados do Titanic, por exemplo, a coluna *Survived* é categórica, por natureza, mas está representada na forma numérica. Para alterar esse tipo de informação (`.dtype` informa o tipo da variável), podemos informar para o Python que a informação contida nessa coluna é categórica, a partir do código abaixo:

In [None]:
# Veja o tipo do atributo
dados['Survived'].dtype

In [None]:
dados['Survived'] = dados['Survived'].astype('category')

# Veja o novo tipo do atributo
dados['Survived'].dtype

Como muitas bases de dados que utilizados são extraídas da internet, é comum que elas venham de outros países e, portanto, com colunas em outro idioma. Para formatar tais nomes e passar, por exemplo, para o português, podemos utilizar os códigos abaixo:

In [None]:
dados.rename(columns={
    'Pclass': 'Tipo do bilhete',
    'Sex': 'Sexo',
    'SibSp': '# Irmãos/Cônjuges',
    'Parch': '# Pais/Filhos',
    'Fare': 'Tarifa'}, inplace=True)
dados.head()

## Transformando dados



Na seção anterior vimos como alterar a formação do dado (de numérico para categórico). Uma outra forma seria transformar cada valor numério pelo nome da categoria que ele representa. Veja como fica essa alteração para a coluna que indica o tipo de bilhete.

In [None]:
dados['Tipo do bilhete'].replace({1: '1st', 2: '2nd', 3: '3rd'}, inplace=True)
dados.head()

Outra transformação de numérico para categórico pode ser feita considerando intervalos de valores. Por exemplo, se ao invés de trabalhar com as idades reais dos indivíduos é mais interessante considerar faixas etárias, podemos realizar tal transformação. Veja como fica a seguir:

In [None]:
dados['Age'] = pd.cut(dados['Age'], bins=[0, 12, 20, 40, 60, 80], labels=['Criança', 'Jovem', 'Adulto', 'Meia-idade', 'Idoso'])
dados.Age.value_counts()

Note que a função `.cut()` aloca os dados nos intervalos definidos pelos `bins`. No exemplo acima, temos 69 pessoas entre 0 e 12 anos (inclusive), 110 entre 12 e 20 anos (inclusive), etc...

Também pode acontecer de ser necessário transformar dados que são categóricos para representação numérica. Por exemplo, considerar que homens seriam representados pelo valor 1 e mulheres pelo valor 0. Uma das formas para fazer essa transformação é a seguinte:

In [None]:
dados['Sexo'] = dados['Sexo'].apply(lambda x: 1 if x == 'male' else 0)
dados.head()

Uma outra forma de transformar dados categóricos em numéricos consiste em "binarizar" as categorias, de maneira a criar novas colunas de dados que contenha 1 quando a categoria está presente na amostra e 0 quando não está. Nesse caso, um atributo categórico, com $m$ categorias, é substituído por $m$ novas colunas.

Essa manipulação é particularmente útil quando criamos modelos de aprendizado de máquina (disciplina do próximo semestre). Isso porque os métodos geralmente usam apenas variáveis numéricas e, portanto, precisamos transformá-las de maneira a não criar viéses para uma ou outra categoria. Ou seja, não podemos apenas dar números em certas situações, visto que isto implicaria em uma relação ordinal (e com diferença de escala) entre categorias. Isso, em muitos casos, não faz sentido. Então, precisamos representar as categorias de forma não-ordinal.

Veja o exemplo a seguir.

In [None]:
# Criação de variáveis dummies

dados = pd.get_dummies(dados, columns = ['Age'])
dados.head()

Reparem que há a inclusão das novas colunas e a antiga (*Age*) já foi removida dos dados.

## Normalização de dados

Quando a análise estatística e/ou a criação de um modelo de aprendizado de máquina requer que as variáveis estejam na mesma escala, é necessária uma etapa de normalização dos dados. Embora o termo 'normalização' seja usado para indicar uma transformação de dados em uma escala específica, há diversos tipos de normalização. As principais são:

- **Normalização 0-1**: Consiste em alterar a coluna de dados para que os mesmos sejam representados entre 0 e 1.

- **Padronização**: Consiste em transformar os dados assumindo uma distribuição normal padrão. Como resultado, a coluna terá média igual a 0 e desvio padrão igual a 1.

- **Normalização pelo máximo**: Consiste em dividir todos os elementos da coluna pelo máximo entre eles. Assim, garantimos que os dados fiquem entre 0 e 1 (assumindo que todos são positivos).

Vejam os exemplos na sequência. Para cada normalização dos dados da *Tarifa*, criamos uma nova coluna no DataFrame.

In [None]:
# Normalização 0-1
dados['Tarifa Norm 0-1'] = (dados.Tarifa - dados.Tarifa.min()) / (dados.Tarifa.max() - dados.Tarifa.min())

# Padronização
dados['Tarifa Norm Padr'] = (dados.Tarifa - dados.Tarifa.mean()) / dados.Tarifa.std()

# Normalização pelo máximo
dados['Tarifa Norm Max'] = dados.Tarifa/ dados.Tarifa.max()

dados.head()