# MBA em Ciência de Dados
# Técnicas Avançadas de Captura e Tratamento de Dados

### <span style="color:darkred">Módulo II - Tratamento e limpeza de dados</span>


### <span style="color:darkred">Exercícios</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

#### <span style="color:red">Recomenda-se fortemente que os exercícios sejam feitos sem consultar as respostas antecipadamente.</span>

---

In [1]:
# carregando as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.svm import SVC
from sklearn.linear_model import Ridge
from sklearn import metrics

# carregando dados
data = pd.read_csv("./dados/houses_to_rent_mba4.csv")

A base de dados a ser utilizada durante todos os exercícios é `houses_to_rent_mba4.csv`.

As alterações feitas em um exercício devem ser mantidas para o próximo exercício, a não ser que expressamente indicado

---

### Exercício 1)

Inspecione o tipo dos atributos e seus valores, em particular, `city` e `country`. A seguir padronize valores dos atributos do tipo `object` que apareçam como distintos mas que deveriam ser os mesmos. Considere para a correção o valor mais frequente nesse atributo. Por exemplo: se tivermos escrito a seguinte sigla em 3 formas diferentes: `ICMC` (11 ocorrencias), `Icmc` (3 ocorrências), `I.C.M.C.` (2 ocorrências), todas devem ser convertidas para `ICMC`

Quantas linhas relativas a valores da coluna `city` e `country`, respectivamente estavam fora do padrão e foram corrigidas?

(a) 49 e 2<br>
(b) 48 e 4<br>
(c) 50 e 9<br>
(d) 48 e 54<br>


---

### Exercício 2)

Inspecione os valores dos atributos `floor` e `tax`, realizando a conversão dos mesmos para o tipo adequado. Para evitar gerar dados faltantes desnecessariamente, verifique primeiro o padrão dos dados errôneos e faltantes, e se possível preencha corretamente alguns desses valores (conforme feito em aula para o atributo `floor`).

OBS: uma forma de inspecionar valores de uma coluna do tipo `object` que podem ser convertidos para dígitos numéricos é executar `dataframe[atributo].astype(str).str.isnumeric()`

Após esse processo, quandos valores faltantes restaram em `floor` e `tax`, respectivamente?

(a) 13 e 6<br>
(b) 78 e 9<br>
(c) 5 e 6<br>
(d) 9 e 13<br>

---
### Exercício 3)

Vamos analisar possíveis atributos redundantes na base de dados. Inspecione as colunas imprimindo quantos valores únicos cada uma possui. Considerando o tamanho da base de dados e esses resultados, quais atributos são redundantes e podem ser removidos sem perda de informação?

(a) parking spaces, country<br>
(b) country, Unnamed:0<br>
(c) country<br>
(d) Unnamed:0<br>

---

### Exercício 4)

Vamos procurar por outliers na base de dados utilizando um método baseado na dispersão pelo *desvio padrão*. 

Codifique uma função em Python no formato abaixo, que receba por parâmetro um dataframe, uma lista de atributos/variáveis e um fator multiplicador `t` para o desvio padrão.
`def remove_outliers_std(df, attributes, t):`

Essa função deve retornar um dataframe sem os outliers segundo o método do desvio padrão, ou seja, removendo aqueles cujo valor esteja: abaixo da média menos `t` desvios padrões, ou acima da média mais `t` desvios padrões. Formalmente, são outliers valores $x$ tal que $x < \mu - t\sigma$ ou $x > \mu + t\sigma$. A funcao deve processar apenas variáveis numéricas e imprimir na tela a quantidade de outliers encontrados.

Utilize a funcao implementada para remover outliers. Antes faça uma cópia do dataframe, criando um dataframe `data_out` do qual serão removidos outliers dos seguintes atributos:
1. 'insurance' com $t=3.5$
2. considerando a base obtida no passo (1) anterior, para 'total' com $t=2$.
3. considerando a base obtida no passo (2) anterior, para 'rent' com $t=5$

Quantos outliers foram encontrados respectivamente para 'insurance', 'total' e  'rent', nessa ordem?

(a) 19, 6 e 0<br>
(b) 0, 6 e 2<br>
(c) 19, 6 e 2<br>
(d) 19, 0 e 6<br>

---

### Exercício 5)

Ainda analisando outliers, considerando a base de dados original (antes da remoção no exercício anterior)

Carregue o método $k$-Means utilizando: `from sklearn.cluster import KMeans`

1. Realize análise de agrupamento utilizando os atributos 'rent' e 'days available' e $k=100$ grupos. Utilize o parâmetro `random_state=0` ao criar o modelo
2. Identifique os grupos (clusters) que possuem 5 ou menos pontos
3. Considere todos os pontos pertencentes à esses grupos como candidatos a outliers
    
OBS: ver detalhes do KMeans em [https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html]

Quantos outliers foram encontrados?

(a) 1<br>
(b) 3<br>
(c) 7<br>
(d) 20<br>

---

### Exercício 6)

Considerando o preenchimento de dados faltantes, utilize a base de dados após remover outliers segundo indicado no Exercício 4 `data_out`

Codifique uma funcão que preencha valores faltantes de variáveis numéricas utilizando a média condicionada (ou agrupada) a uma outra variável categórica (não numérica)  C da base. Essa funcao deverá:
1. calcular a média da variável alvo A (a ser preenchida) relativa a cada valor distinto da variável categórica selecionada C, para linhas com valores existentes de A
2. atribuir a média calculada de forma agrupada a todas as linhas cuja variável alvo é faltante e que possua o valor da variável categórica correspondente
3. o valor atribuido deve seguir o mesmo tipo da variável alvo, ou seja, int, float, etc. Quando int, realize o arredondamento utlizando `np.round(,0)`, quando float64 utilize `np.round(,1)`

    Exemplo: podemos preencher a média do imposto (tax) condicionado ao tipo (type) calculando a média do imposto agrupado por cada valor de tipo ('house' e 'flat'), e depois atribuir essas médias aos valores faltantes condicionado ao tipo, ou seja, a média do imposto de todas linhas contendo 'house' é atribuída a todas as propriedades 'house' com 'tax' faltante
    Similarmente, uma propriedade que é do tipo 'flat' e que possui 'tax' faltante, recebe a média de 'tax' entre todas os imóveis marcados com 'flat' para os quais há valor de 'tax'.
    
Use sua funcao para preencher a 'area' condicionado a 'type'. Armazene esse preenchimento num dataframe novo, não afetando os anteriores. Após o preenchimento, qual é a nova média para todas as linhas do atributo 'area', e arredondando para duas casas decimais?

(a) 145.36<br>
(b) 125.45<br>
(d) 131.00<br>
(d) 145.29<br>

---

### Exercício 7)

Utilizando a base de dados **antes** da remoção de outliers, elimine todas as linhas duplicadas. Quantas linhas foram removidas?

(a) 0 <br>
(b) 1270<br>
(c) 2018<br>
(d) 1260<br>


---

### Exercício 8)

Utilizando a base de dados **após** da remoção de outliers (`data_out`), elimine todas as linhas duplicadas.

(a) 1272<br>
(b) 1<br>
(c) 0<br>
(d) 1262<br>

---

### Exercício 9)

Considere o atributo 'type' e analise a distribuicao dos seus valores.

Qual dos procedimentos abaixo é o mais adequado caso desejamos utilizar a variável "type" como variável alvo (de saída) para um modelo de aprendizado?

(a) não é possível utilizar essa variável como saída<br>
(b) considerar o uso de técnicas de subamostragem aleatória para 'house'<br>
(c) considerar o uso de técnicas de sobreamostragem para 'house'<br>
(d) considerar o uso de técnicas de sobreamostragem para 'flat' <br>

---

### Exercício 10)

Considere o atributo 'city' e a distribuicao dos seus valores, desconsiderando a cidade de São Paulo.
Calcule a porcentagem de exemplos da categoria com a *menor* quantidade de dados encontrada com relacao ao total.

Qual dos procedimentos abaixo é o mais adequado caso desejamos utilizar a variável "city" (desconsiderando São Paulo) como variável alvo (de saída) para um modelo de aprendizado?

(a) não considerar a cidade "Brotas" na análise, e rebalancear as demais com sobreamostragem<br>
(b) utilizar a base de dados original, sem tratamento, visto ser uma proporção possível considerando o tamanho das cidades<br>
(c) utilizar o método SMOTE para a classe minoritária apenas<br>
(d) utilizar técnicas de subamostragem para as categorias majoritárias<br>