# MBA em Ciência de Dados
# Técnicas Avançadas de Captura e Tratamento de Dados

### <span style="color:darkred">Módulo II - Tratamento de Dados</span>


### <span style="color:darkred">Exercícios</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

#### <span style="color:red">Recomenda-se fortemente que os exercícios sejam feitos sem consultar as respostas antecipadamente.</span>

---

In [335]:
# carregando as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.svm import SVC
from sklearn.linear_model import Ridge
from sklearn import metrics

# carregando dados
data_orig = pd.read_csv("./dados/houses_to_rent_mba4.csv")

**Antes de inciar**:

1. Remova todos as linhas duplicadas da base de dados
2. Inspecione o tipo dos atributos e seus valores, realize uma limpeza inicial considerando a:
    1. correção dos dados que forem possíveis inferir o valor verdadeiro, ajustando e padronizando-os 
    2. conversão dos atributos que deveriam ser numéricos para numérico - inspecione os valores para garantir que a conversão não vá gerar dados faltantes de forma desnecessária, substituindo por numeros os que forem possíveis como por exemplo o atributo "floor" como visto na aula em que substituímos dados por 0 
    
        *DICA 1: olhar com detalhe os atributos não numéricos*
        
        *DICA 2: para descobrir quais valores de uma coluna do tipo `object` que podem ser convertidos para dígitos numéricos você pode usar* `dataframe[atributo].astype(str).str.isnumeric()`

### Exercício 1)
 
Considerando a limpeza inicial realizada, responda as questões abaixo:
 
#### Exercício 1, questão I

Quantos linhas relativas a valores da coluna "city" estavam fora do padrão e foram corrigidos?

(a) 49<br>
(b) 48<br>
(c) 46<br>
(d) 50<br>

#### Exercício 1, questão II

Em quais dos atributos convertidos para numéricos foi possível substituir valores inválidos (strings e nulos/nans) por valores numéricos não nulos?

(a) floor e city<br>
(b) floor e tax<br>
(c) floor e page hits<br>
(d) tax e page hits<br>


---
### Exercício 2)

Vamos analisar possíveis atributos redundantes na base de dados.

1. Inspecione as colunas imprimindo quantos valores únicos cada uma possui.
2. Execute o seguinte comando `data.corr(method='pearson')` para obter a correlação de Pearson entre colunas numéricas, e visualize aquelas com correlacao acima de 0.75

DICA: você pode filtrar os resultados utilizando por exemplo `data.corr(method='pearson') >= 0.75`

OBS: mais informacoes sobre correlação em [https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson]

Depois, responda às questões abaixo.

#### Exercício 2, questão I

Há algum atributo irrelevante que é possível remover, apenas pela análise dos valors únicos?

(a) type<br>
(b) country<br>
(c) city<br>
(d) não é possível remover nenhum atributo segundo esse critério<br>


#### Exercício 2, questão II

Qual atributo possui a maior quantidade de valores únicos/distintos?

(a) total<br>
(b) area<br>
(c) hoa<br>
(d) rent<br>

#### Exercício 2, questão III

Variáveis com alta correlação indicam que uma variável é capaz de explicar a outra. Nesse caso, a não ser por uma análise mais fina dos dados individuais, para fins de uma análise global, as variáveis com correlação próxima a 1 poderiam ser removidas.

Considerando esse cenário, quais variáveis possuem correlações superiores a 0.75 com outra variável diferente dessa?

(a) 'page hits', 'days available', 'interactions', 'weeks available', 'hoa' e 'total'<br>
(b) 'page hits', 'days available', 'interactions', 'weeks available', 'rent' e 'total'<br>
(b) 'page hits', 'days available', 'interactions' e 'weeks available'<br>
(d) todas as variáveis


#### Exercício 2, questão IV

Utiliza a funcao `plot_pairwise()` dada em aula para plotar par-a-par as variáveis: 'page hits', 'days available', 'interactions', 'weeks available'

O que podemos notar comparando o gráfico com os valores de correlação?

(a) Quanto maior a correlação, mais o gráfico se assemelha a uma nuvem de pontos aleatória<br>
(b) Quanto menor a correlação, mais o gráfico se assemelha a uma reta<br>
(c) Quanto maior a correlação, mais o gráfico se assemelha a uma reta<br>
(d) Não há qualquer padrão entre o valor da correlação e a visualização dos gráficos

---

### Exercício 3)

Vamos procurar por outliers na base de dados utilizando um método baseado na dispersão pelo desvio padrão. 

* Codifique uma funcao em Python no formato abaixo, que receba por parâmetro um dataframe, uma lista de atributos/variáveis e um fator multiplicador `t` para o desvio padrão.
`def remove_outliers_std(df, attributes, t):`
    Essa funcao deve retornar um dataframe sem os outliers segundo o método do desvio padrão, ou seja, removendo aqueles cujo valor esteja: abaixo da média menos `t` desvios padrões, ou acima da média mais `t` desvios padrões. Formalmente, são ouliers valores $x$ tal que $x < \mu - t\sigma$ ou $x > \mu + t\sigma$. A funcao deve processar apenas variáveis numéricas e imprimir na tela a quantidade de outliers encontrados
    

#### Exercício 3, questão I

Utilize a funcao implementada para remover outliers:
1. utilizando a variável 'page hits' com $t=3.5$
2. considerando a base obtida no passo anterior, para 'total' e 'insurance' com $t=2$.
3. considerando a base obtida no passo anterior, para 'rent' com $t=5$

Quantos outliers foram encontrados respectivamente para 'page hits', 'total', 'insurance' e  'rent', nessa ordem?

(a) 65, 7, 55 e 0<br>
(b) 55, 65, 7 e 10<br>
(c) 65, 7, 10 e 55<br>
(d) 65, 55, 7 e 0<br>

#### Exercício 3, questão II

Utilize a funcao implementada para, considerando a base original (sem processamento da questão anterior), remover outliers relacionados a 'rent' com $t=6$.

Qual o resultado e sua interpretacao?

(a) encontrado 15 outliers, pois aumentamos o valor de $t$ para 6 permitindo capturar mais linhas<br>
(b) foram encontrados 15 outliers, não encontrados na questão anterior pois essas linhas já haviam sido removidas na análise de atributos anteriores<br>
(d) foi encontrado apenas 1 outlier pois a variável possui pouca dispersão com relação a média<br>
(d) nenhum outlier encontrado<br>

---

### Exercício 4)

Ainda analisando outliers, após remover outliers segundo indicado no Exercício 3, questão I:

Carregue o método $k$-Means utilizando: `from sklearn.cluster import KMeans`
    1. Realize análise de agrupamento utilizando os atributos 'page hits' e 'days available' e $k=100$ grupos. Utilize o parâmetro `random_state=2` ao criar o modelo
    2. Identifique os grupos (clusters) que possuem menos do que 5 pontos
    3. Considere todos os pontos pertencentes à esses grupos como candidatos a outliers
    
OBS: ver detalhes do KMeans em [https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html]

Responda às questões abaixo.


#### Exercício 4, questão I

Quantos outliers foram encontrados?

(a) 1<br>
(b) 5<br>
(c) 7<br>
(d) 27<br>


#### Exercício 4, questão II

Altere o número de grupos para $k=300$ e considere outliers aqueles pontos em grupos com 2 ou menos exemplos. Quantos outliers foram encontrados?

(a) 5<br>
(b) 300<br>
(c) 39<br>
(d) 27<br>


---

### Exercício 5)

Considerando o preenchimento de dados faltantes, utilize a base de dados após remover outliers segundo indicado no Exercício 3, questão I.

Imprima o total de valores faltantes em cada variável.

Codifique uma funcão que preencha valores faltantes utilizando a média condicionada a uma outra variável categórica (não numérica) da base. Essa funcao deverá:
1. calcular a média da variável alvo (a ser preenchida) relativa a cada valor distinto da variável categórica selecionada
2. atribuir a média calculada a todas as linhas cuja variavel alvo é faltante e que possua o valor da variável categórica correspondente
3. o valor atribuido deve seguir o mesmo tipo da variável alvo, ou seja, int, float, etc. Quando int, realize o arredondamento utlizando `np.round(,0)`, quando float64 utilize `np.round(value,1)`

    Exemplo: podemos preencher a média do imposto (tax) condicionado ao tipo (type) calculando a média do imposto agrupado por cada valor de tipo ('house' e 'flat'), e depois atribuir essas médias aos valores faltantes condicionado ao tipo.
   Assim, uma propriedade que é do tipo 'house' e que possui 'tax' faltante, recebe a média de 'tax' entre todas os imóveis marcados com 'house' para os quais há valor de 'tax'.
   
Responda as questões abaixo:

#### Exercício 5, questão I

Quantas variáveis possuem valores faltantes?

(a) 4<br>
(b) 5<br>
(c) 1<br>
(d) 10<br>


#### Exercício 5, questão II

Use sua funcao para preencher a 'area' condicionado a 'type'. Após o preenchimento, qual é a nova média para todas as linhas do atributo 'area', e arredondando para três casas decimais?

(a) 144.557<br>
(b) 232.500<br>
(d) 144.493<br>
(d) 119.100<br>

#### Exercício 4, questão III

Use sua funcao para preencher 'tax' condicionado a 'city'. Quais foram as médias encontradas para as cidades de São Paulo, Porto Alegre e Brotas, respectivamente?

(a) 422.6, 118.0 e 106.5<br>
(b) 423.0, 347.0 e 100.0<br>
(d) 273.0, 147.1 e 106.5<br>
(d) 422.6, 118.2 e 106.6<br>

---

### Exercício 6)

Considere os atributos 'type' e 'city' e analise a distribuicao dos seus valores.

Para o atributo 'city', realize a análise desconsiderando a cidade de São Paulo.

Calcule a porcentagem de exemplos da categoria com menor quantidade de dados encontrada com relacao ao total.

Responda as questões abaixo:

#### Exercício 5, questão I

Podemos considerar que:

(a) apenas "city" (sem São Paulo) é desbalanceada<br>
(b) apenas "type" é desbalanceada<br>
(c) ambas as análises indicam desbalaceamento dos dados<br>
(d) ambas as análises indicam desbalaceamento dos dados<br>

#### Exercício 5, questão II

Qual dos procedimentos abaixo é o mais adequado caso desejamos utilizar a variável "type" como variável alvo (de saída) para um modelo de aprendizado?

(a) não é possível utilizar essas variáveis<br>
(b) não é preciso fazer nenhum tratamento<br>
(c) considerar o uso de técnicas de sobreamostragem para 'house'<br>
(d) considerar o uso de técnicas de sobreamostragem para 'flat' <br>

    
#### Exercício 5, questão III

Qual dos procedimentos abaixo é o mais adequado caso desejamos utilizar a variável "city" (desconsiderando São Paulo) como variável alvo (de saída) para um modelo de aprendizado?

(a) remover a cidade "Brotas" da análise e rebalancear as demais<br>
(b) realizar uma combinacão de técnicas de subamostragem (para as categorias majoritárias) e sobreamostragem (para as minoritátias)<br>
(c) utilizar o método SMOTE<br>
(d) considerar o uso de técnicas de subamostragem para as categorias majoritárias<br>
