# Desafio 6

Neste desafio, vamos praticar _feature engineering_, um dos processos mais importantes e trabalhosos de ML. Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que contém dados sobre os 227 países do mundo com informações sobre tamanho da população, área, imigração e setores de produção.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [None]:
import pandas as pd
import numpy as np
#import seaborn as sns
from sklearn.preprocessing import KBinsDiscretizer, StandardScaler,OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.datasets import fetch_20newsgroups
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [111]:
# Algumas configurações para o matplotlib.
# %matplotlib inline

# from IPython.core.pylabtools import figsize


# figsize(12, 8)

# sns.set()

In [177]:
countries = pd.read_csv("countries.csv")

In [178]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

Unnamed: 0,Country,Region,Population,Area,Pop_density,Coastline_ratio,Net_migration,Infant_mortality,GDP,Literacy,Phones_per_1000,Arable,Crops,Other,Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


In [179]:
df_info = pd.DataFrame({'tipos':countries.dtypes,
                        'missing': countries.isna().mean()})

df_info                    

Unnamed: 0,tipos,missing
Country,object,0.0
Region,object,0.0
Population,int64,0.0
Area,int64,0.0
Pop_density,object,0.0
Coastline_ratio,object,0.0
Net_migration,object,0.013216
Infant_mortality,object,0.013216
GDP,float64,0.004405
Literacy,object,0.079295


In [180]:
#Transformações
tipo = ['Pop_density', 'Coastline_ratio', 'Net_migration', 'Infant_mortality', 'Literacy', 'Phones_per_1000', 'Arable','Climate', 'Crops', 'Other', 'Birthrate', 'Deathrate', 'Agriculture', 'Industry', 'Service']

def float_transf(df, colunas):
    for col in colunas:
        df[col] = df[col].str.replace(',','.')
        df[col] = df[col].astype('float')

float_transf(countries, tipo)

In [181]:
space = ['Country', 'Region']
def space_ripper(df, colunas):
    for col in colunas:
        df[col] = df[col].str.strip()

space_ripper(countries, space)

## Observações

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as variáveis numéricas estão usando vírgula como separador decimal e estão codificadas como strings. Corrija isso antes de continuar: transforme essas variáveis em numéricas adequadamente.

Além disso, as variáveis `Country` e `Region` possuem espaços a mais no começo e no final da string. Você pode utilizar o método `str.strip()` para remover esses espaços.

## Inicia sua análise a partir daqui

In [401]:
countries.Climate.unique()

array([1. , 3. , 2. , nan, 4. , 1.5, 2.5])

In [129]:
# Sua análise começa aqui.
var_cat = countries.loc[:,['Region','Climate']]
df_dummies = pd.get_dummies(var_cat,dummy_na=True, drop_first=True)
len(df_dummies.columns)

12

## Questão 1

Quais são as regiões (variável `Region`) presentes no _data set_? Retorne uma lista com as regiões únicas do _data set_ com os espaços à frente e atrás da string removidos (mas mantenha pontuação: ponto, hífen etc) e ordenadas em ordem alfabética.

In [379]:
def q1():
    # Retorne aqui o resultado da questão 1.
    regions = np.sort(countries['Region'].unique()).tolist()
    return regions

## Questão 2

Discretizando a variável `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estratégia `quantile`, quantos países se encontram acima do 90º percentil? Responda como um único escalar inteiro.

In [381]:
def q2():
    # Retorne aqui o resultado da questão 2.
    pop_density = np.array(countries['Pop_density'])
    enc = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='quantile')
    countries['Pop_dens_binned'] = enc.fit_transform(pop_density.reshape(-1,1))
    return len(countries.loc[countries['Pop_dens_binned'] >= 9.,'Country'])

# Questão 3

Se codificarmos as variáveis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um único escalar.

In [418]:
def q3():
    # Retorne aqui o resultado da questão 3.
    encoder = OneHotEncoder(sparse=False, dtype=np.int)
    enc = encoder.fit_transform(countries[['Region','Climate']].fillna({'Climate': 0}))
    return enc.shape[1] 

## Questão 4

Aplique o seguinte _pipeline_:

1. Preencha as variáveis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas variáveis.

Após aplicado o _pipeline_ descrito acima aos dados (somente nas variáveis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da variável `Arable` após o _pipeline_? Responda como um único float arredondado para três casas decimais.

In [241]:
test_country = [
    'Test Country', 'NEAR EAST', 
    -0.19032480757326514, -0.3232636124824411, 
    -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 
    1.0119784924248225, 0.6189182532646624, 
    1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 
    1.3163604645710438, -0.3699637766938669, 
    -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

In [242]:
country_test = pd.DataFrame([test_country], columns=countries.columns)

In [239]:
#cols_missing = df_info.loc[df_info['missing']>0.0,:].index
colunas = countries.select_dtypes(['int64','float64']).columns

pipeline = Pipeline(steps=[('imp',SimpleImputer(strategy='median')),
                           ('scaler', StandardScaler())])


transformer = ColumnTransformer(transformers = [('number', pipeline,colunas)], n_jobs=-1)

transformer.fit(countries)

ColumnTransformer(n_jobs=-1, remainder='drop', sparse_threshold=0.3,
                  transformer_weights=None,
                  transformers=[('number',
                                 Pipeline(memory=None,
                                          steps=[('imp',
                                                  SimpleImputer(add_indicator=False,
                                                                copy=True,
                                                                fill_value=None,
                                                                missing_values=nan,
                                                                strategy='median',
                                                                verbose=0)),
                                                 ('scaler',
                                                  StandardScaler(copy=True,
                                                                 with_mean=True,
                              

In [398]:
def q4():
    # Retorne aqui o resultado da questão 4.
    result = transformer.transform(country_test)[0][colunas.get_loc('Arable')]
    return round(float(result),3)

## Questão 5

Descubra o número de _outliers_ da variável `Net_migration` segundo o método do _boxplot_, ou seja, usando a lógica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ é outlier}$$

que se encontram no grupo inferior e no grupo superior.

Você deveria remover da análise as observações consideradas _outliers_ segundo esse método? Responda como uma tupla de três elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

In [313]:
def q5():
    # Retorne aqui o resultado da questão 4.
    q1, q3 = countries['Net_migration'].quantile([.25,.75])
    iqr = q3 - q1

    lbaixo = q1-1.5*iqr
    lalto = q3+1.5*iqr

    outliers_abaixo = int(countries[countries['Net_migration'] < lbaixo].shape[0])
    outliers_acima = int(countries[countries['Net_migration'] > lalto].shape[0])
    remove = bool((outliers_abaixo+outliers_acima)/countries['Net_migration'].shape[0] < 0.1)
    return (outliers_abaixo,outliers_acima,remove)

## Questão 6
Para as questões 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o número de vezes que a palavra _phone_ aparece no corpus. Responda como um único escalar.

In [357]:
categorias = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup_data = fetch_20newsgroups(subset='train', categories=categorias, shuffle=True, random_state=12)

In [358]:
def q6():
    # Retorne aqui o resultado da questão 4.
    vec = CountVectorizer(analyzer='word').fit(newsgroup_data.data)
    bag = vec.transform(newsgroup_data.data)
    return int(bag[:, vec.vocabulary_['phone']].sum())

## Questão 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um único escalar arredondado para três casas decimais.

In [376]:
def q7():
    # Retorne aqui o resultado da questão 4.
    tf_vec = TfidfVectorizer().fit(newsgroup_data.data)
    tf_bag = tf_vec.transform(newsgroup_data.data)
    return float(tf_bag[:, tf_vec.vocabulary_['phone']].sum().round(3))