# Desafio 6

Neste desafio, vamos praticar _feature engineering_, um dos processos mais importantes e trabalhosos de ML. Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que contém dados sobre os 227 países do mundo com informações sobre tamanho da população, área, imigração e setores de produção.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [None]:
import pandas as pd
import numpy as np 
import seaborn as sns
import sklearn as sk
import statsmodels.api as sm
import scipy.stats as sct

In [None]:
from sklearn.datasets import load_digits, fetch_20newsgroups
from sklearn.decomposition import PCA
from sklearn.feature_extraction.text import (
    CountVectorizer, TfidfTransformer, TfidfVectorizer
)
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import (
    OneHotEncoder, Binarizer, KBinsDiscretizer,
    MinMaxScaler, StandardScaler, PolynomialFeatures
)

from sklearn.compose import make_column_transformer
from sklearn.compose import make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer

In [42]:
# Algumas configurações para o matplotlib.
#%matplotlib inline

#from IPython.core.pylabtools import figsize


#figsize(12, 8)

#sns.set()

In [None]:
countries = pd.read_csv("countries.csv")

In [None]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

## Observações

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as variáveis numéricas estão usando vírgula como separador decimal e estão codificadas como strings. Corrija isso antes de continuar: transforme essas variáveis em numéricas adequadamente.

Além disso, as variáveis `Country` e `Region` possuem espaços a mais no começo e no final da string. Você pode utilizar o método `str.strip()` para remover esses espaços.

## Inicia sua análise a partir daqui

In [None]:
# Sua análise começa aqui.
countries.shape

In [46]:
countries.dtypes

Country              object
Region               object
Population            int64
Area                  int64
Pop_density          object
Coastline_ratio      object
Net_migration        object
Infant_mortality     object
GDP                 float64
Literacy             object
Phones_per_1000      object
Arable               object
Crops                object
Other                object
Climate              object
Birthrate            object
Deathrate            object
Agriculture          object
Industry             object
Service              object
dtype: object

In [47]:
countries.isna().sum()

Country              0
Region               0
Population           0
Area                 0
Pop_density          0
Coastline_ratio      0
Net_migration        3
Infant_mortality     3
GDP                  1
Literacy            18
Phones_per_1000      4
Arable               2
Crops                2
Other                2
Climate             22
Birthrate            3
Deathrate            4
Agriculture         15
Industry            16
Service             15
dtype: int64

## Questão 1

Quais são as regiões (variável `Region`) presentes no _data set_? Retorne uma lista com as regiões únicas do _data set_ com os espaços à frente e atrás da string removidos (mas mantenha pontuação: ponto, hífen etc) e ordenadas em ordem alfabética.

In [48]:
def q1():
    # Retorne aqui o resultado da questão 1.
    ls_city = countries['Region'].sort_values().apply(lambda x: x.strip()).unique().tolist()
    return ls_city

## Questão 2

Discretizando a variável `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estratégia `quantile`, quantos países se encontram acima do 90º percentil? Responda como um único escalar inteiro.

In [49]:
def q2():
    # Retorne aqui o resultado da questão 2.
    
    #trocando virgula por . na coluna pop_density
    countries["Pop_density"] = countries["Pop_density"].str.replace(",", ".").astype('float64')
    
    discretizer = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy = 'quantile')
    
    discretizer.fit(countries[["Pop_density"]])
    
    score = discretizer.transform(countries[["Pop_density"]])
    
    nacoes = np.percentile(score, 90, axis = 1, keepdims=True)

    return int(np.sum(nacoes >= 9).sum())

# Questão 3

Se codificarmos as variáveis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um único escalar.

In [50]:
def q3():
    # Retorne aqui o resultado da questão 3.
    one_hot_encoder = OneHotEncoder(sparse=False, dtype=np.int)
    
    region_climate_encoder = one_hot_encoder.fit_transform(countries[["Region","Climate"]].fillna('NaN'))
    
    region_climate_encoder
    
    return int(region_climate_encoder.shape[1])

## Questão 4

Aplique o seguinte _pipeline_:

1. Preencha as variáveis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas variáveis.

Após aplicado o _pipeline_ descrito acima aos dados (somente nas variáveis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da variável `Arable` após o _pipeline_? Responda como um único float arredondado para três casas decimais.

In [66]:
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]



In [77]:
def q4():
    
    # Transformando a coluna Arable em float64

    new_countries = countries.replace(',','.',regex=True)

    new_countries['Arable'] = new_countries['Arable'].astype('float64')

    # Coletando as colunas com int64 e float64

    columns = list(new_countries.select_dtypes(include = "number").columns)

    # Criando um dataset com test_country

    country_t = (pd.DataFrame(test_country,index=countries.columns)).transpose()

    # Criando o pipeline

    pipeline = Pipeline(steps=[('median_imputer', SimpleImputer(strategy='median')),('std_sca',StandardScaler())])

    # Aplicando a Pipeline no test_country

    pipeline.fit(new_countries[columns])

    # Retornando o valor de Arable

    return(float(round(pipeline.transform(country_t[columns])[0][3],3)))

In [78]:
q4()

-1.047

## Questão 5

Descubra o número de _outliers_ da variável `Net_migration` segundo o método do _boxplot_, ou seja, usando a lógica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ é outlier}$$

que se encontram no grupo inferior e no grupo superior.

Você deveria remover da análise as observações consideradas _outliers_ segundo esse método? Responda como uma tupla de três elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

In [72]:
def q5():
    # Retorne aqui o resultado da questão 4.
    # Trocando ',' por '.' e modificando para float.,

    countries['Net_migration'] = countries['Net_migration'].replace(',','.',regex=True).astype(float)

    # Calculando Q1, Q3 e IQR.,

    Q3 = countries['Net_migration'].quantile(.75)

    Q1 = countries['Net_migration'].quantile(.25)

    IQR = Q3 - Q1

    # Calculando Outliers,

    outl_max = countries[countries['Net_migration'] > Q3 + 1.5*IQR]['Net_migration']

    outl_min = countries[countries['Net_migration'] < Q1 - 1.5*IQR]['Net_migration'] 

    # Resultado,

    return(outl_min.shape[0],outl_max.shape[0],False)

    #Não devemos retirar os \"outliers\", pois, nesse caso, eles são o \"normal\" do dataset.
    

## Questão 6
Para as questões 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o número de vezes que a palavra _phone_ aparece no corpus. Responda como um único escalar.

In [64]:
def q6():
    # Retorne aqui o resultado da questão 6
        
        categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']

        newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)

        # Vectorizando o data set

        counter = CountVectorizer()

        freq = counter.fit_transform(newsgroup.data)

        # Recebendo o vocabulário

        words = dict(counter.vocabulary_.items())

        # Retornando a soma.

        return(int(freq[:,words['phone']].sum()))

## Questão 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um único escalar arredondado para três casas decimais.

In [80]:
def q7():
    # Retorne aqui o resultado da questão 4.
    # Criando o data set

    categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']

    newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)

    # Vectorizando o data set

    Tfid = TfidfVectorizer()

    freq = Tfid.fit_transform(newsgroup.data)

    # Retornando o idf

    return(round(float(freq[:,Tfid.vocabulary_['phone']].sum()),3))