# Desafio 6

Neste desafio, vamos praticar _feature engineering_, um dos processos mais importantes e trabalhosos de ML. Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que contém dados sobre os 227 países do mundo com informações sobre tamanho da população, área, imigração e setores de produção.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn as sk

In [4]:
# Algumas configurações para o matplotlib.
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [5]:
countries = pd.read_csv("countries.csv")

for col in countries.columns:
    try:
        countries[col] = countries[col].str.replace(',','.').astype(float)
    except Exception as e:
        print(e)


FileNotFoundError: [Errno 2] File countries.csv does not exist: 'countries.csv'

In [None]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

## Observações

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as variáveis numéricas estão usando vírgula como separador decimal e estão codificadas como strings. Corrija isso antes de continuar: transforme essas variáveis em numéricas adequadamente.

Além disso, as variáveis `Country` e `Region` possuem espaços a mais no começo e no final da string. Você pode utilizar o método `str.strip()` para remover esses espaços.

## Inicia sua análise a partir daqui

In [None]:
# Sua análise começa aqui.

# Questao 1

countries['Region'] = countries['Region'].str.strip()
l = countries.Region.unique().tolist()
l.sort()
l

In [None]:
# Questao 2
from sklearn.preprocessing import KBinsDiscretizer
binarizer = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='quantile')
pop_density_array = np.asarray(countries['Pop_density']).reshape(-1,1)
pop_density_array.shape
discretized_data = binarizer.fit_transform(pop_density_array)
df = pd.DataFrame(discretized_data.tolist(), columns=['bins'])
df[df['bins']==9.0].count()[0]

In [82]:
#%pylab inline
#pylab.hist(discretized_data)

In [83]:
# Questao 3
from sklearn.preprocessing import OneHotEncoder
X = countries[['Region', 'Climate']].dropna()
enc = OneHotEncoder(handle_unknown='ignore')
enc.fit(X)
enc.categories_
resp = enc.transform(X).toarray()
len(enc.get_feature_names())

8

In [154]:
# Questao 4
# https://www.youtube.com/watch?v=irHhDMbw3xo
from sklearn.impute import SimpleImputer

# imp = SimpleImputer(missing_values=np.nan, strategy='median')
imput_cols = countries.columns[countries.dtypes != 'object'].tolist()
remaining_cols = countries.columns[countries.dtypes == 'object'].tolist()

from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.preprocessing import StandardScaler
#scaler = StandardScaler()
#resp = scaler.fit_transform(countries[imput_cols])

imputer = make_column_transformer(
    (make_pipeline(SimpleImputer(missing_values=np.nan, strategy='median'), StandardScaler()), imput_cols),
    remainder='passthrough'        
)

#pipe = make_pipeline(imputer)
#resp = imputer.fit_transform(countries)
#pd.DataFrame(resp)
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

tc = pd.DataFrame(test_country).T
tc.columns = countries.columns
for col in tc.columns:
    try:
        tc[col] = tc[col].astype(float)
    except Exception as e:
        print(e)
        
imputer.fit(countries)
        
resp_df = pd.DataFrame(imputer.transform(tc))
resp_df.columns = [*imput_cols, *remaining_cols]
resp_df.loc[0, 'Arable']

could not convert string to float: 'Test Country'
could not convert string to float: 'NEAR EAST'


-1.0468574255102998

In [177]:
# Questao 5
desc = countries['Net_migration'].describe()
iqr = desc['75%']-desc['25%']
q1 = desc['25%']
q3 = desc['75%']
outmin = q1-1.5*iqr
outmax = q3+1.5*iqr
int((countries['Net_migration']<outmin).sum()), int((countries['Net_migration']>outmax).sum()), bool(0)
#countries[countries['Net_migration']>outmax]

(24, 26, False)

In [180]:
# Questao 6
from sklearn.datasets import fetch_20newsgroups
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [201]:
from sklearn.feature_extraction.text import CountVectorizer

print(newsgroup.target_names)
print(newsgroup.data[-1])

['comp.graphics', 'rec.motorcycles', 'sci.electronics']
From: Wayne Alan Martin <wm1h+@andrew.cmu.edu>
Subject: Re: Dayton Hamfest
Organization: Senior, Electrical and Computer Engineering, Carnegie Mellon, Pittsburgh, PA
Lines: 5
Distribution: usa
NNTP-Posting-Host: po5.andrew.cmu.edu
In-Reply-To: <1993Apr19.163122.20454@cbfsb.cb.att.com>

Yes, it is the 23, 24 and 25, in but does anyone have directions how to
get there after I get to Dayton.  Thanks

Wayne Martin




In [226]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(newsgroup.data)
'phone' in vectorizer.get_feature_names()
phone_index = vectorizer.vocabulary_.get('phone')
print(phone_index)
X.toarray()[:, phone_index].sum() #todas as linhas para o index to telefone

19211


213

In [266]:
# Questao 7
from sklearn.feature_extraction.text import TfidfVectorizer
tfid_vectorizer = TfidfVectorizer()
tfidf_matrix = tfid_vectorizer.fit_transform(newsgroup.data)
phone_index = tfid_vectorizer.vocabulary_.get('phone')
df = pd.DataFrame(tfidf_matrix.toarray(), columns = tfid_vectorizer.get_feature_names())
df['phone'].sum()

8.88774594667355

In [220]:
# CountVectorizer para a palavra phone

In [None]:
# Questao 4


## Questão 1

Quais são as regiões (variável `Region`) presentes no _data set_? Retorne uma lista com as regiões únicas do _data set_ com os espaços à frente e atrás da string removidos (mas mantenha pontuação: ponto, hífen etc) e ordenadas em ordem alfabética.

In [275]:
def q1():
    # Retorne aqui o resultado da questão 1.
    countries['Region'] = countries['Region'].str.strip()
    l = countries.Region.unique().tolist()
    l.sort()
    return l
q1()

['ASIA (EX. NEAR EAST)',
 'BALTICS',
 'C.W. OF IND. STATES',
 'EASTERN EUROPE',
 'LATIN AMER. & CARIB',
 'NEAR EAST',
 'NORTHERN AFRICA',
 'NORTHERN AMERICA',
 'OCEANIA',
 'SUB-SAHARAN AFRICA',
 'WESTERN EUROPE']

## Questão 2

Discretizando a variável `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estratégia `quantile`, quantos países se encontram acima do 90º percentil? Responda como um único escalar inteiro.

In [None]:
def q2():
    # Retorne aqui o resultado da questão 2.
    from sklearn.preprocessing import KBinsDiscretizer
    binarizer = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='quantile')
    try:
        countries['Pop_density'] = countries['Pop_density'].str.replace(',','.').astype(float)
    except:
        pass
    pop_density_array = np.asarray(countries['Pop_density']).reshape(-1,1)
    pop_density_array.shape
    discretized_data = binarizer.fit_transform(pop_density_array)
    df = pd.DataFrame(discretized_data.tolist(), columns=['bins'])
    return int(df[df['bins']==9.0].count()[0])

# Questão 3

Se codificarmos as variáveis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um único escalar.

In [256]:
def q3():
    # Retorne aqui o resultado da questão 3.
    from sklearn.preprocessing import OneHotEncoder
    X = countries[['Region', 'Climate']].fillna(0)
    enc = OneHotEncoder(handle_unknown='ignore')
    enc.fit(X)
    enc.categories_
    resp = enc.transform(X).toarray()
    return len(enc.get_feature_names())
q3()

18

## Questão 4

Aplique o seguinte _pipeline_:

1. Preencha as variáveis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas variáveis.

Após aplicado o _pipeline_ descrito acima aos dados (somente nas variáveis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da variável `Arable` após o _pipeline_? Responda como um único float arredondado para três casas decimais.

In [None]:
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

In [160]:
def q4():
    # Retorne aqui o resultado da questão 4.
    # Questao 4
    # https://www.youtube.com/watch?v=irHhDMbw3xo
    from sklearn.impute import SimpleImputer

    # imp = SimpleImputer(missing_values=np.nan, strategy='median')
    imput_cols = countries.columns[countries.dtypes != 'object'].tolist()
    remaining_cols = countries.columns[countries.dtypes == 'object'].tolist()

    from sklearn.pipeline import Pipeline, make_pipeline
    from sklearn.compose import ColumnTransformer, make_column_transformer
    from sklearn.preprocessing import StandardScaler
    #scaler = StandardScaler()
    #resp = scaler.fit_transform(countries[imput_cols])

    imputer = make_column_transformer(
        (make_pipeline(SimpleImputer(missing_values=np.nan, strategy='median'), StandardScaler()), imput_cols),
        remainder='passthrough'        
    )

    #pipe = make_pipeline(imputer)
    #resp = imputer.fit_transform(countries)
    #pd.DataFrame(resp)
  
    tc = pd.DataFrame(test_country).T
    tc.columns = countries.columns
    for col in tc.columns:
        try:
            tc[col] = tc[col].astype(float)
        except Exception as e:
            print(e)

    imputer.fit(countries)

    resp_df = pd.DataFrame(imputer.transform(tc))
    resp_df.columns = [*imput_cols, *remaining_cols]
    return float(round(resp_df.loc[0, 'Arable'],3))

## Questão 5

Descubra o número de _outliers_ da variável `Net_migration` segundo o método do _boxplot_, ou seja, usando a lógica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ é outlier}$$

que se encontram no grupo inferior e no grupo superior.

Você deveria remover da análise as observações consideradas _outliers_ segundo esse método? Responda como uma tupla de três elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

In [2]:
def q5():
    # Retorne aqui o resultado da questão 4.
    desc = countries['Net_migration'].describe()
    iqr = desc['75%']-desc['25%']
    q1 = desc['25%']
    q3 = desc['75%']
    outmin = q1-1.5*iqr
    outmax = q3+1.5*iqr
    return int((countries['Net_migration']<outmin).sum()), int((countries['Net_migration']>outmax).sum()), bool(0)

NameError: name 'countries' is not defined

## Questão 6
Para as questões 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o número de vezes que a palavra _phone_ aparece no corpus. Responda como um único escalar.

In [None]:
def q6():
    # Retorne aqui o resultado da questão 4.
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(newsgroup.data)
    #'phone' in vectorizer.get_feature_names()
    phone_index = vectorizer.vocabulary_.get('phone')
    return int(X.toarray()[:, phone_index].sum()) #todas as linhas para o index to telefone

## Questão 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um único escalar arredondado para três casas decimais.

In [267]:
def q7():
    # Retorne aqui o resultado da questão 4.
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfid_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfid_vectorizer.fit_transform(newsgroup.data)
    phone_index = tfid_vectorizer.vocabulary_.get('phone')
    df = pd.DataFrame(tfidf_matrix.toarray(), columns = tfid_vectorizer.get_feature_names())
    return float(round(df['phone'].sum(),3))
q7()

8.888