# Codenation - Data Science
<pre>Autor: Leonardo Sim√µes</pre>

## Desafio 6 - Feature engineering


Neste desafio vamos praticar feature engineering, a arte de processar vari√°veis do data set a fim de torn√°-las mais adequadas aos algoritmos de ML e produzir melhores resultados, um dos processos mais importantes e trabalhosos de ML.

Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que cont√©m dados sobre os 227 pa√≠ses do mundo com informa√ß√µes sobre tamanho da popula√ß√£o, √°rea, imigra√ß√£o e setores de produ√ß√£o.


### Objetivo

O objetivo deste desafio √© adquirir conhecimento e pr√°tica nas ferramentas mais usuais de engenharia de vari√°veis. Com o dom√≠nio apropriado das t√©cnicas b√°sicas, como one-hot encoding, normaliza√ß√£o e padronia√ß√£o, o analista est√° mais bem preparado para conduzir uma etapa de preprocessamento dos dados que traga bons resultados da aplica√ß√£o dos algoritmos de ML.


### T√≥picos

Neste desafios n√≥s vamos explorar:
- Feature engineering
- Processamento de texto

### Quest√µes
<pre>
1) Quais s√£o as regi√µes (vari√°vel Region) presentes no data set_? 
Retorne uma lista com as regi√µes √∫nicas do _data set com os espa√ßos √† frente e atr√°s da string removidos 
(mas mantenha pontua√ß√£o: ponto, h√≠fen etc) e ordenadas em ordem alfab√©tica. 

2) Discretizando a vari√°vel Pop_density em 10 intervalos com KBinsDiscretizer, seguindo o encode ordinal 
e estrat√©gia quantile, quantos pa√≠ses se encontram acima do 90¬∫ percentil? Responda como um √∫nico escalar 
inteiro.

3) Se codificarmos as vari√°veis Region e Climate usando _one-hot encoding_, quantos novos atributos seriam 
criados? Responda como um √∫nico escalar.

4) Ap√≥s aplicado o pipeline descrito, aplique o mesmo pipeline (ou ColumnTransformer) a outros dados. 
Qual o valor da vari√°vel Arable ap√≥s o _pipeline_? 
Responda como um √∫nico float arredondado para tr√™s casas decimais.

5) Descubra o n√∫mero de outliers da vari√°vel Net_migration segundo o m√©todo do _boxplot_, ou seja, 
usando a l√≥gica: ùë•‚àâ[ùëÑ1‚àí1.5√óIQR,ùëÑ3+1.5√óIQR]‚áíùë• √© outlier que se encontram no grupo inferior e no grupo superior.
Voc√™ deveria remover da an√°lise as observa√ß√µes consideradas outliers segundo esse m√©todo? 
Responda como uma tupla de tr√™s elementos (outliers_abaixo, outliers_acima, removeria?) ((int, int, bool)).

6) Considere carregar as seguintes categorias e o dataset newsgroups:
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
Aplique CountVectorizer ao data set newsgroups e descubra o n√∫mero de vezes que a palavra phone aparece 
no corpus. Responda como um √∫nico escalar.

7) Aplique TfidfVectorizer ao data set newsgroups e descubra o TF-IDF da palavra phone. 
Responda como um √∫nico escalar arredondado para tr√™s casas decimais.
</pre>



## _Setup_ geral

In [200]:
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn as sk
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.feature_extraction.text import (CountVectorizer, TfidfTransformer, TfidfVectorizer)

from sklearn.preprocessing import (
    OneHotEncoder, Binarizer, KBinsDiscretizer,
    MinMaxScaler, StandardScaler, PolynomialFeatures
)
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.datasets import load_digits, fetch_20newsgroups
from sklearn.feature_extraction.text import (
    CountVectorizer, TfidfTransformer, TfidfVectorizer
)

In [201]:
#%matplotlib inline

from IPython.core.pylabtools import figsize

figsize(12, 8)

sns.set()

In [202]:
countries = pd.read_csv("countries.csv")

In [203]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

Unnamed: 0,Country,Region,Population,Area,Pop_density,Coastline_ratio,Net_migration,Infant_mortality,GDP,Literacy,Phones_per_1000,Arable,Crops,Other,Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


## Observa√ß√µes

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as vari√°veis num√©ricas est√£o usando v√≠rgula como separador decimal e est√£o codificadas como strings. Corrija isso antes de continuar: transforme essas vari√°veis em num√©ricas adequadamente.

Al√©m disso, as vari√°veis `Country` e `Region` possuem espa√ßos a mais no come√ßo e no final da string. Voc√™ pode utilizar o m√©todo `str.strip()` para remover esses espa√ßos.

## An√°lise dos dados

Avaliando as colunas do dataframe por tipo e valores. 

In [204]:
countries.columns

Index(['Country', 'Region', 'Population', 'Area', 'Pop_density',
       'Coastline_ratio', 'Net_migration', 'Infant_mortality', 'GDP',
       'Literacy', 'Phones_per_1000', 'Arable', 'Crops', 'Other', 'Climate',
       'Birthrate', 'Deathrate', 'Agriculture', 'Industry', 'Service'],
      dtype='object')

In [205]:
countries.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Country           227 non-null    object 
 1   Region            227 non-null    object 
 2   Population        227 non-null    int64  
 3   Area              227 non-null    int64  
 4   Pop_density       227 non-null    object 
 5   Coastline_ratio   227 non-null    object 
 6   Net_migration     224 non-null    object 
 7   Infant_mortality  224 non-null    object 
 8   GDP               226 non-null    float64
 9   Literacy          209 non-null    object 
 10  Phones_per_1000   223 non-null    object 
 11  Arable            225 non-null    object 
 12  Crops             225 non-null    object 
 13  Other             225 non-null    object 
 14  Climate           205 non-null    object 
 15  Birthrate         224 non-null    object 
 16  Deathrate         223 non-null    object 
 1

As colunas 'Country' e 'Region' ser√£o formatadas para remover espa√ßos no in√≠cio e fim de cada valor.

In [206]:
colunas_qualitativas = ['Country', 'Region']

In [207]:
for coluna in colunas_qualitativas:
    countries[coluna] = countries[coluna].apply(lambda s : s.strip())

countries[colunas_qualitativas].head()

Unnamed: 0,Country,Region
0,Afghanistan,ASIA (EX. NEAR EAST)
1,Albania,EASTERN EUROPE
2,Algeria,NORTHERN AFRICA
3,American Samoa,OCEANIA
4,Andorra,WESTERN EUROPE


As colunas que s√£o do tipo 'object' ('string') que representa valores float ser√£o formatadas alterando o separador ',' para '.', e depois alterando seu tipo para 'float64'.

In [208]:
colunas_quantitativas_string = countries.select_dtypes(include=['object']).columns[2:]
colunas_quantitativas_string

Index(['Pop_density', 'Coastline_ratio', 'Net_migration', 'Infant_mortality',
       'Literacy', 'Phones_per_1000', 'Arable', 'Crops', 'Other', 'Climate',
       'Birthrate', 'Deathrate', 'Agriculture', 'Industry', 'Service'],
      dtype='object')

In [209]:
for coluna in colunas_quantitativas_string:
    countries[coluna] = countries[coluna].str.replace(',', '.')
    countries[coluna] = countries[coluna].astype('float64')

As colunas colunas com valores 'int64' ser√£o convertidas para 'float64' a fim de facilitar alguns c√°lculos posteriores.

In [210]:
colunas_quantitativas_int = countries.select_dtypes(include=['int64']).columns
colunas_quantitativas_int

Index(['Population', 'Area'], dtype='object')

In [211]:
for coluna in colunas_quantitativas_int:
    countries[coluna] = countries[coluna].astype('float64')

O valores ausentes NaN de colunas quantitativas ser√£o substitu√≠dos por 0. 

In [212]:
colunas_quantitativas = countries.select_dtypes(include=['float64', 'int64']).columns
colunas_quantitativas

Index(['Population', 'Area', 'Pop_density', 'Coastline_ratio', 'Net_migration',
       'Infant_mortality', 'GDP', 'Literacy', 'Phones_per_1000', 'Arable',
       'Crops', 'Other', 'Climate', 'Birthrate', 'Deathrate', 'Agriculture',
       'Industry', 'Service'],
      dtype='object')

In [213]:
len(colunas_quantitativas)

18

## Quest√£o 1

Quais s√£o as regi√µes (vari√°vel `Region`) presentes no _data set_? Retorne uma lista com as regi√µes √∫nicas do _data set_ com os espa√ßos √† frente e atr√°s da string removidos (mas mantenha pontua√ß√£o: ponto, h√≠fen etc) e ordenadas em ordem alfab√©tica.

In [214]:
def q1():
    regions = countries.Region.unique()
    regions = np.sort(regions)
    
    return list(regions)

q1()

['ASIA (EX. NEAR EAST)',
 'BALTICS',
 'C.W. OF IND. STATES',
 'EASTERN EUROPE',
 'LATIN AMER. & CARIB',
 'NEAR EAST',
 'NORTHERN AFRICA',
 'NORTHERN AMERICA',
 'OCEANIA',
 'SUB-SAHARAN AFRICA',
 'WESTERN EUROPE']

## Quest√£o 2

Discretizando a vari√°vel `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estrat√©gia `quantile`, quantos pa√≠ses se encontram acima do 90¬∫ percentil? Responda como um √∫nico escalar inteiro.

In [215]:
def q2():
    pop_density = countries[['Pop_density']]
    discretizer = KBinsDiscretizer(n_bins = 10, encode = 'ordinal', strategy = 'quantile')
    discretizer.fit(pop_density)
    scores = discretizer.transform(pop_density)
    
    return int((scores >= 9).sum())

q2()

23

# Quest√£o 3

Se codificarmos as vari√°veis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um √∫nico escalar.

In [216]:
def q3():
    countries_r_c = countries.copy()
    countries_r_c = countries_r_c[['Region', 'Climate']]
    countries_r_c['Region'] = countries_r_c['Region'].fillna("")
    countries_r_c['Climate'] = countries_r_c['Climate'].fillna(0)
    
    encoder = OneHotEncoder(sparse = False).fit_transform(countries_r_c[['Region', 'Climate']]) 
    
    return int(encoder.shape[1])

q3()

18

## Quest√£o 4

Aplique o seguinte _pipeline_:

1. Preencha as vari√°veis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas vari√°veis.

Ap√≥s aplicado o _pipeline_ descrito acima aos dados (somente nas vari√°veis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da vari√°vel `Arable` ap√≥s o _pipeline_? Responda como um √∫nico float arredondado para tr√™s casas decimais.

In [217]:
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

In [218]:
len(test_country[2:])

18

In [219]:
len(colunas_quantitativas)

18

In [220]:
countries_copy = countries[colunas_quantitativas].fillna(0)

In [221]:
def q4():
    num_pipeline = Pipeline(steps=[("imputer", SimpleImputer(strategy="median")),
                                   ('standard_scaler', StandardScaler())])
    pipeline_transformation = num_pipeline.fit_transform(countries[colunas_quantitativas])
    test_country_transform = num_pipeline.transform([test_country[2:]])
    
    return round(test_country_transform[:,countries.columns.get_loc("Arable")-2][0],3)

q4()

-1.047

## Quest√£o 5

Descubra o n√∫mero de _outliers_ da vari√°vel `Net_migration` segundo o m√©todo do _boxplot_, ou seja, usando a l√≥gica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ √© outlier}$$

que se encontram no grupo inferior e no grupo superior.

Voc√™ deveria remover da an√°lise as observa√ß√µes consideradas _outliers_ segundo esse m√©todo? Responda como uma tupla de tr√™s elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

In [222]:
countries['Net_migration']

0      23.06
1      -4.93
2      -0.39
3     -20.71
4       6.60
       ...  
222     2.98
223      NaN
224     0.00
225     0.00
226     0.00
Name: Net_migration, Length: 227, dtype: float64

In [223]:
def q5():
    net_migrations = countries['Net_migration'].dropna()
    q1, q3 = np.quantile(net_migrations, .25), np.quantile(net_migrations, .75)
    iqr = q3 - q1

    non_outlier_interval_iqr = [q1 - 1.5 * iqr, q3 + 1.5 * iqr]

    outliers_above = net_migrations[net_migrations > non_outlier_interval_iqr[1]]
    outliers_below = net_migrations[net_migrations < non_outlier_interval_iqr[0]]
    
    return (len(outliers_below), len(outliers_above), False)
q5()

(24, 26, False)

## Quest√£o 6
Para as quest√µes 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o n√∫mero de vezes que a palavra _phone_ aparece no corpus. Responda como um √∫nico escalar.

In [224]:
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)

In [225]:
def q6():
    count_vectorizer = CountVectorizer() 
    newsgroup_counts = count_vectorizer.fit_transform(newsgroup.data)
    words = pd.DataFrame(newsgroup_counts.toarray(), columns=count_vectorizer.get_feature_names())
    
    return words['phone'].sum()

q6()

213

## Quest√£o 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um √∫nico escalar arredondado para tr√™s casas decimais.

In [226]:
def q7():
    tfidf_vectorizer = TfidfVectorizer()
    newsgroups_tfidf_vectorized = tfidf_vectorizer.fit_transform(newsgroup.data)
    newsgroups_tfidf = pd.DataFrame(newsgroups_tfidf_vectorized.toarray(), columns=tfidf_vectorizer.get_feature_names())
    newsgroups_tfidf_phone = round(newsgroups_tfidf['phone'].sum(), 3)
    return float(newsgroups_tfidf_phone)

q7()

8.888