# Pré-Processamento
Esse **Jupyter Notebook** tem como objetivo aplicar um **Pré-Processamento** no conjunto de dados (ou em parte dele).

# Resumo da Análise preliminar
Na etapa anterior foi feita uma breve análise do conjunto de dados. O **resumo** dessa análise foi o seguinte:

 - Temos um grande conjunto de dados para trabalharmos:
   - Com 244.768 amostras e 12 colunas (atributos/campos/features).
 - Porém, vai ser necessário um Pré-Processamento na maior parte das colunas, devido o fato das colunas serem representadas por textos (informações).
 - Algumas colunas estão com muitos dados faltantes, principalmente a **ContractType** que tem **73%** dos dados faltantes.
 - Estatísticas da variável (feature) **"SalaryNormalized"**:
   - O menor salário de todos (anualmente) foi de 5.000;
   - O maior salário de todos (anualmente) foi de 200.000;
   - A média (mean) de todos os salários (anualmente) foi de 34.122;
   - A mediana (median/2° Quartil = 50% dos dados) de todos os salários (anualmente) foi de 30.000:
     - Vejam que a nossa mediana não está tão distante da nossa média.
   - O Desvio Padrão (Standard Deviation/ que representa quão longe nós estamos da média) é 17.640.
   - A moda (o salário mais frequente) foi 35.000 com 9.178 amostras. 

# Classe "Preprocessing"
Um dos requisitos da **GRIA** para o desafio era que os códigos fossem reaproveitados. Isso para evitar códigos duplicados e reaproveitamento de códigos em trabalhos futuros.

In [1]:
class Preprocessing:

  def install_dependencies(self):
    !pip install --upgrade -r ../requirements.txt

**NOTE:**
Ok, agora que nós já temos nossa classe de **Pré-Processamento** e reaproveitamento de código vamos começar criando uma `instância` dessa classe.

---

# 01 -  Baixando & Importando as bibliotecas necessárias

In [2]:
# preprocessing.install_dependencies()

Agora vamos importar as bibliotecas necessárias:

In [3]:
import pandas as pd
import py7zr

Agora vamos extrair o conjunto de dados:

In [4]:
with py7zr.SevenZipFile("../datasets/Train_rev1.7z", mode='r') as archive:
  archive.extractall(path="/tmp") # For Linux users.

**NOTE:**  
Como o conjunto de dados é muito grande resolvi baixar a versão mais comprimida **.7z**. Optei também por descomprimir o conjunto de dados em um local temporário (diretório **/temp** no meu caso que estou utilizando Linux / Como se fosse uma **Staging Area**).

**Configurando o tamanho das saídas (outputs):**  
Antes de iniciarmos nossa análise vamos configurar o Pandas para exibir todo o conteúdo por amostra:

In [5]:
pd.options.display.max_colwidth = 100000

Por fim, vamos pegar o conjunto de dados baixado:

In [6]:
full_df = pd.read_csv("/tmp/Train_rev1.csv")

# 02 - Visão geral (overview) do conjunto de dados
Bem, como nós já fizemos uma **Análise Preliminar** do conjunto de dados e vamos trabalhar cada variável (feature) individualmente vamos apenas exibir as informações gerais do conjunto de dados com a função **info()** do *Pandas*.

In [7]:
full_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244768 entries, 0 to 244767
Data columns (total 12 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Id                  244768 non-null  int64 
 1   Title               244767 non-null  object
 2   FullDescription     244768 non-null  object
 3   LocationRaw         244768 non-null  object
 4   LocationNormalized  244768 non-null  object
 5   ContractType        65442 non-null   object
 6   ContractTime        180863 non-null  object
 7   Company             212338 non-null  object
 8   Category            244768 non-null  object
 9   SalaryRaw           244768 non-null  object
 10  SalaryNormalized    244768 non-null  int64 
 11  SourceName          244767 non-null  object
dtypes: int64(2), object(10)
memory usage: 22.4+ MB


---

# 03 - Aplicando Pré-Processamento nas colunas (features)
Nessa etapa vamos aplicar um **Pré-Processamento** em cada coluna individualmente.

---

## 03.1 - Pré-Processando a coluna (feature) "Id"
> Essa coluna (feature) não vai precisar ser Pré-Processada. Como nós sabemos é apenas o identificado único de cada amostra.

---

## 03.2 - Pré-Processando a coluna (feature) "Title"
> Resumidamente, o **Title** é o resumo do *cargo* ou *função*.

### Preparando e colocando o tipo de dado mais adequado na *coluna (feature)* "title":

In [8]:
df_Title = full_df[["Title"]].copy()
df_Title = df_Title.astype({'Title': 'string'})
df_Title.info()
df_Title.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244768 entries, 0 to 244767
Data columns (total 1 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   Title   244767 non-null  string
dtypes: string(1)
memory usage: 1.9 MB


Unnamed: 0,Title
0,Engineering Systems Analyst
1,Stress Engineer Glasgow
2,Modelling and simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller
4,"Pioneer, Miser Engineering Systems Analyst"


### Verificando quanto porcento (%) dos dados são ausentes (missing):

Vamos começar verificando o **número** de dados ausentes na coluna (feature) **Title**:

In [9]:
# Data missing sum.
missing = df_Title.isnull().sum()
missing

Title    1
dtype: int64

Nós temos que entre às 244.768 amostras, apenas uma delas está faltando o **title (título)**. Vamos ver quanto porcento representa esse único título faltante:

In [10]:
# Data missing in percent.
percentMissing = (missing / len(df_Title.index)) * 100
percentMissing

Title    0.000409
dtype: float64

**NOTE:**  
Agora vem a pergunta-chave:

> **Por que apenas uma das amostras está sem o título?**

### Aplicando Lower Casing:

In [11]:
df_Title["processed_title"] = df_Title["Title"].str.lower()
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engineering systems analyst
1,Stress Engineer Glasgow,stress engineer glasgow
2,Modelling and simulation analyst,modelling and simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller,engineering systems analyst / mathematical modeller
4,"Pioneer, Miser Engineering Systems Analyst","pioneer, miser engineering systems analyst"


### Removendo pontuações:

In [12]:
df_Title["processed_title"] = df_Title["processed_title"].str.replace('[^\w\s]',' ', regex=True)
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engineering systems analyst
1,Stress Engineer Glasgow,stress engineer glasgow
2,Modelling and simulation analyst,modelling and simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller,engineering systems analyst mathematical modeller
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engineering systems analyst


### Removendo números:

In [13]:
df_Title["processed_title"] = df_Title["processed_title"].str.replace('[0-9]+', '', regex=True)
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engineering systems analyst
1,Stress Engineer Glasgow,stress engineer glasgow
2,Modelling and simulation analyst,modelling and simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller,engineering systems analyst mathematical modeller
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engineering systems analyst


### Aplicando Stopword Removal (Remoção de palavras irrelevantes):

In [14]:
from nltk.corpus import stopwords
", ".join(stopwords.words('english'))

"i, me, my, myself, we, our, ours, ourselves, you, you're, you've, you'll, you'd, your, yours, yourself, yourselves, he, him, his, himself, she, she's, her, hers, herself, it, it's, its, itself, they, them, their, theirs, themselves, what, which, who, whom, this, that, that'll, these, those, am, is, are, was, were, be, been, being, have, has, had, having, do, does, did, doing, a, an, the, and, but, if, or, because, as, until, while, of, at, by, for, with, about, against, between, into, through, during, before, after, above, below, to, from, up, down, in, out, on, off, over, under, again, further, then, once, here, there, when, where, why, how, all, any, both, each, few, more, most, other, some, such, no, nor, not, only, own, same, so, than, too, very, s, t, can, will, just, don, don't, should, should've, now, d, ll, m, o, re, ve, y, ain, aren, aren't, couldn, couldn't, didn, didn't, doesn, doesn't, hadn, hadn't, hasn, hasn't, haven, haven't, isn, isn't, ma, mightn, mightn't, mustn, mus

In [15]:
STOPWORDS = set(stopwords.words('english'))
def remove_stopwords(text):
  return " ".join([word for word in str(text).split() if word not in STOPWORDS])

df_Title["processed_title"] = df_Title["processed_title"].apply(lambda text: remove_stopwords(text))
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engineering systems analyst
1,Stress Engineer Glasgow,stress engineer glasgow
2,Modelling and simulation analyst,modelling simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller,engineering systems analyst mathematical modeller
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engineering systems analyst


### Removendo palavras mais frequentes:

In [16]:
from collections import Counter

cnt_title = Counter() # Instance
for text in df_Title["processed_title"].values:
  for word in text.split():
    cnt_title[word] += 1

cnt_title.most_common(10)

[('manager', 50162),
 ('engineer', 24192),
 ('sales', 19769),
 ('senior', 16976),
 ('developer', 13895),
 ('assistant', 12179),
 ('k', 11057),
 ('executive', 10632),
 ('business', 9988),
 ('consultant', 9496)]

**NOTE:**  
Na minha opinião quase todas, senão todas (tirandi "k") são relevantes para o modelo aprender. Sabendo disso não vou remover nenhuma delas.

### Remoção de palavras raras:

In [17]:
n_rare_words = 10
RAREWORDS = set([w for (w, wc) in cnt_title.most_common()[:-n_rare_words-1:-1]])
RAREWORDS

{'bellhill',
 'constructions',
 'hydrolic',
 'improvemen',
 'leadopportunity',
 'mlnlycke',
 'norley',
 'tase',
 'techniciancivil',
 'tuiton'}

In [18]:
n_rare_words = 10
RAREWORDS = set([w for (w, wc) in cnt_title.most_common()[:-n_rare_words-1:-1]])
def remove_rarewords(text):
  return " ".join([word for word in str(text).split() if word not in RAREWORDS])

df_Title["processed_title"] = df_Title["processed_title"].apply(lambda text: remove_rarewords(text))
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engineering systems analyst
1,Stress Engineer Glasgow,stress engineer glasgow
2,Modelling and simulation analyst,modelling simulation analyst
3,Engineering Systems Analyst / Mathematical Modeller,engineering systems analyst mathematical modeller
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engineering systems analyst


### Aplicando a técnica de Stemming:

In [19]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer() # Instance.
def stem_words(text):
  return " ".join([stemmer.stem(word) for word in text.split()])

df_Title["processed_title"] = df_Title["processed_title"].apply(lambda text: stem_words(text))
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engin system analyst
1,Stress Engineer Glasgow,stress engin glasgow
2,Modelling and simulation analyst,model simul analyst
3,Engineering Systems Analyst / Mathematical Modeller,engin system analyst mathemat model
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engin system analyst


### Aplicando a técnica de Lemmatization + Part-of-Speech Tagging:

In [20]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
import nltk

lemmatizer = WordNetLemmatizer() # Instance
wordnet_map = {"N":wordnet.NOUN, "V":wordnet.VERB, "J":wordnet.ADJ, "R":wordnet.ADV} # Apply dict mapping.

# Lemmatize words function.
def lemmatize_words(text):
  pos_tagged_text = nltk.pos_tag(text.split())
  return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_tagged_text])

df_Title["processed_title"] = df_Title["processed_title"].apply(lambda text: lemmatize_words(text))
df_Title.head()

Unnamed: 0,Title,processed_title
0,Engineering Systems Analyst,engin system analyst
1,Stress Engineer Glasgow,stress engin glasgow
2,Modelling and simulation analyst,model simul analyst
3,Engineering Systems Analyst / Mathematical Modeller,engin system analyst mathemat model
4,"Pioneer, Miser Engineering Systems Analyst",pioneer miser engin system analyst


### Aplicando a técnica de Count Vectorizer:

In [21]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer() # Instance.
df_title_vectorized = vectorizer.fit_transform(df_Title["processed_title"])

In [22]:
df_title_vectorized

<244768x14917 sparse matrix of type '<class 'numpy.int64'>'
	with 923171 stored elements in Compressed Sparse Row format>

---

## 03.3 - Pré-Processando a coluna (feature) "SalaryNormalized"
> Tem o mesmo significado da coluna **"SalaryRaw"**, porém a **Adzuna** normalizou os dados para ser representado de forma anualizado.

In [24]:
df_SalaryNormalized = full_df[["SalaryNormalized"]]
df_SalaryNormalized.info()
df_SalaryNormalized.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244768 entries, 0 to 244767
Data columns (total 1 columns):
 #   Column            Non-Null Count   Dtype
---  ------            --------------   -----
 0   SalaryNormalized  244768 non-null  int64
dtypes: int64(1)
memory usage: 1.9 MB


Unnamed: 0,SalaryNormalized
0,25000
1,30000
2,30000
3,27500
4,25000


### Verificando quanto porcento (%) dos dados são ausentes (missing):

In [25]:
# Data missing sum.
missing = df_SalaryNormalized.isnull().sum()
missing

SalaryNormalized    0
dtype: int64

In [26]:
# Data missing in percent.
percentMissing = (missing / len(df_SalaryNormalized.index)) * 100
percentMissing

SalaryNormalized    0.0
dtype: float64

**NOTE:**  
Essa é a variável **target**. Por hora, vamos trabalhar com ela do jeito que está normalizado pelo a **Adzuna** ignorando se a mesma realmente fez um bom trabalho. O objetivo dessa abordagem vai ser ter algo disponível para a etapa de **treinamento** e **validação** trabalhar o mais rápido possível.

---

# 04 - Load
> A etapa de **load** vai ser responsável por salvar os dados já ***Pré-Processados*** por uma ou mais colunas (features).

**NOTE:**  
Essa etapa segue uma lógica incremental, onde, em cada iteração **(Load-v1, Load-v2,..., Load-vn)** nós vamos salvando os dados já manipulados com objetivo de encontrar uma melhor métrica ou modelagem dos dados.

---

## 04.1 - Load-v1
Para esse primeiro **Load** vamos começar com as colunas (features) mais simples possíveis, que são:
 - **Title** como variável **independente**.
 - **"SalaryNormalized"** como variável **dependente**.

**NOTE:**  
Eu escolhi essas colunas (features), pois, já receberam algum **Pré-Processamento básico** (o que não significa que mudanças possam ser feitas).

### Salvando a Matriz esparsa:
Primeiro, vamos salvar o resultado do **Pré-Processamento** na coluna (feature) **Title**.

In [27]:
import scipy.sparse
scipy.sparse.save_npz('df_title_vectorized.npz', df_title_vectorized)

### SalaryNormalized:
Para coluna (feature) **"SalaryNormalized"** nós vamos pegar ela na hora do treinamento do modelo visto que alterações não foram feitas.

---

# Resumos

 - **Load-v1:**
   - No ***Load-v1*** foi **Pré-Processada** a coluna (features) **Title**.
   - Também foi utilizada a coluna (feature) **SalaryNormalized** que já havia sido normalizada pelo a **Adzuna**.
   - O objetivo era ter **features** o mais rápido possível disponíveis para a etapa de **Modelagem & Validação**.