<img src="https://raw.githubusercontent.com/dadosaocubo/classificacao/master/DadosAoCubo.png" alt="drawing" width="500"/>

# Pipeline SKlearn

[__D³__](https://dadosaocubo.com/) by [__Tiago Dias__](https://www.linkedin.com/in/diasctiago/) 
<br/><br/>
Objetivo: Construir um modelo de machine learning utilizando o pipeline do pacote scikit-learn. Dessa forma, vamos abordar de forma prática técnicas de NLP para realizar a classificação de produtos.
<br/><br/>
Tópicos da aula:
*   O que é Machine Learning?
*   O que são algoritmos de classificação?
*   O que é NLP?
*   Conhecendo a biblioteca scikit-learn.
*   Por que usar pipelines em modelos de ML?
*   Pipeline do Scikit-Learn ao Cubo



## O que é Machine Learning?

Machine Learning também conhecido como ML, ou em português como Aprendizado de Máquina, é a forma como algoritmos são treinados para reconhecer padrões e generalizar decisões baseadas em dados. É uma parte da inteligência artifical que se baseia na idea onde as máquinas podem gerar uma resposta a partir de uma análise prévia em um grande conjunto de dados. 
<br/><br/>
No aprendizado de máquina, temos alguns tipos de aprendizados, são eles: supervisionado, não supervisionado e por reforço. Onde podemos resolver problemas de regressão, classificação, agrupamento entre outros. 
<br/><br/>
Aqui veremos a resolução de um problema de classificação com NLP!

## O que são algoritmos de classificação?

Os problemas de classificação são comuns e se resumem em uma tarefa de atribuição de classe dada uma observação de dados.
<br/><br/>
Vejamos, se temos um conjunto de dados, cada exemplo que temos seria uma observação. Já a classe desse exemplo seria a classificação do mesmo. Por exemplo, se temos um conjunto de fotos de gatos e cachorros, e queremos fazer a classificação das fotos que são gatos. Cada foto será uma observação e a nossa classe será gato. Para resolver o nosso problema vamos classificar cada observação em positiva e negativa (O que vai ser positivo e negativo depende da narrativa do problema). Portanto temos uma classificação binária.
<br/><br/>
Mas poderia ter outro tipo de classificação? Claro, pegamos o mesmo problema acima e acrescentamos fotos de coelho. Assim, podemos ter um novo problema e queremos fazer a classificação por animal. Neste caso temos 3 classes de animais para fazer a classificação, gato, cachorro e coelho. Dessa forma teríamos uma classificação multiclasse.

## O que é NLP?

O  processamento de linguagem natural ou NLP é a área de estudo que busca fazer com que a máquina possa compreender e simular a linguagem humana. Em outras palavras, é fazer o computador receber uma frase e ter uma “opinião” sobre ela.<br/><br/>
Na ciência de dados e inteligência artificial a NLP tem áreas de estudos específicas, além disso é tratada com muito carinho pois é a chave para resolução de muitos problemas atuais. As soluções vão desde classificação de textos, até soluções mais complexas de análises de sentimentos.
<br/><br/>
Chatbots e assistentes virtuais são outras soluções que estão em alta relacionadas a NLP. Os chatbots podem ter soluções simples, como respostas prontas relacionadas a um manual técnico de instruções, até soluções mais complexas de interações de diálogos com seres humanos, como o famoso Watson da  IBM. Dessa mesma forma estão os assistentes virtuais com reconhecimento de voz e interações dos mais diversos temas, por exemplo, a Siri do iPhone ou a Alexa da Amazon.








## Conhecendo a biblioteca scikit-learn.


É uma lib de Machine Learning para Python e temos a seguinte definição da própria biblioteca: "Scikit-learn é uma biblioteca de aprendizado de máquina de código aberto que oferece suporte ao aprendizado supervisionado e não supervisionado. Ele também fornece várias ferramentas para ajuste de modelos, pré-processamento de dados, seleção de modelos, avaliação de modelos e muitas outras utilidades."
<br/><br/>
Dessa forma, ela é utilizada por toda a comunidade, seja para estudos ou profissionalmente. Muito bem documentada e com uma vasta quantidade de exemplos na própria documentação. Ela disponibiliza algoritmos de regressão, classificação, clusterização, pré-processamento de dados e ainda construção de modelos de ML com pipelines.

## Por que usar pipelines em modelos de ML?

O objetivo do pipeline é reunir as várias etapas do processo, que podem ser validadas de forma cruzada ao definir parâmetros diferentes. Além de  tornar o código mais simples e otimizar o deploy do modelo. Sendo assim, facilita desde o entendimento da solução, como a manutenção do código no futuro.

## Pipeline do Scikit-Learn ao Cubo

Criando uma solução de NLP com scikit-learn. A partir de uma base de dados mercadológica onde temos itens classificados por departamento, treinaremos o algoritmo para classificar novos produtos com os departamentos conhecidos. 
<br/><br/>
Para que isso seja possível veremos algumas técnicas que são utilizadas para NLP. Construiremos um processo para chegar a solução desse problema, utilizando a linguagem python. Para finalizar, criaremos um pipeline para deploy do modelo.


### Importando bibliotecas

In [29]:
# lib para leitura dos dados
import pandas as pd
# funções transformação dos dados para input do modelo
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
# modelo de classificação
from sklearn.svm import LinearSVC
# funções para construção do pipeline
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin

### Carregando dataset

In [30]:
df = pd.read_csv('https://raw.githubusercontent.com/dadosaocubo/nlp/master/base_mercadologica.csv')
df.head(2)

Unnamed: 0,descricao,departamento
0,"PASTA INT VITAPOWER 1,005KG AMEND/SHOT",MERCEARIA DOCE
1,ESPONJA BETTANIN BRILHUS C/1,CUIDADOS COM A COZINHA


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22009 entries, 0 to 22008
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   descricao     22009 non-null  object
 1   departamento  22009 non-null  object
dtypes: object(2)
memory usage: 344.0+ KB


### Stop Words

**O que são stop words?** São palavras que podemos remover para facilitar a análise do texto, não existe uma regra universal, vai depender muito de cada problema.

In [32]:
stop_words = ['em','sao','ao','de','da','do','para','c','kg','un','ml',
              'pct','und','das','no','ou','pc','gr','pt','cm','vd','com',
              'sem','gfa','jg','la','1','2','3','4','5','6','7','8','9',
              '0','a','b','c','d','e','lt','f','g','h','i','j','k','l',
              'm','n','o','p','q','r','s','t','u','v','x','w','y','z']

### Criação do Modelo com Pipeline




Criação de uma função para utilização no pipeline.
*   **BaseEstimator:** Classe base para todos os estimadores no scikit-learn.
*   **TransformerMixin:** Classe Mixin para todos os transformadores no scikit-learn.

#### Criando uma Função de Transformação

In [33]:
# Um transformador para colunas
class TColumns(BaseEstimator, TransformerMixin):
    def __init__(self):
        print()
    # Função de fit ds dados de entrada
    def fit(self, X, y=None):
        return self
    # Função de tranformação dos dados de entrada
    def transform(self, X):
        # Primeiro realizamos a cópia do DataFrame 'X' de entrada
        data = X.copy()
        data['descricao'] = data['descricao'].str.replace('[,.:;!?]+', ' ', regex=True).copy()
        data['descricao'] = data['descricao'].str.replace('[/<>()|\+\-\$%&#@\'\"]+', ' ', regex=True).copy()
        data['descricao'] = data['descricao'].str.replace('[0-9]+', '', regex=True)
        # Retornamos um novo dataframe com as colunas
        return data.descricao

#### Definindo o Pipeline do Modelo

In [34]:
# Criando uma instância do transformador das colunas
tco = TColumns()

# Criando uma instância do CountVectorizer
cvt = CountVectorizer(strip_accents='ascii', lowercase=True, stop_words=stop_words)

# Criando uma instância do TfidfTransformer
tfi = TfidfTransformer(use_idf=True)

# Criando uma instância do modelo LinearSVC
clf = LinearSVC()

# Criando a Pipeline, adicionando o nosso transformador seguido de um modelo de classificação
skl_pipeline = Pipeline(steps=[('Transformer', tco), 
                               ('CountVectorizer', cvt), 
                               ('TfidfTransformer', tfi), 
                               ('Model', clf)])




#### Treinando o Modelo

In [35]:
# Executando Pipeline
entrada = df[['descricao']]
saida = df['departamento']
skl_pipeline.fit(entrada, saida)

Pipeline(steps=[('Transformer', TColumns()),
                ('CountVectorizer',
                 CountVectorizer(stop_words=['em', 'sao', 'ao', 'de', 'da',
                                             'do', 'para', 'c', 'kg', 'un',
                                             'ml', 'pct', 'und', 'das', 'no',
                                             'ou', 'pc', 'gr', 'pt', 'cm', 'vd',
                                             'com', 'sem', 'gfa', 'jg', 'la',
                                             '1', '2', '3', '4', ...],
                                 strip_accents='ascii')),
                ('TfidfTransformer', TfidfTransformer()),
                ('Model', LinearSVC())])

#### Utilizando o Modelo

Para realizar a predição do modelo criado com pipeline, só é necessário fazer um predict no pipeline, passado os dados em forma de dataframe como o seguinte código **skl_pipeline.predict(df_predict)**

In [36]:
# função para utilização do pipeline
fim = '0'
while (fim != '-1'):
  descricao = input('Informe o item para classificar ou -1 para encerrar o programa: ')
  fim = descricao
  if fim != '-1':
    df_predict = pd.DataFrame([descricao], columns=['descricao'])
    print('O item {} está na seção {}\n'.format(descricao.upper(), skl_pipeline.predict(df_predict)[0]))
  else:
    print('Obrigado! Volte sempre!!!')

Informe o item para classificar ou -1 para encerrar o programa: CELULAR
O item CELULAR está na seção ELETRO

Informe o item para classificar ou -1 para encerrar o programa: CADERNO PARA NOTAS
O item CADERNO PARA NOTAS está na seção PAPELARIA

Informe o item para classificar ou -1 para encerrar o programa: FONEDE OUVIDO
O item FONEDE OUVIDO está na seção ELETRO

Informe o item para classificar ou -1 para encerrar o programa: RAÇÃO PARA DOG
O item RAÇÃO PARA DOG está na seção PET SHOP

Informe o item para classificar ou -1 para encerrar o programa: MANGA
O item MANGA está na seção HORTIFRUTI

Informe o item para classificar ou -1 para encerrar o programa: MANGA PARA MOTO
O item MANGA PARA MOTO está na seção HORTIFRUTI

Informe o item para classificar ou -1 para encerrar o programa: -1
Obrigado! Volte sempre!!!
