# Instalaciones

In [1]:
!pip install -U spacy
!python -m spacy download es_core_news_sm
!pip install nltk
!pip install inflect
#Detectar idioma
!pip install langdetect
#Traductor
!pip install -U deep-translator

Collecting es-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.5.0/es_core_news_sm-3.5.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 12.9/12.9 MB 3.2 MB/s eta 0:00:00
[38;5;2m[+] Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


# Imports

In [2]:
import joblib
from sklearn.pipeline import Pipeline

from CustomTransformers import Traductor, Lematizador, NoASCII, Minusculas, SinPuntuacion, ReemplazadorNumeros, SinVacios, ArrayToString

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

# Carga de datos

In [5]:
data=pd.read_csv('../HotelsReviews.csv', sep=',', encoding = 'utf-8', index_col=0)
data_t=data
data_t=data_t.drop_duplicates()
X_train, X_test, y_train, y_test = train_test_split(data_t.drop(columns = ['label']),data_t[["label"]], 
                                                    test_size=0.3, 
                                                    stratify=data_t[["label"]],
                                                    random_state = 42)

# Pipelines

* Pipeline para MultinomialNB

In [6]:
pipelineNB = Pipeline([
    ('traductor', Traductor()),
    ('lematización', Lematizador()),
    ('reemplazarNumeros', ReemplazadorNumeros()),
    ('dejarTodoMinus', Minusculas()),
    ('removerPuntuacion', SinPuntuacion()),
    ('soloAscii', NoASCII()),
    ('sinCadenasVacias', SinVacios()),
    ('arregloAString', ArrayToString()),
    ('vectorizador', CountVectorizer()),
    ('MultinomialNB',MultinomialNB())
])

pipelineNB.fit(X_train,y_train)

Pipeline(steps=[('traductor', Traductor()), ('lematización', Lematizador()),
                ('reemplazarNumeros', ReemplazadorNumeros()),
                ('dejarTodoMinus', Minusculas()),
                ('removerPuntuacion', SinPuntuacion()),
                ('soloAscii', NoASCII()), ('sinCadenasVacias', SinVacios()),
                ('arregloAString', ArrayToString()),
                ('vectorizador', CountVectorizer()),
                ('MultinomialNB', MultinomialNB())])

In [7]:
joblib.dump(pipelineNB, 'pipelineNB.pkl')

['pipelineNB.pkl']

* Pipeline para Linear SVC

In [8]:
pipelineSVC = Pipeline([
    ('traductor', Traductor()),
    ('lematización', Lematizador()),
    ('reemplazarNumeros', ReemplazadorNumeros()),
    ('dejarTodoMinus', Minusculas()),
    ('removerPuntuacion', SinPuntuacion()),
    ('soloAscii', NoASCII()),
    ('sinCadenasVacias', SinVacios()),
    ('arregloAString', ArrayToString()),
    ('vectorizador', CountVectorizer()),
    ('LinearSVC', LinearSVC())
])

pipelineSVC.fit(X_train,y_train)

Pipeline(steps=[('traductor', Traductor()), ('lematización', Lematizador()),
                ('reemplazarNumeros', ReemplazadorNumeros()),
                ('dejarTodoMinus', Minusculas()),
                ('removerPuntuacion', SinPuntuacion()),
                ('soloAscii', NoASCII()), ('sinCadenasVacias', SinVacios()),
                ('arregloAString', ArrayToString()),
                ('vectorizador', CountVectorizer()),
                ('LinearSVC', LinearSVC())])

In [9]:
joblib.dump(pipelineSVC, 'pipelineSVC.pkl')

['pipelineSVC.pkl']

* Pipeline para Random Forest

In [10]:
pipelineForest = Pipeline([
    ('traductor', Traductor()),
    ('lematización', Lematizador()),
    ('reemplazarNumeros', ReemplazadorNumeros()),
    ('dejarTodoMinus', Minusculas()),
    ('removerPuntuacion', SinPuntuacion()),
    ('soloAscii', NoASCII()),
    ('sinCadenasVacias', SinVacios()),
    ('arregloAString', ArrayToString()),
    ('vectorizador', CountVectorizer()),
    ('RandomForest', RandomForestClassifier())
])

pipelineForest.fit(X_train,y_train)

Pipeline(steps=[('traductor', Traductor()), ('lematización', Lematizador()),
                ('reemplazarNumeros', ReemplazadorNumeros()),
                ('dejarTodoMinus', Minusculas()),
                ('removerPuntuacion', SinPuntuacion()),
                ('soloAscii', NoASCII()), ('sinCadenasVacias', SinVacios()),
                ('arregloAString', ArrayToString()),
                ('vectorizador', CountVectorizer()),
                ('RandomForest', RandomForestClassifier())])

In [11]:
joblib.dump(pipelineForest, 'pipelineForest.pkl')

['pipelineForest.pkl']