In [23]:
import numpy as np
import pandas as pd
import re
import string

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer


from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import (
    ConfusionMatrixDisplay, RocCurveDisplay,
    roc_auc_score, precision_score, recall_score, f1_score
)
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.pipeline import Pipeline

In [28]:
# Downloading stopwords
nltk.download("punkt")
nltk.download("stopwords")
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
stop_words = stopwords.words("spanish")

[nltk_data] Downloading package punkt to /home/spinzon/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/spinzon/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/spinzon/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /home/spinzon/nltk_data...


In [3]:
stop_words

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

## Carga de datos y preparación

In [4]:
train_df = pd.read_excel("./data/cat_6716.xlsx")

In [5]:
train_df.shape

(3000, 2)

In [6]:
train_df.sample(10)

Unnamed: 0,Textos_espanol,sdg
713,La construcción de la presa Stanca-Costesti co...,6
1431,"Dejar los derechos de uso ambiental, es decir,...",7
2477,En este capÃtulo se explora la relaciÃ³n entre...,16
1248,La mayoría requiere que estos bonos tengan al ...,7
950,"En la primera parte del siglo XX, la mera conv...",6
301,Estas inversiones generalmente tienen el propó...,6
922,Otros eventos que podrían interrumpir el sumin...,6
2546,Resumen Este artÃculo describe y analiza varia...,16
1984,La cooperación podría incluir la generación de...,7
1425,"Los desafíos clave son el alto costo inicial, ...",7


In [7]:
train_df.dtypes

Textos_espanol    object
sdg                int64
dtype: object

In [8]:
train_df["Textos_espanol"]= train_df["Textos_espanol"].astype(str)

In [9]:
test_df = pd.read_excel("./data/SinEtiquetatest_cat_6716.xlsx")

In [10]:
test_df

Unnamed: 0,Textos_espanol,sdg
0,1. 1. Introducción: Las Estructuras del Derech...,
1,Las aguas subterráneas se han debatido en el c...,
2,La presente contribución evalúa la jurispruden...,
3,"Sin embargo, este crédito fiscal expira en 201...",
4,"Este estudio explora las actitudes, comportami...",
...,...,...
975,Este artículo explora la historia y el impacto...,
976,Mientras que algunos dan mayor énfasis a la ma...,
977,Una innovación importante para garantizar el s...,
978,El Salvador continúa luchando con niveles elev...,


## Preparacion de los datos

Se pasa todo a minusculas y se eliminan signos de puntuacion y caracteres especiales para facilitar el procesamiento de las palabras

In [12]:
#convert to lowercase, strip and remove punctuations
def preprocess(text):
    text = text.lower() 
    text=text.strip()  
    text=re.compile('<.*?>').sub('', text) 
    text = re.compile('[%s]' % re.escape(string.punctuation)).sub(' ', text)  
    text = re.sub('\s+', ' ', text)  
    text = re.sub(r'\[[0-9]*\]',' ',text) 
    text=re.sub(r'[^\w\s]', '', str(text).lower().strip())
    text = re.sub(r'\d',' ',text) 
    text = re.sub(r'\s+',' ',text) 
    return text


Tambien se remueven "Stop words" o palabras genericas que no afectan el sentimieno general en el texto

In [41]:
# STOPWORD REMOVAL
def stopword(string):
    a= [i for i in string.split() if i not in stop_words]
    return ' '.join(a)

Se utiliza la lematizacion para reducir palabras a su estado mas basico removiendo conjugaciones

In [38]:
#LEMMATIZATION
# Initialize the lemmatizer
wl = WordNetLemmatizer()
 
# This is a helper function to map NTLK position tags
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN
        
# Tokenize the sentence
def lemmatizer(string):
    word_pos_tags = nltk.pos_tag(word_tokenize(string)) # Get position tags
    a=[wl.lemmatize(tag[0], get_wordnet_pos(tag[1])) for idx, tag in enumerate(word_pos_tags)] # Map the position tag and lemmatize the word/token
    return " ".join(a)

In [39]:
def finalpreprocess(string):
    return lemmatizer(stopword(preprocess(string)))

Tomado de https://medium.com/analytics-vidhya/nlp-tutorial-for-text-classification-in-python-8f19cd17b49e

In [42]:
train_df['clean_text'] = train_df['Textos_espanol'].apply(lambda x: finalpreprocess(x))
train_df.head()

Unnamed: 0,Textos_espanol,sdg,clean_text
0,"Es importante destacar que, en un año de sequí...",6,importante destacar año sequía espera disminuy...
1,Hay una gran cantidad de literatura sobre Aust...,6,gran cantidad literatura australia área sugier...
2,"Los procesos de descentralización, emprendidos...",6,procesos descentralización emprendidos serie a...
3,Esto puede tener consecuencias sustanciales pa...,6,puede tener consecuencias sustanciales calidad...
4,La función de beneficio también incorpora pará...,6,función beneficio incorpora parámetros afectan...


## Vectorizacion

Para que los modelos de clasificacion puedan trabajar con los datos es importante darles valores numericos primero