# Proyecto: Claficador de texto según las 17 ODS

El objetivo del proyecto es desarrollar una solución, basada en técnicas de procesamiento del
lenguaje natural y machine learning, que permita clasificar automáticamente un texto según los
17 ODS, ofreciendo una forma de presentación de resultados a través de una herramienta de
fácil comprensión para el usuario final.

Para lograr este modelo, se realizaran los siguientes pasos:

1. Importar las librerías necesarias.


In [27]:
import pandas as pd
from nltk import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.decomposition import TruncatedSVD


In [9]:
df = pd.read_excel('Train_textosODS.xlsx')
df.sample(5)

Unnamed: 0,textos,ODS
7059,"Con ayuda internacional, se ha mejorado la pro...",7
434,Esto sugiere que pagar a los proveedores en fu...,3
8479,"Además, las grandes disparidades de ingresos p...",8
8938,Esta estrategia incluye la participación de lo...,5
444,Salvaguardar la sostenibilidad de la deuda exi...,9


In [10]:
print('Tamaño de los datos:',df.shape)

Tamaño de los datos: (9656, 2)


In [11]:
print('Cantidad de datos nulos:')
print(df.isna().sum())

Cantidad de datos nulos:
textos    0
ODS       0
dtype: int64


In [12]:
print('Cantidad de datos duplicados:')
print(df.duplicated().sum())

Cantidad de datos duplicados:
0


In [18]:
df_train, df_test = train_test_split(df, test_size = 0.4, random_state=0)
df_test, df_val = train_test_split(df_test, test_size = 0.5, random_state=0)
print('Cantidad de datos de entrenamiento:',len(df_train))
print('Cantidad de datos de prueba:',len(df_test))
print('Cantidad de datos de validación:',len(df_val))

Cantidad de datos de entrenamiento: 5793
Cantidad de datos de prueba: 1931
Cantidad de datos de validación: 1932


In [31]:
x_train = df_train.drop('ODS', axis = 1)
y_train = df_train['ODS']
x_test = df_test.drop('ODS', axis = 1)
y_test = df_test['ODS']
x_val = df_val.drop('ODS', axis = 1)
y_val = df_val['ODS']

In [20]:
def text_preprocess(text):
    tokenizer = RegexpTokenizer(r'\w+')
    stemmer = PorterStemmer()
    
    tokens = tokenizer.tokenize(text)
    tokens = [word for word in tokens if word not in stopwords.words('english')]
    tokens = [stemmer.stem(word) for word in tokens]
    return ' '.join(tokens)

In [23]:
vectorizer = CountVectorizer(preprocessor=text_preprocess)

In [32]:
x_train = vectorizer.fit_transform(x_train)
x_train

<1x1 sparse matrix of type '<class 'numpy.int64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [33]:
x_val = vectorizer.transform(x_val)
x_val

<1x1 sparse matrix of type '<class 'numpy.int64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [34]:
tsvd = TruncatedSVD(n_components=100)

In [30]:
x_train = tsvd.fit_transform(x_train)
x_train

ValueError: Found array with 1 feature(s) (shape=(1, 1)) while a minimum of 2 is required by TruncatedSVD.