# Proyecto práctico

## Unidad 3 - Aprendizaje supervisado

El proyecto práctico consiste en abordar un problema de clasificación de documentos textuales. Tenemos a nuestra disposición un dataset de noticias de prensa en español publicada por el medio "CNN Chile".

Las noticias están divididas en 7 categorías temáticas: *'pais','deportes','tendencias','tecnologias','cultura','economia','mundo'*

El proyecto se divide en dos partes:

- Utilizar al menos 3 estrategías para entrenar modelos de clasificación capaces de clasificar las noticias según su categoría temática.

- Explorar cuáles son las características que permiten explicar las decisiones de su modelo.

## 0. Evaluación

El proyecto se realiza de forma individual. Se entrega a más tardar el **lunes 30 de noviembre** en su repositorio GitHub.

**Pauta de evaluación:**

Competencia 1: Aplicar un protocolo de aprendizaje supervisado para resolver un problema clasificación estandar, utilizando un entorno de programación en Python

- < 2 : El protocolo de aprendizaje supervisado utilizado es incompleto y/o presenta errores importantes
- 2 a 3.9 : El protocolo de aprendizaje supervisado utilizado es incompleto o presenta un error importante
- 4 a 5.5 : El protocolo de aprendizaje es completo, no tiene error, pero las estrategias utilizadas son relativamente simples y el rendimiento de los modelos es perfectible.
- 5.6 a 7.0 : El protocolo de aprendizaje es completo, no tiene error y al menos una de las estrategias utilizadas a necesitado un trabajado más avanzado y/o permite obtener un mejor rendimiento.

Competencia 2: Explicar el rendimiento de un modelo de clasificación aplicando un protocolo de evaluación Precision/Recall/F-Score

- < 2 : El trabajo no presenta explicaciones del rendimiento de los modelos de clasificación
- 2 a 3.9 : El trabajo presenta algunas explicaciones pero tienen errores.
- 4 a 5.5 : El trabajo presenta explicaciones correctas del rendimiento de los modelos
- 5.6 a 7 : El trabajo presenta explicaciones correctas del rendimiento de los modelos y además presenta un método para explicar las decisiones/errores


## 1. Dataset

**Nombre: Victor Moya Velásquez** 

A continuación se realizará un análisis del dataset para entontrar la mejor forma de clasificar la clase del objeto según un algoritmo predictivo

In [33]:
import pandas as pd
import seaborn as sb

df = pd.read_csv('cnnchile_7000.csv')
df

Unnamed: 0,country,media_outlet,url,title,text,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/pdta-del-colegio...,Pdta. del Colegio de Matronas explicó los ries...,La Federación de Estudiantes de la Universidad...,2018-03-29 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/defensoria-ninez...,Defensoría de la Niñez pide al Estado velar po...,La Defensoría de la Niñez emitió este domingo ...,2020-08-02 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/cuanto-les-pagar...,¿Cuánto les pagarán a los vocales de mesa?,El monto del bono es de dos tercios de Unidad ...,2016-10-20 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/sobrino-de-aleja...,Sobrino de Alejandro Navarro intenta “funar” e...,Una nueva polémica tiene esta carrera presiden...,2017-11-13 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/analisis-sobre-e...,Análisis sobre el aumento de impuestos para al...,Especialistas recomiendan no consumir más de 2...,2014-05-05 00:00:00.000000,pais
...,...,...,...,...,...,...,...
6995,chile,cnnchile,https://www.cnnchile.com/tecnologias/playstati...,PlayStation 5 vs Xbox Series X: Mira la compar...,Las compañías ya han revelado muchos detalles ...,2020-09-18 00:00:00.000000,tecnologias
6996,chile,cnnchile,https://www.cnnchile.com/tecnologias/android-l...,Android le dará “una paliza” a Windows en 2013,Se proyecta que tras un virtual empate en 2012...,2013-04-04 00:00:00.000000,tecnologias
6997,chile,cnnchile,https://www.cnnchile.com/tecnologias/regalos-t...,Regalos tecnológicos marcaron pauta en Navidad,Tablets y smartphones fueron los regalos tecno...,2012-12-26 00:00:00.000000,tecnologias
6998,chile,cnnchile,https://www.cnnchile.com/tecnologias/jugar-con...,Jugar con Fox en Starlink vale totalmente la p...,Crecí jugando clásicos de naves como Terminal ...,2018-10-30 00:00:00.000000,tecnologias


## Limpieza del dataset


Ahora se limpiará el dataset para analizar que datos son innecesarios o que sean necesario cambiar

In [34]:
from pandasql import sqldf

q="""SELECT category, count(*) FROM df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,1000
1,tecnologias,1000
2,pais,1000
3,mundo,1000
4,economia,1000
5,deportes,1000
6,cultura,1000


In [35]:
df.groupby(['country']).count()


Unnamed: 0_level_0,media_outlet,url,title,text,date,category
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
chile,7000,7000,6999,7000,7000,7000


Como el campo **country** toma solo un posible valor, entonces podemos eliminarlo

In [36]:
df.drop(['country'],axis=1,inplace=True)

Ahora eliminaremos los datos irrelevantes:  

- media_outlet   
- url
- title()
- date(por ser una fecha)

Estos datos no tienen relevancia para detectar la clase del objeto

In [37]:
df.drop(['media_outlet','date','url','title'],axis=1,inplace=True)

Cambiamos los valores de la columna **category** por valores numericos

In [38]:
df["category"].replace({'tendencias':0, 'tecnologias':1, 'pais':2, 'mundo':3, 'economia':4, 'deportes':5,'cultura':6 }, inplace=True)

In [39]:
df.isnull().sum()

text        0
category    0
dtype: int64

No existen datos nulos

# Regresion Logistica

La regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica en función de las variables independientes o predictoras. 

Realizaré el modelo de predicción utilizando regresión logística

In [41]:
import spacy
import es_core_news_sm

nlp = es_core_news_sm.load ()

In [42]:
from sklearn.feature_extraction.text import CountVectorizer

In [43]:
def feature_extraction(text):
    
    mytokens = nlp(text)

    #Guardamos las palabras como características si corresponden a ciertas categorias gramaticales
    mytokens = [ word for word in mytokens if word.pos_ in ["NOUN", "ADJ", "VERB"] ]
    
    #Transformamos las palabras en minusculas
    mytokens = [ word.lemma_.lower().strip() for word in mytokens ]

    # return preprocessed list of tokens
    return mytokens

In [44]:
from sklearn.model_selection import train_test_split

X = df['text'] 
ylabels = df['category']

X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.7)
ylabels

0       2
1       2
2       2
3       2
4       2
       ..
6995    1
6996    1
6997    1
6998    1
6999    1
Name: category, Length: 7000, dtype: int64

In [45]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vector = TfidfVectorizer(tokenizer = feature_extraction, min_df=0., max_df=1.0)

In [46]:
from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression

model_2 = LogisticRegression()

pipe = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', model_2)])

# model generation
pipe.fit(X_train,y_train)

Pipeline(steps=[('vectorizing',
                 TfidfVectorizer(min_df=0.0,
                                 tokenizer=<function feature_extraction at 0x000002603D46E4C0>)),
                ('learning', LogisticRegression())])

In [64]:
from sklearn import metrics

predicted = pipe.predict(X_test)
predicted_proba = pipe.predict_proba(X_test)

print(predicted)

[0 1 6 ... 3 0 1]


In [65]:
# Model Accuracy
print("Logistic Regression Accuracy:",metrics.accuracy_score(y_test, predicted))

Logistic Regression Accuracy: 0.7514285714285714


In [66]:
# Matriz de confusión
from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, predicted)
#print(confusion_matrix)

from sklearn.metrics import classification_report

print(classification_report(y_test, predicted))




              precision    recall  f1-score   support

           0       0.60      0.68      0.64       677
           1       0.78      0.61      0.68       697
           2       0.79      0.64      0.71       723
           3       0.72      0.76      0.74       689
           4       0.69      0.85      0.76       695
           5       0.92      0.82      0.87       722
           6       0.82      0.90      0.86       697

    accuracy                           0.75      4900
   macro avg       0.76      0.75      0.75      4900
weighted avg       0.76      0.75      0.75      4900



La precisión y recall de la categoria **tendecia** es baja con respecto a las otras categorias dando como resultado que el modelo no logra clasificar la categoria correctamente. En el caso del recall, es bajo en las categorias **tecnologias**, **pais**, pero con un presicion alta concluyendo que el modelo no detecta la categoria muy bien, pero cuando lo hace es altamente confiable. Con respecto a las otras categorias se comporta muy bien el modelo. En el caso de la categoria **economia** el modelo detecta bien la categoria pero también incluye muestras de otras.

## Naïve Bayes


Teorema de Bayes:

<img src="naivebayes.jpeg" />

**Modelo probabilístico que asume que existe una independencia entre las caractéristicas.**


¿Qué se aprende?: probabilidades


Ventajas:

- Cuando la suposición independiente se mantiene, entonces este clasificador da una precisión excepcional.
- Es fácil de implementar ya que sólo se debe calcular la probabilidad
- Funciona bien con dimensiones altas como la clasificación de texto.

Desventajas:

- Si la suposición independiente no se mantiene, entonces el rendimiento es muy bajo.

- Suavizar resulta ser un paso obligado cuando la probabilidad de una característica resulta ser cero en una clase.

In [82]:
from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()

model_nb = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', nb)])

In [83]:
model_nb.fit(X_train, y_train)

Pipeline(steps=[('vectorizing',
                 TfidfVectorizer(min_df=0.0,
                                 tokenizer=<function feature_extraction at 0x0000017B6603CC10>)),
                ('learning', MultinomialNB())])

In [84]:
predicted = model_nb.predict(X_test)

In [85]:
from sklearn import metrics

confusion_matrix = metrics.confusion_matrix(y_test, predicted)

print(confusion_matrix)

print(classification_report(y_test, predicted))

[[132  48  14   9   8  16  64]
 [ 18 231   4   2  22   2  17]
 [  1   9 219  22  33   1   7]
 [  5  16  23 225  17   2  11]
 [  1  20  23   3 265   0   1]
 [  8   9   6   7   8 253   8]
 [  1   2   4   9   3   0 291]]
              precision    recall  f1-score   support

           0       0.80      0.45      0.58       291
           1       0.69      0.78      0.73       296
           2       0.75      0.75      0.75       292
           3       0.81      0.75      0.78       299
           4       0.74      0.85      0.79       313
           5       0.92      0.85      0.88       299
           6       0.73      0.94      0.82       310

    accuracy                           0.77      2100
   macro avg       0.78      0.77      0.76      2100
weighted avg       0.78      0.77      0.76      2100



La precisión de la categoria **tendecia** con respecto al modelo anterior se comporta de mejor manera, pero cayendo su recall, el modelo no detecta la categoria muy bien, pero cuando lo hace es altamente confiable. En otras categorias, en el caso de **tecnologia** la presicion baja con respecto al recall, siendo esto que el modelo detecta bien la categoria pero también incluye muestras de otras categorias. Pero en general el recall y la precision se comporta de mejor manera con respecto al modelo anterior.

## Random Forest

In [54]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(n_estimators=50, max_depth=None, min_samples_split=10, random_state=0)

model_random_forest = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', random_forest)])

In [55]:
import time

start = time.time()

model_random_forest.fit(X_train, y_train)

end = time.time()
print("tiempo para entrenar:" + str(end - start))

tiempo para entrenar:95.24853610992432


In [56]:
import time

start = time.time()

predicted = model_random_forest.predict(X_test)

end = time.time()
print("tiempo para predecir:" + str(end - start))

tiempo para predecir:208.99423122406006


In [57]:
from sklearn import metrics

confusion_matrix = metrics.confusion_matrix(y_test, predicted)

print(confusion_matrix)

print(classification_report(y_test, predicted))

[[423  61  10  29  30  35  89]
 [158 363  21  16  67  28  44]
 [ 78  20 373  95 126  11  20]
 [ 66  12  58 414  82  18  39]
 [ 46  22  55  14 554   1   3]
 [ 73   4   8  15  35 578   9]
 [ 35  11   6  14   2   7 622]]
              precision    recall  f1-score   support

           0       0.48      0.62      0.54       677
           1       0.74      0.52      0.61       697
           2       0.70      0.52      0.59       723
           3       0.69      0.60      0.64       689
           4       0.62      0.80      0.70       695
           5       0.85      0.80      0.83       722
           6       0.75      0.89      0.82       697

    accuracy                           0.68      4900
   macro avg       0.69      0.68      0.68      4900
weighted avg       0.69      0.68      0.68      4900



La precisión y el recall de la categoria **tendecia** con respecto al modelo no logra clasificar la categoria correctamente. En otras categorias, en el caso de **tecnologia**, **pais** y **mundo** la presicion es buena, el modelo no detecta las categorias muy bien, pero cuando lo hace es altamente confiable. En la categoria **economia** el recall es alto y la presicion baja dando como resultado que el modelo detecta bien la categoria pero también incluye muestras de otras categorias. 

## Conclusiones

Es muy frecuente encontrarnos con datasets con clases desbalanceadas, de hecho… lo más raro sería encontrar datasets bien equilibrados, en nuestro caso la datasets esta balanceada lo que ayudo mucho a la hora de analizar. De los modelos propuestos en este trabajo, podemos concluir que el modelo con mejor "rendimiento" a la hora de analizar los resultados es el de Naïve Bayes, en el cual nos da un mejor resultado con respecto a los otros.