# Proyecto práctico

## Unidad 3 - Aprendizaje supervisado

El proyecto práctico consiste en abordar un problema de clasificación de documentos textuales. Tenemos a nuestra disposición un dataset de noticias de prensa en español publicada por el medio "CNN Chile".

Las noticias están divididas en 7 categorías temáticas: *'pais','deportes','tendencias','tecnologias','cultura','economia','mundo'*

El proyecto se divide en dos partes:

- Utilizar al menos 3 estrategías para entrenar modelos de clasificación capaces de clasificar las noticias según su categoría temática.

- Explorar cuáles son las características que permiten explicar las decisiones de su modelo.

## 0. Evaluación

El proyecto se realiza de forma individual. Se entrega a más tardar el **lunes 30 de noviembre** en su repositorio GitHub.

**Pauta de evaluación:**

Competencia 1: Aplicar un protocolo de aprendizaje supervisado para resolver un problema clasificación estandar, utilizando un entorno de programación en Python

- < 2 : El protocolo de aprendizaje supervisado utilizado es incompleto y/o presenta errores importantes
- 2 a 3.9 : El protocolo de aprendizaje supervisado utilizado es incompleto o presenta un error importante
- 4 a 5.5 : El protocolo de aprendizaje es completo, no tiene error, pero las estrategias utilizadas son relativamente simples y el rendimiento de los modelos es perfectible.
- 5.6 a 7.0 : El protocolo de aprendizaje es completo, no tiene error y al menos una de las estrategias utilizadas a necesitado un trabajado más avanzado y/o permite obtener un mejor rendimiento.

Competencia 2: Explicar el rendimiento de un modelo de clasificación aplicando un protocolo de evaluación Precision/Recall/F-Score

- < 2 : El trabajo no presenta explicaciones del rendimiento de los modelos de clasificación
- 2 a 3.9 : El trabajo presenta algunas explicaciones pero tienen errores.
- 4 a 5.5 : El trabajo presenta explicaciones correctas del rendimiento de los modelos
- 5.6 a 7 : El trabajo presenta explicaciones correctas del rendimiento de los modelos y además presenta un método para explicar las decisiones/errores


## 1. Dataset

In [2]:
import pandas as pd

df = pd.read_csv('cnnchile_7000.csv')
df

Unnamed: 0,country,media_outlet,url,title,text,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/pdta-del-colegio...,Pdta. del Colegio de Matronas explicó los ries...,La Federación de Estudiantes de la Universidad...,2018-03-29 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/defensoria-ninez...,Defensoría de la Niñez pide al Estado velar po...,La Defensoría de la Niñez emitió este domingo ...,2020-08-02 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/cuanto-les-pagar...,¿Cuánto les pagarán a los vocales de mesa?,El monto del bono es de dos tercios de Unidad ...,2016-10-20 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/sobrino-de-aleja...,Sobrino de Alejandro Navarro intenta “funar” e...,Una nueva polémica tiene esta carrera presiden...,2017-11-13 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/analisis-sobre-e...,Análisis sobre el aumento de impuestos para al...,Especialistas recomiendan no consumir más de 2...,2014-05-05 00:00:00.000000,pais
...,...,...,...,...,...,...,...
6995,chile,cnnchile,https://www.cnnchile.com/tecnologias/playstati...,PlayStation 5 vs Xbox Series X: Mira la compar...,Las compañías ya han revelado muchos detalles ...,2020-09-18 00:00:00.000000,tecnologias
6996,chile,cnnchile,https://www.cnnchile.com/tecnologias/android-l...,Android le dará “una paliza” a Windows en 2013,Se proyecta que tras un virtual empate en 2012...,2013-04-04 00:00:00.000000,tecnologias
6997,chile,cnnchile,https://www.cnnchile.com/tecnologias/regalos-t...,Regalos tecnológicos marcaron pauta en Navidad,Tablets y smartphones fueron los regalos tecno...,2012-12-26 00:00:00.000000,tecnologias
6998,chile,cnnchile,https://www.cnnchile.com/tecnologias/jugar-con...,Jugar con Fox en Starlink vale totalmente la p...,Crecí jugando clásicos de naves como Terminal ...,2018-10-30 00:00:00.000000,tecnologias


In [3]:
from pandasql import sqldf

q="""SELECT category, count(*) FROM df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,1000
1,tecnologias,1000
2,pais,1000
3,mundo,1000
4,economia,1000
5,deportes,1000
6,cultura,1000


# Resolucion

In [4]:
from sklearn.model_selection import train_test_split

X = df['text'] 
ylabels = df['category']

In [5]:
ylabels[:5]

0    pais
1    pais
2    pais
3    pais
4    pais
Name: category, dtype: object

In [6]:
from sklearn.preprocessing import LabelEncoder
lb = LabelEncoder()
ylabels_encoded = lb.fit_transform(ylabels)

In [7]:
ylabels_encoded[:5]

array([4, 4, 4, 4, 4])

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, ylabels_encoded, test_size=0.5)

## Primera estrategia (Regresion Logistica)

Nuestro objetivo es entrenar un modelo de regresion logistica para clasificar las noticias segun su categoria. por lo que no necesitaremos la variable pais, media_outlet, titulo, url y fecha. dicho esto se eliminaran estas variables

In [9]:
df.drop(['country','media_outlet','title','url','date'], axis = 1)

Unnamed: 0,text,category
0,La Federación de Estudiantes de la Universidad...,pais
1,La Defensoría de la Niñez emitió este domingo ...,pais
2,El monto del bono es de dos tercios de Unidad ...,pais
3,Una nueva polémica tiene esta carrera presiden...,pais
4,Especialistas recomiendan no consumir más de 2...,pais
...,...,...
6995,Las compañías ya han revelado muchos detalles ...,tecnologias
6996,Se proyecta que tras un virtual empate en 2012...,tecnologias
6997,Tablets y smartphones fueron los regalos tecno...,tecnologias
6998,Crecí jugando clásicos de naves como Terminal ...,tecnologias


### Implementación del modelo Bag of words

In [10]:
import spacy
nlp = spacy.load("es_core_news_lg")

In [11]:
def feature_extraction(text):
    
    mytokens = nlp(text)

    #Guardamos las palabras como características si corresponden a ciertas categorias gramaticales
    mytokens = [ word for word in mytokens if word.pos_ in ["NOUN", "ADJ", "VERB"] ]
    
    #Transformamos las palabras en minusculas
    mytokens = [ word.lemma_.lower().strip() for word in mytokens ]

    # return preprocessed list of tokens
    return mytokens

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vector = TfidfVectorizer(tokenizer = feature_extraction, min_df=0., max_df=1.0)

### Entrenamiento de un modelo Regresión Logística

In [13]:
from sklearn.model_selection import train_test_split

X = df['text'] 
ylabels = df['category']

X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.65) 

In [14]:
ylabels

0              pais
1              pais
2              pais
3              pais
4              pais
           ...     
6995    tecnologias
6996    tecnologias
6997    tecnologias
6998    tecnologias
6999    tecnologias
Name: category, Length: 7000, dtype: object

In [15]:
X_train.shape

(2450,)

In [16]:
from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression

model_1 = LogisticRegression()

pipe = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', model_1)])

# model generation
pipe.fit(X_train,y_train)

Pipeline(steps=[('vectorizing',
                 TfidfVectorizer(min_df=0.0,
                                 tokenizer=<function feature_extraction at 0x000001995687EAF0>)),
                ('learning', LogisticRegression())])

In [17]:
#print(len(model_1.coef_[0]))

#for coef in model_1.coef_[0]:
#    print(coef)

### Evaluación del modelo Regresión Logística

In [18]:
from sklearn import metrics

predictedL = pipe.predict(X_test)
print(predictedL)


['deportes' 'tecnologias' 'tendencias' ... 'mundo' 'cultura' 'tecnologias']


In [19]:
# Model Accuracy
print("Logistic Regression Accuracy:",metrics.accuracy_score(y_test, predictedL))

Logistic Regression Accuracy: 0.7589010989010989


In [22]:
# Matriz de confusión
from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, predictedL)
print(confusion_matrix)

from sklearn.metrics import classification_report

print(classification_report(y_test, predictedL))



[[578   2   4  15   8   5  18]
 [  3 553  14   9  12  19  25]
 [  1   0 541  11  53  60  12]
 [ 23   7  36 467  69  33  43]
 [ 11   5  67  67 455  35  31]
 [ 17  13  28  14  12 452  86]
 [ 68  27  16  17  17  84 407]]
              precision    recall  f1-score   support

     cultura       0.82      0.92      0.87       630
    deportes       0.91      0.87      0.89       635
    economia       0.77      0.80      0.78       678
       mundo       0.78      0.69      0.73       678
        pais       0.73      0.68      0.70       671
 tecnologias       0.66      0.73      0.69       622
  tendencias       0.65      0.64      0.65       636

    accuracy                           0.76      4550
   macro avg       0.76      0.76      0.76      4550
weighted avg       0.76      0.76      0.76      4550



## Segunda estrategia (Naïve Bayes)

### Implementacion del modelo

In [23]:
from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()

model_nb = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', nb)])

### Entrenamiento del modelo

In [24]:
import time

start = time.time()

model_nb.fit(X_train, y_train)

end = time.time()
print("tiempo para entrenar:" + str(end - start)) # tiempo para entrenar

tiempo para entrenar:90.25277471542358


### Evaluacion del modelo 

In [25]:
start = time.time()

predictedN = model_nb.predict(X_test)

end = time.time()
print("tiempo para predecir:" + str(end - start)) # tiempo para predecir

tiempo para predecir:171.57626056671143


In [26]:
confusion_matrix = metrics.confusion_matrix(y_test, predictedN)

print(confusion_matrix)

print(classification_report(y_test, predictedN))

[[614   0   3   2   3   8   0]
 [ 29 541   4   4   9  41   7]
 [  6   1 531   6  23 109   2]
 [ 64   8  38 438  52  66  12]
 [ 39   2  65  62 433  66   4]
 [ 42  11  16   3   5 516  29]
 [170  29  12  13   9 166 237]]
              precision    recall  f1-score   support

     cultura       0.64      0.97      0.77       630
    deportes       0.91      0.85      0.88       635
    economia       0.79      0.78      0.79       678
       mundo       0.83      0.65      0.73       678
        pais       0.81      0.65      0.72       671
 tecnologias       0.53      0.83      0.65       622
  tendencias       0.81      0.37      0.51       636

    accuracy                           0.73      4550
   macro avg       0.76      0.73      0.72      4550
weighted avg       0.76      0.73      0.72      4550



In [29]:
print("Logistic Regression Accuracy:",metrics.accuracy_score(y_test, predictedN))

Logistic Regression Accuracy: 0.7274725274725274


## Tercera estrategia (K-vecinos)

### Implementacion del modelo

In [30]:
from sklearn import neighbors
from sklearn.pipeline import Pipeline

n_neighbors = 15

knn = neighbors.KNeighborsClassifier(n_neighbors)

model_knn = Pipeline([('vectorizing', tfidf_vector),
                 ('learning', knn)])

### Entrenamiento del modelo

In [31]:
import time

start = time.time()

model_knn.fit(X_train, y_train)

end = time.time()
print("tiempo para entrenar:" + str(end - start))

tiempo para entrenar:90.96095514297485


### Evaluacion del modelo

In [32]:
start = time.time()

predictedK = model_knn.predict(X_test)

end = time.time()
print("tiempo para predecir:" + str(end - start))

tiempo para predecir:173.08581113815308


In [33]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix = confusion_matrix(y_test, predictedK)

print(confusion_matrix)

print(classification_report(y_test, predictedK))

[[561   3  11  15  23   9   8]
 [ 13 538  22  19  24   8  11]
 [  3   1 552  30  64  25   3]
 [ 27  13  63 408 127  22  18]
 [ 20  12 100  75 442  13   9]
 [ 25  17  47  21  55 413  44]
 [100  34  34  26  68  94 280]]
              precision    recall  f1-score   support

     cultura       0.75      0.89      0.81       630
    deportes       0.87      0.85      0.86       635
    economia       0.67      0.81      0.73       678
       mundo       0.69      0.60      0.64       678
        pais       0.55      0.66      0.60       671
 tecnologias       0.71      0.66      0.68       622
  tendencias       0.75      0.44      0.56       636

    accuracy                           0.70      4550
   macro avg       0.71      0.70      0.70      4550
weighted avg       0.71      0.70      0.70      4550



In [35]:
print("Logistic Regression Accuracy:",metrics.accuracy_score(y_test, predictedK))

Logistic Regression Accuracy: 0.701978021978022


## Evaluacion de los modelos aplicando metricas 

Podemos evaluar el rendimiento al utilizar el modelo de regresion logistica para la clasificacion de noticias publicadas por CNN Chile, podemos ocupar las siguientes metricas.

* **Precision:** Esta metrica nos permite medir la calidad del modelo, por lo que nos otorga el porcentaje de acierto. Tambien es importante mencionar que mientras esta metrica sea mas cercana a 100% estariamos minimizando los falsos positivos.  
  
* **Recall:** Esta metrica nos permite observar la proporción de casos positivos que fueron correctamente identificadas por el algoritmo. Tambien es importante mencionar que mientras esta metrica sea mas cercana a 100% estariamos minimizando los falsos negativos  
  
* **F1-score:**  Esta metrica es utilizada para combinar las dos metricas mencionadas anteriormente en un solo valor. 

### Modelo regresion logistica

para este modelo podemos obtener para cada categoria tematica las siguientes metricas

In [36]:
print(classification_report(y_test, predictedL))

              precision    recall  f1-score   support

     cultura       0.82      0.92      0.87       630
    deportes       0.91      0.87      0.89       635
    economia       0.77      0.80      0.78       678
       mundo       0.78      0.69      0.73       678
        pais       0.73      0.68      0.70       671
 tecnologias       0.66      0.73      0.69       622
  tendencias       0.65      0.64      0.65       636

    accuracy                           0.76      4550
   macro avg       0.76      0.76      0.76      4550
weighted avg       0.76      0.76      0.76      4550



Podemos ver que este modelo puede puede predecir correctamente algunas de las clasificaciones tematica de las noticias, un ejemplo de esto son las noticias de deportes ya que para esta clase existiran pocos falsos negativos ya que podemos ver que su precision es de 91%. esto nos dice que las noticias que no fueron clasificadas como deportes pero en realidad si lo eran, son realmente bajas. obteniendo un 9% de fallo, por otro lado existen clases como tendencias que tienen baja precision y recall por lo que podremos observar un alto nivel de falsos positivos y falsos negativos. ademas de estas metricas podemos hablar de f1-score lo cual nos resultara muy practico ya que nos permite combinar las metricas anteriores, resultando en un valor aceptable sobre 65% para todas sus categorias .

### Modelo Naive Bayes

para este modelo podemos obtener para cada categoria tematica las siguientes metricas

In [37]:
print(classification_report(y_test, predictedN))

              precision    recall  f1-score   support

     cultura       0.64      0.97      0.77       630
    deportes       0.91      0.85      0.88       635
    economia       0.79      0.78      0.79       678
       mundo       0.83      0.65      0.73       678
        pais       0.81      0.65      0.72       671
 tecnologias       0.53      0.83      0.65       622
  tendencias       0.81      0.37      0.51       636

    accuracy                           0.73      4550
   macro avg       0.76      0.73      0.72      4550
weighted avg       0.76      0.73      0.72      4550



como en el modelo anterior se puede decir que presenta algunas clases donde se puede ver un correcto nivel de clasificacion como es el caso de deportes, por otro lado este metodo presenta valores muy desproporcionados entre precision y recall en comparacion al modelo logistico. por ejemplo en tendencias obtiene una precision de 81% por otro lado su recall es de 37% por lo que este modelo tienen una alta probabilidad de que al clasificar una noticia como no perteneciente a esta clase, realmente si lo sea. esto tambien se puede ver en que el valor del f1-score para este modelo es mas bajo para algunas clases que en el modelo anterior.

### Modelo K-vecinos

Para este modelo podemos obtener para cada categoria tematica las siguientes metricas

In [38]:
print(classification_report(y_test, predictedK))

              precision    recall  f1-score   support

     cultura       0.75      0.89      0.81       630
    deportes       0.87      0.85      0.86       635
    economia       0.67      0.81      0.73       678
       mundo       0.69      0.60      0.64       678
        pais       0.55      0.66      0.60       671
 tecnologias       0.71      0.66      0.68       622
  tendencias       0.75      0.44      0.56       636

    accuracy                           0.70      4550
   macro avg       0.71      0.70      0.70      4550
weighted avg       0.71      0.70      0.70      4550



Podemos ver que el rendimiento de este modelo es peor que los anteriores mencionados anteriormente ya que en este modelo se nota mas las desproporcion mencionada anteriormente. resultando con solo 2 clases con un resultado aceptable(cultura y deportes).

## Conclusion

De lo observado se puede decir que la eleccion de un modelo dependera de que si se quiere minimizar los falsos positivos o falsos negativos, los cuales uno debera tener en cuenta la precision y recall respectivamente. para este caso evaluaremos el desempeño de los modelos segun su f1-score ya que este logra representar un equilibrio entre ambos.
Dicho esto, para el problema de clasificacion de noticias de CNN Chile se escogera el modelo de regresion logistica.