# Proyecto práctico

## Unidad 3 - Aprendizaje supervisado

El proyecto práctico consiste en abordar un problema de clasificación de documentos textuales. Tenemos a nuestra disposición un dataset de noticias de prensa en español publicada por el medio "CNN Chile".

Las noticias están divididas en 7 categorías temáticas: *'pais','deportes','tendencias','tecnologias','cultura','economia','mundo'*

El proyecto se divide en dos partes:

- Utilizar al menos 3 estrategías para entrenar modelos de clasificación capaces de clasificar las noticias según su categoría temática.

- Explorar cuáles son las características que permiten explicar las decisiones de su modelo.

## 0. Evaluación

El proyecto se realiza de forma individual. Se entrega a más tardar el **lunes 30 de noviembre** en su repositorio GitHub.

**Pauta de evaluación:**

Competencia 1: Aplicar un protocolo de aprendizaje supervisado para resolver un problema clasificación estandar, utilizando un entorno de programación en Python

- < 2 : El protocolo de aprendizaje supervisado utilizado es incompleto y/o presenta errores importantes
- 2 a 3.9 : El protocolo de aprendizaje supervisado utilizado es incompleto o presenta un error importante
- 4 a 5.5 : El protocolo de aprendizaje es completo, no tiene error, pero las estrategias utilizadas son relativamente simples y el rendimiento de los modelos es perfectible.
- 5.6 a 7.0 : El protocolo de aprendizaje es completo, no tiene error y al menos una de las estrategias utilizadas a necesitado un trabajado más avanzado y/o permite obtener un mejor rendimiento.

Competencia 2: Explicar el rendimiento de un modelo de clasificación aplicando un protocolo de evaluación Precision/Recall/F-Score

- < 2 : El trabajo no presenta explicaciones del rendimiento de los modelos de clasificación
- 2 a 3.9 : El trabajo presenta algunas explicaciones pero tienen errores.
- 4 a 5.5 : El trabajo presenta explicaciones correctas del rendimiento de los modelos
- 5.6 a 7 : El trabajo presenta explicaciones correctas del rendimiento de los modelos y además presenta un método para explicar las decisiones/errores


## 1. Dataset

In [1]:
import pandas as pd

df = pd.read_csv('cnnchile_7000.csv')
df

Unnamed: 0,country,media_outlet,url,title,text,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/pdta-del-colegio...,Pdta. del Colegio de Matronas explicó los ries...,La Federación de Estudiantes de la Universidad...,2018-03-29 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/defensoria-ninez...,Defensoría de la Niñez pide al Estado velar po...,La Defensoría de la Niñez emitió este domingo ...,2020-08-02 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/cuanto-les-pagar...,¿Cuánto les pagarán a los vocales de mesa?,El monto del bono es de dos tercios de Unidad ...,2016-10-20 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/sobrino-de-aleja...,Sobrino de Alejandro Navarro intenta “funar” e...,Una nueva polémica tiene esta carrera presiden...,2017-11-13 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/analisis-sobre-e...,Análisis sobre el aumento de impuestos para al...,Especialistas recomiendan no consumir más de 2...,2014-05-05 00:00:00.000000,pais
...,...,...,...,...,...,...,...
6995,chile,cnnchile,https://www.cnnchile.com/tecnologias/playstati...,PlayStation 5 vs Xbox Series X: Mira la compar...,Las compañías ya han revelado muchos detalles ...,2020-09-18 00:00:00.000000,tecnologias
6996,chile,cnnchile,https://www.cnnchile.com/tecnologias/android-l...,Android le dará “una paliza” a Windows en 2013,Se proyecta que tras un virtual empate en 2012...,2013-04-04 00:00:00.000000,tecnologias
6997,chile,cnnchile,https://www.cnnchile.com/tecnologias/regalos-t...,Regalos tecnológicos marcaron pauta en Navidad,Tablets y smartphones fueron los regalos tecno...,2012-12-26 00:00:00.000000,tecnologias
6998,chile,cnnchile,https://www.cnnchile.com/tecnologias/jugar-con...,Jugar con Fox en Starlink vale totalmente la p...,Crecí jugando clásicos de naves como Terminal ...,2018-10-30 00:00:00.000000,tecnologias


In [2]:
from pandasql import sqldf

q="""SELECT category, count(*) FROM df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,1000
1,tecnologias,1000
2,pais,1000
3,mundo,1000
4,economia,1000
5,deportes,1000
6,cultura,1000


In [3]:
df.columns

Index(['country', 'media_outlet', 'url', 'title', 'text', 'date', 'category'], dtype='object')

In [4]:
df.describe()

Unnamed: 0,country,media_outlet,url,title,text,date,category
count,7000,7000,7000,6999,7000,7000,7000
unique,1,1,7000,6992,6795,2659,7
top,chile,cnnchile,https://www.cnnchile.com/cultura/libro-slavoj-...,Lo que marcó tendencia en la red durante la se...,Síguenos en @CNNChile con la actualización min...,2016-09-11 00:00:00.000000,tendencias
freq,7000,7000,1,4,58,118,1000


In [6]:
#!pip install -U spacy

#!python -m spacy download en

In [7]:
import spacy

nlp = spacy.load("en")

In [8]:
def feature_extraction(text):
    
    mytokens = nlp(text)

    #Guardamos las palabras como características si corresponden a ciertas categorias gramaticales
    mytokens = [ word for word in mytokens if word.pos_ in ["NOUN", "ADJ", "VERB"] ]
    
    #Transformamos las palabras en minusculas
    mytokens = [ word.lemma_.lower().strip() for word in mytokens ]

    # return preprocessed list of tokens
    return mytokens

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vector = TfidfVectorizer(tokenizer = feature_extraction, min_df=0., max_df=1.0)

In [10]:
train_size = 700
test_size = 1000 - train_size

In [11]:
new_df = df.groupby('category').apply(lambda x: x.sample(n=train_size)).reset_index(drop = True)
q="""SELECT category, count(*) FROM new_df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,700
1,tecnologias,700
2,pais,700
3,mundo,700
4,economia,700
5,deportes,700
6,cultura,700


In [12]:
test_df = pd.concat([df ,new_df]).drop_duplicates(keep=False)
q="""SELECT category, count(*) FROM test_df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,300
1,tecnologias,300
2,pais,300
3,mundo,300
4,economia,300
5,deportes,300
6,cultura,300


In [13]:
from sklearn.model_selection import train_test_split

X = df['text']
#Xt = df['title']

ylabels = df['category']
X_train = new_df['text']
X_test = test_df['text']
#Xt_train = new_df['title']
ylabels_train = new_df['category']
ylabels_test = test_df['category']

In [14]:
labels = ylabels_train.unique()
lb_train_dict = {}
for i, lb in enumerate(labels):
    lb_train_dict[lb] = i + 1
lb_train_dict

{'cultura': 1,
 'deportes': 2,
 'economia': 3,
 'mundo': 4,
 'pais': 5,
 'tecnologias': 6,
 'tendencias': 7}

In [15]:
ylabels_train_target = [lb_train_dict[lb] for lb in ylabels_train]
ylabels_test_target = [lb_train_dict[lb] for lb in ylabels_test]
ylabels_target = [lb_train_dict[lb] for lb in ylabels]

count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
X_train_counts.shape
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

In [16]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
import numpy as np

In [17]:
text_clf = Pipeline([
                    ('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', MultinomialNB()),
                     ])

text_clf.fit(X_train, ylabels_train_target)
#predicted = text_clf.predict(X)
#np.mean(predicted == ylabels_target)

predicted = text_clf.predict(X_test)
np.mean(predicted == ylabels_test_target)

0.7414285714285714

In [18]:
print(metrics.classification_report(ylabels_test_target,
                                   predicted,
                                   target_names=labels))

              precision    recall  f1-score   support

     cultura       0.65      0.96      0.78       300
    deportes       0.91      0.82      0.87       300
    economia       0.68      0.83      0.75       300
       mundo       0.79      0.71      0.75       300
        pais       0.78      0.73      0.75       300
 tecnologias       0.67      0.71      0.69       300
  tendencias       0.83      0.42      0.56       300

    accuracy                           0.74      2100
   macro avg       0.76      0.74      0.73      2100
weighted avg       0.76      0.74      0.73      2100



In [19]:
text_clf = Pipeline([
                    ('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', SGDClassifier(loss='modified_huber', penalty='l2',
                                          alpha=1e-3, random_state=42,
                                          max_iter=50, tol=None)),
                    ])

text_clf.fit(X_train, ylabels_train_target)
predicted = text_clf.predict(X_test)
np.mean(predicted == ylabels_test_target)

0.790952380952381

In [20]:
print(metrics.classification_report(ylabels_test_target,
                                   predicted,
                                   target_names=labels))

              precision    recall  f1-score   support

     cultura       0.84      0.92      0.88       300
    deportes       0.82      0.88      0.85       300
    economia       0.76      0.84      0.80       300
       mundo       0.83      0.77      0.80       300
        pais       0.79      0.75      0.77       300
 tecnologias       0.77      0.74      0.75       300
  tendencias       0.73      0.64      0.68       300

    accuracy                           0.79      2100
   macro avg       0.79      0.79      0.79      2100
weighted avg       0.79      0.79      0.79      2100



In [25]:
k = 18
#for k in range(15, 45):
text_clf = Pipeline([
                    ('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', KNeighborsClassifier(n_neighbors=k)),
                    ])
text_clf.fit(X_train, ylabels_train_target)
predicted = text_clf.predict(X_test)
print(f'k: {k}   {np.mean(predicted == ylabels_test_target)}')

k: 18   0.6823809523809524


In [26]:
print(metrics.classification_report(ylabels_test_target,
                                   predicted,
                                   target_names=labels))

              precision    recall  f1-score   support

     cultura       0.56      0.95      0.71       300
    deportes       0.85      0.73      0.79       300
    economia       0.78      0.71      0.75       300
       mundo       0.76      0.63      0.69       300
        pais       0.67      0.65      0.66       300
 tecnologias       0.63      0.76      0.69       300
  tendencias       0.62      0.34      0.44       300

    accuracy                           0.68      2100
   macro avg       0.70      0.68      0.67      2100
weighted avg       0.70      0.68      0.67      2100

