# Proyecto práctico

## Unidad 3 - Aprendizaje supervisado

El proyecto práctico consiste en abordar un problema de clasificación de documentos textuales. Tenemos a nuestra disposición un dataset de noticias de prensa en español publicada por el medio "CNN Chile".

Las noticias están divididas en 7 categorías temáticas: *'pais','deportes','tendencias','tecnologias','cultura','economia','mundo'*

El proyecto se divide en dos partes:

- Utilizar al menos 3 estrategías para entrenar modelos de clasificación capaces de clasificar las noticias según su categoría temática.

- Explorar cuáles son las características que permiten explicar las decisiones de su modelo.

## 0. Evaluación

El proyecto se realiza de forma individual. Se entrega a más tardar el **lunes 30 de noviembre** en su repositorio GitHub.

**Pauta de evaluación:**

Competencia 1: Aplicar un protocolo de aprendizaje supervisado para resolver un problema clasificación estandar, utilizando un entorno de programación en Python

- < 2 : El protocolo de aprendizaje supervisado utilizado es incompleto y/o presenta errores importantes
- 2 a 3.9 : El protocolo de aprendizaje supervisado utilizado es incompleto o presenta un error importante
- 4 a 5.5 : El protocolo de aprendizaje es completo, no tiene error, pero las estrategias utilizadas son relativamente simples y el rendimiento de los modelos es perfectible.
- 5.6 a 7.0 : El protocolo de aprendizaje es completo, no tiene error y al menos una de las estrategias utilizadas a necesitado un trabajado más avanzado y/o permite obtener un mejor rendimiento.

Competencia 2: Explicar el rendimiento de un modelo de clasificación aplicando un protocolo de evaluación Precision/Recall/F-Score

- < 2 : El trabajo no presenta explicaciones del rendimiento de los modelos de clasificación
- 2 a 3.9 : El trabajo presenta algunas explicaciones pero tienen errores.
- 4 a 5.5 : El trabajo presenta explicaciones correctas del rendimiento de los modelos
- 5.6 a 7 : El trabajo presenta explicaciones correctas del rendimiento de los modelos y además presenta un método para explicar las decisiones/errores


## 1. Dataset

In [11]:
import pandas as pd
import seaborn as sb
import spacy
import time

df = pd.read_csv('cnnchile_7000.csv')
df

Unnamed: 0,country,media_outlet,url,title,text,date,category
0,chile,cnnchile,https://www.cnnchile.com/pais/pdta-del-colegio...,Pdta. del Colegio de Matronas explicó los ries...,La Federación de Estudiantes de la Universidad...,2018-03-29 00:00:00.000000,pais
1,chile,cnnchile,https://www.cnnchile.com/pais/defensoria-ninez...,Defensoría de la Niñez pide al Estado velar po...,La Defensoría de la Niñez emitió este domingo ...,2020-08-02 00:00:00.000000,pais
2,chile,cnnchile,https://www.cnnchile.com/pais/cuanto-les-pagar...,¿Cuánto les pagarán a los vocales de mesa?,El monto del bono es de dos tercios de Unidad ...,2016-10-20 00:00:00.000000,pais
3,chile,cnnchile,https://www.cnnchile.com/pais/sobrino-de-aleja...,Sobrino de Alejandro Navarro intenta “funar” e...,Una nueva polémica tiene esta carrera presiden...,2017-11-13 00:00:00.000000,pais
4,chile,cnnchile,https://www.cnnchile.com/pais/analisis-sobre-e...,Análisis sobre el aumento de impuestos para al...,Especialistas recomiendan no consumir más de 2...,2014-05-05 00:00:00.000000,pais
...,...,...,...,...,...,...,...
6995,chile,cnnchile,https://www.cnnchile.com/tecnologias/playstati...,PlayStation 5 vs Xbox Series X: Mira la compar...,Las compañías ya han revelado muchos detalles ...,2020-09-18 00:00:00.000000,tecnologias
6996,chile,cnnchile,https://www.cnnchile.com/tecnologias/android-l...,Android le dará “una paliza” a Windows en 2013,Se proyecta que tras un virtual empate en 2012...,2013-04-04 00:00:00.000000,tecnologias
6997,chile,cnnchile,https://www.cnnchile.com/tecnologias/regalos-t...,Regalos tecnológicos marcaron pauta en Navidad,Tablets y smartphones fueron los regalos tecno...,2012-12-26 00:00:00.000000,tecnologias
6998,chile,cnnchile,https://www.cnnchile.com/tecnologias/jugar-con...,Jugar con Fox en Starlink vale totalmente la p...,Crecí jugando clásicos de naves como Terminal ...,2018-10-30 00:00:00.000000,tecnologias


In [2]:
from pandasql import sqldf

q="""SELECT category, count(*) FROM df GROUP BY category ORDER BY count(*) DESC;"""
result=sqldf(q)
result

Unnamed: 0,category,count(*)
0,tendencias,1000
1,tecnologias,1000
2,pais,1000
3,mundo,1000
4,economia,1000
5,deportes,1000
6,cultura,1000


In [20]:
import sys

#!{sys.executable} -m spacy download es

nlp = spacy.load("es")

## 1.1 Preprocessing

Es necesario quitar las columnas que no dan información relevante para el análisis, como país, medio de comunicación, fecha y url.

In [3]:
data = df.drop(columns=["country", "media_outlet", "url", "date"])

data[:10]

Unnamed: 0,title,text,category
0,Pdta. del Colegio de Matronas explicó los ries...,La Federación de Estudiantes de la Universidad...,pais
1,Defensoría de la Niñez pide al Estado velar po...,La Defensoría de la Niñez emitió este domingo ...,pais
2,¿Cuánto les pagarán a los vocales de mesa?,El monto del bono es de dos tercios de Unidad ...,pais
3,Sobrino de Alejandro Navarro intenta “funar” e...,Una nueva polémica tiene esta carrera presiden...,pais
4,Análisis sobre el aumento de impuestos para al...,Especialistas recomiendan no consumir más de 2...,pais
5,Encuesta Libertad y Desarrollo: Temor a perder...,Francisco Klapp profundizó en el último sondeo...,pais
6,Presidenta decretó zona de catástrofe para reg...,La mandataria informó que recibió mensajes de ...,pais
7,Autoridades de Transporte anunciaron nuevos bu...,El Ministro de Transporte Andrés Gómez-Lobo en...,pais
8,Polémica por cantidad de casas destruidas,Confución generaron los datos entregados por l...,pais
9,Interponen nueva demanda contra CCU por prácti...,La firma ligada al grupo Luksic habría iniciad...,pais


In [4]:
data.isnull().sum()

title       1
text        0
category    0
dtype: int64

Existe 1 campo sin título, por efectos de simplicidad lo eliminaremos

In [5]:
data.dropna(inplace=True)
data.isnull().sum()

title       0
text        0
category    0
dtype: int64

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6999 entries, 0 to 6999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     6999 non-null   object
 1   text      6999 non-null   object
 2   category  6999 non-null   object
dtypes: object(3)
memory usage: 218.7+ KB


In [49]:
data_final = data['title'].append(data['text'],ignore_index=True)
data_final = data_final.to_frame(name="text")
data_final["category"]=data["category"].append(data["category"], ignore_index=True)

print(data_final)
data_final[:]["text"][2]


data["title"][0] == data_final["title"][0]

                                                   text     category
0     Pdta. del Colegio de Matronas explicó los ries...         pais
1     Defensoría de la Niñez pide al Estado velar po...         pais
2            ¿Cuánto les pagarán a los vocales de mesa?         pais
3     Sobrino de Alejandro Navarro intenta “funar” e...         pais
4     Análisis sobre el aumento de impuestos para al...         pais
...                                                 ...          ...
6995  Las compañías ya han revelado muchos detalles ...  tecnologias
6996  Se proyecta que tras un virtual empate en 2012...  tecnologias
6997  Tablets y smartphones fueron los regalos tecno...  tecnologias
6998  Crecí jugando clásicos de naves como Terminal ...  tecnologias
6999  Konami Digital Entertainment ha anunciado que ...  tecnologias

[13998 rows x 2 columns]


0    Pdta. del Colegio de Matronas explicó los ries...
0    La Federación de Estudiantes de la Universidad...
Name: text, dtype: object

## 1.2 Features

In [24]:
def feature_tokenizer(text):
    tokens = nlp(text)

    #Guardamos las palabras como características si se considera sustantivo, adjetivo o verbo
    tokens = [word for word in mytokens if word.pos_ in ["NOUN", "ADJ", "VERB"]]
    
    #Palabras en minusculas
    tokens = [word.lemma_.lower().strip() for word in mytokens]

    return mytokens

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vector = TfidfVectorizer(tokenizer = feature_tokenizer, min_df=0., max_df=1.0)

In [26]:
X = data["text"]
X

0       La Federación de Estudiantes de la Universidad...
1       La Defensoría de la Niñez emitió este domingo ...
2       El monto del bono es de dos tercios de Unidad ...
3       Una nueva polémica tiene esta carrera presiden...
4       Especialistas recomiendan no consumir más de 2...
                              ...                        
6995    Las compañías ya han revelado muchos detalles ...
6996    Se proyecta que tras un virtual empate en 2012...
6997    Tablets y smartphones fueron los regalos tecno...
6998    Crecí jugando clásicos de naves como Terminal ...
6999    Konami Digital Entertainment ha anunciado que ...
Name: text, Length: 6999, dtype: object