# TAL aplicado al an√°lisis del discurso de los medios de prensa üì∞ü§ìüî•


El proyecto consiste en entrenar y evaluar varios modelos de clasificaci√≥n supervisada capaz de clasificar una noticia seg√∫n la taxonom√≠a siguiente: 


In [1]:
topics = [
    'mundo', 'econom√≠a', 'pol√≠tica y conflictos', 'ciencia y tecnolog√≠a',
    'cat√°strofes y accidentes', 'cultura y arte', 'deporte', 'ecolog√≠a y planeta',
    'crimen, delitos y justicia', 'salud'
]

- Hito Unidad 1 (29 de septiembre): Datasets de entrenamiento y test + primer modelo baseline

- Hito Unidad 2 (27 de octubre): Implementaci√≥n y experimentos de varios modelos de clasificaci√≥n

- Hito Proyecto (15 de diciembre): Evaluaci√≥n y comparaci√≥n de los modelos de los distintos equipos + integraci√≥n de los mejores modelos en la arquitectura Sophia2.


### √≠ndex

1. [Importaci√≥n del dataset de entrenamiento](a)
2. [Extracci√≥n de t√©rminos clave de columnas title+text](b)
3. [Clasificaci√≥n del dataset de entrenamiento](c)
4. [Balance de clases dataset de entrenamiento](d)
5. [Importaci√≥n de los dataset restantes](e)
6. [Dividir dataset en entrenamiento y test](f)
7. [Dividir dataset entrenamiento en entrenamiento y validaci√≥n](g)



In [2]:
import warnings
warnings.filterwarnings('ignore')
%matplotlib notebook

# Data manipulation
import re
import multiprocessing
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# NLP
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import Word2Vec, CoherenceModel
#import pyLDAvis
#import pyLDAvis.gensim_models  # don't skip this
import nltk 
#nltk.download('stopwords') 
import spacy
from spacy.matcher import Matcher
nlp = spacy.load("es_core_news_sm")
print("versi√≥n de Spacy: ", spacy.__version__)

versi√≥n de Spacy:  3.1.3


### 1. Importaci√≥n del dataset de entrenamiento <a name="a"></a>

In [3]:
dataset = pd.read_csv("data/chile_2020-09.csv")[:100] #x mientras para facilitar el desarrollo
print("Largo de dataset: ", len(dataset))
display(dataset.head(3))

Largo de dataset:  100


Unnamed: 0,id,country,media_outlet,url,title,text,date,year,id_journalist
0,49234,chile,horas24,https://www.24horas.cl/coronavirus/tia-pikachu...,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...","Ha sufrido los embates del carro lanza aguas,...",2020-09-01,2020.0,
1,49252,chile,horas24,https://www.24horas.cl/nacional/tia-pikachu-po...,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...",,2020-09-01,2020.0,
2,49277,chile,horas24,https://www.24horas.cl/nacional/los-toscanini-...,Los Toscanini: Cae banda que abastec√≠a a crimi...,,2020-09-01,2020.0,


In [4]:
content = dataset["title"] + '. ' + dataset["text"]
content.replace(" ",np.nan,inplace=True)
content.dropna(inplace=True)
dataset = pd.DataFrame({'content':content, 'terms': ""})
display(dataset.head(3))

Unnamed: 0,content,terms
0,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...",
3,RM alcanza sus mejores √≠ndices de calidad de a...,
6,Paro de camioneros: Supermercados preocupados ...,


### 2.  Extracci√≥n de t√©rminos clave de columna title+text <a name="b"></a>

In [None]:
# limpiar noticias de s√≠mbolos raros

In [6]:
matcher = Matcher(nlp.vocab)

# Pattern 1: NOUN de NOUN
pattern_1 = [{"POS": "NOUN"},{"LOWER": "de"}, {"POS": "NOUN"}]
matcher.add("NOUN-de-NOUN", [pattern_1])

# Pattern 2: NOUN ADJ
pattern_2 = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NOUN-ADJ", [pattern_2])

# Pattern 3: 
pattern_3 = [{"POS": "NOUN"}]
matcher.add("NOUN", [pattern_3])



    Bloque de alto coste computacional ‚¨áÔ∏è

In [7]:
for index, row in dataset.iterrows():
    doc = nlp(row['content'])
    matches = matcher(doc)
    categories = ""
    for match_id, start, end in matches:
        string_id = nlp.vocab.strings[match_id]  # Get string representation
        span = doc[start:end]  # The matched span
        categories = categories + span.text + "; "
    
    row['terms'] = categories
    
display(dataset.head(3))

Unnamed: 0,content,terms
0,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...",parte; parte empadronado; diciembre; embates; ...
3,RM alcanza sus mejores √≠ndices de calidad de a...,√≠ndices; √≠ndices de calidad; calidad; registro...
6,Paro de camioneros: Supermercados preocupados ...,Paro; Paro de camioneros; camioneros; desabast...


In [9]:
from collections import Counter
dataset["most_common"] = ""
for index, row in dataset.iterrows():
    split_it = row['terms'].split("; ")
    counter = Counter(split_it)
    row['most_common'] = counter.most_common()[0][0]

display(dataset.head(30),dataset['most_common'].value_counts())

Unnamed: 0,content,terms,most_common
0,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...",parte; parte empadronado; diciembre; embates; ...,parte
3,RM alcanza sus mejores √≠ndices de calidad de a...,√≠ndices; √≠ndices de calidad; calidad; registro...,aire
6,Paro de camioneros: Supermercados preocupados ...,Paro; Paro de camioneros; camioneros; desabast...,pa√≠s
7,Sernac recibi√≥ m√°s de 400 reclamos durante la ...,reclamos; jornada; jornada de CyberDay; CyberD...,reclamos
8,Denuncian desabastecimiento en el sur del pa√≠s...,desabastecimiento; sur; pa√≠s; paro; paro de ca...,desabastecimiento
9,PDI encuentra a hombre que familia report√≥ des...,hombre; a√±os; hallazgo; vida; hombre; familiar...,hombre
10,"Bellolio: ""No hay ninguna raz√≥n para que prosp...",raz√≥n; acusaci√≥n; acusaci√≥n constitucional; mi...,ministro
13,"Ministro P√©rez pide ""actuar con responsabilida...",responsabilidad; ultim√°tum; ultim√°tum de acusa...,responsabilidad
16,Alcaldes piden que transporte sea gratuito el ...,transporte; d√≠a; plebiscito; Alcaldes; comunas...,transporte
17,Paro de camiones: DC da ultim√°tum para que min...,Paro; Paro de camiones; camiones; ultim√°tum; m...,ministro


camioneros    4
ministro      4
pa√≠s          3
querella      3
casos         3
             ..
cafeter√≠as    1
renuncia      1
aire          1
pena          1
hueones       1
Name: most_common, Length: 72, dtype: int64

### 3. Clasificaci√≥n del dataset de entrenamiento <a name="c"></a>
Aplicaremos LDA a cada noticia y extraeremos sus t√≥picos, luego evaluaremos esos t√≥picos con las categorias deseadas.


In [10]:
dataset['category'] = ""
#for index, row in dataset.iterrows():
#    for index in topics:

dataset

Unnamed: 0,content,terms,most_common,category
0,"""T√≠a Pikachu"" por parte empadronado: ""Estoy co...",parte; parte empadronado; diciembre; embates; ...,parte,
3,RM alcanza sus mejores √≠ndices de calidad de a...,√≠ndices; √≠ndices de calidad; calidad; registro...,aire,
6,Paro de camioneros: Supermercados preocupados ...,Paro; Paro de camioneros; camioneros; desabast...,pa√≠s,
7,Sernac recibi√≥ m√°s de 400 reclamos durante la ...,reclamos; jornada; jornada de CyberDay; CyberD...,reclamos,
8,Denuncian desabastecimiento en el sur del pa√≠s...,desabastecimiento; sur; pa√≠s; paro; paro de ca...,desabastecimiento,
...,...,...,...,...
95,"Rodolfo Carter: ""Ser comunista hoy es ser mili...",militante; comparaci√≥n; alcalde; militante; mi...,pa√≠s,
96,Municipio afirma que baja de ventas llev√≥ a ce...,ventas; baja; ventas; cierre; casos; zona; con...,ventas,
97,Corte declara admisible recurso de protecci√≥n ...,recurso; recurso de protecci√≥n; protecci√≥n; re...,protecci√≥n,
98,"""Matamos a cuanto hue√≥n pillamos"": audio in√©di...",cuanto; hue√≥n; audio; audio in√©dito; confesion...,hueones,


### 4.  Balance de clases dataset de entrenamiento <a name="d"></a>
Visualizamos la densidad de los t√≥picos con tal de combatir el sobreajuste si corresponde

In [None]:
fig, ax = plt.subplots(1, figsize=(9,5), tight_layout=True)
ax.hist(dataset['category'],edgecolor = 'black',bins=dataset['category'].unique())
plt.xticks(rotation='vertical', fontsize=7)
plt.ylabel("densidad")
plt.show()