# Clasificador de Noticias

## Tarea Metodos No Supervisados
Nombre: Jaime Toribio

In [1]:
from urllib.request import FancyURLopener
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

# 1. Carga de datos

Utilizare scrapping para obtener las noticias con las que vamos a entrenar el modelo. Podria barrer la web de El Comercio pero esta web se actualiza constantenmente. Para obtener un resultado reproducible utilizare una lista de links cuyo contenido servira para entrenar el modelo de clasificación.

In [2]:
class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
myopener = MyOpener()

  This is separate from the ipykernel package so we can avoid doing imports until


In [3]:
links = pd.read_csv('./Data/links noticias.txt')

In [4]:
links.head()

Unnamed: 0,links
0,https://elcomercio.pe/deporte-total/seleccion/...
1,https://elcomercio.pe/deporte-total/champions-...
2,https://elcomercio.pe/deporte-total/futbol-per...
3,https://elcomercio.pe/tecnologia/actualidad/fu...
4,https://elcomercio.pe/deporte-total/futbol-mun...


In [5]:
#validando la carga
links['links'][0]

'https://elcomercio.pe/deporte-total/seleccion/paolo-guerrero-brasil-confian-juegue-final-copa-sudamericana-noticia-479074'

In [6]:
#Cantidad de links
len(links)

38

## Analizando la estructura del HTML:

El contenido real de la noticia se encuentra en los siguientes elementos HTML (objeto-clase):

1. Titulo: h1 news-title
2. Resumen: h2 news-summary
3. Descripción de la foto: p foto-description
4. Contenido: p parrafo first-parrafo

NOTA:El en caso del comercio antes de empezar el contenido de la noticia esta el nombre del autor, que en realidad viene a ser como una categoria. Por ejem: Deporte Total para deportes. No lo incluiré ya que podria sobreentrenarse el modelo.

A continuación ejemplo para 1 link:

In [7]:
#conexion
URL='https://elcomercio.pe/deporte-total/seleccion/paolo-guerrero-brasil-confian-juegue-final-copa-sudamericana-noticia-479074'
html=myopener.open(URL).read()
soup=BeautifulSoup(html,"lxml")

print('='*100)



In [8]:
titulo=soup.find_all('h1',class_='news-title')
titulo[0].get_text()

'Paolo Guerrero: confían en que juegue final de Sudamericana'

In [9]:
resumen=soup.find_all('h2',class_='news-summary')
resumen[0].get_text()


'A pesar de que la FIFA decidió extender por 10 días más la suspensión a Paolo Guerrero, en Brasil esperan que pueda estar con Flamengo en el partido de vuelta de la final de la Copa Sudamericana'

In [10]:
foto_desc=soup.find_all('p',class_='foto-description')
foto_desc[0].get_text()

'En Brasil esperan que Paolo Guerrero pueda llegar a jugar alguno de los dos partidos de la final de la Copa Sudamericana entre Flamengo e Independiente. (Foto: AP)'

In [12]:
lista=soup.find_all('p',class_='parrafo first-parrafo')+soup.find_all('p',class_='parrafo first-parrafo ')
contenido = ''
for i in range(len(lista)):
    contenido = contenido + lista[i].get_text()
contenido

'En Brasil todavía tienen esperanza de ver a Paolo Guerrero jugar con Flamengo antes de que acabe el año. A pesar de que la FIFA extendió por 10 días más la suspensión provisional al delantero de la selección peruana, el periodista de "O\'Globo", Diogo Dantas, cree que es posible que el jugador llegue al segundo duelo de la final de la Copa Sudamericana contra Independiente de Avellaneda."Hay optimismo en Flamengo porque hay una final de Copa Sudamericana el próximo miércoles y todos cuentan con el retorno de Paolo Guerrero. Toda la situación en FIFA, sus abogados salieron muy optimistas. El hecho de no tener problemas con cocaína, el examen capilar, las pruebas son muy consistentes. Hay una posibilidad muy grande que la respuesta sea muy positiva", afirmó el periodista brasileño a "RPP".Y agregó: "Si un castigo ocurre, el máximo previsto aquí es de 60 días. Ya se cumplieron 30 días de sanción provisoria, volvería en 2018 para jugar la Copa Libertadores con Flamengo".Como se recuerda, 

## Guardando el contenido

Vamos a barrer todos los links del archivo y guardarlos en distintos archivos. Uno por cada noticia. Para el entrenamiento del modelo concatenaré todos los archivos. El objetivo de tenerlos en distintos archivos es para luego poder hacer un vector promedio por cada archivo.

In [None]:
noticias = []
for i in range(len(links)):
    print(links['links'][i])
    #abre conexion con la web
    URL=links['links'][i]
    html=myopener.open(URL).read()
    soup=BeautifulSoup(html,"lxml")

    #busca contenido de la noticia
    t=soup.find_all('h1',class_='news-title')
    r=soup.find_all('h2',class_='news-summary')
    f=soup.find_all('p',class_='foto-description')
    p=soup.find_all('p',class_='parrafo first-parrafo')+soup.find_all('p',class_='parrafo first-parrafo ')
    
    #algunas noticias no tienen resumen o descripcion de foto, por ello si no existe asignamos '' a la variable.
    titulo = t[0].get_text() if len(t)>0 else ''
    resumen = r[0].get_text() if len(r)>0 else ''
    foto_desc = f[0].get_text() if len(f)>0 else ''
    
    contenido = ''
    for i in range(len(p)):
        contenido = contenido + p[i].get_text()
    
    #genera la noticia
    noticia = [titulo,
               resumen,
               foto_desc,
               contenido]
    
    #agrega a la lista de noticias
    noticias.append(noticia)
    

df = pd.DataFrame(noticias, columns = ['titulo', 'resumen', 'foto_desc', 'contenido'])

#guarda en un archivo delimitado por pipes |
#np.savetxt('noticias.txt', df, fmt='%s', delimiter='|', header='titulo|resumen|foto_desc|contenido')
    
#Muchos problemas con el encoding, por mientras trabajare en memoria.
#tuve que usar enconding para poder guardar pero luego para leer era complicado: titulo.encode('utf-8') 
    

https://elcomercio.pe/deporte-total/seleccion/paolo-guerrero-brasil-confian-juegue-final-copa-sudamericana-noticia-479074
https://elcomercio.pe/deporte-total/champions-league/juventus-vs-olympiacos-vivo-online-grupo-d-champions-league-noticia-479058
https://elcomercio.pe/deporte-total/futbol-peruano/alianza-lima-gustavo-zevallos-juntaremos-semana-pablo-bengoechea-noticia-479001
https://elcomercio.pe/tecnologia/actualidad/futbol-peruano-club-mejor-hinchada-digital-noticia-479026
https://elcomercio.pe/deporte-total/futbol-mundial/barcelona-vs-sporting-lisboa-vivo-online-champions-league-noticia-478842
https://elcomercio.pe/deporte-total/futbol-peruano/alianza-lima-vs-real-garcilaso-frases-polemicas-fuera-canchas-noticia-478911
https://elcomercio.pe/deporte-total/futbol-mundial/carlo-ancelotti-interesado-dirigir-italia-noticia-478943
https://elcomercio.pe/deporte-total/polideportivo/wwe-monday-night-vivo-online-angeles-roman-reigns-vengara-samoa-joe-noticia-478782
https://elcomercio.pe/de

In [119]:
df.head()

Unnamed: 0,titulo,resumen,foto_desc,contenido
0,Paolo Guerrero: confían en que juegue final de...,A pesar de que la FIFA decidió extender´por 10...,En Brasil esperan que Paolo Guerrero pueda lle...,En Brasil todavía tienen esperanza de ver a Pa...
1,Juventus vs. Olympiacos: en Grecia por la Cham...,\nJuventus visita al Olympiacos este martes (2...,Juventus vs. Olympiacos: se enfrentan este mar...,Juventus visita al Olympiacos este martes (2:4...
2,"Alianza Lima: ""Nos juntaremos esta semana con ...","El gerente deportivo de Alianza Lima, Gustavo ...",En Alianza Lima confían en retener a Pablo Ben...,"Gustavo Zevallos, gerente deportivo de Alianza..."
3,¿Qué club de fútbol peruano tiene la mejor hi...,La interacción en redes social como Facebook y...,Los clubes peruanos dan sus últimas noticias m...,"Facebook, Instagram y Twitter se han vuelto un..."
4,Barcelona vs. Sporting de Lisboa: juegan por C...,\nBarcelona recibirá al Sporting de Lisboa est...,El equipo culé recibirá este martes al cuadro ...,Barcelona afronta la sexta y última jornada de...


In [120]:
#noticias_load = pd.read_csv('noticias.txt', delimiter = '|', encoding='utf-8')
#noticias_load

# 2. Entrenando el modelo word2vec

In [122]:
from gensim.models import word2vec

In [141]:
#sentences = word2vec.Text8Corpus('./Data/links noticias.txt')

In [242]:
dimensiones = 5
modelo = word2vec.Word2Vec([s.lower().split() for s in df['contenido']],size=dimensiones,min_count=3)

In [243]:
for i in modelo.wv.vocab:
    print(i)

en
brasil
todavía
tienen
de
ver
a
paolo
jugar
con
flamengo
antes
que
el
pesar
la
por
10
días
más
al
es
posible
segundo
final
copa
sudamericana
contra
independiente
porque
hay
una
próximo
y
todos
toda
sus
muy
hecho
no
tener
problemas
las
pruebas
son
posibilidad
respuesta
sea
afirmó
"si
un
aquí
60
ya
se
2018
para
partido
entre
e
este
mientras
diciembre
podría
si
juventus
visita
olympiacos
p.m.
online
última
del
grupo
champions
real
primer
esta
temporada,
será
pase
octavos
los
como
actualmente
uno
sporting
solo
-
2:45
colombia
méxico
4:45
equipo
o
tres
puntos
su
barcelona
camp
debido
lista
técnico
sí
está
problema
informó
mediante
posibles
gustavo
gerente
deportivo
alianza
lima,
aseguró
próximos
pablo
tema
objetivo
próxima
entrenador
mucho
tiempo
valor
le
duda
nos
acuerdo
semana
ese
dijo
lima
zevallos
pero
algunos
resultados
sino
todo
lo
cómo
va
desde
gran
otro
momento
versión
ello
llegar
después
veremos
qué
hacer
aún
cada
también
teniendo
garcilaso
cristal
mejor
victoria
fue
ante
hoy
jua

In [244]:
modelo["durante"]

array([ 0.00057835,  0.41509077,  0.56186783, -0.40130875,  0.50198841], dtype=float32)

In [245]:
len(modelo.wv.vocab)

637

In [246]:
vector_noticias = []
for i in range(len(df)):
    lista = df['contenido'][i].split()
    contador_palabras=0
    vector = [0 for x in range(dimensiones)]
    for j in range(len(lista)):
        if lista[j] in modelo.wv.vocab:
            contador_palabras+=1
            vector+=vector+modelo[lista[j]]
    vector = vector/contador_palabras if contador_palabras>0 else vector
    vector_noticias.append(vector)
#Cantidad de vectores
len(vector_noticias)

38

In [247]:
vector_noticias

[array([ -4.28415930e+33,   2.14534000e+34,   2.76554680e+34,
         -1.65568869e+34,   2.81735620e+34]),
 array([ -6.52713392e+38,   3.16353273e+39,   3.41670430e+39,
         -2.67239357e+39,   3.92339099e+39]),
 array([ -1.71661086e+52,   9.51409460e+52,   1.28733279e+53,
         -8.18927525e+52,   1.35109030e+53]),
 array([ -8.72011122e+69,   4.06728376e+70,   4.72791409e+70,
         -3.19407358e+70,   5.46829901e+70]),
 array([ -8.77447468e+125,   4.77179979e+126,   6.08629361e+126,
         -3.95363264e+126,   6.53416912e+126]),
 array([ -1.36157991e+23,   7.13462678e+23,   8.45274760e+23,
         -5.40318251e+23,   9.40677710e+23]),
 array([ -7.74072766e+32,   3.14832922e+33,   4.15160977e+33,
         -2.61033521e+33,   4.31620728e+33]),
 array([ -3.26568913e+73,   1.17752105e+74,   1.49535751e+74,
         -9.82235173e+73,   1.64986570e+74]),
 array([ -3.80932053e+25,   1.80819346e+26,   2.30209217e+26,
         -1.43999802e+26,   2.41533785e+26]),
 array([ -9.07584582e+5

# Entrenando el modelo de Kmeans

Vamos a entrenar un modelo kmeans que agrupe las 38 noticias en 4 categorias

In [178]:
from sklearn.cluster import KMeans


In [238]:
est = KMeans(4)  # K clusters
est.fit(vector_noticias)
y_kmeans = est.predict(vector_noticias)

  x = um.multiply(x, x, out=x)
  distances += XX
  np.maximum(distances, 0, out=distances)
  distance_to_candidates[trial])
  max_iter=max_iter, verbose=verbose)
  max_iter=max_iter, verbose=verbose)
  max_iter=max_iter, verbose=verbose)
  inertia = np.sum((X - centers[labels]) ** 2, dtype=np.float64)
  d_chunk += row_norms(X_chunk, squared=True)[:, np.newaxis]
  np.maximum(d_chunk, 0, d_chunk)
  flags = values[chunk_x] > min_values


In [199]:
est

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=20, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [239]:
y_kmeans

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 0, 3, 3, 3, 0, 3, 3, 3, 3, 3, 3, 3, 3], dtype=int32)

In [241]:
est.cluster_centers_

array([[ -3.74217051e+157,   2.06189011e+158,   2.63899851e+158,
         -1.74367994e+158,   2.84322278e+158,   3.31367985e+158,
         -9.14603444e+157,   3.81634071e+158,   2.22895545e+158,
          1.35177801e+158,  -6.04286489e+156,   2.74365244e+157,
         -1.73603146e+158,  -4.87957479e+158,  -2.76957873e+156,
         -1.08004860e+158,  -6.11164207e+158,  -5.09960864e+158,
          2.89676103e+158,  -2.43191549e+156,   1.80964960e+155,
          7.37434181e+157,   6.01694746e+158,   2.79708187e+158,
         -6.77266001e+157,  -2.34291371e+158,  -2.16278646e+157,
         -2.95472311e+158,   1.39447035e+158,   1.91146665e+158,
          2.86769408e+158,   5.15195794e+157,  -2.07705169e+158,
          1.22619257e+158,   1.68988642e+158,  -3.83258741e+158,
          1.59319984e+158,  -1.30704706e+158,   2.73261630e+158,
         -6.89114086e+156,   1.24064737e+158,   3.12542956e+158,
          3.50885545e+158,   1.90068757e+158,   1.13594434e+158,
          2.53262906e+158