# Tutorial de Big Data
## Tutorial 2

El objetivo de esta clase es ver cómo extraer datos de internet por medio de Web Scraping y cómo interactuar con una APIs. También veremos una introducción a los métodos de sentiment analysis.

- Web Scraping
- APIs
- Sentiment analysis -en la clase sincrónica-


### Web Scraping: extrayendo datos de internet

#### ¿Qué es web scraping? 

La práctica de recopilar datos a través de cualquier medio que no sea un programa que interactúa con una API o un humano que usa un navegador web. En general esto se logra mediante un programa automatizado que consulta un servidor web, solicita datos (generalmente en forma de HTML y otros archivos que componen las páginas web) y luego analiza esos datos para extraer la información necesaria.

<font color="gray">
Fuente: Ryan Mitchell (2015). Web Scraping with Python. 
<font>


#### Antes de empezar ⚠️

###### Aspectos éticos y legales del web scraping
Web scraping es la extracción de datos de sitios web, es una forma automática de guardar información que se presenta en nuestro navegador (muy usada tanto en la industria como en la academia). Sus aspectos legales dependerán de cada sitio. Respecto a la ética es importante que nos detengamos a pensar si estamos o no generando algun perjuicio. 

###### No reinventar la rueda
Emprender un proyecto de web scraping a veces es rápido y sencillo, pero en general requiere tiempo y esfuerzo. Siempre es aconsejable asegurarse de que valga la pena y antes iniciar hacerse algunas preguntas:
* ¿La informacion que necesito ya se encuentra disponible? (ej: APIs)
* ¿Vale la pena automatizarlo o es algo que lleva poco trabajo a mano?

#### Conceptos básicos sobre la web

HTML, CSS y JavaScript son los tres lenguajes principales con los que está hecho la parte de la web que vemos (*front-end*).

Una analogía para entender cómo funcionan:
- HTML como la estructura de la casa.
- CSS como la decoración interior y exterior.
- JavaScript como el sistema eléctrico, del agua y otras funcionalidades que hacen una casa habitable

<center>
<img src="https://www.nicepng.com/png/detail/142-1423886_html5-css3-js-html-css-javascript.png" width="400">

<img src="https://geekflare.com/wp-content/uploads/2019/12/css-gif.gif" width="243">


</center>

<br>
<br>

| ESTRUCTURA  | ESTILO | FUNCIONALIDAD|
|-----|----------------| ---------- |
|HTML| CSS | JAVASCRIPT|

Si quieren ver más cómo se unen HTML+CSS+Javascript: https://codepen.io/voubina/pen/gOZGPYx


<font color="gray">    
Fuente de las imágenes: <br>
https://geekflare.com/es/css-formatting-optimization-tools/ <br>
https://www.nicepng.com/ourpic/u2q8i1o0e6q8r5t4_html5-css3-js-html-css-javascript/

Fuente de la información: Instituto Humai - Curso de Automatización
</font>

##### HTML 

- HTML quiere decir: lenguaje de marcado de hipertexto o HyperText Markup Language por sus siglas en inglés. 
- El código  HTML da estructura a los sitios web.
- El código HTML se conforma por distintos elementos que le dicen al navegador cómo mostrar el contenido.
- Esos elementos son etiquetas. Hay etiquetas para indicar qué contenido es un título, un párrafo, un enlace, una imagen, etc.

|Etiqueta (Tag)     |Descripción|
|:--------|:--------|
|`<!DOCTYPE>`  | 	Define el tipo de documento|
|`<html>`      |	Define un documento HTML |
|`<head>`      |	Contiene metadata/información del documento|
|`<title>`     |	Define el títutlo del documento|
|`<body>`      |	Define el cuerpo del documento|
|`<h1>` a `<h6>`|	Define títulos |
|`<p>`         |	Define un párrafo|
|`<br>`        |	Inserta un salto de línea (line break) |
|`<!--...-->`	 |  Define un comentario|
    
Para saber más sobre HTML podés consultar [acá](https://www.w3schools.com/TAGS/ref_byfunc.asp) la lista de etiquetas de este lenguaje.

###### ¿Cómo consigo el código HTML?

Ahora que sabemos cuál es el componente principal de los sitios webs podemos intentar programar a nuestra computadora para leer HTML y extraer información útil.

Para conseguir el código de un sitio web podemos:
- Ir a herramientas del desarrollador (`ctrl+shift+i`) en el navegador.
- Presionar `ctrl+u` en el navegador.

Para hacer lo mismo desde Python podemos usar la librería requests (vamos a verlo ahora)

### Primer ejemplo: títulos de noticias

#### **Método: BeautifulSoup**
* Esta librería provee un *parser* de html, o sea un programa que analiza/entiende el código. Así, nos permite hacer consultas más sofisticadas de forma simple, por ejemplo: "buscar todos los títulos h2 del sitio".

* Se usa para extraer los datos de archivos HTML. Crea un árbol de análisis a partir del código fuente de la página que se puede utilizar para extraer datos de forma jerárquica y más legible.

<center>
<img alt="" width="700" role="presentation" src="https://miro.medium.com/max/700/0*ETFzXPCNHkPpqNv_.png"> <br>

<font color="gray">
Fuente de la información: Instituto Humai - Curso de Automatización
<font>


Empecemos!

In [133]:
#!pip install requests 
#!pip install BeautifulSoup 
#!pip install pandas
# Nota: si no tienen instaladas las librarías a importar debajo, primero deben instalarlas 
# (para eso, quiten el # y activen las 3 líneas de código de arriba)

import requests #html requestor
from bs4 import BeautifulSoup #html parser
import pandas as pd #dataframe manipulator


In [134]:
url = "https://www.lanacion.com.ar/"

r = requests.get(url) #traigo el contenido del html
contenido = r.content

soup = BeautifulSoup(contenido, "html.parser")
soup

<!DOCTYPE html>
<html lang="es"><head><meta charset="utf-8"/><meta content="width=device-width,initial-scale=1.0,minimum-scale=0.5,maximum-scale=5.0,user-scalable=yes" name="viewport"/><meta content="#ffffff" name="theme-color"/><title>Últimas noticias de Argentina y el mundo - LA NACION</title><link as="image" fetchpriority="high" href="https://www.lanacion.com.ar/resizer/v2/el-presidente-javier-milei-en-el-al-acto-por-el-ENQV3OZ32VDG7PKPAUIRVZ4AOU.JPG?auth=0e6fb69c13c57606cf5ef4bd12d27e0789b9a21d9b7802834569a485a6b68ca5&amp;width=488&amp;height=325&amp;quality=70&amp;smart=true" media="(min-width: 768px)" rel="preload"/><link as="image" fetchpriority="high" href="https://www.lanacion.com.ar/resizer/v2/el-presidente-javier-milei-en-el-al-acto-por-el-ENQV3OZ32VDG7PKPAUIRVZ4AOU.JPG?auth=0e6fb69c13c57606cf5ef4bd12d27e0789b9a21d9b7802834569a485a6b68ca5&amp;width=420&amp;height=280&amp;quality=70&amp;smart=true" media="(max-width: 767px)" rel="preload"/><style>
@font-face {font-family:'Pru

Seleccionando un título que aparece bajo la etiqueta o tag h2, vemos, por ejemplo:
Nota: esto cambia según el día en que hagan el request o pedido (ya que la página de noticias se actualiza)

<h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Tras la reunión.<!-- --> </span>Un gobernador reveló el piso de Ganancias y la fórmula jubilatoria que propone el Gobierno</h2>

### Opción A - Usando find y find_all

In [135]:
# Dentro de la sopa, busco los elementos que contienen la información que necesito
# Buscamos el elemento <h2> indicando la clase (class). Escribo class_ porque "class" es una palabra reservada en Python
h2_element = soup.find('h2', class_='text ln-text title --prumo --font-medium --font-m-l')

# Obtenemos el texto del elemento <h2> 
h2_text = h2_element.text.strip()  # strip() permite remover espacios sobrantes

print(h2_element)
print('\n', h2_text)

<h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Tras la pelea con Lousteau.<!-- --> </span>El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades</h2>

 Tras la pelea con Lousteau. El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades


In [136]:
# Obtuvimos el *primer* elemento de la página con ese tag. Pero queremos hacerlo para todos los títulos...
# El método "find_all" busca TODOS los elementos de la página con ese tag y devuelve una lista que los contiene 
# (en realidad devuelve un objeto de la clase "bs4.element.ResultSet")
h2_elements = soup.find_all('h2')

print(type(h2_elements))
print('\n', h2_elements)

<class 'bs4.element.ResultSet'>

 [<h2 class="text ln-text subhead --font-s">El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza</h2>, <h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Tras la pelea con Lousteau.<!-- --> </span>El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades</h2>, <h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">El boletín de Javier Milei.<!-- --> </span>Logros, dudas y déficits de sus primeros 100 días en el poder</h2>, <h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Filas largas y espera.<!-- --> </span>La mayoría de las con

In [137]:
# Extraemos el texto de cada elemento <h2> e imprimimos
for h2_element in h2_elements: 
    h2_text = h2_element.text.strip()
    print(h2_text)

# Aclaración: el nombre del ítem por el que iteramos puede ser el que nosotros queramos, por ejemplo: i
for i in h2_elements: 
    h2_text = i.text.strip()
    print(h2_text)

El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza
Tras la pelea con Lousteau. El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades
El boletín de Javier Milei. Logros, dudas y déficits de sus primeros 100 días en el poder
Filas largas y espera. La mayoría de las consultas en las guardias son por dengue: cómo hacen el diagnóstico
El sorteo de las copas. River y San Lorenzo, opuestos en la Libertadores; Boca y el cuco de la Sudamericana
La trama de los brokers: el Gobierno amplió la denuncia tras descubrir seguros contratados por los ministerios de Educación y de las Mujeres
La mayoría de las consultas en las guardias son por dengue: cómo hacen el diagnóstico
Javier Milei, en vivo: las últimas medidas del Gobierno
Javier Milei: ¿Vencer en los confli

In [138]:
# Idealmente, tenemos que guardar estos títulos, queremos analizarlos
titulos = [] # primero creamos una lista

# Extraemos el texto de cada elemento <h2> y ahora guardamos
for h2_element in h2_elements:
    h2_text = h2_element.text.strip()
    #print(h2_text)
    
    titulos.append({
        'titular': h2_text
    })

# Creamos un dataframe a partir de la lista de títulos
titulos_df = pd.DataFrame(titulos)
print(titulos)

[{'titular': 'El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza'}, {'titular': 'Tras la pelea con Lousteau. El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades'}, {'titular': 'El boletín de Javier Milei. Logros, dudas y déficits de sus primeros 100 días en el poder'}, {'titular': 'Filas largas y espera. La mayoría de las consultas en las guardias son por dengue: cómo hacen el diagnóstico'}, {'titular': 'El sorteo de las copas. River y San Lorenzo, opuestos en la Libertadores; Boca y el cuco de la Sudamericana'}, {'titular': 'La trama de los brokers: el Gobierno amplió la denuncia tras descubrir seguros contratados por los ministerios de Educación y de las Mujeres'}, {'titular': 'La mayoría de las consultas en las guardias son por dengue: cómo ha

In [139]:
titulos_df

Unnamed: 0,titular
0,El Gobierno con la necesidad de llegar a un ac...
1,Tras la pelea con Lousteau. El Gobierno busca ...
2,"El boletín de Javier Milei. Logros, dudas y dé..."
3,Filas largas y espera. La mayoría de las consu...
4,"El sorteo de las copas. River y San Lorenzo, o..."
...,...
113,En pleno Palermo. Es chef y decoradora de inte...
114,Horóscopo. Las predicciones de Jimena La Torre...
115,"Starlink en la Argentina. Cuándo llega, cuánto..."
116,Clásico argentino. Por qué se celebra hoy el D...


### Opción B - Usando select. Defino un selector

Un selector es un descriptor de un elemento de HTML. Como antes usamos la etiqueta (tag) h2 para encontrar los elementos buscados, un selector combina etiquetas, clases y ids en un solo string para hacer la búsqueda deseada.

Si quieren [acá](https://www.w3schools.com/cssref/css_selectors.php) tienen un enlace para leer más sobre selectores 

In [140]:
# Definimos un selector de los objetos que englobe la información buscada
# Vamos a tratar de ser más precisos: vimos que los títulos están bajo los tags h2, pero ahora
# buscaremos indicar en qué objeto se encontraban estos tags h2 
# (y así indicar dónde encontrar los h2 con más precisión)

# En este caso los titulares se encuentran en diferentes "description containers"
desc_selector = '.description-container'; # Identifica todos los elementos HTML con la clase 'description container'. 
# Nota: Antes de la clase se pone un punto

# Con el método select y el selector especificado buscamos todos los elementos deseados
desc_elements = soup.select(desc_selector) # Nuevamente, obtenemos un "bs4.element.ResultSet"

print(type(desc_elements)) # bs4.element.ResultSet
print('\n Primer elemento de los resultados:\n', desc_elements[0])
print('\n', type(desc_elements[0])) # bs4.element.Tag

<class 'bs4.element.ResultSet'>

 Primer elemento de los resultados:
 <section class="description-container relative flex flex-column" href="/politica/javier-milei-vencer-en-los-conflictos-o-solucionar-los-problemas-nid19032024/"><span class="ln-badge inline-flex w-fit ai-center rounded-16 text-12 z-1 flex-nowrap overflow-hidden bg-black text-light-0 uppercase py-6 px-8 --negative">Video</span><h1 class="text ln-text title --prumo --font-medium --font-4xl"><span class="text ln-text lead --prumo --font-extra">Análisis.<!-- --> </span>Milei: ¿Vencer en los conflictos o solucionar los problemas?</h1><h2 class="text ln-text subhead --font-s">El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza</h2><div class="marquee-container flex ai-center" title="Por Carlos Pagni"><img alt="Carlos P

In [141]:
# Una vez obtenidas ya las cajas con los titulares, buscamos los elementos dentro de cada una que contengan los títulos
# Definimos un selector de estos elementos
h2_selector = 'h2' # Identifica todos los elementos HTML cuyo tag sea 'h2' 

In [142]:
print(desc_elements[1])
print('\n', desc_elements[1].select(h2_selector))

<section class="description-container relative flex flex-column" href="/politica/el-gobierno-busca-crear-un-filtro-para-dificultar-la-creacion-de-nuevas-universidades-en-la-ley-nid18032024/"><h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Tras la pelea con Lousteau.<!-- --> </span>El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades</h2><div class="marquee-container flex ai-center" title="Por Camila Dolabjian"><div class="marquee-text flex flex-column --font-2xs w-100"><span class="text ln-text marquee">Por <strong>Camila Dolabjian</strong></span></div></div></section>

 [<h2 class="text ln-text title --prumo --font-medium --font-m-l"><span class="text ln-text lead --prumo --font-extra">Tras la pelea con Lousteau.<!-- --> </span>El Gobierno busca crear un filtro para dificultar la creación de nuevas universidades</h2>]


In [143]:
# Creamos una lista vacía para guardar los títulos
titulos_sel = [] 

# Realizamos un loop por todas las descripciones encontradas. Y por cada una, ejecutamos una consulta local
# a cada elemento, buscando entonces el título de cada noticia con el selector ya definido
for desc in desc_elements :
    # Nos quedamos con el 1er resultado, ya que asumimos que nuestro selector es suficientemente preciso 
    # como para encontrar solo resultados válidos.
    h2_element = desc.select(h2_selector)[0]
    titular = h2_element.get_text() # Obtenemos el texto

    titulos_sel.append({
        'titular': titular
    })

# Creamos un dataframe con los títulos a partir de la lista
titulos_sel_df = pd.DataFrame(titulos_sel)

In [144]:
titulos_sel_df

Unnamed: 0,titular
0,El Gobierno con la necesidad de llegar a un ac...
1,Tras la pelea con Lousteau. El Gobierno busca ...
2,"El boletín de Javier Milei. Logros, dudas y dé..."
3,Filas largas y espera. La mayoría de las consu...
4,"El sorteo de las copas. River y San Lorenzo, o..."
...,...
113,En pleno Palermo. Es chef y decoradora de inte...
114,Horóscopo. Las predicciones de Jimena La Torre...
115,"Starlink en la Argentina. Cuándo llega, cuánto..."
116,Clásico argentino. Por qué se celebra hoy el D...


### Análisis de sentimiento de los títulos de noticias

Más información sobre sentiment analysis, acá: https://www.datacamp.com/tutorial/text-analytics-beginners-nltk

In [145]:
# Si aún no instalaron estas librerías, activar estas líneas de código -quitar #- para instalarlas
#!pip install string
#!pip install pandas
#!pip install nltk
#!pip install stop_words
#!pip install spacy
#!python -m spacy download es_core_news_sm
#!pip uninstall vaderSentiment
#!pip install vader-multi

In [146]:
# Importamos los paquetes a utilizar
import string
import pandas as pd
import nltk # para procesamiento del lenguaje natural 
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from stop_words import get_stop_words
from nltk.stem import WordNetLemmatizer
import spacy # para preprocesamiento en español
from nltk.sentiment.vader import SentimentIntensityAnalyzer 

# ntlk requiere descargar algunos datos adicionales
#nltk.download('all')

# Para trabajar en inglés usar:
#from textblob import TextBlob

Vamos a limpiar los títulos
Como parte del preprocesamiento de la información tenemos los siguientes pasos:
1. Tokenization: Implica dividir el texto en palabras (o tokens) 
2. Eliminar stop words: quitar palabras comunes e irrelevantes que no tienen mucho "sentimiento". Esto permite mejorar la precisión del análisis de sentimiento
3. Lemmatization: reducir las palabras a sus raíces (por ejemplo, eliminando sufijos, pasar de "leyendo" a "leer"). 

In [147]:
# Veamos la lista de signos de puntuación
print(string.punctuation)
# Como estamos trabajando en español, es conveniente agregar algunos símbolos más a los signos de puntuación
string.punctuation = string.punctuation + '¿¡“”'
print(string.punctuation)

# Cargar palabras vacías en español
stop_words = get_stop_words('spanish')
print(stop_words)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~¿¡“”¿¡“”¿¡“”¿¡“”¿¡“”
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~¿¡“”¿¡“”¿¡“”¿¡“”¿¡“”¿¡“”
['a', 'al', 'algo', 'algunas', 'algunos', 'ante', 'antes', 'como', 'con', 'contra', 'cual', 'cuando', 'de', 'del', 'desde', 'donde', 'durante', 'e', 'el', 'ella', 'ellas', 'ellos', 'en', 'entre', 'era', 'erais', 'eran', 'eras', 'eres', 'es', 'esa', 'esas', 'ese', 'eso', 'esos', 'esta', 'estaba', 'estabais', 'estaban', 'estabas', 'estad', 'estada', 'estadas', 'estado', 'estados', 'estamos', 'estando', 'estar', 'estaremos', 'estará', 'estarán', 'estarás', 'estaré', 'estaréis', 'estaría', 'estaríais', 'estaríamos', 'estarían', 'estarías', 'estas', 'este', 'estemos', 'esto', 'estos', 'estoy', 'estuve', 'estuviera', 'estuvierais', 'estuvieran', 'estuvieras', 'estuvieron', 'estuviese', 'estuvieseis', 'estuviesen', 'estuvieses', 'estuvimos', 'estuviste', 'estuvisteis', 'estuviéramos', 'estuviésemos', 'estuvo', 'está', 'estábamos', 'estáis', 'están', 'estás', 'esté', 'estéis', 'estén',

In [148]:
def limpiar_titulos_nltk(titulo):
    '''
    Esta función limpia el texto del título. 
    Convierte texto en tokens, elimina stop words, y transforma palabras en su forma raíz
    para dejar en el texto solo las palabras con mayor contenido.
    Input:
        título (str): Texto del título original
    Output:
        título (str): Texto del título limpio
    '''
   
    # 1. Separar los títulos en tokens (obtenemos una lista con palabras)
    word_tokens = word_tokenize(titulo.lower())
    
    # 2. Eliminar palabras vacías (stop words) de los títulos
    # Loop por las condiciones
    filtered_tokens = []
    for w in word_tokens:
        # Verificamos tokens contra stop words y puntuación 
        if w not in stop_words and w not in string.punctuation:
            filtered_tokens.append(w)
    
    # 3. Lemmatization
    lemmatizer = WordNetLemmatizer()
    
    lemmatized_tokens = []
    for w in filtered_tokens:
        lemmatizer.lemmatize(w)
        lemmatized_tokens.append(w)
            
    # Volvemos a armar la oración (concatenamos las palabras separándolas con un espacio)
    return ' '.join(lemmatized_tokens)

In [149]:
# Cargar el modelo para el español y las stop words según spacy
nlp = spacy.load('es_core_news_sm')
stopwords_spacy = spacy.lang.es.stop_words.STOP_WORDS

def limpiar_titulos_spacy(titulo):
    '''
    Esta función limpia el texto del título (usando funcionalidades de la librería spacy). 
    Convierte texto en tokens, elimina stop words, y transforma palabras en su forma raíz
    para dejar en el texto solo las palabras con mayor contenido.
    Input:
        título (str): Texto del título original
    Output:
        título (str): Texto del título limpio
    '''
   
    # Procesar el texto con spaCy
    doc = nlp(titulo.lower())
    #print(doc)
    
    filtered_tokens = []
    lemmas = []
    
    # Pasar a tokens y eliminar puntación y stopwords
    for w in doc:
        if w.text not in stopwords_spacy and not w.is_punct:
            filtered_tokens.append(w.text)
    filtered_doc = ' '.join(filtered_tokens)
    #print(filtered_doc)
    
    # Obtener las formas lematizadas de las palabras
    doc2 = nlp(filtered_doc)
    for w_f in doc2:
        lemmas.append(w_f.lemma_)
    
    # Volvemos a armar la oración (concatenamos las palabras separándolas con un espacio)
    return ' '.join(lemmas)

In [150]:
#Este es un título sucio:
titulos_sel[0]

{'titular': 'El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza'}

In [151]:
#Este es un título limpio:
limpiar_titulos_nltk(titulos_sel[0]['titular'])

'gobierno necesidad llegar acuerdo federal dominar congreso usuario x atribuyen santiago caputo paolo rocca rompió silencio huelga uom macri larreta distancian apoyar libertad avanza'

In [152]:
#Este es un título limpio:
limpiar_titulos_spacy(titulos_sel[0]['titular'])

'gobierno necesidad llegar federal dominar congreso usuario x atribuir santiago caputo paolo rocca romper silencio huelga uom macri larreta distanciar apoyar libertad avanzar'

#### Ahora vamos a usar sentiment analysis para ver qué tan positivos son los títulos

Vamos a usar la bilioteca NLTK (Natural Language Toolkit) para clasificar los títulos en positivos o negativos. NLTK es una biblioteca de Python muy utilizada en procesamiento de lenguaje natural (NLP). VADER (Valence Aware Dictionary and Sentiment Reasoner) es un módulo específico de NLTK que se utiliza para el análisis de sentimientos.

VADER es una herramienta especialmente diseñada para el análisis de sentimientos en textos. A diferencia de algunos enfoques más generales que utilizan modelos de aprendizaje automático, VADER se basa en un conjunto de reglas y un diccionario que asigna puntuaciones de polaridad a palabras y expresiones. Además, tiene en cuenta factores como las mayúsculas, los signos de puntuación y los emoticonos para evaluar la intensidad del sentimiento.

Las puntuaciones de VADER incluyen la polaridad (positiva, negativa o neutra) y una medida de la intensidad del sentimiento. Es especialmente útil para textos informales o con lenguaje coloquial, como se encuentra comúnmente en redes sociales.

Vamos a probar dos módulos con VADER:
1. con VADER "original". Ver: https://www.nltk.org/_modules/nltk/sentiment/vader.html
2. con VADER "multi". Ver: https://github.com/brunneis/vader-multi
En realidad, ambos buscan hacer los mismo pero los modelos de fondo están entrenados de formas distintas

In [153]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

# Inicializar el analizador de sentimientos VADER
sia = SentimentIntensityAnalyzer()

# Primero veamos un ejemplo
texto_ej_pos = "Me encanta este curso, es genial"
texto_ej_neg = "Odio este curso, es terrible"
texto_ej_neu = "Me da igual el curso"

print(texto_ej_pos, sia.polarity_scores(texto_ej_pos))
print(texto_ej_neg, sia.polarity_scores(texto_ej_neg))
print(texto_ej_neu, sia.polarity_scores(texto_ej_neu))
# Si la variable compound es positiva, el texto es positivo; si es negativa, el texto es negativo 
# Y si se encuentra en el rango del 0 es un mensaje neutro

Me encanta este curso, es genial {'neg': 0.0, 'neu': 0.641, 'pos': 0.359, 'compound': 0.4215}
Odio este curso, es terrible {'neg': 0.437, 'neu': 0.563, 'pos': 0.0, 'compound': -0.4767}
Me da igual el curso {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}


In [154]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer as SentimentIntensityAnalyzerMulti
 
# Inicializar el analizador de sentimientos VADER
sia2 = SentimentIntensityAnalyzerMulti()

# Primero veamos un ejemplo
texto_ej_pos = "Me encanta este curso, es genial"
texto_ej_neg = "Odio este curso, es terrible"
texto_ej_neu = "Me da igual el curso"

print(texto_ej_pos, sia2.polarity_scores(texto_ej_pos))
print(texto_ej_neg, sia2.polarity_scores(texto_ej_neg))
print(texto_ej_neu, sia2.polarity_scores(texto_ej_neu))
# Si la variable compound es positiva, el texto es positivo; si es negativa, el texto es negativo 
# Y si se encuentra en el rango del 0 es un mensaje neutro

Me encanta este curso, es genial {'neg': 0.0, 'neu': 0.641, 'pos': 0.359, 'compound': 0.4215}
Odio este curso, es terrible {'neg': 0.437, 'neu': 0.563, 'pos': 0.0, 'compound': -0.4767}
Me da igual el curso {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}


Ahora crearemos funciones que, además de dar un valor, clasifiquen en positivo, negativo o neutro

In [155]:
def analizar_sentiment(text):
    # Obtener la polaridad del sentimiento
    sia = SentimentIntensityAnalyzer()
    sentiment_score = sia.polarity_scores(text)

    # Clasificar el sentimiento como positivo, negativo o neutro
    compound_score = sentiment_score['compound']
    if compound_score >= 0.05:
        sentiment = "Positivo"
    elif compound_score <= -0.05:
        sentiment = "Negativo"
    else:
        sentiment = "Neutro"

    return compound_score, sentiment

In [156]:
def analizar_sentiment2(text):
    # Obtener la polaridad del sentimiento
    sia2 = SentimentIntensityAnalyzerMulti()
    sentiment_score = sia2.polarity_scores(text)

    # Clasificar el sentimiento como positivo, negativo o neutro
    compound_score = sentiment_score['compound']
    if compound_score >= 0.05:
        sentiment = "Positivo"
    elif compound_score <= -0.05:
        sentiment = "Negativo"
    else:
        sentiment = "Neutro"

    return compound_score, sentiment

In [157]:
# Ejemplos de uso
compound_score_pos, sentiment_pos = analizar_sentiment(texto_ej_pos)
print(f"Texto: {texto_ej_pos}")
print(f"Puntuación de sentimiento compuesta: {compound_score_pos}")
print(f"Sentimiento: {sentiment_pos}")

compound_score_neg, sentiment_neg = analizar_sentiment(texto_ej_neg)
print(f"\nTexto: {texto_ej_neg}")
print(f"Puntuación de sentimiento compuesta: {compound_score_neg}")
print(f"Sentimiento: {sentiment_neg}")

Texto: Me encanta este curso, es genial
Puntuación de sentimiento compuesta: 0.4215
Sentimiento: Positivo

Texto: Odio este curso, es terrible
Puntuación de sentimiento compuesta: -0.4767
Sentimiento: Negativo


In [158]:
# Ejemplos de uso
compound_score_pos, sentiment_pos = analizar_sentiment2(texto_ej_pos)
print(f"Texto: {texto_ej_pos}")
print(f"Puntuación de sentimiento compuesta: {compound_score_pos}")
print(f"Sentimiento: {sentiment_pos}")

compound_score_neg, sentiment_neg = analizar_sentiment2(texto_ej_neg)
print(f"\nTexto: {texto_ej_neg}")
print(f"Puntuación de sentimiento compuesta: {compound_score_neg}")
print(f"Sentimiento: {sentiment_neg}")

Texto: Me encanta este curso, es genial
Puntuación de sentimiento compuesta: 0.4215
Sentimiento: Positivo

Texto: Odio este curso, es terrible
Puntuación de sentimiento compuesta: -0.4767
Sentimiento: Negativo


In [159]:
# Ahora un ejemplo con un título limpio
print(titulos_sel[0]['titular'], 
      "\n",
      analizar_sentiment(limpiar_titulos_spacy(titulos_sel[0]['titular'])))


El Gobierno con la necesidad de llegar a un acuerdo federal para dominar el Congreso; el usuario de X que le atribuyen a Santiago Caputo; Paolo Rocca rompió el silencio por la huelga de la UOM; Macri y Larreta se distancian por apoyar o no a La Libertad Avanza 
 (0.0, 'Neutro')


In [160]:
# Aplicamos la función para limpiar títulos para tener un columna con títulos limpios
titulos_sel_df['titular_limpio'] = titulos_sel_df['titular'].apply(limpiar_titulos_nltk)
# Vemos el sentiment
titulos_sel_df['sentiment'] = titulos_sel_df['titular_limpio'].apply(analizar_sentiment)
titulos_sel_df['sentiment2'] = titulos_sel_df['titular_limpio'].apply(analizar_sentiment2)

In [161]:
titulos_sel_df

Unnamed: 0,titular,titular_limpio,sentiment,sentiment2
0,El Gobierno con la necesidad de llegar a un ac...,gobierno necesidad llegar acuerdo federal domi...,"(0.0, Neutro)","(0.0, Neutro)"
1,Tras la pelea con Lousteau. El Gobierno busca ...,tras pelea lousteau gobierno busca crear filtr...,"(0.0, Neutro)","(0.0, Neutro)"
2,"El boletín de Javier Milei. Logros, dudas y dé...",boletín javier milei logros dudas déficits pri...,"(0.0, Neutro)","(0.0, Neutro)"
3,Filas largas y espera. La mayoría de las consu...,filas largas espera mayoría consultas guardias...,"(0.0, Neutro)","(0.0, Neutro)"
4,"El sorteo de las copas. River y San Lorenzo, o...",sorteo copas river san lorenzo opuestos libert...,"(0.0, Neutro)","(0.0, Neutro)"
...,...,...,...,...
113,En pleno Palermo. Es chef y decoradora de inte...,pleno palermo chef decoradora interiores armó ...,"(0.0, Neutro)","(0.0, Neutro)"
114,Horóscopo. Las predicciones de Jimena La Torre...,horóscopo predicciones jimena torre semana 17 ...,"(0.0, Neutro)","(0.0, Neutro)"
115,"Starlink en la Argentina. Cuándo llega, cuánto...",starlink argentina cuándo llega cuánto sale dó...,"(0.0, Neutro)","(0.0, Neutro)"
116,Clásico argentino. Por qué se celebra hoy el D...,clásico argentino celebra hoy día sándwich mil...,"(0.0, Neutro)","(0.0, Neutro)"


In [162]:
titulos_sel_df['sentiment'].value_counts()

(0.0, Neutro)          112
(-0.296, Negativo)       2
(-0.6249, Negativo)      2
(0.5423, Positivo)       1
(0.4939, Positivo)       1
Name: sentiment, dtype: int64

In [163]:
titulos_sel_df['sentiment2'].value_counts()

(0.0, Neutro)          112
(-0.6249, Negativo)      2
(0.5423, Positivo)       1
(-0.296, Negativo)       1
(-0.5574, Negativo)      1
(0.4939, Positivo)       1
Name: sentiment2, dtype: int64

In [164]:
# titulos_sel_df.to_excel('titulos.xlsx', index=False)

#### Un ejemplo en inglés usando TextBlob

In [165]:
from textblob import TextBlob

In [166]:
# Ejemplo de texto en inglés
texto_ej_1 = "I love learning about Big data"
texto_ej_2 = "I hate learning about Big data"

# Crear un objeto TextBlob con el texto
blob1 = TextBlob(texto_ej_1)

# Obtener la polaridad del sentimiento (-1 a 1)
polarity1 = blob1.sentiment.polarity

# Clasificar el sentimiento como positivo, negativo o neutro
def clasif_polarity(polarity):
    if polarity > 0:
        sentiment = "Positivo"
    elif polarity < 0:
        sentiment = "Negativo"
    else:
        sentiment = "Neutro"
    return sentiment

# Mostrar los resultados
print(f"Texto: {texto_ej_1}")
print(f"Polaridad del sentimiento: {polarity1}")
print(f"Sentimiento: {clasif_polarity(polarity1)}")

Texto: I love learning about Big data
Polaridad del sentimiento: 0.25
Sentimiento: Positivo


### Otro Ejemplo de Web Scraping: Tabla

In [167]:
import requests #html requestor
from bs4 import BeautifulSoup #html parser
import pandas as pd #dataframe manipulator

In [168]:
url = 'https://datatables.net/examples/basic_init/zero_configuration.html'

Solicitamos el html del url indicado. El código de respuesta 200 significa que la respuesta del sitio fue exitosa

In [169]:
response = requests.get(url)
print(response.status_code)

200


Dividimos el texto con `BeautifulSoup`.

In [170]:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup)

<!DOCTYPE html>

<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<meta content="width=device-width,initial-scale=1,user-scalable=no" name="viewport"/>
<title>DataTables example - Zero configuration</title>
<link href="/media/images/favicon.png" rel="shortcut icon" type="image/png"/>
<link href="http://www.datatables.net/rss.xml" rel="alternate" title="RSS 2.0" type="application/rss+xml"/>
<link href="/media/css/site-examples.css?_=086e401b5bf9f48093849da5442b7d681" rel="stylesheet" type="text/css"/>
<style class="init" type="text/css">
</style>
<script src="/media/js/mode.js?_=8d4db0555b78d4204a084e031cf2f67d"></script>
<script data-api="https://plausible.sprymedia.co.uk/api/event" data-domain="datatables.net" src="/media/js/site.js?_=8d4db0555b78d4204a084e031cf2f67d" type="text/javascript"></script>
<script src="/media/js/dynamic.php?comments-page=examples%2Fbasic_init%2Fzero_configuration.html"></script>
<script async="" defer="" onerror="window.dtA

Se puede observar que la informacion que queremos extraer esta entre las etiquetas llamadas `tr`. Por lo tanto queremos encontrar todas las etiquetas `tr`.

In [171]:
info = soup.find_all('tr')
info

[<tr>
 <th>Name</th>
 <th>Position</th>
 <th>Office</th>
 <th>Age</th>
 <th>Start date</th>
 <th>Salary</th>
 </tr>,
 <tr>
 <td>Tiger Nixon</td>
 <td>System Architect</td>
 <td>Edinburgh</td>
 <td>61</td>
 <td>2011-04-25</td>
 <td>$320,800</td>
 </tr>,
 <tr>
 <td>Garrett Winters</td>
 <td>Accountant</td>
 <td>Tokyo</td>
 <td>63</td>
 <td>2011-07-25</td>
 <td>$170,750</td>
 </tr>,
 <tr>
 <td>Ashton Cox</td>
 <td>Junior Technical Author</td>
 <td>San Francisco</td>
 <td>66</td>
 <td>2009-01-12</td>
 <td>$86,000</td>
 </tr>,
 <tr>
 <td>Cedric Kelly</td>
 <td>Senior Javascript Developer</td>
 <td>Edinburgh</td>
 <td>22</td>
 <td>2012-03-29</td>
 <td>$433,060</td>
 </tr>,
 <tr>
 <td>Airi Satou</td>
 <td>Accountant</td>
 <td>Tokyo</td>
 <td>33</td>
 <td>2008-11-28</td>
 <td>$162,700</td>
 </tr>,
 <tr>
 <td>Brielle Williamson</td>
 <td>Integration Specialist</td>
 <td>New York</td>
 <td>61</td>
 <td>2012-12-02</td>
 <td>$372,000</td>
 </tr>,
 <tr>
 <td>Herrod Chandler</td>
 <td>Sales Assistan

In [172]:
print(type(info))
print(type(info[0]))

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'>


Podemos ver que todas las observaciones, excepto la primera y la última, contienen la información que necesitamos. También observamos que el nombre, el puesto, el cargo, la edad, la fecha de inicio y el salario siempre tienen el mismo orden. Podemos hacer uso de estos patrones para extraer la información en un marco de datos.

In [173]:
df = pd.DataFrame(columns=['name', 'position', 'office', 'age', 'start date', 'salary'])

In [174]:
print(info[1].find_all('td'))

[<td>Tiger Nixon</td>, <td>System Architect</td>, <td>Edinburgh</td>, <td>61</td>, <td>2011-04-25</td>, <td>$320,800</td>]


In [175]:
for i, item in enumerate(info): #enumerate da la posición
    if i != 0 and i != len(info)-1:
        datos_de_fila = item.find_all('td')
        fila = []
        for dato in datos_de_fila:
            fila.append(dato.text)
        print('\nFila:', i)
        print(fila)
        df.loc[i-1] = fila # mencionamos el nombre/etiqueta de las filas que queremos seleccionar



Fila: 1
['Tiger Nixon', 'System Architect', 'Edinburgh', '61', '2011-04-25', '$320,800']

Fila: 2
['Garrett Winters', 'Accountant', 'Tokyo', '63', '2011-07-25', '$170,750']

Fila: 3
['Ashton Cox', 'Junior Technical Author', 'San Francisco', '66', '2009-01-12', '$86,000']

Fila: 4
['Cedric Kelly', 'Senior Javascript Developer', 'Edinburgh', '22', '2012-03-29', '$433,060']

Fila: 5
['Airi Satou', 'Accountant', 'Tokyo', '33', '2008-11-28', '$162,700']

Fila: 6
['Brielle Williamson', 'Integration Specialist', 'New York', '61', '2012-12-02', '$372,000']

Fila: 7
['Herrod Chandler', 'Sales Assistant', 'San Francisco', '59', '2012-08-06', '$137,500']

Fila: 8
['Rhona Davidson', 'Integration Specialist', 'Tokyo', '55', '2010-10-14', '$327,900']

Fila: 9
['Colleen Hurst', 'Javascript Developer', 'San Francisco', '39', '2009-09-15', '$205,500']

Fila: 10
['Sonya Frost', 'Software Engineer', 'Edinburgh', '23', '2008-12-13', '$103,600']

Fila: 11
['Jena Gaines', 'Office Manager', 'London', '30', 

In [176]:
display(df)

Unnamed: 0,name,position,office,age,start date,salary
0,Tiger Nixon,System Architect,Edinburgh,61,2011-04-25,"$320,800"
1,Garrett Winters,Accountant,Tokyo,63,2011-07-25,"$170,750"
2,Ashton Cox,Junior Technical Author,San Francisco,66,2009-01-12,"$86,000"
3,Cedric Kelly,Senior Javascript Developer,Edinburgh,22,2012-03-29,"$433,060"
4,Airi Satou,Accountant,Tokyo,33,2008-11-28,"$162,700"
5,Brielle Williamson,Integration Specialist,New York,61,2012-12-02,"$372,000"
6,Herrod Chandler,Sales Assistant,San Francisco,59,2012-08-06,"$137,500"
7,Rhona Davidson,Integration Specialist,Tokyo,55,2010-10-14,"$327,900"
8,Colleen Hurst,Javascript Developer,San Francisco,39,2009-09-15,"$205,500"
9,Sonya Frost,Software Engineer,Edinburgh,23,2008-12-13,"$103,600"


Por último exportamos la información a un archivo `csv`:

In [177]:
df.to_csv('final_output.csv', index=False)