# Tutoriales de Ciencia de Datos (CC408-2024)
## Tutorial 2a

El objetivo de esta clase es ver cómo extraer datos de internet por medio de Web Scraping y cómo interactuar con una APIs. También veremos un pequeño ejemplo de _sentiment analysis_.

- Web Scraping
- APIs
- Sentiment analysis -si llegamos, sino les queda como tarea mirarlo-


### Web Scraping: extrayendo datos de internet

#### ¿Qué es web scraping?

La práctica de recopilar datos a través de cualquier medio que no sea un programa que interactúa con una API o un humano que usa un navegador web. En general esto se logra mediante un programa automatizado que consulta un servidor web, solicita datos (generalmente en forma de HTML y otros archivos que componen las páginas web) y luego analiza esos datos para extraer la información necesaria.

<font color="gray">
Fuente: Ryan Mitchell (2015). Web Scraping with Python.
<font>


#### Antes de empezar ⚠️

#### Aspectos éticos y legales del web scraping
Web scraping es la extracción de datos de sitios web, es una forma automática de guardar información que se presenta en nuestro navegador (muy usada tanto en la industria como en la academia). Sus aspectos legales dependerán de cada sitio. Respecto a la ética es importante que nos detengamos a pensar si estamos o no generando algun perjuicio.

#### No reinventar la rueda
Emprender un proyecto de web scraping a veces es rápido y sencillo, pero en general requiere tiempo y esfuerzo. Siempre es aconsejable asegurarse de que valga la pena y antes iniciar hacerse algunas preguntas:
* ¿La informacion que necesito ya se encuentra disponible? (ej: APIs)
* ¿Vale la pena automatizarlo o es algo que lleva poco trabajo a mano?

#### Conceptos básicos sobre la web

HTML, CSS y JavaScript son los tres lenguajes principales con los que está hecho la parte de la web que vemos (*front-end*).

Una analogía para entender cómo funcionan:
- HTML como la estructura de la casa.
- CSS como la decoración interior y exterior.
- JavaScript como el sistema eléctrico, del agua y otras funcionalidades que hacen una casa habitable

<center>
<img src="https://www.nicepng.com/png/detail/142-1423886_html5-css3-js-html-css-javascript.png" width="400">

<img src="https://geekflare.com/wp-content/uploads/2019/12/css-gif.gif" width="243">


</center>

<br>
<br>

| ESTRUCTURA  | ESTILO | FUNCIONALIDAD|
|-----|----------------| ---------- |
|HTML| CSS | JAVASCRIPT|

Si quieren ver más cómo se unen HTML+CSS+Javascript: https://codepen.io/voubina/pen/gOZGPYx


<font color="gray">    
Fuente de las imágenes: <br>
https://geekflare.com/es/css-formatting-optimization-tools/ <br>
https://www.nicepng.com/ourpic/u2q8i1o0e6q8r5t4_html5-css3-js-html-css-javascript/

Fuente de la información: Instituto Humai - Curso de Automatización
</font>

##### HTML

- HTML quiere decir: lenguaje de marcado de hipertexto o HyperText Markup Language por sus siglas en inglés.
- El código  HTML da estructura a los sitios web.
- El código HTML se conforma por distintos elementos que le dicen al navegador cómo mostrar el contenido.
- Esos elementos son etiquetas. Hay etiquetas para indicar qué contenido es un título, un párrafo, un enlace, una imagen, etc.

|Etiqueta (Tag)     |Descripción|
|:--------|:--------|
|`<!DOCTYPE>`  | 	Define el tipo de documento|
|`<html>`      |	Define un documento HTML |
|`<head>`      |	Contiene metadata/información del documento|
|`<title>`     |	Define el títutlo del documento|
|`<body>`      |	Define el cuerpo del documento|
|`<h1>` a `<h6>`|	Define títulos |
|`<p>`         |	Define un párrafo|
|`<br>`        |	Inserta un salto de línea (line break) |
|`<!--...-->`	 |  Define un comentario|
    
Para saber más sobre HTML podés consultar [acá](https://www.w3schools.com/TAGS/ref_byfunc.asp) la lista de etiquetas de este lenguaje.

#### ¿Cómo consigo el código HTML?

Ahora que sabemos cuál es el componente principal de los sitios webs podemos intentar programar a nuestra computadora para leer HTML y extraer información útil.

Para conseguir el código de un sitio web podemos:
- Ir a herramientas del desarrollador (`ctrl+shift+i`) en el navegador.
- Presionar `ctrl+u` en el navegador.

Para hacer lo mismo desde Python podemos usar la librería requests (vamos a verlo ahora)

### Primer ejemplo: títulos de noticias

#### **Método: BeautifulSoup**
* Esta librería provee un *parser* de html, o sea un programa que analiza/entiende el código. Así, nos permite hacer consultas más sofisticadas de forma simple, por ejemplo: "buscar todos los títulos h2 del sitio".

* Se usa para extraer los datos de archivos HTML. Crea un árbol de análisis a partir del código fuente de la página que se puede utilizar para extraer datos de forma jerárquica y más legible.

<center>
<img alt="" width="700" role="presentation" src="https://miro.medium.com/max/700/0*ETFzXPCNHkPpqNv_.png"> <br>

<font color="gray">
Fuente de la información: Instituto Humai - Curso de Automatización
<font>


Empecemos!

In [None]:
#!pip install requests
#!pip install BeautifulSoup
#!pip install pandas
# Nota: si no tienen instaladas las librarías a importar debajo, primero deben instalarlas
# (para eso, quiten el # y activen las 3 líneas de código de arriba)

import requests #html requestor
from bs4 import BeautifulSoup #html parser
import pandas as pd #dataframe manipulator


In [None]:
url = "https://www.lanacion.com.ar/"

r = requests.get(url) #traigo el contenido del html
contenido = r.content

contenido

In [None]:
soup = BeautifulSoup(contenido, "html.parser")
soup

Seleccionando un título que aparece bajo la etiqueta o tag h2, vemos, por ejemplo:

### El fiscal Ramiro González había pedido que le enviaran lo grabado dentro de la quinta presidencial, tanto en la residencia oficial como en la casa de huéspedes, pero lo registrado no se guarda más de 45 días

Nota: esto cambia según el día en que hagan el request o pedido (ya que la página de noticias se actualiza)

### Opción A - Usando find y find_all

In [None]:
# Dentro de la sopa, busco los elementos que contienen la información que necesito
# Buscamos el elemento <h2> indicando la clase (class). Escribo class_ porque "class" es una palabra reservada en Python
h2_element = soup.find('h2')
print(h2_element)

In [None]:
# Obtenemos el texto del elemento <h2>
h2_text = h2_element.text.strip()  # strip() permite remover espacios sobrantes
print('\n', h2_text)

In [None]:
# Obtuvimos el *primer* elemento de la página con ese tag. Pero queremos hacerlo para todos los títulos...
# El método "find_all" busca TODOS los elementos de la página con ese tag y devuelve una lista que los contiene
# (en realidad devuelve un objeto de la clase "bs4.element.ResultSet")
h2_elements = soup.find_all('h2')

print(type(h2_elements))
print('\n', h2_elements)

In [None]:
# Extraemos el texto de cada elemento <h2> e imprimimos
for h2_element in h2_elements:
    h2_text = h2_element.text.strip()
    print(h2_text)

In [None]:
# Idealmente, tenemos que guardar estos títulos, queremos analizarlos
titulos = [] # primero creamos una lista

# Extraemos el texto de cada elemento <h2> y ahora guardamos
for h2_element in h2_elements:
    h2_text = h2_element.text.strip()
    #print(h2_text)

    titulos.append({
        'titular': h2_text
    })

# Creamos un dataframe a partir de la lista de títulos
titulos_df = pd.DataFrame(titulos)

In [None]:
titulos_df

### Análisis de sentimiento de los títulos de noticias

Más información sobre sentiment analysis, acá: https://www.datacamp.com/tutorial/text-analytics-beginners-nltk

In [None]:
# Si aún no instalaron estas librerías, activar estas líneas de código -quitar #- para instalarlas
#!pip install string
#!pip install pandas
#!pip install nltk
#!pip install stop-words
#!pip install spacy
#!python -m spacy download es_core_news_sm
#!pip uninstall vaderSentiment
#!pip install vader-multi

In [None]:
# Importamos los paquetes a utilizar
import string
import pandas as pd
import nltk # para procesamiento del lenguaje natural
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from stop_words import get_stop_words
from nltk.stem import WordNetLemmatizer
import spacy # para preprocesamiento en español
from nltk.sentiment.vader import SentimentIntensityAnalyzer

# ntlk requiere descargar algunos datos adicionales
# nltk.download('all')

# Para trabajar en inglés usar:
#from textblob import TextBlob

In [None]:
from stop_words import get_stop_words

Vamos a limpiar los títulos
Como parte del preprocesamiento de la información tenemos los siguientes pasos:
1. Tokenization: Implica dividir el texto en palabras (o tokens)
2. Eliminar stop words: quitar palabras comunes e irrelevantes que no tienen mucho "sentimiento". Esto permite mejorar la precisión del análisis de sentimiento
3. Lemmatization: reducir las palabras a sus raíces (por ejemplo, eliminando sufijos, pasar de "leyendo" a "leer").

In [None]:
# Veamos la lista de signos de puntuación
print(string.punctuation)
# Como estamos trabajando en español, es conveniente agregar algunos símbolos más a los signos de puntuación
string.punctuation = string.punctuation + '¿¡“”'
print(string.punctuation)

# Cargar palabras vacías en español
stop_words = get_stop_words('spanish')
print(stop_words)

In [None]:
def limpiar_titulos_nltk(titulo):
    '''
    Esta función limpia el texto del título.
    Convierte texto en tokens, elimina stop words, y transforma palabras en su forma raíz
    para dejar en el texto solo las palabras con mayor contenido.
    Input:
        título (str): Texto del título original
    Output:
        título (str): Texto del título limpio
    '''

    # 1. Separar los títulos en tokens (obtenemos una lista con palabras)
    word_tokens = word_tokenize(titulo.lower())

    # 2. Eliminar palabras vacías (stop words) de los títulos
    # Loop por las condiciones
    filtered_tokens = []
    for w in word_tokens:
        # Verificamos tokens contra stop words y puntuación
        if w not in stop_words and w not in string.punctuation:
            filtered_tokens.append(w)

    # 3. Lemmatization
    lemmatizer = WordNetLemmatizer()

    lemmatized_tokens = []
    for w in filtered_tokens:
        lemmatizer.lemmatize(w)
        lemmatized_tokens.append(w)

    # Volvemos a armar la oración (concatenamos las palabras separándolas con un espacio)
    return ' '.join(lemmatized_tokens)

In [None]:
# Cargar el modelo para el español y las stop words según spacy
nlp = spacy.load('es_core_news_sm')
stopwords_spacy = spacy.lang.es.stop_words.STOP_WORDS

def limpiar_titulos_spacy(titulo):
    '''
    Esta función limpia el texto del título (usando funcionalidades de la librería spacy).
    Convierte texto en tokens, elimina stop words, y transforma palabras en su forma raíz
    para dejar en el texto solo las palabras con mayor contenido.
    Input:
        título (str): Texto del título original
    Output:
        título (str): Texto del título limpio
    '''

    # Procesar el texto con spaCy
    doc = nlp(titulo.lower())
    #print(doc)

    filtered_tokens = []
    lemmas = []

    # Pasar a tokens y eliminar puntación y stopwords
    for w in doc:
        if w.text not in stopwords_spacy and not w.is_punct:
            filtered_tokens.append(w.text)
    filtered_doc = ' '.join(filtered_tokens)

    # Obtener las formas lematizadas de las palabras
    doc2 = nlp(filtered_doc)
    for w_f in doc2:
        lemmas.append(w_f.lemma_)

    # Volvemos a armar la oración (concatenamos las palabras separándolas con un espacio)
    return ' '.join(lemmas)

In [None]:
#Este es un título sucio:
titulos[0]

In [None]:
#Este es un título limpio:
limpiar_titulos_nltk(titulos[0]['titular'])

In [None]:
#Este es un título limpio:
limpiar_titulos_spacy(titulos[0]['titular'])

#### Ahora vamos a usar sentiment analysis para ver qué tan positivos son los títulos

Vamos a usar la bilioteca NLTK (Natural Language Toolkit) para clasificar los títulos en positivos o negativos. NLTK es una biblioteca de Python muy utilizada en procesamiento de lenguaje natural (NLP). VADER (Valence Aware Dictionary and Sentiment Reasoner) es un módulo específico de NLTK que se utiliza para el análisis de sentimientos.

VADER es una herramienta especialmente diseñada para el análisis de sentimientos en textos. A diferencia de algunos enfoques más generales que utilizan modelos de aprendizaje automático, VADER se basa en un conjunto de reglas y un diccionario que asigna puntuaciones de polaridad a palabras y expresiones. Además, tiene en cuenta factores como las mayúsculas, los signos de puntuación y los emoticonos para evaluar la intensidad del sentimiento.

Las puntuaciones de VADER incluyen la polaridad (positiva, negativa o neutra) y una medida de la intensidad del sentimiento. Es especialmente útil para textos informales o con lenguaje coloquial, como se encuentra comúnmente en redes sociales.

Vamos a usar un módulo de VADER "multi", que resuelve la misma tarea pero con otro modelo. Ver: https://github.com/brunneis/vader-multi

In [None]:
# También pueden usar VADER "original" (Ver: https://www.nltk.org/_modules/nltk/sentiment/vader.html).
# from nltk.sentiment.vader import SentimentIntensityAnalyzer

from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer as SentimentIntensityAnalyzer

# Inicializar el analizador de sentimientos VADER
sia = SentimentIntensityAnalyzer()

# Primero veamos un ejemplo
texto_ej_pos = "Me encanta este curso"
texto_ej_neg = "Odio este curso"
texto_ej_neu = "Este curso me da igual"

print(texto_ej_pos, sia.polarity_scores(texto_ej_pos))
print(texto_ej_neg, sia.polarity_scores(texto_ej_neg))
print(texto_ej_neu, sia.polarity_scores(texto_ej_neu))
# Si la variable compound es positiva, el texto es positivo; si es negativa, el texto es negativo
# Y si se encuentra en el rango del 0 es un mensaje neutro

Ahora crearemos funciones que, además de dar un valor, clasifiquen en positivo, negativo o neutro

In [None]:
def analizar_sentiment(text):
    # Obtener la polaridad del sentimiento
    sia = SentimentIntensityAnalyzer()
    sentiment_score = sia.polarity_scores(text)

    # Clasificar el sentimiento como positivo, negativo o neutro
    compound_score = sentiment_score['compound']
    if compound_score >= 0.05:
        sentiment = "Positivo"
    elif compound_score <= -0.05:
        sentiment = "Negativo"
    else:
        sentiment = "Neutro"

    return compound_score, sentiment

In [None]:
# Ejemplos de uso
compound_score_pos, sentiment_pos = analizar_sentiment(texto_ej_pos)
print(f"Texto: {texto_ej_pos}")
print(f"Puntuación de sentimiento compuesta: {compound_score_pos}")
print(f"Sentimiento: {sentiment_pos}")

compound_score_neg, sentiment_neg = analizar_sentiment(texto_ej_neg)
print(f"\nTexto: {texto_ej_neg}")
print(f"Puntuación de sentimiento compuesta: {compound_score_neg}")
print(f"Sentimiento: {sentiment_neg}")

In [None]:
# Ahora un ejemplo con un título limpio
print(titulos[0]['titular'],
      "\n",
      analizar_sentiment(limpiar_titulos_nltk(titulos[0]['titular'])))


In [None]:
titulos[0]

In [None]:
# Aplicamos la función para limpiar títulos para tener un columna con títulos limpios
titulos_df['titular_limpio'] = titulos_df['titular'].apply(limpiar_titulos_nltk)
# Vemos el sentiment
titulos_df['sentiment'] = titulos_df['titular_limpio'].apply(analizar_sentiment)

In [None]:
titulos_df

In [None]:
# Separo en dos columnas
titulos_df[['value', 'emotion']] = pd.DataFrame(titulos_df['sentiment'].tolist(), index=titulos_df.index)
titulos_df_final = titulos_df.drop('sentiment', axis=1)
titulos_df_final

In [None]:
# Podemos ver cuántos títulos con cada tipo de emoción clasificamos
titulos_df_final['emotion'].value_counts()

In [None]:
import openpyxl
# Y los podemos guardar como excel
titulos_df_final.to_excel('titulos.xlsx', index=False)

#### Un ejemplo en inglés usando TextBlob

Para que les quede de referencia por si quieren hacer algo en inglés en el TP.

In [None]:
from textblob import TextBlob

In [None]:
# Ejemplo de texto en inglés
texto_ej_1 = "I love learning about Big data"
texto_ej_2 = "I hate learning about Big data"

# Crear un objeto TextBlob con el texto
blob1 = TextBlob(texto_ej_1)

# Obtener la polaridad del sentimiento (-1 a 1)
polarity1 = blob1.sentiment.polarity

# Clasificar el sentimiento como positivo, negativo o neutro
def clasif_polarity(polarity):
    if polarity > 0:
        sentiment = "Positivo"
    elif polarity < 0:
        sentiment = "Negativo"
    else:
        sentiment = "Neutro"
    return sentiment

# Mostrar los resultados
print(f"Texto: {texto_ej_1}")
print(f"Polaridad del sentimiento: {polarity1}")
print(f"Sentimiento: {clasif_polarity(polarity1)}")

### Otro Ejemplo de Web Scraping: Tabla

Vamos a _scrappear_ una tabla de episodios de Game of Thrones de la lista de episodios que aparece en Wikipedia (https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes). Les recomiendo que entren al link para ver más o menos la estructura de lo que queremos _scrappear_. Lo que vamos a tratar de obtener es una lista con todos los episodios, su fecha de emisión, director, escritor y cantidad de personas que lo vierons.

Para eso vamos a utilizar una función de pandas que nos permite leer html: `read_html`

Estén seguros de tener instalado el módulo `lxml`. Lo pueden instalar con `conda install lxml`, con `pip install lxml` o con el instalador de módulos gráfico del Anaconda Navigator.


In [None]:
url = 'https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes'

Ahora que tenemos la dirección en la variable `html` vamos a usar la función `read_html`:

In [None]:
import pandas as pd
table = pd.read_html(url)
print(len(table))

Vemos que table tiene 20 elementos. Veamos el elemento 0.

In [None]:
df_seasons = table[0]
df_seasons

Se ve que es la primera tabla que aparece en la página web, una tabla que contiene la cantidad de episodios por temporada. Entonces busquemos la primera y la última de las tablas que nos interesan.

In [None]:
print(table[1])

In [None]:
print(table[8])

Después ya podemos ver que las tablas siguientes con de cosas que no nos interesan.

In [None]:
print(table[9])

Armemos un subset con las tablas que nos interesan:

In [None]:
subset = table[1:9]
print(subset)

Ahora podemos directamente concatenar todas las tablas (una de las ventajas de usar el _parser_ de `pandas` es que las tablas ya son dataframes).

In [None]:
df_total = pd.concat(subset)
display(df_total)

Pero qué pasa si queremos agregar una columna que contenga el número de temporada.

In [None]:
for i in range(len(subset)):
    subset[i]['season'] = i + 1

In [None]:
df_total = pd.concat(subset)
display(df_total)

Y por último, movamos la columna season al principio:

In [None]:
columns = ['season'] + [col for col in df_total.columns if col != 'season']
print(columns)

In [None]:
df_total = df_total[columns]
df_total.tail()

Listo, ahora los podemos exportar como archivo `csv`:

In [None]:
df_total.to_csv('GoT_episode_list.csv', index=False)

#### Unos ejercicios para practicar

##### 1 - Web scrapping de una tabla y sentiment analysis

Obtenga los títulos de los episodios de Friends y ordenarlos por la polaridad. 

- ¿Cuántos títulos clasificados como positivos y negativos hay? ¿Por qué cree que esto es así?
- ¿Cuál es la temporada con el promedio de valencia más alto? ¿Y la que tiene el más bajo?

_Pistas_:
- Los títulos de los episodios de Friends están en esta [URL](https://es.wikipedia.org/wiki/Anexo:Episodios_de_Friends).
- Pueden reciclar la función de limpiar títulos con `spacy` (`limpiar_titulos_spacy`) pero setenado `nlp = spacy.load('en_core_web_sm')` (usar el modelo de tokenización y lematización en inglés) y `stopwords_spacy = spacy.lang.en.stop_words.STOP_WORDS` (usar las stop words del inglés). Puede que necesiten correr `python -m spacy download en_core_web_sm` en la terminal o en el Anaconda prompt para bajar el modelo en inglés.
- Pueden usar la misma función que creamos con VADER para analizar el sentimiento una vez que los títulos ya están limpios (`analizar_sentiment`).

##### 2 - Web scrapping de una página

Obtenga los titulares del Diario El País de España.