# Web Scraping
Web Scraping es el proceso de recopilar información de forma automática de la Web.

Se enfoca en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento.

A continuación, se detallará los pasos realizados para la extracción del contenido principal de una página web de interés personal.


## 1 - Importamos Librerias Necesarias


In [None]:
# Importamos Librerias Necesarias
import requests
from bs4 import BeautifulSoup
from collections import Counter
import random
from wordcloud import WordCloud
import numpy as np
from PIL import Image
import nltk
from nltk.corpus import stopwords
import re
import matplotlib.pyplot as plt
from google.colab import files

## 2 - Conocemos como esta estructurada la página

In [None]:
# Guardamos en una variable la url elegida
pagina = "https://vandal.elespanol.com/retro/retro-castlevania-symphony-of-the-night"

In [None]:
# Guardamos el contenido de la pagina en una nueva variable y la mostramos
contenido = requests.get(pagina).text
print(contenido)

## 3 - Accedemos a los elementos almacenados en etiquetas HTML

In [None]:
# Parseamos el contenido con BeautifulSoup
bsoup = BeautifulSoup(contenido, "html.parser")

In [None]:
# Guardamos en una variable el titulo principal de la pagina y lo mostramos
h1 = bsoup.find("h1").text
print("Titulo del contenido de la pagina: ",h1)

In [None]:
# Guardamos en diferentes variables las correspondientes divisiones de la url para poder mostrar el contenido principal de la pagina
div1 = bsoup.find("div",{"id": "globalwrap"})
div2 = div1.find("div",{"class": "fblanco mt1 froboto"})
div3 = div2.find("article",{"class": "articulo container"})
div4 = div3.find("div",{"class": "row mt15"})
div5 = div4.find("div",{"class": "span8"})
parrafos = div5.find_all("p")
print("Contenido principal de la pagina:")
for parrafo in parrafos:
  print("\n"+parrafo.text.strip())



## 4 - Analisis de Frecuencias del texto extraido

In [None]:
# Mostramos la cantidad de veces que se repite una determinada palabra
conteo_palabras = str(parrafos)
print("Cantidad de veces que se repite la palabra 'Dracula': ",conteo_palabras.count("Dracula"),"Veces")
print("Cantidad de veces que se repite la palabra 'Castlevania': ",conteo_palabras.count("Castlevania"),"Veces")
print("Cantidad de veces que se repite la palabra 'Belmont': ",conteo_palabras.count("Belmont"),"Veces")
print("Cantidad de veces que se repite la palabra 'Richter': ",conteo_palabras.count("Richter"),"Veces")

In [None]:
#Funcion para buscar palabras
def buscar_palabra(palabra):
  conteo = str(parrafos).lower().count(palabra.lower())
  print(f"La palabra {palabra} se repite {conteo} veces")
palabra_a_buscar = input("Ingrese la palabra a buscar: ")
buscar_palabra(palabra_a_buscar)

# Creamos un bucle para que el usuario juegue buscando la cantidad de palabras que se repiten del contenido principal
while True:
  respuesta = input("¿Desea buscar otra palabra? (s/n): ").lower()
  if respuesta.lower() == "s"  :
    palabra_a_buscar = input("Ingrese la palabra a buscar: ")
    buscar_palabra(palabra_a_buscar)
  elif respuesta.lower() != "n" and respuesta.lower() != "s":
    print("Opcion incorrecta")
  else:
    print("Gracias por usar el programa")
    break


In [None]:
# Generamos un Parrafo aleatorio y lo mostramos
parrafo_aleatorio = random.choice(parrafos).text.strip()
print(parrafo_aleatorio)
# imprime la longitud del parrafo aleatoria
print("Longitud del Parrafo: ",len(parrafo_aleatorio.split()))

## 5 - Preparamos el texto para graficar una nube de palabras

In [None]:
# Descarga corpus de stopwords en español
nltk.download("stopwords")
stopwords_es = set(stopwords.words("spanish"))

In [None]:
# Funcion Para limpiar texto
def limpiar_texto(texto):
  #Convierte texto en minuscula
  texto_minuscula = texto.lower()
  texto_sin_puntuacion = re.sub(r"[^\w\s]", "", texto_minuscula) # Elimina todos los signos de puntuacion
  lista_palabras = texto_sin_puntuacion.split() # Divide el texto en palabras individuales
  palabras_importantes = [] # Crea una lista de palabras importantes
  for palabra in lista_palabras:
    if palabra not in stopwords_es:
      palabras_importantes.append(palabra)
  return palabras_importantes

texto_completo = bsoup.get_text()
palabras_limpias = limpiar_texto(texto_completo)

texto_limpio = " ".join(palabras_limpias)


## 6 - Graficamos una nube de palabras

In [None]:
# Graficamos las palabras mas destacadas
wordcloud = WordCloud(width=800, height=400, background_color="darkred", colormap = "viridis").generate(texto_limpio)
plt.figure(figsize=(4, 4))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## 7 - Optimizamos el Grafico

In [None]:
# Funcion Para limpiar texto
def limpiar_texto(texto):

# Lista de palabras a eliminar

  palabras_a_eliminar = ['parte', 'mal', 'después', 'si', 'cada', 'saga', 'momento',
        'hoy', 'parte', 'propia', 'toda', 'hoy', 'tan', 'mismo',
        'sello', 'aquella', 'hace', 'parte','vandal', 'ello']
# Anexa las palabras que quiero eliminar a las stopwords
  todas_las_palabras_a_eliminar = stopwords_es.union(palabras_a_eliminar)


  #Convierte texto en minuscula
  texto_minuscula = texto.lower()
  texto_sin_puntuacion = re.sub(r"[^\w\s]", "", texto_minuscula) # Elimina todos los signos de puntuacion
  lista_palabras = texto_sin_puntuacion.split() # Divide el texto en palabras individuales
  palabras_importantes = [] # Crea una lista de palabras impoirtantes
  for palabra in lista_palabras:
    if palabra not in todas_las_palabras_a_eliminar:
      palabras_importantes.append(palabra)
  return palabras_importantes

texto_completo = bsoup.get_text()
palabras_limpias = limpiar_texto(texto_completo)

texto_limpio = " ".join(palabras_limpias)


In [None]:
# Mostramos las palabras mas destacadas, suprimiendo irrelevantes
wordcloud = WordCloud(width=800, height=400, background_color="lightblue", colormap = "copper").generate(texto_limpio)

plt.figure(figsize=(14, 10))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

In [None]:
# Script para descargar la imagen
wordcloud.to_file("Imagen.jpg") # Guarda la imagen generada con el nombre
files.download("Imagen.jpg") # Descarga la imagen


Este método de visualización muestra la frecuencia con la que aparece una palabra en el cuerpo de texto, haciendo que el tamaño de cada palabra sea proporcional a su frecuencia.

Analizando la imagen podemos hacernos la idea de que el contenido principal de la página trata de un juego llamado Castlevania con historia centrado en dos personajes principales: Drácula y Richter