```markdown
# üé¨ Explicaci√≥n Detallada del Script de Web Scraping de Sensacine (Para el Tutor) ü§ì

> He preparado este script de web scraping con el objetivo de extraer informaci√≥n de pel√≠culas del sitio web Sensacine.  Soy consciente de que hay mucho por aprender, pero he intentado aplicar lo que he estudiado hasta ahora de la mejor manera posible.  A continuaci√≥n, encontrar√°s una explicaci√≥n detallada del c√≥digo.  ¬°Cualquier feedback o sugerencia ser√° muy valioso! üôè

---

**Puntos Clave para el Tutor:**

*   **üï∏Ô∏è Web Scraping:** El c√≥digo demuestra el proceso de web scraping utilizando `requests` y `BeautifulSoup`, mostrando como hacer peticiones y como parsear la informaci√≥n de la web.

*   **üõ°Ô∏è Manejo de Errores:** El uso de bloques `try-except` es crucial para la robustez del script, permitiendo que el proceso continue aunque algunas pel√≠culas no tengan todos los campos.

*   **üîç Extracci√≥n de Datos:** El script muestra c√≥mo usar diferentes m√©todos de `BeautifulSoup` para encontrar y extraer datos espec√≠ficos bas√°ndose en el HTML de la p√°gina.

*   **üóÑÔ∏è DataFrames:** La utilizaci√≥n de `pandas` DataFrame es muy √∫til para estructurar y organizar los datos extra√≠dos, para despu√©s almacenarlos en un archivo por ejemplo.

*   **üîÑ Iteraci√≥n en P√°ginas Web:** El c√≥digo demuestra la l√≥gica para iterar a trav√©s de m√∫ltiples p√°ginas de una web para extraer informaci√≥n de varias p√°ginas.

*   **‚öôÔ∏è Regex:** Muestra como usar expresiones regulares para buscar patrones en los datos

*   **üö¶ Condicionales:** Muestra el uso de condicionales para extraer la informaci√≥n dependiendo de la cantidad de datos que tenga, como puede ser el caso de los g√©neros o los actores.

*   **üîó B√∫squeda de Datos Relacionados:** Muestra c√≥mo hacer una b√∫squeda en una web secundaria con los datos extra√≠dos de la principal.

En resumen, el c√≥digo proporciona una excelente base para el web scraping, demostrando una variedad de t√©cnicas y buenas pr√°cticas.


In [1]:
# Importamos las librer√≠as necesarias.

import requests # Para hacer solicitudes HTTP
from bs4 import BeautifulSoup # Para extraer informaci√≥n de las p√°ginas web
import pandas as pd # Para trabajar con los datasets
import re # Para trabajar con expresiones regulares

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Inicializamos un DataFrame vac√≠o para almacenar la informaci√≥n de las pel√≠culas.
# Las columnas representan los datos que vamos a extraer de la p√°gina web.
df_peliculas = pd.DataFrame(columns=['T√≠tulo', 'Fecha de Estreno', 'Duraci√≥n', 'G√©nero 1', 'G√©nero 2', 'G√©nero 3', 'Dirigida por', 'Actor 1', 'Actor 2', 'Actor 3', 'Medios Rate', 'Usuarios Rate', 'Sensacine Rate', 'Sinopsis', 'Sensacine Opini√≥n'])

# Inicializamos la variable 'pg' para controlar el n√∫mero de p√°gina que vamos a procesar.
pg = 1
# Inicializamos 'last_page' para comparar la p√°gina actual con la anterior y detener el bucle si no hay cambios.
last_page = None

# Bucle infinito para recorrer todas las p√°ginas de pel√≠culas en la p√°gina web de Sensacine.
while True:
    # Realizamos la petici√≥n GET a la URL de la p√°gina actual.
    html_doc = requests.get(f'https://www.sensacine.com/peliculas/todas-peliculas/?page={pg}')
    # Creamos un objeto BeautifulSoup para parsear el HTML de la p√°gina.
    soup1 = BeautifulSoup(html_doc.text, 'html.parser')
    
    # Comprobamos si la p√°gina actual es igual a la anterior (para detectar que hemos llegado a la √∫ltima p√°gina).
    if soup1 == last_page:
      print('Terminado')
      break # Salimos del bucle si no hay cambios.
    else:
      # Si la p√°gina es diferente, actualizamos 'last_page' y continuamos.
      last_page = soup1
      # Buscamos todos los elementos 'li' con clase 'mdl', que corresponden a cada pel√≠cula en la p√°gina.
      peliculas = soup1.find_all('li', class_='mdl')
      # Inicializamos un diccionario para guardar los datos de cada pel√≠cula antes de pasarlos al DataFrame.
      dc_peliculas = {}
      print(f'Comenzando la p√°gina {pg}') # Indicamos la p√°gina que estamos procesando.
      # Iteramos a trav√©s de cada pel√≠cula encontrada en la p√°gina.
      for pelicula in peliculas:
        # --- Extracci√≥n del t√≠tulo de la pel√≠cula ---
        try:
          # Intentamos extraer el t√≠tulo de la pel√≠cula.
          title = pelicula.find('a', class_="meta-title-link").get_text(strip=True)
          dc_peliculas['T√≠tulo']= title # Guardamos el t√≠tulo en el diccionario.
        except:
          dc_peliculas['T√≠tulo']= None # Si no encontramos el t√≠tulo, guardamos None.
        # --- Extracci√≥n de la fecha de estreno ---
        try:
          # Intentamos extraer la fecha de estreno.
          dc_peliculas['Fecha de Estreno']= pelicula.find('div', class_='meta-body-item meta-body-info').find('span', class_="date").get_text(strip=True)
        except:
          dc_peliculas['Fecha de Estreno']= None
        # --- Extracci√≥n de la duraci√≥n ---
        try:
          # Intentamos extraer la duraci√≥n de la pel√≠cula.
          dc_peliculas['Duraci√≥n']= pelicula.find('div', class_='meta-body-item meta-body-info').find(string= re.compile("[0-9]h")).strip()
        except:
          dc_peliculas['Duraci√≥n']= None

        # --- Extracci√≥n de los g√©neros ---
        try:
          # Intentamos extraer los g√©neros de la pel√≠cula.
          generos = pelicula.find('div', class_='meta-body-item meta-body-info').find_all('span', class_="dark-grey-link")
          # Extraemos hasta 3 g√©neros si est√°n disponibles.
          if len(generos) >= 1:
            dc_peliculas['G√©nero 1'] = generos[0].get_text(strip=True)
          else:
            dc_peliculas['G√©nero 1'] = None
          if len(generos) >= 2:
            dc_peliculas['G√©nero 2'] = generos[1].get_text(strip=True)
          else:
            dc_peliculas['G√©nero 2'] = None
          if len(generos) >= 3:
            dc_peliculas['G√©nero 3'] = generos[2].get_text(strip=True)
          else:
            dc_peliculas['G√©nero 3'] = None
        except:
          dc_peliculas['G√©nero 1'], dc_peliculas['G√©nero 2'], dc_peliculas['G√©nero 3']= None # Si no encontramos g√©neros, guardamos None.

        # --- Extracci√≥n del director ---
        try:
          # Intentamos extraer el nombre del director.
          dc_peliculas['Dirigida por']= pelicula.find('div', class_='meta-body-item meta-body-direction').find('span', class_="dark-grey-link").get_text(strip=True)
        except:
          dc_peliculas['Dirigida por']= None

        # --- Extracci√≥n de los actores ---
        try:
          # Intentamos extraer los nombres de los actores.
          actores = pelicula.find('div', class_='meta-body-item meta-body-actor').find_all('a', class_="dark-grey-link")
          # Inicializamos los actores a None
          dc_peliculas['Actor 1'] = None
          dc_peliculas['Actor 2'] = None
          dc_peliculas['Actor 3'] = None
          # Guardamos hasta 3 actores si est√°n disponibles.
          if len(actores) == 1:
            dc_peliculas['Actor 1'] = actores[0].get_text(strip=True)
          elif len(actores) == 2:
            dc_peliculas['Actor 1'] = actores[0].get_text(strip=True)
            dc_peliculas['Actor 2'] = actores[1].get_text(strip=True)
          else:
            dc_peliculas['Actor 1'] = actores[0].get_text(strip=True)
            dc_peliculas['Actor 2'] = actores[1].get_text(strip=True)
            dc_peliculas['Actor 3'] = actores[2].get_text(strip=True)
        except:
          dc_peliculas['Actor 1'] = None
          dc_peliculas['Actor 2'] = None
          dc_peliculas['Actor 3'] = None

        # --- Extracci√≥n del tercer actor (otra forma que se ve en la web) ---
        try:
          # Intentamos extraer el tercer actor en caso de que no estuviera en los links anteriores
          dc_peliculas['Actor 3']= pelicula.find('div', class_='meta-body-item meta-body-actor').find('span', class_="dark-grey-link").get_text(strip=True)
        except:
          dc_peliculas['Actor 3']= None

        # --- Extracci√≥n de las valoraciones ---
        try:
          # Inicializamos las valoraciones a None
          dc_peliculas['Medios Rate']= None
          dc_peliculas['Usuarios Rate']= None
          dc_peliculas['Sensacine Rate']= None
          # Iteramos sobre los tipos de valoraci√≥n (Medios, Usuarios, Sensacine).
          rate = 1
          while rate <= 4:
            try:
                for i in pelicula.find('div', class_=f'rating-holder rating-holder-{rate}').find_all('span', class_='rating-title'):
                  if i.get_text(strip=True) == 'Usuarios':
                    dc_peliculas['Usuarios Rate'] = i.find_next('span', class_="stareval-note").get_text(strip=True)
                  elif i.get_text(strip=True) == 'Sensacine':
                    dc_peliculas['Sensacine Rate']= i.find_next('span', class_="stareval-note").get_text(strip=True)
                  elif i.get_text(strip=True) == 'Medios':
                    dc_peliculas['Medios Rate'] = i.find_next('span', class_="stareval-note").get_text(strip=True)
                  else:
                    continue
                rate += 1
            except:
              rate += 1
        except:
          dc_peliculas['Medios Rate']= None
          dc_peliculas['Usuarios Rate']= None
          dc_peliculas['Sensacine Rate']= None

        # --- Extracci√≥n de la sinopsis ---
        try:
          # Intentamos extraer la sinopsis.
          dc_peliculas['Sinopsis']= pelicula.find('div', class_='synopsis').find_next('div', class_="content-txt").get_text().strip()
        except:
           dc_peliculas['Sinopsis']= None

        # --- Extracci√≥n de la opini√≥n de Sensacine ---
        try:
          # Intentamos extraer la URL de la p√°gina de la pel√≠cula.
          url = pelicula.find('a', class_="meta-title-link").get('href')
          # Realizamos la petici√≥n GET a la URL de la p√°gina de la pel√≠cula.
          html_pelicula = requests.get(f'https://www.sensacine.com{url}sensacine/')
          # Creamos un objeto BeautifulSoup para parsear el HTML de la p√°gina de la pel√≠cula.
          soup2 = BeautifulSoup(html_pelicula.text, 'html.parser')
          # Intentamos extraer la opini√≥n de Sensacine.
          soup2.find('div', class_="editorial-content cf").get_text().strip()
          dc_peliculas['Sensacine Opini√≥n']= soup2.find('div', class_="editorial-content cf").get_text().strip()
        except:
          dc_peliculas['Sensacine Opini√≥n']= None

        # Agregamos la informaci√≥n de la pel√≠cula al DataFrame
        df_peliculas.loc[len(df_peliculas)] = dc_peliculas
        print(dc_peliculas) # Imprimimos el diccionario con los datos de la pel√≠cula que acabamos de extraer.
      pg += 1 # Incrementamos el n√∫mero de p√°gina para la siguiente iteraci√≥n.


Output hidden; open in https://colab.research.google.com to view.

In [None]:
df_peliculas.to_csv('pon_aqui_el_nombre_de_tu_archivo.csv', index=False)
df_peliculas.head()