## Day 45 Proyect: Top Movies Web Scrapping

### Proyecto Día 45 – Web Scraping: Top 100 Películas 🎬🧹

En este proyecto automatizamos la recolección de los títulos de las 100 mejores películas de todos los tiempos desde una página web.

📚 Lo que aprenderás o aplicarás:
- Extracción de datos con `requests` y `BeautifulSoup`
- Análisis de HTML con selectores de etiquetas y clases
- Manipulación de listas y texto en Python
- Escritura de archivos `.txt`


#### Paso 1 – Obtener el HTML de la página web

Usamos `requests` para obtener el contenido de la página y `BeautifulSoup` para procesarlo.


In [1]:
import requests                     # Libreria para hacer peticiones HTTP
from bs4 import BeautifulSoup       # Libreria para parsear/extraer datos de HTML

In [2]:
# URL de la página web que contiene la lista de películas
URL = "https://www.empireonline.com/movies/features/best-movies-2/"  

# Realiza la solicitud GET al endpoint de la página web
response = requests.get(URL)

# Guarda el contenido HTML de la página web en una variable
website_html = response.text

# Crea un objeto BeautifulSoup para parsear el HTML
soup = BeautifulSoup(website_html, "html.parser")


#### Paso 2 – Extraer todos los títulos de películas

Identificamos los elementos que contienen los nombres de las películas.


In [3]:
# Crea una lista para almacenar los títulos de las películas
movie_titles = []

# Encuentra todos los elementos <h2> en el HTML
for h2_tag in soup.find_all("h2"):
    strong_tag = h2_tag.find("strong")                  # Busca un <strong> dentro de <h2>
    if strong_tag and strong_tag.text.strip():          # Si existe y tiene texto
        movie_titles.append(strong_tag.text.strip())    # Agrega el texto a la lista

# Imprime los primeros 10 títulos extraídos
print(f"Primeros 10 títulos de películas extraidos:")
for title in movie_titles[:10]:  # Limitar a los primeros 10 títulos
    print(title)

Primeros 10 títulos de películas extraidos:
100) Reservoir Dogs (1992)
99) Groundhog Day (1993)
98) Paddington 2 (2017)
97) Amélie (2001)
96) Brokeback Mountain (2005)
95) Donnie Darko (2001)
94) Scott Pilgrim Vs. The World (2010)
93) Portrait Of A Lady On Fire (2020)
92) Léon: The Professional (1994)
91) Logan (2017)


#### Paso 3 – Revertir la lista de películas

El sitio las lista del 100 al 1, pero queremos guardarlas del 1 al 100.

In [4]:
# Usamos slicing para invertir la lista
movies = movie_titles[::-1]             #  start:stop:step -> Toma todos los elementos y va en reversa 1 elemento a la vez

In [5]:
# Imprime los primeros 10 títulos extraídos
print(f"First 10 Extracted Movie Titles:")
for title in movies[:10]:  # Limitar a los primeros 10 títulos
    print(title)

First 10 Extracted Movie Titles:
1) The Lord Of The Rings: The Fellowship Of The Ring (2001)
2) Star Wars: The Empire Strikes Back (1980)
3) The Godfather (1972)
4) The Dark Knight (2008)
5) The Shawshank Redemption (1994)
6) Jaws (1975)
7) Pulp Fiction (1994)
8) Avengers: Infinity War (2018)
9) Raiders Of The Lost Ark (1981)
10) Goodfellas (1990)


#### Paso 4 – Guardar los resultados en `movies.txt`

Creamos un archivo de texto y escribimos los títulos, cada uno en una línea.


In [6]:
with open("movies.txt", mode="w", encoding="utf-8") as file:
    for movie in movies:
        file.write(f"{movie}\n")

#### 🧠 Conclusión

Este proyecto consolidó habilidades fundamentales de Python y web scraping:

- 📥 Lectura de sitios web con `requests`
- 🔍 Navegación y extracción de contenido con `BeautifulSoup`
- 📝 Escritura de archivos de texto
- 🔄 Transformación de listas usando slicing

Este tipo de automatización es útil para recolectar datos actualizables desde internet de forma eficiente.