## Day 45 Proyect: Top Movies Web Scrapping

### Proyecto D√≠a 45 ‚Äì Web Scraping: Top 100 Pel√≠culas üé¨üßπ

En este proyecto automatizamos la recolecci√≥n de los t√≠tulos de las 100 mejores pel√≠culas de todos los tiempos desde una p√°gina web.

üìö Lo que aprender√°s o aplicar√°s:
- Extracci√≥n de datos con `requests` y `BeautifulSoup`
- An√°lisis de HTML con selectores de etiquetas y clases
- Manipulaci√≥n de listas y texto en Python
- Escritura de archivos `.txt`


#### Paso 1 ‚Äì Obtener el HTML de la p√°gina web

Usamos `requests` para obtener el contenido de la p√°gina y `BeautifulSoup` para procesarlo.


In [1]:
import requests                     # Libreria para hacer peticiones HTTP
from bs4 import BeautifulSoup       # Libreria para parsear/extraer datos de HTML

In [2]:
# URL de la p√°gina web que contiene la lista de pel√≠culas
URL = "https://www.empireonline.com/movies/features/best-movies-2/"  

# Realiza la solicitud GET al endpoint de la p√°gina web
response = requests.get(URL)

# Guarda el contenido HTML de la p√°gina web en una variable
website_html = response.text

# Crea un objeto BeautifulSoup para parsear el HTML
soup = BeautifulSoup(website_html, "html.parser")


#### Paso 2 ‚Äì Extraer todos los t√≠tulos de pel√≠culas

Identificamos los elementos que contienen los nombres de las pel√≠culas.


In [3]:
# Crea una lista para almacenar los t√≠tulos de las pel√≠culas
movie_titles = []

# Encuentra todos los elementos <h2> en el HTML
for h2_tag in soup.find_all("h2"):
    strong_tag = h2_tag.find("strong")                  # Busca un <strong> dentro de <h2>
    if strong_tag and strong_tag.text.strip():          # Si existe y tiene texto
        movie_titles.append(strong_tag.text.strip())    # Agrega el texto a la lista

# Imprime los primeros 10 t√≠tulos extra√≠dos
print(f"Primeros 10 t√≠tulos de pel√≠culas extraidos:")
for title in movie_titles[:10]:  # Limitar a los primeros 10 t√≠tulos
    print(title)

Primeros 10 t√≠tulos de pel√≠culas extraidos:
100) Reservoir Dogs (1992)
99) Groundhog Day (1993)
98) Paddington 2 (2017)
97) Am√©lie (2001)
96) Brokeback Mountain (2005)
95) Donnie Darko (2001)
94) Scott Pilgrim Vs. The World (2010)
93) Portrait Of A Lady On Fire (2020)
92) L√©on: The Professional (1994)
91) Logan (2017)


#### Paso 3 ‚Äì Revertir la lista de pel√≠culas

El sitio las lista del 100 al 1, pero queremos guardarlas del 1 al 100.

In [4]:
# Usamos slicing para invertir la lista
movies = movie_titles[::-1]             #  start:stop:step -> Toma todos los elementos y va en reversa 1 elemento a la vez

In [5]:
# Imprime los primeros 10 t√≠tulos extra√≠dos
print(f"First 10 Extracted Movie Titles:")
for title in movies[:10]:  # Limitar a los primeros 10 t√≠tulos
    print(title)

First 10 Extracted Movie Titles:
1) The Lord Of The Rings: The Fellowship Of The Ring (2001)
2) Star Wars: The Empire Strikes Back (1980)
3) The Godfather (1972)
4) The Dark Knight (2008)
5) The Shawshank Redemption (1994)
6) Jaws (1975)
7) Pulp Fiction (1994)
8) Avengers: Infinity War (2018)
9) Raiders Of The Lost Ark (1981)
10) Goodfellas (1990)


#### Paso 4 ‚Äì Guardar los resultados en `movies.txt`

Creamos un archivo de texto y escribimos los t√≠tulos, cada uno en una l√≠nea.


In [6]:
with open("movies.txt", mode="w", encoding="utf-8") as file:
    for movie in movies:
        file.write(f"{movie}\n")

#### üß† Conclusi√≥n

Este proyecto consolid√≥ habilidades fundamentales de Python y web scraping:

- üì• Lectura de sitios web con `requests`
- üîç Navegaci√≥n y extracci√≥n de contenido con `BeautifulSoup`
- üìù Escritura de archivos de texto
- üîÑ Transformaci√≥n de listas usando slicing

Este tipo de automatizaci√≥n es √∫til para recolectar datos actualizables desde internet de forma eficiente.