# Data Scraping Project

Basado en el código de: https://hackernoon.com/how-to-build-a-web-scraper-with-python-step-by-step-guide-jxkp3yum

In [1]:
# Importamos las herramientas necesarias para construir el scraper y obtener los datos que necesitamos

import requests
from requests import get
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [2]:
# Ahora, indicamos que queremos obtener los títulos en inglés de las películas que scrapeamos, y no los originales

headers = {"Accept-Language": "en-US, en;q=0.5"}

In [3]:
# Obtenemos el contenido de la pagina solicitando la URL

url= "https://www.imdb.com/search/title/?groups=top_1000&ref_=adv_prv"

results = requests.get(url, headers=headers)

In [4]:
# Con BeautifulSoup hacemos el contenido que obtenemos fácil de leer

soup = BeautifulSoup(results.text, "html.parser")

print(soup.prettify())

<!DOCTYPE html>
<html xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <script type="text/javascript">
   var IMDbTimer={starttime: new Date().getTime(),pt:'java'};
  </script>
  <script>
   if (typeof uet == 'function') {
      uet("bb", "LoadTitle", {wb: 1});
    }
  </script>
  <script>
   (function(t){ (t.events = t.events || {})["csm_head_pre_title"] = new Date().getTime(); })(IMDbTimer);
  </script>
  <title>
   IMDb "Top 1000"
(Sorted by Popularity Ascending) - IMDb
  </title>
  <script>
   (function(t){ (t.events = t.events || {})["csm_head_post_title"] = new Date().getTime(); })(IMDbTimer);
  </script>
  <script>
   if (typeof uet == 'function') {
      uet("be", "LoadTitle", {wb: 1});
    }
  </script>
  <script>
   if (typeof uex == 'function') {
      uex("ld", "LoadTitle", {wb: 1});
    }
  </script>
  <link href="https://www.imdb.com/search/title/?groups=top_1000" rel="canonical"/>
  <meta content="http://www.i

In [5]:
# Creamos listas vacías para poder almacenar los datos que obtengamos

titles =[]
years =[]
time = []
imdb_ratings = []
metascores = []
votes = []
us_gross = []

In [6]:
# Le decimos a nuestro scraper que encuentre todos elementos lister-item mode-advanced

movie_div = soup.find_all('div', class_='lister-item mode-advanced')

In [7]:
# Iniciamos un for loop
# esto le dice al scraper que continue por todos los div que guardamos en movie_div

for container in movie_div:
    
    # Extraemos el título de la película
    name = container.h3.a.text
    titles.append(name)
    
    # Extraemos el año de la película
    year = container.h3.find('span', class_='lister-item-year').text
    years.append(year)
    
    #Extraemos la duración de la película
    runtime = container.p.find('span', class_='runtime').text if container.p.find('span', class_='runtime') else '-'
    time.append(runtime)
    
    # Extraemos las calificaciones de IMDb
    imdb = float(container.strong.text)
    imdb_ratings.append(imdb)
    
    # Extraemos el Metascore
    m_score = container.find('span', class_='metascore').text if container.find('span', class_='metascore') else '-'
    metascores.append(m_score)
    
    # Extraemos el número de votos y la recaudación
    nv = container.find_all('span', attrs={'name': 'nv'})
    
    # Filtramos el número de votos de nv
    vote = nv[0].text
    votes.append(vote)
   
    # Filtramos la recaudación de nv
    grosses= nv[1].text if len(nv) > 1 else '-'
    us_gross.append(grosses)

In [8]:
# Ahora podemos ver qué tenemos

print(titles)
print(years)
print(time)
print(imdb_ratings)
print(metascores)
print(votes)
print(us_gross)

['Oppenheimer', 'Guardians of the Galaxy Vol. 3', 'Spider-Man: Across the Spider-Verse', 'Mission: Impossible - Dead Reckoning Part One', 'Interstellar', 'John Wick: Chapter 4', 'The Godfather', 'The Shawshank Redemption', 'The Whale', 'The Dark Knight', 'Dune', 'The Batman', 'Oldboy', 'The Wolf of Wall Street', 'Inception', 'Top Gun: Maverick', 'Once Upon a Time in Hollywood', 'Pulp Fiction', 'Everything Everywhere All at Once', 'Stand by Me', "Harry Potter and the Sorcerer's Stone", 'Gladiator', 'Heat', 'The Prestige', 'The Lord of the Rings: The Fellowship of the Ring', 'Spider-Man: Into the Spider-Verse', 'Titanic', 'Inglourious Basterds', 'The Big Short', 'Jurassic Park', 'Pride & Prejudice', 'Puss in Boots: The Last Wish', 'American Psycho', 'Avengers: Endgame', 'Blade Runner 2049', 'Fight Club', 'The Dark Knight Rises', 'Guardians of the Galaxy', 'Spider-Man: No Way Home', 'Goodfellas', 'Joker', 'Dunkirk', 'The Departed', 'Forrest Gump', 'Jaws', 'Gone Girl', 'Back to the Future'

In [9]:
# Ahora, construimos un DataFrame con pandas para almacenar los datos en una tabla

movies = pd.DataFrame({
    'movie': titles,
    'year': years,
    'timeMin': time,
    'imdb': imdb_ratings,
    'metascore': metascores,
    'votes': votes,
    'us_grossMillions': us_gross
})

In [10]:
# Y vemos el DataFrame que acabamos de crear
movies

Unnamed: 0,movie,year,timeMin,imdb,metascore,votes,us_grossMillions
0,Oppenheimer,(2023),180 min,8.6,88,400353,#36
1,Guardians of the Galaxy Vol. 3,(2023),150 min,8.0,64,302084,-
2,Spider-Man: Across the Spider-Verse,(2023),140 min,8.8,86,244003,#18
3,Mission: Impossible - Dead Reckoning Part One,(2023),163 min,8.0,81,133528,-
4,Interstellar,(2014),169 min,8.7,74,1978364,$188.02M
5,John Wick: Chapter 4,(2023),169 min,7.8,78,267828,-
6,The Godfather,(1972),175 min,9.2,100,1944381,$134.97M
7,The Shawshank Redemption,(1994),142 min,9.3,82,2791596,$28.34M
8,The Whale,(2022),117 min,7.7,60,173926,-
9,The Dark Knight,(2008),152 min,9.0,84,2771804,$534.86M
