# Web-Project

## Relación entre el PIB de USA y el ingreso total por año del top 1000 de películas por votos de usuarios en IMDB.com

### - Se importan las librerías y métodos a usar.

In [148]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import json

### - Se define una clase para cada columna que se va a importar. 

#### Clase para el título.

In [4]:
class MovieSpider:
   
    def __init__(self, url_pattern, pages_to_scrape=25, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
    
    def scrape_url(self, url):
                
        try:
            response = requests.get(url, timeout=10)
        except requests.exceptions.Timeout:
            print("Timeout error")
        except requests.exceptions.TooManyRedirects:
            print("Redirect error")
        except requests.exceptions.SSLError:
            print("SSL error")
        except requests.exceptions.RequestException as e:
            print("Unknown error")
        
        if response.status_code >= 400 and response.status_code < 500:
            print('Request failed because the resource either does not exist or is forbidden')
        elif response.status_code >= 300:
            print('Request failed because the response server encountered an error')
        
        return self.content_parser(response.content)
        
    def kickstart(self):
        
        output = []
        
        for i in range(0, self.pages_to_scrape):
            
            if self.sleep_interval > 0:
                    time.sleep(self.sleep_interval)
            
            output.append(self.scrape_url(self.url_pattern % i))
            exit = self.scrape_url(self.url_pattern % i)
            if exit == 0:
                print("No more pages to scrape")
                break
        
        return output

URL_PATTERN = 'https://www.imdb.com/search/title?groups=top_1000&sort=user_rating,desc&count=100&start=%s01&ref_=adv_nxt' 

def titles_parser(content):
    
    soup = BeautifulSoup(content)
    
    text = [element.text for element in soup.find_all('a') if element.parent.name == 'h3']
    
    return text

titles_spider = MovieSpider(URL_PATTERN, 10, content_parser=titles_parser)
titles = [item for sublist in titles_spider.kickstart() for item in sublist]


In [147]:
titles[:15]

['Cadena perpetua',
 'El padrino',
 'El caballero oscuro',
 'El padrino: Parte II',
 'El señor de los anillos: El retorno del rey',
 'Pulp Fiction',
 'La lista de Schindler',
 'El bueno, el feo y el malo',
 '12 hombres sin piedad',
 'Ayla: The Daughter of War',
 'Origen',
 'El club de la lucha',
 'El señor de los anillos: La comunidad del anillo',
 'Forrest Gump',
 'El imperio contraataca']

#### Clase para el año.

In [5]:
class YearSpider:
   
    def __init__(self, url_pattern, pages_to_scrape=25, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
    
    def scrape_url(self, url):
                
        try:
            response = requests.get(url, timeout=10)
        except requests.exceptions.Timeout:
            print("Timeout error")
        except requests.exceptions.TooManyRedirects:
            print("Redirect error")
        except requests.exceptions.SSLError:
            print("SSL error")
        except requests.exceptions.RequestException as e:
            print("Unknown error")
        
        if response.status_code >= 400 and response.status_code < 500:
            print('Request failed because the resource either does not exist or is forbidden')
        elif response.status_code >= 300:
            print('Request failed because the response server encountered an error')
        
        return self.content_parser(response.content)
        
    def kickstart(self):
        
        output = []
        
        for i in range(0, self.pages_to_scrape):
            
            if self.sleep_interval > 0:
                    time.sleep(self.sleep_interval)
            
            output.append(self.scrape_url(self.url_pattern % i))
            exit = self.scrape_url(self.url_pattern % i)
            if exit == 0:
                print("No more pages to scrape")
                break
        
        return output

URL_PATTERN = 'https://www.imdb.com/search/title?groups=top_1000&sort=user_rating,desc&count=100&start=%s01&ref_=adv_nxt' 

def year_parser(content):
    
    soup = BeautifulSoup(content)
    
    text = [re.sub('\D','', element.text) for element in soup.find_all('span', {"class":"lister-item-year text-muted unbold"}) if element.parent.name == 'h3']
    
    return text

years_spider = YearSpider(URL_PATTERN, 10, content_parser=year_parser)
years = [item for sublist in years_spider.kickstart() for item in sublist]


In [146]:
years[:15]

['1994',
 '1972',
 '2008',
 '1974',
 '2003',
 '1994',
 '1993',
 '1966',
 '1957',
 '2017',
 '2010',
 '1999',
 '2001',
 '1994',
 '1980']

#### Clase para el género.

In [6]:
class GenreSpider:
   
    def __init__(self, url_pattern, pages_to_scrape=25, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
    
    def scrape_url(self, url):
                
        try:
            response = requests.get(url, timeout=10)
        except requests.exceptions.Timeout:
            print("Timeout error")
        except requests.exceptions.TooManyRedirects:
            print("Redirect error")
        except requests.exceptions.SSLError:
            print("SSL error")
        except requests.exceptions.RequestException as e:
            print("Unknown error")
        
        if response.status_code >= 400 and response.status_code < 500:
            print('Request failed because the resource either does not exist or is forbidden')
        elif response.status_code >= 300:
            print('Request failed because the response server encountered an error')
        
        return self.content_parser(response.content)
        
    def kickstart(self):
        
        output = []
        
        for i in range(0, self.pages_to_scrape):
            
            if self.sleep_interval > 0:
                    time.sleep(self.sleep_interval)
            
            output.append(self.scrape_url(self.url_pattern % i))
            exit = self.scrape_url(self.url_pattern % i)
            if exit == 0:
                print("No more pages to scrape")
                break
        
        return output

URL_PATTERN = 'https://www.imdb.com/search/title?groups=top_1000&sort=user_rating,desc&count=100&start=%s01&ref_=adv_nxt' 

def genre_parser(content):
    
    soup = BeautifulSoup(content)
    
    text = [element.text.strip().lstrip("\n") for element in soup.find_all('span', {"class":"genre"}) if element.parent.name == 'p']
        
    return text

genres_spider = GenreSpider(URL_PATTERN, 10, content_parser=genre_parser)
genres = [item for sublist in genres_spider.kickstart() for item in sublist]


In [145]:
genres[:15]

['Drama',
 'Crime, Drama',
 'Action, Crime, Drama',
 'Crime, Drama',
 'Adventure, Drama, Fantasy',
 'Crime, Drama',
 'Biography, Drama, History',
 'Western',
 'Drama',
 'Drama, History, War',
 'Action, Adventure, Sci-Fi',
 'Drama',
 'Adventure, Drama, Fantasy',
 'Drama, Romance',
 'Action, Adventure, Fantasy']

#### Clase para el score.

In [7]:
class ScoreSpider:
   
    def __init__(self, url_pattern, pages_to_scrape=25, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
    
    def scrape_url(self, url):
                
        try:
            response = requests.get(url, timeout=10)
        except requests.exceptions.Timeout:
            print("Timeout error")
        except requests.exceptions.TooManyRedirects:
            print("Redirect error")
        except requests.exceptions.SSLError:
            print("SSL error")
        except requests.exceptions.RequestException as e:
            print("Unknown error")
        
        if response.status_code >= 400 and response.status_code < 500:
            print('Request failed because the resource either does not exist or is forbidden')
        elif response.status_code >= 300:
            print('Request failed because the response server encountered an error')
        
        return self.content_parser(response.content)
        
    def kickstart(self):
        
        output = []
        
        for i in range(0, self.pages_to_scrape):
            
            if self.sleep_interval > 0:
                    time.sleep(self.sleep_interval)
            
            output.append(self.scrape_url(self.url_pattern % i))
            exit = self.scrape_url(self.url_pattern % i)
            if exit == 0:
                print("No more pages to scrape")
                break
        
        return output

URL_PATTERN = 'https://www.imdb.com/search/title?groups=top_1000&sort=user_rating,desc&count=100&start=%s01&ref_=adv_nxt' 

def score_parser(content):
    
    soup = BeautifulSoup(content)
    
    text = [element.text for element in soup.find_all('strong') if element.parent.name == 'div']
    
    return text

scores_spider = ScoreSpider(URL_PATTERN, 10, content_parser=score_parser)
scores = [item for sublist in scores_spider.kickstart() for item in sublist]


['9.3',
 '9.2',
 '9.0',
 '9.0',
 '8.9',
 '8.9',
 '8.9',
 '8.9',
 '8.9',
 '8.8',
 '8.8',
 '8.8',
 '8.8',
 '8.8',
 '8.8',
 '8.7',
 '8.7',
 '8.7',
 '8.7',
 '8.7',
 '8.7',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.6',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.5',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.4',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',
 '8.3',


In [144]:
scores[:15]

['9.3',
 '9.2',
 '9.0',
 '9.0',
 '8.9',
 '8.9',
 '8.9',
 '8.9',
 '8.9',
 '8.8',
 '8.8',
 '8.8',
 '8.8',
 '8.8',
 '8.8']

#### Clase para ingresos.

In [31]:
class GrossSpider:
   
    def __init__(self, url_pattern, pages_to_scrape=25, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
    
    def scrape_url(self, url):
                
        try:
            response = requests.get(url, timeout=10)
        except requests.exceptions.Timeout:
            print("Timeout error")
        except requests.exceptions.TooManyRedirects:
            print("Redirect error")
        except requests.exceptions.SSLError:
            print("SSL error")
        except requests.exceptions.RequestException as e:
            print("Unknown error")
        
        if response.status_code >= 400 and response.status_code < 500:
            print('Request failed because the resource either does not exist or is forbidden')
        elif response.status_code >= 300:
            print('Request failed because the response server encountered an error')
        
        return self.content_parser(response.content)
        
    def kickstart(self):
        
        output = []
        
        for i in range(0, self.pages_to_scrape):
            
            if self.sleep_interval > 0:
                    time.sleep(self.sleep_interval)
            
            output.append(self.scrape_url(self.url_pattern % i))
            exit = self.scrape_url(self.url_pattern % i)
            if exit == 0:
                print("No more pages to scrape")
                break
        
        return output

URL_PATTERN = 'https://www.imdb.com/search/title?groups=top_1000&sort=user_rating,desc&count=100&start=%s01&ref_=adv_nxt' 

def gross_parser(content):
    
    soup = BeautifulSoup(content)
    
    text = []
    
    mcount = 0
    
    for i, element in enumerate(soup.find_all('span', {"name":"nv"})):
                
        if element.parent.name == 'p' and element.text.endswith('M'):
            text.append(float(element.text.lstrip("$").rstrip('M')))
            mcount = 0
        else:
            mcount += 1

        if mcount >= 2 or (i==len(soup.find_all('span', {"name":"nv"}))-1 and mcount==1):
            text.append(float("0"))

            
    
    return text

gross_spider = GrossSpider(URL_PATTERN, 10, content_parser=gross_parser)
gross = [item for sublist in gross_spider.kickstart() for item in sublist]


In [143]:
gross[:15]

[28.34,
 134.97,
 534.86,
 57.3,
 377.85,
 107.93,
 96.07,
 6.1,
 4.36,
 0.0,
 292.58,
 37.03,
 315.54,
 330.25,
 290.48]

### * En esta última clase estuvo uno de los principales desafíos técnicos, ya que en la página de origen, en las películas que no tenían un valor para los ingresos definido, no los tomaba y necesitaba los 1000 valores para luego poder mezclar las tablas, así que tuve que optar por un contador para que la función "supiera" cuándo había recogido 2 veces seguidas los números de votos, lo cual era señal de que esa película no tenía ingresos registrados, por lo que le asignaba 0.

### - Se corrige gross añadiendo el valor que faltó.

In [44]:
gross = gross[:299] + [0] + gross[299:]

### - Se crea el dataframe con las listas obtenidas como columnas.

In [131]:
df_ws = pd.DataFrame(
    {'Title': titles,
     'Year': years,
     'Genres': genres,
     'Score': scores,
     'Gross': gross
    })
df_ws.tail()

Unnamed: 0,Title,Year,Genres,Score,Gross
995,Collateral,2004,"Crime, Drama, Thriller",7.5,101.01
996,Ice Age: La edad de hielo,2002,"Animation, Adventure, Comedy",7.5,176.39
997,Gangs of New York,2002,"Crime, Drama",7.5,77.81
998,Batman,1989,"Action, Adventure",7.5,251.19
999,La mosca,1986,"Drama, Horror, Sci-Fi",7.5,40.46


### - Se corrigen los tipos en las columnas que son numéricas.

In [139]:
df_ws['Year'] = df_ws['Year'].astype('int')
df_ws['Score'] = df_ws['Score'].astype('float')

### - Se crea una tabla agrupando por año y con la media de score por cada año.

In [138]:
score_year = df_ws.groupby('Year', as_index=False).agg({'Score':'mean'})
score_year.tail()

Unnamed: 0,Year,Score
92,2014,7.932258
93,2015,7.9
94,2016,7.96
95,2017,7.92
96,2018,7.970588


### - Se crea una tabla agrupando por año y con la suma de ingresos por cada año.

In [137]:
gross_year = df_ws.groupby('Year', as_index=False).agg({'Gross':'sum'})
gross_year.head()

Unnamed: 0,Year,Gross
0,1920,0.0
1,1921,5.45
2,1922,0.0
3,1924,0.98
4,1925,5.5


### - Se importan los datos de la API en formato json, y se hace una pequeña limpieza (se desechan las columnas no necesarias y se ajustan los nombres de las mismas).

In [116]:
df_api = pd.DataFrame(requests.get('https://pkgstore.datahub.io/core/gdp-us/year_json/data/37295f010ae077399baf63038818f935/year_json.json').json())
df_api = df_api.drop(columns=['change-chained', 'change-current', 'level-chained'])
df_api.columns = ['Year', 'US_GDP']
df_api.head()

Unnamed: 0,Year,US_GDP
0,1930,92.2
1,1931,77.4
2,1932,59.5
3,1933,57.2
4,1934,66.8


### - Se unen las columnas de score y gross por año con la del PIB.

In [140]:
merge1 = pd.merge(gross_year, df_api, on='Year')
merge2 = pd.merge(merge1, score_year, on='Year')
merge2.head()

Unnamed: 0,Year,Gross,US_GDP,Score
0,1930,3.27,92.2,8.1
1,1931,12.05,77.4,8.075
2,1932,0.0,59.5,7.9
3,1933,10.0,57.2,7.866667
4,1934,4.36,66.8,8.1


### - Se visualiza la correlación que hay entre el PIB y el ingreso anual, incluso entre el score y el año.

In [125]:
merge2.corr()

Unnamed: 0,Year,Gross,US_GDP,Score
Year,1.0,0.825436,0.889856,-0.435519
Gross,0.825436,1.0,0.919684,-0.361776
US_GDP,0.889856,0.919684,1.0,-0.383101
Score,-0.435519,-0.361776,-0.383101,1.0


## Conclusiones
### - Se puede apreciar que existe una alta correlación entre el PIB y la suma de ingresos, incluso más alta que la que existe entre el PIB y el año, lo que podría llevar a pensar que la industria del cine y la economía de USA están relacionados.
### - El Score no mostró ninguna relación considerable con ninguno de los otros valores, por lo que se podría haber ignorado. Sin embargo se mantuvieron para comprobar si existía alguna correlación con al menos el año, pero es incluso negativa.
### - En cuanto a la parte técnica, a la hora de extraer la información de cada columna, se podía haber ahorrado algo de tiempo de espera de la recuperación de datos si se hubieran creado funciones separadas para extraer la información de la web, y luego trabajar aparte para manipularla, ya que con la forma en que se hizo cada vez que se corría la función había que hacer x cantidad de llamadas a la web. Pero se hizo de esta forma para mantener la estructura de la función empleada en otra ocasión la cual permite comprobación de errores y está muy bien estructurada y compactada en general.

## ¿Qué más se podría hacer?
### - Evaluar cómo se relacionan los scores con los géneros.
### - Cómo han evolucionado los géneros (de las películas que han terminado siendo las más votadas) a través de los años, para evaluar las tendencias por época.
### - Analizar la relación (si la hay) entre los géneros y los ingresos, para determinar los géneros más lucrativos.
