<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/exercise_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Películas de IMDb (II)


Vamos a poner en práctica las técnicas que hemos visto de visualización.

## Pasos previos

In [None]:
# Importamos las librerías de Python necesarias

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

sns.set_style('whitegrid')  # Pone una malla de fondo bastante mona para Seaborn. El tema por defecto es 'darkgrid'

Vamos a trabajar de nuevo con un conjunto de datos en formato CSV que contiene estadísticas sobre 85.855 películas de [IMDB](https://www.imdb.com/).

Cada fila contiene la siguiente información:

* `imdb_title_id`: identificador de IMDb
* `title`: título de la película
* `original_title`: título original (normalmente coincide con el campo `title`, pero no siempre)
* `year`: año de estreno
* `date_published`: fecha de estreno
* `genre`: género
* `duration`: duración (en minutos)
* `country`: país de la película
* `language`: idioma original
* `director`: nombre del director/a
* `writer`: nombre del/la guionista
* `production_company`: nombre de la productora
* `actors`: nombres de los actores principales, separados por comas
* `description`: breve descripción del argumento
* `avg_vote`: puntuación de los usuarios (de 0 a 10)
* `votes`: número de votos recibidos
* `budget`: presupuesto
* `usa_gross_income`: recaudación en EE.UU.
* `worlwide_gross_income`: recaudación a nivel mundial
* `metascore`: puntuación de los críticos (de 0 a 100)
* `reviews_from_users`: número de opiniones de los usuarios
* `reviews_from_critics`: número de opiniones de los críticos


In [None]:
# Obtención del fichero CSV con los datos

!wget https://github.com/d-tomas/data-mining/raw/main/datasets/imdb.tgz
!tar xvfz imdb.tgz
!rm imdb.tgz

In [None]:
# Cargamos los datos en formato CSV

data = pd.read_csv('imdb.csv', index_col='imdb_title_id')
data

## Un poco de limpieza inicial

In [None]:
# Vamos a ver los tipos de datos de cada columna

data.info()

In [None]:
# Renombra la columna 'worlwide_gross_income' como 'worldwide_gross_income'
data.rename(columns={'worlwide_gross_income': 'worldwide_gross_income'}, inplace=True)

# Transformar a valor numérico el año
data['year'] = pd.to_numeric(data['year'], errors='coerce')

# Transforma 'budget' a numérico
data['budget'] = pd.to_numeric(data['budget'].str.split(' ').str[-1], errors='coerce')

# Transforma 'usa_gross_income' a numérico
data['usa_gross_income'] = pd.to_numeric(data['usa_gross_income'].str.split(' ').str[-1], errors='coerce')

# Transforma 'worldwide_gross_income' a numérico
data['worldwide_gross_income'] = pd.to_numeric(data['worldwide_gross_income'].str.split(' ').str[-1], errors='coerce')

## Ejercicios

**1.** ¿Cuántas películas hay de cada duración (`duration`)? Quita aquellas que duren más de 4 horas.

**2.** Muestra la correlación entre número de votos recibidos (`votes`), número de opiniones de los usuarios (`reviews_from_users`), número de opiniones de los críticos (`reviews_from_critics`), ingresos en USA (`usa_gross_income`) e ingresos mundiales (`worldwide_gross_income`).

**3.** Muestr la correlación entre presupuesto (`budget`) e ingresos en EE.UU. (`usa_gross_income`) para las películas americanas (`country`), antes de 1950 y después de 1950 (`year`).

**4.** Muestra los histogramas de la puntuación de los usuarios (`avg_vote`) y los críticos (`metascore`) superpuestos.

**5.** ¿Cuáles son los 20 actores (`actors`) que aparecen en más películas?

**6.** ¿Cuáles son los 10 directores (`director`) con mejor puntuación de los críticos (`metascore`)?

**7.** Correlación entre ingresos a nivel mundial (`worldwide_gross_income`) y puntuación de los usuarios (`avg_vote`).

**8.** Evolución de la nota media de los críticos (`metascore`) y los usuarios (`avg_vote`) por año (`year`).