<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/exercise_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Películas de IMDb


Vamos a poner en práctica las funciones que hemos visto de tendencia central y dispersión.

## Pasos previos

In [None]:
# Importamos las librerías de Python necesarias

import pandas as pd
from scipy import stats

# Redondeamos las salidas a dos decimales
%precision %.2f

Vamos a trabajar con un conjunto de datos en formato CSV que contiene estadísticas sobre 85.855 películas de [IMDB](https://www.imdb.com/).

Cada fila contiene la siguiente información:

* `imdb_title_id`: identificador de IMDb
* `title`: título de la película
* `original_title`: título original (normalmente coincide con el campo `title`, pero no siempre)
* `year`: año de estreno
* `date_published`: fecha de estreno
* `genre`: género
* `duration`: duración (en minutos)
* `country`: país de la película
* `language`: idioma original
* `director`: nombre del director/a
* `writer`: nombre del/la guionista
* `production_company`: nombre de la productora
* `actors`: nombres de los actores principales, separados por comas
* `description`: breve descripción del argumento
* `avg_vote`: puntuación de los usuarios (de 0 a 10)
* `votes`: número de votos recibidos
* `budget`: presupuesto
* `usa_gross_income`: recaudación en EE.UU.
* `worlwide_gross_income`: recaudación a nivel mundial
* `metascore`: puntuación de los críticos (de 0 a 100)
* `reviews_from_users`: número de opiniones de los usuarios
* `reviews_from_critics`: número de opiniones de los críticos


In [None]:
# Obtención del fichero CSV con los datos

!wget https://github.com/d-tomas/data-mining/raw/main/datasets/imdb.tgz
!tar xvfz imdb.tgz
!rm imdb.tgz

In [None]:
# Cargamos los datos en formato CSV

data = pd.read_csv('imdb.csv', index_col='imdb_title_id')
data

## Un poco de limpieza inicial

In [None]:
# Vamos a ver los tipos de datos de cada columna

data.info()

In [None]:
# Renombra la columna 'worlwide_gross_income' como 'worldwide_gross_income'
data.rename(columns={'worlwide_gross_income': 'worldwide_gross_income'}, inplace=True)

# Transformar a valor numérico el año
data['year'] = pd.to_numeric(data['year'], errors='coerce')

# Transforma 'worldwide_gross_income' a numérico
data['worldwide_gross_income'] = pd.to_numeric(data['worldwide_gross_income'].str.split(' ').str[-1], errors='coerce')

## Ejercicios

**1.** ¿Cuánto dura (`duration`) la película más corta?

**2.** ¿Cuál es el título (`title`) de la película más larga (`duration`)?

**3.** ¿Cuántas películas tienen vacía la puntuación de los críticos (`metascore`)?

**4.** ¿Cuál es la puntuación media de los críticos (`metascore`) para todas las películas?

**5.** ¿Y la puntuación media de los usuarios (`avg_vote`)?

**6.** ¿Cuál es el rango intercuartil de la puntuación de los usuarios (`avg_vote`)?

**7.** ¿Cuántas películas han conseguido una puntuación de los usuarios (`avg_vote`) superior a 9?

**8.** ¿Qué director (`director`) ha dirigido más películas?

**9.** ¿Cuántas películas hay con el mismo título (`title`) y año (`year`) de estreno?

**10.** ¿Qué película tiene la puntuación más alta de los usuarios (`avg_vote`)?

**11.** ¿Cuál es la película más reciente que ha obtenido una puntuación de 100 de los críticos (`metascore`)?

**12.** ¿Cuál es la recaudación media mundial (`worldwide_gross_income`) para las películas anteriores a 1950?

**13.** ¿Cuál es la desviación estándar de la puntuación de los críticos (`metascore`)?

**14.** ¿Cuál es la desviación estándar de la puntuación (`avg_vote`) de los usuarios (multiplícala por 10 para estar en la misma escala que la de los críticos)?

**15.** ¿Cuál de las dos distribuciones, `metascore` o `avg_vote` tiene mayor asimetría (en valor absoluto)?

# Referencias

* [IMDb movies extensive dataset](https://www.kaggle.com/stefanoleone992/imdb-extensive-dataset)