# Películas de IMDb


Vamos a poner en práctica las funciones que hemos visto de tendencia central y dispersión. Completa con las respuestas que vayas obteniendo el formulario que hay disponible en el apartado *Actividades* de la sesión correspondiente en Moodle.

## Pasos previos

In [175]:
# Importamos las librerías de Python necesarias

import pandas as pd
from scipy import stats

# Redondeamos las salidas a dos decimales
%precision %.2f

'%.2f'

Vamos a trabajar con un conjunto de datos en formato CSV que contiene estadísticas sobre 85.855 películas de [IMDB](https://www.imdb.com/).

Cada fila contiene la siguiente información:

* `imdb_title_id`: identificador de IMDb
* `title`: título de la película
* `original_title`: título original (normalmente coincide con el campo `title`, pero no siempre)
* `year`: año de estreno
* `date_published`: fecha de estreno
* `genre`: género
* `duration`: duración (en minutos)
* `country`: país de la película
* `language`: idioma original
* `director`: nombre del director/a
* `writer`: nombre del/la guionista
* `production_company`: nombre de la productora
* `actors`: nombres de los actores principales, separados por comas
* `description`: breve descripción del argumento
* `avg_vote`: puntuación de los usuarios (de 0 a 10)
* `votes`: número de votos recibidos
* `budget`: presupuesto
* `usa_gross_income`: recaudación en EE.UU.
* `worlwide_gross_income`: recaudación a nivel mundial
* `metascore`: puntuación de los críticos (de 0 a 100)
* `reviews_from_users`: número de opiniones de los usuarios
* `reviews_from_critics`: número de opiniones de los críticos


In [176]:
# Obtención del fichero CSV con los datos

!wget https://github.com/d-tomas/data-mining/raw/main/datasets/imdb.tgz
!tar xvfz imdb.tgz
!rm imdb.tgz

--2022-02-15 19:46:57--  https://github.com/d-tomas/data-mining/raw/main/datasets/imdb.tgz
Cargado certificado CA '/etc/ssl/certs/ca-certificates.crt'
Resolviendo github.com (github.com)... 140.82.121.4
Conectando con github.com (github.com)[140.82.121.4]:443... conectado.
Petición HTTP enviada, esperando respuesta... 302 Found
Localización: https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/imdb.tgz [siguiendo]
--2022-02-15 19:46:57--  https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/imdb.tgz
Resolviendo raw.githubusercontent.com (raw.githubusercontent.com)... 2606:50c0:8001::154, 2606:50c0:8003::154, 2606:50c0:8000::154, ...
Conectando con raw.githubusercontent.com (raw.githubusercontent.com)[2606:50c0:8001::154]:443... conectado.
Petición HTTP enviada, esperando respuesta... 200 OK
Longitud: 21689961 (21M) [application/octet-stream]
Grabando a: «imdb.tgz»


2022-02-15 19:47:18 (1,09 MB/s) - «imdb.tgz» guardado [21689961/21689961]

imdb.csv


In [177]:
# Cargamos los datos en formato CSV

data = pd.read_csv('imdb.csv', index_col='imdb_title_id')
data

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0_level_0,title,original_title,year,date_published,genre,duration,country,language,director,writer,...,actors,description,avg_vote,votes,budget,usa_gross_income,worlwide_gross_income,metascore,reviews_from_users,reviews_from_critics
imdb_title_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
tt0000009,Miss Jerry,Miss Jerry,1894,1894-10-09,Romance,45,USA,,Alexander Black,Alexander Black,...,"Blanche Bayliss, William Courtenay, Chauncey D...",The adventures of a female reporter in the 1890s.,5.9,154,,,,,1.0,2.0
tt0000574,The Story of the Kelly Gang,The Story of the Kelly Gang,1906,1906-12-26,"Biography, Crime, Drama",70,Australia,,Charles Tait,Charles Tait,...,"Elizabeth Tait, John Tait, Norman Campbell, Be...",True story of notorious Australian outlaw Ned ...,6.1,589,$ 2250,,,,7.0,7.0
tt0001892,Den sorte drøm,Den sorte drøm,1911,1911-08-19,Drama,53,"Germany, Denmark",,Urban Gad,"Urban Gad, Gebhard Schätzler-Perasini",...,"Asta Nielsen, Valdemar Psilander, Gunnar Helse...",Two men of high rank are both wooing the beaut...,5.8,188,,,,,5.0,2.0
tt0002101,Cleopatra,Cleopatra,1912,1912-11-13,"Drama, History",100,USA,English,Charles L. Gaskill,Victorien Sardou,...,"Helen Gardner, Pearl Sindelar, Miss Fielding, ...",The fabled queen of Egypt's affair with Roman ...,5.2,446,$ 45000,,,,25.0,3.0
tt0002130,L'Inferno,L'Inferno,1911,1911-03-06,"Adventure, Drama, Fantasy",68,Italy,Italian,"Francesco Bertolini, Adolfo Padovan",Dante Alighieri,...,"Salvatore Papa, Arturo Pirovano, Giuseppe de L...",Loosely adapted from Dante's Divine Comedy and...,7.0,2237,,,,,31.0,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
tt9908390,Le lion,Le lion,2020,2020-01-29,Comedy,95,"France, Belgium",French,Ludovic Colbeau-Justin,"Alexandre Coquelle, Matthieu Le Naour",...,"Dany Boon, Philippe Katerine, Anne Serra, Samu...",A psychiatric hospital patient pretends to be ...,5.3,398,,,$ 3507171,,,4.0
tt9911196,De Beentjes van Sint-Hildegard,De Beentjes van Sint-Hildegard,2020,2020-02-13,"Comedy, Drama",103,Netherlands,"German, Dutch",Johan Nijenhuis,"Radek Bajgar, Herman Finkers",...,"Herman Finkers, Johanna ter Steege, Leonie ter...",A middle-aged veterinary surgeon believes his ...,7.7,724,,,$ 7299062,,6.0,4.0
tt9911774,Padmavyuhathile Abhimanyu,Padmavyuhathile Abhimanyu,2019,2019-03-08,Drama,130,India,Malayalam,Vineesh Aaradya,"Vineesh Aaradya, Vineesh Aaradya",...,"Anoop Chandran, Indrans, Sona Nair, Simon Brit...",,7.9,265,,,,,,
tt9914286,Sokagin Çocuklari,Sokagin Çocuklari,2019,2019-03-15,"Drama, Family",98,Turkey,Turkish,Ahmet Faik Akinci,"Ahmet Faik Akinci, Kasim Uçkan",...,"Ahmet Faik Akinci, Belma Mamati, Metin Keçeci,...",,6.4,194,,,$ 2833,,,


## Un poco de limpieza inicial

In [178]:
# Vamos a ver los tipos de datos de cada columna

data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85855 entries, tt0000009 to tt9914942
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   title                  85855 non-null  object 
 1   original_title         85855 non-null  object 
 2   year                   85855 non-null  object 
 3   date_published         85855 non-null  object 
 4   genre                  85855 non-null  object 
 5   duration               85855 non-null  int64  
 6   country                85791 non-null  object 
 7   language               85022 non-null  object 
 8   director               85768 non-null  object 
 9   writer                 84283 non-null  object 
 10  production_company     81400 non-null  object 
 11  actors                 85786 non-null  object 
 12  description            83740 non-null  object 
 13  avg_vote               85855 non-null  float64
 14  votes                  85855 non-null  int64  


In [179]:
# Renombra la columna 'worlwide_gross_income' como 'worldwide_gross_income'
data.rename(columns={'worlwide_gross_income': 'worldwide_gross_income'}, inplace=True)

# Transformar a valor numérico el año
data['year'] = pd.to_numeric(data['year'], errors='coerce')

# Transforma 'worldwide_gross_income' a numérico
data['worldwide_gross_income'] = pd.to_numeric(data['worldwide_gross_income'].str.split(' ').str[-1], errors='coerce')

## Ejercicios

**1.** ¿Cuánto dura (`duration`) la película más corta?

In [180]:
data["duration"].min()

41

**2.** ¿Cuál es el título (`title`) de la película más larga (`duration`)?

In [181]:
data.loc[data["duration"] == data["duration"].max(), ["title"]]

Unnamed: 0_level_0,title
imdb_title_id,Unnamed: 1_level_1
tt9047474,La flor


**3.** ¿Cuántas películas tienen vacía la puntuación de los críticos (`metascore`)?

In [182]:
data.loc[data["metascore"].isna(), ["title"]]

Unnamed: 0_level_0,title
imdb_title_id,Unnamed: 1_level_1
tt0000009,Miss Jerry
tt0000574,The Story of the Kelly Gang
tt0001892,Den sorte drøm
tt0002101,Cleopatra
tt0002130,L'Inferno
...,...
tt9908390,Le lion
tt9911196,De Beentjes van Sint-Hildegard
tt9911774,Padmavyuhathile Abhimanyu
tt9914286,Sokagin Çocuklari


In [183]:
data["metascore"].isna().sum()

72550

**4.** ¿Cuál es la puntuación media de los críticos (`metascore`) para todas las películas?

In [184]:
data["metascore"].mean()

55.89688087185269

**5.** ¿Y la puntuación media de los usuarios (`avg_vote`)?

In [185]:
data["avg_vote"].mean()

5.898655873274707

**6.** ¿Cuál es el rango intercuartil de la puntuación de los usuarios (`avg_vote`)?

In [186]:
data['avg_vote'].quantile(0.75) - data['avg_vote'].quantile(0.25)

1.5999999999999996

**7.** ¿Cuántas películas han conseguido una puntuación de los usuarios (`avg_vote`) superior a 9?

In [187]:
(data['avg_vote'] > 9).sum()

36

**8.** ¿Qué director (`director`) ha dirigido más películas?

In [188]:
 data.iloc[data.groupby("director")["director"].transform("count").argmax()]["director"]

'Jesús Franco'

**9.** ¿Cuántas películas hay con el mismo título (`title`) y año (`year`) de estreno?

In [189]:
data.duplicated(['title', 'year']).sum()

119

**10.** ¿Qué película tiene la puntuación más alta de los usuarios (`avg_vote`)?

In [190]:
data.iloc[data["avg_vote"].argmax()]["title"]

'Suvarna Sundari'

**11.** ¿Cuál es la película más reciente que ha obtenido una puntuación de 100 de los críticos (`metascore`)?

In [191]:
data.loc[data["metascore"]==100, ["title", "year", "metascore"]].sort_values(by=["year"], ascending=False).head(1)

Unnamed: 0_level_0,title,year,metascore
imdb_title_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tt1065073,Boyhood,2014.0,100.0


In [192]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85855 entries, tt0000009 to tt9914942
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   title                   85855 non-null  object 
 1   original_title          85855 non-null  object 
 2   year                    85854 non-null  float64
 3   date_published          85855 non-null  object 
 4   genre                   85855 non-null  object 
 5   duration                85855 non-null  int64  
 6   country                 85791 non-null  object 
 7   language                85022 non-null  object 
 8   director                85768 non-null  object 
 9   writer                  84283 non-null  object 
 10  production_company      81400 non-null  object 
 11  actors                  85786 non-null  object 
 12  description             83740 non-null  object 
 13  avg_vote                85855 non-null  float64
 14  votes                   85855 n

**12.** ¿Cuál es la recaudación media mundial (`worldwide_gross_income`) para las películas anteriores a 1950?

In [193]:
data.loc[data["year"]<=1950, ["worldwide_gross_income"]].mean()

worldwide_gross_income    6.774693e+06
dtype: float64

**13.** ¿Cuál es la desviación estándar de la puntuación de los críticos (`metascore`)?

In [194]:
data["metascore"].std()

17.784874272765876

**14.** ¿Cuál es la desviación estándar de la puntuación (`avg_vote`) de los usuarios (multiplícala por 10 para estar en la misma escala que la de los críticos)?

In [195]:
data["avg_vote"].std()*10

12.349873512977362

**15.** ¿Cuál de las dos distribuciones, `metascore` o `avg_vote` tiene mayor asimetría (en valor absoluto)?

In [196]:
stats.skew(data["avg_vote"]), stats.skew(data["metascore"].dropna())

(-0.76, -0.16)

# Referencias

* [IMDb movies extensive dataset](https://www.kaggle.com/stefanoleone992/imdb-extensive-dataset)