# Actividad 2: Estadística Descriptiva

Este notebook realiza un análisis estadístico descriptivo del dataset limpio de películas IMDB, como parte del proceso de minería de datos.

## Objetivos
- Obtener estadísticas generales de las variables.
- Identificar entidades y relaciones.
- Agrupar datos por entidades y calcular estadísticas agrupadas.


In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../1_data_cleaning/dataset_limpio.csv')
df.head()


Unnamed: 0,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,...,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,movie_facebook_likes
0,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,CCH Pounder,...,http://www.imdb.com/title/tt0499549/?ref_=fn_t...,3054.0,English,USA,PG-13,237000000.0,2009-01-01,936.0,7.9,33000
1,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,Johnny Depp,...,http://www.imdb.com/title/tt0449088/?ref_=fn_t...,1238.0,English,USA,PG-13,300000000.0,2007-01-01,5000.0,7.1,0
2,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,Christoph Waltz,...,http://www.imdb.com/title/tt2379713/?ref_=fn_t...,994.0,English,UK,PG-13,245000000.0,2015-01-01,393.0,6.8,85000
3,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,Tom Hardy,...,http://www.imdb.com/title/tt1345836/?ref_=fn_t...,2701.0,English,USA,PG-13,250000000.0,2012-01-01,23000.0,8.5,164000
4,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,Daryl Sabara,...,http://www.imdb.com/title/tt0401729/?ref_=fn_t...,738.0,English,USA,PG-13,263700000.0,2012-01-01,632.0,6.6,24000


In [3]:
# Estadísticas generales para columnas numéricas
df.describe()


Unnamed: 0,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,gross,num_voted_users,cast_total_facebook_likes,facenumber_in_poster,num_user_for_reviews,budget,actor_2_facebook_likes,imdb_score,movie_facebook_likes
count,4919.0,4919.0,4919.0,4919.0,4919.0,4143.0,4919.0,4919.0,4919.0,4919.0,4528.0,4919.0,4919.0,4919.0
mean,142.522667,108.205936,689.028868,651.20553,6682.873145,48625080.0,85094.53,9877.126855,1.367554,276.777394,39899560.0,1678.900183,6.416629,7613.643423
std,121.114253,22.509121,2818.741681,1681.08616,15166.768749,68528640.0,139762.6,18344.114292,2.012843,380.52337,206614400.0,4083.278694,1.115623,19480.997017
min,1.0,7.0,0.0,0.0,0.0,162.0,5.0,0.0,0.0,1.0,218.0,0.0,1.6,0.0
25%,53.0,94.0,7.0,133.0,622.0,5404758.0,9023.5,1439.0,0.0,68.0,6000000.0,284.0,5.8,0.0
50%,112.0,104.0,49.0,372.0,997.0,25592630.0,35131.0,3141.0,1.0,160.0,20000000.0,600.0,6.5,166.0
75%,196.0,118.0,197.0,637.0,11000.0,62427290.0,98351.0,14093.5,2.0,331.0,45000000.0,922.0,7.2,3000.0
max,813.0,330.0,23000.0,23000.0,640000.0,760505800.0,1689764.0,656730.0,43.0,5060.0,12215500000.0,137000.0,9.5,349000.0


In [4]:
# Moda de algunas variables categóricas
print("Moda del país:", df['country'].mode()[0])
print("Moda del idioma:", df['language'].mode()[0])
print("Moda del contenido:", df['content_rating'].mode()[0])


Moda del país: USA
Moda del idioma: English
Moda del contenido: R


In [6]:
df['country'].value_counts()

country
USA                   3723
UK                     433
France                 151
Canada                 122
Germany                 97
                      ... 
Slovenia                 1
Afghanistan              1
Dominican Republic       1
Kenya                    1
Philippines              1
Name: count, Length: 63, dtype: int64

## Entidades y relaciones

A partir de las columnas del dataset se pueden identificar las siguientes entidades:

- Película: entidad principal, representada por `movie_title`
- Director: relacionada a una o muchas películas (`director_name`)
- Actores: cada película tiene 3 actores (`actor_1_name`, `actor_2_name`, `actor_3_name`)
- País / Idioma / Género: atributos relacionados a cada película

Se pueden establecer relaciones como:

- Un director puede dirigir muchas películas.
- Un actor puede participar en muchas películas.
- Cada película tiene un género, un país y un idioma.

Estas relaciones permiten modelar el dataset como un esquema entidad-relación simple.


In [7]:
# Número de películas por director
df['director_name'].value_counts().head(10)


director_name
Steven Spielberg     26
Woody Allen          22
Clint Eastwood       20
Martin Scorsese      20
Ridley Scott         17
Steven Soderbergh    16
Spike Lee            16
Tim Burton           16
Renny Harlin         15
Oliver Stone         14
Name: count, dtype: int64

In [8]:
# Promedio de duración y presupuesto por país
df.groupby('country')[['duration', 'budget']].mean().sort_values(by='budget', ascending=False).head(10)


Unnamed: 0_level_0,duration,budget
country,Unnamed: 1_level_1,Unnamed: 2_level_1
South Korea,120.857143,1383960000.0
Hungary,121.5,1260000000.0
Japan,118.590909,350596000.0
Thailand,142.8,227250000.0
India,137.30303,103399700.0
New Line,104.0,90000000.0
New Zealand,132.066667,81526920.0
China,114.866667,62219000.0
Czech Republic,117.0,48816670.0
Peru,110.0,45000000.0


In [9]:
# Promedio de IMDB score por género
df['genres'] = df['genres'].str.split('|').str[0]  # Tomamos el primer género
df.groupby('genres')['imdb_score'].mean().sort_values(ascending=False)


genres
Film-Noir      7.600000
History        7.500000
Music          7.200000
Documentary    7.180000
Biography      7.156972
Crime          6.842900
Drama          6.743584
Western        6.583333
Mystery        6.551515
Animation      6.517857
Adventure      6.517411
Fantasy        6.445283
Action         6.219841
Comedy         6.169515
Romance        6.040000
Sci-Fi         6.000000
Musical        6.000000
Family         5.709091
Horror         5.674459
Thriller       5.590909
Name: imdb_score, dtype: float64

## Conclusión

- Se obtuvieron estadísticas básicas como media, mediana y moda.
- Se identificaron las entidades clave del dataset.
- Se realizaron agrupaciones por país, director y género para analizar tendencias y patrones.
Este análisis servirá de base para las siguientes etapas de visualización, modelos y predicción.
