# Actividad 4: Pruebas Estadísticas

Este notebook aplica pruebas estadísticas al dataset limpio de películas IMDB.

## Objetivos
- Comprobar si existen diferencias significativas entre grupos de datos.
- Utilizar pruebas como ANOVA, T-Test y Kruskal-Wallis.
- Interpretar resultados estadísticos.


In [2]:
import pandas as pd
from scipy.stats import ttest_ind, f_oneway, kruskal
from scipy.stats import shapiro

# Para visualización opcional
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="whitegrid")
%matplotlib inline


In [3]:
df = pd.read_csv('../1_data_cleaning/dataset_limpio.csv')
df.head()


Unnamed: 0,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,...,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,movie_facebook_likes
0,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,CCH Pounder,...,http://www.imdb.com/title/tt0499549/?ref_=fn_t...,3054.0,English,USA,PG-13,237000000.0,2009-01-01,936.0,7.9,33000
1,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,Johnny Depp,...,http://www.imdb.com/title/tt0449088/?ref_=fn_t...,1238.0,English,USA,PG-13,300000000.0,2007-01-01,5000.0,7.1,0
2,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,Christoph Waltz,...,http://www.imdb.com/title/tt2379713/?ref_=fn_t...,994.0,English,UK,PG-13,245000000.0,2015-01-01,393.0,6.8,85000
3,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,Tom Hardy,...,http://www.imdb.com/title/tt1345836/?ref_=fn_t...,2701.0,English,USA,PG-13,250000000.0,2012-01-01,23000.0,8.5,164000
4,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,Daryl Sabara,...,http://www.imdb.com/title/tt0401729/?ref_=fn_t...,738.0,English,USA,PG-13,263700000.0,2012-01-01,632.0,6.6,24000


In [4]:
# Crear grupos de comparación
high_budget = df[df['budget'] > df['budget'].median()]['imdb_score']
low_budget = df[df['budget'] <= df['budget'].median()]['imdb_score']

# T-Test
t_stat, p_val = ttest_ind(high_budget, low_budget, equal_var=False)
print("T-Test IMDB Score (High vs Low Budget)")
print("Estadístico t:", t_stat)
print("Valor p:", p_val)


T-Test IMDB Score (High vs Low Budget)
Estadístico t: -0.8234974076636643
Valor p: 0.4102686361547817


In [5]:
# Seleccionar algunos grupos frecuentes
ratings = ['PG', 'PG-13', 'R']
grouped_scores = [df[df['content_rating'] == r]['imdb_score'] for r in ratings]

# ANOVA
f_stat, p_val = f_oneway(*grouped_scores)
print("ANOVA IMDB Score por Content Rating (PG, PG-13, R)")
print("Estadístico F:", f_stat)
print("Valor p:", p_val)


ANOVA IMDB Score por Content Rating (PG, PG-13, R)
Estadístico F: 25.58004423473362
Valor p: 8.974959196304329e-12


In [6]:
# Tomar 3 géneros frecuentes
df['genres'] = df['genres'].str.split('|').str[0]
top_genres = df['genres'].value_counts().nlargest(3).index.tolist()
genre_groups = [df[df['genres'] == genre]['imdb_score'] for genre in top_genres]

# Kruskal-Wallis Test
h_stat, p_val = kruskal(*genre_groups)
print("Kruskal-Wallis IMDB Score por género:", top_genres)
print("Estadístico H:", h_stat)
print("Valor p:", p_val)


Kruskal-Wallis IMDB Score por género: ['Comedy', 'Action', 'Drama']
Estadístico H: 211.86227808934126
Valor p: 9.878496519589689e-47


## Conclusión

- El T-Test permitió comparar si hay diferencia en puntuación IMDB entre películas de bajo y alto presupuesto.
- El ANOVA analizó si hay diferencias de calificación IMDB entre clasificaciones PG, PG-13 y R.
- El test de Kruskal-Wallis se usó para comparar entre géneros, sin asumir normalidad.

Estas pruebas ayudan a validar si los grupos tienen efectos significativos sobre el desempeño de las películas.
