
**Comentario del Revisor**

Hola!

Soy Juan Manuel Romero, pero siéntete libre de llamarme Juanma. Soy code reviewer en Tripleten y hoy estaré revisando tu entrega.

Para simular la dinámica de un ambiente de trabajo, si veo algún error, en primer instancia solo los señalaré, dándote la oportunidad de encontrarlos y corregirlos por tu cuenta. En un trabajo real, el líder de tu equipo hará una dinámica similar. En caso de que no puedas resolver la tarea, te daré una información más precisa en la próxima revisión. 

Solo un aviso rápido: cuando estés revisando el proyecto, por favor deja mis comentarios originales tal como están. De esta manera, podemos seguir fácilmente el progreso y asegurarnos de que no se nos pase nada por alto. Y, si realizas algún cambio basado en mis comentarios, sería genial si pudieras resaltar esas actualizaciones para que se destaquen.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como estas:

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor</b> <a class="tocSkip"></a>

Éxito. Todo se ha hecho correctamente.

</div>


<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.

</div> 


<div class="alert alert-block alert-danger">
<b>Comentario del Revisor</b> <a class="tocSkip"></a>

Requiere corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con los comentarios en rojo.

</div>

Puedes responderme usando esto:

<div class="alert alert-block alert-info"> <b>Respuesta del estudiante.</b> <a class="tocSkip"></a> </div>


<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Felicidades Raúl! Tu trabajo es excelente. 

Has completado todos los items necesarios para aprobar la entrega.

Sigue así!

</div>

## Proyecto - Sprint 6

La industria de los videojuegos ha experimentado un crecimiento exponencial en las últimas décadas, convirtiéndose en uno de los sectores más dinámicos y competitivos del mercado del entretenimiento digital. En este contexto, la empresa Ice, una tienda online dedicada a la venta de videojuegos a nivel global, busca optimizar sus decisiones comerciales a través del análisis de datos históricos sobre ventas, géneros, plataformas, calificaciones y reseñas de sus lanzamientos a lo largo del tiempo.

Este proyecto tiene como propósito realizar un estudio exploratorio de un conjunto de datos reales que incluye información sobre videojuegos lanzados en diferentes años, con énfasis en aquellos publicados hasta el año 2016. El análisis se lleva a cabo simulando un escenario en el que la empresa debe planificar su estrategia para el año 2017, utilizando el conocimiento extraído de los datos anteriores como base para tomar decisiones informadas.

Para lograr este objetivo, se aplicarán técnicas de análisis de datos en Python, mediante el uso de bibliotecas como pandas, numpy, matplotlib, seaborn y scipy. El proceso incluirá la limpieza y transformación de datos, la identificación de patrones de comportamiento en las ventas según distintas variables (como género, plataforma o región), y la validación de hipótesis estadísticas que permitan respaldar los hallazgos.

Además del análisis global, se prestará atención a las diferencias entre regiones geográficas con el fin de construir perfiles de usuario diferenciados, basados en sus preferencias y hábitos de consumo. También se evaluará la relación entre las reseñas (de usuarios y críticos) y el desempeño comercial de los juegos, así como el posible impacto de la clasificación ESRB en las ventas.

En resumen, este estudio busca transformar datos brutos en conocimiento accionable que le permita a Ice identificar productos prometedores, entender las tendencias del mercado y planificar campañas publicitarias más efectivas para el año siguiente.


## 1. Librerías

In [None]:
import pandas as pd 
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy import stats as st

## 2. Preparación de datos

In [None]:
raw_df = pd.read_csv("games.csv")
print(raw_df.info())

print(raw_df.head(10))

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Recuerda que es muy importante analizar si hay duplicados o no en los datos. Puedes utilizar _duplicated().sum()_ para ver el número de duplicados.

</div>

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Se ha realizado el ajuste en el nombre de las columnas de forma correcta. 

</div>

In [None]:
raw_df['Name'] = raw_df['Name'].str.strip().str.lower()
raw_df['Year_of_Release'] = pd.to_numeric(raw_df['Year_of_Release'], errors='coerce').astype('Int64')
raw_df['User_Score'] = pd.to_numeric(raw_df['User_Score'], errors='coerce')
raw_df['Total_Sales'] = raw_df['NA_sales'] + raw_df['EU_sales'] + raw_df['JP_sales'] + raw_df['Other_sales']

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Muy buen trabajo calculando las ventas totales.

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Otra forma de hacerlo es de la siguiente manera:

	data['total_sales']=data[['na_sales','eu_sales','jp_sales','other_sales']].sum(axis=1)

</div>

</div>

En esta etapa se revisaron y ajustaron algunos tipos de datos de las distintas columnas. Los nombres se normalizaron a minúsculas para facilitar su manipulación. En cuanto a los tipos, la columna year_of_release se mantuvo sin cambios, ya que presenta algunos valores ausentes y arrojaría errores si se forzara su conversión a tipo entero. Dado que estos registros representan una pequeña parte del conjunto total, se conservaron por ahora para evitar pérdida de información, dejando los valores nulos tal como están.

La columna user_score se convirtió a tipo float, ya que contiene puntuaciones continuas. En ambas columnas de puntuaciones (tanto critic_score como user_score) existen valores ausentes, y dado que rellenarlos con una media o mediana sesgaría los resultados, se decidió no asignar puntuaciones arbitrarias a juegos no evaluados realmente.

Finalmente, se añadió una nueva columna total_sales, calculada como la suma de las ventas en todas las regiones (NA_sales, EU_sales, JP_sales y Other_sales), que servirá como métrica principal para los análisis posteriores.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Excelente trabajo! Soluciones válidas en este caso para manejar los nulos serían:

- Introducir un valor irreal que depende de la columna y su significado (-1, -999999, etc.).
- Dejar los huecos sin cambios.

Los valores de Year_of_release se pueden cambiar a cero o eliminarse. Por su parte, no hay mucho que se puede hacer con los valores nulos de critic_score y user_score, los cuales se pueden dejar a null.

</div>

In [None]:
print(raw_df.head(10))

## 3. Análisis de datos

3.1 Mira cuántos juegos fueron lanzados en diferentes años. ¿Son significativos los datos de cada período?

In [None]:
Games_by_year = raw_df.groupby('Year_of_Release').size()
print(Games_by_year.plot(kind='bar', title='Games released by year', xlabel= 'Years', ylabel= 'Sum of games'))
print(Games_by_year.describe())

En el gráfico se observa una clara evolución en la cantidad de juegos lanzados desde la década de los 80s hasta mediados de los 2000. A partir de los 90, el número de lanzamientos crece de forma acelerada, alcanzando un pico entre 2007 y 2009 con más de 1,400 títulos publicados por año. Posteriormente, se aprecia una disminución progresiva, posiblemente relacionada con la transición hacia nuevas generaciones de consolas y/o el cierre de plataformas antiguas.

De acuerdo con las estadísticas que nos muestra describe, el promedio anual ronda los 440 lanzamientos, pero existe una gran dispersión (con una desviación estándar algo considerable de 450 títulos), lo que confirma que la producción de juegos no fue estable a lo largo del tiempo. Este dataset nos muestra una distribución sesgada a la derecha, con pocos lanzamientos en los primeros años y un crecimiento fuerte de los 2000 en adelante.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Muy buen análisis sobre el lanzamiento de los videojuegos. Además, el gráfico utilizado es excelente y las conclusiones se presentan claramente.

</div>

3.2 Observa cómo varían las ventas de una plataforma a otra. Elige las plataformas con las mayores ventas totales y construye una distribución basada en los datos de cada año. Busca las plataformas que solían ser populares pero que ahora no tienen ventas. ¿Cuánto tardan generalmente las nuevas plataformas en aparecer y las antiguas en desaparecer?

In [None]:
Sales_by_console = raw_df.groupby('Platform')['Total_Sales'].sum().sort_values(ascending=False)
Sales_by_console.plot(kind='bar', title='Total sales by console', xlabel= 'Consoles', ylabel= 'Sum of games')
plt.show()

Top_10 = Sales_by_console.head(10)
Filtered_Data = raw_df[raw_df['Platform'].isin(Top_10.index)]
Platform_Evolution = Filtered_Data.pivot_table(index='Year_of_Release', columns='Platform', values='Total_Sales', aggfunc='sum', fill_value=0)
Platform_Evolution.plot(title='Top 10 Console Sales Evolution by Year', xlabel='Year of Release', ylabel='Total sales (millions)')
plt.legend(title='Platform', loc='upper left')
plt.show()

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

El gráfico muestra claramente la evolución de las ventas anuales por plataforma. Las conclusiones asociadas se presentan claramente. 

</div>

Estos gráficos arrojan información muy interesante sobre el comportamiento del mercado de consolas, aunque a primera vista se aprecian algo caóticos. Sin embargo, al observar con más detalle el gráfico de evolución, se identifica que cada consola sigue un ciclo de vida comercial considerable, pero con un patrón que aprece ser consistente a lo largo del tiempo.

Por lo que podemos observar en los gráficos, vemos que las distintas plataformas tardan entre uno y dos años en comenzar a posicionarse tras su lanzamiento, iniciando con ventas bajas hasta alcanzar su pico de popularidad, que dicho sea de paso, el crecimiento suele ser rápido (de hecho pareciera que incluso en algunos casos es exponencial) y da lugar a un periodo de auge que dura aproximadamente de 3 a 5 años. Tras ello, las ventas caen drásticamente conforme aparecen nuevas generaciones. Cabe mencionar que este descenso no necesariamente significa que la consola desaparezca, sino que más bien deja de generar ventas significativas aunque los juegos existentes siguen vendiéndose, pero ya no se lanzan nuevos títulos relevantes.

Un aspecto que resulta muy interesante es como a medida que una consola comienza su declive, otra empieza a ganar terreno, esto podría sugerirnos que existe una transición de plataforma o generación (ya sea de una nueva versión de consola o de una plataforma totalmente nueva). Lo anterior puede hacernos creer que las ventas disminuyen no solo por la pérdida de interés, sino por la entrada de nuevos competidores que desplazan temporalmente la atención del mercado. En resumen, con el gráfico es posible ver que parte de la caída inicial pueda estar relacionada con algún efecto novedad de las nuevas consolas, aunque tal vez el retorno de usuarios a plataformas previas podría ocurrir de todos modos.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Realizas un análisis correcto del ciclo de vida de las consolas. La gráfica es clara y respalda tus conclusiones.

</div>

3.3 Crea un diagrama de caja para las ventas globales de todos los juegos, desglosados por plataforma. ¿Son significativas las diferencias en las ventas? ¿Qué sucede con las ventas promedio en varias plataformas? Describe tus hallazgos.

In [None]:
Filtered_Data.boxplot(column='Total_Sales', by='Platform')
plt.title('Distribution of Game Sales - Top 10 Platforms')
plt.ylabel('Total Sales')
plt.show()

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Aquí lo mejor es no mostrar los outliers para poder ver más claramente las cajas y poder realizar comparativas.

</div>

En este punto, el uso de un diagrama de caja no parece ser particularmente de ayuda. La dispersión de los datos es tan alta que el gráfico se vuelve difícil de interpretar visualmente. Desde etapas anteriores del análisis ya se había identificado que las ventas presentan una distribución extremadamente sesgada, con la mayoría de los juegos vendiendo muy poco y unos pocos títulos concentrando gran parte de las ventas totales.

Por este motivo, considero más útil recurrir a una alternativa tal vez menos visual pero más eficaz, que sería .describe(). El cual nos permite condensar la información de forma clara y precisa. Aunque puede resultar menos atractivo a la vista, resume de manera mucho más efectiva los valores clave como la media, la mediana, la desviación estándar y los valores extremos, que en esencia son lo que mostraría el boxplot, ofreciendo una comprensión más directa de la dispersión y del sesgo presentes en los datos. Básicamnte el gráfico reafirma que las ventas están altamente dispersas, y las diferencias entre plataformas se deben principalmente a unos pocos éxitos con ventas excepcionales.

3.4 Mira cómo las reseñas de usuarios y profesionales afectan las ventas de una plataforma popular (tu elección). Crea un gráfico de dispersión y calcula la correlación entre las reseñas y las ventas. Saca conclusiones.

In [None]:
PS2_Data = Filtered_Data[Filtered_Data['Platform'] == 'PS2']
Critics_Cor = PS2_Data['Critic_Score'].corr(PS2_Data['Total_Sales'])
Users_Corr = PS2_Data['User_Score'].corr(PS2_Data['Total_Sales'])
print(f'El coeficiente de correlación entre las ventas y la calificación de los críticos es de {Critics_Cor}, \
mientras que el de las ventas respecto a la calificación de los usuarios es de {Users_Corr}.')

PS2_Data.plot(x='Critic_Score', y='Total_Sales', kind='scatter', title='PS2: Critic Score vs Sales')
PS2_Data.plot(x='User_Score', y='Total_Sales', kind='scatter', title='PS2: User Score vs Sales')


En general, podría pensarse que los títulos con mejores calificaciones deberían tener un número mucho mayor de ventas, y viceversa. No obstante, aunque se observa una correlación positiva entre las variables, estas no parece ser especialmente fuertes, sobre todo en el caso de las calificaciones de los usuarios, en cambio, la relación con las evaluaciones de los críticos sí es un poco más evidente. Podemos notar que la mayoría de los juegos se concentran en un rango de ventas que no supera los 5 millones (aunque cabe resaltar que sería bueno tener el dato de los precios y convetir las distintas monedas para un análisis muchísimo más atinado). Existen, por supuesto, títulos con puntuaciones muy altas y ventas excepcionales, pero también hay casos de juegos con calificaciones modestas que lograron un buen desempeño comercial.

En conjunto, las valoraciones profesionales parecen tener una influencia algo mayor en las ventas que las opiniones del público general. Aun así, la tendencia se ve significativamente alta, los juegos mejor evaluados por los críticos tienden a vender algo más, pero no de forma proporcional o exagerada. Por su parte, las reseñas de los usuarios muestran una relación mucho más dispersa, probablemente porque reflejan percepciones más subjetivas y variables.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Tal cual. Podemos ver una correlación positiva para las reseñas de los críticos, es decir, un puntaje más alto generalmente trae más ingresos. Sin embargo, la correlación entre el puntaje de los usuarios y los ingresos es casi cero, lo que significa que los ingresos por ventas no se ven muy afectados por la opinión de los usuarios.

</div>

3.5 Teniendo en cuenta tus conclusiones compara las ventas de los mismos juegos en otras plataformas.

In [None]:
multi_platform_games = raw_df.groupby('Name')['Platform'].nunique()
multi_platform_games = multi_platform_games[multi_platform_games > 2]
multi_platform_games = raw_df[raw_df['Name'].isin(multi_platform_games.index)]
comparison = multi_platform_games.groupby(['Name', 'Platform'])['Total_Sales'].sum().reset_index()
print(comparison)
#comparison.plot(kind='bar')

Una vez más se observa que las ventas varían considerablemente entre plataformas. En la mayoría de los casos, una de ellas presenta una clara ventaja sobre el resto, aunque por el momento no contamos con evidencia suficiente para explicar a qué se debe esta diferencia.

3.6 Echa un vistazo a la distribución general de los juegos por género. ¿Qué se puede decir de los géneros más rentables? ¿Puedes generalizar acerca de los géneros con ventas altas y bajas?

In [None]:
Game_Sales_by_Genre = raw_df.groupby('Genre')['Total_Sales'].sum().sort_values(ascending=False)
Top_10_Genres = Game_Sales_by_Genre.head(10)
Top_10_Genres.plot(kind='bar', title='Total game sales by genre', xlabel='Genres', ylabel='Sum of sales')
plt.show()

Los géneros de acción y deportes destacan como los más rentables, concentrando la mayor proporción de ventas globales. Esto sugiere que los títulos asociados con experiencias dinámicas o tal vez competitivas o que transmiten más intensidad a la hora de jugar suelen atraer a un público más amplio. Por otro lado, géneros como puzzle o simulación presentan volúmenes de venta significativamente menores, lo que puede deberse a que apelan a nichos más específicos o a que su frecuencia de lanzamiento es menor.

En este sentido sería relevante para las empresas de videojuegos analizar la relación entre precios y volumen de ventas, con el fin de maximizar sus ganancias en géneros de nicho o alcanzar a un público más amplio mediante precios competitivos en títulos populares. No obstante, lo más probable es que la estrategia dominante busque la maximización del retorno de inversión, por lo que sería interesante identificar qué géneros generan mayor rentabilidad, incluso si su volumen de ventas es menor, para orientar futuras decisiones estratégicas.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Todos los gráficos y conclusiones son correctos. 

</div>

## Paso 4. Crea un perfil de usuario para cada región
Para cada región (NA, UE, JP) determina:

4.1 Las cinco plataformas principales. Describe las variaciones en sus cuotas de mercado de una región a otra.

In [None]:
NA_Consols = raw_df.groupby('Platform')['NA_sales'].sum().sort_values(ascending=False)
Top_NA_Consols = NA_Consols.head(5)
EU_Consols = raw_df.groupby('Platform')['EU_sales'].sum().sort_values(ascending=False)
Top_EU_Consols = EU_Consols.head(5)
JP_Consols = raw_df.groupby('Platform')['JP_sales'].sum().sort_values(ascending=False)
Top_JP_Consols = JP_Consols.head(5)

Comparison = pd.DataFrame({'NA': Top_NA_Consols, 'EU': Top_EU_Consols, 'JP': Top_JP_Consols})
Comparison.plot(kind='bar',title='Top 5 platforms by region', ylabel='Sales')

Lo principal a destacar es que las ventas en Norteamérica superan con gran diferencia a las de las demás regiones, seguidas por Europa y, finalmente, Japón. Un punto interesante es que la PS2 es la única consola que aparece dentro del top 5 de las tres regiones, lo que demuestra su enorme éxito y alcance global.

También se observa que Europa y Norteamérica comparten varias plataformas populares, como la Wii y la PS3, lo que sugiere preferencias de mercado similares entre ambas regiones occidentales. En contraste, Japón muestra un comportamiento muy distinto, con las ventas más bajas del conjunto y una clara preferencia por consolas que no necesariamente tienen una presencia relevante en otras regionesdel mundo.

4.2 Los cinco géneros principales. Explica la diferencia.

In [None]:
NA_Genres = raw_df.groupby('Genre')['NA_sales'].sum().sort_values(ascending=False)
Top_NA_Genres = NA_Genres.head(5)
EU_Genres = raw_df.groupby('Genre')['EU_sales'].sum().sort_values(ascending=False)
Top_EU_Genres = EU_Genres.head(5)
JP_Genres = raw_df.groupby('Genre')['JP_sales'].sum().sort_values(ascending=False)
Top_JP_Genres = EU_Genres.head(5)

Comparison = pd.DataFrame({'NA': Top_NA_Genres, 'EU': Top_EU_Genres, 'JP': Top_JP_Genres})
Comparison.plot(kind='bar',title='Top 5 genres by sales', ylabel='Sales')

En todas las regiones observamos que los géneros de acción, disparos y deportes dominan el mercado por sobre el resto de géneros, que demuestra un poco lo que veníamos comentando anterioemnte respecto a las preferencias por títulos de experiencias dinámicas. En contraste, el mercado japonés muestra un patrón distinto, aunque los géneros de acción siguen siendo populares, el género de plataformas aparece entre los más vendidos, lo que refleja la fuerte presencia de juegos que (tal vez) están más orientadas a un público familiar.

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Al analizar plataformas y géneros, todo lo que no esté incluido en el TOP-5 podría combinarse en "otros", para que la imagen del análisis sea más completa.

</div>

4.3 Si las clasificaciones de ESRB afectan a las ventas en regiones individuales.

In [None]:
NA_Rating = raw_df.groupby('Rating')['NA_sales'].sum().sort_values(ascending=False)
Top_NA_Rating = NA_Rating.head(5)
EU_Rating = raw_df.groupby('Rating')['EU_sales'].sum().sort_values(ascending=False)
Top_EU_Rating = EU_Rating.head(5)
JP_Rating = raw_df.groupby('Rating')['JP_sales'].sum().sort_values(ascending=False)
Top_JP_Rating = JP_Rating.head(5)

Rating_Comparison = pd.DataFrame({'NA': Top_NA_Rating, 'EU': Top_EU_Rating, 'JP': Top_JP_Rating})
Rating_Comparison.plot(kind='bar',title='Sales by rating', ylabel='Sales')

En cuanto al rating, parece haber un impacto claro en las ventas por región. En general, la clasificación Everyone, registran las mayores ventas en todas las regiones, especialmente en Norteamérica y Europa, lo anterior nos sugiere que los títulos familiares o con contenido accesible para todo tipo de jugadores tienen un mercado más amplio y sostenido que el resto. Por otra parte, los juegos Mature y Teen también presentan un desempeño importante, en especial en los mercados occidentales, donde el público objetivo suele ser adolescente o adulto joven. En contraste, Japón tiene las ventas de mayor concentración en aquellos juegos Eveyone o E10+, lo que refuerza la tendencia de preferir contenidos más amigables o universales. 

Cabe resaltar que los juegos con clasificaciones restrictivas como Adults Only o Kids to Adults prácticamente no tienen relevancia comercial (lo cuál, tal vez podría impresionar a quienes venden estos juegos). En resumen, estos datos nos indican que el contenido más accesible y de tono generalista domina el mercado global, aunque en Occidente los juegos orientados a audiencias mayores también tienen una presencia significativa.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

El análisis realizado por cada región está muy bien fundamentado. Además, los resultados se presentan de forma clara y ordenada, lo que facilita la comprensión de la información. Esto permite identificar rápidamente las diferencias y similitudes entre cada región, y contribuye a un mejor entendimiento de los patrones generales. 


</div>

## Paso 5. Prueba las siguientes hipótesis

5.1 Las calificaciones promedio de los usuarios para las plataformas Xbox One y PC son las mismas.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Has definido correctamente las hipótesis.

</div>

In [None]:
XOne = raw_df[raw_df['Platform'] == 'XOne']['User_Score'].dropna()
PC = raw_df[raw_df['Platform'] == 'PC']['User_Score'].dropna()
alpha = 0.05
p = st.ttest_ind(XOne, PC).pvalue
print("p-value:", p)

if p < alpha:
    print("Conclusión: p < 0.05 → hay evidencia de diferencia en las calificaciones promedio entre plataformas.")
else:
    print("Conclusión: p ≥ 0.05 → no se rechaza H0.")

5.2 Las calificaciones promedio de los usuarios para los géneros de Acción y Deportes son diferentes.
Establece tu mismo el valor de umbral alfa.

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>

Al realizar una prueba de hipótesis, es muy importante verificar los supuestos. El t-test que usaste funciona bien cuando se cumplen ciertos supuestos, como que las varianzas de ambos grupos (sábados lluviosos y no lluviosos) sean similares. Puedes realizar la prueba de levene para comprobar que los dos grupos tienen la misma varianza y, de esta forma, podrás saber el valor del parámetro equal_var que se debe utilizar en la función stats.ttest_ind.

</div>

In [None]:
Action = raw_df[raw_df['Genre'] == 'Action']['User_Score'].dropna()
Sports = raw_df[raw_df['Genre'] == 'Sports']['User_Score'].dropna()
alpha = 0.05
p = st.ttest_ind(Action, Sports).pvalue
print("p-value:", p)

if p < alpha:
    print("Conclusión: p < 0.05 → hay evidencia de diferencia en las calificaciones promedio entre géneros.")
else:
    print("Conclusión: p ≥ 0.05 → no se rechaza H0.")

5.3 Explica:
Cómo formulaste las hipótesis nula y alternativa.
Qué criterio utilizaste para probar las hipótesis y por qué.

Para ambas pruebas se formularon las hipótesis con la siguiente lógica:
La hipótesis nula establece que no existe una diferencia significativa entre las calificaciones promedio de los dos grupos comparados. En otras palabras, el análisis busca determinar si las diferencias observadas podrían deberse simplemente al azar. Se trata de una prueba de dos colas, ya que la diferencia puede presentarse tanto en un sentido positivo como negativo.

En la primera prueba: las calificaciones promedio de los usuarios para las plataformas Xbox One y PC son iguales.

En la segunda prueba: las calificaciones promedio de los usuarios para los géneros Acción y Deportes son iguales.

Por su parte, la hipótesis alternativa plantea que sí existe una diferencia significativa entre las calificaciones promedio de los grupos, es decir, que las medias no son iguales.

En la primera prueba: las calificaciones promedio de los usuarios para Xbox One y PC son diferentes.

En la segunda prueba: las calificaciones promedio de los usuarios para los géneros Acción y Deportes son diferentes.

Para evaluar estas hipótesis se utilizó la prueba t de Student para muestras independientes, ya que permite comparar si las medias de dos grupos distintos (en este caso, plataformas o géneros) difieren de forma estadísticamente significativa. La definición del nivel de significancia  se estableció en un 5%, un valor ampliamente empleado en análisis estadísticos, lo anterior se debe a que este umbral ofrece un equilibrio razonable entre confianza en los resultados y sensibilidad para detectar diferencias reales.

<div class="alert alert-block alert-success"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>
Los resultados obtenidos son coherentes con lo esperado. Muy buen trabajo aplicando las pruebas de hipótesis!

<div class="alert alert-block alert-warning"> 
<b>Comentario del Revisor #1</b> <a class="tocSkip"></a>
He notado que hay fragmentos de código repetidos en ambos procesos. Sería recomendable encapsularlos en funciones para mejorar la reutilización y mantener un código más limpio y modular.
</div>

</div>

## 6. Escribe una conclusión general

A lo largo del análisis se identificaron patrones claros en el comportamiento del mercado de videojuegos. Las plataformas más rentables y con mayor volumen de ventas corresponden a aquellas con amplia base de usuarios y amplia vida útil (ya sea porque surgieron muchos títulos y hubo mucho éxito de ventas y/o porque eran muy buenos equipos), destacando especialmente consolas como PlayStation 2 y Wii por ejemplo.

En cuanto a los géneros, Acción y Deportes dominan globalmente, aunque se observaron diferencias regionales que reflejan las preferencias culturales de cada mercado. Por ejemplo, Japón mantiene un interés marcado por títulos de rol y plataformas, mientras que en América y Europa prevalecen las experiencias competitivas y dinámicas.

Respecto a las calificaciones, se encontró una correlación positiva moderada entre las reseñas (de usuarios y críticos) y las ventas, lo que sugiere que las buenas valoraciones pueden influir, aunque no determinar por completo, el éxito comercial de un juego. Además, las pruebas estadísticas mostraron que existen diferencias significativas entre las calificaciones promedio de plataformas, pero no entre géneros (al menos no los analizados).

En conjunto, los resultados permiten concluir que el rendimiento comercial de un videojuego depende de una combinación multifactorial, que involucra aspectos como la plataforma, el género, público o mercado objetivos, las valoraciones recibidas, etc. Comprender esta interacción puede ayudar a las empresas a orientar mejor sus estrategias de lanzamiento y promoción, maximizando tanto ventas como satisfacción del jugador. Finalmente, sería bueno destacar que para Ice, podría resultar conveniente enfocar sus campañas en los géneros con mayor demanda (que en este caso fueron los de Acción y Deportes), priorizando las plataformas activas y en crecimiento, de igual forma, aprovechar las diferencias regionales permitirá dirigir los esfuerzos de marketing de forma más precisa, reforzando su presencia en los mercados más rentables y adaptando la oferta comercial dependiendo de las distintas preferencias locales.