Paso 1: Abre el archivo de datos y estudia la informaci√≥n general
===============

In [None]:
import pandas as pd

# Cargar el archivo CSV
file_path = "/datasets/games.csv"
games_data = pd.read_csv(file_path)

# Mostrar informaci√≥n general del dataset en una celda separada
games_data.info()
print(games_data.head())


Paso 2: Prepara los datos
===============
Reemplaza los nombres de las columnas (ponlos en min√∫sculas).

In [None]:
# Normalizar los nombres de las columnas
games_data.columns = games_data.columns.str.lower()

- Convierte los datos en los tipos necesarios.

In [None]:
# Manejo de tipos de datos
games_data['year_of_release'] = pd.to_numeric(games_data['year_of_release'], errors='coerce')
games_data['user_score'] = pd.to_numeric(games_data['user_score'], errors='coerce')

- Describe las columnas en las que los tipos de datos han sido cambiados y explica por qu√©.

year_of_release se ha convertido a num√©rico para facilitar el an√°lisis temporal.

user_score se ha convertido a num√©rico para manejar valores como "TBD" y realizar c√°lculos.

- Si es necesario, elige la manera de tratar los valores ausentes.

In [None]:
# Identificar valores ausentes
missing_data_summary = games_data.isnull().sum()

print(missing_data_summary)

In [None]:
# Decisiones:
# 1. 'Name': Solo 2 valores nulos, eliminados ya que no afectan significativamente el an√°lisis general.
games_data = games_data.dropna(subset=['name'])

# 2. 'Year_of_Release': Se rellena con el valor m√°s frecuente (moda) para conservar la integridad temporal.
most_frequent_year = games_data['year_of_release'].mode()[0]
games_data['year_of_release'] = games_data['year_of_release'].fillna(most_frequent_year).astype(int)

# 3. 'Genre': Solo 2 valores nulos, se eliminan y se cambia a columna catgorica.
games_data['genre'] = games_data['genre'].astype('category')
games_data = games_data.dropna(subset=['genre'])

# 4. 'Critic_Score' y 'User_Score': Se rellenan con la mediana para evitar sesgos.
games_data['critic_score'] = games_data['critic_score'].fillna(games_data['critic_score'].median())
games_data['user_score'] = games_data['user_score'].fillna(games_data['user_score'].median())

# 5. 'Rating': Los valores nulos se reemplazan por "Unknown" para clasificar juegos sin informaci√≥n de rating.
games_data['rating'] = games_data['rating'].fillna('Unknown')

# Ver resumen actualizado de datos ausentes

print(games_data.isnull().sum())

In [None]:
# Muestreo de datos limpios

games_data.info()
print(games_data.sample(5))

- Explica por qu√© rellenaste los valores ausentes como lo hiciste o por qu√© decidiste dejarlos en blanco.

Los valores "TBD" en user_score se manejaron como valores nulos (NaN) porque estos representan datos pendientes de determinar ("To Be Determined"). Dado que no ofrecen una informaci√≥n v√°lida para an√°lisis, se transformaron en valores ausentes para evitar interpretaciones err√≥neas y mantener la integridad de los datos.

- ¬øPor qu√© crees que los valores est√°n ausentes? Brinda explicaciones posibles.

Los valores ausentes pueden deberse a varias razones:

Limitaciones en la recopilaci√≥n de datos:

Algunas columnas, como Critic_Score y User_Score, dependen de evaluaciones externas. Si un juego no fue ampliamente revisado, las puntuaciones pueden estar ausentes.
Los datos de Rating podr√≠an faltar si el juego no recibi√≥ una clasificaci√≥n ESRB formal.

Errores o inconsistencias en el registro:

Juegos m√°s antiguos o menos populares podr√≠an tener datos incompletos debido a pr√°cticas de registro menos estrictas en su momento.
Falta de relevancia percibida:

Algunos juegos pueden haber sido lanzados en regiones espec√≠ficas, haciendo que ciertos datos (como clasificaciones o puntuaciones) no fueran recolectados.

- Presta atenci√≥n a la abreviatura TBD: significa "to be determined" (a determinar). Especifica c√≥mo piensas manejar estos casos.


Los valores marcados como "TBD" en la columna user_score fueron tratados como valores ausentes (NaN) por las siguientes razones:

Naturaleza de TBD: La abreviatura "TBD" (to be determined) indica que estos datos no estaban disponibles al momento de la recopilaci√≥n. Tratarlos como ausentes permite manejar su falta de informaci√≥n de forma adecuada en an√°lisis futuros.

Evitar sesgos en imputaciones: Reemplazar "TBD" con una media, mediana o alg√∫n otro valor predeterminado podr√≠a introducir sesgos en los resultados, especialmente si los juegos con "TBD" tienen caracter√≠sticas distintas.

- Calcula las ventas totales (la suma de las ventas en todas las regiones) para cada juego y coloca estos valores en una columna separada.

In [None]:
# Crear una columna de ventas totales
games_data['total_sales'] = games_data[['na_sales', 'eu_sales', 'jp_sales', 'other_sales']].sum(axis=1)

# Confirmar insercion de columna
print(games_data.sample(5))

Paso 3: Analiza los datos
===============
- Mira cu√°ntos juegos fueron lanzados en diferentes a√±os. ¬øSon significativos los datos de cada per√≠odo?

In [None]:
import matplotlib.pyplot as plt

# Juegos lanzados por a√±o
games_per_year = games_data['year_of_release'].value_counts().sort_index()

# Verificar la proporci√≥n de juegos por a√±o
total_games = games_per_year.sum()
proportion_per_year = (games_per_year / total_games) * 100

# Gr√°fico de barras: juegos lanzados por a√±o
plt.figure(figsize=(14, 7))
plt.bar(games_per_year.index, games_per_year.values, color='skyblue', alpha=0.85)
plt.title("Juegos Lanzados por A√±o", fontsize=16)
plt.xlabel("A√±o de Lanzamiento", fontsize=12)
plt.ylabel("N√∫mero de Juegos", fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

Distribuci√≥n por a√±o:

El n√∫mero de juegos lanzados anualmente creci√≥ desde la d√©cada de 1980, alcanzando un pico en 2008 con 1,696 juegos.
Posteriormente, el n√∫mero de lanzamientos disminuy√≥ gradualmente hasta 502 juegos en 2016.
Proporci√≥n por per√≠odo:

La mayor actividad en lanzamientos ocurri√≥ entre 2005 y 2011, representando el per√≠odo de mayor contribuci√≥n a los datos totales.
Los a√±os anteriores a 2000 y posteriores a 2013 tienen una contribuci√≥n significativamente menor.
Estos datos son significativos para an√°lisis recientes, especialmente centrados en el per√≠odo de auge entre 2005 y 2011

- Observa c√≥mo var√≠an las ventas de una plataforma a otra. Elige las plataformas con las mayores ventas totales y construye una distribuci√≥n basada en los datos de cada a√±o. Busca las plataformas que sol√≠an ser populares pero que ahora no tienen ventas. ¬øCu√°nto tardan generalmente las nuevas plataformas en aparecer y las antiguas en desaparecer?

In [None]:
# Ventas totales por plataforma
platform_sales = games_data.groupby('platform')['total_sales'].sum().sort_values(ascending=False)

# Seleccionar las plataformas principales (mayores ventas totales)
top_platforms = platform_sales.head(5).index

# Ventas por a√±o para plataformas principales
platform_trends = games_data[games_data['platform'].isin(top_platforms)].groupby(['year_of_release', 'platform'])['total_sales'].sum().unstack()

# Gr√°fico de tendencias de ventas por plataforma
plt.figure(figsize=(14, 8))
platform_trends.plot(kind='line', marker='o', figsize=(14, 8))
plt.title("Tendencia de Ventas por Plataforma (Top 5)", fontsize=16)
plt.xlabel("A√±o de Lanzamiento", fontsize=12)
plt.ylabel("Ventas Totales (millones de d√≥lares)", fontsize=12)
plt.legend(title="Plataforma", fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Buscar plataformas que ya no tienen ventas
platform_last_year = games_data.groupby('platform')['year_of_release'].max()
inactive_platforms = platform_last_year[platform_last_year < games_data['year_of_release'].max()]



Observaciones sobre las ventas por plataforma

1. Plataformas con mayores ventas totales:
PS2: Lidera con 1,255.77 millones de d√≥lares.
X360, PS3, Wii, DS: Completan el Top 5, todas con ventas superiores a 800 millones.

2. Distribuci√≥n de ventas por a√±o:
PS2: Tuvo su pico entre 2001 y 2005, desapareciendo hacia 2011.
X360 y PS3: Mostraron su auge entre 2008 y 2012.
Wii: Aument√≥ r√°pidamente desde su lanzamiento en 2006, pero decay√≥ despu√©s de 2010.

3. Plataformas que ya no tienen ventas:
Ejemplos: NES, N64, SNES, PS2, PSP.
La mayor√≠a desaparecieron antes de 2015, coincidiendo con la llegada de nuevas generaciones.

4. Ciclo de vida de plataformas:
En promedio, las plataformas tardan entre 5 y 10 a√±os en alcanzar su auge y perder relevancia.
Nuevas plataformas suelen reemplazar a las antiguas r√°pidamente, como se ve con la transici√≥n de PS2 a PS3/PS4.

- Determina para qu√© per√≠odo debes tomar datos. Para hacerlo mira tus respuestas a las preguntas anteriores. Los datos deber√≠an permitirte construir un modelo para 2017.

Bas√°ndome en las observaciones previas:

Crecimiento y declive de plataformas:

El auge de las plataformas comenz√≥ alrededor del a√±o 2000 con la llegada de la generaci√≥n de PS2, X360 y Wii.
A partir de 2015, la relevancia de plataformas m√°s recientes como PS4 y Xbox One es notable.
Relevancia de lanzamientos:

Los lanzamientos alcanzaron su pico en 2008, y aunque han disminuido, los datos de 2012 en adelante reflejan transiciones importantes hacia plataformas actuales.
Ventas y comportamiento de mercado:

Las tendencias m√°s relevantes para ventas en 2017 est√°n representadas por datos de plataformas recientes (PS4, XOne) y g√©neros populares durante el per√≠odo 2010-2016.
Per√≠odo sugerido:
Datos desde 2010 hasta 2016: Este intervalo captura transiciones clave y proporciona una base s√≥lida para predecir tendencias en 2017.

- Trabaja solo con los datos que consideras relevantes. Ignora los datos de a√±os anteriores.

In [None]:
# Filtrar datos relevantes desde 2010 hasta 2016
relevant_data = games_data[games_data['year_of_release'] >= 2010]

# Confirmar el rango de a√±os en los datos filtrados
relevant_data['year_of_release'].value_counts().sort_index()

- ¬øQu√© plataformas son l√≠deres en ventas? ¬øCu√°les crecen y cu√°les se reducen? Elige varias plataformas potencialmente rentables.

In [None]:
# Ventas totales por plataforma en el per√≠odo relevante (2010-2016)
platform_sales_relevant = relevant_data.groupby('platform')['total_sales'].sum().sort_values(ascending=False)

# Identificar las plataformas principales por ventas totales
top_platforms_relevant = platform_sales_relevant.head(5)

# Tendencias de crecimiento/reducci√≥n de las plataformas principales
platform_trends_relevant = relevant_data.groupby(['year_of_release', 'platform'])['total_sales'].sum().unstack()

# Calcular la diferencia en ventas a√±o a a√±o para identificar tendencias
platform_trends_growth = platform_trends_relevant.diff()

# Gr√°fico de l√≠neas: Tendencia de ventas de las principales plataformas
top_platforms_names = top_platforms_relevant.index
platform_trends_top = platform_trends_relevant[top_platforms_names]

plt.figure(figsize=(14, 8))
for platform in top_platforms_names:
    plt.plot(platform_trends_top.index, platform_trends_top[platform], marker='o', label=platform)

plt.title("Tendencia de Ventas de las Principales Plataformas (2010-2016)", fontsize=16)
plt.xlabel("A√±o de Lanzamiento", fontsize=12)
plt.ylabel("Ventas Totales (millones de d√≥lares)", fontsize=12)
plt.legend(title="Plataformas", fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

PS4: Muestra un crecimiento constante hasta 2015, destac√°ndose como la plataforma con mayor potencial futuro.
PS3 y X360: Ambas plataformas experimentan un declive continuo en este per√≠odo, indicando una transici√≥n hacia nuevas generaciones.
Wii: Las ventas caen dr√°sticamente despu√©s de 2012.
3DS: Muestra un declive gradual, aunque mantiene cierta relevancia.

- Crea un diagrama de caja para las ventas globales de todos los juegos, desglosados por plataforma. ¬øSon significativas las diferencias en las ventas? ¬øQu√© sucede con las ventas promedio en varias plataformas? Describe tus hallazgos.


In [None]:
# Crear un diagrama de caja para las ventas globales por plataforma
plt.figure(figsize=(26, 5))
relevant_data.boxplot(column='total_sales', by='platform', grid=False, showfliers=False)
plt.title("Distribuci√≥n de Ventas Globales por Plataforma (2010-2016)", fontsize=16)
plt.suptitle("")  # Eliminar el t√≠tulo autom√°tico
plt.xlabel("Plataforma", fontsize=12)
plt.ylabel("Ventas Totales (millones de d√≥lares)", fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Calcular estad√≠sticas descriptivas para las plataformas
sales_stats = relevant_data.groupby('platform')['total_sales'].describe()
sales_stats.sort_values(by='mean', ascending=False)

Plataformas con mayores ventas promedio:

X360 y PS4: Presentan medianas m√°s altas y mayores valores m√°ximos en comparaci√≥n con otras plataformas.
PS3: Tambi√©n muestra ventas consistentes con un rango intercuartil relativamente amplio.
Variabilidad en ventas:

Las plataformas como X360, PS4, y PS3 tienen una alta dispersi√≥n, indicando una variabilidad significativa en el √©xito de los juegos.
Plataformas como PSP y PSV tienen distribuciones m√°s concentradas y valores mucho m√°s bajos.
Outliers significativos:

Varias plataformas muestran outliers en ventas, lo que sugiere juegos extremadamente exitosos que impulsan los promedios hacia arriba.
Estad√≠sticas descriptivas:
Ventas promedio m√°s altas:
X360 (0.81M) y PS4 (0.80M) lideran, seguidos de cerca por PS3 (0.66M).
Estas plataformas destacan como las m√°s rentables en t√©rminos generales.
Ventas m√°s bajas:
PSP (0.13M) y PSV (0.12M) tienen las menores ventas promedio, reflejando su limitada popularidad.
Conclusi√≥n:
Plataformas l√≠deres: X360, PS4, y PS3 son las m√°s rentables en el per√≠odo analizado.
Plataformas menos competitivas: PSP y PSV tienen un impacto marginal en ventas globales.
Recomendaci√≥n: Focalizar campa√±as publicitarias en plataformas con alta variabilidad y √©xito, como PS4 y X360, aprovechando su potencial de ventas por t√≠tulo.


- Mira c√≥mo las rese√±as de usuarios y profesionales afectan las ventas de una plataforma popular (tu elecci√≥n). Crea un gr√°fico de dispersi√≥n y calcula la correlaci√≥n entre las rese√±as y las ventas. Saca conclusiones.


In [None]:
# Elegir una plataforma popular para el an√°lisis (ejemplo: PS4)
ps4_data = relevant_data[relevant_data['platform'] == 'PS4']

# Calcular correlaciones entre rese√±as y ventas
correlation_critic_sales = ps4_data['critic_score'].corr(ps4_data['total_sales'])
correlation_user_sales = ps4_data['user_score'].corr(ps4_data['total_sales'])

# Crear gr√°ficos de dispersi√≥n para cr√≠ticas y ventas
plt.figure(figsize=(14, 6))

# Gr√°fico para rese√±as de cr√≠ticos
plt.subplot(1, 2, 1)
plt.scatter(ps4_data['critic_score'], ps4_data['total_sales'], alpha=0.6, color='blue')
plt.title("Relaci√≥n entre Critic Score y Ventas (PS4)", fontsize=12)
plt.xlabel("Critic Score", fontsize=10)
plt.ylabel("Ventas Totales (millones)", fontsize=10)
plt.grid(alpha=0.3)

# Gr√°fico para rese√±as de usuarios
plt.subplot(1, 2, 2)
plt.scatter(ps4_data['user_score'], ps4_data['total_sales'], alpha=0.6, color='green')
plt.title("Relaci√≥n entre User Score y Ventas (PS4)", fontsize=12)
plt.xlabel("User Score", fontsize=10)
plt.ylabel("Ventas Totales (millones)", fontsize=10)
plt.grid(alpha=0.3)

plt.tight_layout()
plt.show()

Correlaci√≥n entre cr√≠ticas y ventas:
Critic Score:

Correlaci√≥n de 0.41, lo que indica una relaci√≥n moderada positiva.
Los juegos con mejores cr√≠ticas profesionales tienden a generar mayores ventas.
User Score:

Correlaci√≥n de -0.03, lo que sugiere que no existe una relaci√≥n significativa entre las rese√±as de usuarios y las ventas.
Observaciones gr√°ficas:
Critic Score:
Se observa una tendencia ascendente en el gr√°fico de dispersi√≥n, confirmando la influencia positiva de las cr√≠ticas profesionales en las ventas.
User Score:
Los datos est√°n dispersos sin un patr√≥n claro, indicando que las ventas no est√°n determinadas por las puntuaciones de los usuarios.
Conclusi√≥n:
Rese√±as profesionales: Son un factor clave para el √©xito comercial en la plataforma PS4.
Rese√±as de usuarios: Parecen no ser un indicador confiable de ventas.
Recomendaci√≥n: Invertir en la promoci√≥n de cr√≠ticas positivas por parte de expertos para aumentar la visibilidad y las ventas de los juegos.


- Teniendo en cuenta tus conclusiones compara las ventas de los mismos juegos en otras plataformas.


In [None]:
# Filtrar juegos que est√°n disponibles en m√∫ltiples plataformas
multi_platform_games = relevant_data.groupby('name').filter(lambda x: len(x['platform'].unique()) > 1)

# Identificar un juego popular disponible en m√∫ltiples plataformas dentro de los datos relevantes
multi_platform_games_names = multi_platform_games['name'].value_counts().index[:1]  # Seleccionar el juego m√°s com√∫n
selected_game = multi_platform_games_names[0]

# Obtener los datos del juego seleccionado
selected_game_data = relevant_data[relevant_data['name'] == selected_game]

# Crear un gr√°fico de barras para comparar ventas por plataforma
plt.figure(figsize=(10, 6))
plt.bar(selected_game_data['platform'], selected_game_data['total_sales'], color='skyblue', alpha=0.8)
plt.title(f"Comparaci√≥n de Ventas por Plataforma para '{selected_game}'", fontsize=14)
plt.xlabel("Plataforma", fontsize=12)
plt.ylabel("Ventas Totales (millones de d√≥lares)", fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

Ventas por plataforma:
PlayStation 3 (PS3): L√≠der con 6.46 millones de d√≥lares en ventas.

Xbox 360 (X360): Segunda posici√≥n con 4.22 millones.

PlayStation 4 (PS4): Genera ventas significativas con 3.01 millones.

Otras plataformas: Xbox One (XOne), PSV, PC, Wii, 3DS y PSP muestran menores contribuciones, aunque a√∫n relevantes.

Observaciones clave:
Generaciones anteriores: PS3 y X360 dominan las ventas, mostrando su fuerte base de usuarios en 2014.

Plataformas recientes como PS4 y XOne: Aunque est√°n en una etapa temprana, ya comienzan a acumular ventas importantes.

Plataformas port√°tiles y PC: Contribuyen con ventas mucho m√°s bajas, reflejando su menor impacto para este t√≠tulo en particular.

Conclusi√≥n:
"FIFA 14" confirma que las plataformas con bases de usuarios establecidas (PS3 y X360) dominan las ventas, pero las nuevas generaciones (PS4 y XOne) comienzan a captar una proporci√≥n significativa del mercado. Esto refuerza la importancia de focalizar esfuerzos en plataformas emergentes mientras se mantienen estrategias para las m√°s establecidas.

- Echa un vistazo a la distribuci√≥n general de los juegos por g√©nero. ¬øQu√© se puede decir de los g√©neros m√°s rentables? ¬øPuedes generalizar acerca de los g√©neros con ventas altas y bajas?


In [None]:
# Distribuci√≥n de juegos por g√©nero
genre_distribution = relevant_data['genre'].value_counts()

# Ventas totales por g√©nero
genre_sales = relevant_data.groupby('genre')['total_sales'].sum().sort_values(ascending=False)

# Gr√°ficos de distribuci√≥n y ventas por g√©nero
plt.figure(figsize=(14, 6))

# Distribuci√≥n de juegos por g√©nero
plt.subplot(1, 2, 1)
plt.bar(genre_distribution.index, genre_distribution.values, color='teal', alpha=0.75)
plt.title("Distribuci√≥n de Juegos por G√©nero", fontsize=14)
plt.xlabel("G√©nero", fontsize=12)
plt.ylabel("N√∫mero de Juegos", fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Ventas totales por g√©nero
plt.subplot(1, 2, 2)
plt.bar(genre_sales.index, genre_sales.values, color='orange', alpha=0.75)
plt.title("Ventas Totales por G√©nero", fontsize=14)
plt.xlabel("G√©nero", fontsize=12)
plt.ylabel("Ventas Totales (millones de d√≥lares)", fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

genre_distribution, genre_sales

Observaciones sobre la distribuci√≥n:
G√©neros m√°s frecuentes:

Acci√≥n: Mayor n√∫mero de juegos lanzados (1,495 t√≠tulos).
Miscel√°neos (Misc), Deportes y RPG: Tambi√©n tienen una representaci√≥n significativa.
G√©neros menos comunes:

Puzzle y Plataforma: Representan los g√©neros con menor cantidad de juegos lanzados.
Observaciones sobre las ventas:
G√©neros m√°s rentables:

Acci√≥n: Genera la mayor cantidad de ingresos (673.09 millones de d√≥lares).
Shooter y Deportes: Tambi√©n son g√©neros l√≠deres, con 479.74 y 328.39 millones respectivamente.
G√©neros menos rentables:

Puzzle y Estrategia: Tienen las ventas totales m√°s bajas, reflejando su menor atractivo comercial.
Generalizaci√≥n:
G√©neros con ventas altas: Los juegos de Acci√≥n, Shooter y Deportes son los m√°s rentables, destac√°ndose por su popularidad y atractivo en audiencias amplias.
G√©neros con ventas bajas: Los juegos de Puzzle y Estrategia tienden a ser m√°s de nicho, con menor presencia en el mercado y ventas limitadas.

Paso 4. Crea un perfil de usuario para cada regi√≥n
===============
Para cada regi√≥n (NA, UE, JP) determina:

- Las cinco plataformas principales. Describe las variaciones en sus cuotas de mercado de una regi√≥n a otra.

In [None]:
# Calcular las ventas totales por plataforma para cada regi√≥n
region_platform_sales = {
    "NA": relevant_data.groupby('platform')['na_sales'].sum().sort_values(ascending=False),
    "EU": relevant_data.groupby('platform')['eu_sales'].sum().sort_values(ascending=False),
    "JP": relevant_data.groupby('platform')['jp_sales'].sum().sort_values(ascending=False)
}

# Seleccionar las 5 plataformas principales para cada regi√≥n
top_platforms_by_region = {
    region: sales.head(5) for region, sales in region_platform_sales.items()
}

# Calcular las cuotas de mercado por regi√≥n
market_share_by_region = {
    region: (sales / sales.sum()) * 100 for region, sales in top_platforms_by_region.items()
}

print(top_platforms_by_region, market_share_by_region)

- Los cinco g√©neros principales. Explica la diferencia.

In [None]:
# Calcular las ventas totales por g√©nero para cada regi√≥n
region_genre_sales = {
    "NA": relevant_data.groupby('genre')['na_sales'].sum().sort_values(ascending=False),
    "EU": relevant_data.groupby('genre')['eu_sales'].sum().sort_values(ascending=False),
    "JP": relevant_data.groupby('genre')['jp_sales'].sum().sort_values(ascending=False)
}

# Seleccionar los 5 g√©neros principales para cada regi√≥n
top_genres_by_region = {
    region: sales.head(5) for region, sales in region_genre_sales.items()
}

print(top_genres_by_region)

Diferencias entre regiones
Norteam√©rica y Europa:
G√©neros de Acci√≥n, Shooter y Deportes dominan en ambas regiones.

RPG y Misc: Aunque menos populares, tambi√©n tienen una representaci√≥n significativa.
Jap√≥n:

RPG: Lidera significativamente con m√°s del doble de ventas que el segundo g√©nero (Acci√≥n).
G√©neros como Plataforma y Aventura tienen m√°s relevancia en comparaci√≥n con NA y EU.
Conclusi√≥n

NA y EU: Los g√©neros de acci√≥n y shooter dominan, reflejando una preferencia por experiencias intensas y competitivas.

Jap√≥n: Las preferencias se inclinan hacia RPG, mostrando un fuerte inter√©s por juegos con historias profundas y elementos estrat√©gicos.

- Si las clasificaciones de ESRB afectan a las ventas en regiones individuales.


In [None]:
# Calcular las ventas totales por clasificaci√≥n ESRB para cada regi√≥n
region_rating_sales = {
    "NA": relevant_data.groupby('rating')['na_sales'].sum().sort_values(ascending=False),
    "EU": relevant_data.groupby('rating')['eu_sales'].sum().sort_values(ascending=False),
    "JP": relevant_data.groupby('rating')['jp_sales'].sum().sort_values(ascending=False)
}

# Normalizar las ventas para obtener proporciones por regi√≥n
rating_market_share = {
    region: (sales / sales.sum()) * 100 for region, sales in region_rating_sales.items()
}

print(region_rating_sales, rating_market_share)

Observaciones clave
Norteam√©rica y Europa:

Los juegos clasificados como M (Mature) son los m√°s rentables, seguidos de cerca por E (Everyone).
Clasificaciones como T (Teen) y E10+ tambi√©n tienen una contribuci√≥n relevante.
Jap√≥n:

Una gran proporci√≥n de ventas pertenece a juegos sin clasificaci√≥n registrada (Unknown), reflejando una menor dependencia de ESRB.
Los juegos E (Everyone) y T (Teen) tienen m√°s impacto que los clasificados como M (Mature).
Conclusi√≥n
NA y EU: Las clasificaciones ESRB influyen significativamente en las ventas, con un enfoque claro en juegos para audiencias maduras (M).
JP: Las clasificaciones tienen menor relevancia, y las ventas est√°n m√°s distribuidas entre g√©neros variados.

Paso 5. Prueba las siguientes hip√≥tesis:
========

- Las calificaciones promedio de los usuarios para las plataformas Xbox One y PC son las mismas.

In [None]:
from scipy.stats import ttest_ind, levene

# Filtrar datos para Xbox One y PC
xone_scores = relevant_data[relevant_data['platform'] == 'XOne']['user_score'].dropna()
pc_scores = relevant_data[relevant_data['platform'] == 'PC']['user_score'].dropna()

# Prueba de Levene para igualdad de varianzas
levene_stat, levene_p = levene(xone_scores, pc_scores)
equal_var = levene_p > 0.05  # Si p > 0.05, asumimos varianzas iguales

# Prueba de hip√≥tesis (t-test)
t_stat, p_value = ttest_ind(xone_scores, pc_scores, equal_var=equal_var)

# Resultados
{
    "Levene Statistic": levene_stat,
    "Levene p-value": levene_p,
    "Supuesto de varianza igual": equal_var,
    "t-Statistic": t_stat,
    "p-value": p_value
}

No rechazamos la hip√≥tesis nula de la prueba de Levene, concluyendo que las varianzas entre los grupos son iguales.

No rechazamos la hip√≥tesis nula de la prueba t, concluyendo que las medias de los dos grupos no son significativamente diferentes.


- Las calificaciones promedio de los usuarios para los g√©neros de Acci√≥n y Deportes son diferentes.



In [None]:
# Filtrar datos para los g√©neros Acci√≥n y Deportes
action_scores = relevant_data[relevant_data['genre'] == 'Action']['user_score'].dropna()
sports_scores = relevant_data[relevant_data['genre'] == 'Sports']['user_score'].dropna()

# Prueba de Levene para igualdad de varianzas
levene_stat, levene_p = levene(action_scores, sports_scores)
equal_var = levene_p > 0.05  # Si p > 0.05, asumimos varianzas iguales

# Prueba de hip√≥tesis (t-test)
t_stat, p_value = ttest_ind(action_scores, sports_scores, equal_var=equal_var)

# Resultados
{
    "Levene Statistic": levene_stat,
    "Levene p-value": levene_p,
    "Supuesto de varianza igual": equal_var,
    "t-Statistic": t_stat,
    "p-value": p_value
}

El valor p es mucho menor que el nivel de significancia ùõº = 0.05

Esto implica que rechazamos la hip√≥tesis nula de la prueba de Levene, concluyendo que las varianzas entre los grupos no son iguales.

Por lo tanto, en la prueba t de Student, utilizamos equal_var=False.

El valor p es mucho menor que ùõº = 0.05

Esto implica que rechazamos la hip√≥tesis nula de la prueba t, concluyendo que las medias de los dos grupos son significativamente diferentes.

- C√≥mo formulaste las hip√≥tesis nula y alternativa.



Hip√≥tesis nula (H‚ÇÄ):
La hip√≥tesis nula asume que no existe una diferencia significativa entre las medias de los grupos analizados.

Hip√≥tesis alternativa (H‚ÇÅ):
La hip√≥tesis alternativa propone que existe una diferencia significativa entre las medias de los grupos.

Prueba de Levene:
Objetivo: Evaluar si las varianzas entre los grupos (Xbox One y PC; Acci√≥n y Deportes) son iguales.
Si las varianzas no son iguales, se debe usar la versi√≥n de la prueba t que no asume igualdad de varianzas (equal_var=False).
Prueba t de Student (t-test):
Objetivo: Comparar las medias de dos grupos independientes para determinar si son significativamente diferentes.
Criterio de decisi√≥n:
Fijamos un nivel de significancia (ùõº) en 0.05.

Si el p-value de la prueba t es menor que ùõº , se rechaza la hip√≥tesis nula, concluyendo que las medias son diferentes.

Si el p-value es mayor o igual a ùõº, no se rechaza la hip√≥tesis nula, indicando que no hay evidencia suficiente para afirmar que las medias son diferentes.


Paso 6. Escribe una conclusi√≥n general
==========

Principales Hallazgos
-----

1. Tendencias de Plataformas:

- PS4 y Xbox One son plataformas emergentes con potencial significativo en 2017.

- Consolas m√°s antiguas como PS3 y X360 est√°n en declive pero mantienen ventas relevantes.

2. Distribuci√≥n por G√©neros:

- G√©neros como Acci√≥n, Shooter y Deportes son los m√°s rentables a nivel global.

- En Jap√≥n, los RPG dominan las preferencias.

3. Impacto Regional:

- NA y EU muestran patrones similares con preferencia por plataformas de sobremesa.

- JP se inclina hacia consolas port√°tiles y g√©neros espec√≠ficos como RPG y Aventura.

4. Rese√±as y Ventas:

- Las cr√≠ticas profesionales tienen un impacto positivo moderado en las ventas.

- Las puntuaciones de usuarios no muestran correlaci√≥n significativa.

5. Hip√≥tesis:

- No hay diferencia significativa entre las calificaciones de usuarios para Xbox One y PC.

- Existe una diferencia significativa entre las calificaciones de usuarios para los g√©neros de Acci√≥n y Deportes.