# Descripción del proyecto
Trabajas para la tienda online Ice que vende videojuegos por todo el mundo. Las reseñas de usuarios y expertos, los géneros, las plataformas (por ejemplo, Xbox o PlayStation) y los datos históricos sobre las ventas de juegos están disponibles en fuentes abiertas. Tienes que identificar patrones que determinen si un juego tiene éxito o no. Esto te permitirá detectar proyectos prometedores y planificar campañas publicitarias.

El dataset contiene una columna "rating" que almacena la clasificación ESRB de cada juego. El Entertainment Software Rating Board (la Junta de clasificación de software de entretenimiento) evalúa el contenido de un juego y asigna una clasificación de edad como Adolescente o Adulto.

# Paso 1. Abre el archivo de datos y estudia la información general 

Importa las librerias necesarias


In [47]:
import pandas as pd
import matplotlib.pyplot as plt
import math
import numpy as np
from scipy import stats as st
from IPython.display import display

# Ruta de archivo:

In [48]:
df_game = pd.read_csv('games.csv')
display(df_game.head(20))
print('_____________________________________________________')
display(df_game.info())

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


_____________________________________________________
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


None

# Paso 2. Prepara los datos

-2.1 Reemplaza los nombres de las columnas (ponlos en minúsculas).

-2.2 Convierte los datos en los tipos necesarios.

-2.3Describe las columnas en las que los tipos de datos han sido cambiados y explica por qué.

-2.4 Si es necesario, elige la manera de tratar los valores ausentes:

        -2.4.1 Explica por qué rellenaste los valores ausentes como lo hiciste o por qué decidiste dejarlos en blanco.
        -2.4.2 ¿Por qué crees que los valores están ausentes? Brinda explicaciones posibles.
        -2.4.3 Presta atención a la abreviatura TBD: significa "to be determined" (a determinar). Especifica cómo piensas manejar estos casos.

-2.5 Calcula las ventas totales (la suma de las ventas en todas las regiones) para cada juego y coloca estos valores en una columna separada.

# 2.1 Remplaza los nombres de las columnas

In [49]:
#Reemplaza los nombres de las columnas (ponlos en minúsculas).
df_game.columns = df_game.columns.str.lower()
display(df_game.head(10))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


# 2.2 Combierte los datos en tipos necesarios

In [50]:
#Convierte los datos en los tipos necesarios.

# Limpiar la columna 'year_of_release' y convertirla a tipo de dato int
df_game['year_of_release'] = pd.to_numeric(df_game['year_of_release'], errors='coerce').fillna(0).astype(int)

# Limpiar la columna 'user_score'
df_game['user_score'] = pd.to_numeric(df_game['user_score'], errors='coerce')

# Convertir las columnas a tipo float
df_game['user_score'] = df_game['user_score'].astype(float)
display(df_game.info())
display(df_game)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16715 non-null  object 
 2   year_of_release  16715 non-null  int64  
 3   genre            16713 non-null  object 
 4   na_sales         16715 non-null  float64
 5   eu_sales         16715 non-null  float64
 6   jp_sales         16715 non-null  float64
 7   other_sales      16715 non-null  float64
 8   critic_score     8137 non-null   float64
 9   user_score       7590 non-null   float64
 10  rating           9949 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


None

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16710,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.01,0.00,,,
16711,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,,,
16712,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.01,0.00,,,
16713,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,,,


# 2.3 Explicasion de lo que hicimos

En esta sección de código, estamos actualizando los tipos de datos de dos columnas específicas en nuestro conjunto de datos. La columna 'year_of_release', que originalmente estaba en formato float, ha sido convertida a int64. Esto se debe a que los años de lanzamiento de los videojuegos son valores enteros. Por otro lado, la columna 'user_score', previamente almacenada como objeto, ha sido transformada a float, ya que contiene valores numéricos decimales.

Esta modificación es fundamental para facilitar futuros análisis de datos, permitiéndonos manipular la información de manera más efectiva. Sin embargo, durante el proceso de conversión, fue necesario realizar una depuración adicional del código en estas columnas. La naturaleza de los datos presentes no permitía una conversión directa, por lo que fue necesario abordar estos casos de manera específica.

# 2.4 Revicion de valores ausentes

In [51]:
100*df_game.isna().sum()/df_game.shape[0]

name                0.011965
platform            0.000000
year_of_release     0.000000
genre               0.011965
na_sales            0.000000
eu_sales            0.000000
jp_sales            0.000000
other_sales         0.000000
critic_score       51.319174
user_score         54.591684
rating             40.478612
dtype: float64

# 2.4.2 ¿Por qué crees que los valores están ausentes? Brinda explicaciones posibles.
En esta instancia, he tomado la determinación de no modificar los datos existentes. Esta decisión se basa en una serie de consideraciones fundamentales. En primer lugar, la cantidad considerable de valores ausentes en las columnas 'critic_score', 'user_code' y 'rating', que superan el 40%, sugiere que cualquier método de imputación podría introducir sesgos en el conjunto de datos.

Además, es esencial tener en cuenta el posible impacto en el análisis resultante. La distorsión potencial en los resultados podría ser significativa, especialmente debido a la naturaleza sustancial de los datos faltantes en relación con el conjunto de datos en su totalidad.

Por lo tanto, con el fin de mantener la integridad y la precisión de nuestros resultados, he optado por preservar los datos existentes en su estado actual. Esto garantiza una representación fiel de la información disponible, así como la transparencia y la precisión en el análisis subsiguiente.