# Descripción del proyecto

Trabajas para la tienda online Ice que vende videojuegos por todo el mundo. Las reseñas de usuarios y expertos, los géneros, las plataformas (por ejemplo, Xbox o PlayStation) y los datos históricos sobre las ventas de juegos están disponibles en fuentes abiertas. Tienes que identificar patrones que determinen si un juego tiene éxito o no. Esto te permitirá detectar proyectos prometedores y planificar campañas publicitarias.

Delante de ti hay datos que se remontan a 2016. Imaginemos que es diciembre de 2016 y estás planeando una campaña para 2017.
(Lo importante es adquirir experiencia de trabajo con datos. Realmente no importa si estás pronosticando las ventas de 2017 en función de los datos de 2016 o las ventas de 2027 en función de los datos de 2026.)

El dataset contiene la abreviatura ESRB. The Entertainment Software Rating Board (la Junta de clasificación de software de entretenimiento) evalúa el contenido de un juego y asigna una clasificación de edad como Adolescente o Adulto.


# Introducción

El archivo games se compone de las siguientes columnas:

- Name: Nombre del videojuego.
- Platform: Plataforma de juego, como Wii, NES, GB, etc.
- Year_of_Release: Año de lanzamiento del juego.
- Genre: Género del juego, como Sports, Platform, Racing, etc.
- NA_sales: Ventas del juego en Norteamérica (en millones de dólares estadounidenses).
- EU_sales: Ventas del juego en Europa (en millones de dólares estadounidenses).
- JP_sales: Ventas del juego en Japón (en millones de dólares estadounidenses).
- Other_sales: Ventas del juego en otras regiones (en millones de dólares estadounidenses).
- Critic_Score: Puntuación dada por críticos, en una escala de 100.
- User_Score: Puntuación dada por usuarios, en una escala de 10. Nota: Esta columna contiene valores como "tbd" (to be determined).
- Rating: Clasificación ESRB del juego, que indica la adecuación de su contenido para diferentes grupos de edad.

**Revisar**: https://packaging.python.org/en/latest/tutorials/packaging-projects/


In [1]:
# Importamos librerias necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
from exploratory import execute_analysis

# 1. Ejecutamos funcion personalizada

llamamos a la funcion execute_analysis para:

1. Corregir los nombres de las columnas
2. Buscar y corregir duplicados (desactivado en este caso)


In [2]:

df_games = execute_analysis('games.csv', normalize_cols=True, check_duplicates=False,
                            show_summary_flag=False)

In [3]:
df_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16715 non-null  object 
 2   year_of_release  16446 non-null  float64
 3   genre            16713 non-null  object 
 4   n_a_sales        16715 non-null  float64
 5   e_u_sales        16715 non-null  float64
 6   j_p_sales        16715 non-null  float64
 7   other_sales      16715 non-null  float64
 8   critic_score     8137 non-null   float64
 9   user_score       10014 non-null  object 
 10  rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


Habiéndose corregido los nombres de las columnas en formato snake_case, procedemos a revisar si el tipo de datos para cada una de las columnas es el que corresponde de acuerdo a la información que contineue.


In [4]:
# Columnas
for col in df_games.columns:
    print(f"\nColumna: {col}\n")
    print(df_games[col].head(10))
    print(type(df_games[col].iloc[1]))
    print()


Columna: name

0                   Wii Sports
1            Super Mario Bros.
2               Mario Kart Wii
3            Wii Sports Resort
4     Pokemon Red/Pokemon Blue
5                       Tetris
6        New Super Mario Bros.
7                     Wii Play
8    New Super Mario Bros. Wii
9                    Duck Hunt
Name: name, dtype: object
<class 'str'>


Columna: platform

0    Wii
1    NES
2    Wii
3    Wii
4     GB
5     GB
6     DS
7    Wii
8    Wii
9    NES
Name: platform, dtype: object
<class 'str'>


Columna: year_of_release

0    2006.0
1    1985.0
2    2008.0
3    2009.0
4    1996.0
5    1989.0
6    2006.0
7    2006.0
8    2009.0
9    1984.0
Name: year_of_release, dtype: float64
<class 'numpy.float64'>


Columna: genre

0          Sports
1        Platform
2          Racing
3          Sports
4    Role-Playing
5          Puzzle
6        Platform
7            Misc
8        Platform
9         Shooter
Name: genre, dtype: object
<class 'str'>


Columna: n_a_sales

0    41.

# 2. Convierte los datos en los tipos necesarios.

Vemos que la situación de que los tipos de datos no coinciden con los datos que contiene, se da particularmente en la columna `rating`, `year_of_realase`. Y hay que adicionalmente hay que revisar cómo son los datos para las columnas `critic_score`, `user_score`.


In [5]:
# Vemos que los unicos valores conflictivos es el 'nan'
print(df_games.critic_score.unique())

[76. nan 82. 80. 89. 58. 87. 91. 61. 97. 95. 77. 88. 83. 94. 93. 85. 86.
 98. 96. 90. 84. 73. 74. 78. 92. 71. 72. 68. 62. 49. 67. 81. 66. 56. 79.
 70. 59. 64. 75. 60. 63. 69. 50. 25. 42. 44. 55. 48. 57. 29. 47. 65. 54.
 20. 53. 37. 38. 33. 52. 30. 32. 43. 45. 51. 40. 46. 39. 34. 35. 41. 36.
 28. 31. 27. 26. 19. 23. 24. 21. 17. 22. 13.]


In [6]:
# Vemos que los valores están en formato str cuando debiera ser de tipo float
print(df_games.user_score.unique())

['8' nan '8.3' '8.5' '6.6' '8.4' '8.6' '7.7' '6.3' '7.4' '8.2' '9' '7.9'
 '8.1' '8.7' '7.1' '3.4' '5.3' '4.8' '3.2' '8.9' '6.4' '7.8' '7.5' '2.6'
 '7.2' '9.2' '7' '7.3' '4.3' '7.6' '5.7' '5' '9.1' '6.5' 'tbd' '8.8' '6.9'
 '9.4' '6.8' '6.1' '6.7' '5.4' '4' '4.9' '4.5' '9.3' '6.2' '4.2' '6' '3.7'
 '4.1' '5.8' '5.6' '5.5' '4.4' '4.6' '5.9' '3.9' '3.1' '2.9' '5.2' '3.3'
 '4.7' '5.1' '3.5' '2.5' '1.9' '3' '2.7' '2.2' '2' '9.5' '2.1' '3.6' '2.8'
 '1.8' '3.8' '0' '1.6' '9.6' '2.4' '1.7' '1.1' '0.3' '1.5' '0.7' '1.2'
 '2.3' '0.5' '1.3' '0.2' '0.6' '1.4' '0.9' '1' '9.7']


In [7]:
coef = len(df_games[df_games['user_score'] == 'tbd']) / \
    len(df_games['user_score'])
print(coef*100)

14.501944361352079


Vemos que los datos son de tipo `str` y que tenemos un valor `tbd` que en este caso, reemplazaremos con NaN, pues, cualquier otro valor podria afectar el cálculo de la media. Podría reemplazarse con la media, pero el valor es incierto, tener un valor arbitrario podría sesgar los resultados si los valores "tbd" no se distribuyen de manera similar a los datos existentes.

Los datos NaN representan un 14% de los valores totales, por los que podemos prescindir de estos por las razones antes expuestas.


**Vemos que:**

- los valores están en formato str cuando debiera ser de tipo float
- existe un valor llamado `tbd` que es el que hace que los valores de esta columna se vayan a float

**¿Qué podemos hacer al respecto?** --> Vemos que el valor 0 ya existe, por lo que debemos tomar otro valor y en este caso estamos tomando el valor `NaN`


In [8]:
# Convertimos los valores 'tbd' a NaN
df_games['user_score'].replace('tbd', np.nan, inplace=True)

In [10]:
# Convertir la columna `critic_score` a float
df_games = df_games.astype({'critic_score': 'float64'})

In [None]:
df_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16715 non-null  object 
 2   year_of_release  16446 non-null  float64
 3   genre            16713 non-null  object 
 4   n_a_sales        16715 non-null  float64
 5   e_u_sales        16715 non-null  float64
 6   j_p_sales        16715 non-null  float64
 7   other_sales      16715 non-null  float64
 8   critic_score     8137 non-null   float64
 9   user_score       7590 non-null   float64
 10  rating           9949 non-null   object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


El reemplazo de los valores `tbd` en la columna user_score por valores NaN es una decisión sustentada pues, en la evidencia de que la información que hay no es suficiente para asignar un valor numérico concreto a estos `tbd`.

Este enfoque es útil por varias razones:

- **Mantiene la Integridad de los Datos**: Al reemplazar `tbd` con NaN, se mantiene la naturaleza numérica de la columna `user_score`, lo cual es importante para el análisis estadístico y las operaciones matemáticas.

- **Evita la Introducción de Sesgos**: Imputar `tbd` con un valor arbitrario (como 0 o el promedio) podría introducir sesgos en el análisis, especialmente si no hay una base sólida para esa imputación.

- **Facilita el Análisis Posterior**: Tratar con NaN es más sencillo en pandas y Python en general. Se puede decidir más tarde cómo manejar estos NaN (por ejemplo, imputación, eliminación, etc.) basándote en el contexto del análisis.

- **Claridad en el Análisis**: Al convertir `tbd` en NaN, queda claro para cualquier persona que revise este análisis que estos valores eran indeterminados en el conjunto de datos original.


### `year_of_release`

El tipo de datos de `year_of_release` aparece como tipo `float` cuando este debiese ser de tipo `int`. Surgen dos opciones para tratar estos datos; la primera, es quitar los `NaN` y hacer el casteo y la segunda, es reemplazar el valor NaN por un valor representativo, en este caso puede ser el valor que más se repite o la media de estos.

**Primero**
Veamos cuántos datos dentro de la columna `year_of_release` aparecen con NaN


In [15]:
# Calcular el ratio de valores NaN en la columna 'year_of_release'
ratio = len(df_games[df_games['year_of_release'].isna()]
            ) / len(df_games['year_of_release'])

# Imprimir el porcentaje con dos decimales
print(f"{ratio * 100:.2f}%")

1.61%
