# Proyecto integrado

## Descripcion del proyecto

Trabajas para la tienda online Ice que vende videojuegos por todo el mundo. Las reseñas de usuarios y expertos, los géneros, las plataformas (por ejemplo, Xbox o PlayStation) y los datos históricos sobre las ventas de juegos están disponibles en fuentes abiertas. Tienes que identificar patrones que determinen si un juego tiene éxito o no. Esto te permitirá detectar proyectos prometedores y planificar campañas publicitarias.


Delante de ti hay datos que se remontan a 2016. Imaginemos que es diciembre de 2016 y estás planeando una campaña para 2017.
(Lo importante es adquirir experiencia de trabajo con datos. Realmente no importa si estás pronosticando las ventas de 2017 en función de los datos de 2016 o las ventas de 2027 en función de los datos de 2026.)


El dataset contiene la abreviatura ESRB. The Entertainment Software Rating Board (la Junta de clasificación de software de entretenimiento) evalúa el contenido de un juego y asigna una clasificación de edad como Adolescente o Adulto.


## Instrucciones para completar el proyecto


### Paso 1. Abre el archivo de datos y estudia la informacion general

In [None]:
# Cargar todas las librerías
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import HTML

#abrir archivos

df = pd.read_csv('datasets/games.csv')

df.info()

display(HTML('<hr>'))

display(df.head(15))

display(HTML('<hr>'))

df.describe()


### Paso 2. Prepara los datos


- Reemplaza los nombres de las columnas (ponlos en minúsculas).
- Convierte los datos en los tipos necesarios.
- Describe las columnas en las que los tipos de datos han sido cambiados y explica por qué.
- Si es necesario, elige la manera de tratar los valores ausentes:
    - Explica por qué rellenaste los valores ausentes como lo hiciste o por qué decidiste dejarlos en blanco.
    - ¿Por qué crees que los valores están ausentes? Brinda explicaciones posibles.
    - Presta atención a la abreviatura TBD: significa "to be determined" (a determinar). Especifica cómo piensas manejar estos casos.
- Calcula las ventas totales (la suma de las ventas en todas las regiones) para cada juego y coloca estos valores en una columna separada.

In [None]:
#Reemplazar nombres de columnas

df.columns = df.columns.str.lower()
    
print(df.columns)

In [None]:
#comprobacion de nulos 
print(df.isna().sum())

#comprobacion de duplicados 
print("Duplicados" , df.duplicated().sum())

In [None]:
#Eliminar valores nulos en name y genre
df = df.dropna(subset=['name', 'genre'])

#Convertir 'year_of_release' a int y manejar valores nulos para eliminar .0 y pasar a string

df['year_of_release'] = df['year_of_release'].fillna(0).astype(int)
#df['year_of_release'] = df['year_of_release'].replace(0, 'Unknown').astype(str)



#comprobacion de nulos     
print(df.isna().sum())


In [None]:
#convertir calificacion a float
df['user_score'] = pd.to_numeric(df['user_score'],errors='coerce')

#reemplazar valores en Rating
df['rating'] = df['rating'].fillna('TBD')

#comprobacion de nulos
display('Comprobacion de nulos')
print(df.isna().sum())
display(HTML('<hr>'))
display('comprobacion de tipos de datos')
print(df.dtypes)



In [None]:
#Calcular ventas totales
#sumar columnas en una nueva

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales'] + df['other_sales']

display(df.head(15))

#### Conclusion paso 2


#### Cambios
Se cambio el tipo de datos de la columna: "year_of_release" de float a int. Este cambio a int se hizo ya que los datos presentaban un punto decimal que en este tipo de datos no tienen razon de ser, se opto manejarlo como tipo entero asi podemos tener la facilidad de realizar comparaciones numericas sobre estos datos que representan el año lanzamiento para poder realizar filtros en operaciones posteriores.

Se cambio los datos de la columna user_score de object a float, Este cambio se hizo para poder trabajar los datos en operaciones matematicas mas adelante, se modifico la cadena tbd a nan ya que esto no nos daba informacion y simplemente iba a entorpecer al momento de hacer operaciones matematicas.

#### Valores nulos

Los valores nulos en las columnas: "critic_score", y "user_score" se matuvieron intactos ya que debido a lo que representan estos datos, modificarlos podria alterar demasiado los resultados en operaciones como el promedio, por ello se opto mejor por simplemente no utilizarlos al momento de hacer este tipo de operaciones.

En las columnas: "name y genre" se eliminaron los datos nulos ya que estos eran muy pocos y no alterarian demasiado los resultados en otras operaciones. Para la columna rating se opto por marcar los datos faltantes con las siglas TBD ya que no podemos tomarlos la libertad de descartarlos ya que eliminar estas filas compromete el resultado en otras operaciones. 

En la columna year of release los valores nulos se reemplazaron por la cadena "Unknown"

#### Suma de total de ventas

Se agrego una nueva columna que representa el total de ventas sumando los datos de las columnas: "na_sales, eu_sales, jp_sales y other_sales" 



### Paso 3. Analiza los datos




- Mira cuántos juegos fueron lanzados en diferentes años. ¿Son significativos los datos de cada período?
- Observa cómo varían las ventas de una plataforma a otra. Elige las plataformas con las mayores ventas totales y construye una distribución basada en los datos de cada año. Busca las plataformas que solían ser populares pero que ahora no tienen ventas. ¿Cuánto tardan generalmente las nuevas plataformas en aparecer y las antiguas en desaparecer?
- Determina para qué período debes tomar datos. Para hacerlo mira tus respuestas a las preguntas anteriores. Los datos deberían permitirte construir un modelo para 2017.
- Trabaja solo con los datos que consideras relevantes. Ignora los datos de años anteriores.
- ¿Qué plataformas son líderes en ventas? ¿Cuáles crecen y cuáles se reducen? Elige varias plataformas potencialmente rentables.
- Crea un diagrama de caja para las ventas globales de todos los juegos, desglosados por plataforma. ¿Son significativas las diferencias en las ventas? - ¿Qué sucede con las ventas promedio en varias plataformas? Describe tus hallazgos.
- Mira cómo las reseñas de usuarios y profesionales afectan las ventas de una plataforma popular (tu elección). Crea un gráfico de dispersión y calcula la correlación entre las reseñas y las ventas. Saca conclusiones.
- Teniendo en cuenta tus conclusiones compara las ventas de los mismos juegos en otras plataformas.
- Echa un vistazo a la distribución general de los juegos por género. ¿Qué se puede decir de los géneros más rentables? ¿Puedes generalizar acerca de los géneros con ventas altas y bajas?

#### Juegos lanzados por año

In [None]:
#Numero de juegos por año
filtered_df = df[df['year_of_release'] != 0 ]
games_per_year = filtered_df.groupby(['year_of_release']).size().reset_index(name='games_count')

#grafico de barras 
sns.set(style='whitegrid')
plt.figure(figsize=(14, 6))
bars = sns.barplot(x=games_per_year['year_of_release'], y=games_per_year['games_count'].values, color='skyblue')
plt.xlabel('Año de Lanzamiento')
plt.ylabel('Cantidad de Juegos')
plt.title('Juegos lanzados por año')
bars.set_xticklabels(bars.get_xticklabels(), rotation=65, horizontalalignment='right')

# Mostrar el gráfico
plt.show()
#Mostrar tabla
#display(games_per_year)

##### Conclusion grafico de barras

La finalidad de este grafico es mostrar una comparacion sobre cuantos juegos han salido en un año con respecto a otros. Al realizar este analisis observamos que de desde los 80 a los 90 la cantidad del juegos lanzados no supera a los 100 juegos, esto podria signicar que el mercado de videojuegos aun era muy selecto y enfocado, a partir de 1994 se observa un cambio significativo con un aumento en la salida de videojuegosm este aumento siguio en los años posteriores. Para 2002 casi se duplica la cantidad de videojuegos y fue en aumento hasta llegar a 2008 que es el año en el que mas videojuegos fueron lanzados y de ahi fue disminuyendo de forma que para en 2016 ya es menos de la mitad de lo que alcanzo este año.

Este aumento en el grafico podria indicar varias cosas, la primera es que los primeros años la industria del videojuego era todavia poco conocida y se consideraba mas selecta, conforme pasa el tiempo fue ganando popularidad haciendo que la cantidad de videojuegos lanzados fuera aumentando de forma drastica en años posteriores. Tambien observamos que si bien hay años que despues disminuyen el numero de lanzamientos de videojuegos pudiera significar mas que esta industria se continua estabilizando ya que podemos ver que se sigue manteniendo una buena cantidad de videojuegos.


#### Ventas por plataforma

### Paso 4. Crea un perfil de usuario para cada región

Para cada región (NA, UE, JP) determina:
- Las cinco plataformas principales. Describe las variaciones en sus cuotas de mercado de una región a otra.
- Los cinco géneros principales. Explica la diferencia.
- Si las clasificaciones de ESRB afectan a las ventas en regiones individuales.

### Paso 5. Prueba las siguientes hipótesis:


- Las calificaciones promedio de los usuarios para las plataformas Xbox One y PC son las mismas.
- Las calificaciones promedio de los usuarios para los géneros de Acción y Deportes son diferentes.
Establece tu mismo el valor de umbral alfa.

Explica:
- Cómo formulaste las hipótesis nula y alternativa.
- Qué criterio utilizaste para probar las hipótesis y por qué.

### Paso 6. Escribe una conclusión general

Formato: Completa la tarea en Jupyter Notebook. Inserta el código de programación en las celdas code y las explicaciones de texto en las celdas markdown. Aplica formato y agrega encabezados.