# Proyecto integrado

¡Enhorabuena! Has completado oficialmente la primera parte del curso en la plataforma interactiva. Llegó la hora de reunir todo lo que has aprendido hasta el momento en tu primer proyecto integrado, un estudio de caso analítico de la vida real.
Este proyecto englobará todas las habilidades que has adquirido hasta ahora:

Cuando finalices el proyecto envía tu trabajo al revisor de proyecto para su evaluación. Te dará su opinión en 48 horas. Utiliza los comentarios para realizar cambios y luego envía la nueva versión al revisor del proyecto.

Puede que recibas aún más feedback en la nueva versión. Esto es totalmente normal. Es común pasar por varios ciclos de comentarios y revisiones.
Tu proyecto se considerará completado una vez que el revisor del proyecto lo apruebe.

## Descripción del proyecto

Trabajas para la tienda online Ice que vende videojuegos por todo el mundo. Las reseñas de usuarios y expertos, los géneros, las plataformas (por ejemplo, Xbox o PlayStation) y los datos históricos sobre las ventas de juegos están disponibles en fuentes abiertas. Tienes que identificar patrones que determinen si un juego tiene éxito o no. Esto te permitirá detectar proyectos prometedores y planificar campañas publicitarias.

Delante de ti hay datos que se remontan a 2016. Imaginemos que es diciembre de 2016 y estás planeando una campaña para 2017.
Lo importante es adquirir experiencia de trabajo con datos. Realmente no importa si estás pronosticando las ventas de 2017 en función de los datos de 2016 o las ventas de 2027 en función de los datos de 2026.

El dataset contiene una columna "rating" que almacena la clasificación ESRB de cada juego. El Entertainment Software Rating Board (la Junta de clasificación de software de entretenimiento) evalúa el contenido de un juego y asigna una clasificación de edad como Adolescente o Adulto.

## Instrucciones para completar el proyecto

# Paso 1. Abre el archivo de datos y estudia la información general 

Ruta de archivo: /datasets/games.csv . Descarga el dataset

## 1.1 Inicialización <a id='kickoff'></a>

In [1]:
# Cargar todas las librerías
import pandas as pd
import numpy as np
# from matplotlib import pyplot as plt
# from scipy import stats as st
# import seaborn as sns
# import math

## 1.2 Cargar datos     <a id='dataload'></a>

In [2]:
# Cargamos el archivo de datos en un DataFrame
df_games = pd.read_csv(r'C:\Users\aldot\OneDrive\TripleTen_DS\Sprint 6_Proyecto del Módulo 1\Proyecto SP6\games.csv')

## 1.3 Revisar los datos <a id='data_preprocessing'></a>

In [3]:
# Imprimimos la información general/resumida sobre el DataFrame
df_games.info()
print(df_games.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB
       Year_of_Release      NA_sales      EU_sales      JP_sales  \
count     16446.000000  16715.000000  16715.000000  16715.000000   
mean       2006.484616      0.263377      0.145060      0.077617   
std           5.877050      0.813604 

In [4]:
# Imprimimos una muestra de los datos sobre los videojuegos
df_games.head(10)

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


El Dataframe contiene 11 columnas, las cuales contienen la siguiente información:

- `'Name'`: título o nombre del videojuego;
- `'Platform'`: plataforma o consola en la que fué lanzado originalmente;
- `'Year_of_Release'`: año en el que fué lanzado;
- `'Genre'`: género que clasifica al videojuego;
- `'NA_sales'`: ventas en Norte América;
- `'EU_sales'`: ventas sólo en Estados Unidos;
- `'JP_sales'`: ventas en Japón;
- `'Other_sales'`: ventas en otros países;
- `'Critic_Score'`: puntaje de la crítica pública;
- `'User_Score'`: puntaje del usuario;
- `'Rating'`: rating o clasificación del videojuego.

Podemos ver dos principales problemas con el estilo en los encabezados de la tabla:
1. Los encabezados tienen la primer letra en mayúscula.
2. Los nombres de las columnas no son muy descriptivos, falta claridad.

## 1.4 Descripción de los datos

El dataframe llamado df_games contiene un total de 16,715 líneas o entradas y 10 columnas llamadas 1.- Plataforma, 2.- Año de Publicación, 3.- Genero, 4.- Ventas Norte América, 5.- Ventas EEUU, 6.- Ventas Japón, 7.- Ventas Otros Paises, 9.- Evaluación Crítica, 9.- Evaluación Usuario y 10.- Rating.

Se tienen diferentes Dtypes entre ellos de tipo object y float64, valores descriptivos para los nombres de los videojuegos, la plataforma a la que pertenecen, el genero del juego; para la información de las ventas en los diferentes paises, la información es de tipo float64, lo que nos indica que son datos de recaudación de ventas, supondremos que son en USD $.

De primera vista, se nota que los Dtypes se deben corregir para homologar la información; es decir, el Año de Publicación es de tipo float64 cuando debería ser objetct al ser descriptivo ya que no se harán operaciones aritmeticas con esta información. Otra columna que debe corregirse el Dtype es la Evaluación de la Crítica, actualmente es de tipo float64.

4.- Buscar datos ausentes y duplicados, revisarlos para ver de qué manera solucionarlos.
Se tendrán que buscar valores ausentes, de primera vista se nota que en las últimas tres columnas (Evaluación Crítica, Evaluación de Usuario y Rating) se tienen valores ausentes (NAN Not a number), tendrán que ser evaluados para sustituirlos. Así mismo, se tendrán que buscar valores duplicados y revisarlos para ver si no afectan al análisis o eliminarlos.

Por lo que no hay algunos detalles que corregir en el Dataframe.

# Paso 2. Prepara los datos

Reemplaza los nombres de las columnas (ponlos en minúsculas).
Convierte los datos en los tipos necesarios.
Describe las columnas en las que los tipos de datos han sido cambiados y explica por qué.
Si es necesario, elige la manera de tratar los valores ausentes:
Explica por qué rellenaste los valores ausentes como lo hiciste o por qué decidiste dejarlos en blanco.
¿Por qué crees que los valores están ausentes? Brinda explicaciones posibles.
Presta atención a la abreviatura TBD: significa "to be determined" (a determinar). Especifica cómo piensas manejar estos casos.
Calcula las ventas totales (la suma de las ventas en todas las regiones) para cada juego y coloca estos valores en una columna separada.

## 2.1 Corregir datos <a id='fees_wrangling'></a>

### Nombres de columnas
Reemplaza los nombres de las columnas (ponlos en minúsculas).

In [5]:
# Vamos a modificar los nombres de las columnas para que cumplan con el Snake Case
print(df_games.columns)

Index(['Name', 'Platform', 'Year_of_Release', 'Genre', 'NA_sales', 'EU_sales',
       'JP_sales', 'Other_sales', 'Critic_Score', 'User_Score', 'Rating'],
      dtype='object')


In [6]:
# Bucle en los encabezados poniendo todo en minúsculas
new_col_names = []

for col in df_games.columns:
    name_lowered = col.lower()
    new_col_names.append(name_lowered)

df_games.columns = new_col_names

print(df_games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


Convierte los datos en los tipos necesarios.

In [7]:
# Vamos a cambiar el Dtype en la columna de Año de Pubilcación
df_games['year_of_release'] = df_games['year_of_release'].astype('object')
df_games['user_score'] = pd.to_numeric(df_games['user_score'], errors='coerce')

# Revisamos nuevamente los Dtypes
df_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16715 non-null  object 
 2   year_of_release  16446 non-null  object 
 3   genre            16713 non-null  object 
 4   na_sales         16715 non-null  float64
 5   eu_sales         16715 non-null  float64
 6   jp_sales         16715 non-null  float64
 7   other_sales      16715 non-null  float64
 8   critic_score     8137 non-null   float64
 9   user_score       7590 non-null   float64
 10  rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


Describe las columnas en las que los tipos de datos han sido cambiados y explica por qué.

- `'year_of_release'`: año en el que fué lanzado;   <- Se cambió el dtype de 'float64' a tipo 'object' debido a que es un dato descriptivo y no numérico.
- `'user_score'`: puntaje del usuario;              <- Se cambió el dtype de 'object' a tipo 'float64' debido a que es un dato numérico.

### Valores ausentes y duplicados

In [8]:
# Buscamos si hay valores ausentes y/o duplicados
print('Valores ausentes: ',df_games.isna().sum())      # Valores ausentes
print()
print('Valores duplicados: ', df_games.duplicated().sum()) # Verificamos si hay

Valores ausentes:  name                  2
platform              0
year_of_release     269
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8578
user_score         9125
rating             6766
dtype: int64

Valores duplicados:  0


In [9]:
# Rellenamos los nombres ausentes por la palabra "unknown"
df_games['name'] = df_games['name'].fillna('unknown')
print(df_games['name'])

0                           Wii Sports
1                    Super Mario Bros.
2                       Mario Kart Wii
3                    Wii Sports Resort
4             Pokemon Red/Pokemon Blue
                     ...              
16710    Samurai Warriors: Sanada Maru
16711                 LMA Manager 2007
16712          Haitaka no Psychedelica
16713                 Spirits & Spells
16714              Winning Post 8 2016
Name: name, Length: 16715, dtype: object


In [10]:
# Rellenamos los valores ausentes en la columna de Año de publicación
df_games['year_of_release'] = df_games['year_of_release'].fillna(0).astype('object')
print(df_games['year_of_release'])

0        2006.0
1        1985.0
2        2008.0
3        2009.0
4        1996.0
          ...  
16710    2016.0
16711    2006.0
16712    2016.0
16713    2003.0
16714    2016.0
Name: year_of_release, Length: 16715, dtype: object


  df_games['year_of_release'] = df_games['year_of_release'].fillna(0).astype('object')


In [11]:
# Rellenamos los nombres ausentes por la palabra "unknown"
df_games['genre'] = df_games['genre'].fillna('unknown')
print(df_games['genre'])

0              Sports
1            Platform
2              Racing
3              Sports
4        Role-Playing
             ...     
16710          Action
16711          Sports
16712       Adventure
16713        Platform
16714      Simulation
Name: genre, Length: 16715, dtype: object


Si es necesario, elige la manera de tratar los valores ausentes:
Explica por qué rellenaste los valores ausentes como lo hiciste o por qué decidiste dejarlos en blanco.
¿Por qué crees que los valores están ausentes? Brinda explicaciones posibles.