# Proyecto Integrador 1 - Análisis estadístico de datos

## Descripción
Este proyecto está basado en el supuesto de trabajar para una tienda online llamada "Ice" que vende videojuegos por todo el mundo. Trabajaremos con un dataset con el objetivo de identificar patrones que determinen si un juego tiene éxito o no.

### Estrategia
El proyecto lo dividiremos en las siguientes etapas:
1. Exploración del dataset
2. Preprocesamiento de los datos
3. Análisis de los datos
4. Segmentación de datos
5. Pruebas de hipótesis
6. Conclusión general



## 1. Exploración del dataset
En esta sección cargaremos el dataset al proyecto y estudiaremos la estructura general de los datos para familiarizarnos con los mismos.

In [1]:
# Cargamos las librerías
import pandas as pd


In [2]:
# Utilizamos un bloque try-except para incluir las dos rutas al archivo (ruta relativa en PC local y ruta relativa en el servidor de TripleTen)
try:
  games = pd.read_csv('./datasets/games.csv')
except:
  games = pd.read_csv('/datasets/games.csv')

In [3]:
# Mostramos la estructura del dataset con el método info(), describe() y visualizamos las primeras líneas con head().
games.info()
print()
print(games.describe()) # Mostramos los datos de las columnas numéricas
print()
print(games.describe(include='object')) # Exploramos el método describe en los campos con tipo de dato object

# Mostramos las primeras líneas del dataframe
games.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB

       Year_of_Release      NA_sales      EU_sales      JP_sales  \
count     16446.000000  16715.000000  16715.000000  16715.000000   
mean       2006.484616      0.263377      0.145060      0.077617   
std           5.877050      0.813604

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


### Observaciones
- En un primer vistazo observamos que tenemos 16715 filas y 11 columnas.
- Tenemos varias columnas con datos ausentes, en algunas columnas son muchos los datos ausentes.
- Tenemos también tipos de datos que no corresponden a lo que el nombre de la columna indica.

## 2. Preprocesamiento de los datos
En esta sección nos enfocaremos en buscar y corregir errores de presentación, valores duplicados y valores ausentes.

### 2.1 Errores de presentación
En la sección anterior identificamos rápidamente que los nombres de las columnas no siguen el formato preferido "snake_case". Vamos a corregirlos.

In [None]:
# Cambiar nombres de columnas al formato "snake_case"
new_col_names = []
for name in games.columns:
    name_lowered = name.lower()
    new_col_names.append(name_lowered)

games.columns = new_col_names
games.columns


### 2.2 Valores duplicados
En esta sección analizaremos si tenemos filas completas duplicadas o duplicados implícitos en las columnas 'name', 'platform' o 'genre'.

In [None]:
# Buscamos filas completas duplicadas
print('Filas completas duplicadas:', games.duplicated().sum())

In [None]:
# Buscamos duplicados implícitos en la columna 'name'
print('Super Mario' in games['name'])

### 2.3 Valores ausentes
En esta sección analizaremos los valores ausentes y determinaremos cómo manejarlos

In [None]:
print('Resumen de valores ausentes por columna') # Imprimimos un encabezado explicativo para nuestra tabla
print() # Imprimimos un salto de línea
print(games.isna().sum()) # Calcular el número de valores ausentes

In [None]:
# Analizamos los valores ausentes en la columna 'name'
print(games[games['name'].isna()])
# Eliminamos estas filas ya que no podemos hacer un buen análisis sin esta información
games = games.dropna(subset=['name'])

In [None]:
# Analizamos los valores ausentes en la columna 'year_of_release'
missing_year_of_release = games[games['year_of_release'].isna()]
print(missing_year_of_release.describe())
print(missing_year_of_release.head())