# Análisis de las ventas mundiales de videojuegos
 **Equipo 5**
- Luis David Dávila Torres
- Josue Alonso Salazar Serrato

## Índice   
1. [Objetivo](#id1)
2. [Preguntas de interés](#id2)
3. [Introducción](#id3)
4. [Procesando los datos](#id4)
    1. [Visualización de los datos](#id4.1)
    2. [Tipos de Datos](#id4.2)
    3. [Datos Nulos](#id4.3)
    4. [Limpieza](#id4.4)
5. [Datos Procesados](#id5)
6. [Descripción estadística](#id6)


## Objetivo <a name="id1"></a>
Construir un modelo que pueda predecir las ventas de videojuegos en función de otras características del conjunto de datos de las ventas de videojuegos.


## Preguntas de interés<a name="id2"></a>

1.	¿Cuál sería la venta esperada de cierto videojuego con ciertas características si se lanza al mercado por zona específica o en forma global?
2.	Como gerente de una de las compañías de consolas, ¿me convendría invertir en una desarrolladora exclusiva enfocada en un mercado para poder generar ingresos en un mercado nuevo, conociendo ya las preferencias de género que existen?

## Introducción<a name="id3"></a>
La base de datos está orientada a las ventas mundiales en distintas regiones de videojuegos, esta información es bastante útil para generar una predicción o estimación para el lanzamiento de un videojuego con ciertas características en las distintas regiones correspondientes, también puede ayudar en base a las ventas en distintas regiones a saber el impacto de cierto videojuego y si convendría o no su lanzamiento en dada región debido a su volumen de venta y crítica. 


## Procesando los datos<a name="id4"></a>

Importar las librerías.

In [23]:
import pandas as pd 
import numpy as np
import matplotlib as plt
import matplotlib.pyplot as plt
%matplotlib inline

Cargar el archivo con la información de nuestra base.

In [73]:
#SALES = pd.read_csv("C:/Users/jos/josue/Mineria_de_Datos/Avance PIA/BASE USAR.csv", index_col=0) #josue
SALES = pd.read_csv("C:/Users/david/Mineria Datos/josue/Mineria_de_Datos/Avance PIA/BASE USAR.csv") # David 
Data=pd.DataFrame(SALES)

**Visualización de los datos**<a name="id4.1"></a>

In [74]:
Data.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,,,,,,
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,,,,,,


Visualizamos los primeros 5 registros de la base de datos donde vemos algunos datos nulos (NaN), asi como columnas que no necesitaremos y nombres de de columnas en inglés que pasaremos a ajustar posteriormente para una mejor comprension.

Cantidad de registros y variables o columnas.

In [75]:
Data.shape

(16719, 16)

Obtenemos un total de 16719 registros con 16 columnas o variables.

**Tipos de Datos** <a name="id4.2"></a>

Información necesaria para realizar los análisis y no exista problemas por no homogenización de los datos de cada columna

In [76]:
Data.dtypes

Name                object
Platform            object
Year_of_Release    float64
Genre               object
Publisher           object
NA_Sales           float64
EU_Sales           float64
JP_Sales           float64
Other_Sales        float64
Global_Sales       float64
Critic_Score       float64
Critic_Count       float64
User_Score          object
User_Count         float64
Developer           object
Rating              object
dtype: object

Tenemos datos float64 para numéricos y object para string o cadena de caracteres.




**Datos Nulos** <a name="id4.3"></a>

Se busca encontrar registros que puedan afectar al momento de realizar nuestros datos estadísticos o a la aplicación de los modelos a usar

In [77]:
Data.isnull().any()

Name                True
Platform           False
Year_of_Release     True
Genre               True
Publisher           True
NA_Sales           False
EU_Sales           False
JP_Sales           False
Other_Sales        False
Global_Sales       False
Critic_Score        True
Critic_Count        True
User_Score          True
User_Count          True
Developer           True
Rating              True
dtype: bool

Tenemos 6 Columnas sin datos nulos y 10 con datos nulos.

**Cantidad de Datos Nulos por Columna**

In [78]:
Data.isnull().sum()

Name                  2
Platform              0
Year_of_Release     269
Genre                 2
Publisher            54
NA_Sales              0
EU_Sales              0
JP_Sales              0
Other_Sales           0
Global_Sales          0
Critic_Score       8582
Critic_Count       8582
User_Score         6704
User_Count         9129
Developer          6623
Rating             6769
dtype: int64

Se encontró una cantidad muy grande de registros nulos por lo que pasaremos a una limpieza

**Limpieza**<a name="id4.4"></a>

Primeramente renombramos las columnas que utilizaremos en nuestro análisis y guardamos en un nuevo data para evitar pérdida de datos de nuestra data original.

In [82]:
Data2=Data.rename(columns = {'Name':'Nombre','Platform':'Plataforma','Year_of_Release':'Lanzamiento','Genre':'Genero','NA_Sales':'V_NA',
                             'EU_Sales':'V_EU','JP_Sales':'V_JP','Other_Sales':'V_Otros','Global_Sales':'V_Global',
                             'Critic_Score':'Score','User_Score':'Score_Usuarios','Rating':'ESRB'})

Eliminando Columnas innecesarias
- Publisher

- Critic Count

- User Count

- Developer

- Score Usuarios    

In [83]:
Data3=Data2.drop(['Publisher','Critic_Count', 'User_Count', 'Developer','Score_Usuarios'],axis=1)

Eliminando los registros con datos nulos en nuestra base.

In [84]:
Data4 = Data3.dropna(axis=0) 

Se arregla el tipo de dato del año dejandolo como entero

In [86]:
Data4['Lanzamiento'] = Data4['Lanzamiento'].astype(np.int64)

## Datos Procesados <a name="id5"></a>

In [87]:
Data4.head()

Unnamed: 0,Nombre,Plataforma,Lanzamiento,Genero,V_NA,V_EU,V_JP,V_Otros,V_Global,Score,ESRB
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,82.53,76.0,E
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,35.52,82.0,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,32.77,80.0,E
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,29.8,89.0,E
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,28.92,58.0,E


In [90]:
Data4.shape

(7902, 11)

Después de realizar toda la limpieza nos da un resultado de 7902 Registros y 11 Columnas listos para realizar nuestros análisis .

## Descripción estadística <a name="id6"></a>

Dado que algunos juegos se venden en distintas plataformas es importante saber exactamente
cuantos juegos en realidad analisaremos para esto, se emplea la siguiente linea. Ademas tambien nos importa el numero de plataformas de videojuegos, 

In [122]:
len(Data4['Nombre'].unique())
len(Data4['Plataforma'].unique())

In [118]:


Data4['Score'].describe()
Data4['Score'].min()
Data4['Nombre'][Data4['Score'].min()]
Data4[Data4['Nombre']=='Ride to Hell']
Data4['Lanzamiento'].unique()



#Data4[Data4['Nombre']=='Wii Fit']
#Data4['Nombre']=='Wii Fit'

#Data4['Genero'].describe()
#Data4['Plataforma'].describe()
#Data4['V_Global'].describe()
#Data4['Score_Usuarios'].unique


4975