# Análisis estadistico a videojuegos
En el presente notebook se desea hacer un análisis estadistico a una base de datos basada en videojuegos, más especificamente a *'vgsales.csv'*, se calcularán estimadores como media, desviación estandar, coeficiente de fisher, kurtosis etc.

Además se pretende realizar una prueba de independencia entre 2 variables de la base de datos a tratar implementando la distribución Chi-cuadrada. 

Finalmente se escogerán 2 variables de la base de datos a las cuales se les calculará una probabilidad conjunta, una condicional y una marginal

In [None]:
"""
Análisis estadístico sobre datos de venta de videojuegos 

Eduardo Martínez Cód. 1004682865
María Fernanda Noreña Cód. 1004735407
Daniel Zapata Yarce Cód. 1004965048

Estadística y Probabilidad - Julio de 2021
Universidad Tecnológica de Pereira
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency
# Se limpia la base de datos
data = pd.read_csv("/kaggle/input/videogamesales/vgsales.csv")   # Se cargan los datos
data = data.dropna()                                             # Se eliminan los missingdata
indexNames = data[data['Publisher'] == 'Unknown'].index          # Se buscan los index de los valores'Unknown' en la columna Publisher
data.drop(indexNames, inplace=True)                              # Se eliminan los index de los valores 'Unknown'
data = data.reset_index(drop=True)                               # Se reestablecen los index
data.describe()                                                  # Se imprime una tabla donde se describe brevemente el comportamiento de los datos

**Cálculo de estimadores**

En próxima celda se calculan estimadores como media, desviación estandar, coeficiente de fisher, coeficiente de curtosis y correlación para todas las variables

In [None]:
mean = data.mean()   # Se calcula la media para todos los valores numericos
std = data.std()     # Se calcula la desviacion estandar para todos los valores numericos
coef_fish = data.skew()     # Se calcula el coeficiente de asimetria de Fisher
kurt = data.kurt()          # Se calcula el coeficiente de curtosis
corr = data.corr(method='spearman')    # Se calcula la correlacion de los datos

"""
Coeficiente de asimetria de Fisher calculado mediante for
"""
# coef = 0
# for i in range(len(data)):
#     coef = (((data.Other_Sales.loc[i]-mean.Other_Sales)**3)/(len(data)*(std.Other_Sales)**3))+coef

nintendo = data.loc[data.Publisher == 'Nintendo']

data.groupby('Genre')['JP_Sales'].sum().plot(kind='bar')

plt.ylabel('Ventas globales')
plt.title('Generos de nintendo')
plt.legend()

**Cálculo de independencia con Chi-cuadrado**

En la celda de abajo se calcula la independencia con la distribución Chi-cuadrado

In [None]:
contigency = pd.crosstab(data['EU_Sales'], data['NA_Sales'])    # Se crea una tabla de contingencia entre ambas variables
# Chi-square test of independence. 
c, p, dof, expected = chi2_contingency(contigency)              # Se calcula la distribución Chi-cuadrado con base a la tabla de contingencia
# # Print the p-value
print(c)

**Cálculo de probabilidad conjunta, condicional y marginal**

A continuación se calcularán una probabilidad conjunta, una probabilidad condicional y una probabilidad marginal

In [None]:
n_datos = len(data)                                     # Total de datos 
marg_gen = data.Genre.value_counts()/n_datos            # Se calcula las marginales para todos los valores de la variable Genre       

#Probabilidad conjunta
prob_conj = len(data.loc[(data.Genre == 'Platform') & (data.Publisher == 'Nintendo')])/n_datos    # Probabilidad de que un juego sea de nintendo y de plataforma (Se calcula la probabilidad conjunta/)
# Probabilidad condicional
prob_cond = prob_conj/marg_gen['Platform']     # Probabilidad de que un juego sea de nintendo dado que es de plataforma (Se calcula la probabilidad conjunta/)
prob_nint = len(nintendo)/n_datos      # Probabilidad de que un juego sea de nintendo
bayes = (prob_cond*marg_gen['Platform'])/prob_nint    # Probabilidad de que un juego sea de nintendo dado que es de plataforma

In [None]:
c