In [50]:
from sklearn.preprocessing import LabelEncoder

In [51]:
import pandas as pd
import numpy as np

vgSalesOriginal = pd.read_csv("vgsales.csv",encoding='utf8')
vgSalesOriginal

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Platform,Kemco,0.01,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003.0,Shooter,Infogrames,0.01,0.00,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008.0,Racing,Activision,0.00,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,2010.0,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01


* Columnas nulas

In [52]:
vgSalesOriginal.isnull().sum()

Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

* Se eliminan los registros ya que sin año y desarrolladora, no sirven para el objetivo

In [53]:
vgSalesOriginal = vgSalesOriginal.dropna()
vgSalesOriginal.isnull().sum()

Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

# Modelo de Regresion Lineal

In [54]:
categorical_labels = ['Platform', 'Genre', 'Publisher']
numerical_lables = ['Global_Sales']
enc = LabelEncoder()
encoded_df = pd.DataFrame(columns=['Platform', 'Genre', 'Publisher', 'Global_Sales'])
encoded_df

Unnamed: 0,Platform,Genre,Publisher,Global_Sales


In [55]:
for label in categorical_labels:
    temp_column = vgSalesOriginal[label]    
    encoded_temp_col = enc.fit_transform(temp_column)

    encoded_df[label] = encoded_temp_col
encoded_df

Unnamed: 0,Platform,Genre,Publisher,Global_Sales
0,26,10,359,
1,11,4,359,
2,26,6,359,
3,26,10,359,
4,5,7,359,
...,...,...,...,...
16286,6,4,269,
16287,7,8,241,
16288,16,6,21,
16289,4,5,8,


In [56]:
for label in numerical_lables:
    encoded_df[label] = vgSalesOriginal[label].values

encoded_df.head()

Unnamed: 0,Platform,Genre,Publisher,Global_Sales
0,26,10,359,82.74
1,11,4,359,40.24
2,26,6,359,35.82
3,26,10,359,33.0
4,5,7,359,31.37


## Las métricas MSE, MAE, RMSE y R-Squared se utilizan principalmente para evaluar las tasas de error de predicción y el rendimiento del modelo en el análisis de regresión.

* **MAE (Mean absolute error):** representa la diferencia entre los valores originales y predichos extraídos por el promedio de la diferencia absoluta sobre el conjunto de datos.
* **MSE (Mean Squared Error):** representa la diferencia entre los valores originales y predichos extraídos por la diferencia promedio al cuadrado sobre el conjunto de datos.
* **RMSE (Root Mean Squared Error):** es la tasa de error por la raíz cuadrada de MSE.
* **R-squared (Coefficient of determination):** representa el coeficiente de qué tan bien se ajustan los valores en comparación con los valores originales. El valor de 0 a 1 interpretado como porcentajes. Cuanto mayor sea el valor, mejor será el modelo.

# Cross Validation en Machine Learning


En Machine Learning, no podemos ajustar el modelo a los datos de entrenamiento y no podemos decir que el modelo funcionará con precisión para los datos reales. Para esto, debemos asegurarnos de que nuestro modelo obtuvo los patrones correctos de los datos y no genera demasiado ruido. Para ello utilizamos la técnica de **Cross Validation**.


**Cross Validation** es una técnica en la que entrenamos nuestro modelo usando un subconjunto del conjunto de datos y luego lo evaluamos usando el subconjunto complementario del conjunto de datos.

# Regresion sin Cross Validation

In [57]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score, cross_val_predict
from sklearn.model_selection import train_test_split

In [58]:
x = encoded_df.iloc[:, 0:3]
y = encoded_df.iloc[:,3:]

scalar = StandardScaler()

x = scalar.fit_transform(x)

linear_reg = LinearRegression()

linear_reg.fit(x, y)

y_pred = linear_reg.predict(x)

r2 = r2_score(y, y_pred)

print('\nRegresion sin Cross Validation:')

print(f'MAE en $ (Milliones): {mean_absolute_error(y_pred, y)}')

print(f'MSE en $ (Milliones): {mean_squared_error(y_pred, y)}')

print(f'R2 Coeff: {r2}')

y_pred


Regresion sin Cross Validation:
MAE en $ (Milliones): 0.5935662579079346
MSE en $ (Milliones): 2.4522866697615524
R2 Coeff: 0.0016818555165935


array([[0.65389802],
       [0.51971708],
       [0.61632371],
       ...,
       [0.50140711],
       [0.42733346],
       [0.52827973]])


**El MAE aquí indica en qué tan lejos estoy de la respuesta correcta si 1 es igual a 1 millón en ventas.**

# Regresion con Cross Validation

In [59]:
linear_reg = LinearRegression()

y_pred = cross_val_predict(linear_reg, x, y, cv=5)

r2 = r2_score(y, y_pred)

print(f'MAE en ventas (Millions): {mean_absolute_error(y_pred, y)}')

print(f'MSE en ventas (Millions): {mean_squared_error(y_pred, y)}')

print(f'R2 Coeff: {r2}')

MAE en ventas (Millions): 0.7429028707389985
MSE en ventas (Millions): 2.775671050033238
R2 Coeff: -0.12996690253791932


# Ridge Regression con Cross Validation

In [60]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

In [61]:
x = scalar.fit_transform(x)

ridge = Ridge()

grid = GridSearchCV(ridge, param_grid={'alpha':range(0,10)}, refit=True)

y_pred = cross_val_predict(grid, x,y, cv=5)

r2 = r2_score(y, y_pred)

print(f'MAE en ventas (Millions): {mean_absolute_error(y_pred, y)}')

print(f'MSE en ventas (Millions): {mean_squared_error(y_pred, y)}')

print(f'R2 Coeff: {r2}')

MAE en ventas (Millions): 0.74290436630769
MSE en ventas (Millions): 2.7756721649564478
R2 Coeff: -0.12996735641963042


# Lasso Regression con Cross Validation

In [62]:
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV

In [63]:
lasso = Lasso()

grid = GridSearchCV(lasso, param_grid={'alpha': range(1, 10)}, refit=True)

y_pred = cross_val_predict(grid, x, y, cv=5)

r2 = r2_score(y, y_pred)

print(f'MAE en ventas (Millions): {mean_absolute_error(y_pred, y)}')

print(f'MSE en ventas (Millions): {mean_squared_error(y_pred, y)}')

print(f'R2 Coeff: {r2}')

MAE en ventas (Millions): 0.7424624839171002
MSE en ventas (Millions): 2.775333953596747
R2 Coeff: -0.12982967164516146


**Se ejecuta el modelo a través de 10 pruebas diferentes para ver cuánto varían los resultados del modelo.**

In [64]:
def linear_regression_lasso_model(x, y, scalar):
    x_train, x_test, y_train, y_test = train_test_split(x, y)

    x_train = scalar.fit_transform(x_train)
    x_test = scalar.transform(x_test)

    lasso = Lasso(alpha=1)

    lasso.fit(x_train, y_train)

    y_pred = lasso.predict(x_test)

    return {'MAE': mean_absolute_error(y_test, y_pred),
            'MSE': mean_squared_error(y_test, y_pred)}

In [65]:
lasso_result_list = list()
for i in range(0,10):
    lasso_result_list.append(linear_regression_lasso_model(x,y,scalar))

mae = list()
mse = list()

for result in lasso_result_list:
    mae.append(result['MAE'])
    mse.append(result['MSE'])

print(f'MAE en ventas (Millions): {np.mean(mae)}')
print(f'MSE en ventas (Millions): {np.mean(mse)}')
print('\nPruebas:')

for counter in range(0,len(lasso_result_list)):
    print(f'Prueba {counter+1}:\n\tMAE: {mae[counter]}\n\tMSE: {mse[counter]}')

MAE en ventas (Millions): 0.6000918414897992
MSE en ventas (Millions): 2.653741415056485

Pruebas:
Prueba 1:
	MAE: 0.5914153735978244
	MSE: 2.000011422701066
Prueba 2:
	MAE: 0.6312037722756293
	MSE: 4.107850484673858
Prueba 3:
	MAE: 0.5859506243821577
	MSE: 1.9730404773166417
Prueba 4:
	MAE: 0.6109940671065384
	MSE: 3.932051855219809
Prueba 5:
	MAE: 0.6034690810292774
	MSE: 2.138455201648163
Prueba 6:
	MAE: 0.6148780580241338
	MSE: 2.496999663110123
Prueba 7:
	MAE: 0.5922835645524185
	MSE: 1.651494829583168
Prueba 8:
	MAE: 0.5901408442270035
	MSE: 3.2550941303274747
Prueba 9:
	MAE: 0.6001909914079507
	MSE: 2.015181843335506
Prueba 10:
	MAE: 0.5803920382950586
	MSE: 2.9672342426490412


# Conclusión de las pruebas
Al usar Cross Validation, se pude tener una buena idea de qué modelo funcionaría mejor. En este caso, Lasso Regression superó a los demas modelos. Cuando se trabajo contra el conjunto de datos de prueba, muy bien, con un promedio de MAE de alrededor de 580.000 ventas. Esto no es tan malo, considerando que la escala de Ventas Globales es de millones para este conjunto de datos.
