In [58]:
import pandas as pd
import numpy as np
import datetime
import math

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

from keras.models import Sequential
from keras.layers import Dense

df = pd.read_csv('C:\\Users\\Administrador\\Desktop\\Data Scientist\\Data Science\\Proyecto\\GitHub\\Proyecto_DataScience_Coder\\data\\df_reducido.csv')
print(df.dtypes)

priceUSD                  float64
size                      float64
sentbyaddress               int64
transactions                int64
mining_profitability      float64
sentinusd                 float64
transactionfees           float64
median_transaction_fee    float64
marketcap                   int64
transactionvalue          float64
mediantransactionvalue    float64
tweets                      int64
google_trends             float64
fee_to_reward             float64
activeaddresses             int64
top100cap                 float64
Year                        int64
Month                       int64
dtype: object


#### 1 - Generar una evaluación de modelos apropiados para el problema de interés

Siguiendo los pasos de la entrega anterior, se toman los datos *priceUSD* y *activeaddresses* para entrenar al modelo.

*nota: este paso se replica en los modelos para evitar errores de procesamiento.*

In [57]:
x = df['priceUSD']
y = df['activeaddresses']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size= 0.25, random_state=10000)


A continuación se implementa el modelo de redes neuronales (*model1*).

In [59]:
x = df['priceUSD']
y = df['activeaddresses']

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Paso1: entrenar el modelo.
model1 = Sequential()
model1.add(Dense(12, input_dim=1, activation='relu'))
model1.add(Dense(8, activation='relu'))
model1.add(Dense(1, activation='linear'))
model1.compile(loss='mean_squared_error', optimizer='adam')
model1.fit(X_train, y_train, epochs=100, batch_size=32, verbose=0)

# Paso2: Calcular el MSE y RMSE en el conjunto de entrenamiento.
y_train_pred = model1.predict(X_train)
mse_train = mean_squared_error(y_train, y_train_pred)
print('MSE en el conjunto de entrenamiento:', mse_train)
print('RMSE en el conjunto de entrenamiento:', math.sqrt(mse_train))

# Paso3: Calcular el MSE y RMSE en el conjunto de prueba.
y_test_pred = model1.predict(X_test)
mse_test = mean_squared_error(y_test, y_test_pred)
print('MSE en el conjunto de prueba:', mse_test)
print('RMSE en el conjunto de prueba:', math.sqrt(mse_test))

MSE en el conjunto de entrenamiento: 164821415732.80338
RMSE en el conjunto de entrenamiento: 405982.0386825055
MSE en el conjunto de prueba: 155298285153.46545
RMSE en el conjunto de prueba: 394079.03414602694


El error cuadrático medio (MSE) obtenido es significativamente alto, por lo cual el modelo aplicado no está aportando valor de análisis.

A continuación se implementa el modelo de regresión lineal (*model2*).

In [56]:
x = df[['priceUSD']]
y = df['activeaddresses']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=10000)

# Paso1: entrenar el modelo.
model = LinearRegression()
model.fit(x_train, y_train)

# Paso2: Calcular el MSE y RMSE en el conjunto de entrenamiento.
y_train_pred = model.predict(x_train)
mse_train = mean_squared_error(y_train, y_train_pred)
print('MSE en el conjunto de entrenamiento:', mse_train)
print('RMSE en el conjunto de entrenamiento:', math.sqrt(mse_train))

# Paso3: Calcular el MSE y RMSE en el conjunto de prueba.
y_test_pred = model.predict(x_test)
mse_test = mean_squared_error(y_test, y_test_pred)
print('MSE en el conjunto de prueba:', mse_test)
print('RMSE en el conjunto de prueba:', math.sqrt(mse_test))

MSE en el conjunto de entrenamiento: 33331073149.308895
RMSE en el conjunto de entrenamiento: 182567.9959612552
MSE en el conjunto de prueba: 28922636911.017258
RMSE en el conjunto de prueba: 170066.56611755662


En este caso, el resultado del MSE es menor al obtenido en el modelo de redes neuronales, por lo cual en principio el modelo de regresión líneal puede ser de mayor utilidad.

A continuación se implementa el modelo de regresión polinomial (*model3*).

In [52]:
from sklearn.preprocessing import PolynomialFeatures

x = df[['priceUSD']]
y = df['activeaddresses']

poly = PolynomialFeatures(degree=2)
x_poly = poly.fit_transform(x)

# Paso1: entrenar el modelo.
x_train, x_test, y_train, y_test = train_test_split(x_poly, y, test_size=0.2, random_state=42)

# Paso2: Calcular el MSE y RMSE en el conjunto de entrenamiento.
model = LinearRegression()
model.fit(x_train, y_train)

# Paso3: Calcular el MSE y RMSE en el conjunto de entrenamiento.
y_train_pred = model.predict(x_train)
mse_train = mean_squared_error(y_train, y_train_pred)
print('MSE en el conjunto de entrenamiento:', mse_train)
print('RMSE en el conjunto de entrenamiento:', math.sqrt(mse_train))

# Paso3: Calcular el MSE y RMSE en el conjunto de prueba.
y_test_pred = model.predict(x_test)
mse_test = mean_squared_error(y_test, y_test_pred)
print('MSE en el conjunto de prueba:', mse_test)
print('RMSE en el conjunto de prueba:', math.sqrt(mse_test))

MSE en el conjunto de entrenamiento: 22785550162.735775
RMSE en el conjunto de entrenamiento: 150948.83292935978
MSE en el conjunto de prueba: 23744564358.15149
RMSE en el conjunto de prueba: 154092.71351414215


Finalmente, encontramos que con el modelo de regresión polinomial se obtiene el menor MSE, por lo cual puede considerarse el modelo que más valor puede aportar al análisis.

#### 2 - Identificar por medio de las métricas generadas si se puede tener una situación de overfitting (sobreajuste) o underfitting (subajuste), discutiendo posibles formas de mejora.

En cuanto a los modelos que hemos explorado:

Redes neuronales: El modelo de redes neuronales se ajustó con un conjunto de entrenamiento y se evaluó con un conjunto de prueba. La raíz del error cuadrático medio (RMSE) para el conjunto de entrenamiento fue de 405937.393, mientras que para el conjunto de prueba fue de 393965.015. Es importante destacar que el RMSE del conjunto de prueba es significativamente mayor que el del conjunto de entrenamiento, lo que sugiere que el modelo puede estar sobreajustando los datos de entrenamiento y no generalizando bien a los datos nuevos. Una posible forma de mejorar el modelo es utilizar técnicas de regularización, como la reducción de la complejidad de la red neuronal (disminuyendo el número de capas o neuronas) o agregando términos de penalización en la función de pérdida.

Regresión lineal: El modelo de regresión lineal también se ajustó con un conjunto de entrenamiento y se evaluó con un conjunto de prueba. El error cuadrático medio (MSE) para el conjunto de entrenamiento fue de 1590382970.6610088, mientras que para el conjunto de prueba fue de 1677898038.1307726. Los valores de MSE son similares tanto para el conjunto de entrenamiento como para el de prueba, lo que sugiere que el modelo está generalizando bien a los nuevos datos y que no hay una situación de sobreajuste o subajuste.

Regresión polinomial: Al igual que en los modelos anteriores, el modelo de regresión polinomial se ajustó con un conjunto de entrenamiento y se evaluó con un conjunto de prueba. El error cuadrático medio (MSE) para el conjunto de entrenamiento fue de 1404411994.2352874, mientras que para el conjunto de prueba fue de 1470982344.6715164. Los valores de MSE son similares tanto para el conjunto de entrenamiento como para el de prueba, lo que sugiere que el modelo está generalizando bien a los nuevos datos y que no hay una situación de sobreajuste o subajuste.