In [14]:
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from google.colab import files
import io

# Subir el archivo CSV desde tu computadora
uploaded = files.upload()

# Verificar los nombres de los archivos cargados
filename = list(uploaded.keys())[0]  # Obtener el primer archivo cargado

# Leer el archivo CSV
dato = pd.read_csv(io.BytesIO(uploaded[filename]), on_bad_lines='skip')

# Mostrar un mensaje para confirmar que el archivo se cargó correctamente
print(f"Dataset '{filename}' cargado exitosamente.")

# Preprocesamiento
dato.dropna(inplace=True)

# Definición de las variables independientes (X) y dependientes (y)
X = dato[['Year']]  # Variable independiente
y = dato['Global_Sales']  # Variable dependiente

# División de los datos en conjuntos de entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(
    X,  # Usamos 'X' directamente sin reshape ya que 'train_test_split' maneja bien DataFrames
    y,  # De igual manera 'y'
    train_size=0.8,  # 80% para entrenamiento
    random_state=1234,  # Semilla para reproducibilidad
    shuffle=True  # Mezcla los datos antes de dividirlos
)

# Añadir una constante a los datos de entrenamiento para el modelo OLS (regresión lineal)
x_train = sm.add_constant(x_train, prepend=True)

# Crear el modelo de regresión lineal usando Ordinary Least Squares (OLS)
modelo = sm.OLS(endog=y_train, exog=x_train)  # Endógena: y_train, Exógena: x_train
modelo = modelo.fit()

# Imprimir el resumen del modelo
print(modelo.summary())
print("--------------------------------------------")

# Intervalos de confianza del 95% para los parámetros del modelo
intervalos_ci = modelo.conf_int(alpha=0.05)  # 95% de confianza
intervalos_ci = pd.DataFrame(intervalos_ci, columns=['2.5%', '97.5%'])
print("Intervalos de confianza del 95% para los parámetros:")
print(intervalos_ci)

# Predicciones con el intervalo de confianza del 95%
x_test = sm.add_constant(x_test, prepend=True)  # Añadir constante a los datos de prueba
predicciones = modelo.get_prediction(exog=x_test).summary_frame(alpha=0.05)  # Intervalo de confianza del 95%
print("\nPredicciones con Intervalo de Confianza del 95%:")
print(predicciones.head(4))



Saving vgsales.csv to vgsales.csv
Dataset 'vgsales.csv' cargado exitosamente.
                            OLS Regression Results                            
Dep. Variable:           Global_Sales   R-squared:                       0.006
Model:                            OLS   Adj. R-squared:                  0.006
Method:                 Least Squares   F-statistic:                     84.03
Date:                Tue, 10 Dec 2024   Prob (F-statistic):           5.61e-20
Time:                        04:27:57   Log-Likelihood:                -23101.
No. Observations:               13032   AIC:                         4.621e+04
Df Residuals:                   13030   BIC:                         4.622e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------