In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score


In [5]:
ruta_dataset_mejorado = "../../Limpieza/data/df_mejorado_ing_caract.csv"


In [6]:
df = pd.read_csv(ruta_dataset_mejorado)


In [7]:
print("Estructura del dataset:")
print(df.info())


Estructura del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917885 entries, 0 to 917884
Data columns (total 39 columns):
 #   Column                                                           Non-Null Count   Dtype  
---  ------                                                           --------------   -----  
 0   AÑO                                                              917885 non-null  int64  
 1   TRIMESTRE                                                        917885 non-null  float64
 2   PROVEEDOR                                                        917885 non-null  object 
 3   CÓDIGO DANE                                                      917885 non-null  float64
 4   DEPARTAMENTO                                                     917885 non-null  object 
 5   CÓDIGO DANE.1                                                    917885 non-null  float64
 6   MUNICIPIO                                                        917885 non-null  object 
 7   VELOC

In [8]:
df = df[(df['VELOCIDAD BAJADA'] > 0) & (df['VELOCIDAD SUBIDA'] > 0)]


In [9]:
print(f"Total de registros después del filtrado: {len(df)}")


Total de registros después del filtrado: 92687


In [10]:
columnas_predictoras = ['AÑO', 'TRIMESTRE', 'VELOCIDAD BAJADA', 'VELOCIDAD SUBIDA', 'Latitud', 'Longitud', 'Tasa_Crecimiento', 'Densidad_Accesos', 'Promedio_Movil', 'Indice_Velocidad']
X = df[columnas_predictoras]
y = df['No. ACCESOS FIJOS A INTERNET']


In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [12]:
print(f"Forma de X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"Forma de X_test: {X_test.shape}, y_test: {y_test.shape}")


Forma de X_train: (74149, 10), y_train: (74149,)
Forma de X_test: (18538, 10), y_test: (18538,)


In [13]:
modelo = LinearRegression()
modelo.fit(X_train, y_train)


In [14]:
y_pred = modelo.predict(X_test)


In [15]:
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)


In [16]:
print(f"Error cuadrático medio (MSE): {mse}")
print(f"Coeficiente de determinación (R²): {r2}")


Error cuadrático medio (MSE): 85.92959435039066
Coeficiente de determinación (R²): 0.9986581023550671


In [17]:
print("Coeficientes del modelo:")
for feature, coef in zip(columnas_predictoras, modelo.coef_):
    print(f"{feature}: {coef}")


Coeficientes del modelo:
AÑO: -0.06367758504428012
TRIMESTRE: -0.010629655570320251
VELOCIDAD BAJADA: -0.015584254420785051
VELOCIDAD SUBIDA: 0.0178026897537201
Latitud: 1.498489378954136
Longitud: -0.9235713752419327
Tasa_Crecimiento: 0.0067350618926345085
Densidad_Accesos: 690.2762579428381
Promedio_Movil: 0.0022648974275840394
Indice_Velocidad: 0.0008137125514329872


In [18]:
# Conclusiones del Modelo de Regresión Lineal con Ingeniería de Características
print("\n# Conclusiones del Modelo de Regresión Lineal")
print("- **Error Cuadrático Medio (MSE):** {:.2f}".format(mse))
print("- **Coeficiente de Determinación (R²):** {:.4f}".format(r2))
print("- **Coeficientes de las Variables Predictoras:**")
for feature, coef in zip(columnas_predictoras, modelo.coef_):
    print(f"  - {feature}: {coef:.4f}")



# Conclusiones del Modelo de Regresión Lineal
- **Error Cuadrático Medio (MSE):** 85.93
- **Coeficiente de Determinación (R²):** 0.9987
- **Coeficientes de las Variables Predictoras:**
  - AÑO: -0.0637
  - TRIMESTRE: -0.0106
  - VELOCIDAD BAJADA: -0.0156
  - VELOCIDAD SUBIDA: 0.0178
  - Latitud: 1.4985
  - Longitud: -0.9236
  - Tasa_Crecimiento: 0.0067
  - Densidad_Accesos: 690.2763
  - Promedio_Movil: 0.0023
  - Indice_Velocidad: 0.0008
