Para crear y analizar un modelo lineal en python, precisamos de varias librerías para cada uno de los procesos de su estudio. 
Antes de nada, hay que preprocesar los datos, de lo que se encargan las funciones creadas en el primer sprint. Una vez estén preprocesados, tenemos que crear el modelo, entrenarlo y evaluarlo mediante una de las siguientes librerías: **scikit-learn** o **statsmodels**
Estas son las dos librerías más dominantes en modelos lineales, pero también podemos usar otras, como **linearmodels**(librería más enfocada a la economía) o **PyTorch**(librería más compleja y avanzada que se usa en deeplearning, machine learning...)

Princpalmente estudiaremos scikit y statsmodels, pero al final también miraremos un poco las otras dos.

1. CREAR UN MODELO
    - Con scikit.learn, una vez tenemos los datos divididos en entrenamiento y test, debemos usar la siguiente función: LinearRegression()

    - En statsmodels, antes de crar el modelo, si queremos que b0 (intercepto / término constante) no sea 0, tenemos que usar sobre la columna de entrada la función:
    x = sm.add_constant(cte)
    Tras esto, para crear el modelo se usa:
    OLS(y, x)
    Sea x la columna de entrada e y la de salida

2. ENTRENAR EL MODELO
En las dos librerías se utiliza el mismo nombre de método de su clase modelo, pero la de scikit recibe parámetros (pues no los recibió antes):
model.fit(x, y)
Y la de statsmodels no recibe las columnas:
model.fit()

3. ANÁLISIS DEL MODELO
En esta parte es donde estas librerías se diferencian más, pues statsmodels está orientada cara un análisis estadístico profundo de las características de la regresión, mientras que scikit es más simple.
    - En scikit.learn se usan las siguientes funciones para análisis:
    model.score(x, y) --> muestra el coeficiente de determinación (R^2) 
    model.intercept_ --> muestra el valor de b0 (término constante)
    model.coef_ --> muestra el valor de b1 (monotonía de y cuando crece x)

    - En statsmodels podemos obtener muchos más datos solo con usar:
    model.summary() --> print con gran cantidsd de datos estadísticos del modelo
    También podemos extraer valores especificos, por ejemplo:
    model.rsquared --> coeficiente de determinación

4. PREDICCIÓN
    - En sickit.learn se usa la función model.predict(x), donde x son los datos de test, y el array que devuelve son los valores esperados de y, la salida. Estos los podemos comparar con los datos originales que se obtienen con el datasplit.
    También podemos introducir cualquier array de valores para ver que resultado sale.

    - En statsmodels se usa model.fittedvalues si quieres obtener las preedicciones del array con el que fue entrenado, y usas model.predict(x) si quieres introducir un nuevo array x a predecir.

Veamos un ejemplo de cada uno

In [13]:
#Modelo de ejemplo de sklearn
import numpy as np
from sklearn.linear_model import LinearRegression

#Columna de entrada
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
#Es necesario el reshape porque debe tener una columna y tantas filas como columnas de y

#Columna de salida
y = np.array([10, 30, 50, 70, 90, 110])

print(f"Datos de entrada: \n {x} \n \n Datos de salida: {y}")

#Creamos el modelo
model = LinearRegression()

#Entrenamos (ajuste) el modelo con los datos de antes
model.fit(x, y)

#Análisis de datos
r2 = model.score(x, y)
print(f"coeficiente de determinación: {r2} \n término constante: {model.intercept_} \
       \n crecimiento: {model.coef_}")

#Predicción del modelo
xTest = np.array([1, 4, 10, 11, 15]).reshape((-1, 1))
yPred = model.predict(xTest)
print(f"\n valores predichos: {yPred}")

Datos de entrada: 
 [[ 5]
 [15]
 [25]
 [35]
 [45]
 [55]] 
 
 Datos de salida: [ 10  30  50  70  90 110]
coeficiente de determinación: 1.0 
 término constante: 0.0        
 crecimiento: [2.]
 
 valores predecidos: [ 2.  8. 20. 22. 30.]


In [14]:
# Modelo de ejemplo con statsmodels
import numpy as np
import statsmodels.api as sm

# Columna de entrada (variable independiente)
x = np.array([5, 15, 25, 35, 45, 55])
# Columna de salida (variable dependiente)
y = np.array([10, 30, 50, 70, 90, 110])

print(f"Datos de entrada: \n {x} \n\n Datos de salida: {y}")

# En statsmodels debemos agregar una columna de 1s para el intercepto (β₀)
x_con_constante = sm.add_constant(x)  # añade la columna de 1s

# Creamos el modelo de mínimos cuadrados ordinarios (OLS)
modelo = sm.OLS(y, x_con_constante)

# Ajustamos (entrenamos) el modelo
resultado = modelo.fit()

# Análisis de resultados
print("\n--- Resumen estadístico del modelo ---")
print(resultado.summary())

# Predicciones
xTest = np.array([1, 4, 10, 11, 15])
xTest_con_constante = sm.add_constant(xTest)
yPred = resultado.predict(xTest_con_constante)

print(f"\nValores predichos: {yPred}")


Datos de entrada: 
 [ 5 15 25 35 45 55] 

 Datos de salida: [ 10  30  50  70  90 110]

--- Resumen estadístico del modelo ---
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                       inf
Date:                Mon, 20 Oct 2025   Prob (F-statistic):               0.00
Time:                        21:39:43   Log-Likelihood:                    inf
No. Observations:                   6   AIC:                              -inf
Df Residuals:                       4   BIC:                              -inf
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
-----

  warn("omni_normtest is not valid with less than 8 observations; %i "
  return self.mse_model/self.mse_resid
  llf = -nobs2*np.log(2*np.pi) - nobs2*np.log(ssr / nobs) - nobs2
  dw = np.sum(diff_resids**2, axis=axis) / np.sum(resids**2, axis=axis)


Pese a que statsmodels ofrece más información estadística, sklearn tiene muchos recursos de aprendizaje y es más simple; por lo que es más adecuado para este proyecto, ya que no se focaliza tanto en el análisis de los datos y es más entendible tanto para el cliente (en caso de tener que explicar algo) como para los desarrolladores.

Las otras dos librerías quedan fuera de la cuestión por centrarse más en otros ámbitos, pero tienen una funcionalidad similar a sklearn y statsmodels en la creación de regresiones lineales (mismo proceso de creación, ajuste, análisis y predicción).




Fuentes: 
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression

https://realpython.com/linear-regression-in-python/