# Entrenamiento, predicción y evaluación con regresión lineal

## Contexto:
 Aplicar regresión en la práctica implica conocer el proceso completo desde el entrenamiento hasta la evaluación.

## Consigna:
 Entrena un modelo de regresión lineal con Scikit-Learn sobre un conjunto de datos,
 realiza predicciones y evalúa su desempeño con métricas adecuadas.

## Paso a paso:

1- Carga un dataset sencillo (por ejemplo: horas estudiadas vs nota, tamaño casa vs precio).

2- Divídelo en entrenamiento y prueba (train_test_split).

3- Entrena un modelo de LinearRegression con .fit().

4- Realiza predicciones con .predict() sobre el conjunto de prueba.

5- Calcula MSE, MAE y R² y analiza los resultados.

6- Concluye si el modelo es adecuado y si habría que probar otro más complejo.


In [11]:
# Importar librerías
import pandas as pd
from google.colab import files

# Subir archivo desde tu computadora
uploaded = files.upload()

# Leer el dataset (asumiendo que es un CSV separado por ;)
for filename in uploaded.keys():
    df = pd.read_csv(filename, sep=';')

# Mostrar las primeras filas del dataset
df.head()


Saving ejercicio_2. publicidad_vs_ventas.csv to ejercicio_2. publicidad_vs_ventas (1).csv


Unnamed: 0,Inversion_Redes_USD,Ventas_Miles_Unidades
0,193525,10107
1,47585,26503
2,368677,2087
3,303343,18604
4,86449,5136


In [12]:
df.info()

## Se debe pasar a float ya que esta en Object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6000 entries, 0 to 5999
Data columns (total 2 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Inversion_Redes_USD    6000 non-null   object
 1   Ventas_Miles_Unidades  6000 non-null   object
dtypes: object(2)
memory usage: 93.9+ KB


In [13]:
# Reemplazar comas por puntos y convertir a float
df['Inversion_Redes_USD'] = df['Inversion_Redes_USD'].str.replace(',', '.').astype(float)
df['Ventas_Miles_Unidades'] = df['Ventas_Miles_Unidades'].str.replace(',', '.').astype(float)

# Verificar resultado
df.head()


Unnamed: 0,Inversion_Redes_USD,Ventas_Miles_Unidades
0,1935.25,101.07
1,4758.5,265.03
2,3686.77,208.7
3,3033.43,186.04
4,864.49,51.36


In [15]:
df.describe()

Unnamed: 0,Inversion_Redes_USD,Ventas_Miles_Unidades
count,6000.0,6000.0
mean,2535.81001,146.604295
std,1418.731845,72.206535
min,100.06,-3.9
25%,1304.065,85.4375
50%,2541.64,147.57
75%,3762.5125,207.46
max,4998.62,301.88


In [16]:
from sklearn.model_selection import train_test_split

# Definir variables independiente y dependiente
X = df[['Inversion_Redes_USD']]       # Variable independiente
y = df['Ventas_Miles_Unidades']      # Variable dependiente

# Dividir en entrenamiento y prueba (70% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Verificar tamaños
print("Tamaño X_train:", X_train.shape)
print("Tamaño X_test:", X_test.shape)
print("Tamaño y_train:", y_train.shape)
print("Tamaño y_test:", y_test.shape)


Tamaño X_train: (4200, 1)
Tamaño X_test: (1800, 1)
Tamaño y_train: (4200,)
Tamaño y_test: (1800,)


In [17]:
from sklearn.linear_model import LinearRegression

# Crear el modelo
modelo = LinearRegression()

# Entrenar el modelo con el conjunto de entrenamiento
modelo.fit(X_train, y_train)

# Ver coeficiente y término independiente
print("Coeficiente (pendiente):", modelo.coef_[0])
print("Intercepción (ordenada al origen):", modelo.intercept_)


Coeficiente (pendiente): 0.04960570584351459
Intercepción (ordenada al origen): 20.65200489874725


In [18]:
# Realizar predicciones sobre el conjunto de prueba
y_pred = modelo.predict(X_test)

# Mostrar las primeras 10 predicciones junto con los valores reales
import pandas as pd
resultados = pd.DataFrame({'Real': y_test, 'Predicho': y_pred})
resultados.head(10)


Unnamed: 0,Real,Predicho
1782,140.24,137.782982
3917,92.84,109.666964
221,178.78,163.750081
2135,231.02,242.005562
5224,128.87,122.83579
1168,25.51,27.164738
879,105.88,79.566718
156,193.09,188.986983
1657,111.18,99.87579
323,76.76,93.65573


In [19]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Calcular métricas
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Mostrar resultados
print("Mean Squared Error (MSE):", mse)
print("Mean Absolute Error (MAE):", mae)
print("R² Score:", r2)


Mean Squared Error (MSE): 236.6101281389173
Mean Absolute Error (MAE): 12.34391386566402
R² Score: 0.9549926802969818


##Conclusión:

El modelo de regresión lineal es adecuado para estos datos, ya que R² es alto y los errores son relativamente pequeños en comparación con los valores de ventas.

Dado que la relación parece lineal y el ajuste es fuerte, no sería estrictamente necesario probar un modelo más complejo, aunque siempre se puede explorar polinomial o con otras variables si se busca mayor precisión o capturar patrones no lineales.