# Regresion Lineal

## Data Set

Para esta **Regresión Lineal** vamos a utilizar el dataset de muestra *car_crashes* de la libreria ```Seaborn```.

Este conjunto de datos incluye información sobre accidentes automovilísticos que ocurrieron en diferentes estados de los Estados Unidos.

* total: *La tasa total de accidentes automovilísticos por cada 10,000 habitantes en el estado.*
* speeding: *La proporción de accidentes en los que se informó que el conductor estaba excediendo el límite de velocidad.*
* alcohol: *La proporción de accidentes en los que se informó que el conductor había consumido alcohol.*
* not_distracted: *La proporción de accidentes en los que no se informó que el conductor estaba distraído.*
* no_previous: *La proporción de accidentes en los que el conductor no había estado involucrado en un accidente anterior.*
* ins_premium: *El costo promedio del seguro de automóvil en el estado.*
* ins_losses: *Las pérdidas promedio pagadas por las compañías de seguros por cada vehículo asegurado en el estado.*

In [None]:
import seaborn as sns

# Cargar los datos del dataset "car_crashes"
data = sns.load_dataset("car_crashes")

In [None]:
data.head()

In [None]:
obs = str(data.shape[0])
print('Total Observaciones: ' + obs) 
feat = str(data.shape[1])
print('Total Features: ' + feat)

## Analizando los Datos

In [None]:
# Visualizamos la relación entre variables
sns.pairplot(data, height=1.2)

In [None]:
data.describe()

In [None]:
import matplotlib.pyplot as plt

#Eliminando columnas con valores mas altos
#columnas_a_eliminar = ['ins_premium', 'ins_losses',]
#data = data.drop(columnas_a_eliminar, axis=1)


# Crear el diagrama de caja
sns.set(style="whitegrid", palette="muted")
sns.boxplot(data=data, orient="h", palette="Set2")

# Ajustar la visualización del gráfico
sns.despine(left=True, bottom=True)
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Cargar los datos del dataset "car_crashes"
data = sns.load_dataset("car_crashes")

# Separando  los datos del dataset "car_crashes"
df1 = data.iloc[:,0:5]
data = data.iloc[:,-3:-1]

# Excluir las columnas no numéricas del conjunto de datos
data_numeric = data.select_dtypes(include=['float64', 'int64'])

# Escalar los datos utilizando MinMaxScaler
#scaler = MinMaxScaler()
scaler = MinMaxScaler(feature_range=(6, 12))
data_scaled = scaler.fit_transform(data_numeric)
data_scaled_df = pd.DataFrame(data_scaled, columns=data_numeric.columns)
# Unimos los Dataframes
data = pd.merge(df1, data_scaled_df[['ins_premium', 'ins_losses']], left_index=True, right_index=True)

#data =  pd.merge(df1, data_scaled_df[['ins_premium', 'ins_losses']])

# Crear el diagrama de caja
sns.set(style="whitegrid", palette="muted")
ax = sns.boxplot(data, orient="h", palette="Set2")

# Ajustar la visualización del gráfico
sns.despine(left=True, bottom=True)
plt.tight_layout()

# Mostrar el gráfico
plt.show()

## Entrenando el Primer Modelo

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


# Variables Independiente (X), Dependiente (y)
X = data[["no_previous"]]
y = data["total"]

# División de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

# Entrenamiento del modelo
reg = LinearRegression()
reg.fit(X_train, y_train)

# Evaluación del modelo
y_pred = reg.predict(X_test)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de determinación: ", r2)

In [None]:
y_pred_train = reg.predict(X_train)
plt.scatter(X_train, y_train, color='blue')
plt.scatter(X_test, y_test, color='red')
plt.plot(X_train, y_pred_train, '--', color='red', linewidth=2)

## Escalando los Datos

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Cargar los datos del dataset "car_crashes"
data = sns.load_dataset("car_crashes")

# Excluir las columnas no numéricas del conjunto de datos
data_numeric = data.select_dtypes(include=['float64', 'int64'])

# Escalar los datos utilizando MinMaxScaler
scaler = MinMaxScaler()
data_scaled = scaler.fit_transform(data_numeric)
data_scaled_df = pd.DataFrame(data_scaled, columns=data_numeric.columns)

# Variables Independiente (X), Dependiente (y)
X = data_scaled_df[["alcohol"]]
y = data_scaled_df["total"]

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

# Crear una instancia del modelo de regresión lineal
model = LinearRegression()

# Ajustar el modelo utilizando los datos de entrenamiento
model.fit(X_train, y_train)

# Predecir los valores de la variable de salida (y) para los datos de prueba
y_pred = model.predict(X_test)

# Calcular el coeficiente de determinación R2
r2 = r2_score(y_test, y_pred)

print("El coeficiente de determinación R2 es:", r2)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Crear un DataFrame con las variables "alcohol" y "accidentes"
#df = sns.load_dataset('car_crashes')[['alcohol', 'total']]

# Crear el gráfico scatterplot
sns.scatterplot(data=data_scaled_df, x='alcohol', y='total')

# Mostrar el gráfico
plt.show()

## Otras Metricas de Validación

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Calcular las predicciones del modelo para los datos de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = np.sqrt(mse)

# Calcular el coeficiente de determinación (R2)
r2 = r2_score(y_test, y_pred)

# Calcular el error porcentual absoluto medio (MAPE)
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100

# Crear un DataFrame con las métricas de evaluación
metrics_df = pd.DataFrame({'MSE': [mse], 'MAE': [mae], 'RMSE': [rmse], 'R2': [r2], 'MAPE': [mape]})

metrics_df
