# **Tarea 5: exploración de scikit-learn (sklearn) y statsmodels**

**scikit-learn (sklearn):**

scikit-learn es una biblioteca de aprendizaje automático de código abierto para Python que se utiliza ampliamente en tareas de aprendizaje automático, minería de datos y análisis de datos. Ofrece herramientas eficientes y fáciles de usar para la clasificación, regresión, clustering, reducción de dimensionalidad y selección de modelos.

**Principales Funciones**

---

**Aprendizaje Supervisado:** 

sklearn proporciona algoritmos para la clasificación y regresión como:

Support Vector Machines (SVM). 

Random Forest.

Regresión Logística.

**Aprendizaje No Supervisado:** 

Incluye algoritmos de clustering como K-Means, y técnicas de reducción de dimensionalidad como PCA (Análisis de Componentes Principales).

**Herramientas de Preprocesamiento:**

Ofrece herramientas para el preprocesamiento de datos, como la normalización, estandarización, manejo de valores nulos, etc.

**Validación de Modelos:**

Incluye funciones para la evaluación y validación de modelos, como la validación cruzada.

**Selección de Modelos:** 

Ayuda a seleccionar los mejores modelos y hiperparámetros a través de búsqueda grid y búsqueda aleatoria.

**Interoperabilidad:** 

Compatible con otras bibliotecas populares como NumPy, pandas, y Matplotlib.

# **statsmodels:**

statsmodels es una biblioteca de Python que se enfoca en estadísticas y modelos estadísticos. Proporciona herramientas para realizar análisis de datos, estimar modelos estadísticos y realizar pruebas de hipótesis.

**Funcionalidades Principales:**

**Modelos Estadísticos:**

Permite ajustar modelos estadísticos, como regresiones lineales, regresiones logísticas, modelos ARIMA, y más.

**Pruebas de Hipótesis:**

Proporciona funciones para realizar pruebas de hipótesis estadísticas y análisis de varianza.

**Visualización de Datos:**

Incluye capacidades de visualización para ayudar a interpretar los resultados de los modelos estadísticos.

**Análisis de Series Temporales:**

Ofrece herramientas para el análisis de series temporales y pronóstico.

**Compatibilidad con Fórmulas:**

Permite especificar modelos utilizando fórmulas similares a las utilizadas en R.

###  modelos scikit-learn (sklearn) 

In [71]:
import pandas as pd

In [72]:
df = pd.read_csv("cars.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## **Preprocesamiento**

Renombrar variables 

In [73]:
df.rename(columns={'Unnamed: 0': 'marca','mpg': 'millas_galon'}, inplace=True)
df.head()

Unnamed: 0,marca,millas_galon,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Recategorizar variables

In [74]:
set(df["cyl"])

mapeo_categorias = {4: 'Bajo', 6: 'Medio', 8: 'Alto'}

# Aplicar el mapeo utilizando map()
df['cyl'] = df['cyl'].map(mapeo_categorias)
df.head()

Unnamed: 0,marca,millas_galon,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,Medio,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,Medio,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,Bajo,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,Medio,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,Alto,360.0,175,3.15,3.44,17.02,0,0,3,2


Algoritmo

In [87]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np

# Cargar los datos en un DataFrame de pandas (supongamos que se llama 'df')
# Asegúrate de que df contiene todas las variables mencionadas anteriormente

# Seleccionar las características y la variable objetivo
X = df[['disp', 'hp', 'wt']]
y = df['millas_galon']

# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Crear un modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

In [84]:


# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el rendimiento del modelo
r_squared = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f"Coeficiente de determinación (R²): {r_squared}")
print(f"Error cuadrático medio (MSE): {mse}")

# Ver los coeficientes del modelo
coefficients = pd.DataFrame({'Variable': X.columns, 'Coeficiente': model.coef_})
print(coefficients)

# Para realizar una predicción para un nuevo conjunto de características, puedes hacer lo siguiente:

predicted_mpg = model.predict(X_test)
print(f"Predicción de millas por galón: {predicted_mpg[0]}")


Coeficiente de determinación (R²): -0.005568857619536072
Error cuadrático medio (MSE): 11.951493700009499
  Variable  Coeficiente
0     disp     0.003213
1       hp    -0.031633
2       wt    -4.945615
Predicción de millas por galón: 14.962259661686758


modelo de regresión lineal

predicciones

In [55]:
y_pred = model.predict(X_test)

error cuadrático medio

$ (R^2 = 1 - \frac{SSR}{SST}) $




$ (MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2) $

In [56]:
mse = mean_squared_error(y_test, y_pred)

print(f'Error Cuadrático Medio: {mse}')

Error Cuadrático Medio: 6.961249594036279


Grafico

In [61]:
import matplotlib.pyplot as plt
import pandas as pd

# Cargar los datos (reemplaza 'datos.csv' con la ruta de tu archivo CSV)
data = pd.read_csv("cars.csv")

# Seleccionar las variables de interés
x = data['wt']  # Peso (variable predictora)
y = data['mileage']  # Millas por galón (variable de respuesta)

# Crear un gráfico de dispersión
plt.figure(figsize=(8, 6))
plt.scatter(x, y, alpha=0.6, c='b', edgecolors='k')
plt.title('Relación entre Peso y Millas por Galón')
plt.xlabel('Peso')
plt.ylabel('Millas por Galón')
plt.grid(True)
plt.show()


KeyError: 'mileage'