# 🧠 Análisis de Modelos Predictivos con Vehículos
### Stiven Herrera – UNAD 2025 – Análisis de Datos

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, accuracy_score, confusion_matrix, classification_report

import warnings
warnings.filterwarnings('ignore')


In [None]:
df = pd.read_csv("car data.csv")
df.head()


## 📊 Análisis Exploratorio

In [None]:
print(df.info())
print(df.describe())
print(df.isnull().sum())
sns.heatmap(df.corr(), annot=True)
plt.show()


## 🧹 Preprocesamiento de Datos

In [None]:
# Codificar variables categóricas
le = LabelEncoder()
df['Fuel_Type'] = le.fit_transform(df['Fuel_Type'])
df['Seller_Type'] = le.fit_transform(df['Seller_Type'])
df['Transmission'] = le.fit_transform(df['Transmission'])

# Separar variables
X = df.drop(['Selling_Price', 'Car_Name'], axis=1)
y = df['Selling_Price']


## 📈 Modelo de Regresión Lineal

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

lr_model = LinearRegression()
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)

print("MSE:", mean_squared_error(y_test, y_pred))
plt.scatter(y_test, y_pred)
plt.xlabel("Precio real")
plt.ylabel("Precio predicho")
plt.title("Regresión Lineal - Predicción de precios")
plt.show()


## 📊 Modelo de Regresión Logística

In [None]:
# Clasificación binaria: Precio mayor a 5 = 1, si no = 0
y_class = (df['Selling_Price'] > 5).astype(int)
X_train2, X_test2, y_train2, y_test2 = train_test_split(X, y_class, test_size=0.2, random_state=42)

log_model = LogisticRegression()
log_model.fit(X_train2, y_train2)
y_pred2 = log_model.predict(X_test2)

print(classification_report(y_test2, y_pred2))
sns.heatmap(confusion_matrix(y_test2, y_pred2), annot=True)
plt.title("Matriz de Confusión - Regresión Logística")
plt.show()


## 🌳 Modelo Árbol de Decisión (Regresión)

In [None]:
tree_model = DecisionTreeRegressor()
tree_model.fit(X_train, y_train)
y_pred_tree = tree_model.predict(X_test)

print("MSE Árbol:", mean_squared_error(y_test, y_pred_tree))
plt.scatter(y_test, y_pred_tree)
plt.xlabel("Precio real")
plt.ylabel("Precio predicho")
plt.title("Árbol de Decisión - Predicción de precios")
plt.show()


## ✅ Conclusión
- Se construyeron modelos de Regresión Lineal, Logística y Árbol de Decisión.
- El modelo de árbol de decisión puede adaptarse mejor a relaciones no lineales.
- Este análisis es útil para predecir precios de vehículos en función de características técnicas y de mercado.

---
📅 Proyecto realizado por **Stiven Herrera**
📚 Universidad Nacional Abierta y a Distancia – UNAD
🗓️ 2025-04-05