**Preprocesar los datos limpiándolos, tratando valores faltantes y transformándolos según sea necesario.**

In [None]:
# Importar librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# Cargar los datos
data = pd.read_csv('heart_cleveland_upload.csv')  # Reemplaza 'tus_datos.csv' con el nombre de tu archivo CSV

# Explorar los datos
print(data.head())

# Resumen estadístico
print(data.describe())

# Mostrar tipos de datos de cada columna
print(data.dtypes)

# Identificar y manejar los valores faltantes
data.isnull().sum()

# Tratar los valores faltantes (por ejemplo, eliminándolos o imputándolos)
data_cleaned = data.dropna()  # Eliminar filas con valores faltantes

# Codificar las variables categóricas si es necesario
# No se requiere si las variables ya están codificadas como números

# Eliminar columnas no necesarias, si es necesario
# Por ejemplo, eliminar 'Car_Name' si no es relevante
# data_cleaned = data_cleaned.drop('Car_Name', axis=1)

# Escalar las características numéricas
scaler = StandardScaler()
numeric_features = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'condition']
data_cleaned[numeric_features] = scaler.fit_transform(data_cleaned[numeric_features])

# Calcular la matriz de correlación
corr_matrix = data_cleaned.corr()

# Visualizar la matriz de correlación
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlación')
plt.show()

# Dividir los datos en características (X) y etiquetas (y)
X = data_cleaned.drop('selling_price', axis=1)
y = data_cleaned['selling_price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print('Mean Squared Error:', mse)
print('R^2 Score:', r2)