In [None]:
###
# Importar librerias necesarias para el procesamiento del dataframe
###

'''Pandas para la lectura del archivo'''
import pandas as pd

'''Numpy para las funciones de lectura y procesamiento del dataframe'''
import numpy as np

'''Sns y plt para organizar los graficos visuales'''
import seaborn as sns
import matplotlib.pyplot as plt

###
# Importar librerias necesarias del modelo, el entrenamiendo y las métricas
###

'''Train test split para dividir el data frame en partes'''
from sklearn.model_selection import train_test_split

'''Modelo de ejecución de entrenamiento'''
from sklearn.linear_model import LinearRegression

'''Metricas de desempeño'''
from sklearn.metrics import mean_squared_error, r2_score

#
# Importar el archivo csv del set online llamado car data.csv
#
df = pd.read_csv("/content/sample_data/car data.csv")

#
# 1. Visualizaciones de los datos de analisis con relacion de variables identificando relaciones
#

'''Precio de venta vs año'''
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Year', y='Selling_Price', data=df)
plt.title('Selling Price vs Year')
plt.show()

'''Precio de venta vs precio actual'''
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Present_Price', y='Selling_Price', data=df)
plt.title('Selling Price vs Present Price')
plt.show()

'''Precio de venta vs KM conducidos'''
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Kms_Driven', y='Selling_Price', data=df)
plt.title('Selling Price vs Kms Driven')
plt.show()


'''Distribución del precio de venta'''
plt.figure(figsize=(10, 6))
sns.histplot(df['Selling_Price'], kde=True)
plt.title('Distribution of Selling Price')
plt.show()

#
# 2. Preprocesamiento con One Hot Encoding
#
df_encoded = pd.get_dummies(df, drop_first=True)

#
# Dividir los datos en conjunto de características y etiquetas
#
X = df_encoded.drop('Selling_Price', axis=1)
y = df_encoded['Selling_Price']

#
# 4. División en Train y Test
#
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#
# 5. Entrenamiento del modelo
#
linear_regressor = LinearRegression()
linear_regressor.fit(X_train, y_train)

#
# Predicciones
#
y_pred = linear_regressor.predict(X_test)

#
# 6. Evaluación del modelo con metricas de desempeño
#
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"Root Mean Squared Error: {rmse}")
print(f"R^2 Score: {r2}")

#
# 7. Visualización de la relación real vs predicha
#
plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.title('Actual vs Predicted Selling Prices')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'm--')
plt.show()