<a href="https://colab.research.google.com/github/WarReach/InteligenciaArtificial/blob/main/Modelo_Supervisado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Dataset Sintetico**

In [1]:
import pandas as pd
import random
import numpy as np

# Definir un conjunto más amplio de estaciones
estaciones = [
    'Portal Norte', 'Cardio Infantil', 'Mazuren', 'Suba', 'Portal 80', 'Quirigua',
    'Universidades', 'Av. Chile', 'Chapinero', 'Centro Histórico', 'Portal Sur',
    'Restrepo', 'Portal Américas', 'Banderas', 'Av. 68', 'Portal Tunal', 'Usme',
    'San Mateo', 'Terreros', 'Portal El Dorado'
]

# Función para generar datos sintéticos
def generar_datos(n):
    datos = []
    for _ in range(n):
        origen = random.choice(estaciones)
        destino = random.choice([e for e in estaciones if e != origen])
        tiempo_estimado = random.randint(10, 90)  # Tiempo en minutos
        distancia = random.uniform(2, 25)  # Distancia en km
        dia = random.choice(['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado', 'Domingo'])
        hora = random.choice([
            '06:00 AM', '07:00 AM', '08:00 AM', '09:00 AM', '10:00 AM',
            '12:00 PM', '03:00 PM', '06:00 PM', '08:00 PM', '10:00 PM'
        ])
        trafico = random.choice(['Bajo', 'Moderado', 'Alto'])
        pasajeros = random.randint(30, 300)  # Número de pasajeros
        costo_pasaje = random.uniform(2.5, 4.0)  # Costo del pasaje en dólares (aproximación)

        datos.append([origen, destino, tiempo_estimado, distancia, dia, hora, trafico, pasajeros, round(costo_pasaje, 2)])

    return pd.DataFrame(datos, columns=[
        'Origen', 'Destino', 'Tiempo_Estimado', 'Distancia', 'Dia', 'Hora', 'Tráfico', 'Num_Pasajeros', 'Costo_Pasaje'
    ])

# Generar un dataset con 5000 registros
df_transporte_ampliado = generar_datos(5000)

# Mostrar los primeros registros
print(df_transporte_ampliado.head())

# Guardar el dataset en un archivo CSV
df_transporte_ampliado.to_csv('dataset_transporte_ampliado.csv', index=False)

# Descargar el archivo para su almacenamientoy reuso
try:
    from google.colab import files
    files.download('dataset_transporte_ampliado.csv')
except ImportError:
    print("La descarga automática está disponible solo en Google Colab.")


            Origen           Destino  Tiempo_Estimado  Distancia      Dia  \
0         Quirigua            Av. 68               75   7.836642    Lunes   
1             Suba           Mazuren               63  17.583168   Martes   
2  Cardio Infantil            Av. 68               67  20.380741   Martes   
3     Portal Norte  Centro Histórico               68  10.546611    Lunes   
4        Chapinero         Av. Chile               86   5.547894  Viernes   

       Hora   Tráfico  Num_Pasajeros  Costo_Pasaje  
0  10:00 AM  Moderado            227          3.54  
1  08:00 PM  Moderado            207          3.00  
2  06:00 AM  Moderado             93          2.61  
3  07:00 AM      Bajo             55          2.71  
4  06:00 AM  Moderado            213          3.36  


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

**Modelo Entrenado "Regresion Lineal**

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import LabelEncoder

# Convertir las variables categóricas en variables numéricas
label_encoder = LabelEncoder()
df_transporte_ampliado['Dia'] = label_encoder.fit_transform(df_transporte_ampliado['Dia'])
df_transporte_ampliado['Hora'] = label_encoder.fit_transform(df_transporte_ampliado['Hora'])
df_transporte_ampliado['Tráfico'] = label_encoder.fit_transform(df_transporte_ampliado['Tráfico'])

# Seleccionar las características y la variable objetivo
X = df_transporte_ampliado[['Distancia', 'Dia', 'Hora', 'Tráfico', 'Num_Pasajeros']]
y = df_transporte_ampliado['Tiempo_Estimado']

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

# Evaluar el modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'Error cuadrático medio (RMSE): {rmse}')

# Mostrar las predicciones vs reales
comparacion = pd.DataFrame({'Real': y_test.values, 'Predicho': y_pred})
print(comparacion.head())


Error cuadrático medio (RMSE): 23.52521875822651
   Real   Predicho
0    23  50.908835
1    21  49.792642
2    15  51.040333
3    24  49.390434
4    62  51.082695
