In [None]:
import pandas as pd

# Ruta al archivo
ruta = "/kaggle/input/ecobici-new/datos_modificados.csv"

# Leer archivo CSV comprimido en zip
datos = pd.read_csv(ruta)

# Verificar que se haya unido bien
print(datos.head())
print(datos.tail())  # Opcional, para ver el final del DataFrame

In [None]:
print(datos.dtypes)

In [None]:
datos["Edad_Usuario"] = datos["Edad_Usuario"].astype("Int64")  
datos["Bici"] = datos["Bici"].astype(str)  
datos["FechaHora_Retiro"] = pd.to_datetime(datos["FechaHora_Retiro"], errors="coerce") 
datos["FechaHora_Arribo"] = pd.to_datetime(datos["FechaHora_Arribo"], errors="coerce")  
datos["Duracion_Minutos"] = datos["Duracion_Minutos"].astype(float)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Crear la figura y los subgráficos
fig, axs = plt.subplots(1, 2, figsize=(20, 6)) 

# Boxplot de Duración en Minutos
sns.boxplot(x=datos["Duracion_Minutos"], color="lightblue", width=0.5, ax=axs[0])
axs[0].set_title("Boxplot de Duración en Minutos")
axs[0].set_xlabel("Duración (Minutos)")

# Boxplot de Edad del Usuario
sns.boxplot(x=datos["Edad_Usuario"], color="lightgreen", width=0.5, ax=axs[1])
axs[1].set_title("Boxplot de Edad de Usuario")
axs[1].set_xlabel("Edad (Años)")


# Ajustar el espacio entre los subgráficos para que no se sobrepongan
plt.tight_layout()

# Mostrar los gráficos
plt.show()

In [None]:

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# Boxplots
sns.boxplot(x=datos["Edad_Usuario"], ax=axes[0, 0], color="skyblue")
axes[0, 0].set_title("Boxplot de Edad del Usuario")

sns.boxplot(x=datos["Duracion_Minutos"], ax=axes[0, 1], color="lightcoral")
axes[0, 1].set_title("Boxplot de Duración del Viaje (min)")

# Histogramas
sns.histplot(datos["Edad_Usuario"], bins=30, kde=True, ax=axes[1, 0], color="skyblue")
axes[1, 0].set_title("Histograma de Edad del Usuario")

sns.histplot(datos["Duracion_Minutos"], bins=30, kde=True, ax=axes[1, 1], color="lightcoral")
axes[1, 1].set_title("Histograma de Duración del Viaje (min)")

plt.tight_layout()
plt.show()

In [None]:
print(f"Valores negativos en Duracion_Minutos: {sum(datos['Duracion_Minutos'] < 0)}")

datos = datos[datos["Duracion_Minutos"] >= 0]

print(f"Número de filas después de eliminar valores negativos: {len(datos)}")

registros_anomalos = datos[(datos["Ciclo_Estacion_Retiro"] == datos["Ciclo_Estacion_Arribo"]) & (datos["Duracion_Minutos"] < 2)]

cantidad_anomalos = len(registros_anomalos)

print(f"Cantidad de registros anómalos: {cantidad_anomalos}")

datos = datos[~((datos["Ciclo_Estacion_Retiro"] == datos["Ciclo_Estacion_Arribo"]) & (datos["Duracion_Minutos"] < 2))]

In [None]:
# Calcular Q1, Q3 y IQR para Edad_Usuario
Q1_edad = datos["Edad_Usuario"].quantile(0.25)
Q3_edad = datos["Edad_Usuario"].quantile(0.75)
IQR_edad = Q3_edad - Q1_edad
lim_sup_edad = Q3_edad + 3 * IQR_edad

# Calcular Q1, Q3 y IQR para Duracion_Minutos
Q1_duracion = datos["Duracion_Minutos"].quantile(0.25)
Q3_duracion = datos["Duracion_Minutos"].quantile(0.75)
IQR_duracion = Q3_duracion - Q1_duracion
lim_sup_duracion = Q3_duracion + 3 * IQR_duracion

# Mostrar los umbrales
print("Umbrales de Edad_Usuario:")
print(f"Límite superior: {lim_sup_edad}")

print("\nUmbrales de Duracion_Minutos:")
print(f"Límite superior: {lim_sup_duracion}")

# Filtrar los registros que no superan el límite superior de Edad_Usuario
datos = datos[datos["Edad_Usuario"] <= lim_sup_edad]

# Filtrar los registros que no superan el límite superior de Duracion_Minutos
datos = datos[datos["Duracion_Minutos"] <= lim_sup_duracion]

# Mostrar la cantidad de registros después de filtrar
print(f"Cantidad de registros después de filtrar Edad_Usuario y Duracion_Minutos: {datos.shape[0]}")


In [None]:
# Estadísticos descriptivos de todas las columnas numéricas
estadisticos = datos.describe()

# Mostrar los estadísticos descriptivos
print(estadisticos)

# Guardar el DataFrame modificado en un nuevo archivo CSV
datos.to_csv("/kaggle/working/datos_modificadosV2.csv", index=False)

In [None]:
# Filtrar registros de edades entre 66 y 90
registros_edad_66_90 = datos.loc[(datos["Edad_Usuario"] >= 80) & (datos["Edad_Usuario"] <= 200)]

# Contar la cantidad de registros
cantidad_registros = registros_edad_66_90.shape[0]

# Mostrar el resultado
print(f"Cantidad de registros con edades entre 66 y 90: {cantidad_registros}")

# Filtrar registros con Duracion_Minutos entre 59 y 120
datos_59_120 = datos[(datos["Duracion_Minutos"] >= 59) & (datos["Duracion_Minutos"] <= 120)]

# Filtrar registros con Duracion_Minutos entre 120 y 200
datos_120_200 = datos[(datos["Duracion_Minutos"] > 120) & (datos["Duracion_Minutos"] <= 200)]

# Contar la cantidad de registros en cada rango
cantidad_59_120 = datos_59_120.shape[0]
cantidad_120_200 = datos_120_200.shape[0]

# Mostrar los resultados
print(f"Cantidad de registros con Duracion_Minutos entre 59 y 120: {cantidad_59_120}")
print(f"Cantidad de registros con Duracion_Minutos entre 120 y 200: {cantidad_120_200}")


In [None]:
# Histograma de la edad de los usuarios para visualizar su distribución
plt.figure(figsize=(10, 6))
plt.hist(datos["Edad_Usuario"], bins=50, color='skyblue', edgecolor='black')
plt.title('Distribución de Edad de los Usuarios')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Agrupar por ruta (retiro → arribo) y calcular el número de viajes y la duración promedio
rutas_frecuentes = datos.groupby(["Ciclo_Estacion_Retiro", "Ciclo_Estacion_Arribo"]).agg(
    Cantidad_Viajes=("Bici", "count"),
    Duracion_Promedio=("Duracion_Minutos", "mean")
).reset_index()

rutas_frecuentes = rutas_frecuentes.sort_values(by="Cantidad_Viajes", ascending=False).reset_index(drop=True)
print(rutas_frecuentes.head(10))

top_rutas = rutas_frecuentes.head(10)

# Crear gráfico de barras
plt.figure(figsize=(12, 6))
plt.barh(top_rutas["Ciclo_Estacion_Retiro"].astype(str) + " → " + top_rutas["Ciclo_Estacion_Arribo"].astype(str), 
         top_rutas["Cantidad_Viajes"], color="skyblue")

plt.xlabel("Cantidad de Viajes")
plt.ylabel("Ruta (Estación Retiro → Estación Arribo)")
plt.title("Top 10 Rutas Más Frecuentes")
plt.gca().invert_yaxis()
plt.show()

In [None]:
len(datos)
datos.shape[0]

In [None]:
df = datos
viajes_hora = df['FechaHora_Retiro'].dt.hour.value_counts().sort_index()
viajes_hora.plot(kind='bar', title='Viajes por Hora del Día', ylabel='Cantidad de viajes', xlabel='Hora')
plt.show()

In [None]:
viajes_mes = df['FechaHora_Retiro'].dt.month.value_counts().sort_index()
viajes_mes.plot(kind='bar', title='Viajes por Mes (acumulado)', ylabel='Cantidad de viajes', xlabel='Mes')
plt.show()

In [None]:
viajes_genero = df['Genero_Usuario'].value_counts()
viajes_genero.plot(kind='bar', title='Viajes por Género del Usuario', ylabel='Cantidad de viajes', xlabel='Género', color=['blue', 'pink', 'gray'])
plt.show()

In [None]:
viajes_anio = df.groupby(df['FechaHora_Retiro'].dt.year).size()
viajes_anio.plot(kind='bar', title='Viajes por Año', ylabel='Cantidad de viajes', xlabel='Año')
plt.show()