# 1. Introducción

Los sistemas de bicicletas compartidas constituyen una herramienta esencial para la movilidad urbana sostenible. Su funcionamiento automatizado permite registrar datos sobre el comportamiento de los usuarios y las condiciones externas, facilitando el análisis y la predicción de la demanda de bicicletas.

Estos datos pueden aprovecharse para optimizar la distribución de bicicletas, anticipar picos de demanda y mejorar la planificación urbana.

Esto podría ser útil en ciudades como Barranquilla, que padecen de problemas de movibilidad y, por tanto, podrían verse beneficiados de alternativas de movilidad. Conocer la posible demanda de uso de Barranquilla otorgaría herramientas para planificar la masificación de sistemas de alquileres que, de la mano con zonificaciones y contrucciones de ciclo rutas, permitiría a la gente desplzarse con mayor facilidad.

## 1.1 Valor como sensor urbano

Cada bicicleta compartida puede considerarse un sensor móvil que captura información sobre espacio, tiempo y clima. Esta perspectiva permite interpretar el sistema como una red de observación distribuida que refleja los patrones de movilidad urbana.

Adicionalmente, ofrecer alternativas más ambientalmente sostenible al vehículo tradicional es vital hoy en día, viviendo con la amenaza del calentamiento global y la necesidad de reducir emisiones.



## 1.2 Descripción de Conjunto de Datos

El conjunto contiene:

* Conteos horarios y diarios de alquiler: cnt (total), casual, registered.

* Variables temporales: hora, día, estación, feriado, día laboral.

* Variables meteorológicas: temperatura, humedad, velocidad del viento.


| Variable      | Tipo         | Descripción                                                             | Rango / Categorías                                         | Importancia para la movilidad |
|---------------|--------------|-------------------------------------------------------------------------|-------------------------------------------------------------|--------------------------------|
| instant       | Entero       | Identificador de registro                                               | 1 … n                                                       | No relevante (solo ID) |
| dteday        | Fecha        | Fecha completa                                                          | 2011–2012                                                   | Importancia baja (solo índice temporal; la información útil proviene de año/mes/día) |
| season        | Categórica   | Estación del año                                                        | 1: Invierno, 2: Primavera, 3: Verano, 4: Otoño             | Alta: patrones estacionales fuertes; mayor uso en verano/otoño |
| yr            | Binaria      | Año (tendencia)                                                         | 0: 2011, 1: 2012                                            | Alta: fuerte tendencia al alza por crecimiento del sistema |
| mnth          | Entero       | Mes del año                                                             | 1–12                                                        | Media/Alta: captura estacionalidad y efectos de clima mensual |
| hr            | Entero       | Hora del día                                                            | 0–23                                                        | Muy alta: patrón horario dominante; picos en horas commuting |
| holiday       | Binaria      | Si es día festivo                                                       | 0/1                                                         | Media: suele disminuir demanda en festivos |
| weekday       | Entero       | Día de la semana                                                        | 0–6                                                         | Media: patrones laborales afectan uso |
| workingday    | Binaria      | Día laboral                                                             | 0/1                                                         | Alta: la demanda sube en días laborales para commuting |
| weathersit    | Categórica   | Condición climática                                                     | 1, 2, 3                                                     | Muy alta: clima adverso reduce significativamente la demanda |
| temp          | Continua     | Temperatura normalizada                                                 | 0.02–1.00                                                   | Muy alta: principal determinante físico del uso |
| atemp         | Continua     | Sensación térmica normalizada                                           | 0.01–1.00                                                   | Alta (correlacionada con temp) |
| hum           | Continua     | Humedad relativa normalizada                                            | 0–1                                                         | Media: altas humedades disminuyen uso, pero menos que temp |
| windspeed     | Continua     | Velocidad de viento normalizada                                         | 0–1                                                         | Baja/Media: efecto menor salvo vientos fuertes |
| casual        | Entero       | Usuarios casuales                                                       | ≥ 0                                                         | Variable objetivo secundaria (usuario de ocio) |
| registered    | Entero       | Usuarios registrados                                                     | ≥ 0                                                         | Variable objetivo secundaria (usuario regular) |
| cnt           | Entero       | Total de usuarios                                                       | ≥ 0                                                         | Variable objetivo principal |


# 2. Objetivos

## 2.1 Objetivo General

Aplicar métodos de regresión lineal múltiple para predecir la demanda horaria de bicicletas compartidas, considerando la influencia de variables meteorológicas, temporales y contextuales.

## 2.2 Objetivos Específicos

* Depurar y preparar los datos utilizando herramientas de limpieza de datos en el lenguaje de programación Python.
* Realizar análisis exploratorio de los datos para sacar conclusiones.
* Realizar un módelo de regresión lineal utilizando la forma matricial de mínimos cuadrados.
* Realizar inferencias sobre el módelo obtenido.
* Evaluar los supuestos necesarios para la realización de inferencias en módelo lineal de mínimos cuadrados.
* Análizar cambios en los resultados tras utilizar métodos más robustos para la presencia de heterocedasticidad.
* Comparar resultados de módelos más compleajos utilizando Ridge y Lasso.
* Seleccionar un modelo en base los resultados obtenidos.

# 2. Contexto de Movilidad Urbana

## 2.1 Revisión teórica

La movilidad urbana se refiere al conjunto de desplazamientos que realizan las personas dentro de una ciudad para acceder a bienes, servicios, actividades económicas, educativas y sociales. Es un componente esencial del funcionamiento urbano porque determina la accesibilidad, la eficiencia del transporte, la cohesión social y la sostenibilidad ambiental.

Desde la perspectiva teórica, la movilidad urbana se analiza integrando elementos de:

1. **Demanda de transporte**  

2. **Oferta de transporte**

3. **Interacciones espacio–tiempo**

4. **Sostenibilidad urbana**

Se promueven modos sostenibles como la bicicleta debido a su bajo impacto ambiental y bajo costo operativo.

## 2.2 Sistemas de bicicletas compartidas

Los sistemas de bicicletas compartidas (Bike Sharing Systems, BSS) constituyen una infraestructura moderna que combina movilidad física y plataformas de información digital. Su operación genera una gran cantidad de datos de uso en tiempo real, convirtiéndolos en una fuente valiosa de datos urbanos. Son servicios que ofrecen bicicletas para alquiler por períodos cortos mediante estaciones automáticas, aplicaciones móviles, sistemas sin anclaje (dockless), entre otros.

El usuario toma una bicicleta en un punto y la devuelve en otro, facilitando viajes de corta distancia y conectividad con otros modos de transporte.

Cada viaje registrado proporciona información valios como hora de inicio y fin, estación origen y destino, duración del viaje, tipo de usuario (ocasional o registrado), datos meteorológicos asociados (temperatura, humedad, clima) e información agregada de demanda por hora o día.

## 2.3 Preguntas de Investigación

En base a lo expùesto anteriormente, se realizan las siguientes preguntas:
- ¿Cuales son las variables más relevante para determinar el uso de bicicletas compartidas en una ciudad?
- ¿Son estás variables predictores rigurosos, es decir, su coeficiente afecta significativamente el uso?