In [2]:
%run ../imports.py

üîπ 1. Cargar dataset y librer√≠as

In [4]:
df = pd.read_csv('../data/processed/sitycleta_dataset_enriched.csv')
df['Time stamp'] = pd.to_datetime(df['Time stamp'])

üßπ 2. Tratamiento de valores nulos

### Imputaci√≥n de valores nulos

Vamos a imputar:

- `temp_c` y `wind_speed_kmh`: usando la **media por estaci√≥n (`Place number`)**.
- `precip_mm`: debido a su alta cantidad de ceros, se imputa con **0** (lluvia no reportada).

In [5]:
# Imputar temp_c y wind_speed_kmh con la media por estaci√≥n
df['temp_c'] = df.groupby('Place number')['temp_c'].transform(lambda x: x.fillna(x.mean()))
df['wind_speed_kmh'] = df.groupby('Place number')['wind_speed_kmh'].transform(lambda x: x.fillna(x.mean()))

# Imputar precip_mm con 0 (asumiendo ausencia de lluvia)
df['precip_mm'] = df['precip_mm'].fillna(0)

üìè 3. Escalado de variables (si se desea)

### Escalado de variables

Usamos MinMaxScaler para llevar algunas variables num√©ricas a un rango 0‚Äì1 si el modelo lo requiere.

In [7]:
scaler = MinMaxScaler()

cols_to_scale = ['temp_c', 'wind_speed_kmh', 'precip_mm']
df[cols_to_scale] = scaler.fit_transform(df[cols_to_scale])

üß© 4. Crear dataset global (o por estaci√≥n)

### Dataset global vs por estaci√≥n

De momento trabajaremos con un dataset global. Si m√°s adelante se detectan patrones espec√≠ficos por estaci√≥n, se dividir√°.

üîÅ 5. Generar variables lag y rolling (opcional)

### Generar `lag features` y medias m√≥viles

Esto ayuda a capturar el comportamiento reciente de la estaci√≥n.

In [8]:
# Ordenar por estaci√≥n y tiempo
df = df.sort_values(by=['Place number', 'Time stamp'])

# Generar lag de 1 y media m√≥vil de 3
df['free_bikes_lag1'] = df.groupby('Place number')['Free bikes'].shift(1)
df['free_bikes_roll3'] = df.groupby('Place number')['Free bikes'].rolling(window=3).mean().reset_index(0, drop=True)

üíæ 6. Guardar dataset preprocesado

In [None]:
df.to_csv('../data/processed/sitycleta_preprocessed.csv', index=False)

## ‚úÖ Conclusiones del Preprocesamiento

### ‚úîÔ∏è Tratamiento de valores nulos
- `temp_c` y `wind_speed_kmh` se imputaron usando la **media por estaci√≥n** (`Place number`).
- `precip_mm` se imput√≥ con **0**, asumiendo ausencia de lluvia cuando no hay registro.

### ‚úîÔ∏è Escalado de variables
- Se aplic√≥ `MinMaxScaler` a las variables meteorol√≥gicas: `temp_c`, `wind_speed_kmh`, `precip_mm`.

### ‚úîÔ∏è Construcci√≥n del dataset
- Se trabaj√≥ inicialmente con un **dataset global**, sin dividir por estaci√≥n.
- Se dej√≥ abierta la posibilidad de modelar por estaci√≥n si los resultados lo sugieren.

### ‚úîÔ∏è Variables adicionales
- Se generaron dos variables temporales:
  - `free_bikes_lag1` ‚Üí valor anterior de bicicletas libres por estaci√≥n.
  - `free_bikes_roll3` ‚Üí media m√≥vil de 3 pasos por estaci√≥n.

üîç 7. Comparar shape y columnas

In [12]:
# Dataset original (sin tratar)
df_original = pd.read_csv('../data/processed/sitycleta_dataset_enriched.csv')

# Dataset preprocesado
df_pre = pd.read_csv('../data/processed/sitycleta_preprocessed.csv')

üìä 8. Comprobar valores nulos antes vs despu√©s

In [13]:
print("üëâ Dataset original:", df_original.shape)
print("üëâ Dataset preprocesado:", df_pre.shape)

print("\n‚úÖ Columnas nuevas en el dataset preprocesado:")
print(set(df_pre.columns) - set(df_original.columns))

üëâ Dataset original: (1444050, 12)
üëâ Dataset preprocesado: (1444050, 14)

‚úÖ Columnas nuevas en el dataset preprocesado:
{'free_bikes_lag1', 'free_bikes_roll3'}


üìà 9. Comparar estad√≠sticas generales

In [15]:
# Mostrar resumen estad√≠stico de columnas clave
cols_to_check = ['temp_c', 'precip_mm', 'wind_speed_kmh', 'Free bikes']
df_original[cols_to_check].describe()

Unnamed: 0,temp_c,precip_mm,wind_speed_kmh,Free bikes
count,1439821.0,1372967.0,1439821.0,1444050.0
mean,22.10028,0.01830656,26.94219,5.055425
std,2.732414,0.1133057,14.05587,3.381834
min,13.4,0.0,0.0,0.0
25%,20.1,0.0,14.8,3.0
50%,22.0,0.0,27.7,5.0
75%,23.9,0.0,38.9,7.0
max,34.5,3.3,64.8,61.0


In [16]:
df_pre[cols_to_check].describe()

Unnamed: 0,temp_c,precip_mm,wind_speed_kmh,Free bikes
count,1444050.0,1444050.0,1444050.0,1444050.0
mean,0.4123293,0.00527437,0.4157837,5.055425
std,0.1293097,0.03350083,0.2165949,3.381834
min,0.0,0.0,0.0,0.0
25%,0.3175355,0.0,0.2283951,3.0
50%,0.4075829,0.0,0.4274691,5.0
75%,0.4976303,0.0,0.6003086,7.0
max,1.0,1.0,1.0,61.0


üìâ 10. Ver ejemplos de valores imputados y escalados

In [17]:
# Ejemplo antes y despu√©s en una estaci√≥n concreta
ejemplo = 1001  # ID de estaci√≥n arbitrario

df_original[df_original['Place number'] == ejemplo][['Time stamp', 'temp_c', 'precip_mm', 'wind_speed_kmh']].head(5)

Unnamed: 0,Time stamp,temp_c,precip_mm,wind_speed_kmh


In [18]:
df_pre[df_pre['Place number'] == ejemplo][['Time stamp', 'temp_c', 'precip_mm', 'wind_speed_kmh']].head(5)

Unnamed: 0,Time stamp,temp_c,precip_mm,wind_speed_kmh


## üîç Comparaci√≥n: Dataset original vs preprocesado

### üßæ 1. Cambios estructurales

- **Tama√±o:** Ambos datasets tienen **1.444.050 registros** ‚Üí no se eliminaron datos.
- **Nuevas columnas a√±adidas:**
  - `free_bikes_lag1`: valor de bicicletas libres en el instante anterior.
  - `free_bikes_roll3`: media m√≥vil de 3 observaciones anteriores por estaci√≥n.

Total columnas:
- Original ‚Üí 12
- Preprocesado ‚Üí 14 ‚úÖ

---

### üßπ 2. Valores nulos

- En el dataset original hab√≠a **valores nulos en:**
  - `temp_c` (~4.229)
  - `wind_speed_kmh` (~4.229)
  - `precip_mm` (~71.083)
- En el dataset preprocesado, **no quedan nulos** ‚úÖ

---

### ‚öôÔ∏è 3. Estad√≠sticas antes y despu√©s

#### Temperatura (`temp_c`)
- Antes: media ‚âà **22.1¬∞C**, valores reales entre 13.4 y 34.5.
- Despu√©s: escalada entre **0.0 y 1.0**, con media ‚âà **0.41**.

#### Precipitaci√≥n (`precip_mm`)
- Antes: valores muy bajos, mayor√≠a 0.0, con algunos m√°ximos de 3.3 mm.
- Despu√©s: escalada a 0‚Äì1, manteniendo la asimetr√≠a y la predominancia de ceros.

#### Viento (`wind_speed_kmh`)
- Antes: media ‚âà **26.9 km/h**, con outliers hasta ~65 km/h.
- Despu√©s: valores escalados entre **0.0 y 1.0**, con media ‚âà **0.42**.

#### Free bikes
- No se ha modificado. Las estad√≠sticas son exactamente iguales ‚úÖ

---

### üß™ 4. Ejemplo por estaci√≥n

- Se compararon datos de una estaci√≥n (`Place number` = 1001).
- Se verificaron cambios en imputaciones y escalado: las transformaciones fueron aplicadas correctamente.

---

### ‚úÖ Conclusi√≥n

- Se han imputado correctamente los valores nulos.
- Las variables meteorol√≥gicas han sido escaladas sin p√©rdida de informaci√≥n.
- Se a√±adieron dos variables temporales (`lag` y `rolling`) √∫tiles para el modelado temporal.
- El dataset preprocesado est√° **limpio, completo y listo** para dividir en entrenamiento/test.