# Cuaderno de la Capa Bronce 🥉

Este cuaderno muestra la carga inicial de los datasets de vuelos y feriados largos. Los datos se encuentran en su estado original, sin ningún tipo de limpieza o transformación.

## 1. Carga del Dataset de Vuelos (CSV)

Se carga el archivo `base_microdatos.csv` y se muestran las primeras filas para verificar el formato y las columnas originales.

In [None]:
import pandas as pd
import os
path_bronce = 'data/bronze/20250825'
nombre_archivo_vuelos = 'base_microdatos.csv'

ruta_vuelos = os.path.join(path_bronce, nombre_archivo_vuelos)
df_vuelos_bronce = pd.read_csv(ruta_vuelos)
print("Primeras 5 filas del dataset de vuelos:")
print(df_vuelos_bronce.head())


Primeras 5 filas del dataset de vuelos:
  indice_tiempo clasificacion_vuelo clase_vuelo              aerolinea  \
0    2017-01-01            Cabotaje  No Regular    Andes Líneas Aéreas   
1    2017-01-01            Cabotaje  No Regular    Andes Líneas Aéreas   
2    2017-01-01            Cabotaje  No Regular    Andes Líneas Aéreas   
3    2017-01-01            Cabotaje     Regular  Aerolíneas Argentinas   
4    2017-01-01            Cabotaje     Regular  Aerolíneas Argentinas   

  origen_oaci                          origen_aeropuerto  \
0        SAAV                  Aeropuerto de Sauce Viejo   
1        SASA    Aeropuerto Int. Martín Miguel de Güemes   
2        SAZS       Aeropuerto Int. Tte. Luis Candelaria   
3        SAAR  Aeropuerto Int. de Rosario Islas Malvinas   
4        SAAR  Aeropuerto Int. de Rosario Islas Malvinas   

          origen_localidad origen_provincia origen_pais origen_continente  \
0                 Santa Fe         Santa Fe   Argentina   América del Sur   


In [5]:
print(f'Información del DataFrame de vuelos:\n{df_vuelos_bronce.info()}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 929489 entries, 0 to 929488
Data columns (total 19 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   indice_tiempo        929489 non-null  object
 1   clasificacion_vuelo  929489 non-null  object
 2   clase_vuelo          929489 non-null  object
 3   aerolinea            929489 non-null  object
 4   origen_oaci          929489 non-null  object
 5   origen_aeropuerto    929489 non-null  object
 6   origen_localidad     929489 non-null  object
 7   origen_provincia     733297 non-null  object
 8   origen_pais          929489 non-null  object
 9   origen_continente    929488 non-null  object
 10  destino_oaci         929489 non-null  object
 11  destino_aeropuerto   929489 non-null  object
 12  destino_localidad    929489 non-null  object
 13  destino_provincia    731862 non-null  object
 14  destino_pais         929489 non-null  object
 15  destino_continente   929489 non-nu

In [6]:
print(f'Columnas del DataFrame de vuelos:\n{df_vuelos_bronce.columns}')

Columnas del DataFrame de vuelos:
Index(['indice_tiempo', 'clasificacion_vuelo', 'clase_vuelo', 'aerolinea',
       'origen_oaci', 'origen_aeropuerto', 'origen_localidad',
       'origen_provincia', 'origen_pais', 'origen_continente', 'destino_oaci',
       'destino_aeropuerto', 'destino_localidad', 'destino_provincia',
       'destino_pais', 'destino_continente', 'pasajeros', 'asientos',
       'vuelos'],
      dtype='object')


## 2. Carga del Dataset de Feriados (Excel)

Se carga el archivo `FeriadosLargos.xlsx` para confirmar que los datos se pueden leer correctamente y se muestran las primeras filas para verificar el formato y las columnas originales.

In [9]:
path_bronce = 'data/bronze/20250825'
nombre_archivo_feriados_largos = 'FeriadosLargos.xlsx'

ruta_feriados = os.path.join(path_bronce, nombre_archivo_feriados_largos)
df_feriados_bronce = pd.read_excel(ruta_feriados)
print("Primeras 5 filas del dataset de feriados:")
print(df_feriados_bronce.head())

Primeras 5 filas del dataset de feriados:
  indice_tiempo
0    2024-01-01
1    2024-02-10
2    2024-02-11
3    2024-02-12
4    2024-02-13


In [10]:
print(f'Información del DataFrame de vuelos:\n{df_feriados_bronce.info()}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 1 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   indice_tiempo  23 non-null     datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 316.0 bytes
Información del DataFrame de vuelos:
None


## Conclusiones de la Capa Bronce

### Resumen del Dataset de Vuelos

-   El dataset de vuelos contiene **929489 filas y 19 columnas**.
-   Las columnas principales para el análisis son `indice_tiempo`, `destino_provincia`, `pasajeros`, `asientos`, y `vuelos`.
-   La columna `indice_tiempo` está en formato `object` (texto) y deberá ser convertida a tipo `datetime` en la capa Plata.
-   Las columnas `pasajeros` y `asientos` tienen valores nulos que necesitarán ser manejados para evitar errores en los cálculos.

### Resumen del Dataset de Feriados

-   El dataset de feriados tiene **23 filas y 1 columna**.
-   Contiene la columna `indice_tiempo` que también deberá ser convertida a tipo `datetime` para poder unirla con el dataset de vuelos.

---

**Siguiente paso:** Pasar a la capa Plata para realizar la limpieza de datos y la unificación de ambos datasets.