## Ejemplo 01: Procesamiento de datos y carga de datos
En este pequeño ejemplo, porcesaremos los datos de un dataset para cargarlos en una base de datos de manera programativa.

No te preocupes mucho por los detalles del código y demás, todo esto lo aprenderás en tu **Módulo de Procesamiento de datos con Python**.

### Importamos las bibliotecas necesarias

In [1]:
import pandas as pd

### Cargamos el dataset en formato CSV
Se muestra únicamente los primeros 5 registros.

In [2]:
df = pd.read_csv('/content/afluencia_metro_260524.csv')
df.head()

Unnamed: 0,fecha,mes,anio,linea,estacion,tipo_pago,afluencia
0,2021-01-01,Enero,2021,Línea 1,Balbuena,Boleto,1848
1,2021-01-01,Enero,2021,Línea 1,Balbuena,Prepago,790
2,2021-01-01,Enero,2021,Línea 1,Balbuena,Gratuidad,325
3,2021-01-01,Enero,2021,Línea 1,Balderas,Boleto,1103
4,2021-01-01,Enero,2021,Línea 1,Balderas,Prepago,922


### Damos formato a los datos, quitamos columnas innecesarias y estructuramos para poder cargar.

#### (1) Añadimos una columna con el dia

In [3]:
df['dia'] = pd.to_datetime(df['fecha']).dt.day
df.head()

Unnamed: 0,fecha,mes,anio,linea,estacion,tipo_pago,afluencia,dia
0,2021-01-01,Enero,2021,Línea 1,Balbuena,Boleto,1848,1
1,2021-01-01,Enero,2021,Línea 1,Balbuena,Prepago,790,1
2,2021-01-01,Enero,2021,Línea 1,Balbuena,Gratuidad,325,1
3,2021-01-01,Enero,2021,Línea 1,Balderas,Boleto,1103,1
4,2021-01-01,Enero,2021,Línea 1,Balderas,Prepago,922,1


#### (2) Volvemos numérico el mes para mayor facilidad de manipulación
Primero debemos saber cuáles son los distintos valores de la colunmna.

In [4]:
df['mes'].unique()

array(['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio',
       'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre', nan],
      dtype=object)

In [5]:
map1 = {'Enero': 1,
        'Febrero': 2,
        'Marzo': 3,
        'Abril': 4,
        'Mayo': 5,
        'Junio': 6,
        'Julio': 7,
        'Agosto': 8,
        'Septiembre': 9,
        'Octubre': 10,
        'Noviembre': 11,
        'Diciembre': 12}

df['mes'] = df['mes'].map(map1)
df.head()

Unnamed: 0,fecha,mes,anio,linea,estacion,tipo_pago,afluencia,dia
0,2021-01-01,1.0,2021,Línea 1,Balbuena,Boleto,1848,1
1,2021-01-01,1.0,2021,Línea 1,Balbuena,Prepago,790,1
2,2021-01-01,1.0,2021,Línea 1,Balbuena,Gratuidad,325,1
3,2021-01-01,1.0,2021,Línea 1,Balderas,Boleto,1103,1
4,2021-01-01,1.0,2021,Línea 1,Balderas,Prepago,922,1


#### (3) Repetimos lo mismo para la línea, estación y tipo_pago
En este caso, lo hacemos para cumplir con las formas normales y garantizar la integridad de la base de datos. Se crearán además los catálogos correspondientes para cargarlos en la base de datos.

In [6]:
# Líneas
df['linea'].unique()

array(['Línea 1', 'Línea 12', 'Línea 2', 'Línea 3', 'Línea 4', 'Línea 5',
       'Línea 6', 'Línea 7', 'Línea 8', 'Línea 9', 'Línea A', 'Línea B'],
      dtype=object)

In [7]:
map2 = {valor : i for i, valor in enumerate(df['linea'].unique())}
map2

{'Línea 1': 0,
 'Línea 12': 1,
 'Línea 2': 2,
 'Línea 3': 3,
 'Línea 4': 4,
 'Línea 5': 5,
 'Línea 6': 6,
 'Línea 7': 7,
 'Línea 8': 8,
 'Línea 9': 9,
 'Línea A': 10,
 'Línea B': 11}

In [8]:
df_lineas = pd.DataFrame(list(map2.items()), columns=['descripcion', 'id_linea'])
df_lineas[['id_linea','descripcion']]

Unnamed: 0,id_linea,descripcion
0,0,Línea 1
1,1,Línea 12
2,2,Línea 2
3,3,Línea 3
4,4,Línea 4
5,5,Línea 5
6,6,Línea 6
7,7,Línea 7
8,8,Línea 8
9,9,Línea 9


In [9]:
df_lineas[['id_linea','descripcion']].to_csv('lineas.csv', index=False)

In [10]:
# Estaciones
df['estacion'].unique()

array(['Balbuena', 'Balderas', 'Boulevard Puerto Aéreo', 'Candelaria',
       'Chapultepec', 'Cuauhtémoc', 'Gómez Farías', 'Insurgentes',
       'Isabel la Católica', 'Juanacatlán', 'Merced', 'Moctezuma',
       'Observatorio', 'Pantitlán', 'Pino Suárez', 'Salto del Agua',
       'San Lázaro', 'Sevilla', 'Tacubaya', 'Zaragoza',
       'Hospital 20 de Noviembre', 'Atlalilco', 'Calle 11', 'Culhuacán',
       'Eje Central', 'Ermita', 'Insurgentes Sur', 'Lomas Estrella',
       'Mexicaltzingo', 'Mixcoac', 'Nopalera', 'Olivos',
       'Parque de los Venados', 'Periférico Oriente',
       'San Andrés Tomatlán', 'Tezonco', 'Tláhuac', 'Tlaltenco', 'Zapata',
       'Zapotitlán', 'Allende', 'Bellas Artes', 'Chabacano',
       'Colegio Militar', 'Cuatro Caminos', 'Cuitláhuac', 'General Anaya',
       'Hidalgo', 'Nativitas', 'Normal', 'Panteones', 'Popotla',
       'Portales', 'Revolución', 'San Antonio Abad', 'San Cosme',
       'Tacuba', 'Tasqueña', 'Viaducto', 'Villa de Cortés', 'Xola',
       

In [11]:
map3 = {valor : i for i, valor in enumerate(df['estacion'].unique())}
map3

{'Balbuena': 0,
 'Balderas': 1,
 'Boulevard Puerto Aéreo': 2,
 'Candelaria': 3,
 'Chapultepec': 4,
 'Cuauhtémoc': 5,
 'Gómez Farías': 6,
 'Insurgentes': 7,
 'Isabel la Católica': 8,
 'Juanacatlán': 9,
 'Merced': 10,
 'Moctezuma': 11,
 'Observatorio': 12,
 'Pantitlán': 13,
 'Pino Suárez': 14,
 'Salto del Agua': 15,
 'San Lázaro': 16,
 'Sevilla': 17,
 'Tacubaya': 18,
 'Zaragoza': 19,
 'Hospital 20 de Noviembre': 20,
 'Atlalilco': 21,
 'Calle 11': 22,
 'Culhuacán': 23,
 'Eje Central': 24,
 'Ermita': 25,
 'Insurgentes Sur': 26,
 'Lomas Estrella': 27,
 'Mexicaltzingo': 28,
 'Mixcoac': 29,
 'Nopalera': 30,
 'Olivos': 31,
 'Parque de los Venados': 32,
 'Periférico Oriente': 33,
 'San Andrés Tomatlán': 34,
 'Tezonco': 35,
 'Tláhuac': 36,
 'Tlaltenco': 37,
 'Zapata': 38,
 'Zapotitlán': 39,
 'Allende': 40,
 'Bellas Artes': 41,
 'Chabacano': 42,
 'Colegio Militar': 43,
 'Cuatro Caminos': 44,
 'Cuitláhuac': 45,
 'General Anaya': 46,
 'Hidalgo': 47,
 'Nativitas': 48,
 'Normal': 49,
 'Panteones': 50

In [12]:
# Estaciones
df_estaciones = df[['estacion', 'linea']].drop_duplicates()
df_estaciones['id_linea'] = df_estaciones['linea'].map(map2)
df_estaciones['id_estacion'] = df_estaciones['estacion'].map(map3)
df_estaciones = df_estaciones.rename(columns={'estacion': 'descripcion'})
df_estaciones[['id_estacion', 'id_linea', 'descripcion']]

Unnamed: 0,id_estacion,id_linea,descripcion
0,0,0,Balbuena
3,1,0,Balderas
6,2,0,Boulevard Puerto Aéreo
9,3,0,Candelaria
12,4,0,Chapultepec
...,...,...,...
570,159,11,Río de los Remedios
573,160,11,Romero Rubio
576,16,11,San Lázaro
579,161,11,Tepito


In [13]:
df_estaciones[['id_estacion', 'id_linea', 'descripcion']].to_csv('estaciones.csv', index=False)

In [14]:
# Tipo de pago
df['tipo_pago'].unique()

array(['Boleto', 'Prepago', 'Gratuidad'], dtype=object)

In [15]:
map4 = {valor : i for i, valor in enumerate(df['tipo_pago'].unique())}
map4

{'Boleto': 0, 'Prepago': 1, 'Gratuidad': 2}

In [21]:
df_tipo_pago = pd.DataFrame()
df_tipo_pago['tipo_pago'] = df['tipo_pago'].unique()
df_tipo_pago['id_tipo_pago'] = df_tipo_pago['tipo_pago'].map(map4)
df_tipo_pago = df_tipo_pago.rename(columns={'tipo_pago':'descripcion'})
df_tipo_pago[['id_tipo_pago', 'descripcion']]

Unnamed: 0,id_tipo_pago,descripcion
0,0,Boleto
1,1,Prepago
2,2,Gratuidad


In [22]:
df_tipo_pago[['id_tipo_pago', 'descripcion']].to_csv('pago.csv', index=False)

#### (4) Generamos el consolidado final

In [24]:
df['id_estacion'] = df['estacion'].map(map3)
df['id_tipo_pago'] = df['tipo_pago'].map(map4)
df['id_consolidado'] = df.reset_index().index
df

Unnamed: 0,fecha,mes,anio,linea,estacion,tipo_pago,afluencia,dia,id_estacion,id_tipo_pago,id_consolidado
0,2021-01-01,1.0,2021,Línea 1,Balbuena,Boleto,1848,1,0,0,0
1,2021-01-01,1.0,2021,Línea 1,Balbuena,Prepago,790,1,0,1,1
2,2021-01-01,1.0,2021,Línea 1,Balbuena,Gratuidad,325,1,0,2,2
3,2021-01-01,1.0,2021,Línea 1,Balderas,Boleto,1103,1,1,0,3
4,2021-01-01,1.0,2021,Línea 1,Balderas,Prepago,922,1,1,1,4
...,...,...,...,...,...,...,...,...,...,...,...
675670,2024-02-29,2.0,2024,Línea 12,Insurgentes Sur,Prepago,32134,29,26,1,675670
675671,2024-02-29,2.0,2024,Línea 12,Insurgentes Sur,Gratuidad,2852,29,26,2,675671
675672,2024-02-29,2.0,2024,Línea 12,Mixcoac,Boleto,0,29,29,0,675672
675673,2024-02-29,2.0,2024,Línea 12,Mixcoac,Prepago,14162,29,29,1,675673


In [25]:
df[['id_consolidado','dia','mes','anio','id_estacion','id_tipo_pago','afluencia']]

Unnamed: 0,id_consolidado,dia,mes,anio,id_estacion,id_tipo_pago,afluencia
0,0,1,1.0,2021,0,0,1848
1,1,1,1.0,2021,0,1,790
2,2,1,1.0,2021,0,2,325
3,3,1,1.0,2021,1,0,1103
4,4,1,1.0,2021,1,1,922
...,...,...,...,...,...,...,...
675670,675670,29,2.0,2024,26,1,32134
675671,675671,29,2.0,2024,26,2,2852
675672,675672,29,2.0,2024,29,0,0
675673,675673,29,2.0,2024,29,1,14162


In [27]:
df[['id_consolidado','dia','mes','anio','id_estacion','id_tipo_pago','afluencia']].to_csv('consolidado.csv', index=False)