In [1]:
import pandas as pd

In [2]:
# Cargar los archivos CSV en DataFrames
df_merged = pd.read_csv('merged_file.csv')
df_ecobici = pd.read_csv('ecobici_edited.csv')


In [3]:
# Convertir columnas de estaciones a cadenas y quitar ceros a la izquierda
df_merged['Ciclo_Estacion_Retiro'] = df_merged['Ciclo_Estacion_Retiro'].astype(str).str.lstrip('0')
df_merged['Ciclo_Estacion_Arribo'] = df_merged['Ciclo_Estacion_Arribo'].astype(str).str.lstrip('0')
df_ecobici['num_cicloe'] = df_ecobici['num_cicloe'].astype(str).str.lstrip('0')

In [4]:
# Inspeccionar valores únicos para depurar
print("Valores únicos de Ciclo_Estacion_Retiro:", df_merged['Ciclo_Estacion_Retiro'].unique())
print("Valores únicos de Ciclo_Estacion_Arribo:", df_merged['Ciclo_Estacion_Arribo'].unique())
print("Valores únicos de num_cicloe en ecobici:", df_ecobici['num_cicloe'].unique())

Valores únicos de Ciclo_Estacion_Retiro: ['568' '283' '34' '258' '43' '222' '254' '560' '165' '86' '4' '129' '98'
 '5' '325' '257' '121' '111' '270' '630' '544' '20' '154' '555' '26' '40'
 '8' '390-391' '145' '399' '46' '601' '389' '85' '303' '64' '136' '539'
 '528' '41' '16' '105' '185' '505' '104' '35' '23' '465' '31' '282' '125'
 '29' '33' '126' '549' '30' '7' '384' '553' '593' '164' '188' '113' '12'
 '6' '550' '470' '156' '263' '114' '14' '420' '134' '570' '461' '480'
 '237-238' '286' '52' '10' '299' '581' '162' '232' '460' '133' '494' '67'
 '500' '291' '313' '160' '564' '3' '27' '479' '595' '615' '312' '15' '305'
 '9' '47' '578' '628' '182' '32' '373' '19' '261' '538' '414' '115'
 '107-108' '524' '434' '413' '142' '138' '151' '217' '548' '259' '680'
 '95' '253' '489' '28' '450' '207' '119' '78' '66' '694' '314' '200' '187'
 '468' '566' '242' '488' '385' '120' '194' '260' '642' '345' '147' '54'
 '59' '127' '427' '495' '425' '574' '360' '482' '485' '292' '141' '116'
 '36' '175' '21'

In [5]:
# Fusionar la información de la estación de retiro
df_merged = pd.merge(
    df_merged,
    df_ecobici,
    how='left',
    left_on='Ciclo_Estacion_Retiro',
    right_on='num_cicloe',
    suffixes=('', '_Retiro')
)

# Renombrar las columnas de retiro
df_merged = df_merged.rename(columns={
    'nombre_estacion': 'nombre_estacion_Retiro',
    'calle_prin': 'calle_prin_Retiro',
    'calle_secu': 'calle_secu_Retiro',
    'colonia': 'colonia_Retiro',
    'alcaldia': 'alcaldia_Retiro',
    'latitud': 'latitud_Retiro',
    'longitud': 'longitud_Retiro',
    'sitio_de_e': 'sitio_de_e_Retiro'
})

In [6]:
# Fusionar la información de la estación de arribo
df_merged = pd.merge(
    df_merged,
    df_ecobici,
    how='left',
    left_on='Ciclo_Estacion_Arribo',
    right_on='num_cicloe',
    suffixes=('', '_Arribo')
)

# Renombrar las columnas de arribo
df_merged = df_merged.rename(columns={
    'nombre_estacion': 'nombre_estacion_Arribo',
    'calle_prin': 'calle_prin_Arribo',
    'calle_secu': 'calle_secu_Arribo',
    'colonia': 'colonia_Arribo',
    'alcaldia': 'alcaldia_Arribo',
    'latitud': 'latitud_Arribo',
    'longitud': 'longitud_Arribo',
    'sitio_de_e': 'sitio_de_e_Arribo'
})

In [7]:
# Opcional: Inspeccionar valores NaN en el DataFrame resultante
print("Valores NaN en el DataFrame resultante:")
print(df_merged.isna().sum())

Valores NaN en el DataFrame resultante:
Genero_Usuario             84
Edad_Usuario              886
Bici                        0
Ciclo_Estacion_Retiro       0
Fecha_Retiro                0
Hora_Retiro                 0
Ciclo_Estacion_Arribo       0
Fecha_Arribo                0
Hora_Arribo                 0
num_cicloe                  9
nombre_estacion_Retiro      9
calle_prin_Retiro           9
calle_secu_Retiro           9
colonia_Retiro              9
alcaldia_Retiro             9
latitud_Retiro              9
longitud_Retiro             9
sitio_de_e_Retiro           9
num_cicloe_Arribo         479
nombre_estacion_Arribo    479
calle_prin_Arribo         479
calle_secu_Arribo         479
colonia_Arribo            479
alcaldia_Arribo           479
latitud_Arribo            479
longitud_Arribo           479
sitio_de_e_Arribo         479
dtype: int64


In [8]:
# Eliminar filas con valores NaN
df_merged = df_merged.dropna()

In [9]:
print(df_merged.isna().sum())

Genero_Usuario            0
Edad_Usuario              0
Bici                      0
Ciclo_Estacion_Retiro     0
Fecha_Retiro              0
Hora_Retiro               0
Ciclo_Estacion_Arribo     0
Fecha_Arribo              0
Hora_Arribo               0
num_cicloe                0
nombre_estacion_Retiro    0
calle_prin_Retiro         0
calle_secu_Retiro         0
colonia_Retiro            0
alcaldia_Retiro           0
latitud_Retiro            0
longitud_Retiro           0
sitio_de_e_Retiro         0
num_cicloe_Arribo         0
nombre_estacion_Arribo    0
calle_prin_Arribo         0
calle_secu_Arribo         0
colonia_Arribo            0
alcaldia_Arribo           0
latitud_Arribo            0
longitud_Arribo           0
sitio_de_e_Arribo         0
dtype: int64


In [10]:
# Eliminar las columnas que resultan de las claves de unión para evitar redundancia

df_new = df_merged.loc[:, ~df_merged.columns.duplicated()]

In [11]:
df_new.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_Estacion_Arribo,Fecha_Arribo,Hora_Arribo,num_cicloe,...,sitio_de_e_Retiro,num_cicloe_Arribo,nombre_estacion_Arribo,calle_prin_Arribo,calle_secu_Arribo,colonia_Arribo,alcaldia_Arribo,latitud_Arribo,longitud_Arribo,sitio_de_e_Arribo
0,M,26.0,5180930,568,31/12/2024,23:57:02,572,01/01/2025,00:00:03,568,...,Arroyo,572,Manuel J. Othón_José T. Cuellar,Manuel J. Othón,José T. Cuellar,Obrera,Cuauhtemoc,19.414595,-99.135886,Arroyo
1,F,54.0,3653953,283,31/12/2024,23:51:40,596,01/01/2025,00:00:41,283,...,Arroyo,596,Cumbres De Maltrata_Uxmal,Cumbres De Maltrata,Uxmal,Narvarte,Benito Juarez,19.395205,-99.155049,Arroyo
2,M,38.0,7511322,34,31/12/2024,23:48:36,64,01/01/2025,00:00:59,34,...,Arroyo,64,Sonora_Ámsterdam,Sonora,Ámsterdam,Hipodromo,Cuauhtemoc,19.412982,-99.166936,Arroyo
3,M,41.0,3804572,258,31/12/2024,23:54:11,23,01/01/2025,00:01:08,258,...,Banqueta,23,Reforma_Praga,Reforma,Praga,Juarez,Cuauhtemoc,19.42528,-99.171099,Banqueta
4,M,35.0,3848405,43,31/12/2024,23:35:28,126,01/01/2025,00:01:17,43,...,Banqueta,126,Jalapa_Puebla,Jalapa,Puebla,Roma Norte,Cuauhtemoc,19.422288,-99.162138,Arroyo


In [12]:
columnas = df_new.columns.tolist()
columnas

['Genero_Usuario',
 'Edad_Usuario',
 'Bici',
 'Ciclo_Estacion_Retiro',
 'Fecha_Retiro',
 'Hora_Retiro',
 'Ciclo_Estacion_Arribo',
 'Fecha_Arribo',
 'Hora_Arribo',
 'num_cicloe',
 'nombre_estacion_Retiro',
 'calle_prin_Retiro',
 'calle_secu_Retiro',
 'colonia_Retiro',
 'alcaldia_Retiro',
 'latitud_Retiro',
 'longitud_Retiro',
 'sitio_de_e_Retiro',
 'num_cicloe_Arribo',
 'nombre_estacion_Arribo',
 'calle_prin_Arribo',
 'calle_secu_Arribo',
 'colonia_Arribo',
 'alcaldia_Arribo',
 'latitud_Arribo',
 'longitud_Arribo',
 'sitio_de_e_Arribo']

In [13]:
df_new.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_Estacion_Arribo,Fecha_Arribo,Hora_Arribo,num_cicloe,...,sitio_de_e_Retiro,num_cicloe_Arribo,nombre_estacion_Arribo,calle_prin_Arribo,calle_secu_Arribo,colonia_Arribo,alcaldia_Arribo,latitud_Arribo,longitud_Arribo,sitio_de_e_Arribo
0,M,26.0,5180930,568,31/12/2024,23:57:02,572,01/01/2025,00:00:03,568,...,Arroyo,572,Manuel J. Othón_José T. Cuellar,Manuel J. Othón,José T. Cuellar,Obrera,Cuauhtemoc,19.414595,-99.135886,Arroyo
1,F,54.0,3653953,283,31/12/2024,23:51:40,596,01/01/2025,00:00:41,283,...,Arroyo,596,Cumbres De Maltrata_Uxmal,Cumbres De Maltrata,Uxmal,Narvarte,Benito Juarez,19.395205,-99.155049,Arroyo
2,M,38.0,7511322,34,31/12/2024,23:48:36,64,01/01/2025,00:00:59,34,...,Arroyo,64,Sonora_Ámsterdam,Sonora,Ámsterdam,Hipodromo,Cuauhtemoc,19.412982,-99.166936,Arroyo
3,M,41.0,3804572,258,31/12/2024,23:54:11,23,01/01/2025,00:01:08,258,...,Banqueta,23,Reforma_Praga,Reforma,Praga,Juarez,Cuauhtemoc,19.42528,-99.171099,Banqueta
4,M,35.0,3848405,43,31/12/2024,23:35:28,126,01/01/2025,00:01:17,43,...,Banqueta,126,Jalapa_Puebla,Jalapa,Puebla,Roma Norte,Cuauhtemoc,19.422288,-99.162138,Arroyo


In [14]:
# Definir el nuevo orden de las columnas
nuevo_orden = [
    'Genero_Usuario',
    'Edad_Usuario',
    'Bici',
    'Ciclo_Estacion_Retiro',
    'num_cicloe',
    'nombre_estacion_Retiro',
    'calle_prin_Retiro',
    'calle_secu_Retiro',
    'colonia_Retiro',
    'alcaldia_Retiro',
    'latitud_Retiro',
    'longitud_Retiro',
    'sitio_de_e_Retiro',
    'Fecha_Retiro',
    'Hora_Retiro',
    'Ciclo_Estacion_Arribo',
    'num_cicloe_Arribo',
    'nombre_estacion_Arribo',
    'calle_prin_Arribo',
    'calle_secu_Arribo',
    'colonia_Arribo',
    'alcaldia_Arribo',
    'latitud_Arribo',
    'longitud_Arribo',
    'sitio_de_e_Arribo',
    'Fecha_Arribo',
    'Hora_Arribo'
]

# Reordenar las columnas del DataFrame df_new
df_new = df_new[nuevo_orden]
df_new.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,num_cicloe,nombre_estacion_Retiro,calle_prin_Retiro,calle_secu_Retiro,colonia_Retiro,alcaldia_Retiro,...,nombre_estacion_Arribo,calle_prin_Arribo,calle_secu_Arribo,colonia_Arribo,alcaldia_Arribo,latitud_Arribo,longitud_Arribo,sitio_de_e_Arribo,Fecha_Arribo,Hora_Arribo
0,M,26.0,5180930,568,568,Doctor Barragán_Doctor Erazo,Doctor Barragán,Doctor Erazo,Doctores,Cuauhtemoc,...,Manuel J. Othón_José T. Cuellar,Manuel J. Othón,José T. Cuellar,Obrera,Cuauhtemoc,19.414595,-99.135886,Arroyo,01/01/2025,00:00:03
1,F,54.0,3653953,283,283,Av. Coyoacán_Rafael Dondé,Av. Coyoacán,Rafael Dondé,Del Valle Norte,Benito Juarez,...,Cumbres De Maltrata_Uxmal,Cumbres De Maltrata,Uxmal,Narvarte,Benito Juarez,19.395205,-99.155049,Arroyo,01/01/2025,00:00:41
2,M,38.0,7511322,34,34,Liverpool_Génova,Liverpool,Génova,Juarez,Cuauhtemoc,...,Sonora_Ámsterdam,Sonora,Ámsterdam,Hipodromo,Cuauhtemoc,19.412982,-99.166936,Arroyo,01/01/2025,00:00:59
3,M,41.0,3804572,258,258,Circuito Interior_Juan Escutia,Circuito Interior,Juan Escutia,Condesa,Cuauhtemoc,...,Reforma_Praga,Reforma,Praga,Juarez,Cuauhtemoc,19.42528,-99.171099,Banqueta,01/01/2025,00:01:08
4,M,35.0,3848405,43,43,Revillagigedo_Juárez,Revillagigedo,Juárez,Centro,Cuauhtemoc,...,Jalapa_Puebla,Jalapa,Puebla,Roma Norte,Cuauhtemoc,19.422288,-99.162138,Arroyo,01/01/2025,00:01:17


In [15]:
# Definir las columnas a eliminar
columnas_a_eliminar = ['num_cicloe', 'num_cicloe_Arribo']

# Eliminar las columnas del DataFrame df_new
df_new = df_new.drop(columns=columnas_a_eliminar)


# Mostrar las primeras filas del DataFrame para confirmar
df_new.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,nombre_estacion_Retiro,calle_prin_Retiro,calle_secu_Retiro,colonia_Retiro,alcaldia_Retiro,latitud_Retiro,...,nombre_estacion_Arribo,calle_prin_Arribo,calle_secu_Arribo,colonia_Arribo,alcaldia_Arribo,latitud_Arribo,longitud_Arribo,sitio_de_e_Arribo,Fecha_Arribo,Hora_Arribo
0,M,26.0,5180930,568,Doctor Barragán_Doctor Erazo,Doctor Barragán,Doctor Erazo,Doctores,Cuauhtemoc,19.418013,...,Manuel J. Othón_José T. Cuellar,Manuel J. Othón,José T. Cuellar,Obrera,Cuauhtemoc,19.414595,-99.135886,Arroyo,01/01/2025,00:00:03
1,F,54.0,3653953,283,Av. Coyoacán_Rafael Dondé,Av. Coyoacán,Rafael Dondé,Del Valle Norte,Benito Juarez,19.397923,...,Cumbres De Maltrata_Uxmal,Cumbres De Maltrata,Uxmal,Narvarte,Benito Juarez,19.395205,-99.155049,Arroyo,01/01/2025,00:00:41
2,M,38.0,7511322,34,Liverpool_Génova,Liverpool,Génova,Juarez,Cuauhtemoc,19.424584,...,Sonora_Ámsterdam,Sonora,Ámsterdam,Hipodromo,Cuauhtemoc,19.412982,-99.166936,Arroyo,01/01/2025,00:00:59
3,M,41.0,3804572,258,Circuito Interior_Juan Escutia,Circuito Interior,Juan Escutia,Condesa,Cuauhtemoc,19.41653,...,Reforma_Praga,Reforma,Praga,Juarez,Cuauhtemoc,19.42528,-99.171099,Banqueta,01/01/2025,00:01:08
4,M,35.0,3848405,43,Revillagigedo_Juárez,Revillagigedo,Juárez,Centro,Cuauhtemoc,19.435136,...,Jalapa_Puebla,Jalapa,Puebla,Roma Norte,Cuauhtemoc,19.422288,-99.162138,Arroyo,01/01/2025,00:01:17


In [17]:
# Obtener el número de filas y columnas del DataFrame df_new
num_filas, num_columnas = df_new.shape

# Mostrar el número de filas y columnas
print("Número de filas:", num_filas)
print("Número de columnas:", num_columnas)

Número de filas: 22539389
Número de columnas: 25


In [16]:
# Guardar el DataFrame en un nuevo archivo CSV (opcional)
df_new.to_csv('archivo_ordenado.csv', index=True)