# Análisis de Rutas Combinadas
Este notebook está dedicado a la extracción y análisis de rutas específicas que son de nuestro interés, mediante la comparación de diversas métricas asignadas a cada ruta. Utilizamos estas comparativas para identificar patrones, eficiencias o áreas de mejora en las rutas seleccionadas.

A lo largo de este análisis, generamos visualizaciones que nos permiten observar no solo las métricas de interés, sino también el contexto más amplio en el que se desarrollan nuestras rutas. Este enfoque nos facilita una comprensión más profunda de los datos, permitiéndonos tomar decisiones informadas sobre posibles ajustes o mejoras.



# Combinaciones de rutas

In [1]:
import pandas as pd
from geopy.geocoders import Photon
from geopy.geocoders import Nominatim
from unidecode import unidecode
import unidecode
import numpy as np
from shapely.geometry import Point, Polygon
import geopandas as gpd
import matplotlib.pyplot as plt


### Cargamos Secuencias de rutas

In [None]:
#rutaspacifico = pd.read_excel('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Rutas Pacifico.xlsx')
#rutascentro = pd.read_excel('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Rutas Centro.xlsx')
#rutasgolfo = pd.read_excel('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Rutas Golfo.xlsx')

In [None]:
#rutaspacifico.dropna(axis=1, how='all', inplace=True)
#rutascentro.dropna(axis=1, how='all', inplace=True)
#rutasgolfo.dropna(axis=1, how='all', inplace=True)

In [None]:
# Reemplazamos los NaN por una cadena vacía y convertimos los números a texto con el formato 'PG####'
#rutaspacifico_str = rutaspacifico.fillna('').applymap(lambda x: f'PG{int(x)}' if x != '' else '')
#rutascentro_str = rutascentro.fillna('').applymap(lambda x: f'PG{int(x)}' if x != '' else '')
#rutasgolfo_str = rutasgolfo.fillna('').applymap(lambda x: f'PG{int(x)}' if x != '' else '')


In [None]:
# Combina las columnas en una cadena separada por comas
#rutaspacifico_str['secuencias_pacifico'] = rutaspacifico_str.apply(lambda x: ', '.join(filter(None, x)), axis=1)
#rutascentro_str['secuencias_centro'] = rutascentro_str.apply(lambda x: ', '.join(filter(None, x)), axis=1)
#rutasgolfo_str['secuencias_golfo'] = rutasgolfo_str.apply(lambda x: ', '.join(filter(None, x)), axis=1)


In [None]:
# Crear un nuevo DataFrame con una sola columna que contiene las secuencias
#df_secuencias_pacifico = pd.DataFrame({'secuencias_pacifico': rutaspacifico_str['secuencias_pacifico']})
#df_secuencias_centro = pd.DataFrame({'secuencias_centro': rutascentro_str['secuencias_centro']})
#df_secuencias_golfo = pd.DataFrame({'secuencias_golfo': rutasgolfo_str['secuencias_golfo']})


In [None]:
# Verificar filas duplicadas en df_secuencias_pacifico
#duplicados_pacifico = df_secuencias_pacifico.duplicated()
#print("Filas duplicadas en Pacifico:", df_secuencias_pacifico[duplicados_pacifico])

# Verificar filas duplicadas en df_secuencias_centro
#duplicados_centro = df_secuencias_centro.duplicated()
#print("Filas duplicadas en Centro:", df_secuencias_centro[duplicados_centro])

# Verificar filas duplicadas en df_secuencias_golfo
#duplicados_golfo = df_secuencias_golfo.duplicated()
#print("Filas duplicadas en Golfo:", df_secuencias_golfo[duplicados_golfo])


In [None]:
# Eliminar filas duplicadas en df_secuencias_pacifico
#df_secuencias_pacifico = df_secuencias_pacifico.drop_duplicates()

# Eliminar filas duplicadas en df_secuencias_centro
#df_secuencias_centro = df_secuencias_centro.drop_duplicates()

# Eliminar filas duplicadas en df_secuencias_golfo
#df_secuencias_golfo = df_secuencias_golfo.drop_duplicates()


In [None]:
# Cambiar el nombre de la columna en df_secuencias_centro
#df_secuencias_centro = df_secuencias_centro.rename(columns={'secuencias_centro': 'secuencias'})

# Cambiar el nombre de la columna en df_secuencias_golfo
#df_secuencias_golfo = df_secuencias_golfo.rename(columns={'secuencias_golfo': 'secuencias'})

# Cambiar el nombre de la columna en df_secuencias_pacifico
#df_secuencias_pacifico = df_secuencias_pacifico.rename(columns={'secuencias_pacifico': 'secuencias'})

## secuencias incorrectas, arregladon 12 de mayo

In [None]:
df_secuencias_centro = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Centro.csv')
df_secuencias_golfo = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Golfo.csv')
df_secuencias_pacifico = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Pacifico.csv')


In [None]:
# Unir los DataFrames
df_unido = pd.concat([df_secuencias_centro, df_secuencias_golfo, df_secuencias_pacifico], ignore_index=True)


In [None]:
df_unido

In [None]:
# Definir los nombres y prefijos de los identificadores para cada área
#nombres_areas = ['pacifico', 'centro', 'golfo']
#prefijos_areas = ['RP', 'RC', 'RG']

# Iterar sobre cada DataFrame y su respectivo nombre de área
#for nombre_area, prefijo_area in zip(nombres_areas, prefijos_areas):
    # Obtener el DataFrame correspondiente
#    df = globals()[f"df_secuencias_{nombre_area}"]
    
    # Generar identificadores únicos para cada secuencia en el DataFrame
#    identificadores = [f"{prefijo_area}{i+1:03d}" for i in range(len(df))]
    
    # Agregar la columna 'ID_Ruta' con los identificadores al DataFrame
#    df['ID_Ruta'] = identificadores
    
    # Reordenar las columnas
#    df = df[['ID_Ruta', 'secuencias']]
    
    # Mostrar las primeras filas del DataFrame para verificar
#    print(f"DataFrame df_secuencias_{nombre_area} con identificadores:")
#    print(df.head())
    print()


### Guardamos df con secuencias

In [None]:
#df_secuencias_pacifico.to_csv('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Secuencias_Pacifico.csv')
#df_secuencias_centro.to_csv('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Secuencias_Centro.csv')
#df_secuencias_golfo.to_csv('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/Secuencias_Golfo.csv')

### Notas:

Al procesar las rutas, nos dimos cuenta que habia muchas secuencias duplicadas. Tambien sera importante a la hora de reproducir la ultima version del ejercicio, eliminar filas intermedias antes de procesar los datos

yaa se eliminaron de todas las combinaciones, las id poligono que no tienen valores de ciudad, tambien se corrio otra revision de duplicados y salieron 1600 + rutas posibles diferentes

# secuencias incorrectas, arregladon 14 de mayo

Integraccion de secuencias faltantes
ya estan filtradas por regiones y en un df unico en secuencias diferentes

-tenemos que integrar las secuencias faltantes a las rutas existentes(filtered_secuences), volver a contabilizar la cantidad de rutas.
luego revisar que cada una de estas tenga un valor en values_df, luego generamos los arcos.

In [None]:
df_actualizado.to_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Final.csv')

In [2]:
df_secuencias = pd.read_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv")
df_secuencias = pd.read_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Final.csv")

In [None]:
#df_secuencias = df_secuencias[['ID_Ruta', 'Filtered_Secuencias', 'Arc_Sequences', 'Last_Five_IDs']]


In [8]:
df_secuencias

Unnamed: 0.1,Unnamed: 0,ID_Ruta,Filtered_Secuencias
0,0,RC0001,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
1,1,RC0002,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
2,2,RC0003,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
3,3,RC0004,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
4,4,RC0005,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
...,...,...,...
1860,1860,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
1861,1861,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
1862,1862,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
1863,1863,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."


In [None]:
import networkx as nx

# Crear un grafo dirigido
G = nx.DiGraph()
for sequence in df_secuencias['Filtered_Secuencias']:
    nodes = sequence.split(', ')
    for i in range(len(nodes)-1):
        G.add_edge(nodes[i], nodes[i+1])

# Usar algoritmos de grafos para identificar caminos o subgrafos faltantes
# nx.shortest_path(G, source, target) podría ayudarte a encontrar caminos faltantes entre nodos conocidos


In [None]:
import matplotlib.pyplot as plt

# Dibujar el grafo
pos = nx.spring_layout(G)  # Layout para una visualización agradable
nx.draw(G, pos, with_labels=True, node_color='skyblue', node_size=700, edge_color='#FF5733')
plt.show()


### metodologia para agregar nuevas rutas:

1) integramos inicios faltantes, en este caso faltaban los de la peninsula  se puede hacer directamente en la df original

In [4]:
# df inicios faltantes

df_inicios_faltantes = df_secuencias[['ID_Ruta', 'Filtered_Secuencias']]

df_inicios_faltantes.head()

Unnamed: 0,ID_Ruta,Filtered_Secuencias
0,RC0001,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
1,RC0002,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
2,RC0003,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
3,RC0004,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
4,RC0005,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."


In [5]:

nuevos_inicios_conectores = [
    {'nuevo_inicio': 'PG1810', 'conector': 'PG1769'},
    {'nuevo_inicio': 'PG1850, PG1811, PG1810', 'conector': 'PG1769'},
    {'nuevo_inicio': 'PG1850, PG1811, PG1772, PG1694, PG1654, PG1614', 'conector': 'PG1574'},
    {'nuevo_inicio': 'PG1695, PG1694, PG1654, PG1614', 'conector': 'PG1574'}
]

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']
        
        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)
    
    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar la función para agregar los nuevos inicios
df_actualizado = agregar_inicios(df_inicios_faltantes, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_actualizado)


     ID_Ruta                                Filtered_Secuencias
0     RC0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1     RC0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2     RC0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3     RC0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4     RC0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...      ...                                                ...
2436     NaN  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
2437     NaN  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
2438     NaN  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
2439     NaN  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
2440     NaN  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...

[2441 rows x 2 columns]


In [7]:
df_actualizado

Unnamed: 0,ID_Ruta,Filtered_Secuencias
0,RC0001,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
1,RC0002,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
2,RC0003,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
3,RC0004,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
4,RC0005,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
...,...,...
2436,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
2437,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
2438,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."
2439,,"PG1695, PG1694, PG1654, PG1614, PG1574, PG1495..."


In [9]:
# Filtrar los ID_Ruta que comienzan con 'RG' y no son NaN
df_rg = df_secuencias[df_secuencias['ID_Ruta'].str.startswith('RG', na=False)]

# Obtener el último número usado en los ID_Ruta con prefijo 'RG'
ultimo_numero_rg = df_rg['ID_Ruta'].str.extract(r'(\d+)$').astype(int).max().values[0]

# Filtrar las filas con NaN en ID_Ruta
df_nan = df_secuencias[df_secuencias['ID_Ruta'].isna()]

# Generar los nuevos ID_Ruta
nuevos_ids = [f"RG{str(i).zfill(4)}" for i in range(ultimo_numero_rg + 1, ultimo_numero_rg + 1 + len(df_nan))]

# Asignar los nuevos ID_Ruta a las filas con NaN
df_secuencias.loc[df_secuencias['ID_Ruta'].isna(), 'ID_Ruta'] = nuevos_ids

# Mostrar el DataFrame actualizado
print(df_secuencias)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0              0  RC0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1              1  RC0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2              2  RC0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3              3  RC0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4              4  RC0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
1860        1860  RG0839  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
1861        1861  RG0840  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
1862        1862  RG0841  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
1863        1863  RG0842  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...
1864        1864  RG0843  PG1695, PG1694, PG1654, PG1614, PG1574, PG1495...

[1865 rows x 3 columns]


### integraciones de arcos (intermedios) faltantes en rutas

1) crear nuevos inicios, vamos a definir un nuevo set de nuevos inicios en una ubicacion diferente al original. vamos a filtrar usando la columna ID_Ruta, todas las filas que tengan en su id el prefijo seleccionado y despues vamos a extraer de todas las secuencias disponibles que contengan determinado conector en una nueva lista diferente a la base de datos original. a estos duplicados se remplazara la parte posterior al conector por una nueva secuencia.

2) el paso dos es la misma logica que el ejercicio anterior.tenemos la df: df_general y tenemos una nueva lista de inicios diferentes que acabamos de generar, las cuales usaremos con un nuevo conector target el cual duplicaremos y remplazaremos en la fila duplicada la parte antes de cada conector por cada nuevo inicio de nuestra lista.

In [10]:
df_general = df_secuencias

In [None]:
df_general

In [12]:
import pandas as pd

# Crear subdataframes basados en los prefijos de ID_Ruta
df_rp = df_general[df_general['ID_Ruta'].str.startswith('RP', na=False)]
df_rc = df_general[df_general['ID_Ruta'].str.startswith('RC', na=False)]
df_rg = df_general[df_general['ID_Ruta'].str.startswith('RG', na=False)]

# Imprimir conteos de cada subdataframe
print(f"Conteo de secuencias con prefijo RP: {len(df_rp)}")
print(f"Conteo de secuencias con prefijo RC: {len(df_rc)}")
print(f"Conteo de secuencias con prefijo RG: {len(df_rg)}")


Conteo de secuencias con prefijo RP: 542
Conteo de secuencias con prefijo RC: 480
Conteo de secuencias con prefijo RG: 843


In [11]:
import pandas as pd

# Conjunto de datos proporcionado
set_info = {
    'prefijo': 'no filtrar',
    'conector_inicio': 'PG1222',
    'nueva_secuencia': ['PG1184', 'PG1145', 'PG1146', 'PG1108', 'PG1069', 'PG1030', 'PG1029'],
    'conector_salida': 'PG990'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_general, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])


Número de nuevos inicios generados: 5
[{'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1030, PG1029', 'conector': 'PG990'}, {'nuevo_inicio': 'PG1531, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1375, PG1297, PG1258, PG1219, PG1220, PG1221, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1030, PG1029', 'conector': 'PG990'}, {'nuevo_inicio': 'PG1530, PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1030, PG1029', 'conector': 'PG990'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1375, PG1297, PG1258, PG1219, PG1220, PG1221, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1030, PG1029', 'conector': 'PG990'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1

In [13]:
# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Crear subdataframe basado en el prefijo RP
df_rp = df_general[df_general['ID_Ruta'].str.startswith('RP', na=False)]

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rp_actualizado = agregar_inicios(df_rp, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rp_actualizado)


      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0         1131.0  RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1         1132.0  RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2         1133.0  RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3         1134.0  RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4         1135.0  RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
1437         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1438         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1439         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1440         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1441         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[1442 rows x 3 columns]


In [15]:
import pandas as pd

# Supongamos que tu DataFrame actualizado se llama df_rp_actualizado

# Identificar filas duplicadas basadas en la columna 'Filtered_Secuencias'
duplicados = df_rp_actualizado[df_rp_actualizado.duplicated(subset='Filtered_Secuencias', keep=False)]

# Mostrar las filas duplicadas
print(f"Número de filas duplicadas: {duplicados.shape[0]}")
print("Filas duplicadas en 'Filtered_Secuencias':")
print(duplicados)


Número de filas duplicadas: 900
Filas duplicadas en 'Filtered_Secuencias':
      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
542          NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
543          NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
544          NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
545          NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
546          NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
1437         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1438         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1439         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1440         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1441         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[900 rows x 

In [16]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rp_actualizado_sin_duplicados = df_rp_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rp_actualizado_sin_duplicados)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0         1131.0  RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1         1132.0  RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2         1133.0  RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3         1134.0  RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4         1135.0  RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
1266         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1267         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1268         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1269         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
1270         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[587 rows x 3 columns]


In [21]:
df_rp = df_rp_actualizado_sin_duplicados #actualizamos df pc con primer set de rutas faltantes

In [18]:
import pandas as pd

# Conjunto de datos proporcionado
set_info = {
    'prefijo': 'no filtrar',
    'conector_inicio': 'PG1222',
    'nueva_secuencia': ['PG1184', 'PG1145', 'PG1146', 'PG1108', 'PG1069', 'PG1031', 'PG993', 'PG994', 'PG995', 'PG956', 'PG841'],
    'conector_salida': 'PG761'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_general, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])


Número de nuevos inicios generados: 5
[{'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1031, PG993, PG994, PG995, PG956, PG841', 'conector': 'PG761'}, {'nuevo_inicio': 'PG1531, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1375, PG1297, PG1258, PG1219, PG1220, PG1221, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1031, PG993, PG994, PG995, PG956, PG841', 'conector': 'PG761'}, {'nuevo_inicio': 'PG1530, PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1031, PG993, PG994, PG995, PG956, PG841', 'conector': 'PG761'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1375, PG1297, PG1258, PG1219, PG1220, PG1221, PG1222, PG1184, PG1145, PG1146, PG1108, PG1069, PG1031, PG993, PG994, PG995, PG956, PG841', 'conector': 'PG761'}, {'nuevo_inicio': 'PG1530,

In [19]:
# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rp_actualizado = agregar_inicios(df_rp, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rp_actualizado)


      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0         1131.0  RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1         1132.0  RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2         1133.0  RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3         1134.0  RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4         1135.0  RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
3517         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3518         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3519         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3520         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3521         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[3522 rows x 3 columns]


In [20]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rp_actualizado_sin_duplicados = df_rp_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rp_actualizado_sin_duplicados)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0         1131.0  RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1         1132.0  RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2         1133.0  RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3         1134.0  RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4         1135.0  RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2940         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2941         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2942         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2943         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3232         NaN     NaN  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[637 rows x 3 columns]


In [24]:
df_rp = df_rp_actualizado_sin_duplicados

In [23]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RC se llama df_rc y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1031',
    'nueva_secuencia': ['PG1032'],
    'conector_salida': 'PG994'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rc, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rc_actualizado = agregar_inicios(df_rc, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rc_actualizado)


Número de nuevos inicios generados: 24
[{'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1147, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG994'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1184, PG1145, PG1146, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG994'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1147, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG994'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG994'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1147, PG1108, PG1109, PG

In [25]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rc_actualizado_sin_duplicados = df_rc_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rc_actualizado_sin_duplicados)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            0.0  RC0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            1.0  RC0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            2.0  RC0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            3.0  RC0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            4.0  RC0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
9877         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
9878         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
9879         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
9880         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
9932         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[912 rows x 3 columns]


In [26]:
df_rc = df_rc_actualizado_sin_duplicados

In [27]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RC se llama df_rc y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'prefijo': 'RC',
    'conector_inicio': 'PG1031',
    'nueva_secuencia': ['PG1032'],
    'conector_salida': 'PG1072'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rc, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rc_actualizado = agregar_inicios(df_rc, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rc_actualizado)


Número de nuevos inicios generados: 24
[{'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1222, PG1184, PG1145, PG1146, PG1147, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG1072'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1184, PG1145, PG1146, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG1072'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1147, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG1072'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1108, PG1070, PG1031, PG1032', 'conector': 'PG1072'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1260, PG1261, PG1223, PG1224, PG1185, PG1146, PG1147, PG1108, PG1109

In [28]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rc_actualizado_sin_duplicados = df_rc_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rc_actualizado_sin_duplicados)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            0.0  RC0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            1.0  RC0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            2.0  RC0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            3.0  RC0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            4.0  RC0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2497         NaN     NaN  PG1530, PG1531, PG1532, PG1493, PG1454, PG1415...
2498         NaN     NaN  PG1530, PG1531, PG1532, PG1493, PG1454, PG1415...
2568         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2569         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2570         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[984 rows x 3 columns]


In [31]:
df_rc = df_rc_actualizado_sin_duplicados

In [50]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RG se llama df_rg y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1152',
    'nueva_secuencia': ['PG1113', 'PG1114'],
    'conector_salida': 'PG1116'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rg, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rg_actualizado = agregar_inicios(df_rg, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rg_actualizado)


Número de nuevos inicios generados: 141
[{'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1300, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1190, PG1152, PG1113, PG1114', 'conector': 'PG1116'}, {'nuevo_inicio': 'PG1572, PG1533, PG1534, PG1456, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1152, PG1113, PG1114', 'conector': 'PG1116'}, {'nuevo_inicio': 'PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1377, PG1378, PG1379, PG1340, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1190, PG1152, PG1113, PG1114', 'conector': 'PG1116'}, {'nuevo_inicio': 'PG1810, PG1769, PG1730, PG1690, PG1613, PG1573, PG1534, PG1495, PG1417, PG1378, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1190, PG1152, PG1113, PG1114', 'conector': 'PG1116'}, {'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1456, PG1417, PG1378, PG1339, PG1301, PG1262, PG122

        Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...            ...     ...                                                ...
260269         NaN     NaN  PG1769, PG1730, PG1690, PG1613, PG1573, PG1534...
260270         NaN     NaN  PG1769, PG1730, PG1690, PG1613, PG1573, PG1534...
260271         NaN     NaN  PG1769, PG1730, PG1690, PG1613, PG1573, PG1534...
260272         NaN     NaN  PG1769, PG1730, PG1690, PG1613, PG1573, PG1534...
260273         NaN     NaN  PG1769, PG1730, PG1690, PG1613, PG1573, PG1534...

[260274 rows x 3 columns]


In [51]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rg_actualizado_sin_duplicados = df_rg_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rg_actualizado_sin_duplicados)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0          480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1          481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2          482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3          483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4          484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2662         NaN     NaN  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
2663         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2664         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2665         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2666         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[2667 rows x 3 columns]


In [52]:
df_rg = df_rg_actualizado_sin_duplicados

In [53]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RG se llama df_rg y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1192',
    'nueva_secuencia': ['PG1193'],
    'conector_salida': 'PG1154'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rg, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rg_actualizado = agregar_inicios(df_rg, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rg_actualizado)


Número de nuevos inicios generados: 210
[{'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193', 'conector': 'PG1154'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1300, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193', 'conector': 'PG1154'}, {'nuevo_inicio': 'PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1300, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1228, PG1229, PG1192, PG1193', 'conector': 'PG1154'}, {'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1229, PG1192, PG1193', 'conector': 'PG1154'}, {'nuevo_inicio': 'PG1572, PG1573, PG1534, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG119

        Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...            ...     ...                                                ...
267892         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
267893         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
267894         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
267895         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
267896         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[267897 rows x 3 columns]


In [34]:
df_rg_actualizado

Unnamed: 0.1,Unnamed: 0,ID_Ruta,Filtered_Secuencias
0,480.0,RG0001,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
1,481.0,RG0002,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
2,482.0,RG0003,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
3,483.0,RG0004,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
4,484.0,RG0005,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
...,...,...,...
90232,,,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
90233,,,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
90234,,,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."
90235,,,"PG1529, PG1530, PG1491, PG1492, PG1453, PG1414..."


In [54]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rg_actualizado_sin_duplicados = df_rg_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rg_actualizado_sin_duplicados)

df_rg = df_rg_actualizado_sin_duplicados

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0          480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1          481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2          482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3          483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4          484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2662         NaN     NaN  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
2663         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2664         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2665         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2666         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[2667 rows x 3 columns]


In [56]:
print(df_rg)

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0          480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1          481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2          482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3          483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4          484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2662         NaN     NaN  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
2663         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2664         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2665         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2666         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[2667 rows x 3 columns]


In [41]:
df_rg = df_rg_actualizado_sin_duplicados

In [57]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RG se llama df_rg y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1192',
    'nueva_secuencia': ['PG1193', 'PG1194'],
    'conector_salida': 'PG1155'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rg, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rg_actualizado = agregar_inicios(df_rg, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rg_actualizado)


Número de nuevos inicios generados: 210
[{'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1155'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1300, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1155'}, {'nuevo_inicio': 'PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1300, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1228, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1155'}, {'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1155'}, {'nuevo_inicio': 'PG1572, PG1573, PG1534, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG118

        Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...            ...     ...                                                ...
297502         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297503         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297504         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297505         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297506         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[297507 rows x 3 columns]


In [43]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RG se llama df_rg y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1192',
    'nueva_secuencia': ['PG1193', 'PG1194'],
    'conector_salida': 'PG1233'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rg, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rg_actualizado = agregar_inicios(df_rg, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rg_actualizado)


Número de nuevos inicios generados: 210
[{'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1233'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1300, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1233'}, {'nuevo_inicio': 'PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1300, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1228, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1233'}, {'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1229, PG1192, PG1193, PG1194', 'conector': 'PG1233'}, {'nuevo_inicio': 'PG1572, PG1573, PG1534, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG118

        Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...            ...     ...                                                ...
238282         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
238283         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
238284         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
238285         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
238286         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[238287 rows x 3 columns]


In [58]:
print(df_rg_actualizado)

        Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0            480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1            481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2            482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3            483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4            484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...            ...     ...                                                ...
297502         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297503         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297504         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297505         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
297506         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[297507 rows x 3 columns]


In [59]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rg_actualizado_sin_duplicados = df_rg_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rg_actualizado_sin_duplicados)

df_rg = df_rg_actualizado_sin_duplicados

      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0          480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1          481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2          482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3          483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4          484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2662         NaN     NaN  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
2663         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2664         NaN     NaN  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
2665         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2666         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[2667 rows x 3 columns]


In [60]:
import pandas as pd

# Supongamos que tu DataFrame con prefijo RG se llama df_rg y tiene columnas 'ID_Ruta' y 'Filtered_Secuencias'

# Conjunto de datos proporcionado
set_info = {
    'conector_inicio': 'PG1192',
    'nueva_secuencia': ['PG1193'],
    'conector_salida': 'PG1232'
}

# Función para procesar el conjunto
def procesar_set(df, conector_inicio, nueva_secuencia, conector_salida):
    # Lista para almacenar las secuencias únicas hasta el conector
    secuencias_unicas_hasta_conector = []

    # Iterar sobre las secuencias
    for _, row in df.iterrows():
        secuencia = row['Filtered_Secuencias']
        if conector_inicio in secuencia:
            partes = secuencia.split(', ')
            indice_conector = partes.index(conector_inicio)
            secuencia_hasta_conector = ', '.join(partes[:indice_conector + 1])
            secuencias_unicas_hasta_conector.append(secuencia_hasta_conector)

    # Eliminar duplicados
    secuencias_unicas_hasta_conector = list(set(secuencias_unicas_hasta_conector))

    # Crear nuevas secuencias con el reemplazo
    nuevos_inicios_conectores = []
    for secuencia_hasta_conector in secuencias_unicas_hasta_conector:
        nueva_sec = secuencia_hasta_conector.split(', ') + nueva_secuencia
        nuevo_inicio = ', '.join(nueva_sec)
        nuevos_inicios_conectores.append({
            'nuevo_inicio': nuevo_inicio,
            'conector': conector_salida
        })

    # Contar el número de nuevos inicios generados
    conteo_nuevos_inicios = len(nuevos_inicios_conectores)

    # Mostrar la lista de nuevos inicios y conectores y el conteo
    print(f"Número de nuevos inicios generados: {conteo_nuevos_inicios}")
    print(nuevos_inicios_conectores)

    return nuevos_inicios_conectores

# Aplicar la función para procesar el conjunto
nuevos_inicios_conectores = procesar_set(df_rg, set_info['conector_inicio'], set_info['nueva_secuencia'], set_info['conector_salida'])

# Función para agregar los nuevos inicios a las secuencias que contienen los conectores
def agregar_inicios(df, inicios_conectores):
    nuevas_secuencias = []

    for inicio_conector in inicios_conectores:
        nuevo_inicio = inicio_conector['nuevo_inicio']
        conector = inicio_conector['conector']

        for secuencia in df['Filtered_Secuencias']:
            if conector in secuencia:
                # Dividir la secuencia por el conector
                partes = secuencia.split(', ')
                indice_conector = partes.index(conector)
                # Crear la nueva secuencia reemplazando la parte anterior al conector por el nuevo inicio
                nueva_secuencia = f"{nuevo_inicio}, {conector}, " + ', '.join(partes[indice_conector + 1:])
                nuevas_secuencias.append(nueva_secuencia)

    # Crear un nuevo DataFrame con las secuencias duplicadas y actualizadas
    df_nuevas_secuencias = pd.DataFrame({'Filtered_Secuencias': nuevas_secuencias})
    return pd.concat([df, df_nuevas_secuencias], ignore_index=True)

# Aplicar los nuevos inicios y conectores al subdataframe correspondiente
df_rg_actualizado = agregar_inicios(df_rg, nuevos_inicios_conectores)

# Mostrar el DataFrame actualizado
print(df_rg_actualizado)


Número de nuevos inicios generados: 210
[{'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193', 'conector': 'PG1232'}, {'nuevo_inicio': 'PG1529, PG1530, PG1491, PG1492, PG1453, PG1414, PG1415, PG1376, PG1298, PG1299, PG1300, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG1190, PG1229, PG1192, PG1193', 'conector': 'PG1232'}, {'nuevo_inicio': 'PG1531, PG1532, PG1493, PG1454, PG1415, PG1376, PG1298, PG1299, PG1300, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1228, PG1229, PG1192, PG1193', 'conector': 'PG1232'}, {'nuevo_inicio': 'PG1690, PG1613, PG1574, PG1495, PG1417, PG1378, PG1339, PG1301, PG1302, PG1263, PG1264, PG1265, PG1226, PG1227, PG1228, PG1229, PG1192, PG1193', 'conector': 'PG1232'}, {'nuevo_inicio': 'PG1572, PG1573, PG1534, PG1495, PG1417, PG1378, PG1339, PG1301, PG1262, PG1223, PG1224, PG1185, PG1186, PG1187, PG1150, PG119

       Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0           480.0  RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1           481.0  RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2           482.0  RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3           483.0  RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4           484.0  RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...           ...     ...                                                ...
90862         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90863         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90864         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90865         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90866         NaN     NaN  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[90867 rows x 3 columns]


In [63]:
print(df_rg_actualizado)

       Unnamed: 0  ID_Ruta                                Filtered_Secuencias
0           480.0   RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1           481.0   RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2           482.0   RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3           483.0   RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4           484.0   RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...           ...      ...                                                ...
90862         NaN  RG90863  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90863         NaN  RG90864  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90864         NaN  RG90865  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90865         NaN  RG90866  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90866         NaN  RG90867  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[90867 rows x 3 columns]


In [64]:
# Eliminar filas duplicadas basadas en la columna 'Filtered_Secuencias', manteniendo la primera aparición
df_rg_actualizado_sin_duplicados = df_rg_actualizado.drop_duplicates(subset='Filtered_Secuencias', keep='first')

# Mostrar el DataFrame sin duplicados
print(df_rg_actualizado_sin_duplicados)

df_rg = df_rg_actualizado_sin_duplicados

       Unnamed: 0  ID_Ruta                                Filtered_Secuencias
0           480.0   RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1           481.0   RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2           482.0   RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3           483.0   RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4           484.0   RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...           ...      ...                                                ...
89608         NaN  RG89609  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
90027         NaN  RG90028  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
90028         NaN  RG90029  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
90447         NaN  RG90448  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
90448         NaN  RG90449  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[3087 rows x 3 columns]


In [65]:
import pandas as pd

# Función para recalcular el índice ID_Ruta
def recalcular_id_ruta(df, prefijo):
    df = df.copy()
    df['ID_Ruta'] = df['ID_Ruta'].fillna('')
    ultimo_numero = df[df['ID_Ruta'].str.startswith(prefijo)]['ID_Ruta'].str[2:].astype(int).max()
    
    nuevas_filas = df[df['ID_Ruta'] == '']
    nuevos_ids = [f"{prefijo}{str(i).zfill(4)}" for i in range(ultimo_numero + 1, ultimo_numero + 1 + len(nuevas_filas))]
    
    df.loc[df['ID_Ruta'] == '', 'ID_Ruta'] = nuevos_ids
    return df

# Recalcular el índice para cada DataFrame
df_rp = recalcular_id_ruta(df_rp, 'RP')
df_rc = recalcular_id_ruta(df_rc, 'RC')
df_rg = recalcular_id_ruta(df_rg, 'RG')

# Mostrar los DataFrames actualizados
print(df_rp)
print(df_rc)
print(df_rg)


      Unnamed: 0 ID_Ruta                                Filtered_Secuencias
0         1131.0  RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1         1132.0  RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2         1133.0  RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3         1134.0  RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4         1135.0  RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...          ...     ...                                                ...
2940         NaN  RP0691  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2941         NaN  RP0692  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2942         NaN  RP0693  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
2943         NaN  RP0694  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...
3232         NaN  RP0695  PG1530, PG1491, PG1492, PG1453, PG1414, PG1415...

[637 rows x 3 columns]
      Unnamed: 0 ID_Ruta                                Filtered

In [69]:
# Mostrar el DataFrame unido
print(df_unida)


     ID_Ruta                                Filtered_Secuencias
0     RP0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1     RP0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2     RP0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3     RP0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4     RP0006  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...      ...                                                ...
4703  RP4762  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
4704  RP4763  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
4705  RP4764  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
4706  RP4765  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4707  RP4766  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[4708 rows x 2 columns]


In [71]:
import pandas as pd

# Función para recalcular el índice ID_Ruta
def recalcular_id_ruta(df, prefijo):
    df = df.copy()
    
    # Asegurar que todos los valores en ID_Ruta son cadenas
    df['ID_Ruta'] = df['ID_Ruta'].astype(str)
    
    # Crear una serie booleana para identificar las filas con prefijo
    has_prefix = df['ID_Ruta'].str.startswith(prefijo)
    
    # Filtrar y encontrar el último número usado en el prefijo
    if has_prefix.any():
        ultimo_numero = df[has_prefix]['ID_Ruta'].str[2:].astype(int).max()
    else:
        ultimo_numero = 0
    
    # Recalcular los nuevos IDs para las filas sin ID_Ruta o con prefijo
    nuevas_filas = df.loc[~df['ID_Ruta'].str.startswith(prefijo) | df['ID_Ruta'].isna()]
    nuevos_ids = [f"{prefijo}{str(i).zfill(4)}" for i in range(ultimo_numero + 1, ultimo_numero + 1 + len(nuevas_filas))]
    
    # Actualizar los IDs recalculados
    df.loc[nuevas_filas.index, 'ID_Ruta'] = nuevos_ids
    return df

# Recalcular el índice para la DataFrame unida
df_unida = recalcular_id_ruta(df_unida, 'RP')
df_unida = recalcular_id_ruta(df_unida, 'RC')
df_unida = recalcular_id_ruta(df_unida, 'RG')

# Revisar y eliminar duplicados en la columna Filtered_Secuencias
df_unida = df_unida.drop_duplicates(subset=['Filtered_Secuencias'])

# Seleccionar solo las columnas ID_Ruta y Filtered_Secuencias
df_unida = df_unida[['ID_Ruta', 'Filtered_Secuencias']]

# Mostrar el DataFrame unido
print(df_unida)



     ID_Ruta                                Filtered_Secuencias
0     RG0001  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
1     RG0002  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
2     RG0003  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
3     RG0004  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4     RG0005  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
...      ...                                                ...
4703  RG4704  PG1572, PG1573, PG1534, PG1456, PG1417, PG1378...
4704  RG4705  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
4705  RG4706  PG1531, PG1532, PG1533, PG1494, PG1456, PG1417...
4706  RG4707  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...
4707  RG4708  PG1529, PG1530, PG1491, PG1492, PG1453, PG1414...

[4708 rows x 2 columns]


In [72]:
df_unida.to_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Final.csv')

In [None]:
values_df = pd.read_csv('/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/df_valores_rutas.csv')

In [None]:
dfvalores.head()

In [None]:
dfvalores.shape

In [None]:
# Sort the DataFrame by 'eventos' in descending order
df_sorted = dfvalores.sort_values(by='inm_30km', ascending=False)

# If you want to reset the index after sorting and drop the old index
df_sorted = df_sorted.reset_index(drop=True)

print(df_sorted)

#### Ciudad Top (Detenciones)

Filtramos el df de manera que nos quede la ciudad con mas detenciones de cada grid

#### Aqui tenemos que tomar la decision de como sacar el punto de referencia para asignar el valor de cada ruta:

    a) Agrupamos por 'ID_Poligono' y encontramos la ciudad con el máximo número de 'detenciones' para cada grupo
    b) Agrupamos por 'ID_Poligono' y sacamos el promedio de 'detenciones' de todas las ciudades para cada grupo
    
  R: Aplicaremos metodo de promedio

In [None]:
# Agrupamos por 'ID_Poligono' y encontramos la ciudad con el máximo número de 'detenciones' para cada grupo
ciudades_top_valores = dfvalores.loc[dfvalores.groupby('ID_Poligono')['eventos'].idxmax()]

# Calcular el promedio de detenciones para cada 'ID_Poligono' y redondearlo sin decimales
promedio_detenciones = dfvalores.groupby('ID_Poligono')['eventos'].mean().round(0)

# Resetear el índice si es necesario
ciudades_top_valores.reset_index(drop=True, inplace=True)

# Agregar la columna 'promedio_detenciones' al DataFrame resultante
ciudades_top_valores['promedio_eventos'] = ciudades_top_valores['ID_Poligono'].map(promedio_detenciones)

# Mostramos las primeras filas del nuevo DataFrame para verificar
print(ciudades_top_valores.head())




In [None]:
ciudades_top_valores.head(60)

# Generación de visuales

### Pacifico

##### RP105

In [None]:
# Paso 1: Encuentra la secuencia para 'RG142' en 'df_filtrado2_sorted'
secuencia_ruta1 = df_pacifico_sumas.loc[df_pacifico_sumas['ID_Ruta'] == 'RP105', 'secuencia'].iloc[0]

# Paso 2: Separa esa secuencia en una lista de 'ID_Poligono'
secuencia_lista = secuencia_ruta1.split(', ')

# Paso 3: Filtra 'ciudades_top_valores' para conservar solo las filas con esos 'ID_Poligono'
filtered_ciudades = ciudades_top_valores[ciudades_top_valores['ID_Poligono'].isin(secuencia_lista)]

#Paso 4: Crear una columna 'Order' en 'filtered_ciudades' que asigne a cada 'ID_Poligono' su posición en la secuencia
order_dict = {id_poly: order for order, id_poly in enumerate(secuencia_lista)}
filtered_ciudades['Order'] = filtered_ciudades['ID_Poligono'].map(order_dict)

# Ordenar 'filtered_ciudades' por la columna 'Order'
ruta_RP105 = filtered_ciudades.sort_values('Order')

In [None]:
ruta_RP105.head(3)

In [None]:
# Cambiar los nombres de las columnas
ruta_RP105 = ruta_RP105.rename(columns={
    'detenciones': 'eventos',
    'promedio_detenciones': 'promedio_eventos',
    'detenciones_in_grid': 'eventos_in_grid'
})

In [None]:
# Convertir columnas de datos cuantitativos a numérico
quantitative_columns = ['eventos', 'eventos_in_grid', 'inm_30km', 'inm_in_grid', 'inm_in_estado', 'sc_30km', 'sc_in_grid', 'sc_in_estado','promedio_eventos']
for col in quantitative_columns:
    ruta_RP105[col] = pd.to_numeric(ruta_RP105[col])

# Convertir DataFrame en GeoDataFrame
gdf = gpd.GeoDataFrame(
    ruta_RP105, 
    geometry=gpd.points_from_xy(ruta_RP105.longitud, ruta_RP105.latitud),
    crs="EPSG:4326"
)

# Guardar como Shapefile
output_filename = "/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/rutas_creadas/pacifico/RP105/RP105.shp"
#gdf.to_file(output_filename)

# Guardar como CSV
output_filename_csv = "/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/rutas_creadas/pacifico/RP105/RP105.csv"
ruta_RP105.to_csv(output_filename_csv, index=False)

In [None]:
ruta_RP105 = pd.read_csv("/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/rutas_creadas/pacifico/RP105/RP105.csv")

In [None]:
# Normalize the 'ciudad' values to ensure there are only up to 62 unique points
unique_cities = ruta_RP105['ciudad'].unique()[:62]
ruta_RP105_filtered = ruta_RP105[ruta_RP105['ciudad'].isin(unique_cities)]

# Cap the 'eventos' at 50,000
ruta_RP105_filtered['eventos_capped'] = np.clip(ruta_RP105_filtered['eventos'], None, 50000)

# Create the figure and axis for the combined plot
fig, ax1 = plt.subplots(figsize=(20, 6))

# Configure the line plot for 'Eventos'
ax1.plot(ruta_RP105_filtered['ciudad'], ruta_RP105_filtered['eventos_capped'], color='black', label='Eventos', marker='o')

# Fill the area under the line plot with a very transparent red color
ax1.fill_between(ruta_RP105_filtered['ciudad'], 0, ruta_RP105_filtered['eventos_capped'], color='red', alpha=0.1)

# Annotate points that are capped
for i, (city, val) in enumerate(zip(ruta_RP105_filtered['ciudad'], ruta_RP105_filtered['eventos'])):
    if val > 50000:
        ax1.annotate('50k+', xy=(i, 50000), xytext=(0, 3), 
                     textcoords="offset points", ha='center', va='bottom')

# Set y-axis for 'Eventos' with a max value of 50,000 and ticks every 10,000
ax1.set_ylim(0, 50000)
ax1.set_yticks(np.arange(0, 50001, 10000))
ax1.set_ylabel('Eventos', color='black')
ax1.tick_params(axis='y', labelcolor='black')

# Rotate the x-axis labels for better visualization
ax1.set_xticks(range(len(unique_cities)))
ax1.set_xticklabels(unique_cities, rotation=45, ha="right")

# Set bar width
bar_width = 0.35

# Calculate bar positions
bar_positions_inm = np.arange(len(unique_cities)) - bar_width / 2
bar_positions_sc = np.arange(len(unique_cities)) + bar_width / 2

# Create the individual bars for 'inm_30km' and 'sc_30km' on the secondary axis
ax2 = ax1.twinx()
bars_inm = ax2.bar(bar_positions_inm, ruta_RP105_filtered['inm_30km'], width=bar_width, label='inm_30km', color='blue', edgecolor='black', alpha=0.6)
bars_sc = ax2.bar(bar_positions_sc, ruta_RP105_filtered['sc_30km'], width=bar_width, label='sc_30km', color='green', edgecolor='black', alpha=0.6)

# Drawing horizontal lines inside the bars to represent each unit
def draw_bar_units(bars):
    for bar in bars:
        bar_height = bar.get_height()
        ax2.hlines(range(0, int(bar_height), 1), bar.get_x(), bar.get_x() + bar.get_width(), color='black', linewidth=0.5)

draw_bar_units(bars_inm)
draw_bar_units(bars_sc)

#ax2.set_ylabel('Total de inm_30km y sc_30km', color='tab:red')
ax2.tick_params(axis='y', labelcolor='tab:red')

# Add legends
ax1.legend(loc='upper left')
ax2.legend(loc='upper right')

# Title of the plot
plt.title('ruta_RP105')

# Adjust the layout to avoid clipping
plt.tight_layout()

# Show the plot
plt.show()


##### RP639

In [None]:
# Paso 1: Encuentra la secuencia para 'RG142' en 'df_filtrado2_sorted'
secuencia_ruta1 = df_pacifico_sumas.loc[df_pacifico_sumas['ID_Ruta'] == 'RP639', 'secuencia'].iloc[0]

# Paso 2: Separa esa secuencia en una lista de 'ID_Poligono'
secuencia_lista = secuencia_ruta1.split(', ')

# Paso 3: Filtra 'ciudades_top_valores' para conservar solo las filas con esos 'ID_Poligono'
filtered_ciudades = ciudades_top_valores[ciudades_top_valores['ID_Poligono'].isin(secuencia_lista)]

#Paso 4: Crear una columna 'Order' en 'filtered_ciudades' que asigne a cada 'ID_Poligono' su posición en la secuencia
order_dict = {id_poly: order for order, id_poly in enumerate(secuencia_lista)}
filtered_ciudades['Order'] = filtered_ciudades['ID_Poligono'].map(order_dict)

# Ordenar 'filtered_ciudades' por la columna 'Order
ruta_RP639 = filtered_ciudades.sort_values('Order')

# Cambiar los nombres de las columnas
ruta_RP639 = ruta_RP639.rename(columns={
    'detenciones': 'eventos',
    'promedio_detenciones': 'promedio_eventos',
    'detenciones_in_grid': 'eventos_in_grid'
})

In [None]:
# Convertir columnas de datos cuantitativos a numérico
quantitative_columns = ['eventos', 'eventos_in_grid', 'inm_30km', 'inm_in_grid', 'inm_in_estado', 'sc_30km', 'sc_in_grid', 'sc_in_estado','promedio_eventos']
for col in quantitative_columns:
    ruta_RP639[col] = pd.to_numeric(ruta_RP639[col])

# Convertir DataFrame en GeoDataFrame
gdf = gpd.GeoDataFrame(
    ruta_RP639, 
    geometry=gpd.points_from_xy(ruta_RP639.longitud, ruta_RP639.latitud),
    crs="EPSG:4326"
)

# Guardar como Shapefile
output_filename = "/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/rutas_creadas/golfo/RP639/RP6395.shp"
gdf.to_file(output_filename)

# Guardar como CSV
output_filename_csv = "/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/Rutas/rutas_creadas/golfo/RP639/RP639.csv"
ruta_RP639.to_csv(output_filename_csv, index=False)








In [None]:
ruta_RP639 = pd.read_csv("/Users/pablouriarte/Documents/1. Expediente Tec de Monterrey/1.Tesis/Mapa_Migracion_Irregular_Mexico/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/rutas_creadas/pacifico/RP639/RP639.csv")

In [None]:
# Normalize the 'ciudad' values to ensure there are only up to 62 unique points
unique_cities = ruta_RP639['ciudad'].unique()[:62]
ruta_RP639_filtered = ruta_RP639[ruta_RP639['ciudad'].isin(unique_cities)]

# Cap the 'eventos' at 50,000
ruta_RP639_filtered['eventos_capped'] = np.clip(ruta_RP639_filtered['eventos'], None, 50000)

# Create the figure and axis for the combined plot
fig, ax1 = plt.subplots(figsize=(18, 6))

# Configure the line plot for 'Eventos'
ax1.plot(ruta_RP639_filtered['ciudad'], ruta_RP639_filtered['eventos_capped'], color='black', label='Eventos', marker='o')

# Fill the area under the line plot with a very transparent red color
ax1.fill_between(ruta_RP639_filtered['ciudad'], 0, ruta_RP639_filtered['eventos_capped'], color='red', alpha=0.1)

# Annotate points that are capped
for i, (city, val) in enumerate(zip(ruta_RP639_filtered['ciudad'], ruta_RP639_filtered['eventos'])):
    if val > 50000:
        ax1.annotate('50k+', xy=(i, 50000), xytext=(0, 3), 
                     textcoords="offset points", ha='center', va='bottom')

# Set y-axis for 'Eventos' with a max value of 50,000 and ticks every 10,000
ax1.set_ylim(0, 50000)
ax1.set_yticks(np.arange(0, 50001, 10000))
ax1.set_ylabel('Eventos', color='black')
ax1.tick_params(axis='y', labelcolor='black')

# Rotate the x-axis labels for better visualization
ax1.set_xticks(range(len(unique_cities)))
ax1.set_xticklabels(unique_cities, rotation=45, ha="right")

# Set bar width
bar_width = 0.35

# Calculate bar positions
bar_positions_inm = np.arange(len(unique_cities)) - bar_width / 2
bar_positions_sc = np.arange(len(unique_cities)) + bar_width / 2

# Create the individual bars for 'inm_30km' and 'sc_30km' on the secondary axis
ax2 = ax1.twinx()
bars_inm = ax2.bar(bar_positions_inm, ruta_RP639_filtered['inm_30km'], width=bar_width, label='inm_30km', color='blue', edgecolor='black', alpha=0.6)
bars_sc = ax2.bar(bar_positions_sc, ruta_RP639_filtered['sc_30km'], width=bar_width, label='sc_30km', color='green', edgecolor='black', alpha=0.6)

# Drawing horizontal lines inside the bars to represent each unit
def draw_bar_units(bars):
    for bar in bars:
        bar_height = bar.get_height()
        ax2.hlines(range(0, int(bar_height), 1), bar.get_x(), bar.get_x() + bar.get_width(), color='black', linewidth=0.5)

draw_bar_units(bars_inm)
draw_bar_units(bars_sc)

#ax2.set_ylabel('Total de inm_30km y sc_30km', color='tab:red')
ax2.tick_params(axis='y', labelcolor='tab:red')

# Add legends
ax1.legend(loc='upper left')
ax2.legend(loc='upper right')

# Title of the plot
plt.title('ruta_RP105')

# Adjust the layout to avoid clipping
plt.tight_layout()

# Show the plot
plt.show()

## Metricas de Vulnerabilidad

In [None]:

combined_rutas = pd.read_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv")




In [None]:
combined_rutas

In [None]:
# Save the DataFrame to the CSV file
combined_rutas.to_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv", index=False)


In [None]:
def create_arc_sequence(secuencia):
    # Split the sequence into individual IDs
    ids = secuencia.split(', ')
    # Create arcs by pairing consecutive IDs
    arcs = [f'{ids[i]}-{ids[i+1]}' for i in range(len(ids) - 1)]
    return ', '.join(arcs)


In [None]:
combined_rutas['Arc_Sequences'] = combined_rutas['Filtered_Secuencias'].apply(create_arc_sequence)


In [None]:
combined_rutas

### generacion de arcos

In [None]:
values_df = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/df_valores_rutas.csv')


In [None]:
values_df

In [None]:
arc_df_sorted.tail()

In [None]:
# Remove rows where any cell has a NaN value
arc_df_sorted_cleaned = arc_df_sorted.dropna()


In [None]:
arc_df_sorted_cleaned


In [None]:
# Specify the path where you want to save the CSV file
output_path = '/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv'

# Save the DataFrame to a CSV file at the specified path
arc_df_sorted.to_csv(output_path, index=False)


In [None]:
import pandas as pd
from geopy.geocoders import Photon
from geopy.geocoders import Nominatim
from unidecode import unidecode
import unidecode
import numpy as np
from shapely.geometry import Point, Polygon
import geopandas as gpd
import matplotlib.pyplot as plt

In [None]:
#arc_df = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv')

In [None]:
arc_df

In [None]:
import pandas as pd
import googlemaps
from datetime import datetime, timedelta, timezone

# Initialize Google Maps client with your API key
gmaps_client = googlemaps.Client(key='xxx')

# Initialize new columns for distance and duration (text and numeric)
arc_df['Distance'] = None
arc_df['Distance_m'] = None  # Distance in meters
arc_df['Duration'] = None
arc_df['Duration_s'] = None  # Duration in seconds

In [None]:
arc_df['Distance_km'] = arc_df['Distance_m'] / 1000  # Convert meters to kilometers
arc_df['Duration_hr'] = arc_df['Duration_s'] / 3600  # Convert seconds to hours

In [None]:
#### Calculate IQR
Q1 = arc_df[['Distance_km', 'Duration_hr']].quantile(0.25)
Q3 = arc_df[['Distance_km', 'Duration_hr']].quantile(0.75)
IQR = Q3 - Q1

# Define outliers as those beyond 1.5 times the IQR from the quartiles
outliers = arc_df[((arc_df['Distance_km'] < (Q1['Distance_km'] - 1.5 * IQR['Distance_km'])) | (arc_df['Distance_km'] > (Q3['Distance_km'] + 1.5 * IQR['Distance_km'])) |
                   (arc_df['Duration_hr'] < (Q1['Duration_hr'] - 1.5 * IQR['Duration_hr'])) | (arc_df['Duration_hr'] > (Q3['Duration_hr'] + 1.5 * IQR['Duration_hr'])))]
print("Detected Outliers:")
print(outliers[['From_Node', 'To_Node', 'Distance_km', 'Duration_hr']])


In [None]:
# Sort the DataFrame by 'Distance_km' and 'Duration_hr' from smallest to largest
sorted_df = arc_df.sort_values(by=['Distance_km', 'Duration_hr'])


In [None]:
sorted_df

In [None]:
# Find the index of rows where 'Arc' equals 'PG534-PG189'
indexes_to_drop = sorted_df[sorted_df['Arc'] == 'PG534-PG189'].index

# Drop these rows from the DataFrame
sorted_df = sorted_df.drop(indexes_to_drop)


In [None]:
# Specify the path where you want to save the CSV file
output_path = '/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv'

# Save the DataFrame to a CSV file at the specified path
sorted_df.to_csv(output_path, index=False)

In [None]:
#df_unique.to_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes.csv')


### dato de distancias a pie y tiempo

In [None]:
def calculate_totals(row, df):
    total_distance = 0
    total_duration = 0
    # Iterate through each tuple in the transformed sequences
    for pair in row['Transformed_Sequences']:
        # Filter sorted_df for rows matching the current pair
        matching_rows = df[df['Node_Pair'] == pair]
        total_distance += matching_rows['Distance_km'].sum()
        total_duration += matching_rows['Duration_hr'].sum()
    return pd.Series([total_distance, total_duration])

# Apply the function to df_unique
df_unique[['Total_Distance_km', 'Total_Duration_hr']] = df_unique.apply(calculate_totals, args=(sorted_df,), axis=1)


###
tengo que eliminar grids que no son nodos, para esto podemos tomar secuencias_diferentes y df valores, y de secuencias diferentes, quitar todas los codigos de grid que no tengan un valor en df_valores. b)buscar duplicados c) sacar arcos, d) correr distancias y tiempo.

notas:



In [None]:
#combined_rutas = pd.read_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv")

In [None]:
valid_ids = set(values_df['ID_Poligono'])

In [None]:
# Drop all other columns except 'secuencias' and 'ID_Ruta'
combined_rutas = combined_rutas[['secuencias', 'ID_Ruta']]

# Alternatively, use drop with the argument 'inplace=True' to modify the original DataFrame without reassignment
combined_rutas.drop(combined_rutas.columns.difference(['secuencias', 'ID_Ruta']), axis=1, inplace=True)

# Verify the modified DataFrame
print(combined_rutas.head())


In [None]:
# Create a new DataFrame with only the 'secuencias' and 'ID_Ruta' columns
reduced_df = combined_rutas[['secuencias', 'ID_Ruta']]


In [None]:
values_df

In [None]:
# Extract unique ID_Poligono
unique_ids = values_df['ID_Poligono'].unique()



In [None]:
unique_ids

In [None]:
def filter_ids_and_count(secuencia):
    # Split the sequence into individual IDs
    ids = secuencia.split(', ')
    # Filter ids to find those that are not in the unique_ids list
    non_unique_ids = [id for id in ids if id not in unique_ids]
    # Create a new sequence excluding the non-unique IDs
    filtered_secuencia = ', '.join([id for id in ids if id in unique_ids])
    # Extract the last 5 IDs from the filtered sequence
    last_five_ids = filtered_secuencia.split(', ')[-5:]  # Extract the last 5 IDs

    # Calculate counts
    total_ids = len(ids)
    count_non_unique_ids = len(non_unique_ids)
    count_filtered_ids = len(filtered_secuencia.split(', '))

    return non_unique_ids, filtered_secuencia, total_ids, count_non_unique_ids, count_filtered_ids, last_five_ids

# Apply the updated function to the 'secuencias' column
combined_rutas[['Non_Unique_IDs', 'Filtered_Secuencias', 'Total_IDs', 'Count_Non_Unique_IDs', 'Count_Filtered_IDs', 'Last_Five_IDs']] = combined_rutas['secuencias'].apply(
    lambda x: pd.Series(filter_ids_and_count(x))
)



In [None]:
# Check for duplicates across all columns
duplicates = combined_rutas.duplicated(keep=False)  # `keep=False` marks all duplicates

# Count total duplicates
total_duplicates = duplicates.sum()

# Print the number of duplicate rows
print(f"Total duplicate rows: {total_duplicates}")

# Optionally, display the duplicate rows
if total_duplicates > 0:
    print("Duplicate rows:")
    print(combined_rutas[duplicates])


In [None]:
#combined_rutas.to_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv')


In [None]:
# Reformatting the ID_Ruta to keep only the prefix letters and remove numbers
#combined_rutas['ID_Ruta'] = combined_rutas['ID_Ruta'].str.extract(r'([A-Za-z]+)')


In [None]:
# Extract the prefix if not already done (assuming the ID_Ruta contains only the prefix at this stage)
#combined_rutas['Prefix'] = combined_rutas['ID_Ruta'].str.extract(r'(\D+)')

# Generate a unique sequence number for each group of prefix, formatted to four digits
#combined_rutas['Sequence'] = combined_rutas.groupby('Prefix').cumcount() + 1
#combined_rutas['ID_Ruta'] = combined_rutas['Prefix'] + combined_rutas['Sequence'].apply(lambda x: f'{x:04d}')

# Drop temporary columns if they are no longer needed
#combined_rutas.drop(['Prefix', 'Sequence'], axis=1, inplace=True)


### final de filtrado de secuencias

## toca extraer de nuevo los diferentes arcos posibles

In [None]:
from itertools import combinations

def generate_pairwise_combinations(ids):
    # Split the IDs string into a list if not already a list
    id_list = ids.split(', ') if isinstance(ids, str) else ids
    # Generate all pairwise combinations for the last five IDs
    pairwise_combinations = list(combinations(id_list, 2))
    return pairwise_combinations


In [None]:
# Split the 'Arc_Sequences' into lists of arcs and explode into separate rows
arc_df12 = combined_rutas['Arc_Sequences'].str.split(', ').explode().reset_index(drop=True).to_frame()

# Rename the column to a more descriptive name
arc_df12.columns = ['Arc']


In [None]:
arc_df12

In [None]:
# Check for duplicates across all columns
duplicates = arc_df12.duplicated(keep=False)  # `keep=False` marks all duplicates

# Count total duplicates
total_duplicates = duplicates.sum()

# Print the number of duplicate rows
print(f"Total duplicate rows: {total_duplicates}")

# Optionally, display the duplicate rows
if total_duplicates > 0:
    print("Duplicate rows:")
    print(arc_df12[duplicates])


In [None]:
# Remove duplicates and keep the first occurrence
arc_df12 = arc_df12.drop_duplicates()

# Print the number of rows after removing duplicates
print(f"Total rows after removing duplicates: {len(arc_df12)}")


In [None]:
values_df

In [None]:
arc_df12[['From_Node', 'To_Node']] = arc_df12['Arc'].str.split('-', expand=True)


In [None]:
# Merge details for From_Node
arc_df12 = arc_df12.merge(filtered_values_df[['ID_Poligono', 'ciudad', 'latitud', 'longitud', 'eventos']], how='left', left_on='From_Node', right_on='ID_Poligono')
arc_df12.rename(columns={
    'ciudad': 'ciudad_origen',
    'latitud': 'latitud_from',
    'longitud': 'longitud_from',
    'eventos': 'eventos_from'
}, inplace=True)
arc_df12.drop('ID_Poligono', axis=1, inplace=True)

# Merge details for To_Node
arc_df12 = arc_df12.merge(filtered_values_df[['ID_Poligono', 'ciudad', 'latitud', 'longitud', 'eventos']], how='left', left_on='To_Node', right_on='ID_Poligono')
arc_df12.rename(columns={
    'ciudad': 'ciudad_destino',
    'latitud': 'latitud_to',
    'longitud': 'longitud_to',
    'eventos': 'eventos_to'
}, inplace=True)
arc_df12.drop('ID_Poligono', axis=1, inplace=True)


In [None]:
# Create coordinates
arc_df12['origen_xy'] = arc_df12['latitud_from'].astype(str) + ', ' + arc_df12['longitud_from'].astype(str)
arc_df12['destino_xy'] = arc_df12['latitud_to'].astype(str) + ', ' + arc_df12['longitud_to'].astype(str)

# Calculate total events
arc_df12['eventos_arco'] = arc_df12['eventos_from'] + arc_df12['eventos_to']


In [None]:

arc_df = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv')

combined_rutas = pd.read_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv")



In [None]:
# Specify the path where you want to save the CSV file
output_path = '/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv'

# Save the DataFrame to a CSV file at the specified path
ºarc_df12.to_csv(output_path, index=False)


In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.scatter(arc_df['Distance_km'], arc_df['Duration_hr'], alpha=0.5)
plt.title('Scatter Plot of Distance vs. Duration')
plt.xlabel('Distance in Kilometers')
plt.ylabel('Duration in Hours')
plt.grid(True)
plt.show()

### ultima comprobacion de rutas

In [None]:
# q
# Extract unique IDs from both From_Node and To_Node
unique_nodes = pd.concat([arc_df['From_Node'], arc_df['To_Node']]).unique()


In [None]:
def contains_node_id(secuencia):
    # Split the sequence into individual node IDs
    node_ids = secuencia.split(", ")
    # Check each node ID in the sequence to see if it's in the list of unique nodes
    # Returns True if any node ID is found in the unique_nodes, otherwise False
    return any(node_id in unique_nodes for node_id in node_ids)

# Apply the function to the 'secuencias' column
combined_rutas['contains_unique_node'] = combined_rutas['secuencias'].apply(contains_node_id)


In [None]:
# Print rows where the sequence does not contain any unique node IDs
print(combined_rutas[combined_rutas['contains_unique_node'] == False])


In [None]:
# Creating a sub DataFrame with specified columns
sub_df_no_dup = combined_rutas[['ID_Ruta', 'Filtered_Secuencias', 'Last_Five_IDs', 'Arc_Sequences']]


In [None]:
# Function to calculate total distance and duration for each sequence of arcs
def calculate_totals(arc_sequence, arc_data):
    # Split the sequence into individual arcs
    arcs = arc_sequence.split(", ")
    total_distance = 0
    total_duration = 0
    
    # Sum the distances and durations for each arc
    for arc in arcs:
        # Filter arc_df for the current arc and sum the relevant data
        arc_info = arc_data[arc_data['Arc'] == arc]
        total_distance += arc_info['Distance_km'].sum()
        total_duration += arc_info['Duration_hr'].sum()
    
    return total_distance, total_duration

# Apply the function to each sequence in 'Arc_Sequences'
sub_df_no_dup[['Total_Distance_km', 'Total_Duration_hr']] = sub_df_no_dup['Arc_Sequences'].apply(
    lambda x: calculate_totals(x, arc_df)
).apply(pd.Series)  # Convert the tuple returned by the function into two separate DataFrame columns

# Print the updated DataFrame to verify the results
print(sub_df_no_dup[['ID_Ruta', 'Arc_Sequences', 'Total_Distance_km', 'Total_Duration_hr']])


In [None]:
# ID de la Ruta que deseas explorar
ruta_id = 'RP0010'  # Cambia este valor por el ID de ruta que deseas consultar

# Función para calcular el total de distancia y duración para cada arco
def calculate_arc_totals(arc, arc_data):
    arc_info = arc_data[arc_data['Arc'] == arc]
    total_distance = arc_info['Distance_km'].sum()
    total_duration = arc_info['Duration_hr'].sum()
    return total_distance, total_duration

# Filtra la fila para la ruta específica y obtiene la secuencia de arcos
ruta_especifica = sub_df_no_dup_filtered[sub_df_no_dup_filtered['ID_Ruta'] == ruta_id]
arcos = ruta_especifica['Arc_Sequences'].values[0].split(", ")

# Diccionario para almacenar los totales por cada arco
arc_totals = {}

# Calcula los totales para cada arco en la secuencia de la ruta
for arc in arcos:
    distance, duration = calculate_arc_totals(arc, arc_df)
    arc_totals[arc] = {'Distance_km': distance, 'Duration_hr': duration}

# Imprimir los resultados para cada arco
print(f"Totales para cada arco en la ruta {ruta_id}:")
for arc, totals in arc_totals.items():
    print(f"{arc}: Distance = {totals['Distance_km']} km, Duration = {totals['Duration_hr']} hr")



### eliminamos restos de rutas que aun tienen arcos desechados como:
PG534-PG189: Distance = 0.0 km, Duration = 0.0 hr

In [None]:
# Filtrar las filas que no contienen 'PG189-PG190' en la columna 'Arc_Sequences'
sub_df_no_dup_filtered = sub_df_no_dup[~sub_df_no_dup['Arc_Sequences'].str.contains('PG189-PG190')]

# Verificar las dimensiones del DataFrame después de la eliminación
print(sub_df_no_dup_filtered.shape)

# Mostrar las primeras filas del DataFrame filtrado para verificación
print(sub_df_no_dup_filtered.head())


In [None]:
# Specify the path where you want to save the CSV file
#output_path = "/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/Secuencias_Diferentes_1.csv"

# Save the DataFrame to a CSV file at the specified path
#sub_df_no_dup_filtered.to_csv(output_path, index=False)

In [None]:
# Verificar que la columna ha sido eliminada
print(sub_df_no_dup_filtered.head())

# Extraer el prefijo de dos letras de cada ID_Ruta
sub_df_no_dup_filtered['Route_Prefix'] = sub_df_no_dup_filtered['ID_Ruta'].apply(lambda x: x[:2])

# Crear un mapeo de colores único para cada prefijo
unique_prefixes = sub_df_no_dup_filtered['Route_Prefix'].unique()
color_map = {prefix: plt.cm.tab20(i) for i, prefix in enumerate(unique_prefixes)}

# Graficar cada grupo con un color diferente
plt.figure(figsize=(12, 8))
for prefix in unique_prefixes:
    subset = sub_df_no_dup_filtered[sub_df_no_dup_filtered['Route_Prefix'] == prefix]
    plt.scatter(subset['Total_Distance_km'], subset['Total_Duration_hr'], 
                color=color_map[prefix], label=prefix, alpha=0.6)

plt.title('Dispersión de Distancia vs Duración por Prefijo de Ruta')
plt.xlabel('Total Distance (km)')
plt.ylabel('Total Duration (hr)')
plt.legend(title='Route Prefix')
plt.grid(True)
plt.show()


notas:

la distancia juega un papel impportante, y bien podria ser parte de cualquiera de las dos metricas de vulnerabilidad por capacidad institucional, dado la presencia de asistencia en el centroide sobre la distancia entre un punto y otro

la presencia de asistencia a lo largo del arco total

### continuamos:

en este putno debemos tener nuestras df:

rutas_combinaciones[filtered secuences, arc codes que lo integran,]

arc_df[arcs, ciudad origen, ciudad destino, coords origen_xy, destino_xy, eventos arco] 

y vamos a sacar la polilínea codificada, tiempo y distancia. listo para meter a arcgis




## rutas polygonos arcos

Consulta a la API de Google Maps: Para cada par de puntos de origen y destino, realizar una consulta para obtener la ruta a pie, incluyendo la polilínea codificada, tiempo y distancia.


Decodificar y almacenar las polilíneas: Decodificar cada polilínea codificada obtenida y almacenarla en tu DataFrame.


Convertir a GeoDataFrame: Convertir el DataFrame actualizado en un GeoDataFrame.


Guardar y visualizar: Opcionalmente, guardar el GeoDataFrame y preparar todo para visualización en ArcGIS Pro.

In [None]:
#df = pd.read_csv('/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos.csv')

In [None]:
df

In [None]:
import pandas as pd
import requests
import polyline
from shapely.geometry import LineString
import geopandas as gpd

In [None]:
# Configuración de API Key
api_key = 'xxx'

In [None]:
# Configuración de API Key
api_key = 'AIzaSyA_BvAIuZ4HPL8hPuOJFP-wEikr9Ee3-KQ'

def obtener_ruta_y_polilinea(row, api_key):
    base_url = "https://maps.googleapis.com/maps/api/directions/json"
    params = {
        'origin': f"{row['latitud_from']},{row['longitud_from']}",  # Asegúrate de que los nombres de columnas coincidan
        'destination': f"{row['latitud_to']},{row['longitud_to']}",
        'mode': 'walking',  # Modo a pie
        'key': api_key
    }
    response = requests.get(base_url, params=params)
    result = response.json()

    if result['status'] == 'OK':
        polyline_encoded = result['routes'][0]['overview_polyline']['points']
        distancia = result['routes'][0]['legs'][0]['distance']['text']
        duracion = result['routes'][0]['legs'][0]['duration']['text']
        puntos = polyline.decode(polyline_encoded)
        geometry = LineString(puntos)
        return geometry.wkt, distancia, duracion  # Devolver como WKT
    else:
        return None, None, None

# Aplicar a cada fila del DataFrame y expandir los resultados en nuevas columnas
df[['geometry', 'distance', 'duration']] = df.apply(lambda row: obtener_ruta_y_polilinea(row, api_key), axis=1, result_type='expand')

In [None]:
# Lista de columnas para mantener
columnas_para_mantener = ['Arc', 'ciudad_origen', 'ciudad_destino', 'eventos_arco', 'geometry', 'distance', 'duration', 'distancia_km', 'duracion_hr']

# Eliminar todas las columnas que no están en la lista de columnas para mantener
df = df[columnas_para_mantener]


In [None]:
df.head()

In [None]:
from shapely.wkt import dumps

# Si geometry no está en formato WKT, convierte usando Shapely
if not df['geometry'].dtype == 'object':
    df['geometry'] = df['geometry'].apply(lambda x: dumps(x))


In [None]:
# Define el path de salida para el archivo CSV
#output_path = "/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos_rutas.csv"

# Exportar el DataFrame a CSV
#df.to_csv(output_path, index=False)


In [None]:
#df.to_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/)

In [None]:
def convertir_distancia_duración(distancia, duracion):
    # Convertir distancia a kilómetros
    if 'km' in distancia:
        distancia_km = float(distancia.split()[0])
    elif 'm' in distancia:
        distancia_km = float(distancia.split()[0]) / 1000.0  # Convertir metros a kilómetros

    # Convertir duración a horas
    horas = 0
    minutos = 0
    if 'hour' in duracion or 'hours' in duracion:
        horas = float(duracion.split()[0])
    if 'min' in duracion:
        minutos = float(duracion.split()[-2]) / 60  # Última posición si hay horas, sino penúltima

    duracion_hr = horas + minutos
    return distancia_km, duracion_hr

# Aplicar conversión y actualizar las columnas
df['distancia_km'], df['duracion_hr'] = zip(*df.apply(lambda row: convertir_distancia_duración(row['distance'], row['duration']), axis=1))


In [None]:
df_filtrado = gpd.GeoDataFrame(df_filtrado, geometry='geometry', crs="EPSG:4326")


In [None]:
#df_filtrado.to_file("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos_rutas_a_pie.geojson", driver='GeoJSON')
df_filtrado.to_csv("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos_rutas_a_pie.csv")


In [None]:
# Guardar como Shapefile
df_filtrado.to_file("/Users/pablouriarte/Mapa_Migracion_Irregular_Mexico_Fresh/1. Mapas/1. Mapas/Metodo_1/procesamiento de rutas/arcos/arcos_rutas_a_pie.shp")


In [None]:
# Lista de columnas que deseas conservar
columnas_deseadas = [
    'Arc', 'ciudad_origen','ciudad_destino', 'eventos_arco', 'Distance_km', 
    'Duration_hr', 'distance', 'duration', 'geometry'
]

# Filtrar el DataFrame para conservar solo las columnas deseadas
df_filtrado = df_filtrado[columnas_deseadas]

# Si quieres verificar las columnas del nuevo DataFrame
print(df_filtrado.columns)



## segmentacion y asignacion de valores a polyline

In [None]:
# Si quieres ver las primeras filas del DataFrame filtrado para verifica
df_filtrado.head()