# filter_substrings

Autor: Carlos Wong <br/>
Fecha: 2023_03_14  <br/>
Tipo de problema: FILTRADO de datos <br/>
Entrada: prueba_1.xlsx  <br/>
Salidas: prueba_1_1.xlsx  <br/>
Propósito: Diseño y Control  

In [1]:
# librerías estándar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# extracción de datasets (ri: reasignación interna)
ri = pd.read_excel(r'.\prueba_1.xlsx')

In [3]:
ri.head()

Unnamed: 0,nombre,cable_fibra
0,a,Z.TO RO01 /Z.001094EN001/00064/F/001/00064'
1,b,Z.TO RO01 /Z.TO RO02 /00128/F/001/00017'
2,c,Z.TO ADO 4/Z.TO ADO 5/00064/F/001/00041'
3,d,Z.BR RO05 /Z.TO RO01 /00256/F/003/00008'
4,e,Z.TO RO08 /Z.TO RO01 /00128/F/005/00033'


### Se desea filtrar las filas que contengan el sub string 'Z.TO ' repetido 2 veces

In [4]:
filtro = ri['cable_fibra'].str.count('Z.TO ') == 2
ri_filtrado = ri[~filtro]
ri_filtrado

Unnamed: 0,nombre,cable_fibra
0,a,Z.TO RO01 /Z.001094EN001/00064/F/001/00064'
3,d,Z.BR RO05 /Z.TO RO01 /00256/F/003/00008'


In [10]:
# Cruzar las tablas por la columna 'asigna'
df_merged = pd.merge(ro, ri, left_on='asigna', right_on='ASIGNACION')

# Filtrar y contar los valores únicos
df_access = df_merged.loc[df_merged['TIPO PORTADOR'] == 'ACCESO'].groupby('arbol_cable').nunique()
df_transp = df_merged.loc[df_merged['TIPO PORTADOR'] == 'TRANSPORTE'].groupby('arbol_cable').nunique()

# Unir las dos tablas resultantes
df_result = pd.concat([df_access['asigna'], df_transp['asigna']], axis=1, keys=['TIPO PORTADOR ACCESSO', 'TIPO PORTADOR TRANSPORTE'])

# Rellenar los valores nulos con 0
df_result.fillna(0, inplace=True)

# Imprimir la tabla resultante
print(df_result)

                TIPO PORTADOR ACCESSO  TIPO PORTADOR TRANSPORTE
arbol_cable                                                    
A                                   1                       0.0
A-10/TR.1                           8                       0.0
A-11/TR.1                          20                       0.0
A-11/TR.2                          20                       0.0
A-4/CR.451                          1                       0.0
A-4/PTRO-1830                       1                       0.0
A-7/TR.1                           17                       0.0
A-8/TR.1                            4                       0.0
A-9/TR.1                           29                       0.0
A11                                 1                       0.0
A114                                1                       0.0
ADO2-GALC                           2                       0.0
ADO2/PTRO-1234                      2                       0.0
ADO2/PTRO-1442                      1   

In [11]:
df_result = df_result.sort_values(by=['TIPO PORTADOR ACCESSO'], ascending=False)
print(df_result)

                TIPO PORTADOR ACCESSO  TIPO PORTADOR TRANSPORTE
arbol_cable                                                    
TR-1 TR-2                          73                       0.0
A-9/TR.1                           29                       0.0
E-1                                24                       3.0
ENLACE                             21                      11.0
A-11/TR.1                          20                       0.0
A-11/TR.2                          20                       0.0
TR-1 TR-2 TR-3                     20                       0.0
A-7/TR.1                           17                       0.0
TR-1                               17                       0.0
E-1 IRIS                           17                       2.0
TR-18                              14                       0.0
A-10/TR.1                           8                       0.0
A-8/TR.1                            4                       0.0
PTRO-605                            3   

In [12]:
df_result['TIPO PORTADOR ACCESSO']

arbol_cable
TR-1 TR-2         73
A-9/TR.1          29
E-1               24
ENLACE            21
A-11/TR.1         20
A-11/TR.2         20
TR-1 TR-2 TR-3    20
A-7/TR.1          17
TR-1              17
E-1 IRIS          17
TR-18             14
A-10/TR.1          8
A-8/TR.1           4
PTRO-605           3
CRMO-GALC          2
ADO2/PTRO-1234     2
ADO2-GALC          2
BT PTRO 2837       1
ADO2/PTRO-1442     1
E-3 OBAS           1
PTR0-1896          1
PTR0-1896/1897     1
PTR0-680           1
PTRO-1414          1
A114               1
PTRO-872           1
PTRO-88            1
A11                1
A-4/PTRO-1830      1
A-4/CR.451         1
A                  1
Name: TIPO PORTADOR ACCESSO, dtype: int64

In [15]:
arbol_cable = 'TR-1 TR-2'
tipo_portador = 'ACCESO'

codigos = df_merged.loc[(df_merged['arbol_cable'] == arbol_cable) & (df_merged['TIPO PORTADOR'] == tipo_portador), 'asigna'].tolist()

print(codigos)

['S.TA000SFO01 /S.OR FUS 1/DP /U3OENM/00044905/BTTELECOM', 'S.TA0012 /S.TA0035 /DP /XXILFO/39860693/UNIVESEVI', 'S.TA0012 /S.TA0035 /DP /XXILFO/39860693/UNIVESEVI', 'S.TA0005 /S.TA ETH 1/DP /T1ETH /33246502/LQ2900463G', 'S.BE0014 /S.TA ETH 1/DP /T1ETHT/22421905/MINISDEFE', 'S.TA /S.TA /DP /X0ETHD/24810596/ESTRATEL', 'S.TA /S.TA /DP /X0ETHD/24810596/ESTRATEL', 'S.TA0271 /S.TA ETH 1/DP /T1ETH /29366400/MINISDEFE', 'S.TA0170FO01 /S.TA ETH 1/DP /FCETH /14152397/SERVIANSA3', 'S.TA0170FO01 /S.TA ETH 1/DP /FCETH /14152784/SERVIANSA3', 'S.TA /S.TA /DP /T1MTH /11747013/SERVIANSA3', 'S.TA /S.TA /DP /T1MTH /11747013/SERVIANSA3', 'S.TA0137 /S.TA ETH 1/DP /FCETH /67534032/SERVIANSA3', 'S.TA0290FO01 /S.TA ETH 1/DP /U3MTH /35061617/LG41029331', 'S.TA0290FO01 /S.TA ETH 1/DP /U3MTH /35061617/LG41029331', 'S.TA /S.TA /DP /FCETH /78114647/LA63749816', 'S.TA /S.TA ETH 1/DP /X0AETH/73699194/TELEFSEMO', 'S.OR0007 /S.TA0010 /DP /WD4H /01275741/LA58443060', 'S.OR0007 /S.TA0010 /DP /WD4H /01275741/LA58443060',

In [16]:
len(codigos)

114

In [24]:
ro_ri = pd.read_excel(r'.\ro_ri.xlsx', header=1)
ro_ri.head(2)

Unnamed: 0,ID.,TIPO,ASIGNACION,ARBOL,ADMINISTRATIVO,Cliente\ndomicilio,Estado\ntrabajos,Fecha \nFinalizado,TIPO PORTADOR,COMENTARIOS,ORDEN_EN_VUELO,PEP_Número,SGIPE_Actuación,nº BTP,Fecha Corte,Diversificación
0,1e-05,CLIENTES,PYV.AV /S.TA0020 /DP /OPPEFO/02745413/TELEFESPA,E-1 IRIS,60105030000000.0,,,,ACCESO,,,,,,,
1,2e-05,CLIENTES,S.AE0088 /S.TA0020CTJ 1/DP /X0ILPP/61335291/JU...,A-9/TR.1,41100000000000.0,,,,ACCESO,,,,,,,


In [28]:
arbol_cable = 'TR-1 TR-2'
tipo_portador = 'ACCESO'

asigna_unique = set(df_merged.loc[(df_merged['arbol_cable'] == 'TR-1 TR-2') & (df_merged['TIPO PORTADOR'] == 'ACCESO'), 'asigna'])

filtro = (ro_ri['ARBOL'] == arbol_cable) & (ro_ri['TIPO PORTADOR'] == tipo_portador)
resultados = ro_ri.loc[filtro, 'ASIGNACION']

print(len(asigna_unique))
print(len(resultados))

73
69


In [29]:
diferencia = asigna_unique - set(resultados)

In [30]:
diferencia

{'S.RD /S.TA /DP /WD4H /01120509/TELEFESPA',
 'S.SB TR01 /S.TA0048TX01 /SF/V/N270 /0001',
 'S.TA0005 /S.TA ETH 1/DP /T1ETH /33246502/LQ2900463G',
 'S.TA0012 /S.TA0035 /DP /XXILFO/39860693/UNIVESEVI'}