In [3]:
import pandas as pd
import os

In [29]:
registros_1427 = pd.read_csv('reg_1427.txt')
certificados_1427 = pd.read_csv('datos_cert_1427.txt')
certificados_1427.shape

(391, 9)

In [28]:
df = pd.DataFrame(registros_1427)
df2 = df[['NUMERO_PQR', 'DOCUMENTO']]

(537, 2)

In [14]:
# Contar la cantidad de documentos únicos
cantidad_registrados = df2['DOCUMENTO'].nunique()
print(f'Cantidad de Documentos Registrados en carpeta de Certificados 1427: {cantidad_registrados}')

Cantidad de Documentos Registrados en carpeta de Certificados 1427: 414


In [15]:
# Contar la cantidad de documentos repetidos
cantidad_repetidos = df2.duplicated(subset=['DOCUMENTO']).sum()
print(f'Cantidad de Documentos Repetidos en registros de solicitudes Certificados 1427: {cantidad_repetidos}')

Cantidad de Documentos Repetidos en registros de solicitudes Certificados 1427: 123


In [26]:
# Identificar y contar los documentos repetidos
df_repetidos = df2[df2.duplicated(subset=['DOCUMENTO'], keep=False)]
conteo__repetidos = df_repetidos['DOCUMENTO'].value_counts().reset_index()
conteo__repetidos.columns = ['Documento', 'Cantidad']

print(f'Lista de Documentos Repetidos en registros de Certificados 1427:\n{conteo__repetidos}')

Lista de Documentos Repetidos en registros de Certificados 1427:
     Documento  Cantidad
0     72210040         6
1     35514564         6
2     34565096         5
3     15668870         5
4     69022883         4
5     24183123         4
6     46378194         4
7      6265689         4
8     98480102         4
9     12458977         4
10    79205643         3
11    79041483         3
12    75037366         3
13    91448145         3
14    71615237         3
15    94472995         3
16    63525247         3
17    46668168         3
18     3347764         3
19    37530893         3
20    98379329         3
21    35603145         3
22  1112632080         3
23    15336356         3
24     8404095         3
25    15353705         3
26     6319192         3
27    91206681         2
28    70070897         2
29    71613558         2
30    12566341         2
31    71647536         2
32    10271558         2
33    72435617         2
34     9533248         2
35     6522962         2
36    7944

In [25]:
# Dar de baja a los datos vacios
datos_fil = certificados_1427[['Documento']].copy()
datos_fil['Documento'] = datos_fil['Documento'].replace('None', pd.NA)  # Reemplazar 'None' por NaN
datos_fil.dropna(subset=['Documento'], inplace=True)  # Eliminar filas con valores NaN en 'Documento'

# Convertir la columna 'Documento' a tipo de dato entero
datos_fil['Documento'] = pd.to_numeric(datos_fil['Documento'], errors='coerce', downcast='integer')

# Contar la cantidad de documentos únicos y repetidos
cantidad_registrados = datos_fil['Documento'].count()  # Cantidad de documentos registrados
cantidad_registrados = datos_fil['Documento'].nunique()  # Cantidad de documentos únicos
cantidad_repetidos = datos_fil.duplicated(subset=['Documento']).sum()  # Cantidad de documentos repetidos

# Identificar y contar los documentos repetidos
df_repetidos = datos_fil[datos_fil.duplicated(subset=['Documento'], keep=False)]
conteo_repetidos = df_repetidos['Documento'].value_counts().reset_index()
conteo_repetidos.columns = ['Documento', 'Cantidad']

# Imprimir resultados
print('Cantidad de Documentos Registrados en carpeta de Certificados 1427:\n', cantidad_registrados)
print('Cantidad de Documentos Repetidos en carpeta de Certificados 1427:\n', cantidad_repetidos)
print('Lista de Documentos Repetidos en carpeta de Certificados 1427:\n', conteo_repetidos)

Cantidad de Documentos Registrados en carpeta de Certificados 1427:
 354
Cantidad de Documentos Repetidos en carpeta de Certificados 1427:
 33
Lista de Documentos Repetidos en carpeta de Certificados 1427:
      Documento  Cantidad
0     46378194         4
1     98480102         3
2     79442432         3
3     34565096         3
4     35514564         3
5     71615237         3
6      6340605         2
7     98464398         2
8      9533248         2
9     91448145         2
10     8404095         2
11    69022883         2
12    66849602         2
13     6522962         2
14  1076322655         2
15     6319192         2
16    14650078         2
17    52180173         2
18    48611446         2
19    43820511         2
20    31302928         2
21    20423325         2
22    15668870         2
23    15353705         2
24    15352312         2
25     5580742         2


In [20]:
conteo__repetidos

Unnamed: 0,Documento,Cantidad
0,72210040,6
1,35514564,6
2,34565096,5
3,15668870,5
4,69022883,4
...,...,...
75,52180173,2
76,52263943,2
77,63434067,2
78,15352031,2


In [22]:
# Suponiendo que tienes dos DataFrames llamados conteo__repetidos y conteo_repetidos
# Ambos con columnas 'Documento' y 'Cantidad'

# Fusionar los DataFrames en función de la columna 'Documento'
nuevo_dataframe = pd.merge(conteo__repetidos, conteo_repetidos, on='Documento', how='outer', suffixes=('_conteo__repetidos', '_conteo_repetidos'))
# Identificar las diferencias en las cantidades
diferencias = nuevo_dataframe[nuevo_dataframe['Cantidad_conteo__repetidos'] != nuevo_dataframe['Cantidad_conteo_repetidos']]
print('Diferencias en las cantidades:')
diferencias



Diferencias en las cantidades:


Unnamed: 0,Documento,Cantidad_conteo__repetidos,Cantidad_conteo_repetidos
0,72210040,6.0,
1,35514564,6.0,3.0
2,34565096,5.0,3.0
3,15668870,5.0,2.0
4,69022883,4.0,2.0
...,...,...,...
80,6340605,,2.0
81,14650078,,2.0
82,48611446,,2.0
83,15352312,,2.0


In [23]:
# Fusionar los DataFrames en función de la columna 'Documento'
nuevo_dataframe = pd.merge(conteo__repetidos, conteo_repetidos, on='Documento', how='outer')

# Convertir las columnas 'Cantidad_x' y 'Cantidad_y' a tipo de dato entero
nuevo_dataframe['Cantidad Solicitados'] = nuevo_dataframe['Cantidad_x'].fillna(0).astype(int)
nuevo_dataframe['Cantidad Emitidos'] = nuevo_dataframe['Cantidad_y'].fillna(0).astype(int)

# Eliminar las columnas 'Cantidad_x' y 'Cantidad_y'
nuevo_dataframe = nuevo_dataframe.drop(columns=['Cantidad_x', 'Cantidad_y'])

# Imprimir el nuevo DataFrame
print(nuevo_dataframe)


    Documento  Cantidad Solicitados  Cantidad Emitidos
0    72210040                     6                  0
1    35514564                     6                  3
2    34565096                     5                  3
3    15668870                     5                  2
4    69022883                     4                  2
..        ...                   ...                ...
80    6340605                     0                  2
81   14650078                     0                  2
82   48611446                     0                  2
83   15352312                     0                  2
84    5580742                     0                  2

[85 rows x 3 columns]


In [24]:
nuevo_dataframe
pd.set_option('display.max_rows', None)  # Para mostrar todas las filas
pd.set_option('display.max_columns', None)  # Para mostrar todas las columnas
print(nuevo_dataframe)


     Documento  Cantidad Solicitados  Cantidad Emitidos
0     72210040                     6                  0
1     35514564                     6                  3
2     34565096                     5                  3
3     15668870                     5                  2
4     69022883                     4                  2
5     24183123                     4                  0
6     46378194                     4                  4
7      6265689                     4                  0
8     98480102                     4                  3
9     12458977                     4                  0
10    79205643                     3                  0
11    79041483                     3                  0
12    75037366                     3                  0
13    91448145                     3                  2
14    71615237                     3                  3
15    94472995                     3                  0
16    63525247                     3            