In [1]:
import pandas as pd
import re
import glob
import chardet
from datetime import datetime
import numpy as np
import os

In [3]:
# Define una lista para almacenar los registros procesados
data = []

def clean_value(value):
    """Limpia un valor eliminando el prefijo 'XX:' y espacios en blanco"""
    if ':' in value:
        return value.split(':', 1)[1].strip()
    return value.strip()

def process_line(line):
    # Normalizar los caracteres especiales
    line = line.strip()
    replacements = {
        'Ã³': 'ó', 'Ã¡': 'á', 'Ã©': 'é', 'Ãº': 'ú', 'Ã±': 'ñ', 'â': '',
        'ï¿½': 'ú', 'ï': 'í', 'N�': 'Nú', '�': 'ó'
    }
    for old, new in replacements.items():
        line = line.replace(old, new)
    
    # Si la línea contiene "No se encontraron resultados"
    if "No se encontraron resultados" in line:
        numero_match = re.search(r'Número: (\d+)', line)
        if numero_match:
            numero = numero_match.group(1)
            data.append({
                'Fecha de procesamiento': 'N/A',
                'Número': numero,
                'Receptor': 'N/A',
                'Cedente': 'N/A',
                'Asignatario Original': 'N/A',
                'Fecha de la ventana': 'N/A',
                'Estado': 'No se encontraron resultados'
            })
        return

    # Dividir por comas y procesar cada parte
    parts = line.split(',')
    
    # Si tenemos suficientes partes, procesamos la línea
    if len(parts) >= 5:
        record = {}
        fields = [
            'Fecha de procesamiento',
            'Número',
            'Receptor',
            'Cedente',
            'Asignatario Original',
            'Fecha de la ventana',
            'Estado'
        ]
        
        # Procesar cada parte y asignarla al campo correspondiente
        for i, field in enumerate(fields):
            if i < len(parts):
                value = clean_value(parts[i])
                record[field] = value
            else:
                record[field] = 'N/A'
        
        # Si encontramos un número válido, agregamos el registro
        if record['Número'] and re.match(r'\d+', str(record['Número'])):
            data.append(record)
            return

    # Si la línea contiene un número pero no coincide con el formato completo
    numero_match = re.search(r'Número: (\d+)', line)
    if numero_match:
        numero = numero_match.group(1)
        data.append({
            'Fecha de procesamiento': 'N/A',
            'Número': numero,
            'Receptor': 'N/A',
            'Cedente': 'N/A',
            'Asignatario Original': 'N/A',
            'Fecha de la ventana': 'N/A',
            'Estado': 'Línea procesada parcialmente'
        })

def process_file(file_path):
    try:
        with open(file_path, 'rb') as file:
            raw_data = file.read()
            detected = chardet.detect(raw_data)
            encoding = detected['encoding']

        with open(file_path, 'r', encoding=encoding, errors='replace') as file:
            for line in file:
                if line.strip():  # Solo procesar líneas no vacías
                    process_line(line)
    except Exception as e:
        print(f"Error procesando archivo {file_path}: {str(e)}")

# Procesar los archivos
file_pattern = r'C:\Users\Dacompany\ti\etl-process-operator\datasets\2110\*.txt'
for file_name in glob.glob(file_pattern):
    print(f"Procesando archivo: {file_name}")
    process_file(file_name)

# Crear el DataFrame
df = pd.DataFrame(data)

# Limpiar y procesar el DataFrame
df = df.drop_duplicates(subset=['Número'])
df.replace(['N/A', '-', ''], np.nan, inplace=True)

# Procesamiento de fechas
for fecha_col in ['Fecha de procesamiento', 'Fecha de la ventana']:
    df[fecha_col] = df[fecha_col].apply(lambda x: x.split()[0] if isinstance(x, str) and ' ' in x else x)
    df[fecha_col] = pd.to_datetime(df[fecha_col], format='%d/%m/%Y', errors='coerce')

# Calcular días de permanencia
df['Días de permanencia'] = (datetime.now() - df['Fecha de la ventana']).dt.days
df['Días de permanencia'] = df['Días de permanencia'].where(df['Fecha de la ventana'].notna(), np.nan)


# Renombrar columnas para SQL
df = df.rename(columns={
    'Fecha de procesamiento': 'fecha_procesamiento',
    'Número': 'numero',
    'Receptor': 'receptor',
    'Cedente': 'cedente',
    'Asignatario Original': 'asignatario_original',
    'Fecha de la ventana': 'fecha_ventana',
    'Estado': 'estado',
    'Días de permanencia': 'dias_permanencia'
})

# Mostrar los resultados
print("\nPrimeras filas del DataFrame:")
print(df.head())

print("\nEstadísticas del procesamiento:")
print(f"Total de registros procesados: {len(df)}")
print(f"Registros por estado:\n{df['estado'].value_counts()}")

Procesando archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\2110\cobranzas1.txt
Procesando archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\2110\pctienda1910.txt

Primeras filas del DataFrame:
  fecha_procesamiento     numero                         receptor  \
0          2024-10-18  912765553  Telefónica del Perú S. A.A.(22)   
1          2024-10-18  987135921  Telefónica del Perú S. A.A.(22)   
2          2024-10-18  912765610  Telefónica del Perú S. A.A.(22)   
3          2024-10-18  987135931                  Entel Perú S.A.   
4          2024-10-18  912765678  Telefónica del Perú S. A.A.(22)   

                             cedente               asignatario_original  \
0            Viettel Perú S.A.C.(24)                    Entel Perú S.A.   
1                    Entel Perú S.A.  América Móvil Perú S.A.C. (Claro)   
2                    Entel Perú S.A.                    Entel Perú S.A.   
3  América Móvil Perú S.A.C. (Claro)  América Móvil Perú S.A.C. (Claro)   
4

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5062 entries, 0 to 5061
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   fecha_procesamiento   5022 non-null   datetime64[ns]
 1   numero                5062 non-null   object        
 2   receptor              2957 non-null   object        
 3   cedente               2957 non-null   object        
 4   asignatario_original  5022 non-null   object        
 5   fecha_ventana         2957 non-null   datetime64[ns]
 6   estado                5062 non-null   object        
 7   dias_permanencia      2957 non-null   float64       
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 316.5+ KB


In [4]:
# Define el path de salida para el archivo CSV
output_path = r'C:\Users\Dacompany\ti\etl-process-operator\datasets\output\resultadoreniec21-10.csv'

# Crea el directorio si no existe
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Asegúrate de que 'df' existe y es un DataFrame
if isinstance(df, pd.DataFrame):
    try:
        # Guarda el DataFrame en un archivo CSV
        df.to_csv(output_path, index=False, encoding='utf-8')
        print(f"Archivo guardado exitosamente en: {output_path}")
    except Exception as e:
        print(f"Error al guardar el archivo: {e}")
else:
    print("El objeto 'df' no es un DataFrame.")

Archivo guardado exitosamente en: C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultadoreniec21-10.csv


In [6]:
import pandas as pd
from sqlalchemy import create_engine, text

def get_reniec_data(db_url):
    # Crear motor de conexión a la base de datos
    engine = create_engine(db_url)

    # Definir la consulta SQL
    query = text("""
    SELECT * FROM [BaseDatos_Dacompany].[dbo].[Vista_Clientes_Lima_FullNombres];
    """)

    # Ejecutar la consulta y cargar los resultados en un DataFrame
    with engine.connect() as connection:
        df = pd.read_sql(query, connection)

    return df 

# Ejemplo de uso
if __name__ == "__main__":
    DATABASE_URL_DACOMPANY = 'mssql+pyodbc://sa:dacompany@192.168.0.101/BaseDatos_Dacompany?driver=ODBC+Driver+17+for+SQL+Server'

    # Obtener los datos de la vista y guardarlos en un DataFrame
    df_reniec = get_reniec_data(DATABASE_URL_DACOMPANY)

    # Mostrar los primeros registros del DataFrame
    print(df_reniec.shape)


(2309968, 3)


In [7]:
# Define el path de salida para el archivo CSV
output_path = r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\infoclientes.csv'

# Crea el directorio si no existe
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Asegúrate de que 'df' existe y es un DataFrame
if isinstance(df, pd.DataFrame):
    try:
        # Guarda el DataFrame en un archivo CSV
        df_reniec.to_csv(output_path, index=False, encoding='utf-8')
        print(f"Archivo guardado exitosamente en: {output_path}")
    except Exception as e:
        print(f"Error al guardar el archivo: {e}")
else:
    print("El objeto 'df' no es un DataFrame.")

Archivo guardado exitosamente en: C:\Users\Dacompany\ti\etl-load-process\datasets\output\infoclientes.csv


In [6]:

data = pd.read_csv(r'datasets\output\infoclientes.csv',
                 encoding='utf-8',
                 dtype=str)

print(data.shape)  #(250672, 8)

(2309968, 3)


In [7]:

df = pd.read_csv(r'datasets\output\resultadoreniec2610.csv',
                 encoding='utf-8',
                 dtype=str)

print(df.shape)  #(250672, 8)

(47913, 8)


In [8]:
df.head()

Unnamed: 0,fecha_procesamiento,numero,receptor,cedente,asignatario_original,fecha_ventana,estado,dias_permanencia
0,2024-10-21,987137373,Entel Perú S.A.,América Móvil Perú S.A.C. (Claro),América Móvil Perú S.A.C. (Claro),2015-06-18,Número portado,3418.0
1,2024-10-21,990259893,,,Telefónica del Perú S. A.A.(22),,Número no portado,
2,2024-10-21,990259912,,,Telefónica del Perú S. A.A.(22),,Número no portado,
3,2024-10-21,987137378,Telefónica del Perú S. A.A.(22),América Móvil Perú S.A.C. (Claro),América Móvil Perú S.A.C. (Claro),2024-04-22,Número portado,187.0
4,2024-10-21,990259941,Entel Perú S.A.,Telefónica del Perú S. A.A.(22),Telefónica del Perú S. A.A.(22),2017-05-15,Número portado,2721.0


In [9]:

# Hacemos un merge (inner join) para quedarnos solo con los registros donde 'numero' coincide
datafull = pd.merge(df, data, on='numero', how='inner')

In [10]:
datafull.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47913 entries, 0 to 47912
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   fecha_procesamiento   47913 non-null  object
 1   numero                47913 non-null  object
 2   receptor              26336 non-null  object
 3   cedente               26335 non-null  object
 4   asignatario_original  47913 non-null  object
 5   fecha_ventana         26336 non-null  object
 6   estado                47913 non-null  object
 7   dias_permanencia      26336 non-null  object
 8   DNI                   42195 non-null  object
 9   fullnombres           47759 non-null  object
dtypes: object(10)
memory usage: 3.7+ MB


In [13]:
# Define el path de salida para el archivo CSV
output_path = r'C:\Users\Dacompany\ti\etl-process-operator\datasets\output\resultado-opsitel-filtro5.csv'

# Crea el directorio si no existe
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Asegúrate de que 'df' existe y es un DataFrame
if isinstance(df, pd.DataFrame):
    try:
        # Guarda el DataFrame en un archivo CSV
        datafull.to_csv(output_path, index=False, encoding='utf-8')
        print(f"Archivo guardado exitosamente en: {output_path}")
    except Exception as e:
        print(f"Error al guardar el archivo: {e}")
else:
    print("El objeto 'df' no es un DataFrame.")

Archivo guardado exitosamente en: C:\Users\Dacompany\ti\etl-process-operator\datasets\output\resultado-opsitel-filtro5.csv


In [25]:
df.shape

(76217, 8)

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 76217 entries, 0 to 76676
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   fecha_procesamiento   75533 non-null  datetime64[ns]
 1   numero                76217 non-null  object        
 2   receptor              39238 non-null  object        
 3   cedente               39235 non-null  object        
 4   asignatario_original  75533 non-null  object        
 5   fecha_ventana         39238 non-null  datetime64[ns]
 6   estado                76217 non-null  object        
 7   dias_permanencia      39238 non-null  float64       
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 5.2+ MB


In [12]:
df.head(5)

Unnamed: 0,fecha_procesamiento,numero,receptor,cedente,asignatario_original,fecha_ventana,estado,dias_permanencia
0,2024-10-12,956039544,,,Telefónica del Perú S. A.A.(22),NaT,Número no portado,
1,2024-10-12,952229987,,,Telefónica del Perú S. A.A.(22),NaT,Número no portado,
2,2024-10-12,955314072,,,Entel Perú S.A.,NaT,Número no portado,
3,2024-10-12,953544628,Entel Perú S.A.,Telefónica del Perú S. A.A.(22),Telefónica del Perú S. A.A.(22),2021-12-17,Número portado,1036.0
4,2024-10-12,958464477,,,Telefónica del Perú S. A.A.(22),NaT,Número no portado,


In [37]:

df2 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\acumuladoclientes.csv',
                 encoding='utf-8',
                 dtype=str)

print(df2.shape)  #(250672, 8)
# Renombrar la columna "Número" a "numero"
#df2.rename(columns={'Número': 'numero'}, inplace=True)

# Paso 2: Obtener los números únicos (sin duplicados) de la columna 'numero'
numeros_filtrados = df2['numero'].drop_duplicates()

# Verificar la forma del DataFrame filtrado
print(numeros_filtrados.shape)  # Esto debería mostrarte el número de 8 filas y no de filas (138441,)

(250672, 8)
(138441,)


In [71]:
import pandas as pd

# Cargar el archivo CSV
df2 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\acumuladoclientes.csv',
                  encoding='utf-8',
                  dtype=str)

# Antes de eliminar duplicados, mostrar el total de registros
print(f"Total de registros antes: {len(df2)}")

# Eliminar duplicados basándose en la columna 'numero', 
# manteniendo la última aparición (puedes cambiar keep='first' si prefieres mantener el primer registro)
df2_sin_duplicados = df2.drop_duplicates(subset=['numero'], keep='last')

# Mostrar el total de registros después de eliminar duplicados
print(f"Total de registros después: {len(df2_sin_duplicados)}")

# Verificar cuántos duplicados se eliminaron
duplicados_eliminados = len(df2) - len(df2_sin_duplicados)
print(f"Duplicados eliminados: {duplicados_eliminados}")

# Guardar el DataFrame sin duplicados en un nuevo archivo CSV
#df2_sin_duplicados.to_csv('acumuladoclientes_sin_duplicados.csv', index=False)

Total de registros antes: 250672
Total de registros después: 138441
Duplicados eliminados: 112231


In [72]:
df2_sin_duplicados.shape

(138441, 8)

In [73]:
df2_sin_duplicados.head()

Unnamed: 0,fecha_procesamiento,numero,receptor,cedente,asignatario_original,fecha_ventana,estado,dias_permanencia
0,2024-09-23,960272675,,,Entel Perú S.A.,,Número no portado,
1,2024-09-23,960272741,,,Entel Perú S.A.,,Número no portado,
2,2024-09-23,960272772,,,Entel Perú S.A.,,Número no portado,
3,2024-09-23,960272779,Telefónica del Perú S. A.A.(22),Entel Perú S.A.,Entel Perú S.A.,2022-05-19,Número portado,872.0
4,2024-09-23,960272781,,,Entel Perú S.A.,,Número no portado,


In [74]:
import duckdb
import pandas as pd

# Supongamos que df2_sin_duplicados ya está definido

# Conectar a la base de datos DuckDB
con = duckdb.connect('bot_moviles_opsitel/datawarehouse/bot_moviles_opsitel.db')

# Crear la tabla 'bot_moviles' si no existe
con.execute("""
CREATE TABLE IF NOT EXISTS bot_moviles (
    fecha_procesamiento DATE,
    numero VARCHAR,
    receptor VARCHAR,
    cedente VARCHAR,
    asignatario_original VARCHAR,
    fecha_ventana DATE,
    estado VARCHAR,
    dias_permanencia INTEGER
)
""")

# Evitar duplicados: Obtener los números ya existentes en la tabla
numeros_existentes = con.execute("SELECT numero FROM bot_moviles").fetchdf()

# Filtrar el DataFrame para eliminar los números que ya están en la base de datos
df_filtrado = df2_sin_duplicados[~df2_sin_duplicados['numero'].isin(numeros_existentes['numero'])]

# Verificar el tamaño del DataFrame filtrado y mostrar su contenido
#print(f"Tamaño de df_filtrado: {df_filtrado.shape}")
print(df_filtrado.head())  # Muestra las primeras filas del DataFrame filtrado

# Si el DataFrame filtrado no está vacío, insertar los nuevos datos
if not df_filtrado.empty:
    # Insertar solo las filas que no tienen duplicados
    con.from_df(df_filtrado).insert_into("bot_moviles")
    print("Nuevos datos insertados.")
else:
    print("No hay nuevos datos para insertar.")

# Verificar si los datos se cargaron correctamente
print(con.execute("SELECT * FROM bot_moviles LIMIT 5").fetchall())

# Cerrar la conexión
con.close()


Empty DataFrame
Columns: [fecha_procesamiento, numero, receptor, cedente, asignatario_original, fecha_ventana, estado, dias_permanencia]
Index: []
No hay nuevos datos para insertar.
[(datetime.date(2024, 9, 23), '960272675', None, None, 'Entel Perú S.A.', None, 'Número no portado', None), (datetime.date(2024, 9, 23), '960272741', None, None, 'Entel Perú S.A.', None, 'Número no portado', None), (datetime.date(2024, 9, 23), '960272772', None, None, 'Entel Perú S.A.', None, 'Número no portado', None), (datetime.date(2024, 9, 23), '960272779', 'Telefónica del Perú S. A.A.(22)', 'Entel Perú S.A.', 'Entel Perú S.A.', datetime.date(2022, 5, 19), 'Número portado', 872), (datetime.date(2024, 9, 23), '960272781', None, None, 'Entel Perú S.A.', None, 'Número no portado', None)]


In [39]:
numeros_filtrados

0         960272675
1         960272741
2         960272772
3         960272779
4         960272781
            ...    
250667    936274573
250668    936274574
250669    936274652
250670    936274662
250671    936274697
Name: numero, Length: 138441, dtype: object

In [33]:
df1 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\acumuladoclientes.csv',
                 encoding='utf-8',
                 dtype=str)
df1ti = df1[['numero']].drop_duplicates()

In [76]:
# Conectar a la base de datos DuckDB
con = duckdb.connect('bot_moviles_opsitel/datawarehouse/bot_moviles_opsitel.db')

# Evitar duplicados: Obtener los números ya existentes en la tabla
data = con.execute("SELECT * FROM bot_moviles").fetchdf()
data.shape

(138441, 8)

In [85]:
df2 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultadoreniec.csv',
                 encoding='utf-8',
                 dtype=str)
df2.head()
# Renombrar la columna "Número" a "numero"
df2.rename(columns={'Número': 'numero'}, inplace=True)

# Paso 2: Obtener los números únicos (sin duplicados) de la columna 'numero'
numeros_filtrados = df2['numero'].drop_duplicates()

# Paso 3: Filtrar el DataFrame original 'df2' para obtener todas las columnas que correspondan a esos números
# Se usa isin() para filtrar el DataFrame original basado en los números únicos
df2ti = df2[df2['numero'].isin(numeros_filtrados)]
df2.shape

(76217, 8)

In [86]:
# Paso 1: Convertir la columna 'numero' de df1 a una lista
numeros_excluir = data['numero'].tolist()

# Paso 2: Excluir esos números de df1 (asumiendo que df2 también tiene una columna 'numero' y ya envio por ende no debe volver a enviar df2ti los registros que tiene df1ti)
df1_filtrado = df2ti[~df2ti['numero'].isin(numeros_excluir)]

# Ver los resultados
print(df1_filtrado.shape)

(52128, 8)


In [22]:
# Guarda el DataFrame final en un archivo CSV
output_path = r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultado-opsitel-filtro3.csv'
df1_filtrado.to_csv(output_path, index=None, encoding='latin1')

In [34]:
df4 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\acumuladomanualclientes.csv',
                 encoding='utf-8',
                 dtype=str)
data = df4[['numero']].drop_duplicates()

In [35]:
import pandas as pd
import glob

# Ruta donde se encuentran los archivos CSV
path = r'C:\Users\Dacompany\ti\etl-load-process\datasets\input\*.csv'

# Leer todos los archivos CSV y almacenarlos en una lista
dfs = []
for file_name in glob.glob(path):
    print(f"Leyendo archivo: {file_name}")
    df1 = pd.read_csv(file_name, sep=',', encoding='latin1', dtype=str)
    dfs.append(df1)

# Concatenar todos los DataFrames en uno solo
df_combined = pd.concat(dfs, ignore_index=True)

# Eliminar espacios en blanco en la columna 'numero'
df_combined['numero'] = df_combined['numero'].astype(str).str.strip()

# Eliminar duplicados en la columna 'numero'
df_combined_sin_duplicados = df_combined.drop_duplicates(subset='numero', keep='first')

# Mostrar el DataFrame final
print(len(df_combined_sin_duplicados))

Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_1.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_10.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_11.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_12.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_2.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_3.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_4.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_5.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_6.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load-process\datasets\input\movileslima_chunk_7.csv
Leyendo archivo: C:\Users\Dacompany\ti\etl-load

In [36]:
# Paso 1: Convertir la columna 'numero' de df2 a una lista
numeros_excluir = data['numero'].tolist()

# Paso 2: Excluir esos números de df1 (asumiendo que df1 también tiene una columna 'numero')
df1_filtrado = df_combined_sin_duplicados[~df_combined_sin_duplicados['numero'].isin(numeros_excluir)]

# Ver los resultados
print(df1_filtrado.shape)

(2132083, 1)


In [37]:
# Guarda el DataFrame final en un archivo CSV
output_path =  r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultado-opsitel-faltantes.csv'
df1_filtrado.to_csv(output_path, index=None, encoding='utf-8')

In [2]:
import pandas as pd
# Asegúrate de que df1_filtrado esté definido correctamente. Por ejemplo:
df = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultado-opsitel-faltantes.csv', encoding='latin1', dtype=str)

# Crea una copia del DataFrame original
#df = df1_filtrado.copy()

# Verificar si el DataFrame está vacío antes de proceder
if df.empty:
    print("El DataFrame está vacío, no hay datos para procesar.")
else:
    # Define el tamaño de cada chunk (aproximadamente 200,000 registros)
    chunk_size = 400000

    # Calcular la cantidad de chunks
    num_chunks = len(df) // chunk_size + (1 if len(df) % chunk_size != 0 else 0)

    # Guardar el DataFrame en chunks
    for i in range(num_chunks):
        start_idx = i * chunk_size
        end_idx = min((i + 1) * chunk_size, len(df))
        
        chunk = df.iloc[start_idx:end_idx]
        
        # Usar f-string correctamente para el nombre de salida
        output_file = fr'C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_{i+1}.csv'
        chunk.to_csv(output_file, index=False, encoding='utf-8')
        
        print(f"Guardado chunk {i+1} en {output_file}")

    print(f"Proceso terminado, se guardaron {num_chunks} chunks.")


Guardado chunk 1 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_1.csv
Guardado chunk 2 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_2.csv
Guardado chunk 3 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_3.csv
Guardado chunk 4 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_4.csv
Guardado chunk 5 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_5.csv
Guardado chunk 6 en C:\Users\Dacompany\ti\etl-load-process\datasets\processed\movileslima_chunk_6.csv
Proceso terminado, se guardaron 6 chunks.


In [26]:
df1 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\acumuladomanualclientes.csv',
                 encoding='utf-8',
                 dtype=str)
df1ti = df1[['numero']].drop_duplicates()

In [27]:
df1ti.shape

(138441, 1)

In [28]:
df2 = pd.read_csv(r'C:\Users\Dacompany\ti\etl-load-process\datasets\output\resultadoreniec.csv',
                 encoding='utf-8',
                 dtype=str)
df2.head()
# Renombrar la columna "Número" a "numero"
df2.rename(columns={'Número': 'numero'}, inplace=True)

# Paso 2: Obtener los números únicos (sin duplicados) de la columna 'numero'
numeros_filtrados = df2['numero'].drop_duplicates()

# Paso 3: Filtrar el DataFrame original 'df2' para obtener todas las columnas que correspondan a esos números
# Se usa isin() para filtrar el DataFrame original basado en los números únicos
df2ti = df2[df2['numero'].isin(numeros_filtrados)]

# Verificar la forma del DataFrame filtrado
print(df2ti.shape)  # Esto debería mostrarte el número de filas y columnas de df2ti

(76217, 8)


In [29]:
# Paso 1: Convertir la columna 'numero' de df1 a una lista
numeros_excluir = df1ti['numero'].tolist()

# Paso 2: Excluir esos números de df1 (asumiendo que df2 también tiene una columna 'numero' y ya envio por ende no debe volver a enviar df2ti los registros que tiene df1ti)
df1_filtrado = df2ti[~df2ti['numero'].isin(numeros_excluir)]

# Ver los resultados
print(df1_filtrado.shape)

(52128, 8)


In [14]:
import duckdb
import os

In [20]:
ruta= r"bot_moviles_opsitel\datawarehouse\bot_moviles_opsitel.db"

In [21]:
# Conéctate a la base de datos DuckDB y ejecuta una consulta
conn = duckdb.connect(database=ruta, read_only=True)

# Reemplaza 'nombre_de_la_tabla' con el nombre real de la tabla que quieres consultar
query = "SELECT * FROM bot_moviles"

# Ejecuta la consulta y carga los resultados en un DataFrame de pandas
df = conn.execute(query).fetchdf()

# Cierra la conexión
conn.close()

# Muestra el DataFrame resultante
print(df)

       fecha_procesamiento     numero                           receptor  \
0               2024-09-23  960272675                               None   
1               2024-09-23  960272741                               None   
2               2024-09-23  960272772                               None   
3               2024-09-23  960272779    Telefónica del Perú S. A.A.(22)   
4               2024-09-23  960272781                               None   
...                    ...        ...                                ...   
138436          2024-10-12  936274573  TelefÃ³nica del PerÃº S. A.A.(22)   
138437          2024-10-12  936274574                               None   
138438          2024-10-12  936274652                               None   
138439          2024-10-12  936274662                               None   
138440          2024-10-12  936274697           Viettel PerÃº S.A.C.(24)   

                 cedente asignatario_original fecha_ventana  \
0                   None

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138441 entries, 0 to 138440
Data columns (total 8 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   fecha_procesamiento   136783 non-null  datetime64[us]
 1   numero                138441 non-null  object        
 2   receptor              72405 non-null   object        
 3   cedente               72404 non-null   object        
 4   asignatario_original  136783 non-null  object        
 5   fecha_ventana         72404 non-null   datetime64[us]
 6   estado                138441 non-null  object        
 7   dias_permanencia      72404 non-null   float64       
dtypes: datetime64[us](2), float64(1), object(5)
memory usage: 8.4+ MB


In [1]:
import pandas as pd
from sqlalchemy import create_engine, text

def get_reniec_data(db_url):
    # Crear motor de conexión a la base de datos
    engine = create_engine(db_url)

    # Definir la consulta SQL
    query = text("""
    SELECT * FROM [BaseDatos_Dacompany].[dbo].[Vista_Clientes_Lima_FullNombres];
    """)

    # Ejecutar la consulta y cargar los resultados en un DataFrame
    with engine.connect() as connection:
        df = pd.read_sql(query, connection)

    return df 

# Ejemplo de uso
if __name__ == "__main__":
    DATABASE_URL_DACOMPANY = 'mssql+pyodbc://sa:dacompany@192.168.0.101/BaseDatos_Dacompany?driver=ODBC+Driver+17+for+SQL+Server'

    # Obtener los datos de la vista y guardarlos en un DataFrame
    df_reniec = get_reniec_data(DATABASE_URL_DACOMPANY)

    # Mostrar los primeros registros del DataFrame
    print(df_reniec.shape)

(2309968, 3)
