In [1]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt

In [2]:
# Para el manejo de este archivo se define como regla general

# error = true
# ok = false

# Siempre que las validaciones arrojen True significa que hay datos sin calidad.

In [3]:
# Ruta al archivo CSV
ruta_csv = 'data/temp/kna1.csv'

# Cargar el archivo CSV en un DataFrame con opciones adicionales
kna1 = pd.read_csv(
    ruta_csv,
    sep=',',  # Delimitador
    header=0,  # Primera fila como encabezado
    dtype={'Tratamiento': str, 'Número fiscal 5': str, 'Teléfono 1': str},  # Tipos de datos
    na_values=['NA', 'N/A']  # Valores a considerar como NaN
)

FileNotFoundError: [Errno 2] No such file or directory: 'data/temp/kna1.csv'

In [None]:
kna1_renamed =  kna1.rename(columns={'Tipo NIF': 'nif'})

# Ruta al archivo CSV
ruta_csv = 'data/generalTabes/nif.csv'

# Cargar el archivo CSV en un DataFrame con opciones adicionales
nif = pd.read_csv(
    ruta_csv,
    sep=',',  # Delimitador
    header=0,  # Primera fila como encabezado
    
)


nif_renamed =  nif.rename(columns={'nif': 'nif'})


# Realizar el merge
kna1_renamed = pd.merge(kna1_renamed, nif_renamed, on='nif', how='left')

# Seleccionar columnas específicas
validacionNif = ['Cliente','nif', 'descripcion']
resultado_seleccionado = kna1_renamed[validacionNif]

In [None]:
kna1_renamed =  kna1_renamed.rename(columns={'Clase de impuesto': 'claseImp'})

# Ruta al archivo CSV
ruta_csv = 'data\generalTabes\claseImpuesto.csv'

# Cargar el archivo CSV en un DataFrame con opciones adicionales
impuesto = pd.read_csv(
    ruta_csv,
    sep=',',  # Delimitador
    header=0,  # Primera fila como encabezado
)


impuesto_renamed =  impuesto.rename(columns={'clase': 'claseImp'})


# Realizar el merge
resultado = pd.merge(kna1_renamed, impuesto_renamed, on='claseImp', how='left')
resultado['tipoPerona'] = resultado['descripcion impuesto'].str[:2]

In [None]:
# tratamiento empresa no tenga clase de impuestos pn
cond1 = resultado['Tratamiento'] == 'Empresa'
cond2 = resultado['tipoPerona'] == 'PN'

resultado['tratamiento_x_claseImpto'] = np.where(cond1 & cond2, True, False)

In [None]:
# tratamiento empresa no tenga tipo nif <> 31
cond1 = resultado['Tratamiento'] == 'Empresa'
cond2 = resultado['nif'] != 31

resultado['tratamiento_x_nif'] = np.where(cond1 & cond2,True,False)

In [None]:
# tratamiento empresa no tenga medios magneticos (nombre1 y nombre2)

cond1 = resultado['Tratamiento'] == 'Empresa'
cond2 = resultado['Nombre 3'] == 'NaN'
cond3 = resultado['Nombre 4'] == 'NaN'

resultado['tratamiento_x_medMag'] = np.where(cond1 & cond2 & cond3,True,False)

In [None]:
# nif 5 no este vacio

cond1 = resultado['Número fiscal 5'].isnull()


resultado['error_nif5'] = np.where(cond1,True,False)

In [None]:
# los numeros de telefono no tengan guiones (-)

cond1 = resultado['Teléfono 1']

cond1 = cond1.fillna('').astype(str)

def contains_hyphen(text):
    return '-' in text

# Aplicar la función a cada elemento de la serie
resultado['error_telefono'] = cond1.apply(contains_hyphen)

In [None]:
# los numeros de telefono estan vacios

cond1 = resultado['Teléfono 1'].isnull()


resultado['error_telefono_vacio'] = np.where(cond1,True,False)

In [None]:
# las direcciones no tengan caracteres especiales (# - grados N`)

cond1 = resultado['Calle']

cond1 = cond1.fillna('').astype(str)

def contains_hyphen(text):
    #definir los caracteres especiales que se consideran como error en la direccion
    patron = r'[#-]'
    return bool(re.search(patron, text))

# Aplicar la función a cada elemento de la serie
resultado['error_calle'] = cond1.apply(contains_hyphen)

In [None]:
# tratamiento empresa no tenga medios magneticos (nombre1 y nombre2)

    
# Crear una columna 'error_personaFisica' basada en condiciones
resultado['error_personaFisica'] = False  # Inicializar con un valor por defecto

# Aplicar condiciones
resultado.loc[(resultado['claseImp'] == 13) & (resultado['nif'] == 13) & (resultado['Persona física'].isnull()), 'error_personaFisica'] = True

resultado.loc[(resultado['claseImp'] != 13) & (resultado['nif'] == 13) & (resultado['Persona física'] == 'X'), 'error_personaFisica'] = True

resultado.loc[(resultado['claseImp'] == 13) & (resultado['nif'] != 13) & (resultado['Persona física'] == 'X'), 'error_personaFisica'] = True


In [None]:
# Seleccionar columnas específicas
vista = ['Cliente','tratamiento_x_claseImpto', 'tratamiento_x_claseImpto', 
         'tratamiento_x_nif', 'tratamiento_x_medMag','error_nif5',
         'error_telefono', 'error_telefono_vacio', 'error_calle', 
         'error_personaFisica']

resultado_seleccionado = resultado[vista]


#print(resultado_seleccionado)
#print(resultado_seleccionado)

#resultado_seleccionado.to_csv('data/final/result.csv', index=False)

In [None]:
# Etiquetas personalizadas
etiquetas = ['Correctos', 'Errores']

In [None]:
# Crear gráfico de torta

# Cantidad de errores en persona fisicay
conteo = resultado_seleccionado['error_personaFisica'].value_counts()
plt.figure(figsize=(5, 5))
plt.pie(conteo,labels=etiquetas, autopct='%1.1f%%', colors=['skyblue', 'salmon'])
plt.title('Error check persona Fisica')

# Agregar texto descriptivo
texto_descriptivo = (
    "Este gráfico muestra la cantidad de terceros con error en el check de persona fisica.\n"
    "'Valor Verdadero' representa la cantidad de registros con valor True.\n"
    "'Valor Falso' representa la cantidad de registros con valor False."
)
plt.text(-1.5, -1.5, texto_descriptivo, fontsize=11, ha='left', va='top', bbox=dict(facecolor='white', alpha=0.8))



plt.show()

In [None]:
# Crear gráfico de torta

# Cantidad de clientes con telefonos vacios
conteo = resultado_seleccionado['error_telefono_vacio'].value_counts()
plt.figure(figsize=(4, 4))
plt.pie(conteo,labels=etiquetas, autopct='%1.1f%%', colors=['skyblue', 'salmon'])
plt.title('Terceros con telefono vacio')

# Agregar texto descriptivo
texto_descriptivo = (
    "Este gráfico muestra la cantidad de terceros con telefono vacio.\n"
    "'Valor Verdadero' representa la cantidad de registros con valor True.\n"
    "'Valor Falso' representa la cantidad de registros con valor False."
)
plt.text(-2, -1.5, texto_descriptivo, fontsize=11, ha='left', va='top', bbox=dict(facecolor='white', alpha=0.8))


plt.show()

In [None]:
# Función para mostrar la cantidad de registros en lugar del porcentaje
def formato_registros(valores):
    def formatear(pct):
        total = sum(valores)
        cantidad = int(round(total * pct / 100))
        return f'{cantidad}'
    return formatear

# Crear gráfico de torta
plt.figure(figsize=(6, 6))
plt.pie(conteo, labels=etiquetas, autopct=formato_registros(conteo), colors=['skyblue', 'salmon'])
plt.title('Distribución de valores booleanos')

plt.show()