In [50]:
import pandas as pd
import re

In [51]:
# Carga del archivo
df = pd.read_csv('data.csv',sep=";", encoding="Latin")

In [52]:
#funciones 
def convertir_a_mayusculas(valor):
    if isinstance(valor, str):
        return valor.upper()
    else:
        return valor

def limpiar_y_completar(valor):
    """
    Elimina caracteres extraños y completa con ceros a la izquierda hasta 10 caracteres.
    :param valor: El valor que se desea procesar (string o número).
    :return: El valor limpio y completado como string.
    """
    # Convertir a string
    valor = str(valor)
    # Eliminar caracteres no numéricos usando expresiones regulares
    valor = re.sub(r'[^0-9]', '', valor)
    # Completar con ceros a la izquierda hasta 10 caracteres
    return valor.zfill(10)

# Ejemplo de uso
# print(limpiar_y_completar(' 0234-50abc '))  # Salida: '0000023450'
# print(limpiar_y_completar('123'))          # Salida: '0000000123'


def procesar_telefonos(telefono):
    telefono = str(telefono)
    # Reemplazar cualquier patrón de números separados por '-' por '\n'
    telefono = re.sub(r'(\d+)-(\d+)', r'\1\n\2', telefono)
    # Eliminar todos los guiones restantes
    telefono = telefono.replace('-', '')
    # Reemplazar dobles espacios por un salto de línea
    telefono = telefono.replace('  ', '\n')
    # Eliminar los espacios al inicio y al final
    telefono = telefono.strip()
    return telefono

In [53]:
df['DEPARTAMENTO'] = df['DEPARTAMENTO'].apply(convertir_a_mayusculas)
df['MUNICIPIO'] = df['MUNICIPIO'].apply(convertir_a_mayusculas)
df['MATERIA PRIMA'] = df['MATERIA PRIMA'].apply(convertir_a_mayusculas)
df['PRODUCTO'] = df['PRODUCTO'].apply(convertir_a_mayusculas)

In [54]:
df1 = df.copy()


In [55]:
df1['TELEFONO'] = df1['TELEFONO'].apply(procesar_telefonos)
df1['CODIGO REGISTRO'] = df1['CODIGO REGISTRO'].apply(limpiar_y_completar)


In [56]:
df1.columns


Index(['CODIGO REGISTRO', 'FECHA REGISTRO', 'FECHA LLENADO',
       'NOMBRE DE LA UNIDAD', 'TELEFONO', 'DEPARTAMENTO', 'MUNICIPIO', 'CAEB',
       'CIRC', 'MATERIA PRIMA', 'PRODUCTO', 'AGUA', 'ENERGIA ELECTRICA', 'GAS',
       'POTENCIA INSTALADA', 'POTENCIA RED', 'POTENCIA PROPIA', 'Unnamed: 17'],
      dtype='object')

In [73]:
data = df1[['CODIGO REGISTRO', 'FECHA REGISTRO','NOMBRE DE LA UNIDAD', 'DEPARTAMENTO', 'MUNICIPIO', 'CAEB','CIRC']]
data[data['MUNICIPIO']=='QUILLACOLLO']

Unnamed: 0,CODIGO REGISTRO,FECHA REGISTRO,NOMBRE DE LA UNIDAD,DEPARTAMENTO,MUNICIPIO,CAEB,CIRC
18,0309010438,2022-12-29,EL VALLE AZUL,COCHABAMBA,QUILLACOLLO,15542\n15543,4
64,0309010001,2010-05-26,UTD LTDA.,COCHABAMBA,QUILLACOLLO,20220,4
98,0309010089,2013-05-23,ASERRADERO FEMA,COCHABAMBA,QUILLACOLLO,20100,3
144,0309010149,2010-02-10,ELABORACION DE BOLSAS PLASTICAS INMAPLAST SRL,COCHABAMBA,QUILLACOLLO,25209,4
157,0309010064,2019-01-30,CURTIEMBRE JAZMIN,COCHABAMBA,QUILLACOLLO,19110,TRES (3)
...,...,...,...,...,...,...,...
9010,0309010452,2023-05-23,FABRICA DE ATAUDES ARTESANALES,COCHABAMBA,QUILLACOLLO,20290,4
9027,0309010082,2012-09-17,SALTEÑERIA VICTORIA,COCHABAMBA,QUILLACOLLO,15419,4
9038,0309010151,2010-02-10,AGUA TUNARI,COCHABAMBA,QUILLACOLLO,15542,4
9059,0309010326,2018-01-26,IMPORTADORA CAMPERO S.R.L (Chapería),COCHABAMBA,QUILLACOLLO,28920,4


In [76]:
data[data['MUNICIPIO']=='CAPITAL - LA PAZ'].to_excel('CAP_LP.xlsx')

In [64]:
mpio = pd.read_csv('municipios.csv',encoding='utf8',dtype='str')

In [59]:
mpio_base = mpio['concat']
mpio_base = set(mpio_base)

In [60]:
def validar_codigos(dataframe, lista_validacion, columna_codigo='codigo'):
    """
    Compara los primeros 6 dígitos de la columna 'codigo' con una lista y crea la columna 'validate'.

    Args:
        dataframe (pd.DataFrame): El DataFrame de pandas.
        lista_validacion (list): La lista de códigos de 6 dígitos para comparar.
        columna_codigo (str): El nombre de la columna con los códigos de 10 dígitos.

    Returns:
        pd.DataFrame: El DataFrame con la columna 'validate' añadida.
    """
    dataframe['validate'] = dataframe[columna_codigo].astype(str).str[:6].apply(lambda x: 1 if x in lista_validacion else 0)
    return dataframe

df_validado = validar_codigos(data, mpio_base,columna_codigo='CODIGO REGISTRO')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe['validate'] = dataframe[columna_codigo].astype(str).str[:6].apply(lambda x: 1 if x in lista_validacion else 0)


In [65]:
data['validate'] = data['CODIGO REGISTRO'].astype(str).str[:6].apply(lambda x: '1' if x in mpio_base else '0')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['validate'] = data['CODIGO REGISTRO'].astype(str).str[:6].apply(lambda x: '1' if x in mpio_base else '0')


In [70]:
errores = data[data['validate']=='0']
errores.to_excel('errores.xlsx')

In [72]:
errores[errores['MUNICIPIO']=='QUILLACOLLO']

Unnamed: 0,CODIGO REGISTRO,FECHA REGISTRO,NOMBRE DE LA UNIDAD,DEPARTAMENTO,MUNICIPIO,CAEB,CIRC,validate
2564,1309010176,2011-03-04,EMBUTIDOS COPACABANA,COCHABAMBA,QUILLACOLLO,15113,4,0
6194,390102208,2013-11-08,ELABORACION DR CHICHA DELMIRA MIRANDA,COCHABAMBA,QUILLACOLLO,15521,4,0
