## Limpieza de Datos: Compras Públicas Municipalidades

Este notebook documenta el proceso de limpieza y estandarización de datos de compras públicas municipales en Chile, obtenidos de la plataforma Mercado Público. El objetivo es preparar los datasets para un EDA posterior.

Para correr este notebook es necesario tener un una carpeta llamada Municipalidad con los datos en formato csv, en el mismo directorio. el formato es:

"Limpieza/Municipalidades/CompraAgil.csv" 


Se trabajará con 4 datasest: 

*  Compra Ágil
* Convenio Marco
* Licitación
* Trato Directo


!! Por ahora no trabajare con Convenio Marco, más adelante verémos si es de utilidad



In [45]:
import pandas as pd
import os

In [46]:
def clean_dataset(df, data_name):
    """
    Función para limpiar tipos de datos en datasets de compras públicas
    """

    # Fechas
    if 'FechaEnvioOC' in df.columns:
            df['FechaEnvioOC'] = pd.to_datetime(df['FechaEnvioOC'], dayfirst=True, errors='coerce')
    
    # Montos
    for col in ["MontoNetoOC_CLP",
                "MontoNetoOC",
                "MontoTotalOC",
                "MontoTotalItem",
                "MontoNetoItemCLP",
                "MonedaItem",
                "MontoNetoOC_CLP"]:
            
        if col in df.columns:
            #arreglar formatos
            df[col] = df[col].astype(str).str.replace('.', '', regex=False)
            df[col] = df[col].str.replace(',', '.', regex=False)
            df[col] = pd.to_numeric(df[col], errors='coerce')
            
            # para trabajar con enteros
            df[col] = df[col].round().astype('Int64')
    
    # Limpiar texto
    text_columns = ['Proveedor', 'Institucion', 'NombreOC', 'NombreItem']
    for col in text_columns:
        if col in df.columns:
            df[col] = df[col].astype(str).str.strip().str.upper()
    #limpiar comas:

    
    for col in df.columns:
            df[col] = df[col].astype(str).str.replace(',', '.', regex=False)
    
    
    return df

In [47]:
'''
Aqui voy a seleccionar algunas columnas de interés
'''

columns_to_keep = [
    "codigoOC",
    "NroLicitacion",
    "EstadoOC",
    "NombreOC",
     
    # Institución compradora
    "Institucion",
    "UnidadCompra",
    "RegionUnidadCompra",
    "Financiamiento",


    # Proveedor
    "Proveedor",
    "ProveedorRUT",
    "TamanoProveedor",
    "RegionProveedor",

    # Montos y compra
    "MontoNetoOC_CLP",
    "MontoNetoOC",
    "MontoTotalOC",
    "MontoTotalItem",
    "MontoNetoItemCLP",
    "MonedaItem",
    "MontoNetoOC_CLP",

    # Producto / Servicio
    "NombreItem",
    "CantidadItem",
    "RubroN1",
    "RubroN2",
    "RubroN3",
    "CodigoProductoONU"
    
]
df = pd.read_csv("Municipalidades/Licitacion.csv", sep=";", encoding="latin1", usecols=columns_to_keep)

In [48]:
'''
Limpieza básica de eliminación de nulos y duplicados
'''

df = df.drop_duplicates()

df = clean_dataset(df, "Licitacion")

In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 234754 entries, 0 to 250821
Data columns (total 24 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   codigoOC            234754 non-null  object
 1   NroLicitacion       234754 non-null  object
 2   NombreOC            234754 non-null  object
 3   EstadoOC            234754 non-null  object
 4   MontoNetoOC         234754 non-null  object
 5   MontoTotalOC        234754 non-null  object
 6   MontoNetoOC_CLP     234754 non-null  object
 7   Financiamiento      234754 non-null  object
 8   UnidadCompra        234754 non-null  object
 9   RegionUnidadCompra  234754 non-null  object
 10  Institucion         234754 non-null  object
 11  Proveedor           234754 non-null  object
 12  ProveedorRUT        234754 non-null  object
 13  TamanoProveedor     234754 non-null  object
 14  RegionProveedor     234754 non-null  object
 15  RubroN1             234754 non-null  object
 16  RubroN2

In [50]:
# para los siguientes datasts, hay que sacar "NroLicitacion"
columns_to_keep_2 = columns_to_keep.copy()  
columns_to_keep_2.pop(1)

'NroLicitacion'

In [51]:

df_td = pd.read_csv("Municipalidades/TratoDirecto.csv", sep=";", encoding="latin1", usecols=columns_to_keep_2)

In [52]:
'''
Limpieza básica de eliminación de nulos y duplicados
'''

df_td = df_td.drop_duplicates()
df_td = clean_dataset(df_td, "TratoDirecto")

In [53]:
df_td.info()

<class 'pandas.core.frame.DataFrame'>
Index: 41942 entries, 0 to 43857
Data columns (total 23 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   codigoOC            41942 non-null  object
 1   NombreOC            41942 non-null  object
 2   EstadoOC            41942 non-null  object
 3   MontoNetoOC         41942 non-null  object
 4   MontoTotalOC        41942 non-null  object
 5   MontoNetoOC_CLP     41942 non-null  object
 6   Financiamiento      41942 non-null  object
 7   UnidadCompra        41942 non-null  object
 8   RegionUnidadCompra  41942 non-null  object
 9   Institucion         41942 non-null  object
 10  Proveedor           41942 non-null  object
 11  ProveedorRUT        41942 non-null  object
 12  TamanoProveedor     41942 non-null  object
 13  RegionProveedor     41942 non-null  object
 14  RubroN1             41942 non-null  object
 15  RubroN2             41942 non-null  object
 16  RubroN3             41942 n

In [None]:
df_ca = pd.read_csv("Municipalidades/CompraAgil.csv", sep=";", encoding="latin1", usecols=columns_to_keep_2)

In [None]:
df_ca = df_ca.dropna(subset=["Proveedor", "CantidadItem"])
df_ca = df_ca.drop_duplicates()
df_ca = clean_dataset(df_ca, "CompraAgil")

In [None]:
df_ca.info()

<class 'pandas.core.frame.DataFrame'>
Index: 426484 entries, 0 to 2492920
Data columns (total 23 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   codigoOC            426484 non-null  object
 1   NombreOC            426484 non-null  object
 2   EstadoOC            426484 non-null  object
 3   MontoNetoOC         426484 non-null  object
 4   MontoTotalOC        426484 non-null  object
 5   MontoNetoOC_CLP     426484 non-null  object
 6   Financiamiento      426484 non-null  object
 7   UnidadCompra        426484 non-null  object
 8   RegionUnidadCompra  426484 non-null  object
 9   Institucion         426484 non-null  object
 10  Proveedor           426484 non-null  object
 11  ProveedorRUT        426484 non-null  object
 12  TamanoProveedor     426484 non-null  object
 13  RegionProveedor     426484 non-null  object
 14  RubroN1             426484 non-null  object
 15  RubroN2             426484 non-null  object
 16  RubroN

In [None]:
# Concatenar datasets
df_combined = pd.concat([df, df_td, df_ca], ignore_index=True)
df_combined['Precio_Unitario_TOTAL'] = df_combined['MontoTotalItem'] / df_combined['CantidadItem']
print(f"Dataset combinado: {df_combined.shape}")

# crear carpeta si no existe
output_dir = "../datos_limpios"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
  
# Guardar archivo
output_file = "../datos_limpios/municipalidades_combinado.csv"
df_combined.to_csv(output_file, index=False, encoding="utf-8")

TypeError: unsupported operand type(s) for /: 'str' and 'str'