# Acceso a datos abierto de Mercado Público

## En este script se realiza la descarga de la data disponible en Mercado Público. Se genera un archivo csv el cual contiene los datos para el rubro requerido

Seleccionar la fecha de inicio y término para la descarga de datos

In [None]:
año_inicio= 2013 #Desde donde se quiere obtener la data
año_termino = 2024 #Hasta que fecha se quiere obtener la data

Descargar los archivos disponibles desde mercado público en formato ZIP

In [None]:
import os
import requests

base_url = "https://transparenciachc.blob.core.windows.net/oc-da/"
folder_path = "datos_abiertos"

if not os.path.exists(folder_path):
    os.makedirs(folder_path)
else:
    for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        os.remove(file_path)

for year in range(año_inicio, año_termino):
    for month in range(1, 13):
        if month < 10:
            year_month = f"{year}-{month}"
        else:
            year_month = f"{year}-{str(month).zfill(2)}"
        download_url = base_url + f"{year_month}.zip"
        file_path = os.path.join(folder_path, f"{year_month}.zip")

        try:
            response = requests.get(download_url)
            if response.status_code == 200:
                with open(file_path, "wb") as file:
                    file.write(response.content)
                print(f"Archivo {year_month}.zip descargado correctamente.")
            else:
                print(f"Error al descargar el archivo {year_month}.zip. Código de estado: {response.status_code}")
        except Exception as e:
            print(f"Error al descargar el archivo {year_month}.zip: {str(e)}")


Archivo 2013-1.zip descargado correctamente.
Archivo 2013-2.zip descargado correctamente.
Archivo 2013-3.zip descargado correctamente.
Archivo 2013-4.zip descargado correctamente.
Archivo 2013-5.zip descargado correctamente.
Archivo 2013-6.zip descargado correctamente.
Archivo 2013-7.zip descargado correctamente.
Archivo 2013-8.zip descargado correctamente.
Archivo 2013-9.zip descargado correctamente.
Archivo 2013-10.zip descargado correctamente.
Archivo 2013-11.zip descargado correctamente.
Archivo 2013-12.zip descargado correctamente.
Archivo 2014-1.zip descargado correctamente.
Archivo 2014-2.zip descargado correctamente.
Archivo 2014-3.zip descargado correctamente.
Archivo 2014-4.zip descargado correctamente.
Archivo 2014-5.zip descargado correctamente.
Archivo 2014-6.zip descargado correctamente.
Archivo 2014-7.zip descargado correctamente.
Archivo 2014-8.zip descargado correctamente.
Archivo 2014-9.zip descargado correctamente.
Archivo 2014-10.zip descargado correctamente.
Archiv

## Rubro

Seleccionar el o los rubros el cual se desea extraer. Ingresar como lista de rubros: [Rubro1,Rubro2,....,RubroN]

In [None]:
rubros= ["Rubro 1",'Rubro 2','Rubro 3'] #Seleccionar el o los rubros

n_rubros = len(rubros)
n_inicio = n_rubros-1
query_rubros= ''
query_or = ' or '
for rubro in rubros:
  query_rubro = f'RubroN1 == "{rubro}"'
  n_rubros -=1
  if n_rubros !=0:
    query_rubros = query_rubros + query_rubro + query_or
  if n_rubros == 0:
    query_rubros = query_rubros + query_rubro
query_rubros




'RubroN1 == "Rubro 1" or RubroN1 == "Rubro 2" or RubroN1 == "Rubro 3"'

In [None]:
import os
import zipfile
import pandas as pd

folder_path = "datos_abiertos"
output_folder = "extracciones_datos_abiertos"
columns_to_select = ['ID', 'tieneItems', 'codigoCategoria', 'Categoria', 'codigoProductoONU', 'NombreroductoGenerico', 'EspecificacionComprador', 'EspecificacionProveedor', 'cantidad', 'UnidadMedida', 'monedaItem', 'precioNeto', 'totalCargos', 'totalDescuentos', 'totalImpuestos', 'totalLineaNeto', 'FechaCreacion', 'fechaUltimaModificacion', 'Codigo', 'RubroN1', 'RubroN3']
output_file = "datos_completos.csv"

# Crear la carpeta "extracciones_datos_abiertos" si no existe
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Obtener la lista de archivos ZIP en la carpeta "datos_abiertos"
zip_files = sorted([file_name for file_name in os.listdir(folder_path) if file_name.endswith(".zip")])

total_files = len(zip_files)
processed_files = 0

# Crear un DataFrame vacío para almacenar los datos completos
df_complete = pd.DataFrame(columns=columns_to_select)

# Recorrer la lista de archivos ZIP
for file_name in zip_files:
    file_path = os.path.join(folder_path, file_name)

    try:
        # Extraer el archivo ZIP
        with zipfile.ZipFile(file_path, "r") as zip_ref:
            zip_ref.extractall(output_folder)

        print(f"Archivos extraídos de {file_name} correctamente. Quedan {total_files - processed_files - 1} archivos por extraer.")

        # Eliminar el archivo ZIP para liberar memoria
        os.remove(file_path)

        # Recorrer los archivos CSV en la carpeta de extracción
        for csv_file in os.listdir(output_folder):
            csv_path = os.path.join(output_folder, csv_file)

            try:
                # Leer el archivo CSV y filtrar las columnas deseadas
                df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)
                df_filtered = df.query(query_rubros)

                # Unir el DataFrame filtrado al DataFrame completo
                df_complete = pd.concat([df_complete, df_filtered], ignore_index=True)

                # Eliminar el archivo CSV para liberar memoria
                os.remove(csv_path)
            except Exception as e:
                print(f"Error al procesar el archivo {csv_file}: {str(e)}")

    except Exception as e:
        print(f"Error al extraer archivos de {file_name}: {str(e)}")

    processed_files += 1

# Guardar el DataFrame completo en un archivo CSV
df_complete.to_csv(output_file, index=False)

print("Procesamiento completo. Archivo guardado como datos_completos.csv.")


Archivos extraídos de 2013-1.zip correctamente. Quedan 125 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-10.zip correctamente. Quedan 124 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-11.zip correctamente. Quedan 123 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-12.zip correctamente. Quedan 122 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-2.zip correctamente. Quedan 121 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-3.zip correctamente. Quedan 120 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-4.zip correctamente. Quedan 119 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-5.zip correctamente. Quedan 118 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-6.zip correctamente. Quedan 117 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-7.zip correctamente. Quedan 116 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-8.zip correctamente. Quedan 115 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2013-9.zip correctamente. Quedan 114 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-1.zip correctamente. Quedan 113 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-10.zip correctamente. Quedan 112 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-11.zip correctamente. Quedan 111 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-12.zip correctamente. Quedan 110 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-2.zip correctamente. Quedan 109 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-3.zip correctamente. Quedan 108 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-4.zip correctamente. Quedan 107 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-5.zip correctamente. Quedan 106 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-6.zip correctamente. Quedan 105 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-7.zip correctamente. Quedan 104 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-8.zip correctamente. Quedan 103 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2014-9.zip correctamente. Quedan 102 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-1.zip correctamente. Quedan 101 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-10.zip correctamente. Quedan 100 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-11.zip correctamente. Quedan 99 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-12.zip correctamente. Quedan 98 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-2.zip correctamente. Quedan 97 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-3.zip correctamente. Quedan 96 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-4.zip correctamente. Quedan 95 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-5.zip correctamente. Quedan 94 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-6.zip correctamente. Quedan 93 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-7.zip correctamente. Quedan 92 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-8.zip correctamente. Quedan 91 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2015-9.zip correctamente. Quedan 90 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-1.zip correctamente. Quedan 89 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-10.zip correctamente. Quedan 88 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-11.zip correctamente. Quedan 87 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-12.zip correctamente. Quedan 86 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-2.zip correctamente. Quedan 85 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-3.zip correctamente. Quedan 84 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-4.zip correctamente. Quedan 83 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-5.zip correctamente. Quedan 82 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-6.zip correctamente. Quedan 81 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-7.zip correctamente. Quedan 80 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-8.zip correctamente. Quedan 79 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2016-9.zip correctamente. Quedan 78 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-1.zip correctamente. Quedan 77 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-10.zip correctamente. Quedan 76 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-11.zip correctamente. Quedan 75 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-12.zip correctamente. Quedan 74 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-2.zip correctamente. Quedan 73 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-3.zip correctamente. Quedan 72 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-4.zip correctamente. Quedan 71 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-5.zip correctamente. Quedan 70 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-6.zip correctamente. Quedan 69 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-7.zip correctamente. Quedan 68 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-8.zip correctamente. Quedan 67 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2017-9.zip correctamente. Quedan 66 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-1.zip correctamente. Quedan 65 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-10.zip correctamente. Quedan 64 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-11.zip correctamente. Quedan 63 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-12.zip correctamente. Quedan 62 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-2.zip correctamente. Quedan 61 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-3.zip correctamente. Quedan 60 archivos por extraer.
Archivos extraídos de 2018-4.zip correctamente. Quedan 59 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-5.zip correctamente. Quedan 58 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-6.zip correctamente. Quedan 57 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-7.zip correctamente. Quedan 56 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-8.zip correctamente. Quedan 55 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2018-9.zip correctamente. Quedan 54 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-1.zip correctamente. Quedan 53 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-10.zip correctamente. Quedan 52 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-11.zip correctamente. Quedan 51 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-12.zip correctamente. Quedan 50 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-2.zip correctamente. Quedan 49 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-3.zip correctamente. Quedan 48 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-4.zip correctamente. Quedan 47 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-5.zip correctamente. Quedan 46 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-6.zip correctamente. Quedan 45 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-7.zip correctamente. Quedan 44 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-8.zip correctamente. Quedan 43 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2019-9.zip correctamente. Quedan 42 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-1.zip correctamente. Quedan 41 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-10.zip correctamente. Quedan 40 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-11.zip correctamente. Quedan 39 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-12.zip correctamente. Quedan 38 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-2.zip correctamente. Quedan 37 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-3.zip correctamente. Quedan 36 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-4.zip correctamente. Quedan 35 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-5.zip correctamente. Quedan 34 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-6.zip correctamente. Quedan 33 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-7.zip correctamente. Quedan 32 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-8.zip correctamente. Quedan 31 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2020-9.zip correctamente. Quedan 30 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-1.zip correctamente. Quedan 29 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-10.zip correctamente. Quedan 28 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-11.zip correctamente. Quedan 27 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-12.zip correctamente. Quedan 26 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-2.zip correctamente. Quedan 25 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-3.zip correctamente. Quedan 24 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-4.zip correctamente. Quedan 23 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-5.zip correctamente. Quedan 22 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-6.zip correctamente. Quedan 21 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-7.zip correctamente. Quedan 20 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-8.zip correctamente. Quedan 19 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2021-9.zip correctamente. Quedan 18 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-1.zip correctamente. Quedan 17 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-10.zip correctamente. Quedan 16 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-11.zip correctamente. Quedan 15 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-12.zip correctamente. Quedan 14 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-2.zip correctamente. Quedan 13 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-3.zip correctamente. Quedan 12 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-4.zip correctamente. Quedan 11 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-5.zip correctamente. Quedan 10 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-6.zip correctamente. Quedan 9 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-7.zip correctamente. Quedan 8 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-8.zip correctamente. Quedan 7 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2022-9.zip correctamente. Quedan 6 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-1.zip correctamente. Quedan 5 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-2.zip correctamente. Quedan 4 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-3.zip correctamente. Quedan 3 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-4.zip correctamente. Quedan 2 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-5.zip correctamente. Quedan 1 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Archivos extraídos de 2023-6.zip correctamente. Quedan 0 archivos por extraer.


  df = pd.read_csv(csv_path, delimiter=';', quotechar='"', encoding='latin1', usecols=columns_to_select)


Procesamiento completo. Archivo guardado como datos_completos.csv.


In [None]:
df_complete.head(5)

Unnamed: 0,ID,tieneItems,codigoCategoria,Categoria,codigoProductoONU,NombreroductoGenerico,EspecificacionComprador,EspecificacionProveedor,cantidad,UnidadMedida,...,precioNeto,totalCargos,totalDescuentos,totalImpuestos,totalLineaNeto,FechaCreacion,fechaUltimaModificacion,Codigo,RubroN1,RubroN3
0,19383830,1,50202300.0,"Alimentos, bebidas y tabaco / Bebidas / Bebida...",50202301.0,Agua,consumo de agua potable en el jardin infantil ...,consumo de agua potable en el jardin infantil ...,1,Unidad no definida,...,9400,0.0,0,0,9400,2012-02-06,2012-02-06,3593-116-SE12,"Alimentos, bebidas y tabaco",Bebidas no alcohólicas
1,20369920,1,50193000.0,"Alimentos, bebidas y tabaco / Alimentos prepar...",50193001.0,Comida para bebés,,"LECHE NIDO TARRO 1.600 GRAMOS, SEGUN PEDIDO",1,Unidad,...,6697,0.0,0,0,6697,2012-06-21,2012-06-21,581716-862-SE12,"Alimentos, bebidas y tabaco",Bebidas y comidas infantiles
2,20370617,1,50193000.0,"Alimentos, bebidas y tabaco / Alimentos prepar...",50193001.0,Comida para bebés,,"NAN TARRO 900 GRAMOS, SEGUN PEDIDO",3,Tarro,...,12588,0.0,0,0,37764,2012-06-21,2012-06-21,581716-863-SE12,"Alimentos, bebidas y tabaco",Bebidas y comidas infantiles
3,20639049,1,50111500.0,"Alimentos, bebidas y tabaco / Productos de car...",50111510.0,Carne de ave o carne fresca,Lomo Liso. Solicitado por Subdireccion de Ges...,,7,kilogramo,...,6500,0.0,0,0,45500,2012-07-30,2012-07-30,1373-979-SE12,"Alimentos, bebidas y tabaco",Carnes y aves de corral
4,20837549,1,50181900.0,"Alimentos, bebidas y tabaco / Productos de pan...",50181901.0,Pan fresco,Pan corriente y rallado para el Instituto Psiq...,,15745,Unidad no definida,...,630,0.0,0,0,991935,2012-08-24,2012-08-31,1373-1096-SE12,"Alimentos, bebidas y tabaco","Pan, galletas y pastelitos dulces"


In [None]:
import os

ruta_archivo = '/content/datos_completos.csv'

# Obtener el tamaño del archivo en bytes
tamanio_bytes = os.path.getsize(ruta_archivo)

# Convertir el tamaño a megabytes (MB)
tamanio_mb = tamanio_bytes / (1024 * 1024)

print(f"El archivo tiene un tamaño de {tamanio_mb:.2f} MB.")


El archivo tiene un tamaño de 2754.21 MB.


In [None]:
df.shape

(7564084, 21)

# Advertencia
**Si el archivo no se descarga en colab, se recomienda dividir el dataframe en distintas partes y crear distintos archivos csv para cada parte**