# Lectura al MongoDB

El objetivo de este Jupyter notebook es: i) verificar que la base de datos MongoDB está correctamente instalada y podemos hacer una lectura correcta de los datos; y ii) Extraer la tablas mencionadas en el punto 4 y guardar los datos en formato .csv.

En este notebook ejecutaremos los siguientes test:
1. Conexión a la base de datos MongoDB en local.
2. Revisar el tamaño y la última actualización de los datos.
3. Crear una muestra pequeña de datos para confirmar que los comandos funcionan.
4. Crear las tablas solicitadas en el diagrama ER con una muestra de los datos.

In [17]:
# Importa las librerías
from pymongo import MongoClient
import pandas as pd

## 1. Conexión a la base de datos MongoDB en local.

Antes de ejecutar este notebook acuérdate de arrancar la base de datos MongoDB. Se recomienda utilizar Mongo Compass para una gestión más intuitiva de la base de datos.

In [18]:
# Reemplaza 'localhost' con la dirección de tu servidor MongoDB si es diferente
# y '27017' con el puerto correspondiente si has configurado uno distinto.
client = MongoClient('mongodb://localhost:27017/')

#Nombre las bases de datos
db = client['Contratos_EDCA']

# Obtén una colección para verificar la conexión
try:
    # Reemplaza 'Contratos_EDCA' con el nombre de una colección existente en tu base de datos
    colecciones = db.list_collection_names()  # Lista todas las colecciones para verificar la conexión
    if 'Contratos_EDCA_Sample' in colecciones:
        print("Conexión exitosa a la base de datos y la colección encontrada.")
    else:
        print("Conexión exitosa a la base de datos, pero la colección no fue encontrada.")
except Exception as e:
    print(f"Error al conectar a la base de datos: {e}")


# Listar todas las bases de datos
databases = client.list_database_names()
collections = db.list_collection_names()

# Imprimir la lista de bases de datos
print("Bases de datos disponibles son:", databases)

print("\n")

print("Colecciones dentro de la base de datos:", collections)

Conexión exitosa a la base de datos y la colección encontrada.
Bases de datos disponibles son: ['Contratos_EDCA', 'admin', 'config', 'local']


Colecciones dentro de la base de datos: ['Contratos_EDCA_Sample']


## 2. Revisar el tamaño y la última actualización de los datos.

La base de datos Contrataciones tiene dos colecciones: 
- Contratos_EDCA: 7 GB
- Sample_Contratos_EDCA: 800 MB

In [19]:
## NO CORRER ESTE CHUNK SI NO ES NECESARIO ##

# Imprimir el tamaño de la base de datos, número de colecciones y última actualización

# Obteniendo el tamaño de la base de datos en GB
print(f"Obteniendo el tamaño de la base de datos.")
db_stats = db.command("dbstats")
db_size_gb = db_stats['storageSize'] / (1024**3)  # Convertir bytes a GB
print(f"Tamaño de la base de datos: {db_size_gb} GB")

# Obteniendo el número de documentos en la colección 'Contratos_EDCA'
print(f"Obteniendo el número de documentos. Este proceso puede tardar hasta 3 minutos...")
num_documents = db['Contratos_EDCA_Sample'].count_documents({})
print(f"Número de documentos en la colección 'Contratos_EDCA_Sample': {num_documents}")

Obteniendo el tamaño de la base de datos.
Tamaño de la base de datos: 0.7626686096191406 GB
Obteniendo el número de documentos. Este proceso puede tardar hasta 3 minutos...
Número de documentos en la colección 'Contratos_EDCA_Sample': 137113


## 3. Crear una muestra pequeña de datos para confirmar que los comandos funcionan.

Ejecuta esto sólo si la muestra no ha sido creada.

Guardaremos la nueva muestra _Sample_Contratos_EDCA_ en una nueva colección.

In [None]:
## NO CORRER ESTE CHUNK SI NO ES NECESARIO ##

# Generando la muestra aleatoria y guardándola en una nueva colección
sample_size = int(num_documents * 0.05)  # Calcula el 5% del total de documentos
print(f"Número de documentos en la muestra aleatoria es: {sample_size}")

# Realiza la agregación para obtener la muestra aleatoria
sample = db['Contratos_EDCA'].aggregate([
    { '$sample': { 'size': sample_size } }
])
sample_documents = list(sample)
print(f"Sample creado")

# Guarda la muestra en una nueva colección
db['Sample_Contratos_EDCA'].insert_many(sample_documents)
print(f"Muestra guardada en la colección 'Sample_Contratos_EDCA'!")



## 4. Crear las tablas solicitadas en el diagrama ER con una muestra de los datos.

Extrae las siguientes tablas de la muestra de la base de datos:

- Participantes_Proveedores (Parties)
- Licitacion (Tender)
- asignacion (Awards)
- comprador (Parties + Buyer)
- documentos_tender (Tender)
- items_adq (Awards)
- items_tender (Tender)

_Tener en cuenta que sólo estamos extrayendo los 20 primeros registros para propósitos demostrativos._

### 4.1 Participantes_Proveedores (Origen: Parties)

In [36]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
for contrato in consulta_actualizada:
    contrato_dict = {
        'cve_expediente': '',
        'cve_contrato': '',
        'identifier_id': '',
        'roles': '',
        'name': '',
        'identifier_legalname': '',
        'identifier_scheme': '',
        'identifier_uri': '',
        'address_country_name': '',
        'address_locality': '',
        'address_postalcode': '',
        'address_region': '',
        'address_streetAddress': '',
        'contact_point_email': '',
        'contact_point_name': '',
        'contact_point_telephone': ''
    }
    try:
        contrato_dict['cve_expediente'] = contrato.get('releases', [{}])[0].get('tender', {}).get('id', '') #id
        contrato_dict['cve_contrato'] = contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', '') #award id
        contrato_dict['identifier_id'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('id', '')
        contrato_dict['roles'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('roles', [{}])[0]
        contrato_dict['name'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('name', '')
        contrato_dict['identifier_legalname'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('legalName', '')
        contrato_dict['identifier_scheme'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('scheme', '')
        contrato_dict['identifier_uri'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('uri', '')
        contrato_dict['address_country_name'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('countryName', '')
        contrato_dict['address_locality'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('locality', '')
        contrato_dict['address_postalcode'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('postalCode', '')
        contrato_dict['address_region'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('region', '')
        contrato_dict['address_streetAddress'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('streetAddress', '')
        contrato_dict['contact_point_email'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('email', '')
        contrato_dict['contact_point_name'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('name', '')
        contrato_dict['contact_point_telephone'] = contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('telephone', '')
    except AttributeError:
        pass
    datos.append(contrato_dict)

# Creando el dataframe de Participantes_Proveedores
df_participantes_proveedores = pd.DataFrame(datos)

# Exportando el dataframe a un archivo csv
df_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores_v2.csv', index=False)
print("Proceso terminado. \n     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)")

print(df_participantes_proveedores.shape)


Proceso terminado. 
     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)
(137113, 16)


#### 4.2 Licitación (Origen: Tender)

In [41]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
for contrato in consulta_actualizada:
    contrato_dict = {
        'cve_expediente': '',
        'procurementMethod': '',
        'procurementMethod_rationale': '',
        'status': '',
        'description': '',
        'has_enquiries': '',
        'tender_start_date': '',
        'tender_end_date': '',
        'award_start_date': '',
        'award_end_date': '',
        'enquiry_start_date': '',
        'enquiry_end_date': '',
        'procuring_entity_id': '',
        'procuring_entity_name': '',
        'value_currency_tender': '',
        'value_amount_tender': '',
        'award_criteria': '',
        'framework_agreement': '',
        'framework_agreement_platform': '',
        'framework_agreement_title': '',
    }
    try:
        contrato_dict['cve_expediente'] = contrato.get('releases', [{}])[0].get('tender', {}).get('id', '') #id
        contrato_dict['procurementMethod_rationale'] = contrato.get('releases', [{}])[0].get('tender', {}).get('procurementMethod', '') #id,
        contrato_dict['status'] = contrato.get('releases', [{}])[0].get('tender', {}).get('status', 'NA'),
        contrato_dict['description'] = contrato.get('releases', [{}])[0].get('tender', {}).get('description', 'NA'),
        contrato_dict['has_enquiries'] =   contrato.get('releases', [{}])[0].get('tender', {}).get('hasEnquiries', 'NA'),
        contrato_dict['tender_start_date'] =    contrato.get('releases', [{}])[0].get('tender', {}).get('tenderPeriod', [{}]).get('startDate', 'NA'),
        contrato_dict['tender_end_date'] = contrato.get('releases', [{}])[0].get('tender', {}).get('tenderPeriod', [{}]).get('endDate', 'NA'),
        contrato_dict['award_start_date'] = contrato.get('releases', [{}])[0].get('tender', {}).get('awardPeriod', [{}]).get('startDate', 'NA'),
        contrato_dict['award_end_date'] =   contrato.get('releases', [{}])[0].get('tender', {}).get('awardPeriod', [{}]).get('endDate', 'NA'),
        contrato_dict['enquiry_start_date'] =    contrato.get('releases', [{}])[0].get('tender', {}).get('enquiryPeriod', [{}]).get('startDate', 'NA'),
        contrato_dict['enquiry_end_date'] =   contrato.get('releases', [{}])[0].get('tender', {}).get('enquiryPeriod', [{}]).get('endDate', 'NA'),
        contrato_dict['procuring_entity_id'] =  contrato.get('releases', [{}])[0].get('tender', {}).get('procuringEntity', [{}]).get('id', 'NA'), # No está en el esquema
        contrato_dict['procuring_entity_name'] =   contrato.get('releases', [{}])[0].get('tender', {}).get('procuringEntity', [{}]).get('name', 'NA'), # No está en el esquema
        contrato_dict['value_currency_tender'] =    contrato.get('releases', [{}])[0].get('tender', {}).get('value', [{}]).get('currency', 'NA'),
        contrato_dict['value_amount_tender'] =  contrato.get('releases', [{}])[0].get('tender', {}).get('value', [{}]).get('amount', 'NA'),
        contrato_dict['award_criteria'] =  contrato.get('releases', [{}])[0].get('tender', {}).get('awardCriteria', 'NA'),
        contrato_dict['framework_agreement'] =  contrato.get('releases', [{}])[0].get('tender', {}).get('frameworkAgreement', 'NA'), # Este es valorr binario
        contrato_dict['framework_agreement_platform'] = contrato.get('releases', [{}])[0].get('tender', {}).get('frameworkAgreementPlatform', 'NA'),
        contrato_dict['framework_agreement_title'] =  contrato.get('releases', [{}])[0].get('tender', {}).get('frameworkAgreementTitle', 'NA'),
           
    except AttributeError:
        pass
    datos.append(contrato_dict)

# Creando el dataframe de Participantes_Proveedores
df_licitacion = pd.DataFrame(datos)

# Exportando el dataframe a un archivo csv
df_licitacion.to_csv('../data/Processed/licitacion_v2.csv', index=False)
print("Proceso terminado. \n     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)")

print(df_licitacion.shape)

Proceso terminado. 
     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)
(137113, 20)


## 4.3 Asignación (awards)

** **FALTAN LAS VARIABLES DOCS** **

In [22]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        contrato_dict = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
            'status': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('status', 'NA'),
            'description_award': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('description', 'NA'),
            'title_award': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('title', 'NA'),
            #'contract_start_date': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'),
            #'contract_end_date': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'),
            'value_amount': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('value', [{}]).get('amount', 'NA'),
            'value_currency': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('value', [{}]).get('currency', 'NA'),
            'suppliers_id': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('suppliers', [{}])[0].get('id', 'NA'),
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(contrato_dict)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {contrato_dict['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_participantes_proveedores = pd.DataFrame(datos)
df_Err_participantes_proveedores = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores.csv', index=False)
df_Err_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores_Errors.csv', index=False)
print("Proceso terminado. \n     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)")

print(df_participantes_proveedores.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_participantes_proveedores.shape[0]}")

Error: se intentó acceder a un atributo de un objeto no válido. 2416049
Error: se intentó acceder a un atributo de un objeto no válido. 2450533
Error: se intentó acceder a un atributo de un objeto no válido. 2491118
Error: se intentó acceder a un atributo de un objeto no válido. 2244435
Error: se intentó acceder a un atributo de un objeto no válido. 2403311
Error: se intentó acceder a un atributo de un objeto no válido. 2490541
Error: se intentó acceder a un atributo de un objeto no válido. 2322653
Error: se intentó acceder a un atributo de un objeto no válido. 2488062
Error: se intentó acceder a un atributo de un objeto no válido. 2377091
Error: se intentó acceder a un atributo de un objeto no válido. 2474638
Error: se intentó acceder a un atributo de un objeto no válido. 2335439
Error: se intentó acceder a un atributo de un objeto no válido. 2325247
Error: se intentó acceder a un atributo de un objeto no válido. 2350177
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2401874
Error: se intentó acceder a un atributo de un objeto no válido. 2374455
Error: se intentó acceder a un atributo de un objeto no válido. 2372393
Error: se intentó acceder a un atributo de un objeto no válido. 1851472
Error: se intentó acceder a un atributo de un objeto no válido. 2382798
Error: se intentó acceder a un atributo de un objeto no válido. 2096473
Error: se intentó acceder a un atributo de un objeto no válido. 2096473
Error: se intentó acceder a un atributo de un objeto no válido. 2450043
Error: se intentó acceder a un atributo de un objeto no válido. 2526282
Error: se intentó acceder a un atributo de un objeto no válido. 1928759
Error: se intentó acceder a un atributo de un objeto no válido. 2412285
Error: se intentó acceder a un atributo de un objeto no válido. 2383323
Error: se intentó acceder a un atributo de un objeto no válido. 2493558
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2320090
Error: se intentó acceder a un atributo de un objeto no válido. 2327403
Error: se intentó acceder a un atributo de un objeto no válido. 2403625
Error: se intentó acceder a un atributo de un objeto no válido. 2446304
Error: se intentó acceder a un atributo de un objeto no válido. 2484564
Error: se intentó acceder a un atributo de un objeto no válido. 2543465
Error: se intentó acceder a un atributo de un objeto no válido. 2357594
Error: se intentó acceder a un atributo de un objeto no válido. 2315236
Error: se intentó acceder a un atributo de un objeto no válido. 2456747
Error: se intentó acceder a un atributo de un objeto no válido. 2375531
Error: se intentó acceder a un atributo de un objeto no válido. 1738152
Error: se intentó acceder a un atributo de un objeto no válido. 2307856
Error: se intentó acceder a un atributo de un objeto no válido. 2428718
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2390753
Error: se intentó acceder a un atributo de un objeto no válido. 2474044
Error: se intentó acceder a un atributo de un objeto no válido. 2338690
Error: se intentó acceder a un atributo de un objeto no válido. 2350485
Error: se intentó acceder a un atributo de un objeto no válido. 2500318
Error: se intentó acceder a un atributo de un objeto no válido. 2436052
Error: se intentó acceder a un atributo de un objeto no válido. 1594247
Error: se intentó acceder a un atributo de un objeto no válido. 2113760
Error: se intentó acceder a un atributo de un objeto no válido. 2388168
Error: se intentó acceder a un atributo de un objeto no válido. 2388168
Error: se intentó acceder a un atributo de un objeto no válido. 2374765
Error: se intentó acceder a un atributo de un objeto no válido. 2437387
Error: se intentó acceder a un atributo de un objeto no válido. 2320005
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2441829
Error: se intentó acceder a un atributo de un objeto no válido. 2388140
Error: se intentó acceder a un atributo de un objeto no válido. 2432100
Error: se intentó acceder a un atributo de un objeto no válido. 2389308
Error: se intentó acceder a un atributo de un objeto no válido. 2342098
Error: se intentó acceder a un atributo de un objeto no válido. 2358160
Error: se intentó acceder a un atributo de un objeto no válido. 2454180
Error: se intentó acceder a un atributo de un objeto no válido. 2315885
Error: se intentó acceder a un atributo de un objeto no válido. 1839956
Error: se intentó acceder a un atributo de un objeto no válido. 2323710
Error: se intentó acceder a un atributo de un objeto no válido. 2394150
Error: se intentó acceder a un atributo de un objeto no válido. 2398223
Error: se intentó acceder a un atributo de un objeto no válido. 1632829
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2247883
Error: se intentó acceder a un atributo de un objeto no válido. 2360871
Error: se intentó acceder a un atributo de un objeto no válido. 2493991
Error: se intentó acceder a un atributo de un objeto no válido. 1680900
Error: se intentó acceder a un atributo de un objeto no válido. 2324241
Error: se intentó acceder a un atributo de un objeto no válido. 2413718
Error: se intentó acceder a un atributo de un objeto no válido. 2432161
Error: se intentó acceder a un atributo de un objeto no válido. 2318237
Error: se intentó acceder a un atributo de un objeto no válido. 2405419
Error: se intentó acceder a un atributo de un objeto no válido. 2356364
Error: se intentó acceder a un atributo de un objeto no válido. 2376231
Error: se intentó acceder a un atributo de un objeto no válido. 2354671
Error: se intentó acceder a un atributo de un objeto no válido. 2400169
Error: se intentó acceder a un atributo de un objeto no válido. 

Error: se intentó acceder a un atributo de un objeto no válido. 2447362
Error: se intentó acceder a un atributo de un objeto no válido. 2431867
Error: se intentó acceder a un atributo de un objeto no válido. 1687156
Error: se intentó acceder a un atributo de un objeto no válido. 2323825
Error: se intentó acceder a un atributo de un objeto no válido. 1753337
Error: se intentó acceder a un atributo de un objeto no válido. 2320285
Error: se intentó acceder a un atributo de un objeto no válido. 2450391
Error: se intentó acceder a un atributo de un objeto no válido. 1881866
Error: se intentó acceder a un atributo de un objeto no válido. 2345436
Error: se intentó acceder a un atributo de un objeto no válido. 2397933
Error: se intentó acceder a un atributo de un objeto no válido. 2434212
Error: se intentó acceder a un atributo de un objeto no válido. 2434212
Error: se intentó acceder a un atributo de un objeto no válido. 2449582
Error: se intentó acceder a un atributo de un objeto no válido. 

## 4.4 Comprador (Origen: Parties + Buyer)

*** **FALTAN CAMPOS POR IDENTIFICAR EN EL ESQUEMA** ***
**LLAMADA A SAMPLE**

In [15]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        comprador = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
            #'identifier_id_inst': 
            'roles': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('roles', 'NA')[0],
            'name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('name', 'NA'),
            'identifier_legal_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('legalName', 'NA'),
            #identifier_scheme: contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('identifierScheme', 'NA'),
            'identifier_uri': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('uri', 'NA'),
            'addres_country_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('countryName', 'NA'),
            'addres_locality': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('locality', 'NA'),
            'address_postalcode': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('postalCode', 'NA'),
            'address_region': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('region', 'NA'),
            'addres_streetaddress': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('streetAddress', 'NA'),
            'contact_point_email': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('email', 'NA'),
            'contact_point_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('name', 'NA'),
            'contact_point_telephone': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('telephone', 'NA'),
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(comprador)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_comprador = pd.DataFrame(datos)
df_Err_comprador = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_comprador.to_csv('../data/Processed/Compradores_sample.csv', index=False)
df_Err_comprador.to_csv('../data/Processed/Compradores_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de COMPRADORES tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_comprador.shape[0]}")

Proceso terminado. 
     El dataset de COMPRADORES tiene el siguiente tamaño: (files x columnas)
(15932, 14)


Se ha registrado los siguientes registros con errores: 0


## 4.5 Documentos_Tender (Tender)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [16]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")

Proceso terminado. 
     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)
(15932, 14)


Se ha registrado los siguientes registros con errores: 0


## 4.6 ITEMS_ADQ (Origen: Awards)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [17]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        ### Falta identificar las variables en el esquema.
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")

Proceso terminado. 
     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)
(15932, 14)


Se ha registrado los siguientes registros con errores: 0


## 4.7 ITEMS_TENDER (Origen: Tender)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [18]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA_Sample'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            # Falta identificar variables
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        ### Falta identificar las variables en el esquema.
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")

Proceso terminado. 
     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)
(15932, 14)


Se ha registrado los siguientes registros con errores: 0
