# Lectura al MongoDB

El objetivo de este Jupyter notebook es: i) verificar que la base de datos MongoDB está correctamente instalada y podemos hacer una lectura correcta de los datos; y ii) Extraer la tablas mencionadas en el punto 4 y guardar los datos en formato .csv.

En este notebook ejecutaremos los siguientes test:
1. Conexión a la base de datos MongoDB en local.
2. Revisar el tamaño y la última actualización de los datos.
3. Crear una muestra pequeña de datos para confirmar que los comandos funcionan.
4. Crear las tablas solicitadas en el diagrama ER con una muestra de los datos.

In [2]:
# Importa las librerías
from pymongo import MongoClient
import pandas as pd

## 1. Conexión a la base de datos MongoDB en local.

Antes de ejecutar este notebook acuérdate de arrancar la base de datos MongoDB. Se recomienda utilizar Mongo Compass para una gestión más intuitiva de la base de datos.

In [7]:
# Reemplaza 'localhost' con la dirección de tu servidor MongoDB si es diferente
# y '27017' con el puerto correspondiente si has configurado uno distinto.
client = MongoClient('mongodb://localhost:27017/')

#Nombre las bases de datos
db = client['Contrataciones']

# Obtén una colección para verificar la conexión
try:
    # Reemplaza 'Contratos_EDCA' con el nombre de una colección existente en tu base de datos
    colecciones = db.list_collection_names()  # Lista todas las colecciones para verificar la conexión
    if 'Contratos_EDCA' in colecciones:
        print("Conexión exitosa a la base de datos y la colección encontrada.")
    else:
        print("Conexión exitosa a la base de datos, pero la colección no fue encontrada.")
except Exception as e:
    print(f"Error al conectar a la base de datos: {e}")


# Listar todas las bases de datos
databases = client.list_database_names()
collections = db.list_collection_names()

# Imprimir la lista de bases de datos
print("Bases de datos disponibles son:", databases)

print("\n")

print("Colecciones dentro de la base de datos:", collections)

Conexión exitosa a la base de datos y la colección encontrada.
Bases de datos disponibles son: ['Contrataciones', 'Test', 'admin', 'config', 'local']


Colecciones dentro de la base de datos: ['Contratos_EDCA', 'Sample_Contratos_EDCA']


## 2. Revisar el tamaño y la última actualización de los datos.

La base de datos Contrataciones tiene dos colecciones: 
- Contratos_EDCA: 7 GB
- Sample_Contratos_EDCA: 800 MB

In [None]:
## NO CORRER ESTE CHUNK SI NO ES NECESARIO ##

# Imprimir el tamaño de la base de datos, número de colecciones y última actualización

# Obteniendo el tamaño de la base de datos en GB
print(f"Obteniendo el tamaño de la base de datos.")
db_stats = db.command("dbstats")
db_size_gb = db_stats['storageSize'] / (1024**3)  # Convertir bytes a GB
print(f"Tamaño de la base de datos: {db_size_gb} GB")

# Obteniendo el número de documentos en la colección 'Contratos_EDCA'
print(f"Obteniendo el número de documentos. Este proceso puede tardar hasta 3 minutos...")
num_documents = db['Contratos_EDCA'].count_documents({})
print(f"Número de documentos en la colección 'Contratos_EDCA': {num_documents}")

## 3. Crear una muestra pequeña de datos para confirmar que los comandos funcionan.

Ejecuta esto sólo si la muestra no ha sido creada.

Guardaremos la nueva muestra _Sample_Contratos_EDCA_ en una nueva colección.

In [None]:
## NO CORRER ESTE CHUNK SI NO ES NECESARIO ##

# Generando la muestra aleatoria y guardándola en una nueva colección
sample_size = int(num_documents * 0.05)  # Calcula el 5% del total de documentos
print(f"Número de documentos en la muestra aleatoria es: {sample_size}")

# Realiza la agregación para obtener la muestra aleatoria
sample = db['Contratos_EDCA'].aggregate([
    { '$sample': { 'size': sample_size } }
])
sample_documents = list(sample)
print(f"Sample creado")

# Guarda la muestra en una nueva colección
db['Sample_Contratos_EDCA'].insert_many(sample_documents)
print(f"Muestra guardada en la colección 'Sample_Contratos_EDCA'!")



## 4. Crear las tablas solicitadas en el diagrama ER con una muestra de los datos.

Extrae las siguientes tablas de la muestra de la base de datos:

- Participantes_Proveedores (Parties)
- Licitacion (Tender)
- asignacion (Awards)
- comprador (Parties + Buyer)
- documentos_tender (Tender)
- items_adq (Awards)
- items_tender (Tender)

_Tener en cuenta que sólo estamos extrayendo los 20 primeros registros para propósitos demostrativos._

### 4.1 Participantes_Proveedores (Origen: Parties)

In [5]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        contrato_dict = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
            'identifier_id': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('id', 'NA'),
            'roles': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('roles', [{}])[0],
            'name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('name', 'NA'),
            'identifier_legalname': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('legalName', 'NA'),
            'identifier_scheme': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('scheme', 'NA'),
            'identifier_uri': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', {}).get('uri', 'NA'),
            'address_country_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('countryName', 'NA'),
            'address_locality': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('locality', 'NA'),
            'address_postalcode': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('postalCode', 'NA'),
            'address_region': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('region', 'NA'),
            'address_streetAddress': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', {}).get('streetAddress', 'NA'),
            'contact_point_email': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('email', 'NA'),
            'contact_point_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('name', 'NA'),
            'contact_point_telephone': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', {}).get('telephone', 'NA')
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(contrato_dict)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {contrato_dict['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_participantes_proveedores = pd.DataFrame(datos)
df_Err_participantes_proveedores = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores.csv', index=False)
df_Err_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores_Errors.csv', index=False)
print("Proceso terminado. \n     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)")

print(df_participantes_proveedores.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_participantes_proveedores.shape[0]}")

Error: se intentó acceder a un atributo de un objeto no válido. 2234878
Error: se intentó acceder a un atributo de un objeto no válido. 2305883
Error: se intentó acceder a un atributo de un objeto no válido. 2306655
Error: se intentó acceder a un atributo de un objeto no válido. 2306732
Error: se intentó acceder a un atributo de un objeto no válido. 2314676
Error: se intentó acceder a un atributo de un objeto no válido. 2318981
Error: se intentó acceder a un atributo de un objeto no válido. 2325544
Error: se intentó acceder a un atributo de un objeto no válido. 2326671
Error: se intentó acceder a un atributo de un objeto no válido. 2328452
Error: se intentó acceder a un atributo de un objeto no válido. 2328500
Error: se intentó acceder a un atributo de un objeto no válido. 2329345
Error: se intentó acceder a un atributo de un objeto no válido. 2336380
Error: se intentó acceder a un atributo de un objeto no válido. 2336768
Error: se intentó acceder a un atributo de un objeto no válido. 

#### 4.2 Licitación (Origen: Tender)

In [None]:
# Limpiar la memoria de los dataframes previamente guardados en Chunks anteriores
#del df_participantes_proveedores
#del df_Err_participantes_proveedores

# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
for contrato in consulta_actualizada:
    try:
        Each_Tender = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', [{}]).get('id', 'NA'), #id
            'procurementMethod': contrato.get('releases', [{}])[0].get('tender', [{}]).get('procurementMethod', 'NA'), #award id
            'procurementMethod_rationale': contrato.get('releases', [{}])[0].get('tender', [{}]).get('procurementMethodRationale', 'NA'),
            'status': contrato.get('releases', [{}])[0].get('tender', [{}]).get('status', 'NA'),
            'description': contrato.get('releases', [{}])[0].get('tender', [{}]).get('description', 'NA'),
            'has_enquiries': contrato.get('releases', [{}])[0].get('tender', [{}]).get('hasEnquiries', 'NA'),
            ###'number_tenderers': contrato.get('releases', [{}])[0].get('tender', [{}]).get('', 'NA'), FALTA HACER EL CÁLCULO
            'tender_start_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('tenderPeriod', [{}]).get('startDate', 'NA'),
            'tender_end_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('tenderPeriod', [{}]).get('endDate', 'NA'),
            'award_start_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('awardPeriod', [{}]).get('startDate', 'NA'),
            'award_end_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('awardPeriod', [{}]).get('endDate', 'NA'),
            'enquiry_start_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('enquiryPeriod', [{}]).get('startDate', 'NA'),
            'enquiry_end_date': contrato.get('releases', [{}])[0].get('tender', [{}]).get('enquiryPeriod', [{}]).get('endDate', 'NA'),
            'procuring_entity_id': contrato.get('releases', [{}])[0].get('tender', [{}]).get('procuringEntity', [{}]).get('id', 'NA'), # No está en el esquema
            'procuring_entity_name': contrato.get('releases', [{}])[0].get('tender', [{}]).get('procuringEntity', [{}]).get('name', 'NA'), # No está en el esquema
            'value_currency_tender': contrato.get('releases', [{}])[0].get('tender', [{}]).get('value', [{}]).get('currency', 'NA'),
            'value_amount_tender': contrato.get('releases', [{}])[0].get('tender', [{}]).get('value', [{}]).get('amount', 'NA'),
            'award_criteria': contrato.get('releases', [{}])[0].get('tender', [{}]).get('awardCriteria', 'NA'),
            'framework_agreement': contrato.get('releases', [{}])[0].get('tender', [{}]).get('frameworkAgreement', 'NA'), # Este es valorr binario
            'framework_agreement_platform': contrato.get('releases', [{}])[0].get('tender', [{}]).get('frameworkAgreementPlatform', 'NA'),
            'framework_agreement_title': contrato.get('releases', [{}])[0].get('tender', [{}]).get('frameworkAgreementTitle', 'NA'),
            #'submission_method': contrato.get('releases', [{}])[0].get('tender', [{}]).get('awardCriteria', [{}]).get('amount', 'NA'
        }       
        #print(contrato_dict['cve_expediente'])
        datos.append(Each_Tender)
    
    except AttributeError:
        '''
        Errors = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}]).get('id', 'NA'), #award id
        }
        '''
        print(f"Error: se intentó acceder a un atributo de un objeto no válido.")

        #print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Errors['cve_expediente']}")

# Creando el dataframe
df_Licitacion = pd.DataFrame(datos)
#df_Err_Licitacion = pd.DataFrame(Errors)

# Exportando el dataframe a un archivo csv
df_Licitacion.to_csv('../data/Processed/Licitacion_v2.csv', index=False)
#df_Err_Licitacion.to_csv('../data/Processed/Licitacion_Errors.csv', index=False)
print("Proceso terminado. \n El dataset de Licitación.csv tiene el siguiente tamaño: (files x columnas)")
print(df_Licitacion.shape)

#print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_Licitacion.shape[0]}")

## 4.3 Asignación (awards)

** **FALTAN LAS VARIABLES DOCS** **

In [None]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        contrato_dict = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
            'status': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('status', 'NA'),
            'description_award': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('description', 'NA'),
            'title_award': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('title', 'NA'),
            #'contract_start_date': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'),
            #'contract_end_date': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'),
            'value_amount': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('value', [{}]).get('amount', 'NA'),
            'value_currency': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('value', [{}]).get('currency', 'NA'),
            'suppliers_id': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('suppliers', [{}])[0].get('id', 'NA'),
    
            '''
            docs_title_tender 
            docs_type_tender 
            docs_language_tender 
            docs_date_publiished_tender 
            docs_id_tender
            docs_format_tender 
            docs_description_tender 
            docs_url_tender
            '''
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(contrato_dict)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {contrato_dict['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_participantes_proveedores = pd.DataFrame(datos)
df_Err_participantes_proveedores = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores.csv', index=False)
df_Err_participantes_proveedores.to_csv('../data/Processed/participantes_proveedores_Errors.csv', index=False)
print("Proceso terminado. \n     El dataset de Participantes_Proveedores tiene el siguiente tamaño: (files x columnas)")

print(df_participantes_proveedores.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_participantes_proveedores.shape[0]}")

## 4.4 Comprador (Origen: Parties + Buyer)

*** **FALTAN CAMPOS POR IDENTIFICAR EN EL ESQUEMA** ***
**LLAMADA A SAMPLE**

In [14]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Sample_Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        comprador = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
            #'identifier_id_inst': 
            'roles': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('roles', 'NA')[0],
            'name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('name', 'NA'),
            'identifier_legal_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('legalName', 'NA'),
            #identifier_scheme: contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('identifierScheme', 'NA'),
            'identifier_uri': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('identifier', 'NA').get('uri', 'NA'),
            'addres_country_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('countryName', 'NA'),
            'addres_locality': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('locality', 'NA'),
            'address_postalcode': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('postalCode', 'NA'),
            'address_region': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('region', 'NA'),
            'addres_streetaddress': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('address', 'NA').get('streetAddress', 'NA'),
            'contact_point_email': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('email', 'NA'),
            'contact_point_name': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('name', 'NA'),
            'contact_point_telephone': contrato.get('releases', [{}])[0].get('parties', [{}])[0].get('contactPoint', 'NA').get('telephone', 'NA'),
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(comprador)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_comprador = pd.DataFrame(datos)
df_Err_comprador = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_comprador.to_csv('../data/Processed/Compradores_sample.csv', index=False)
df_Err_comprador.to_csv('../data/Processed/Compradores_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de COMPRADORES tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_comprador.shape[0]}")

Error: se intentó acceder a un atributo de un objeto no válido. 2368450
Error: se intentó acceder a un atributo de un objeto no válido. 2395655
Proceso terminado. 
     El dataset de COMPRADORES tiene el siguiente tamaño: (files x columnas)
(137111, 14)


Se ha registrado los siguientes registros con errores: 2


## 4.5 Documentos_Tender (Tender)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [None]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Sample_Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")

## 4.6 ITEMS_ADQ (Origen: Awards)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [None]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Sample_Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        ### Falta identificar las variables en el esquema.
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")

## 4.7 ITEMS_TENDER (Origen: Tender)

*** **FALTAN VARIABLES DE DOCS** ***
*** **LLAMADA A SAMPLE** ***

In [None]:
# Consulta actualizada a la base de datos Contratos_EDCA
consulta_actualizada = db['Sample_Contratos_EDCA'].find({}, {})

# Creando una lista de diccionarios para facilitar la creación del dataframe
datos = []
Bugs = []
for contrato in consulta_actualizada:
    try:
        licitacion = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            # Falta identificar variables
        }
        #print(contrato_dict['cve_expediente'])
        datos.append(licitacion)
    except AttributeError:
        Error = {
            'cve_expediente': contrato.get('releases', [{}])[0].get('tender', {}).get('id', 'NA'), #id
            'cve_contrato': contrato.get('releases', [{}])[0].get('awards', [{}])[0].get('id', 'NA'), #award id
        ### Falta identificar las variables en el esquema.
        }
        Bugs.append(Error)
        print(f"Error: se intentó acceder a un atributo de un objeto no válido. {Error['cve_expediente']}")

# Creando el dataframe de Parties y Errores
df_docsTender = pd.DataFrame(datos)
df_Err_docsTender = pd.DataFrame(Bugs)

# Exportando el dataframe a un archivo csv
df_docsTender.to_csv('../data/Processed/Docs_Tender_sample.csv', index=False)
df_Err_docsTender.to_csv('../data/Processed/Docs_Tender_Errors_sample.csv', index=False)
print("Proceso terminado. \n     El dataset de DOCS_TENDER tiene el siguiente tamaño: (files x columnas)")

print(df_comprador.shape)
print(f"\n\nSe ha registrado los siguientes registros con errores: {df_Err_docsTender.shape[0]}")