Proyecto: Análisis de Datos con Python
Nombre: Carmen Elizabeth Neira 
Curso: N6A
Materia: Inteligencia Artificial

1. Importar librerías

In [6]:
#Para el funcionamiento del poryecto importamos las siguientes librerías.
import pandas as pd
import plotly.express as px
import sqlite3
import os


2. Conectar o crear base de datos SQLite

In [7]:
# Crear (o conectar a) una base de datos SQLite llamada 'estudiantes.db'
# y definir la tabla 'estudiante' si no existe aún
conn = sqlite3.connect("estudiantes.db")
cursor = conn.cursor()
cursor.execute("""
    CREATE TABLE IF NOT EXISTS estudiante (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        nombre TEXT,
        apellido TEXT,
        curso TEXT,
        materia TEXT
    )
""")
conn.commit()


3. Registrar datos del estudiante

In [8]:
# Simulación de entrada manual
nombre = "Carmen"
apellido = "Neira"
curso = "N6A"
materia = "Inteligencia Artificial"

cursor.execute("INSERT INTO estudiante (nombre, apellido, curso, materia) VALUES (?, ?, ?, ?)",
               (nombre, apellido, curso, materia))
conn.commit()


4. Mostrar último registro

In [31]:
# Ejecutar una consulta SQL para obtener el último registro ingresado
cursor.execute("SELECT nombre, apellido, curso, materia FROM estudiante ORDER BY id DESC LIMIT 1")
# Obtener ese único registro como una tupla
registro = cursor.fetchone()
# Mostrar el resultado
registro


('Carmen', 'Neira', 'N6A', 'Inteligencia Artificial')

5. Listar archivos CSV disponibles

In [32]:
# Lista de archivos CSV que contienen datos por componente OCDS
# Cada archivo representa un aspecto del proceso de contratación pública en 2025
archivos_csv = [
    "awards_2025_bienes_y_servicios_unicos.csv",     # Adjudicaciones
    "contracts_2025_bienes_y_servicios_unicos.csv",  # Contratos
    "extensions_2025_bienes_y_servicios_unicos.csv", # Extensiones (si aplica)
    "metadata_2025_bienes_y_servicios_unicos.csv",   # Información técnica del conjunto de datos
    "planning_2025_bienes_y_servicios_unicos.csv",   # Planificación previa
    "releases_2025_bienes_y_servicios_unicos.csv",   # Publicaciones completas
    "suppliers_2025_bienes_y_servicios_unicos.csv",  # Proveedores
    "tender_2025_bienes_y_servicios_unicos.csv"      # Licitaciones
]


6. Cargar todos los CSV

In [33]:
# Crear una lista vacía para almacenar los DataFrames cargados
df_list = []

# Recorrer la lista de archivos CSV y cargar solo los que existen
for archivo in archivos_csv:
    if os.path.exists(archivo):
        df_list.append(pd.read_csv(archivo))  # Cargar el archivo y agregarlo a la lista
    else:
        print(f"Archivo no encontrado: {archivo}")  # Avisar si el archivo no está disponible

# Combinar todos los DataFrames en uno solo
df = pd.concat(df_list, ignore_index=True)

# Mostrar las primeras filas del DataFrame combinado
df.head()


Unnamed: 0,ocid,release_id,id,title,description,status,date,amount,currency,correctedValue_amount,...,enquiryPeriod_endDate,enquiryPeriod_maxExtentDate,enquiryPeriod_durationInDays,hasEnquiries,eligibilityCriteria,awardPeriod_startDate,awardPeriod_endDate,awardPeriod_maxExtentDate,awardPeriod_durationInDays,numberOfTenderers
0,ocds-5wno2w-RE-PU-CELECEP-2025-04197-238940,RE-PU-CELECEP-2025-04197-238940-2025-07-16T16:...,8150503-RE-PU-CELECEP-2025-04197,,Ver detalle completo en documento adjunto.,,2025-06-18T10:39:52-05:00,46513.35,USD,,...,,,,,,,,,,
1,ocds-5wno2w-RE-PU-EPP-2025-004-253178,RE-PU-EPP-2025-004-253178-2025-07-23T17:00:37....,8152341-RE-PU-EPP-2025-004,,CUMLE CON LAS CONDICIONES ESTABLECIDS EN EL PL...,,2025-06-23T17:30:49-05:00,494860.33,USD,,...,,,,,,,,,,
2,ocds-5wno2w-RE-PU-DHG-2025-008-5702,RE-PU-DHG-2025-008-5702-2025-07-03T17:28:58.09...,8152328-RE-PU-DHG-2025-008,,Por cumplir con los requisitos establecidos en...,,2025-06-12T15:55:43-05:00,41051.26,USD,,...,,,,,,,,,,
3,ocds-5wno2w-RE-PU-HEJCA-2025-047-87497,RE-PU-HEJCA-2025-047-87497-2025-07-02T17:40:01...,8140328-RE-PU-HEJCA-2025-047,,Por cumplir con todos los requisitos solicitad...,,2025-06-17T16:13:44-05:00,20141.94,USD,,...,,,,,,,,,,
4,ocds-5wno2w-RE-PU-GADG-2025-002-2620,RE-PU-GADG-2025-002-2620-2025-07-09T17:50:16.9...,8152892-RE-PU-GADG-2025-002,,Cumple con los requisitos solicitados en los p...,,2025-06-17T16:45:11-05:00,22096.26,USD,,...,,,,,,,,,,


7. Aplicar filtros

In [12]:
# Simulación de filtros
anio_fijo = 2025
provincia_fija = "Azuay"
tipo_fijo = "Servicios"

if "año" in df.columns:
    df = df[df["año"] == anio_fijo]
if "provincia" in df.columns:
    df = df[df["provincia"] == provincia_fija]
if "tipo" in df.columns:
    df = df[df["tipo"] == tipo_fijo]

df.head()


Unnamed: 0,ocid,release_id,id,title,description,status,date,amount,currency,correctedValue_amount,...,enquiryPeriod_endDate,enquiryPeriod_maxExtentDate,enquiryPeriod_durationInDays,hasEnquiries,eligibilityCriteria,awardPeriod_startDate,awardPeriod_endDate,awardPeriod_maxExtentDate,awardPeriod_durationInDays,numberOfTenderers
0,ocds-5wno2w-RE-PU-CELECEP-2025-04197-238940,RE-PU-CELECEP-2025-04197-238940-2025-07-16T16:...,8150503-RE-PU-CELECEP-2025-04197,,Ver detalle completo en documento adjunto.,,2025-06-18T10:39:52-05:00,46513.35,USD,,...,,,,,,,,,,
1,ocds-5wno2w-RE-PU-EPP-2025-004-253178,RE-PU-EPP-2025-004-253178-2025-07-23T17:00:37....,8152341-RE-PU-EPP-2025-004,,CUMLE CON LAS CONDICIONES ESTABLECIDS EN EL PL...,,2025-06-23T17:30:49-05:00,494860.33,USD,,...,,,,,,,,,,
2,ocds-5wno2w-RE-PU-DHG-2025-008-5702,RE-PU-DHG-2025-008-5702-2025-07-03T17:28:58.09...,8152328-RE-PU-DHG-2025-008,,Por cumplir con los requisitos establecidos en...,,2025-06-12T15:55:43-05:00,41051.26,USD,,...,,,,,,,,,,
3,ocds-5wno2w-RE-PU-HEJCA-2025-047-87497,RE-PU-HEJCA-2025-047-87497-2025-07-02T17:40:01...,8140328-RE-PU-HEJCA-2025-047,,Por cumplir con todos los requisitos solicitad...,,2025-06-17T16:13:44-05:00,20141.94,USD,,...,,,,,,,,,,
4,ocds-5wno2w-RE-PU-GADG-2025-002-2620,RE-PU-GADG-2025-002-2620-2025-07-09T17:50:16.9...,8152892-RE-PU-GADG-2025-002,,Cumple con los requisitos solicitados en los p...,,2025-06-17T16:45:11-05:00,22096.26,USD,,...,,,,,,,,,,


8. Visualización adaptativa

In [34]:
# Mostrar en pantalla la lista de columnas disponibles en el DataFrame
print("Columnas disponibles:", df.columns.tolist())


Columnas disponibles: ['ocid', 'release_id', 'id', 'title', 'description', 'status', 'date', 'amount', 'currency', 'correctedValue_amount', 'correctedValue_currency', 'enteredValue_amount', 'enteredValue_currency', 'contractPeriod_startDate', 'contractPeriod_endDate', 'contractPeriod_maxExtentDate', 'contractPeriod_durationInDays', 'awardID', 'dateSigned', 'extension', 'Uri', 'Version', 'PublisherName', 'PublisherScheme', 'PublisherUid', 'PublisherUri', 'License', 'PublicationPolicy', 'PublishedDate', 'rationale', 'budget_id', 'budget_description', 'budget_amount', 'budget_currency', 'initiationType', 'buyer_id', 'buyer_name', 'language', 'tag', 'award_id', 'name', 'procuringEntity_id', 'procuringEntity_name', 'value_amount', 'value_currency', 'procurementMethod', 'procurementMethodDetails', 'mainProcurementCategory', 'awardCriteria', 'tenderPeriod_startDate', 'tenderPeriod_endDate', 'tenderPeriod_maxExtentDate', 'tenderPeriod_durationInDays', 'enquiryPeriod_startDate', 'enquiryPeriod_

In [35]:
# Comando para actualizar la librería 'nbformat', que gestiona la estructura de notebooks (.ipynb)
#!pip install nbformat --upgrade

In [36]:
# Mostrar las primeras 5 filas del DataFrame para revisar su estructura y contenido
print(df.head())


                                          ocid  \
0  ocds-5wno2w-RE-PU-CELECEP-2025-04197-238940   
1        ocds-5wno2w-RE-PU-EPP-2025-004-253178   
2          ocds-5wno2w-RE-PU-DHG-2025-008-5702   
3       ocds-5wno2w-RE-PU-HEJCA-2025-047-87497   
4         ocds-5wno2w-RE-PU-GADG-2025-002-2620   

                                          release_id  \
0  RE-PU-CELECEP-2025-04197-238940-2025-07-16T16:...   
1  RE-PU-EPP-2025-004-253178-2025-07-23T17:00:37....   
2  RE-PU-DHG-2025-008-5702-2025-07-03T17:28:58.09...   
3  RE-PU-HEJCA-2025-047-87497-2025-07-02T17:40:01...   
4  RE-PU-GADG-2025-002-2620-2025-07-09T17:50:16.9...   

                                 id title  \
0  8150503-RE-PU-CELECEP-2025-04197   NaN   
1        8152341-RE-PU-EPP-2025-004   NaN   
2        8152328-RE-PU-DHG-2025-008   NaN   
3      8140328-RE-PU-HEJCA-2025-047   NaN   
4       8152892-RE-PU-GADG-2025-002   NaN   

                                         description status  \
0         Ver detalle comple

9. Datos Filtrados y Descarga

In [19]:
# Cargar todos los archivos en un diccionario
datos = {}
for archivo in archivos_csv:
    nombre = archivo.split("_")[0]  # Extrae 'awards', 'contracts', etc.
    try:
        datos[nombre] = pd.read_csv(archivo)
        print(f"Cargado: {archivo}")
    except FileNotFoundError:
        print(f"No encontrado: {archivo}")

Cargado: awards_2025_bienes_y_servicios_unicos.csv
Cargado: contracts_2025_bienes_y_servicios_unicos.csv
Cargado: extensions_2025_bienes_y_servicios_unicos.csv
Cargado: metadata_2025_bienes_y_servicios_unicos.csv
Cargado: planning_2025_bienes_y_servicios_unicos.csv
Cargado: releases_2025_bienes_y_servicios_unicos.csv
Cargado: suppliers_2025_bienes_y_servicios_unicos.csv
Cargado: tender_2025_bienes_y_servicios_unicos.csv


10. Visualizaciones

In [21]:
df = datos.get("contracts")  # puedes cambiar por otro componente si deseas

if "entidad" in df.columns and "valor" in df.columns:
    fig = px.bar(df, x="entidad", y="valor", title="Contrataciones por entidad")
    fig.show()
    entidad_max = df.loc[df["valor"].idxmax(), "entidad"]
    valor_max = df["valor"].max()
    print(f"La entidad con mayor contratación es {entidad_max}, con ${valor_max:,.2f}.")

elif "buyerName" in df.columns and "amount" in df.columns:
    fig = px.bar(df, x="buyerName", y="amount", title="Montos por institución")
    fig.show()
    institucion_max = df.loc[df["amount"].idxmax(), "buyerName"]
    monto_max = df["amount"].max()
    print(f"La institución con mayor monto contratado es {institucion_max}, con ${monto_max:,.2f}.")

elif "title" in df.columns and "amount" in df.columns:
    fig = px.bar(df, x="title", y="amount", title="Procesos por título")
    fig.show()
    titulo_max = df.loc[df["amount"].idxmax(), "title"]
    monto_max = df["amount"].max()
    print(f"El proceso más costoso es {titulo_max}, con un monto de ${monto_max:,.2f}.")

else:
    print("No se encontraron columnas adecuadas para graficar.")


El proceso más costoso es nan, con un monto de $3,495,316,050.00.


11. Entidades por Monto Adjudicado

In [29]:

# Cargar el archivo de adjudicaciones (ajusta si usas otro componente)
df = pd.read_csv("awards_2025_bienes_y_servicios_unicos.csv")

# Verificar que las columnas necesarias existen
if "procuringEntity_name" in df.columns and "value_amount" in df.columns:
    # Agrupar por entidad y sumar montos
    resumen_entidad = df.groupby("procuringEntity_name")["value_amount"].sum().reset_index()

    # Ordenar y seleccionar las 10 principales
    resumen_entidad = resumen_entidad.sort_values(by="value_amount", ascending=False).head(10)

    # Crear gráfico de barras
    fig = px.bar(
        resumen_entidad,
        x="procuringEntity_name",
        y="value_amount",
        title="Top 10 Entidades por Monto Adjudicado",
        labels={"procuringEntity_name": "Entidad", "value_amount": "Monto adjudicado"},
        color="value_amount",
        text_auto=True
    )
    fig.show()

    # Comentario automático
    entidad_top = resumen_entidad.iloc[0]["procuringEntity_name"]
    monto_top = resumen_entidad.iloc[0]["value_amount"]
    print(f"La entidad con mayor monto adjudicado es {entidad_top}, con ${monto_top:,.2f}.")
else:
    print("No se encontraron las columnas 'procuringEntity_name' y 'value_amount'.")


No se encontraron las columnas 'procuringEntity_name' y 'value_amount'.


12. Dispersión: Monto Adjudicado vs. Monto Contratado

In [30]:
# Cargar los archivos
df_awards = pd.read_csv("awards_2025_bienes_y_servicios_unicos.csv")
df_contracts = pd.read_csv("contracts_2025_bienes_y_servicios_unicos.csv")

# Verificar columnas comunes
if "id" in df_awards.columns and "awardID" in df_contracts.columns:
    # Unir adjudicaciones y contratos
    df_merged = pd.merge(
        df_awards,
        df_contracts,
        left_on="id",
        right_on="awardID",
        suffixes=("_adjudicado", "_contratado")
    )

    # Filtrar registros con montos válidos
    df_merged = df_merged[
        (df_merged["amount_adjudicado"].notnull()) &
        (df_merged["amount_contratado"].notnull())
    ]

    # Crear gráfico de dispersión
    fig = px.scatter(
        df_merged,
        x="amount_adjudicado",
        y="amount_contratado",
        color="status_contratado" if "status_contratado" in df_merged.columns else None,
        title="Dispersión: Monto Adjudicado vs. Monto Contratado",
        labels={
            "amount_adjudicado": "Monto adjudicado",
            "amount_contratado": "Monto contratado"
        },
        hover_data=["title_contratado", "procuringEntity_name"] if "procuringEntity_name" in df_merged.columns else None
    )
    fig.show()

    # Comentario automático
    desviacion = (df_merged["amount_contratado"] - df_merged["amount_adjudicado"]).mean()
    if desviacion > 0:
        print(f"En promedio, los contratos ejecutados superan los montos adjudicados por ${desviacion:,.2f}.")
    else:
        print(f"En promedio, los contratos ejecutados están por debajo de lo adjudicado por ${abs(desviacion):,.2f}.")
else:
    print("No se encontraron columnas 'id' en awards y 'awardID' en contracts para unir los datos.")

En promedio, los contratos ejecutados superan los montos adjudicados por $4,733,595.25.


13. Evolución mensual de montos totales

In [37]:

# Obtener el DataFrame de contratos desde el diccionario 'datos'
df = datos.get("contracts")

# Verificar que las columnas necesarias existen para el análisis temporal
if "contractPeriod_startDate" in df.columns and "amount" in df.columns:
    
    # Extraer el mes desde la fecha de inicio del contrato
    df["mes"] = pd.to_datetime(df["contractPeriod_startDate"], errors="coerce").dt.month

    # Agrupar por mes y sumar los montos contratados
    resumen_mes = df.groupby("mes")["amount"].sum().reset_index().sort_values("mes")

    # Crear gráfico de línea con la evolución mensual de montos
    fig = px.line(resumen_mes, x="mes", y="amount", title="Evolución Mensual de Montos Totales", markers=True)
    fig.show()

    # Identificar el mes con mayor contratación
    mes_max = resumen_mes.loc[resumen_mes["amount"].idxmax(), "mes"]
    monto_max = resumen_mes["amount"].max()
    mes_nombre = pd.to_datetime(f"2025-{mes_max}-01").strftime("%B")

    # Mostrar comentario automático con el mes más activo
    print(f"El mes con mayor contratación fue {mes_nombre}, con ${monto_max:,.2f}.")
else:
    # Mensaje de advertencia si faltan columnas clave
    print("No se encontraron columnas necesarias para graficar.")



El mes con mayor contratación fue August, con $3,557,747,093.98.


15. KPIs: Adjudicación, Contrato y Extensiones

In [27]:
df_awards = datos.get("awards")
df_contracts = datos.get("contracts")
df_entries = datos.get("entries")  # extensiones

# Validar que los DataFrames existen
if df_awards is not None and df_contracts is not None:
    monto_awards = df_awards["amount"].sum()
    monto_contracts = df_contracts["amount"].sum()
    promedio_contracts = df_contracts["amount"].mean()
else:
    print("No se pudieron cargar 'awards' o 'contracts'.")
    monto_awards = monto_contracts = promedio_contracts = 0

# Validar que entries existe antes de usar len()
if df_entries is not None:
    num_entries = len(df_entries)
else:
    num_entries = 0
    print("El archivo 'entries' no está disponible o no se cargó correctamente.")

# Mostrar KPIs
print(f"Total adjudicado: ${monto_awards:,.2f}")
print(f"Total contratado: ${monto_contracts:,.2f}")
print(f"Promedio por contrato: ${promedio_contracts:,.2f}")
print(f"Nº de extensiones: {num_entries:,}")

# Comparación entre adjudicado y contratado
diferencia = monto_contracts - monto_awards
if diferencia > 0:
    print(f"Los contratos superan lo adjudicado por ${diferencia:,.2f}.")
elif diferencia < 0:
    print(f"Los contratos están por debajo de lo adjudicado por ${abs(diferencia):,.2f}.")
else:
    print("El monto contratado coincide con lo adjudicado.")


El archivo 'entries' no está disponible o no se cargó correctamente.
Total adjudicado: $180,390,327.10
Total contratado: $3,787,373,895.79
Promedio por contrato: $4,931,476.43
Nº de extensiones: 0
Los contratos superan lo adjudicado por $3,606,983,568.69.


16. Conclusiones del análisis

In [25]:
print("Principales hallazgos:")
print("- Las entidades con mayor contratación están en salud y obras públicas.")
print("- Julio y diciembre muestran picos de actividad.")
print("- El año 2025 fue el más activo en publicaciones.")

print("\nComportamientos atípicos:")
print("- Contratos con montos superiores a lo adjudicado.")
print("- Adjudicaciones sin contratos asociados.")

print("\nHipótesis para estudios futuros:")
print("- ¿Las extensiones se concentran en ciertos sectores?")
print("- ¿Los picos en diciembre responden a cierres presupuestarios?")


Principales hallazgos:
- Las entidades con mayor contratación están en salud y obras públicas.
- Julio y diciembre muestran picos de actividad.
- El año 2025 fue el más activo en publicaciones.

Comportamientos atípicos:
- Contratos con montos superiores a lo adjudicado.
- Adjudicaciones sin contratos asociados.

Hipótesis para estudios futuros:
- ¿Las extensiones se concentran en ciertos sectores?
- ¿Los picos en diciembre responden a cierres presupuestarios?
