# Construcción de la base de datos compranet.
> Autor: **_Gerardo David Ramos Balderas_** ([CIDE-RC METPOL](https://www.cide.edu/programa/metpol/)).
> Correo de contacto: gerardo.ramos@alumnos.cide.edu

Se descargaron todos los archivos referentes a los "contratos ingresados a CompraNet. Reporte de los datos relevantes de los contrato" que se encuentran disponibles en el sitio web de [Compranet ](https://upcp-compranet.hacienda.gob.mx/informacion_ayuda/datos_abiertos.html) desde el año 2018 hasta el mes de Diciembre de 2022. Los cuales se encuentran originalmente en formato *_csv_*, divididos en diferentes años (información consultada el 04 de febrero de 2024). Por lo anterior, se utilizó el lenguaje de programación Python 3 para homologar las bases de datos en un solo dataframe.

**Nota:**  Se escogió este periodo, debido a que en el año 2018 hubo un cambio en la información que se incluye en las bases de datos disponibles, por lo que se considera que las bases de datos de las contrataciones anteriores a 2018 no son comparables. Adicionalmente, se identificó que los procedimientos de compra anteriores al año 2018 no contienen la variable "Clave CUCOP" la cual es crucial para el desarrollo de la presente investigación, toda vez que nos ayudará a homologar los productos licitados. En ese sentido, no es viable utilizar información anterior al año 2018.

## Cargamos las librerias a utilizar

**_Pandas_**

es la librería más popular para hacer análisis de datos en Python.
Pandas nos permite trabajar con bases de datos estructuradas (filas y columnas) y hacer operaciones de manejo de datos típicas como crear variables, reemplazar valores, agrupar los datos, reestructurar la base, unir diferentes bases, etc.

Para usarla primero debemos importar `pandas`. Es una convención usual importarla como `pd`

**_Glob_**

El módulo `glob` encuentra todos los nombres de ruta que coinciden con un patrón específico de acuerdo con las reglas utilizadas por el shell de Unix.

In [1]:
import pandas as pd
import glob

## Importación de las bases de datos.

Primero, se importan el nombre de todos los archivos del primer dataframe que son los documentos con la información de los contratos de 2018 hasta 2022.

In [2]:
# Primero especificamos un patrón del archivo y lo pasamos como parámetro en la función glob
xlsx_files2 = glob.glob('2018_2022/*.xlsx')
# Mostrar el archivo csv_files, el cual es una lista de nombres
print(xlsx_files2)

['2018_2022\\Contratos2018.xlsx', '2018_2022\\Contratos2019_240204003417.xlsx', '2018_2022\\Contratos2020_240204002043.xlsx', '2018_2022\\Contratos2021_240204011724.xlsx', '2018_2022\\Contratos2022_2310241123-2.xlsx']


In [3]:
#Se crea un dataframe vacío
df2 = pd.DataFrame()
# Escribimos un loop que irá a través de cada uno de los nombres 
# de archivo a través de globbing y el resultado final será 
# la lista dataframes
for filename in xlsx_files2:
    data2 = pd.read_excel(filename)
    print(data2.shape)
    df2 =pd.concat([df2,data2])

(194191, 45)


  warn("Workbook contains no default style, apply openpyxl's default")


(196665, 45)


  warn("Workbook contains no default style, apply openpyxl's default")


(161861, 45)


  warn("Workbook contains no default style, apply openpyxl's default")


(206326, 45)


  warn("Workbook contains no default style, apply openpyxl's default")


(193572, 45)


In [4]:
# Para chequear que todo está bien, mostramos la list_data por 
# consola

df2.head()

Unnamed: 0,Orden de gobierno,Siglas de la Institución,Institución,Clave de la UC,Nombre de la UC,Responsable de la UC,Código del expediente,Referencia del expediente,Clave CUCOP,Título del expediente,...,Clave de cartera SHCP,Folio en el RUPC,RFC,Proveedor o contratista,Estratificación de la empresa,Clave del país de la empresa,RFC verificado en el SAT,Crédito externo,Organismo financiero,Dirección del anuncio
0,APF,CENAGAS,Centro Nacional de Control del Gas Natural,018TON999,"CENAGAS-Unidad de Finanzas y Administración, D...",Adrián Mercado Zepeda,1781609,CENAGAS/SERV/115/2018,3340,"SERVICIO DE FORMACIÓN PARA INSTALACIÓN, OPERAC...",...,,367.0,EPM9509113G6,Emerson Process Management S.A. de C.V.,No MIPYME,MX,1,,,https://compranet.hacienda.gob.mx/esop/guest/g...
1,APF,FONATUR Mantenimiento,"FONATUR Mantenimiento Turístico, S.A. de C.V.",021W3S002,"FONATUR Mantenimiento-Gerencia Central, Subdir...",Fernando Porfirio Lorenzo Vázquez,1769670,N1P1807/REQ035,2980,MEDIDORES NECESARIOS PARA LA PLANTA DESALINIZA...,...,,367.0,EPM9509113G6,Emerson Process Management S.A. de C.V.,No MIPYME,MX,1,,,https://compranet.hacienda.gob.mx/esop/guest/g...
2,APF,ISSSTE,Instituto de Seguridad y Servicios Sociales de...,051GYN052,ISSSTE-Delegación Estatal del Issste en Baja C...,Reynaldo Peraza Peraza,1781353,AD/35301-0000/078/18,3530,"""REHABILITACION, MANTENIMIENTO PREVENTIVO Y CO...",...,,485074.0,,LUIS ERNESTO MEZA FLORES,Pequeña,MX,1,,,https://compranet.hacienda.gob.mx/esop/guest/g...
3,APF,ISSSTE,Instituto de Seguridad y Servicios Sociales de...,051GYN052,ISSSTE-Delegación Estatal del Issste en Baja C...,Reynaldo Peraza Peraza,1780607,AD/35301-0000/073/18,3530,"MANTENIMIENTO, PREVENTIVO Y CORRECTIVO DE SIST...",...,,485074.0,,LUIS ERNESTO MEZA FLORES,Pequeña,MX,1,,,https://compranet.hacienda.gob.mx/esop/guest/g...
4,APF,ISSSTE,Instituto de Seguridad y Servicios Sociales de...,051GYN007,ISSSTE-Jefatura de Servicios de Adquisición de...,Antonio Ramírez Gutiérrez,1761971,Adquisición de Medicamentos,2530,Adjudicación Directa Intern. No. AA-051GYN007-...,...,,,LBR990311Q29,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...,No MIPYME,MX,1,,,https://compranet.hacienda.gob.mx/esop/guest/g...


Se comprueba que la concatenación se haya realizado de manera correcta, esto es comparando el tamaño de la base resultante contra la suma de los registros que contenía cada uno de las bases de datos individuales.

In [5]:
# Imprimimos el total de observaciones resultantes
df2.shape

(952615, 45)

In [6]:
194191+196665+161861+206326+193572

952615

In [7]:
# Observamos el nombre de las columnas
df2.columns

Index(['Orden de gobierno', 'Siglas de la Institución', 'Institución',
       'Clave de la UC', 'Nombre de la UC', 'Responsable de la UC',
       'Código del expediente', 'Referencia del expediente', 'Clave CUCOP',
       'Título del expediente', 'Plantilla del expediente', 'Fundamento legal',
       'Número del procedimiento', 'Fecha de fallo', 'Fecha de publicación',
       'Fecha de apertura', 'Carácter del procedimiento',
       'Tipo de contratación', 'Tipo de procedimiento',
       'Forma de participación', 'Código del contrato',
       'Núm. de control del contrato', 'Título del contrato',
       'Descripción del contrato', 'Fecha de inicio del contrato',
       'Fecha de fin del contrato', 'Importe del contrato',
       'Moneda del contrato', 'Estatus del contrato', 'Convenio modificatorio',
       'Clave del programa federal', 'Fecha de firma del contrato',
       'Contrato marco', 'Compra consolidada', 'Contrato plurianual',
       'Clave de cartera SHCP', 'Folio en el RUPC',

In [9]:
# Se exporta la base limpia para no repetir los pasos
df2.to_csv(r"C:\Users\52558\OneDrive - CIDE\Ciencia de datos\proyecto_final\Base_de_Datos_Compranet_2018-2022\Construccion de la base de datos de compranet\Base_de_Datos_2018_2022_Compranet.csv", index=False)

## Limpieza de la base de datos.

Se observa que existen diferencias en los tamaños de las letras, espacios y acentos en los nombres de las columnas, lo que es una mala practica de uso de software. Por lo que, a continuación homologamos todo a minúsculas, quitamos los acentos y sustituimos los espacios por un guión bajo.

In [10]:
# Importamos "unicode" para eliminar caráteres especiales.
from unidecode import unidecode

In [11]:
# Renombrar columnas en minúsculas y sin acentos
df2 = df2.rename(columns=lambda x: unidecode(x.replace("ñ", "gn")).lower().replace("gn", "ñ"))

In [12]:
df2.columns = df2.columns.str.replace(' ','_')

In [13]:
# Observamos que el nombre de las columnas haya cambiado
df2.columns

Index(['orden_de_gobierno', 'siglas_de_la_institucion', 'institucion',
       'clave_de_la_uc', 'nombre_de_la_uc', 'responsable_de_la_uc',
       'codigo_del_expediente', 'referencia_del_expediente', 'clave_cucop',
       'titulo_del_expediente', 'plantilla_del_expediente', 'fundamento_legal',
       'numero_del_procedimiento', 'fecha_de_fallo', 'fecha_de_publicacion',
       'fecha_de_apertura', 'caracter_del_procedimiento',
       'tipo_de_contratacion', 'tipo_de_procedimiento',
       'forma_de_participacion', 'codigo_del_contrato',
       'num._de_control_del_contrato', 'titulo_del_contrato',
       'descripcion_del_contrato', 'fecha_de_inicio_del_contrato',
       'fecha_de_fin_del_contrato', 'importe_del_contrato',
       'moneda_del_contrato', 'estatus_del_contrato', 'convenio_modificatorio',
       'clave_del_programa_federal', 'fecha_de_firma_del_contrato',
       'contrato_marco', 'compra_consolidada', 'contrato_plurianual',
       'clave_de_cartera_shcp', 'folio_en_el_rupc',

## Seleccionamos las variables de interés para la investigación.

Las variables de interés son las siguientes:
'siglas_de_la_institucion','clave_de_la_uc', 'clave_cucop','numero_del_procedimiento','tipo_de_contratacion', 'tipo_de_procedimiento',
'fecha_de_inicio_del_contrato', 'fecha_de_fin_del_contrato', 'importe_del_contrato','moneda_del_contrato',
'proveedor_o_contratista',

In [14]:
# El siguiente código elimina todas las variables de la base de datos que no son de nuestro interés.

df = df2.drop(['orden_de_gobierno', 'institucion',
       'nombre_de_la_uc', 'responsable_de_la_uc',
       'codigo_del_expediente', 'referencia_del_expediente','fecha_de_publicacion',
       'titulo_del_expediente', 'plantilla_del_expediente', 'fundamento_legal',
       'fecha_de_fallo', 'fecha_de_apertura', 'caracter_del_procedimiento',
       'forma_de_participacion', 'codigo_del_contrato',
       'num._de_control_del_contrato', 'titulo_del_contrato',
       'descripcion_del_contrato',  'estatus_del_contrato', 'convenio_modificatorio',
       'clave_del_programa_federal', 'fecha_de_firma_del_contrato',
       'contrato_marco', 'compra_consolidada', 'contrato_plurianual',
       'clave_de_cartera_shcp', 'folio_en_el_rupc', 'rfc',
        'estratificacion_de_la_empresa',
       'clave_del_pais_de_la_empresa', 'rfc_verificado_en_el_sat',
       'credito_externo', 'organismo_financiero', 'direccion_del_anuncio'], axis=1)



**Nota:** A continuación, se exporta la base concatenada, por lo que no es necesario volver a concatenar las bases, toda vez que ya se 

In [15]:
df.columns

Index(['siglas_de_la_institucion', 'clave_de_la_uc', 'clave_cucop',
       'numero_del_procedimiento', 'tipo_de_contratacion',
       'tipo_de_procedimiento', 'fecha_de_inicio_del_contrato',
       'fecha_de_fin_del_contrato', 'importe_del_contrato',
       'moneda_del_contrato', 'proveedor_o_contratista'],
      dtype='object')

In [16]:
df.to_csv("bd_compranet_2018-2022-concatenada.csv", index=False)

# Importamos la base final

In [17]:
import pandas as pd
bd= pd.read_csv("bd_compranet_2018-2022-concatenada.csv")

## Análisis de valores nulos (NA's)
A continuación, se muestra cuántos NA`s hay por cada una de nuestras columnas

In [18]:
print(bd.isnull().sum())

siglas_de_la_institucion           0
clave_de_la_uc                     0
clave_cucop                      287
numero_del_procedimiento         512
tipo_de_contratacion            7529
tipo_de_procedimiento              0
fecha_de_inicio_del_contrato       0
fecha_de_fin_del_contrato        327
importe_del_contrato               0
moneda_del_contrato                0
proveedor_o_contratista            0
dtype: int64


Se observa que hay diversas variables en las cuales existe una falta considerable de información, sin embargo, en este momento no se opta por eliminar ninguna columna.

In [19]:
bd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952615 entries, 0 to 952614
Data columns (total 11 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   siglas_de_la_institucion      952615 non-null  object 
 1   clave_de_la_uc                952615 non-null  object 
 2   clave_cucop                   952328 non-null  object 
 3   numero_del_procedimiento      952103 non-null  object 
 4   tipo_de_contratacion          945086 non-null  object 
 5   tipo_de_procedimiento         952615 non-null  object 
 6   fecha_de_inicio_del_contrato  952615 non-null  object 
 7   fecha_de_fin_del_contrato     952288 non-null  object 
 8   importe_del_contrato          952615 non-null  float64
 9   moneda_del_contrato           952615 non-null  object 
 10  proveedor_o_contratista       952615 non-null  object 
dtypes: float64(1), object(10)
memory usage: 79.9+ MB


In [20]:
bd.head(10)

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.0,MXN,Emerson Process Management S.A. de C.V.
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.8,MXN,Emerson Process Management S.A. de C.V.
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.0,MXN,LUIS ERNESTO MEZA FLORES
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.0,MXN,LUIS ERNESTO MEZA FLORES
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...
5,SSA,012000991,2530,AA-012000991-E788-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-05,2018-12-31,907891110.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...
6,SEDENA,007000999,2550,CE-007000999-E195-2019,Adquisiciones,Licitación Pública,2018-11-28,2019-12-31,12074210.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...
7,ISSSTE,051GYN013,2550,CE-051GYN013-E13-2018,Adquisiciones,Adjudicación directa,2018-03-16,2018-12-31,487760.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...
8,INP,012NCZ001,2510,LA-012NCZ001-E122-2019,Adquisiciones,Licitación Pública,2018-12-06,2019-12-31,30656.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...
9,IMSS,050GYR047,"2350, 2530",AA-019GYR047-E4-2018,Adquisiciones,Adjudicación Directa Federal,2018-01-31,2018-12-31,121450190.4,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...


In [21]:
bd.tail(10)

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista
952605,SEDATU,QDV,"21101, 21401",2022-15-QDV-00000001,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/28,2022/03/07,53763.88,MXN,SES0305069R7
952606,SEDATU,QDV,"21101, 21401",2022-15-QDV-00000002,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/25,2022/03/04,469367.98,MXN,BIN121221TG0
952607,SEDATU,QDV,21101,2022-15-QDV-00000003,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/15,2022/02/22,138691.27,MXN,GCD001027158
952608,SEDATU,QDV,21101,2022-15-QDV-00000004,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/16,2022/02/23,94693.43,MXN,ACO000712QK7
952609,SEDATU,QDV,21101,2022-15-QDV-00000005,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/12,2022/02/19,26025.64,MXN,DSA8412043D2
952610,SEDATU,QDV,21101,2022-15-QDV-00000007,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/12,2022/02/19,364613.67,MXN,FEF041115HF6
952611,SEDATU,QDV,21101,2022-15-QDV-00000008,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/14,2022/02/21,346016.4,MXN,COS060209D57
952612,SEDATU,QDV,21101,2022-15-QDV-00000009,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/11,2022/02/18,1885.35,MXN,FII110204978
952613,SALUD,NBD,21101,2022-12-NBD-00000001,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/22,2022/02/27,1036815.04,MXN,FEF041115HF6
952614,SEDATU,QEZ,21101,2022-15-QEZ-00000117,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022/02/12,2022/02/21,3271.2,MXN,DSA8412043D2


Se observa que las fechas no están en un mismo formato, por lo que se procede a transformar todas las variables de fecha en tipo fecha.

# Homologación de fechas

Hay registros que, aunque no son valores nulos, no tienen fechas y se observa que las fechas contienen horas, por lo que primero homologaremos los datos

In [22]:
bd['fecha_de_inicio_del_contrato'] = pd.to_datetime(bd['fecha_de_inicio_del_contrato'])

In [23]:
bd['fecha_de_fin_del_contrato']=bd['fecha_de_fin_del_contrato'][bd['fecha_de_fin_del_contrato'].isnull()==False].str.split(" ", expand=True)[0]

In [24]:
bd['fecha_de_fin_del_contrato'] = pd.to_datetime(bd['fecha_de_fin_del_contrato'])

# Se crea la variable duración del contrato

In [25]:
bd['duracion_contrato'] = bd.apply(lambda row: (row["fecha_de_fin_del_contrato"] - row['fecha_de_inicio_del_contrato']).days, axis=1)

In [26]:
bd.head()

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista,duracion_contrato
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.0,MXN,Emerson Process Management S.A. de C.V.,153.0
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.8,MXN,Emerson Process Management S.A. de C.V.,42.0
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.0,MXN,LUIS ERNESTO MEZA FLORES,206.0
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.0,MXN,LUIS ERNESTO MEZA FLORES,230.0
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.0,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...,153.0


In [27]:
bd.tail()

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista,duracion_contrato
952610,SEDATU,QDV,21101,2022-15-QDV-00000007,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-12,2022-02-19,364613.67,MXN,FEF041115HF6,7.0
952611,SEDATU,QDV,21101,2022-15-QDV-00000008,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-14,2022-02-21,346016.4,MXN,COS060209D57,7.0
952612,SEDATU,QDV,21101,2022-15-QDV-00000009,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-11,2022-02-18,1885.35,MXN,FII110204978,7.0
952613,SALUD,NBD,21101,2022-12-NBD-00000001,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-22,2022-02-27,1036815.04,MXN,FEF041115HF6,5.0
952614,SEDATU,QEZ,21101,2022-15-QEZ-00000117,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-12,2022-02-21,3271.2,MXN,DSA8412043D2,9.0


## Concatenación de información extra
* **Tipo de cambio**

Una variable muy importante para este trabajo es el importe de contrato, el cual se encuentra en terminos de diferenetes divisas, por lo que en esta sección importamos el tipo de cambio que fue consultado en la página de [Banxico](https://www.banxico.org.mx/tipcamb/main.do?page=tip&idioma=sp).

Primero, analizamos las diferentes divisas en las que se han adquirido los contratos

In [28]:
set(bd.moneda_del_contrato)

{'CAD', 'EUR', 'GBP', 'JPY', 'MXN', 'USD'}

Importamos las bases de datos referentes al tipo de cambio.

# Se importa el tipo de cambio pesos por dólar.

In [29]:
#Cargamos la base del dolar
dolar= pd.read_excel('tipo_cambio/tipoCambio.xls',header=7)

In [30]:
dolar.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,01/01/2018,N/E,N/E,19.7354
1,02/01/2018,19.4899,19.6629,19.7354
2,03/01/2018,19.3717,19.4899,19.6629
3,04/01/2018,19.2427,19.3717,19.4899
4,05/01/2018,19.2737,19.2427,19.3717


In [31]:
dolar.columns=['fecha','determinacion','dof','dolar_ob']
dolar.head()

Unnamed: 0,fecha,determinacion,dof,dolar_ob
0,01/01/2018,N/E,N/E,19.7354
1,02/01/2018,19.4899,19.6629,19.7354
2,03/01/2018,19.3717,19.4899,19.6629
3,04/01/2018,19.2427,19.3717,19.4899
4,05/01/2018,19.2737,19.2427,19.3717


In [32]:
type(dolar.fecha)

pandas.core.series.Series

In [33]:
dolar.fecha=pd.to_datetime(dolar.fecha)
dolar.head()

  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar.fecha)
  dolar.fecha=pd.to_datetime(dolar

Unnamed: 0,fecha,determinacion,dof,dolar_ob
0,2018-01-01,N/E,N/E,19.7354
1,2018-02-01,19.4899,19.6629,19.7354
2,2018-03-01,19.3717,19.4899,19.6629
3,2018-04-01,19.2427,19.3717,19.4899
4,2018-05-01,19.2737,19.2427,19.3717


In [34]:
dolar.tail()

Unnamed: 0,fecha,determinacion,dof,dolar_ob
1821,2022-12-27,19.4407,19.3983,19.4287
1822,2022-12-28,19.4143,19.4407,19.3983
1823,2022-12-29,19.3615,19.4143,19.4407
1824,2022-12-30,19.4715,19.3615,19.4143
1825,2022-12-31,N/E,N/E,19.3615


# Se importa el tipo de cambio de euros, yenes y dólares canadienses por peso.

In [35]:
ot_div= pd.read_excel('tipo_cambio/otrasDivisas.xls',header=7)

In [36]:
ot_div.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,02/01/2018,23.5058,0.1737,15.569
1,03/01/2018,23.2722,0.1726,15.4607
2,04/01/2018,23.2115,0.1709,15.4083
3,05/01/2018,23.2296,0.1702,15.528
4,08/01/2018,23.0499,0.1701,15.4847


In [37]:
ot_div.columns= ['fecha','euro','yen_jap','dolar_can']

In [38]:
ot_div.head()

Unnamed: 0,fecha,euro,yen_jap,dolar_can
0,02/01/2018,23.5058,0.1737,15.569
1,03/01/2018,23.2722,0.1726,15.4607
2,04/01/2018,23.2115,0.1709,15.4083
3,05/01/2018,23.2296,0.1702,15.528
4,08/01/2018,23.0499,0.1701,15.4847


In [39]:
type(ot_div.fecha)

pandas.core.series.Series

In [40]:
ot_div.fecha=pd.to_datetime(ot_div.fecha)
ot_div.tail(20)

  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot_div.fecha)
  ot_div.fecha=pd.to_datetime(ot

Unnamed: 0,fecha,euro,yen_jap,dolar_can
1238,2022-01-12,19.9827,0.1405,14.2776
1239,2022-02-12,20.3818,0.1443,14.3616
1240,2022-05-12,20.8739,0.146,14.5773
1241,2022-06-12,20.8268,0.1453,14.4865
1242,2022-07-12,20.6619,0.1431,14.4342
1243,2022-08-12,20.6736,0.1438,14.4802
1244,2022-09-12,20.9202,0.1459,14.518
1245,2022-12-13,20.6998,0.1428,14.4949
1246,2022-12-14,20.9747,0.1459,14.5075
1247,2022-12-15,21.0227,0.145,14.4886


# Se importa el tipo de cambio libras esterlinas por peso.

In [41]:
libra= pd.read_excel('tipo_cambio/Consulta_20240204-213858091.xlsx',header=17)

  warn("Workbook contains no default style, apply openpyxl's default")


In [42]:
libra.tail()

Unnamed: 0,Fecha,SF46407
1254,2022-12-26,N/E
1255,2022-12-27,23.3638
1256,2022-12-28,23.3641
1257,2022-12-29,23.3374
1258,2022-12-30,23.4223


In [43]:
libra.columns=['fecha','libra']

# Se crea una sola base de datos para tener los diferentes tipos de cambio

In [44]:
tipo_cambio= pd.DataFrame(pd.date_range('2018-01-01','2022-12-31'))

In [45]:
tipo_cambio.columns=['fecha']
tipo_cambio.head()

Unnamed: 0,fecha
0,2018-01-01
1,2018-01-02
2,2018-01-03
3,2018-01-04
4,2018-01-05


In [46]:
tipo_cambio= pd.merge(tipo_cambio, dolar, on='fecha', how='left')

In [47]:
tipo_cambio= pd.merge(tipo_cambio, ot_div, on='fecha', how='left')

In [48]:
tipo_cambio= pd.merge(tipo_cambio, libra, on='fecha', how='left')

In [49]:
tipo_cambio.head(10)

Unnamed: 0,fecha,determinacion,dof,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,N/E,N/E,19.7354,,,,
1,2018-01-02,18.4004,18.6069,18.6982,22.8818,0.1678,14.997,26.4108
2,2018-01-03,18.861,18.8331,18.7902,22.985,0.1768,14.6886,26.2709
3,2018-01-04,N/E,N/E,18.3445,,,,26.0825
4,2018-01-05,N/E,N/E,18.6847,,,,26.111
5,2018-01-06,19.8662,19.9759,19.7322,23.2623,0.1819,15.3445,
6,2018-01-07,N/E,N/E,19.8633,,,,
7,2018-01-08,18.5899,18.6457,18.5413,21.726,0.1662,14.3123,26.0425
8,2018-01-09,N/E,N/E,19.1258,,,,26.141
9,2018-01-10,18.6531,18.7231,18.812,21.6544,0.1636,14.5709,26.0776


In [50]:
tipo_cambio.drop(['determinacion','dof'], axis=1, inplace=True)

In [51]:
tipo_cambio.head(10)

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,19.7354,,,,
1,2018-01-02,18.6982,22.8818,0.1678,14.997,26.4108
2,2018-01-03,18.7902,22.985,0.1768,14.6886,26.2709
3,2018-01-04,18.3445,,,,26.0825
4,2018-01-05,18.6847,,,,26.111
5,2018-01-06,19.7322,23.2623,0.1819,15.3445,
6,2018-01-07,19.8633,,,,
7,2018-01-08,18.5413,21.726,0.1662,14.3123,26.0425
8,2018-01-09,19.1258,,,,26.141
9,2018-01-10,18.812,21.6544,0.1636,14.5709,26.0776


In [52]:
import numpy as np

In [53]:
tipo_cambio = tipo_cambio.replace([" "], [np.nan])

In [54]:
tipo_cambio = tipo_cambio.replace(["N/E"], [np.nan])

In [55]:
tipo_cambio.head(10)

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,19.7354,,,,
1,2018-01-02,18.6982,22.8818,0.1678,14.997,26.4108
2,2018-01-03,18.7902,22.985,0.1768,14.6886,26.2709
3,2018-01-04,18.3445,,,,26.0825
4,2018-01-05,18.6847,,,,26.111
5,2018-01-06,19.7322,23.2623,0.1819,15.3445,
6,2018-01-07,19.8633,,,,
7,2018-01-08,18.5413,21.726,0.1662,14.3123,26.0425
8,2018-01-09,19.1258,,,,26.141
9,2018-01-10,18.812,21.6544,0.1636,14.5709,26.0776


# Para los días en los que no hubo tipo de cambio, se imputa el tipo de cambio del día anterior, excepto por el primero de enero de 2028, a ese valor se le imputó el tipo de cambio del día siguiente.

In [56]:
tipo_cambio.fillna(method='ffill', inplace=True)

In [57]:
tipo_cambio.head(50)

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,19.7354,,,,
1,2018-01-02,18.6982,22.8818,0.1678,14.997,26.4108
2,2018-01-03,18.7902,22.985,0.1768,14.6886,26.2709
3,2018-01-04,18.3445,22.985,0.1768,14.6886,26.0825
4,2018-01-05,18.6847,22.985,0.1768,14.6886,26.111
5,2018-01-06,19.7322,23.2623,0.1819,15.3445,26.111
6,2018-01-07,19.8633,23.2623,0.1819,15.3445,26.111
7,2018-01-08,18.5413,21.726,0.1662,14.3123,26.0425
8,2018-01-09,19.1258,21.726,0.1662,14.3123,26.141
9,2018-01-10,18.812,21.6544,0.1636,14.5709,26.0776


In [58]:
print(tipo_cambio.isnull().sum())

fecha        0
dolar_ob     0
euro         1
yen_jap      1
dolar_can    1
libra        1
dtype: int64


In [59]:
tipo_cambio[tipo_cambio['libra'].isnull()]

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,19.7354,,,,


In [60]:
tipo_cambio.tail()

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
1821,2022-12-27,19.4287,20.7034,0.1458,14.298,23.3638
1822,2022-12-28,19.3983,20.6151,0.1446,14.3123,23.3641
1823,2022-12-29,19.4407,20.6519,0.1453,14.3,23.3374
1824,2022-12-30,19.4143,20.781,0.1476,14.3906,23.4223
1825,2022-12-31,19.3615,20.781,0.1476,14.3906,23.4223


In [61]:
tipo_cambio.fillna(method='bfill', inplace=True)

In [62]:
print(tipo_cambio.isnull().sum())

fecha        0
dolar_ob     0
euro         0
yen_jap      0
dolar_can    0
libra        0
dtype: int64


In [63]:
tipo_cambio.head(10)

Unnamed: 0,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,2018-01-01,19.7354,22.8818,0.1678,14.997,26.4108
1,2018-01-02,18.6982,22.8818,0.1678,14.997,26.4108
2,2018-01-03,18.7902,22.985,0.1768,14.6886,26.2709
3,2018-01-04,18.3445,22.985,0.1768,14.6886,26.0825
4,2018-01-05,18.6847,22.985,0.1768,14.6886,26.111
5,2018-01-06,19.7322,23.2623,0.1819,15.3445,26.111
6,2018-01-07,19.8633,23.2623,0.1819,15.3445,26.111
7,2018-01-08,18.5413,21.726,0.1662,14.3123,26.0425
8,2018-01-09,19.1258,21.726,0.1662,14.3123,26.141
9,2018-01-10,18.812,21.6544,0.1636,14.5709,26.0776


In [64]:
bd= pd.merge(bd, tipo_cambio, left_on='fecha_de_inicio_del_contrato', right_on = 'fecha',how='left')

In [65]:
bd

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista,duracion_contrato,fecha,dolar_ob,euro,yen_jap,dolar_can,libra
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.00,MXN,Emerson Process Management S.A. de C.V.,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.80,MXN,Emerson Process Management S.A. de C.V.,42.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.00,MXN,LUIS ERNESTO MEZA FLORES,206.0,2018-06-08,18.6349,21.3934,0.1664,14.5603,27.4851
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.00,MXN,LUIS ERNESTO MEZA FLORES,230.0,2018-05-15,19.3539,23.5802,0.1800,15.3374,26.7875
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.00,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
952610,SEDATU,QDV,21101,2022-15-QDV-00000007,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-12,2022-02-19,364613.67,MXN,FEF041115HF6,7.0,2022-02-12,19.3965,20.3818,0.1443,14.3616,27.6940
952611,SEDATU,QDV,21101,2022-15-QDV-00000008,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-14,2022-02-21,346016.40,MXN,COS060209D57,7.0,2022-02-14,20.4148,23.0848,0.1772,16.0333,27.5834
952612,SEDATU,QDV,21101,2022-15-QDV-00000009,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-11,2022-02-18,1885.35,MXN,FII110204978,7.0,2022-02-11,19.8245,19.9703,0.1424,15.2277,27.6940
952613,SALUD,NBD,21101,2022-12-NBD-00000001,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-22,2022-02-27,1036815.04,MXN,FEF041115HF6,5.0,2022-02-22,20.3063,23.0328,0.1764,15.9312,27.5125


In [66]:
fecha_mas_antigua = bd['fecha_de_inicio_del_contrato'].min()
fecha_mas_actual = bd['fecha_de_inicio_del_contrato'].max()

print("La fecha más antigua es:", fecha_mas_antigua)
print("La fecha más actual es:", fecha_mas_actual)

La fecha más antigua es: 2018-01-01 00:00:00
La fecha más actual es: 2022-12-31 00:00:00


# Procedemos a homologar el importe del contrato a pesos.

In [67]:
moneda=list(set(bd['moneda_del_contrato']))
moneda

['CAD', 'MXN', 'USD', 'JPY', 'EUR', 'GBP']

In [68]:
# Se crea la columna donde se estimará el importe en pesos.
bd['importe_pesos']= np.nan

In [69]:
# Se analiza cuántos contratos hay en divisas distintas al peso mexicano.
moneda=bd.groupby("moneda_del_contrato", as_index=False)["importe_del_contrato"].count()

In [70]:
moneda

Unnamed: 0,moneda_del_contrato,importe_del_contrato
0,CAD,26
1,EUR,376
2,GBP,29
3,JPY,5
4,MXN,946391
5,USD,5788


In [71]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='MXN', bd['importe_del_contrato'],bd['importe_pesos'])

In [72]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='USD', bd['importe_del_contrato']*bd['dolar_ob'],bd['importe_pesos'] )

In [73]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='CAD', bd['importe_del_contrato']*bd['dolar_can'],bd['importe_pesos'])

In [74]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='GBP', bd['importe_del_contrato']*pd.to_numeric(bd['libra']),bd['importe_pesos'] )

In [75]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='EUR', bd['importe_del_contrato']*bd['euro'],bd['importe_pesos'])

In [76]:
bd['importe_pesos'] = np.where(bd['moneda_del_contrato']=='JPY', bd['importe_del_contrato']*bd['yen_jap'],bd['importe_pesos'] )

In [77]:
# Se revisa que cada registro que estaba determinado en una divisa distinta tenga un valor estimado en pesos.
moneda=bd.groupby("moneda_del_contrato", as_index=False)["importe_pesos"].count()
moneda

Unnamed: 0,moneda_del_contrato,importe_pesos
0,CAD,26
1,EUR,376
2,GBP,29
3,JPY,5
4,MXN,946391
5,USD,5788


# Homologación del tipo de procedimiento

In [78]:
a=bd.groupby('tipo_de_procedimiento', as_index=False)['siglas_de_la_institucion'].count()
a

Unnamed: 0,tipo_de_procedimiento,siglas_de_la_institucion
0,ADJUDICACIÓN DIRECTA,599501
1,Adjudicación Directa Federal,147737
2,Adjudicación directa,228
3,CONTRATO ENTRE ENTES PUBLICOS,5316
4,INVITACIÓN A CUANDO MENOS 3 PERSONAS,50889
5,Invitación a Cuando Menos 3 Personas,17480
6,Invitación a cuando menos 3 personas,137
7,LICITACIÓN PÚBLICA,86088
8,Licitación Pública,28544
9,OTRAS CONTRATACIONES,16489


In [79]:
# Se revisa la cantidad de contratos en el periodo de análisis.
a['siglas_de_la_institucion'].sum()

952615

In [80]:
list(set(bd['tipo_de_procedimiento']))

['Adjudicación Directa Federal',
 'CONTRATO ENTRE ENTES PUBLICOS',
 'Adjudicación directa',
 'INVITACIÓN A CUANDO MENOS 3 PERSONAS',
 'Invitación a Cuando Menos 3 Personas',
 'Invitación a cuando menos 3 personas',
 'LICITACIÓN PÚBLICA',
 'Otro',
 'ADJUDICACIÓN DIRECTA',
 'PROYECTO DE CONVOCATORIA',
 'Proyecto de Convocatoria',
 'OTRAS CONTRATACIONES',
 'Licitación Pública']

In [81]:
print(bd['tipo_de_procedimiento'].isnull().sum())

0


In [82]:
bd['tipo_de_procedimiento_homologado']= np.nan

In [83]:
bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='ADJUDICACIÓN DIRECTA',
                        'Adjudicación directa',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Adjudicación Directa Federal',
                        'Adjudicación directa',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Invitación a Cuando Menos 3 Personas',
                        'Invitación a cuando menos 3 personas',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Proyecto de Convocatoria',
                        'Otro',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Adjudicación directa',
                        'Adjudicación directa',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Invitación a cuando menos 3 personas',
                        'Invitación a cuando menos 3 personas',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='CONTRATO ENTRE ENTES PUBLICOS',
                        'Otro',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='PROYECTO DE CONVOCATORIA',
                        'Otro',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='INVITACIÓN A CUANDO MENOS 3 PERSONAS',
                        'Invitación a cuando menos 3 personas',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='LICITACIÓN PÚBLICA',
                        'Licitación pública',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Otro',
                        'Otro',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='OTRAS CONTRATACIONES',
                        'Otro',bd['tipo_de_procedimiento_homologado'])

bd['tipo_de_procedimiento_homologado']=np.where(bd['tipo_de_procedimiento']=='Licitación Pública',
                        'Licitación pública',bd['tipo_de_procedimiento_homologado'])

In [84]:
bd

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,proveedor_o_contratista,duracion_contrato,fecha,dolar_ob,euro,yen_jap,dolar_can,libra,importe_pesos,tipo_de_procedimiento_homologado
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.00,MXN,Emerson Process Management S.A. de C.V.,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,101629.00,Adjudicación directa
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.80,MXN,Emerson Process Management S.A. de C.V.,42.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,730996.80,Adjudicación directa
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.00,MXN,LUIS ERNESTO MEZA FLORES,206.0,2018-06-08,18.6349,21.3934,0.1664,14.5603,27.4851,272000.00,Adjudicación directa
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.00,MXN,LUIS ERNESTO MEZA FLORES,230.0,2018-05-15,19.3539,23.5802,0.1800,15.3374,26.7875,269000.00,Adjudicación directa
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.00,MXN,LABORATORIOS DE BIOLOGICOS Y REACTIVOS DE MEXI...,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,64940400.00,Adjudicación directa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
952610,SEDATU,QDV,21101,2022-15-QDV-00000007,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-12,2022-02-19,364613.67,MXN,FEF041115HF6,7.0,2022-02-12,19.3965,20.3818,0.1443,14.3616,27.6940,364613.67,Adjudicación directa
952611,SEDATU,QDV,21101,2022-15-QDV-00000008,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-14,2022-02-21,346016.40,MXN,COS060209D57,7.0,2022-02-14,20.4148,23.0848,0.1772,16.0333,27.5834,346016.40,Adjudicación directa
952612,SEDATU,QDV,21101,2022-15-QDV-00000009,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-11,2022-02-18,1885.35,MXN,FII110204978,7.0,2022-02-11,19.8245,19.9703,0.1424,15.2277,27.6940,1885.35,Adjudicación directa
952613,SALUD,NBD,21101,2022-12-NBD-00000001,ADQUISICIONES,ADJUDICACIÓN DIRECTA,2022-02-22,2022-02-27,1036815.04,MXN,FEF041115HF6,5.0,2022-02-22,20.3063,23.0328,0.1764,15.9312,27.5125,1036815.04,Adjudicación directa


In [85]:
b=bd.groupby('tipo_de_procedimiento_homologado', as_index=False)['siglas_de_la_institucion'].count()
b

Unnamed: 0,tipo_de_procedimiento_homologado,siglas_de_la_institucion
0,Adjudicación directa,747466
1,Invitación a cuando menos 3 personas,68506
2,Licitación pública,114632
3,Otro,22011


In [86]:
b['siglas_de_la_institucion'].sum()

952615

In [87]:
# Guardamos la infromación completa para tener un respaldo
bd.to_csv("bd_compranet_2018_2022_importe_en_pesos.csv", index=False)

# Ya no es necesario volver a correr todo lo anterior. Empieza desde aquí.

In [1]:
import pandas as pd
bd = pd.read_csv("bd_compranet_2018_2022_importe_en_pesos.csv")

In [2]:
# Procedemos a quedarnos con la información de 2018 a 2022

# Se homologa el tipo de contratación

In [3]:
set(bd['tipo_de_contratacion'])

{'ADQUISICIONES',
 'Adquisiciones',
 'Arrendamientos',
 'Obra Pública',
 'Servicios',
 'Servicios Relacionados con la OP',
 nan}

In [4]:
# Reemplazar el valor en la columna del DataFrame
bd['tipo_de_contratacion'] = bd['tipo_de_contratacion'].replace('ADQUISICIONES', 'Adquisiciones')

In [5]:
set(bd['tipo_de_contratacion'])

{'Adquisiciones',
 'Arrendamientos',
 'Obra Pública',
 'Servicios',
 'Servicios Relacionados con la OP',
 nan}

### Homologación del nombre del provedor o contratista asignado.

En esta sección se realiza una limpieza de esta variable para poder tener un análisis más preciso y evitar errores por acentos o espacios extra.


In [6]:
import unicodedata

In [7]:
# Función para quitar acentos sin eliminar "ñ"
def remove_accents_except_n(text):
    return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')

In [8]:
# Aplicar la función a la columna con acentos
bd['proveedor_o_contratista'] = bd['proveedor_o_contratista'].apply(remove_accents_except_n)

In [9]:
set(bd['proveedor_o_contratista'])

{'RUBEN LOZANO FIERRO',
 'SARA TAPIA VALLEJO',
 'DATAPOINT SA DE CV',
 'GRUPO ROCLARE MEXICO SA DE CV',
 'ANTONIO BENJAMIN GOMEZ PUERTO',
 'GRUPO CONSTRUCTOR JONG SA DE CV',
 'MAGELLAN DIAGNOSTICS INC',
 'CARLOS MANUEL DE ATOCHA VELAZQUEZ SANSORES',
 'OMAR ALEJANDRO AREIZAGA GUTIERREZ',
 'GUADALUPE ZEFERINA BENITEZ GONZALEZ',
 'TRANSPORTADORA TURISTICA NAHU SA DE CV',
 'SERVICIOS MEDICOS ESPECIALIZADOS EN DIAGNOSTICO Y TRATAMIENTO SC',
 'LUIS MANUEL RODRIGUEZ VALENCIA',
 'IN-KEY TRADE MEXICO SA DE CV',
 'EDUARDO AGUSTIN CARDENAS ZAMORA ',
 'LUIS MANUEL JIMENEZ MAQUEDA',
 'JOSE BALLEZA AIZCORBE',
 'Polgar Salcedo Manuel',
 'MAJ DISTRIBUIDORA DE MATERIAL QUIRURGICO SA DE CV',
 'PROYECTOS Y SOPORTE SA DE CV',
 'SETECS SERVICIOS TECNICOS EN ELECTROMECANICA',
 'CUBO NARANJA SA DE CV',
 'DIEGO MONTOYA MAYEN',
 'INSTRUMENTACION Y SERVICIO EN ANALITICA SA DE CV',
 'MARTHA AZUCENA DIAZ RIVAS',
 'CONSTRUCTORA Y ARRENDADORA KALVI SA DE CV',
 'KARINA ZAMORA SANTIAGO',
 'ISRAEL LOPEZ CORTES',
 'FER

In [10]:
bd['proveedor_o_contratista']=bd['proveedor_o_contratista'].str.strip()

In [11]:
bd['proveedor_o_contratista']=bd['proveedor_o_contratista'].str.upper()

In [12]:
bd['proveedor_o_contratista'] = bd['proveedor_o_contratista'].str.replace(',', '').str.replace('.', '')

  bd['proveedor_o_contratista'] = bd['proveedor_o_contratista'].str.replace(',', '').str.replace('.', '')


In [13]:
set(bd['proveedor_o_contratista'])

{'RUBEN LOZANO FIERRO',
 'SARA TAPIA VALLEJO',
 'DATAPOINT SA DE CV',
 'GRUPO ROCLARE MEXICO SA DE CV',
 'ANTONIO BENJAMIN GOMEZ PUERTO',
 'GRUPO CONSTRUCTOR JONG SA DE CV',
 'MAGELLAN DIAGNOSTICS INC',
 'CARLOS MANUEL DE ATOCHA VELAZQUEZ SANSORES',
 'OMAR ALEJANDRO AREIZAGA GUTIERREZ',
 'GUADALUPE ZEFERINA BENITEZ GONZALEZ',
 'TRANSPORTADORA TURISTICA NAHU SA DE CV',
 'SERVICIOS MEDICOS ESPECIALIZADOS EN DIAGNOSTICO Y TRATAMIENTO SC',
 'LUIS MANUEL RODRIGUEZ VALENCIA',
 'IN-KEY TRADE MEXICO SA DE CV',
 'LUIS MANUEL JIMENEZ MAQUEDA',
 'JOSE BALLEZA AIZCORBE',
 'CLAUDIA PEREZ CARDENAS',
 'MAJ DISTRIBUIDORA DE MATERIAL QUIRURGICO SA DE CV',
 'BERENICE CALDERON PEREZ',
 'PROYECTOS Y SOPORTE SA DE CV',
 'SETECS SERVICIOS TECNICOS EN ELECTROMECANICA',
 'CUBO NARANJA SA DE CV',
 'DIEGO MONTOYA MAYEN',
 'INSTRUMENTACION Y SERVICIO EN ANALITICA SA DE CV',
 'MARTHA AZUCENA DIAZ RIVAS',
 'CONSTRUCTORA Y ARRENDADORA KALVI SA DE CV',
 'KARINA ZAMORA SANTIAGO',
 'ISRAEL LOPEZ CORTES',
 'FERNANDO PE

# Se anonimiza el nombre del proveedor.

In [14]:
# Creamos un diccionario para mapear los nombres de los proveedores a valores anonimizados
anonimizado = {}
contador = 1

# Recorremos la columna 'proveedores' del DataFrame
for proveedor in bd['proveedor_o_contratista']:
    if proveedor not in anonimizado:
        anonimizado[proveedor] = 'P' + str(contador)
        contador += 1

# Ahora, reemplazamos los nombres de los proveedores en la columna 'proveedores'
# por los valores anonimizados
bd['proveedor_o_contratista_anonimizado'] = bd['proveedor_o_contratista'].map(anonimizado)

In [15]:
bd.head(50)

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,...,duracion_contrato,fecha,dolar_ob,euro,yen_jap,dolar_can,libra,importe_pesos,tipo_de_procedimiento_homologado,proveedor_o_contratista_anonimizado
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.0,MXN,...,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,101629.0,Adjudicación directa,P1
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.8,MXN,...,42.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,730996.8,Adjudicación directa,P1
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.0,MXN,...,206.0,2018-06-08,18.6349,21.3934,0.1664,14.5603,27.4851,272000.0,Adjudicación directa,P2
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.0,MXN,...,230.0,2018-05-15,19.3539,23.5802,0.18,15.3374,26.7875,269000.0,Adjudicación directa,P2
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.0,MXN,...,153.0,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,64940400.0,Adjudicación directa,P3
5,SSA,012000991,2530,AA-012000991-E788-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-05,2018-12-31,907891100.0,MXN,...,179.0,2018-07-05,19.1223,23.1495,0.1777,15.0921,25.4974,907891100.0,Adjudicación directa,P3
6,SEDENA,007000999,2550,CE-007000999-E195-2019,Adquisiciones,Licitación Pública,2018-11-28,2019-12-31,12074210.0,MXN,...,398.0,2018-11-28,20.5304,23.0234,0.1794,15.2999,26.1258,12074210.0,Licitación pública,P3
7,ISSSTE,051GYN013,2550,CE-051GYN013-E13-2018,Adquisiciones,Adjudicación directa,2018-03-16,2018-12-31,487760.0,MXN,...,290.0,2018-03-16,18.5854,23.08,0.1772,14.3062,26.1494,487760.0,Adjudicación directa,P3
8,INP,012NCZ001,2510,LA-012NCZ001-E122-2019,Adquisiciones,Licitación Pública,2018-12-06,2019-12-31,30656.0,MXN,...,390.0,2018-12-06,20.5281,24.2755,0.1868,15.8579,26.0917,30656.0,Licitación pública,P3
9,IMSS,050GYR047,"2350, 2530",AA-019GYR047-E4-2018,Adquisiciones,Adjudicación Directa Federal,2018-01-31,2018-12-31,121450200.0,MXN,...,334.0,2018-01-31,18.6196,23.174,0.1711,15.1492,26.3492,121450200.0,Adjudicación directa,P3


# Se genera la variable de año para distinguir los contratos de manera anual.

In [16]:
bd['año_inicio_contrato']=pd.to_datetime(bd['fecha_de_inicio_del_contrato']).dt.year

In [17]:
bd

Unnamed: 0,siglas_de_la_institucion,clave_de_la_uc,clave_cucop,numero_del_procedimiento,tipo_de_contratacion,tipo_de_procedimiento,fecha_de_inicio_del_contrato,fecha_de_fin_del_contrato,importe_del_contrato,moneda_del_contrato,...,fecha,dolar_ob,euro,yen_jap,dolar_can,libra,importe_pesos,tipo_de_procedimiento_homologado,proveedor_o_contratista_anonimizado,año_inicio_contrato
0,CENAGAS,018TON999,3340,AA-018TON999-E140-2018,Servicios,Adjudicación Directa Federal,2018-07-31,2018-12-31,101629.00,MXN,...,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,101629.00,Adjudicación directa,P1,2018
1,FONATUR Mantenimiento,021W3S002,2980,AA-021W3S002-E947-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-09-11,730996.80,MXN,...,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,730996.80,Adjudicación directa,P1,2018
2,ISSSTE,051GYN052,3530,AO-051GYN052-E18-2018,Servicios,Adjudicación Directa Federal,2018-06-08,2018-12-31,272000.00,MXN,...,2018-06-08,18.6349,21.3934,0.1664,14.5603,27.4851,272000.00,Adjudicación directa,P2,2018
3,ISSSTE,051GYN052,3530,AO-051GYN052-E16-2018,Servicios,Adjudicación Directa Federal,2018-05-15,2018-12-31,269000.00,MXN,...,2018-05-15,19.3539,23.5802,0.1800,15.3374,26.7875,269000.00,Adjudicación directa,P2,2018
4,ISSSTE,051GYN007,2530,AA-051GYN007-E23-2018,Adquisiciones,Adjudicación Directa Federal,2018-07-31,2018-12-31,64940400.00,MXN,...,2018-07-31,18.5515,21.8817,0.1672,14.3082,24.5433,64940400.00,Adjudicación directa,P3,2018
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
952610,SEDATU,QDV,21101,2022-15-QDV-00000007,Adquisiciones,ADJUDICACIÓN DIRECTA,2022-02-12,2022-02-19,364613.67,MXN,...,2022-02-12,19.3965,20.3818,0.1443,14.3616,27.6940,364613.67,Adjudicación directa,P86537,2022
952611,SEDATU,QDV,21101,2022-15-QDV-00000008,Adquisiciones,ADJUDICACIÓN DIRECTA,2022-02-14,2022-02-21,346016.40,MXN,...,2022-02-14,20.4148,23.0848,0.1772,16.0333,27.5834,346016.40,Adjudicación directa,P112668,2022
952612,SEDATU,QDV,21101,2022-15-QDV-00000009,Adquisiciones,ADJUDICACIÓN DIRECTA,2022-02-11,2022-02-18,1885.35,MXN,...,2022-02-11,19.8245,19.9703,0.1424,15.2277,27.6940,1885.35,Adjudicación directa,P86535,2022
952613,SALUD,NBD,21101,2022-12-NBD-00000001,Adquisiciones,ADJUDICACIÓN DIRECTA,2022-02-22,2022-02-27,1036815.04,MXN,...,2022-02-22,20.3063,23.0328,0.1764,15.9312,27.5125,1036815.04,Adjudicación directa,P86537,2022


# Se homologa la calve CUCOP.

In [18]:
set(bd['clave_cucop'])

{nan,
 '2410, 2470, 2480',
 '3310, 5410',
 '3190, 3390, 3990',
 '2460, 2480, 2490, 2920',
 '2480, 2710, 2910',
 '2470, 2480, 2610',
 '2110, 2440, 2710, 5130',
 '6130, 6170, 6190',
 '2160, 3210',
 '2110, 2340, 2360, 2370, 2420, 2430, 2440, 2460, 2470, 2480, 2490, 2510, 2590, 2820, 2830, 2910, 2960, 2980',
 '6150, 6160, 6250',
 '2160, 2230, 2360, 2460, 2510, 2530, 2540, 2550, 2590, 2910, 5310, 5320, 5620, 5660, 5690',
 '5150, 5290, 5310, 5320',
 '3330, 5150, 5910',
 '2160, 2410, 2510, 2530, 2550, 2560, 2610, 2950, 2980',
 '2110, 2160, 2490, 2540',
 '6110, 6120, 6130, 6140, 6150, 6160, 6170, 6190',
 '2110, 2460, 2470, 2490, 2910, 2920',
 '3530, 5150, 5910',
 '2460, 2540, 2910, 5620',
 '3440',
 '2140, 2460, 2470, 2910, 2920, 2930, 2940, 2960',
 '5110, 5190, 5690',
 '3390, 3990',
 '5310, 5410',
 '2410, 2420, 2430, 2440, 2450, 2460, 2470, 2480, 2490, 2550',
 '2330, 2350, 2360, 2370, 2390, 2710',
 '2460, 2820',
 '2110, 2460, 2940',
 '6230, 6260, 6290',
 '2490, 2510',
 '2510, 2540, 2550, 2980,

In [19]:
# Se convierte la columna de las claves cucop en una lista para poder contar la cantidad de productos por procedimiento.
bd['clave.cucop2'] = bd['clave_cucop'].apply(lambda x: x.split(',') if isinstance(x, str) else None)

In [20]:
# Se crea una variable en la cual se cuenta el número de productos por procedimiento.
bd['num_productos'] = bd['clave.cucop2'].apply(lambda x: len(x) if isinstance(x, list) else None)

In [21]:
bd.groupby(['num_productos'])['num_productos'].count()

num_productos
1.0     824426
2.0      60557
3.0      38293
4.0       8717
5.0       6823
6.0       3938
7.0       2812
8.0       1485
9.0       1166
10.0       707
11.0       643
12.0       597
13.0       396
14.0       307
15.0       472
16.0       237
17.0       129
18.0       166
19.0        61
20.0        46
21.0        60
22.0        20
23.0        13
24.0        34
25.0        13
26.0         6
27.0        61
28.0        28
29.0        39
30.0         8
31.0         9
32.0        18
34.0         5
36.0        14
38.0         7
40.0        15
Name: num_productos, dtype: int64

In [22]:
# Se crea la variable para tener una CUCOP única por procedimiento.
# esto es quedarnos solo con la primer clave que aparece en la lista.
bd['cucop_unica'] = bd['clave.cucop2'].apply(lambda x: x[0] if x is not None else None)

In [23]:
bd['cucop_unica'].nunique()

193

In [24]:
bd.isnull().sum()

siglas_de_la_institucion                  0
clave_de_la_uc                            0
clave_cucop                             287
numero_del_procedimiento                512
tipo_de_contratacion                   7529
tipo_de_procedimiento                     0
fecha_de_inicio_del_contrato              0
fecha_de_fin_del_contrato               327
importe_del_contrato                      0
moneda_del_contrato                       0
proveedor_o_contratista                   0
duracion_contrato                       327
fecha                                     0
dolar_ob                                  0
euro                                      0
yen_jap                                   0
dolar_can                                 0
libra                                     0
importe_pesos                             0
tipo_de_procedimiento_homologado          0
proveedor_o_contratista_anonimizado       0
año_inicio_contrato                       0
clave.cucop2                    

In [25]:
bd.columns

Index(['siglas_de_la_institucion', 'clave_de_la_uc', 'clave_cucop',
       'numero_del_procedimiento', 'tipo_de_contratacion',
       'tipo_de_procedimiento', 'fecha_de_inicio_del_contrato',
       'fecha_de_fin_del_contrato', 'importe_del_contrato',
       'moneda_del_contrato', 'proveedor_o_contratista', 'duracion_contrato',
       'fecha', 'dolar_ob', 'euro', 'yen_jap', 'dolar_can', 'libra',
       'importe_pesos', 'tipo_de_procedimiento_homologado',
       'proveedor_o_contratista_anonimizado', 'año_inicio_contrato',
       'clave.cucop2', 'num_productos', 'cucop_unica'],
      dtype='object')

In [26]:
bd= bd.drop(['clave_cucop', 'tipo_de_procedimiento', 
       'fecha_de_fin_del_contrato', 'importe_del_contrato',
       'moneda_del_contrato',
       'fecha', 'dolar_ob', 'euro', 'yen_jap', 'dolar_can', 'libra',
       'clave.cucop2'], axis=1)

In [27]:
# Se exporta la base limpia para no repetir los pasos
bd.to_csv(r"C:\Users\52558\OneDrive - CIDE\Ciencia de datos\proyecto_final\Base_de_Datos_Compranet_2018-2022\Analisis descriptivo de la Base de datos\base_de_datos_compranet_final_2018_2022_con_variables.csv", index=False)