In [1]:
import os
import pathlib
import sys

# PROCESAMIENTO
from scipy import linalg
import numpy as np
from scipy import linalg
from sklearn.decomposition import PCA
import pandas as pd

# GRAFICACION
import seaborn as sns
import matplotlib.pyplot as plt


sys.path.append(os.path.join(pathlib.Path(os.getcwd()).parent))
from datetime import datetime

# BIG QUERY
from utils.bq_conn import bq_conn_file
# %%
bq_client = bq_conn_file(project_id="dsa-miad-365616")


ModuleNotFoundError: No module named 'utils.bq_conn'

In [None]:
query = '''
SELECT
    *
FROM `Proyecto.DatosSecopI`
ORDER BY anno_cargue_secop DESC
'''
secop_I = bq_client.execute_query(query=query)
secop_I.head(3)

In [None]:
query = '''
SELECT
    *
FROM `Proyecto.DatosSecopII`
ORDER BY estado_contrato DESC
'''
secop_II = bq_client.execute_query(query=query)
secop_II.head(3)

In [None]:
secop_I.columns

In [None]:
baseI=secop_I[['uid', 'anno_cargue_secop', 'modalidad_de_contratacion',
       'estado_del_proceso', 'tipo_de_contrato', 'departamento_ejecucion', 'nombre_grupo', 
       'nombre_familia', 'id_clase', 'nombre_clase', 'id_adjudicacion','identificacion_del_contratista',
       'nom_razon_social_contratista','identific_representante_legal',
       'dias_ejec_final_contrato', 'prorrogado','tiempo_adiciones_en_dias', 'cuantia_contrato', 'con_adicion_pptal',
       'valor_total_de_adiciones', 'valor_contrato_con_adiciones', 'moneda',
       'objeto_del_contrato_a_la', 'ruta_proceso_en_secop_i']]

In [None]:
secop_II.columns

In [None]:
baseII=secop_II[["estado_contrato", "tipo_de_contrato", "modalidad_de_contratacion", "justificacion_modalidad_de", "destino_gasto", "nombre_representante_legal", "identificaci_n_representante_legal", "objeto_del_contrato", "prorrogado","dias_adicionados"]]

In [None]:
baseII.info()

In [None]:
baseI.info()

In [None]:
n = baseI.isna()== True 
baseI = baseI.fillna(0)
baseI.info()

In [None]:
n = baseII.isna()== True 
baseII = baseII.fillna(0)
baseII.info()

## MODELOS DE CORRELACIÓN DE VARIABLES CATEGÓRICAS PARA SECOP I 

### MODELO GET_DUMMIES

In [None]:
dataI = pd.get_dummies(baseI)

# calcular la matriz de correlación de Pearson
correlation_matrixI = dataI.corr(method='pearson')

# imprimir matriz de correlación
sns.heatmap(correlation_matrixI, vmin=-1, vmax=1, annot=True)

### MODELO FACTORIZACIÓN DE ATRIBUTOS

In [None]:
# Codificación de las variables categoricas
baseI['estado_del_proceso'] = pd.factorize(baseI.estado_contrato)[0]
baseI['tipo_de_contrato'] = pd.factorize(baseI.tipo_de_contrato)[0]
baseI['modalidad_de_contratacion'] = pd.factorize(baseI.modalidad_de_contratacion)[0]
baseI['departamento_ejecucion'] = pd.factorize(baseI.departamento_ejecucion)[0]
baseI['nombre_grupo'] = pd.factorize(baseI.nombre_grupo)[0]
baseI['nombre_familia'] = pd.factorize(baseI.nombre_familia)[0]
baseI['nombre_clase'] = pd.factorize(baseI.nombre_clase)[0]
baseI['nom_razon_social_contratista'] = pd.factorize(baseI.nom_razon_social_contratista)[0]
baseI['identificacion_del_contratista'] = pd.factorize(baseI.identificacion_del_contratista)[0]
baseI['objeto_del_contrato_a_la'] = pd.factorize(baseI.objeto_del_contrato_a_la)[0]
baseI['identific_representante_legal'] = pd.factorize(baseI.identific_representante_legal)[0]
baseI['moneda'] = pd.factorize(baseI.moneda)[0]
baseI['id_adjudicacion'] = pd.factorize(baseI.id_adjudicacion)[0]

In [None]:
baseI

In [None]:
sns.heatmap(baseI.corr(), vmin=-1, vmax=1, annot=True)

En el anterior mapa de calor no encontramos, que todas las variables son independientes, con excepción de el nombre y la identificación del contratista, aunque existe cierta relación objetiva (>85%) entr el objeto del contrato y el estaod del mismo. Para nuestra variable de interés que es la catidad de dîas adicionados no parece haber una verdadera relación entre esta y las demás variables. Por lo que sin ser concluyente, puede decirse que no parecería haber una dependencia entre las prórrogas y la mayoría de los atributos de los contratos.

No obstante la factorización, no siempre es la mejor opción para verificar correlación entre variable categóricas. Por lo cual deben evaluarse nuevas formas de evaluación de la dependencia o no entre las variables del contrato y su prorrogación. 


### MODELO DE CLASIFICACIÓN POR EIGENVECTORES

In [None]:
S = baseI.cov()
eig_val, eig_vec = np.linalg.eig(S)
eig_val

eig_val_diag = np.diag(eig_val)
eig_val

In [None]:
vector = eig_val/sum(eig_val)
vector

In [None]:
eigenv=pd.DataFrame(eig_vec.dot(eig_val_diag).dot(eig_vec.T), columns= S.columns, index= S.index)

In [None]:
sns.pairplot(eigenv)

In [None]:
X = baseI[['estado_contrato','tipo_de_contrato', 'modalidad_de_contratacion','justificacion_modalidad_de','destino_gasto', 'nombre_representante_legal', 'identificaci_n_representante_legal', 'objeto_del_contrato','prorrogado']]
y = (baseI.dias_adicionados)

In [None]:
pca = PCA(n_components=4)
>>> pca.fit(X)

## MODELOS DE CORRELACIÓN DE VARIABLES CATEGÓRICAS PARA SECOP II

### MODELO GET_DUMMIES

In [None]:
dataII = pd.get_dummies(baseII)

# calcular la matriz de correlación de Pearson
correlation_matrixII = dataII.corr(method='pearson')

# Graficar matriz de correlación
sns.heatmap(correlation_matrixII, vmin=-1, vmax=1, annot=True)

### MODELO FACTORIZACIÓN DE ATRIBUTOS

In [None]:
# Codificación de las variables categoricas
baseII['estado_contrato'] = pd.factorize(baseII.estado_contrato)[0]
baseII['tipo_de_contrato'] = pd.factorize(baseII.tipo_de_contrato)[0]
baseII['modalidad_de_contratacion'] = pd.factorize(baseII.modalidad_de_contratacion)[0]
baseII['justificacion_modalidad_de'] = pd.factorize(baseII.justificacion_modalidad_de)[0]
baseII['destino_gasto'] = pd.factorize(baseII.destino_gasto)[0]
baseII['nombre_representante_legal'] = pd.factorize(baseII.nombre_representante_legal)[0]
baseII['objeto_del_contrato'] = pd.factorize(baseII.objeto_del_contrato)[0]
baseII['identificaci_n_representante_legal'] = pd.factorize(baseII.identificaci_n_representante_legal)[0]

In [None]:
baseII

In [None]:
sns.heatmap(baseII.corr(), vmin=-1, vmax=1, annot=True)

Efectuando la selección de atributos principales encontramos que los eigenvalores diagonales de la matriz de covarianzas, muestra importancia superior en el atriubuto "destino del gasto" como componente principal de la matriz para explicar los otros atributos. 

In [None]:
fig, ax = plt.subplots()    
ax.plot(pca.explained_variance_)
ax.xaxis.set_major_locator
ax.set_xlabel('Principal Component')
ax.set_ylabel('Eigenvalue')
plt.xticks(np.arange(9), np.arange(1, 10))
ax.title.set_text('Componentes principales')
plt.show()


In [None]:
profile = ProfileReport(baseII, title = "Profiling Report", explorative = True)
profile.to_widgets()