In [467]:
import pandas as pd
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import pickle
import joblib

In [468]:
drop = ['NormalizedDelay','Unnamed: 0', 'Nombre Entidad','Dias Adicionados', 
        'Fecha de Inicio del Contrato', 'Fecha de Fin del Contrato']

df = pd.read_csv('dash_app/assets/csv/SECOP_Electronicos_Cleaned.csv').drop(drop, axis=1)

In [469]:
print('The shape of the dataset result of data cleaning is : ' + str(df.shape))

The shape of the dataset result of data cleaning is : (1562161, 28)


In [470]:
#Convert the variables to its corresponding data type
cat_cols = ['Departamento', 'Orden', 'Sector', 'Rama','Entidad Centralizada', 'Estado Contrato', 'Tipo de Contrato', 'Modalidad de Contratacion',
            'Es Grupo','Es Pyme', 'Destino Gasto', 'EsPostConflicto','Obligaciones Postconsumo','Obligación Ambiental', 'Delay']
cat_values = {key:'category' for key in cat_cols}
df = df.astype(cat_values)

In [None]:
y = df['Delay'].astype('category')

X = df.drop(['Delay'], axis=1)

In [None]:
#Train Test Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [None]:
# Importación y definición de modelo XGBClassifier

from xgboost import XGBClassifier
from sklearn import metrics 

clf = XGBClassifier(tree_method="hist", enable_categorical=True)
# Entrenamiento (fit) y desempeño del modelo XGBClassifier
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [None]:
metrics.f1_score(y_pred, y_test, average= 'macro')

In [None]:
pickle.dump(clf, open('dash_app/assets/model/clf_model.pkl', 'wb'))

In [473]:
# Asi lo cargas
pickled_model = pickle.load(open('dash_app/assets/model/model_downsampling.pkl', 'rb'))
job_model = joblib.load(open('dash_app/assets/model/model_downsampling.pkl', 'rb'))
#pickled_model = pickle.load(open('dash_app/assets/model/clf_model.pkl', 'rb'))
# pickled_model.predict(X_test)

# Prueba con PKL para un contrato

In [472]:
input_data = {'Departamento': 'Bogotá, D.C.', 
              'Orden': 'Territorial', 
              'Sector': 'Salud y Protección Social', 
              'Rama': 'Ejecutivo', 
              'Entidad Centralizada': 'Descentralizada', 
              'Estado Contrato': 'Modificado', 
              'Tipo de Contrato': 'Prestación de servicios', 
              'Modalidad de Contratacion': 'Contratación régimen especial', 
              'Es Grupo': 'No', 
              'Es Pyme': 'No', 
              'Obligación Ambiental': 'No', 
              'Obligaciones Postconsumo': 'No', 
              'Valor del Contrato': 14248500, 
              'Valor de pago adelantado': 0, 
              'Valor Facturado': 0, 
              'Valor Pendiente de Pago': 14248500, 
              'Valor Amortizado': 0,           
              'EsPostConflicto': 'No', 
              'Destino Gasto': 'Funcionamiento',
              'PGN': 0, 
              'SGP': 0, 
              'SGR': 0, 
              'RP_AGR': 0, 
              'RP_NO_AGR': 0, 
              'RC': 0,
              'Days_to_end_of_year': 312
             }

#df_input = pd.DataFrame([input_data])
df_input = pd.DataFrame.from_dict(input_data, orient='index').T

cat_cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada', 'Estado Contrato', 'Tipo de Contrato', 
            'Modalidad de Contratacion', 'Es Grupo','Es Pyme', 'Destino Gasto', 'EsPostConflicto',
            'Obligaciones Postconsumo', 'Obligación Ambiental']

cat_values = {key:'category' for key in cat_cols}
df_input = df_input.astype(cat_values)

cols = df_input.select_dtypes(include='object').columns
df_input[cols] = df_input[cols].astype('int')

In [474]:
job_model.predict(df_input)

array([0], dtype=int64)

In [522]:
pickled_model.predict(df_input)

array([0], dtype=int64)

# Prueba con PKL para n contratos

In [582]:
cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada',
       'Estado Contrato', 'Tipo de Contrato', 'Modalidad de Contratacion',
       'Es Grupo', 'Es Pyme', 'Obligación Ambiental',
       'Obligaciones Postconsumo', 'Valor del Contrato',
       'Valor de pago adelantado', 'Valor Facturado',
       'Valor Pendiente de Pago', 'Valor Amortizado', 'EsPostConflicto',
       'Destino Gasto', 'PGN', 'SGP', 'SGR', 'RP_AGR', 'RP_NO_AGR', 'RC', 'Days_to_end_of_year']
new_df = df[df["Delay"] == 3][cols].head(1)

In [575]:
pickled_model.predict(new_df)

array([3], dtype=int64)

In [583]:
index = new_df.iloc[[0]].index
new_df.loc[index, "Departamento"] = "Bogotá, D.C."
new_df.loc[index, "Orden"] = "Territorial"
new_df.loc[index, "Sector"] = "Salud y Protección Social"
new_df.loc[index, "Rama"] = "Ejecutivo"
new_df.loc[index, "Entidad Centralizada"] = "Descentralizada"
new_df.loc[index, "Estado Contrato"] = "Modificado"
new_df.loc[index, "Tipo de Contrato"] = "Prestación de servicios"
new_df.loc[index, "Modalidad de Contratacion"] = "Contratación régimen especial"
new_df.loc[index, "Es Grupo"] = "No"
new_df.loc[index, "Es Pyme"] = "No"
new_df.loc[index, "Obligación Ambiental"] = "No"
new_df.loc[index, "Obligaciones Postconsumo"] = "No"
new_df.loc[index, "Valor del Contrato"] = 14248500
new_df.loc[index, "Valor de pago adelantado"] = 0
new_df.loc[index, "Valor Facturado"] = 0
new_df.loc[index, "Valor Pendiente de Pago"] = 14248500
new_df.loc[index, "Valor Amortizado"] = 0
new_df.loc[index, "EsPostConflicto"] = "No"
new_df.loc[index, "Destino Gasto"] = None
new_df.loc[index, "PGN"] = 0
new_df.loc[index, "SGP"] = 0
new_df.loc[index, "SGR"] = 0
new_df.loc[index, "RP_AGR"] = 0
new_df.loc[index, "RP_NO_AGR"] = 0
new_df.loc[index, "RC"] = 0
new_df.loc[index, "Days_to_end_of_year"] = 312

#new_df.info()

In [581]:
pickled_model.predict(new_df)[0]

3

**NEW**

In [None]:
pd.Categorical(new_df["Estado Contrato"]).unique()

In [None]:
nums = [1,2,4]
val = [1]

[x == y for x in nums for y in val]

In [None]:
cat_cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada', 'Estado Contrato', 'Tipo de Contrato', 
            'Modalidad de Contratacion', 'Es Grupo','Es Pyme', 'Destino Gasto', 'EsPostConflicto',
            'Obligaciones Postconsumo', 'Obligación Ambiental']

regnum = new_df.shape[0]
new_df.loc[regnum] = new_df.iloc[regnum-1]

for col in cat_cols:
    cats = np.array(pd.Categorical(new_df[col]).unique())
    choosen_cat = np.array([x == y for x in cats for y in df_input[col]])
    #print(cats[choosen_cat])
    #print(cats[choosen_cat][0])
    #new_df.iloc[new_df.shape[0]-1, col] = cats[choosen_cat][0]
    new_df[col][regnum].replace(cats[choosen_cat][0])

new_df

In [466]:
cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada',
       'Estado Contrato', 'Tipo de Contrato', 'Modalidad de Contratacion',
       'Es Grupo', 'Es Pyme', 'Obligación Ambiental',
       'Obligaciones Postconsumo', 'Valor del Contrato',
       'Valor de pago adelantado', 'Valor Facturado',
       'Valor Pendiente de Pago', 'Valor Amortizado', 'EsPostConflicto',
       'Destino Gasto', 'PGN', 'SGP', 'SGR', 'RP_AGR', 'RP_NO_AGR', 'RC', 'Days_to_end_of_year']
values = [['Bogotá, D.C.'], ['Territorial'], ['Salud y Protección Social'], ['Ejecutivo'], ['Descentralizada'], ['Modificado'], ['Prestación de servicios'], ['Contratación régimen especial'], ['No'], ['No'], ['No'], ['No'], [14248500], [0], [0], [14248500], [0], ['No'], ['Funcionamiento'], [0], [0], [0], [0], [0], [0], [312]]

df_input = pd.DataFrame(values).T
df_input.columns = cols

cat_cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada', 'Estado Contrato', 'Tipo de Contrato', 
            'Modalidad de Contratacion', 'Es Grupo','Es Pyme', 'Destino Gasto', 'EsPostConflicto',
            'Obligaciones Postconsumo', 'Obligación Ambiental']

cat_values = {key:'category' for key in cat_cols}
df_input = df_input.astype(cat_values)

cols = df_input.select_dtypes(include='object').columns
df_input[cols] = df_input[cols].astype('int')

#df_input.info()
pickled_model.predict(df_input)[0]

0

In [None]:
from pandas.api.types import union_categoricals

cat_cols = ['Departamento', 'Orden', 'Sector', 'Rama', 'Entidad Centralizada', 'Estado Contrato', 'Tipo de Contrato', 
            'Modalidad de Contratacion', 'Es Grupo','Es Pyme', 'Destino Gasto', 'EsPostConflicto',
            'Obligaciones Postconsumo', 'Obligación Ambiental']

uc = {}

for col in cat_cols:
    uc[col] = union_categoricals(new_df[col], df_input[col])
    new_df[col] = pd.Categorical(new_df[col], categories=uc[col].categories)
    df_input[col] = pd.Categorical(df_input[col], categories=uc[col].categories)

#new_df = pd.concat(new_df, df_input)
#new_df.info()