In [88]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
from pandas_profiling import ProfileReport
from pandas_profiling.utils.cache import cache_file
import ppscore as pps
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.tree import DecisionTreeClassifier
import itertools
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier

# Análisis exploratorio "Ordenes de compra PORTAL 1K"

El objetivo del análisis exploratorio de datos es resumir y visualizar las principales características del conjunto de datos para extraer, entender y establecer relación entre variables. Busca determinar las características de mayor impacto a partir de la aplicación de técnicas como:

<ol>
  <li> Estadística descriptiva</li>
  <li> Agrupamiento</li>  
  <li> Correlación</li>
  <li> Análisis de variaciones</li>
</ol>

# Acerca del DataSet

El DataSet "Ordenes de compra PORTAL 1K" corresponde a una muestra de transacciones que realizan los compradores a los proveedores en el portal para los diferentes productos y servicios. Contiene tanto variables numéricas como categóricas. La información de las variables y su contenido se presentan a continuación:

 NÚMERO PEDIDO           
 ORDEN NÚMERO           
 FECHA ORDEN            
 FECHA ENTREGA          
 FECHA APROBACIÓN       
 CATEGORÍA              
 SUBCATEGORÍA           
 PROVEEDOR              
 USUARIO                
 USUARIO APROBADOR      
 DIRECCIÓN DE  ENTREGA  
 DIRECCIÓN FACTURACIÓN  
 CENTRO COSTO           
 PRESUPUESTO            
 comPAÑÍA comPRADORA    
 ESTADO                 
 PRODUCTO O SERVICIO    
 CÓDIGO PRODUCTO        
 CANTIDAD PEDIDA        
 CANTIDAD RECIBIDA      
 PRECIO UNITARIO        
 PRECIO UNITARIO + IVA  
 IVA                    
 TOTAL SIN IVA          
 TOTAL + IVA            
 FECHA ÚLTIMO MOVIMIENTO


In [28]:
#Read Dataset
#pd.set_option("display.max_columns",40)
df = pd.read_csv(r"D:\Ordenes_de_compra_PORTAL_1K.csv", sep=',', header= 0, na_values = ["  "],encoding='latin-1')
df.head()

Unnamed: 0,NÚMERO PEDIDO,ORDEN NÚMERO,FECHA ORDEN,FECHA ENTREGA,FECHA APROBACION,CATEGORÍA,SUBCATEGORIA,PROVEEDOR,USUARIO,USUARIO APROBADOR,...,PRODUCTO O SERVICIO,CODIGO PORTAL,CANTIDAD PEDIDA,CANTIDAD RECIBIDA,PRECIO UNITARIO,PRECIO UNITARIO + IVA,IVA,TOTAL SIN IVA,TOTAL + IVA,FECHA ULTIMO MOVIMIENTO
0,# 49561,# 2582,11/10/2021,11/10/2021,11/10/2021,Eléctricos y Electrónicos,Lámparas y bombillas y componentes para lámparas,Proveedor 1,Usuario solicitante 1,Usuario Aprobador 1,...,PANEL LED SOBREPONER 24W REDONDO LUZ BLANCA,1.20E+12,2.0,,23364,27803,4439,46728,55606,11/10/2021
1,# 49560,# 2581,11/10/2021,11/11/2021,11/10/2021,Mercadeo y publicidad,Publicidad,Proveedor 2,Usuario solicitante 2,Usuario Aprobador 2,...,ACTIVIDADES COMERCIALES,1K15774,1.0,1.0,1476972,1757597,280625,1476972,1757597,11/10/2021
2,# 49559,# 2580,11/10/2021,11/10/2021,11/10/2021,Alimentos y Bebidas,Alimentos preparados y conservados,Proveedor 3,Usuario solicitante 3,Usuario Aprobador 3,...,Lasagna,1K7609,10.0,,155,155,0,155,155,11/10/2021
3,# 49558,# 1892,11/10/2021,11/12/2021,11/10/2021,Alimentos y Bebidas,Productos de carne y aves de corral,Proveedor 4,Usuario solicitante 4,Usuario Aprobador 4,...,Pecho de Res Limpio/Sin Grasa,1K15459,50.0,,22,22,0,1100000,1100000,11/10/2021
4,# 49557,# 1,11/10/2021,11/9/2021,11/10/2021,Imprenta y litografía,Otra,Proveedor 5,Usuario solicitante 5,Usuario Aprobador 5,...,"LIBRO CABEZA, CORAZON Y MANOS",1K15761,7.0,7.0,92084,10958,17496,644588,76706,11/10/2021


In [29]:
df.rename(columns={'NÚMERO PEDIDO': 'Numero_Pedido',
                  'ORDEN NÚMERO': 'Orden_Numero',
                  'FECHA ORDEN': 'Fecha_Orden',
                  'FECHA ENTREGA': 'Fecha_Entrega',
                  'FECHA APROBACION': 'Fecha_Aprobacion',
                  'CATEGORÍA': 'Categoria',
                  'SUBCATEGORIA': 'Subcategoria',
                  'PROVEEDOR': 'Proveedor',
                  'USUARIO': 'Usuario',
                  'USUARIO APROBADOR': 'Usuario_Aprobador',
                  'DIRECCION PEDIDO': 'Direccion_Pedido',
                  'DIRECCION FACTURACION': 'Direccion_Facturacion',
                  'CENTRO DE COSTOS': 'Centro_Costos',
                  'PRESUPUESTO': 'Presupuesto',
                  'PORTAL': 'Portal',
                  'ESTADO': 'Estado',
                  'PRODUCTO O SERVICIO': 'Producto_Servicio',
                  'CODIGO PORTAL': 'Codigo_Producto',
                  'CANTIDAD PEDIDA': 'Cantidad_Pedida',
                  'CANTIDAD RECIBIDA': 'Cantidad_Recibida',
                  'PRECIO UNITARIO': 'Precio_Unitario',
                  'PRECIO UNITARIO + IVA': 'Precio_Unitario_IVA',
                  'IVA': 'IVA',
                  'TOTAL SIN IVA': 'Total_Sin_IVA',
                  'TOTAL + IVA': 'Total_IVA',
                  'FECHA ULTIMO MOVIMIENTO': 'Fecha_Ultimo_Movimiento'}, inplace=True)

In [30]:
# cambio formato fechas
df['Fecha_Orden'] = pd.to_datetime(df['Fecha_Orden'], format = "%m/%d/%Y")
df['Fecha_Entrega'] = pd.to_datetime(df['Fecha_Entrega'], format = "%m/%d/%Y")
df['Fecha_Aprobacion'] = pd.to_datetime(df['Fecha_Aprobacion'], format = "%m/%d/%Y")

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23083 entries, 0 to 23082
Data columns (total 26 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Numero_Pedido            23083 non-null  object        
 1   Orden_Numero             23083 non-null  object        
 2   Fecha_Orden              23083 non-null  datetime64[ns]
 3   Fecha_Entrega            18770 non-null  datetime64[ns]
 4   Fecha_Aprobacion         21950 non-null  datetime64[ns]
 5   Categoria                23083 non-null  object        
 6   Subcategoria             23083 non-null  object        
 7   Proveedor                23083 non-null  object        
 8   Usuario                  23083 non-null  object        
 9   Usuario_Aprobador        21950 non-null  object        
 10  Direccion_Pedido         23083 non-null  object        
 11  Direccion_Facturacion    10828 non-null  object        
 12  Centro_Costos            16672 n

In [6]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Cantidad_Pedida,23083.0,191.208232,1946.639,0.27,2.0,7.0,40.0,120000.0
Cantidad_Recibida,16013.0,69.835325,1040.933,0.0,2.0,5.0,18.0,53620.0
Precio_Unitario,23083.0,59149.630767,633127.9,0.0,244.0,1706.0,22274.0,33242814.0
Precio_Unitario_IVA,23083.0,63580.384395,723950.2,0.0,103.0,833.0,9877.0,39558949.0
IVA,23083.0,9264.85942,101156.4,0.0,95.0,781.0,5067.0,6316135.0
Total_Sin_IVA,23083.0,430121.193216,3123982.0,0.0,816.0,32269.0,187669.5,299185326.0
Total_IVA,23083.0,477529.76004,3545482.0,0.0,515.0,11995.0,146054.5,356030538.0


In [None]:
profile = ProfileReport(df, title="Pandas Profiling Report", explorative=True)

In [None]:
profile

In [31]:
plt.figure(figsize=(20,10))
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True)
#plt.show()
plt.savefig("matixdf_full.png")

In [32]:
# campos eliminados despues de revision de matrix de correlacion
df.drop(["Precio_Unitario_IVA","Cantidad_Recibida", "Total_Sin_IVA", "IVA", "Codigo_Producto", "Direccion_Facturacion", "Centro_Costos", "Numero_Pedido", "Orden_Numero"], axis=1, inplace = True)

#### Data Cleaning

In [34]:
d3_Cantidad_Pedida = df['Cantidad_Pedida'].mean() + 3*df['Cantidad_Pedida'].std()
d3_Precio_Unitario = df['Precio_Unitario'].mean() + 3*df['Precio_Unitario'].std()
d3_Total_IVA = df['Total_IVA'].mean() + 3*df['Total_IVA'].std()

In [35]:
df = df[(df['Cantidad_Pedida'] < d3_Cantidad_Pedida) & (df['Precio_Unitario'] < d3_Precio_Unitario) &  (df['Total_IVA'] < d3_Total_IVA)]

In [10]:
profile2 = ProfileReport(df, title="Pandas Profiling Report", explorative=True)
profile2

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [None]:
df.groupby(["Estado"]).Cantidad_Pedida.describe()

In [None]:
df.groupby(["Estado"]).Precio_Unitario.describe()

#### Feature Engineering

In [None]:
-Dias_Trasncurridos_Entrega: Fecha Entrega vs Fecha Orden
-Convertir estado: Rechazado a 1 y el resto a 0

In [36]:
df["Dias_Trasncurridos_Entrega"] = (df["Fecha_Entrega"] - df["Fecha_Orden"]).dt.days

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [37]:
df

Unnamed: 0,Fecha_Orden,Fecha_Entrega,Fecha_Aprobacion,Categoria,Subcategoria,Proveedor,Usuario,Usuario_Aprobador,Direccion_Pedido,Presupuesto,Portal,Estado,Producto_Servicio,Cantidad_Pedida,Precio_Unitario,Total_IVA,Fecha_Ultimo_Movimiento,Dias_Trasncurridos_Entrega
0,2021-11-10,2021-11-10,2021-11-10,Eléctricos y Electrónicos,Lámparas y bombillas y componentes para lámparas,Proveedor 1,Usuario solicitante 1,Usuario Aprobador 1,Direccion 1,Presupuesto 1,Portal comprador 1,Orden en Proceso,PANEL LED SOBREPONER 24W REDONDO LUZ BLANCA,2.0,23364,55606,11/10/2021,0.0
1,2021-11-10,2021-11-11,2021-11-10,Mercadeo y publicidad,Publicidad,Proveedor 2,Usuario solicitante 2,Usuario Aprobador 2,Direccion 1,Presupuesto 2,Portal comprador 1,Recibido,ACTIVIDADES COMERCIALES,1.0,1476972,1757597,11/10/2021,1.0
2,2021-11-10,2021-11-10,2021-11-10,Alimentos y Bebidas,Alimentos preparados y conservados,Proveedor 3,Usuario solicitante 3,Usuario Aprobador 3,Direccion 2,Presupuesto 3,Portal comprador 1,Orden en Proceso,Lasagna,10.0,155,155,11/10/2021,0.0
3,2021-11-10,2021-11-12,2021-11-10,Alimentos y Bebidas,Productos de carne y aves de corral,Proveedor 4,Usuario solicitante 4,Usuario Aprobador 4,Direccion 3,Presupuesto 4,Portal comprador 2,Orden en Proceso,Pecho de Res Limpio/Sin Grasa,50.0,22,1100000,11/10/2021,2.0
4,2021-11-10,2021-11-09,2021-11-10,Imprenta y litografía,Otra,Proveedor 5,Usuario solicitante 5,Usuario Aprobador 5,Direccion 4,,Portal comprador 3,Recibido,"LIBRO CABEZA, CORAZON Y MANOS",7.0,92084,76706,11/10/2021,-1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23078,2018-04-30,NaT,2018-05-01,"Aseo, Cafetería y Oficina",Elementos de papelería,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Grapadora,8.0,33613,320,5/1/2018,
23079,2018-04-30,NaT,2018-05-01,"Aseo, Cafetería y Oficina",Elementos de papelería,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Lapicero Negro,1.0,588,700,5/1/2018,
23080,2018-04-30,NaT,2018-05-01,Moda y accesorios,Calzado,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Botas,3.0,29412,105,5/1/2018,
23081,2018-04-30,NaT,2018-04-30,Moda y accesorios,Calzado,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Botas,4.0,29412,140,5/1/2018,


In [38]:
## - Convertir estado: Rechazado a 1 y el resto a 0
df['Estado_label'] = 0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [39]:
df.loc[df['Estado'] == 'Orden Rechazada', 'Estado_label'] = 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22731 entries, 0 to 23082
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Fecha_Orden                 22731 non-null  datetime64[ns]
 1   Fecha_Entrega               18557 non-null  datetime64[ns]
 2   Fecha_Aprobacion            21609 non-null  datetime64[ns]
 3   Categoria                   22731 non-null  object        
 4   Subcategoria                22731 non-null  object        
 5   Proveedor                   22731 non-null  object        
 6   Usuario                     22731 non-null  object        
 7   Usuario_Aprobador           21609 non-null  object        
 8   Direccion_Pedido            22731 non-null  object        
 9   Presupuesto                 18261 non-null  object        
 10  Portal                      22731 non-null  object        
 11  Estado                      22731 non-null  object    

In [64]:
df

Unnamed: 0,Fecha_Orden,Fecha_Entrega,Fecha_Aprobacion,Categoria,Subcategoria,Proveedor,Usuario,Usuario_Aprobador,Direccion_Pedido,Presupuesto,Portal,Estado,Producto_Servicio,Cantidad_Pedida,Precio_Unitario,Precio_Unitario_IVA,Total_IVA,Fecha_Ultimo_Movimiento,Dias_Trasncurridos_Entrega,Estado_label
0,2021-11-10,2021-11-10,2021-11-10,Eléctricos y Electrónicos,Lámparas y bombillas y componentes para lámparas,Proveedor 1,Usuario solicitante 1,Usuario Aprobador 1,Direccion 1,Presupuesto 1,Portal comprador 1,Orden en Proceso,PANEL LED SOBREPONER 24W REDONDO LUZ BLANCA,2.0,23364,27803,55606,11/10/2021,0.0,0
1,2021-11-10,2021-11-11,2021-11-10,Mercadeo y publicidad,Publicidad,Proveedor 2,Usuario solicitante 2,Usuario Aprobador 2,Direccion 1,Presupuesto 2,Portal comprador 1,Recibido,ACTIVIDADES COMERCIALES,1.0,1476972,1757597,1757597,11/10/2021,1.0,0
2,2021-11-10,2021-11-10,2021-11-10,Alimentos y Bebidas,Alimentos preparados y conservados,Proveedor 3,Usuario solicitante 3,Usuario Aprobador 3,Direccion 2,Presupuesto 3,Portal comprador 1,Orden en Proceso,Lasagna,10.0,155,155,155,11/10/2021,0.0,0
3,2021-11-10,2021-11-12,2021-11-10,Alimentos y Bebidas,Productos de carne y aves de corral,Proveedor 4,Usuario solicitante 4,Usuario Aprobador 4,Direccion 3,Presupuesto 4,Portal comprador 2,Orden en Proceso,Pecho de Res Limpio/Sin Grasa,50.0,22,22,1100000,11/10/2021,2.0,0
4,2021-11-10,2021-11-09,2021-11-10,Imprenta y litografía,Otra,Proveedor 5,Usuario solicitante 5,Usuario Aprobador 5,Direccion 4,,Portal comprador 3,Recibido,"LIBRO CABEZA, CORAZON Y MANOS",7.0,92084,10958,76706,11/10/2021,-1.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23078,2018-04-30,NaT,2018-05-01,"Aseo, Cafetería y Oficina",Elementos de papelería,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Grapadora,8.0,33613,40,320,5/1/2018,,0
23079,2018-04-30,NaT,2018-05-01,"Aseo, Cafetería y Oficina",Elementos de papelería,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Lapicero Negro,1.0,588,700,700,5/1/2018,,0
23080,2018-04-30,NaT,2018-05-01,Moda y accesorios,Calzado,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Botas,3.0,29412,35,105,5/1/2018,,0
23081,2018-04-30,NaT,2018-04-30,Moda y accesorios,Calzado,Proveedor 229,Usuario solicitante 131,Usuario Aprobador 70,Direccion 81,Presupuesto 918,Portal comprador 8,Recibido,Botas,4.0,29412,35,140,5/1/2018,,0


In [62]:
df_encoder = df.copy()

In [63]:
## cambio de variables categoricas con labelencoder
lb_encoder = LabelEncoder()
df_encoder["Categoria_label_encode"] = lb_encoder.fit_transform(df_encoder["Categoria"])
df_encoder["Subcategoria_label_encode"] = lb_encoder.fit_transform(df_encoder["Subcategoria"])
df_encoder["Proveedor_label_encode"] = lb_encoder.fit_transform(df_encoder["Proveedor"])
df_encoder["Usuario_label_encode"] = lb_encoder.fit_transform(df_encoder["Usuario"])
df_encoder["Usuario_Aprobador_label_encode"] = lb_encoder.fit_transform(df_encoder["Usuario_Aprobador"])
df_encoder["Direccion_Pedido_label_encode"] = lb_encoder.fit_transform(df_encoder["Direccion_Pedido"])
df_encoder["Presupuesto_label_encode"] = lb_encoder.fit_transform(df_encoder["Presupuesto"])
df_encoder["Portal_label_encode"] = lb_encoder.fit_transform(df_encoder["Portal"])
df_encoder["Producto_Servicio_encode"] = lb_encoder.fit_transform(df_encoder["Producto_Servicio"])

In [50]:
plt.figure(figsize=(20,10))
corr_matrix = df_encoder.corr()
sns.heatmap(corr_matrix, annot=True)
#plt.show()
plt.savefig("matixdf_encode.png")

In [66]:
df_encoder.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22731 entries, 0 to 23082
Data columns (total 13 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Cantidad_Pedida                 22731 non-null  float64
 1   Precio_Unitario                 22731 non-null  int64  
 2   Total_IVA                       22731 non-null  int64  
 3   Dias_Trasncurridos_Entrega      18557 non-null  float64
 4   Estado_label                    22731 non-null  int64  
 5   Subcategoria_label_encode       22731 non-null  int32  
 6   Proveedor_label_encode          22731 non-null  int32  
 7   Usuario_label_encode            22731 non-null  int32  
 8   Usuario_Aprobador_label_encode  22731 non-null  int32  
 9   Direccion_Pedido_label_encode   22731 non-null  int32  
 10  Presupuesto_label_encode        22731 non-null  int32  
 11  Portal_label_encode             22731 non-null  int32  
 12  Producto_Servicio_encode        

In [65]:
df_encoder = df_encoder.drop(['Categoria_label_encode','Fecha_Orden','Fecha_Entrega','Fecha_Aprobacion','Categoria','Subcategoria','Proveedor','Usuario','Usuario_Aprobador','Direccion_Pedido','Presupuesto','Portal','Estado','Producto_Servicio','Fecha_Ultimo_Movimiento'], axis=1)

In [67]:
#features to X
df_features = df_encoder.loc[:, df_encoder.columns != 'Estado_label']
X = np.asarray(df_features)
X = np.nan_to_num(X)

In [68]:
#labels (target) to y
y = np.asarray(df_encoder['Estado_label'])
y [0:5]

array([0, 0, 0, 0, 0], dtype=int64)

In [69]:
#Split Train - Test. 80%-20%
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2,random_state=2, stratify=df_encoder["Estado_label"])
print ('Train set:', X_train.shape,  y_train.shape)
print ('Test set:', X_test.shape,  y_test.shape)

Train set: (18184, 12) (18184,)
Test set: (4547, 12) (4547,)


In [80]:
#develop matrix
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

In [71]:
drugTree = DecisionTreeClassifier(criterion="entropy", max_depth = 4, class_weight="balanced")
drugTree.fit(X_train,y_train)

DecisionTreeClassifier(class_weight='balanced', criterion='entropy',
                       max_depth=4)

In [72]:
predTree = drugTree.predict(X_test)
pscores_tree = drugTree.predict_proba(X_test)

In [82]:
# Compute confusion matrix
y_pred_DT = pscores_tree[:,1]>0.7
cnf_matrix = confusion_matrix(y_test, y_pred_DT, labels = [0,1])
np.set_printoptions(precision=2)

print (classification_report(y_test, y_pred_DT))

# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes = [0,1], normalize= False,  title='Confusion matrix')
plt.savefig("matrix_DT.png")

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      4346
           1       0.99      0.99      0.99       201

    accuracy                           1.00      4547
   macro avg       0.99      0.99      0.99      4547
weighted avg       1.00      1.00      1.00      4547

Confusion matrix, without normalization
[[4344    2]
 [   2  199]]


In [86]:
# DT
roc_RF = metrics.roc_curve(y_test, pscores_tree[:,1])
auc_RF = metrics.auc( roc_RF[0], roc_RF[1] )


plt.figure(figsize=(5.5,5.5))
plt.plot(roc_RF[0], roc_RF[1], lw=1,label=f"ROC random forest (AUC = {auc_RF:0.2f})")

plt.plot([0, 1], [0, 1], color='navy', lw=1.4, linestyle='--', label='Random guess')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curves')
plt.legend(loc='lower right')
plt.gca().set_aspect(1)
plt.grid(ls='--', alpha=0.6, lw=0.4)
plt.savefig("ROC.png")

In [89]:
#RF-
forest_class = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=4)
forest_class.fit(X_train,y_train)

RandomForestClassifier(max_depth=3, n_estimators=10, random_state=4)

In [90]:
predforest = forest_class.predict(X_test)
pscores_forest = forest_class.predict_proba(X_test)

In [91]:
# Compute confusion matrix
y_pred_forest = pscores_forest[:,1]>0.7
cnf_matrix = confusion_matrix(y_test, y_pred_forest, labels = [0,1])
np.set_printoptions(precision=2)

print (classification_report(y_test, y_pred_forest))

# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes = [0,1], normalize= False,  title='Confusion matrix')
plt.savefig("matrix_forest.png")

              precision    recall  f1-score   support

           0       0.98      1.00      0.99      4346
           1       1.00      0.49      0.66       201

    accuracy                           0.98      4547
   macro avg       0.99      0.75      0.82      4547
weighted avg       0.98      0.98      0.97      4547

Confusion matrix, without normalization
[[4346    0]
 [ 102   99]]


In [None]:
# DT
roc_forest = metrics.roc_curve(y_test, pscores_forest[:,1])
auc_forest = metrics.auc( roc_forest[0], roc_forest[1] )


plt.figure(figsize=(5.5,5.5))
plt.plot(roc_forest[0], roc_forest[1], lw=1,label=f"ROC random forest (AUC = {auc_RF:0.2f})")

plt.plot([0, 1], [0, 1], color='navy', lw=1.4, linestyle='--', label='Random guess')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curves')
plt.legend(loc='lower right')
plt.gca().set_aspect(1)
plt.grid(ls='--', alpha=0.6, lw=0.4)
plt.savefig("ROC_Forest.png")

In [None]:
train_data = lgb.Dataset(X_train, label=y_train)
valid_data = lgb.Dataset(X_valid, label=y_valid, reference=train_data)

In [18]:
#ligth gb      
    
# Split training data in to training and validation sets.
# Validation set is used for early stopping.
    
X = df.drop(['Categoria_label_encode','Fecha_Orden','Fecha_Entrega','Fecha_Aprobacion','Categoria','Subcategoria','Proveedor','Usuario','Usuario_Aprobador','Direccion_Pedido','Presupuesto','Portal','Estado','Producto_Servicio','Fecha_Ultimo_Movimiento','Estado_label','Usuario_Aprobador_label_encode'], axis=1)
#X = df.drop(['Fecha_Orden','Fecha_Entrega','Fecha_Aprobacion','Fecha_Ultimo_Movimiento','Estado_label'], axis=1)
y = df['Estado_label']
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.4, random_state=1234)
train_data = lgb.Dataset(X_train, label=y_train)
valid_data = lgb.Dataset(X_valid, label=y_valid, reference=train_data)

In [19]:
X

Unnamed: 0,Cantidad_Pedida,Precio_Unitario,Precio_Unitario_IVA,Total_IVA,Dias_Trasncurridos_Entrega,Categoria_label_encode,Subcategoria_label_encode,Proveedor_label_encode,Usuario_label_encode,Direccion_Pedido_label_encode,Presupuesto_label_encode,Portal_label_encode,Producto_Servicio_encode
0,2.0,23364,27803,55606,0.0,10,70,0,0,0,0,0,2405
1,1.0,1476972,1757597,1757597,1.0,21,106,105,46,0,101,0,426
2,10.0,155,155,155,0.0,1,6,207,57,87,207,0,2111
3,50.0,22,22,1100000,2.0,1,100,314,68,98,305,10,2629
4,7.0,92084,10958,76706,-1.0,16,88,330,79,109,875,20,2043
...,...,...,...,...,...,...,...,...,...,...,...,...,...
23078,8.0,33613,40,320,,3,39,132,34,154,863,29,1802
23079,1.0,588,700,700,,3,39,132,34,154,863,29,2110
23080,3.0,29412,35,105,,24,18,132,34,154,863,29,880
23081,4.0,29412,35,140,,24,18,132,34,154,863,29,880


In [20]:
y_train.value_counts()

0    13029
1      607
Name: Estado_label, dtype: int64

In [21]:
y_valid.value_counts() 

0    8696
1     396
Name: Estado_label, dtype: int64

In [22]:
X_valid

Unnamed: 0,Cantidad_Pedida,Precio_Unitario,Precio_Unitario_IVA,Total_IVA,Dias_Trasncurridos_Entrega,Categoria_label_encode,Subcategoria_label_encode,Proveedor_label_encode,Usuario_label_encode,Direccion_Pedido_label_encode,Presupuesto_label_encode,Portal_label_encode,Producto_Servicio_encode
9737,5.0,3282,3282,1641,1.0,1,29,144,68,98,875,10,2984
909,1.0,2311,27501,27501,4.0,11,58,228,1,87,550,0,2715
8557,2.0,83294,83294,166588,2.0,1,105,303,68,98,875,10,1280
8687,5.0,6944,6944,34719,1.0,1,6,163,98,115,875,10,1848
6461,1.0,95,11305,11305,3.0,11,58,65,86,120,341,25,2506
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7303,0.5,8,8,4,1.0,1,142,163,98,98,875,10,1357
17534,2.0,86555,103,206,0.0,35,115,210,25,44,648,15,255
465,4.0,31595,31595,12638,10.0,3,36,340,0,0,325,0,2855
5935,1.0,600,714,714,0.0,21,106,343,56,120,249,25,1871


In [22]:
## parametros para el modelo lightGBM search 
SEARCH_PARAMS = {'learning_rate': 0.4,
                'max_depth': 15,
                'num_leaves': 32,
                'feature_fraction': 0.8,
                'subsample': 0.2}

FIXED_PARAMS={'objective': 'binary',
             'metric': 'auc',
             'is_unbalance':True,
             'bagging_freq':5,
             'boosting':'dart',
             'num_boost_round':300,
             'early_stopping_rounds':30}



In [23]:
params = {'metric':FIXED_PARAMS['metric'],
             'objective':FIXED_PARAMS['objective'],**SEARCH_PARAMS}

In [24]:
model = lgb.train(params, train_data,                     
                     valid_sets=[valid_data],
                     num_boost_round=FIXED_PARAMS['num_boost_round'],
                     early_stopping_rounds=FIXED_PARAMS['early_stopping_rounds'],
                     valid_names=['valid'])

[LightGBM] [Info] Number of positive: 607, number of negative: 13029
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2040
[LightGBM] [Info] Number of data points in the train set: 13636, number of used features: 13
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.044515 -> initscore=-3.066404
[LightGBM] [Info] Start training from score -3.066404
[1]	valid's auc: 0.894652
Training until validation scores don't improve for 30 rounds
[2]	valid's auc: 0.933864
[3]	valid's auc: 0.940115
[4]	valid's auc: 0.946928
[5]	valid's auc: 0.94853
[6]	valid's auc: 0.948628
[7]	valid's auc: 0.948292
[8]	valid's auc: 0.948895
[9]	valid's auc: 0.951911
[10]	valid's auc: 0.952909
[11]	valid's auc: 0.95272
[12]	valid's auc: 0.953623
[13]	valid's auc: 0.953698
[14]	valid's auc: 0.952998
[15]	valid's auc: 0.95457
[16]	valid's auc: 0.955084
[17]	valid's auc: 0.954946
[18]	valid's auc: 0.955193
[19]	valid's auc: 0.955352
[20]	valid's auc: 0.954964
[21]	valid's auc: 0.954



In [25]:
score = model.best_score['valid']['auc']

In [26]:
score

0.9554612070567682

In [27]:
## score de test
y_predict = model.predict(X_valid)


In [28]:
y_predict

array([1.45589865e-03, 9.00630734e-03, 4.38337001e-02, ...,
       2.63081754e-02, 7.79240876e-04, 2.09788239e-05])

In [29]:
# conocer el numero de iteraciones realizadas por el modelo
num_iteration =model.best_iteration
num_iteration

26

In [30]:
len(y_predict)

9092

In [33]:
len(X_valid)

9092

In [31]:
#convert into binary values	
for i in range(0,len(X_valid)):	
    if y_predict[i]>=.5:       # setting threshold to .5	
            y_predict[i]=1
    else:
        y_predict[i]=0

In [32]:
y_predict

array([0., 0., 0., ..., 0., 0., 0.])

In [33]:
accuracy=accuracy_score(y_valid,y_predict)

In [34]:
accuracy

0.9708534975802904

In [35]:
print(classification_report(y_valid, y_predict))

              precision    recall  f1-score   support

           0       0.98      0.99      0.98      8696
           1       0.73      0.53      0.61       396

    accuracy                           0.97      9092
   macro avg       0.85      0.76      0.80      9092
weighted avg       0.97      0.97      0.97      9092



In [50]:
#confusion Matrix
plt.figure(figsize = (10,7))
cm1 =confusion_matrix(y_valid, y_predict)
sns.heatmap(cm1, annot=True)

<AxesSubplot:>

In [49]:
print (cm1)

[[8616   80]
 [ 185  211]]


In [44]:
cm1

array([[8616,   80],
       [ 185,  211]], dtype=int64)

In [None]:
# Set params
# Scores ~0.784 (without tuning and early stopping)
params = {'boosting_type': 'gbdt', 'max_depth': -1, 'objective': 'binary', 
          'num_leaves': 64, 'learning_rate': 0.05, 'max_bin': 512, 
          'subsample_for_bin': 200, 'subsample': 1, 'subsample_freq': 1,
          'colsample_bytree': 0.8, 'reg_alpha': 5, 'reg_lambda': 10, 
          'min_split_gain': 0.5, 'min_child_weight': 1, 
          'min_child_samples': 5, 'scale_pos_weight': 1, 'num_class': 1, 
          'metric': 'binary_error'}

# Create parameters to search
grid_params = {'learning_rate': [0.01], 'n_estimators': [8, 24],
               'num_leaves': [6, 8, 12, 16], 'boosting_type': ['gbdt'], 
               'objective': ['binary'], 'seed': [500],
               'colsample_bytree': [0.65, 0.75, 0.8], 
               'subsample': [0.7, 0.75], 'reg_alpha': [1, 2, 6],
               'reg_lambda': [1, 2, 6]}

In [None]:
# Create classifier to use. Note that parameters have to be input manually
# not as a dict!
mod = lgb.LGBMClassifier(**params)
    
# To view the default model params:
mod.get_params().keys()

In [None]:
# Create the grid
grid = GridSearchCV(mod, param_grid=grid_params, verbose=1, cv=5, n_jobs=-1)
# Run the grid
grid.fit(X_train, y_train)

In [None]:
 # Print the best parameters found
    print(grid.best_params_)
    print(grid.best_score_)

In [None]:
    # Using parameters already set above, replace in the best from the grid search
    best_params = {k: grid.best_params_.get(k, v) for k, v in params.items()}
    best_params['verbosity'] = -1

    # Kit k models with early-stopping on different training/validation splits
    k = 5
    valid_preds, train_preds, test_preds = 0, 0, 0
    for m in range(k):
        print('Fitting model', m)

        # Prepare the data set for fold
        X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.4, random_state=1234)
        
         # Train
        gbm = lgb.train(best_params, train_data, num_boost_round=100000,
                        valid_sets=[train_data, valid_data],
                        early_stopping_rounds=50, verbose_eval=50)

        # Plot importance
        lgb.plot_importance(gbm)
        plt.show()
