In [1]:
import pandas as pd
import numpy as np
import sklearn as skl
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
import math

PREDICCION_REAL = False

In [2]:
#APERTURA DE ARCHIVO DE ARCHIVOS
entrenamiento_temp = pd.read_csv("../Train_TP2_Datos_2020-2C.csv")
entrenamiento_temp = entrenamiento_temp[( entrenamiento_temp['Stage'] == 'Closed Won') | ( entrenamiento_temp['Stage'] == 'Closed Lost')]
entrenamiento_temp = entrenamiento_temp.loc[(entrenamiento_temp["ASP_Currency"] == entrenamiento_temp["Total_Taxable_Amount_Currency"])]
entrenamiento_temp = entrenamiento_temp.loc[entrenamiento_temp["Total_Taxable_Amount"] > 0]

test = pd.read_csv("../Test_TP2_Datos_2020-2C.csv")

In [3]:
#FORMATO FECHAS

#Respalda fecha, usada para separa entrenamiento y test
entrenamiento_temp['Fecha'] = pd.to_datetime(entrenamiento_temp['Opportunity_Created_Date'])
columnas_fecha = ['Month','Last_Modified_Date','Account_Created_Date','Opportunity_Created_Date','Quote_Expiry_Date','Planned_Delivery_Start_Date','Planned_Delivery_End_Date']

def formato_fechas(x):
    for columna in columnas_fecha:
        x[columna] = pd.to_datetime(x[columna])
        
formato_fechas(entrenamiento_temp)
if(PREDICCION_REAL): 
    formato_fechas(test)

In [4]:
#DIVISION ENTRE SET DE ENTRENAMIENTO Y SET DE TEST

if(PREDICCION_REAL):
    entrenamiento = entrenamiento_temp
else:
    entrenamiento = entrenamiento_temp.loc[entrenamiento_temp['Fecha'].dt.year <= 2017].copy()
    test          = entrenamiento_temp.loc[entrenamiento_temp['Fecha'].dt.year > 2017].copy()
    entrenamiento_label = (entrenamiento['Stage'] == 'Closed Won').astype(int)
    test_label          = (test['Stage'] == 'Closed Won').astype(int)

del entrenamiento_temp

In [5]:
#LIMPIEZA

entrenamiento = entrenamiento.drop(columns=['ASP_(converted)_Currency','Quote_Type','Brand','Product_Type','Size','Product_Category_B','Price','Currency','Last_Activity','Actual_Delivery_Date','Prod_Category_A'])
test = test.drop(columns=['ASP_(converted)_Currency','Quote_Type','Brand','Product_Type','Size','Product_Category_B','Price','Currency','Last_Activity','Actual_Delivery_Date','Prod_Category_A'])

In [6]:
#NUEVOS FEATURES

In [7]:
#Agrego feature: Duracion de la oportunidad
entrenamiento['Opportunity_Duration'] = (entrenamiento['Last_Modified_Date'] - entrenamiento['Opportunity_Created_Date']) / np.timedelta64(1, 'D')
test['Opportunity_Duration'] = (test['Last_Modified_Date'] - test['Opportunity_Created_Date']) / np.timedelta64(1, 'D')

#Agrego feature: Total_Amount_USD
entrenamiento["Total_Amount_USD"] = entrenamiento["Total_Amount"] * entrenamiento["ASP_(converted)"] / entrenamiento["ASP"]
test["Total_Amount_USD"] = test["Total_Amount"] * test["ASP_(converted)"] / test["ASP"]
#Agrego feature: Total_Taxable_Amount_USD
entrenamiento["Total_Taxable_Amount_USD"] = entrenamiento["Total_Taxable_Amount"] * entrenamiento["ASP_(converted)"] / entrenamiento["ASP"]
test["Total_Taxable_Amount_USD"] = test["Total_Taxable_Amount"] * test["ASP_(converted)"] / test["ASP"]
#Agrego feature: Total_Amount_sobre_Total_Taxable_Amount
entrenamiento["Total_Amount_sobre_Total_Taxable_Amount"] = entrenamiento["Total_Amount_USD"] / entrenamiento["Total_Taxable_Amount_USD"]
test["Total_Amount_sobre_Total_Taxable_Amount"] = test["Total_Amount_USD"] / test["Total_Taxable_Amount_USD"]


In [8]:
#FEATURE - Duracion por familia
df_familia = entrenamiento[['Stage','Region','Territory','Product_Family','Planned_Delivery_Start_Date']]
df_familia = df_familia[df_familia['Stage'] == 'Closed Won']
df_familia = df_familia.groupby(['Product_Family'])['Planned_Delivery_Start_Date'].agg(['max','min']).reset_index()
df_familia['Duracion_Familia'] = (df_familia['max'] - df_familia['min']).dt.days
entrenamiento = entrenamiento.merge(df_familia[['Product_Family','Duracion_Familia','max']],on='Product_Family',how='left')
entrenamiento['Duracion_Familia'] =  (entrenamiento['Planned_Delivery_Start_Date'] - entrenamiento['max']).dt.days - entrenamiento['Duracion_Familia']
entrenamiento['Duracion_Familia'].replace(np.nan,0)
entrenamiento['Duracion_Familia'] =  np.sign(entrenamiento['Duracion_Familia'])
entrenamiento = entrenamiento.drop(columns=['max'])
test = test.merge(entrenamiento[['Product_Family','Duracion_Familia']].drop_duplicates(subset=['Product_Family']),left_on='Product_Family',right_on='Product_Family',how='left')

#FEATURE - Duracion por region
df_region = entrenamiento[['Stage','Region','Territory','Planned_Delivery_Start_Date']]
df_region = df_region[df_region['Stage'] == 'Closed Won']
df_region = df_region.groupby(['Region'])['Planned_Delivery_Start_Date'].agg(['max','min']).reset_index()
df_region['Duracion_Region'] = (df_region['max'] - df_region['min']).dt.days
entrenamiento = entrenamiento.merge(df_region[['Region','Duracion_Region','max']],on='Region',how='left')
entrenamiento['Duracion_Region'] =  (entrenamiento['Planned_Delivery_Start_Date'] - entrenamiento['max']).dt.days - entrenamiento['Duracion_Region']
entrenamiento['Duracion_Region'].replace(np.nan,0)
entrenamiento['Duracion_Region'] =  np.sign(entrenamiento['Duracion_Region'])
entrenamiento = entrenamiento.drop(columns=['max'])
test = test.merge(entrenamiento[['Region','Duracion_Region']].drop_duplicates(subset=['Region']),left_on='Region',right_on='Region',how='left')

#FEATURE - Duracion por territory
df_territorio = entrenamiento[['Stage','Territory','Planned_Delivery_Start_Date']]
df_territorio = df_territorio[df_territorio['Stage'] == 'Closed Won']
df_territorio = df_territorio.groupby(['Territory'])['Planned_Delivery_Start_Date'].agg(['max','min']).reset_index()
df_territorio['Duracion_Territory'] = (df_territorio['max'] - df_territorio['min']).dt.days
entrenamiento = entrenamiento.merge(df_territorio[['Territory','Duracion_Territory','max']],on='Territory',how='left')
entrenamiento['Duracion_Territory'] =  (entrenamiento['Planned_Delivery_Start_Date'] - entrenamiento['max']).dt.days - entrenamiento['Duracion_Territory']
entrenamiento['Duracion_Territory'].replace(np.nan,0)
entrenamiento['Duracion_Territory'] =  np.sign(entrenamiento['Duracion_Territory'])
entrenamiento = entrenamiento.drop(columns=['max'])
test = test.merge(entrenamiento[['Territory','Duracion_Territory']].drop_duplicates(subset=['Territory']),left_on='Territory',right_on='Territory',how='left')


  result = getattr(ufunc, method)(*inputs, **kwargs)


In [9]:
#FECHAS A DIAS
def fecha_a_dias(x):
    for columna in columnas_fecha:
        x[columna] = x[columna].apply(lambda x : (x - pd.to_datetime('01/01/2000', format='%m/%d/%Y')).days)

fecha_a_dias(entrenamiento)
fecha_a_dias(test)

#CATEGORICAS A NUMERICAS - PROMEDIO
"""Se debe pasar train y test ordenados """
def expansion_mean_encoding(columnas_categoricas,train,test,label):
    #Dividimos el dataset de entrenamiento en features y labels
    #Armo un df extra que me ayudara para codificar las categoricas.
    #x_y_train = filtrado.iloc[:-test_rows]
    #x_train = x_y_train.drop('Stage', axis=1)
    #y_train = x_y_train['Stage'].to_frame()
    #x_test = filtrado.iloc[-test_rows:].drop('Stage', axis=1)
    #y_test = filtrado.iloc[-test_rows:]['Stage'].to_frame()

    #En el set de train.
    #columnas_categoricas = x_train.select_dtypes(include='category').columns

    codificaciones = dict()

    for col in columnas_categoricas:
        last_one = train.groupby(col).tail(1)
        for (idx, reg) in zip(last_one[col].index, last_one[col].values):
            codificaciones[reg] = (col, idx)
        cumulative_sum = train.groupby(col)[label].cumsum() - train[label]
        cumulative_count = train.groupby(col).cumcount()
        train[col] = cumulative_sum/cumulative_count

    #Llenamos los NaN generados por cumsum con ceros.
    train.fillna(0,inplace = True)

    #Guardamos la codificacion de cada categoria segun su nombre.
    for k, v in codificaciones.items():
        col = v[0]
        idx = v[1]
        codificaciones[k] = train.loc[idx, col]
    
    # Utilizo las ultimas codificaciones de cada categoria del train set para codificar el test set.
    # Para eso utilizo el diccionario de codificaciones.

    #columnas_categoricas = x_test.select_dtypes(include='category').columns

    for col in columnas_categoricas:
        test[col] = test[col].astype(object)
        for (idx, reg) in zip(test[col].index, test[col]):
            if (reg in codificaciones):
                test.loc[idx, col] = codificaciones[reg]
            else:
                #Codifico como cero, se puede mejorar
                test.loc[idx, col] = 0
        test[col] = test[col].astype(float)
        
columnas_categoricas = list(entrenamiento.select_dtypes(include=['object']).columns)
if 'Stage' in columnas_categoricas : columnas_categoricas.remove('Stage')
entrenamiento["label"] = (entrenamiento['Stage'] == 'Closed Won').astype(int)
entrenamiento.sort_values("Fecha")
expansion_mean_encoding(columnas_categoricas,entrenamiento,test,"label")
entrenamiento = entrenamiento.drop(columns='label')

def mean_encoding(train,test,col_group,col_mean,operacion):
    
    codificaciones = dict()
    nombre_col = col_group + "_" + col_mean + "_" + operacion

    last_one = train.groupby(col_group).tail(1)
    for (idx, reg) in zip(last_one[col_group].index, last_one[col_group].values):
        codificaciones[reg] = (nombre_col, idx)

    train[nombre_col] = train.groupby(col_group)[col_mean].transform(operacion)    

    #Llenamos los NaN generados por cumsum con ceros.
    train.fillna(0,inplace = True)

    #Guardamos la codificacion de cada categoria segun su nombre.
    for k, v in codificaciones.items():
        col = v[0]
        idx = v[1]
        codificaciones[k] = train.loc[idx, col]
    
    # Utilizo las ultimas codificaciones de cada categoria del train set para codificar el test set.
    # Para eso utilizo el diccionario de codificaciones.

    #columnas_categoricas = x_test.select_dtypes(include='category').columns

    test[nombre_col] = test[col_group].astype(object)
    for (idx, reg) in zip(test[nombre_col].index, test[nombre_col]):
        if (reg in codificaciones):
            test.loc[idx, nombre_col] = codificaciones[reg]
        else:
            #Codifico como cero, se puede mejorar
            test.loc[idx, nombre_col] = 0
    test[nombre_col] = test[nombre_col].astype(float)

    

columnas_cat = ["Region","Territory","Bureaucratic_Code","Billing_Country","Account_Type","Opportunity_Type","Delivery_Terms","Last_Modified_By","Product_Family","Product_Name","ASP_Currency"]

columnas_num = ["Pricing, Delivery_Terms_Quote_Appr","Pricing, Delivery_Terms_Approved","Bureaucratic_Code_0_Approval","Bureaucratic_Code_0_Approved","Submitted_for_Approval","ASP","ASP_(converted)","TRF","Total_Amount_USD","Total_Taxable_Amount_USD","Opportunity_Duration"]
i = 0
for col_cat in columnas_cat:
    for col_num in columnas_num:
        print(i)
        i+= 1
        mean_encoding(entrenamiento,test,col_cat,col_num,"mean")
        mean_encoding(entrenamiento,test,col_cat,col_num,"std")

def encoding_categorico(train,test,col_group,col_mean):
    
    codificaciones = dict()

    last_one = train.groupby(col_group).tail(1)
    for (idx, reg) in zip(last_one[col_group].index, last_one[col_group].values):
        codificaciones[reg] = (col_group + "_" + col_mean, idx)

    train[col_group + "_" + col_mean] = train.groupby(col_group)[col_mean].unique()    

    #Llenamos los NaN generados por cumsum con ceros.
    train.fillna(0,inplace = True)

    #Guardamos la codificacion de cada categoria segun su nombre.
    for k, v in codificaciones.items():
        col = v[0]
        idx = v[1]
        codificaciones[k] = train.loc[idx, col]
    
    # Utilizo las ultimas codificaciones de cada categoria del train set para codificar el test set.
    # Para eso utilizo el diccionario de codificaciones.

    #columnas_categoricas = x_test.select_dtypes(include='category').columns

    test[col_group + "_" + col_mean] = test[col_group].astype(object)
    for (idx, reg) in zip(test[col_group + "_" + col_mean].index, test[col_group + "_" + col_mean]):
        if (reg in codificaciones):
            test.loc[idx, col_group + "_" + col_mean] = codificaciones[reg]
        else:
            #Codifico como cero, se puede mejorar
            test.loc[idx, col_group + "_" + col_mean] = 0
    test[col_group + "_" + col_mean] = test[col_group + "_" + col_mean].astype(float)

for col1,col2 in list(permutations(columnas_cat,2)):
    encoding_categorico(entrenamiento,test,col1,col2)
    encoding_categorico(entrenamiento.copy(),test_prueba,col1,col2)

#CATEGORICAS A NUMERICAS  - ORDINAL
def categoricas_a_numericas(x):
    ohe = skl.preprocessing.OrdinalEncoder()
    columnas_object = list(x.select_dtypes(include=['object']).columns)
    if 'Stage' in columnas_object : columnas_object.remove('Stage')
    for columna in columnas_object:
        copia = x[[columna]].copy().dropna()
        df_temp = pd.DataFrame(ohe.fit_transform(copia)).astype('int32')
        df_temp.columns = [columna]
        x[columna] = df_temp[columna]

categoricas_a_numericas(entrenamiento)
categoricas_a_numericas(test)

In [10]:
def convertir_a_int(x):
    columnas_float = list(x.select_dtypes(include=[np.float]).columns)
    print(columnas_float)
    for columna in columnas_float:
        x.replace([np.inf, -np.inf], np.nan,inplace=True)
        copia = x[[columna]].copy().dropna(how="all")
        x[columna] = (copia[columna]*100).astype(int)

#entrenamiento = entrenamiento.loc[entrenamiento["Opportunity_Duration"] != math.inf]
#test = test.loc[test["Opportunity_Duration"] != math.inf]
convertir_a_int(entrenamiento)
convertir_a_int(test)

['Quote_Expiry_Date', 'ASP', 'ASP_(converted)', 'Planned_Delivery_End_Date', 'Total_Amount', 'Total_Taxable_Amount', 'Opportunity_Duration', 'Total_Amount_USD', 'Total_Taxable_Amount_USD', 'Total_Amount_sobre_Total_Taxable_Amount', 'Duracion_Familia', 'Duracion_Territory']
['Quote_Expiry_Date', 'ASP', 'ASP_(converted)', 'Planned_Delivery_End_Date', 'Total_Amount', 'Total_Taxable_Amount', 'Opportunity_Duration', 'Total_Amount_USD', 'Total_Taxable_Amount_USD', 'Total_Amount_sobre_Total_Taxable_Amount', 'Duracion_Familia', 'Duracion_Territory']


#SUAVIZADO DE DISCREPANCIAS PARA EVITAR OVERFITTING

for columna in columnas_fecha:
    entrenamiento[columna] = np.round(entrenamiento[columna].apply(np.log10))
    test[columna] =  np.round(test[columna].apply(np.log10))
    
entrenamiento['Total_Taxable_Amount'] = np.round(entrenamiento['Total_Taxable_Amount'].apply(np.log10))
test['Total_Taxable_Amount'] =  np.round(test['Total_Taxable_Amount'].apply(np.log10))

In [13]:
test = test.drop('Fecha',1)
entrenamiento = entrenamiento.drop('Fecha',1)

In [12]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4430 entries, 0 to 4429
Data columns (total 49 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   ID                                       4430 non-null   int64         
 1   Region                                   4430 non-null   object        
 2   Territory                                4430 non-null   object        
 3   Pricing, Delivery_Terms_Quote_Appr       4430 non-null   int64         
 4   Pricing, Delivery_Terms_Approved         4430 non-null   int64         
 5   Bureaucratic_Code_0_Approval             4430 non-null   int64         
 6   Bureaucratic_Code_0_Approved             4430 non-null   int64         
 7   Submitted_for_Approval                   4430 non-null   int64         
 8   Bureaucratic_Code                        4430 non-null   object        
 9   Account_Created_Date                     

In [14]:
#PRODUCCION DE ARCHIVOS INTERMEDIOS
entrenamiento.to_csv("entrenamiento-listo.csv",index=False)
test.to_csv("test-listo.csv",index=False)

In [None]:
test['Total_Taxable_Amount'].value_counts()

In [None]:
test.info()

In [None]:
test['TRF'].value_counts()