<a href="https://colab.research.google.com/github/MarcosRolando/OrgaDeDatosTP2/blob/main/neuralNetwoork.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [44]:
import tensorflow as tf
import pandas as pd
import numpy as np
import math as mt
from tensorflow import feature_column


In [45]:
df = pd.read_csv('/content/Train_TP2_Datos_2020-2C.csv')
df.drop_duplicates('Opportunity_ID', inplace=True)
df = df[df['Stage'].isin(['Closed Won', 'Closed Lost'])]
df.loc[:, 'Stage'].replace({'Closed Won':1, 'Closed Lost':0}, inplace=True)
df = df[(df['Brand'] == 'None') & (df['Sales_Contract_No'] != 'None')]
df = df[df['Stage'] == 1]
df['Quote_Expiry_Date'] = (df['Quote_Expiry_Date'] != 'NaT')
df.rename(columns={'Quote_Expiry_Date':'Has_Expiry_Date'}, inplace=True)
df['Has_Expiry_Date'] = df['Has_Expiry_Date'].replace({True:1,False:0})
df['Has_Expiry_Date'].mean()

0.8408770871052103

Tuneamos algunas cosas del DataFrame que notamos en el analisis de los datos.

In [46]:
def preprocess_dataframe(df):

  df.fillna(value=0, inplace=True) #Reemplazamos NAN por 0, ya que NAN rompe a Tensorflow

  #Renombramos las columnas que tienen caracteres que TensorFlow no acepta como validos.
  #Estos particularmente son whitespace, coma y parentesis por ejemplo.
  df.rename(columns={'ASP_(converted)':'ASP_converted','Pricing, Delivery_Terms_Quote_Appr':
                    'Pricing_Delivery_Terms_Quote_Appr','Pricing, Delivery_Terms_Approved':
                    'Pricing_Delivery_Terms_Approved','Source ':'Source'},inplace=True)

  df = df[df['Stage'].isin(['Closed Won', 'Closed Lost'])]
  df.loc[:, 'Stage'].replace({'Closed Won':1, 'Closed Lost':0}, inplace=True) #0 corresponde a que el caso fue Closed Lost, 1 a que fue Closed Won. Asi tenemos un problema de clasificacion binario que puede entender la red neuronal.

  df.loc[:, 'Planned_Delivery_Start_Date'] = pd.to_datetime(df['Planned_Delivery_Start_Date'], 'coerce',
                                                                  format='%m/%d/%Y')
  df.loc[:, 'Planned_Delivery_End_Date'] = pd.to_datetime(df['Planned_Delivery_End_Date'], 'coerce',
                                                                                      format='%m/%d/%Y')
  df = df[df['Opportunity_ID'] != 9773] #Hardcodeo este filtrado porque el id 9773 tiene mal cargada la fecha de delivery end, dando una diferencia de 200 anios xd"

  #Pongo .loc porque pandas me jode con warnings que son falsos positivos de slice copy"
  #Gracias Pandas!"

  #Creamos una nueva columna (Feature Engineering) que contiene la longitud en dias 
  #estimada de la operacion. En el informe habiamos encontrado que aparentaba haber
  #una relacion cuadratica de decrecimiento a medida que aumentaban los dias donde disminuia
  #la chance de completar la operacion.
  df['Delta_Time'] = df['Planned_Delivery_End_Date'] - df['Planned_Delivery_Start_Date']
  df.loc[:, 'Delta_Time'] = df['Delta_Time'].dt.days
  df['Delta_Time'] = df.groupby('Opportunity_ID')['Delta_Time'].transform('max')

  #Pasamos todo a dolares
  currency_conversion = {'AUD':0.707612, 'EUR':1.131064, 'GBP':1.318055, 'JPY':0.008987, 'USD':1.0}
  df['Total_Taxable_Amount_Currency'] = df[['Total_Taxable_Amount_Currency']].replace(currency_conversion)
  df['Total_Taxable_Amount'] = df['Total_Taxable_Amount_Currency'] * df['Total_Taxable_Amount']

  #Modifico la columna Brand para que en vez de decir que marca es, solo diga
  #si tiene o no marca. Es importante aclarar que verificamos que siempre que una oportunidad
  #tiene un producto con marca entonces todos sus productos tienen marca. Esto se cumple
  #tanto en el set de entrenamiento como en el de test, por lo tanto al hacer drop_duplicates
  #no nos va a pasar nunca el caso donde nos pudieramos quedar con una entrada de producto
  #sin marca mientras que algun otro producto si tuviera, ya que confirmamos que o todos tienen
  #marca o ninguno tiene.
  df.loc[df['Brand'] == 'None', 'Brand'] = 'No'
  df.loc[df['Brand'] != 'No', 'Brand'] = 'Yes'

  #Agrego una columna que indica si tiene o no numero de contrato
  df.loc[:, 'Sales_Contract_No'][df['Sales_Contract_No'] != 'None'] = 'Yes'
  df.loc[:, 'Sales_Contract_No'][df['Sales_Contract_No'] == 'None'] = 'No'
  df.rename(columns={'Sales_Contract_No':'Has_Contract_Number'}, inplace=True)

  #Agrego una columna que indique la cantidad de productos que tiene esa
  #oportunidad
  df['Product_Name'] = 1
  df['Product_Amount'] = df.groupby('Opportunity_ID')['Product_Name'].transform(lambda x: x.sum())

  #Agrego una columna que indica si el owner de la cuenta es el mismo que el de la oportunidad
  #o no
  df['Same_Owner'] = (df['Account_Owner'] == df['Opportunity_Owner'])
  df['Same_Owner'] = df['Same_Owner'].replace({False:'No', True:'Yes'})

  #Agrego una columna que indica si tiene o no fecha de expiracion
  df['Quote_Expiry_Date'] = (df['Quote_Expiry_Date'] != 'NaT')
  df.rename(columns={'Quote_Expiry_Date':'Has_Expiry_Date'}, inplace=True)
  df['Has_Expiry_Date'] = df['Has_Expiry_Date'].replace({True:'Yes',False:'No'})

  #Reemplazo las 4 columnas de aprobacion por solo 2 columnas que indiquen si tuvo la aprobacion
  #de delivery y burocratica o no. Recalco que si nunca la necesito seria equivalente a si
  #la necesito y la consiguio.
  df['Delivery_Approved'] = df['Pricing_Delivery_Terms_Quote_Appr'] + df['Pricing_Delivery_Terms_Approved']
  df['Delivery_Approved'] = df['Delivery_Approved'].replace({0:1, 1:0, 2:1})
  df['Bureaucratic_Code_Approved'] = df['Bureaucratic_Code_0_Approval'] + df['Bureaucratic_Code_0_Approved']
  df['Bureaucratic_Code_Approved'] = df['Bureaucratic_Code_Approved'].replace({0:1, 1:0, 2:1})

  #Cambio TRF por una columna que es el valor medio de los TRF de la oportunidad
  df["TRF"] = df.groupby("Opportunity_ID")["TRF"].transform("mean")

  #Pruebo volar duplicados, solo cambia el producto. Si el producto no importa
  #entonces volar duplicados no deberia importar. Obviamente vuelo el producto en el que
  #quede tambien.
  df.drop_duplicates('Opportunity_Name',inplace=True)
  df.drop(columns=['Product_Name','Product_Family','Opportunity_Name'],inplace=True)

  #Normalizo las columnas numericas
  normalized_columns = ['ASP_converted','TRF','Total_Taxable_Amount', 'Product_Amount']
  for column in normalized_columns:
    df[column] = (df[column] - df[column].mean()) / df[column].std()

  #Borro columnas que tengan el mismo dato en todas las entradas, o inconsecuentes como el ID / Opportunity_ID
  #Algunas columnas borradas son porque pienso que no tienen incidencia, ir viendo.
  #TODO: Analizar si el Sales_Contract_No no es que importe el numero en si, sino si tiene
  #o no tiene numero de contrato. Por ahora no lo meto como input.
  #TODO: Ver el mismo tema con la columna 'Price', la mayoria tiene None u Other
  #y solo unos pocos tienen precio numerico. Quiza importe que tenga precio o no tenga,
  #o si no tiene precio quiza importe si es None u Other. Por ahora no lo pongo
  #como input.
  df.drop(columns=['Submitted_for_Approval', 'Last_Activity', 'ASP_(converted)_Currency', 
                  'Prod_Category_A', 'ID', 'Opportunity_ID', 'Actual_Delivery_Date'],inplace=True)

  #Drop columnas que quiza podamos usar pero por ahora no las uso
  df.drop(columns=['Account_Created_Date','Opportunity_Created_Date',
                  'Last_Modified_Date',
                  'Planned_Delivery_Start_Date','Planned_Delivery_End_Date',
                  'Month','Delivery_Quarter', 'Delivery_Year',
                  'Price','ASP','ASP_Currency','Total_Amount_Currency',
                  'Total_Amount','Total_Taxable_Amount_Currency','Currency',
                   'Product_Category_B','Last_Modified_By', 'Account_Owner',
                   'Opportunity_Owner','Account_Name','Product_Type','Size',
                   'Territory', 'Billing_Country', 'Pricing_Delivery_Terms_Quote_Appr',
                   'Pricing_Delivery_Terms_Approved', 'Bureaucratic_Code_0_Approval',
                   'Bureaucratic_Code_0_Approved','Region', 'Has_Expiry_Date',
                   'Delta_Time', 'Delivery_Approved','Bureaucratic_Code_Approved',
                   'Same_Owner'],
                   inplace=True)

  #Definimos que tipo de feature es cada columna

  #Debemos separar algunos de los registros para armar un set de test propio (no el de la catedra). De esta forma sabremos rapidamente
  #si nuestro modelo esta dando resultados optimos o no sin necesidad de estar subiendo el TP a Kaggle constantemente.
  #Sin embargo, no queremos usar tantos registros ya que estariamos disminuyendo el set de entrenamiento considerablemente.
  #Podemos empezar reservando 2000 registros para el test de prueba y ver que onda. Pasariamos de tener 16 mil a 14 mil 
  #registros para el set de entrenamiento, no es una perdida importantisima creo en principio, asi que arrancamos con eso.

  #Por otro lado, nuestro test de prueba deberia tener un 50 50 de Closed Won y Closed Lost, por lo que no podemos elegir asi nomas
  #al azar.

  return df

In [47]:
# Metodo que pasa de DataFrame de Pandas a un DataSet de TensorFlow
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
  dataframe = dataframe.copy()
  labels = dataframe.pop('Stage') #Retorna la columna Stage, eliminandolo simultaneamente del DataFrame. 'Stage' seria nuestra columna 'target', es decir, lo que queremos predecir.
  ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels)) #Crea un DataSet cuyos elementos son slices de los tensores pasados a la funcion. Ver documentacion oficial para comprender bien.
  #En pocas palabras, le pasamos las columnas con los datos como diccionario (estilo 'columna':[dato1,dato2,dato3]) y una lista con los resultados estilo [resu1,resu2,resu3].
  #Se genera un DataSet del estilo [('columna':[dato1,dato2,dato3], [resu1, resu2, resu3])].
  #En realidad 'columna' es una lista de todas las columnas con sus correspondientes datos, pero se entiende la idea creo.
  if shuffle:
    ds = ds.shuffle(buffer_size=len(dataframe)) #Al tener el buffer_size del mismo tamanio que la cantidad de datos del dataset, tenemos perfect shuffling (ver documentacion para comprender).
    #Basicamente mezlcamos el dataset para que luego los batches que se armen contengan distintos elementos si lo entrenamos distintas veces.
  ds = ds.batch(batch_size) #Arma batches de tamanio batch_size entre elementos consecutivos del DataSet.
  return ds

In [48]:
#Arma las features, asignando las columnas del DataFrame segun corresponda al tipo de feature
#(numerico, categorico, etc). Entiendase por feature a las columnas del DataFrame.
def set_up_feature_columns(dataframe, numeric_columns, indicator_columns, bucket_columns, crossed_columns):
  features = []

  #numeric features
  for column_name in numeric_columns:
    features.append(feature_column.numeric_column(column_name))

  #bucket features
  boundaries = [] #En principio este boundary es solo para la columna 'Delta Time'. Ver de como generalizar.
  for i in range(38):
    boundaries.append(i*5.0)

  for column_name in bucket_columns:
    range_column = feature_column.numeric_column(column_name)
    bukect_column = feature_column.bucketized_column(range_column, boundaries)
    features.append(bukect_column)

  #indicator features (one-hot value vector, para aquellas columnas categoricas de pocas opciones)
  for column_name in indicator_columns:
    categorical_column = feature_column.categorical_column_with_vocabulary_list(
                                          column_name, dataframe[column_name].unique())
    indicator_column = feature_column.indicator_column(categorical_column)
    features.append(indicator_column)

  #crossed features
  for crossed_feature in crossed_columns:
    categorical_columns = []
    possible_values = 1
    for column_name in crossed_feature:
      column_keys = dataframe[column_name].unique()
      possible_values = possible_values * len(column_keys)
      categorical_columns.append(feature_column.categorical_column_with_vocabulary_list(
                                            column_name, column_keys))
    crossed_feature = feature_column.crossed_column(categorical_columns, hash_bucket_size=possible_values) #Ponemos la cantidad de buckets justos para representar todas las combinaciones
    features.append(feature_column.indicator_column(crossed_feature))

  return features

Preparamos los features para el modelo, es decir, seteamos cada una de las columnas que vayamos a utilizar del DataFrame. Luego generamos el DataSet en base al DataFrame para darselo como input al modelo.

In [49]:
  #Columnas que consideramos numericas
  numeric_columns = ['ASP_converted','TRF','Total_Taxable_Amount','Product_Amount']

  #Columnas que consideramos clasificatorias con rango numerico
  bucket_columns = []#['Delta_Time']

  #Columnas que consideramos categoricas de pocos valores posibles
  indicator_columns = [#'Region', 
                       'Bureaucratic_Code','Source', #'Same_Owner',
                        'Account_Type',
                        'Opportunity_Type','Delivery_Terms',
                       'Brand','Has_Contract_Number','Quote_Type']
                        #'Has_Expiry_Date']
                        #'Last_Modified_By'
                        #'Product_Family', 'Product_Name', 'Opportunity_Name'
                        #'Account_Owner', 'Opportunity_Owner', 'Account_Name'
                        #'Territory', 'Billing_Country'

  #Columnas crossed, aquellas que queremos un parametro por combinacion
  crossed_columns = [#['Delivery_Approved','Bureaucratic_Code_Approved'],
                     ]

  df = pd.read_csv('/content/Train_TP2_Datos_2020-2C.csv')
  df = preprocess_dataframe(df)

  features = set_up_feature_columns(df,numeric_columns,indicator_columns,bucket_columns, crossed_columns)

  #Separamos el DataFrame en uno de pruebo y el de entrenamiento. TODO: Ver el de validacion
  test_lines = 200

  np.random.seed(1)
  drop_indices = np.random.choice(df.index, test_lines, replace=False)
  df_test = df.loc[drop_indices, :]
  df.drop(drop_indices, inplace=True)

  #df_validation = df.tail(200)
  #df.drop(df.tail(200).index, inplace=True)

  feature_layer = tf.keras.layers.DenseFeatures(features)
  ds = df_to_dataset(df,batch_size=56, shuffle=True)
  ds_test = df_to_dataset(df_test, batch_size=56, shuffle=False)
  #ds_validation = df_to_dataset(df_validation, batch_size=56, shuffle=False)
  df


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  method=method,
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(ilocs[0], value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,Bureaucratic_Code,Source,Has_Contract_Number,Account_Type,Opportunity_Type,Quote_Type,Delivery_Terms,Brand,ASP_converted,TRF,Total_Taxable_Amount,Stage,Product_Amount
0,Bureaucratic_Code_4,,No,Account_Type_2,Opportunity_Type_1,Non Binding,Delivery_Terms_2,No,0.215056,0.482815,0.547199,0,-0.427738
1,Bureaucratic_Code_4,,Yes,Account_Type_2,Opportunity_Type_1,Non Binding,Delivery_Terms_2,No,0.227577,-0.204252,-0.172044,1,-0.427738
2,Bureaucratic_Code_4,Source_7,Yes,Account_Type_5,Opportunity_Type_1,Non Binding,Delivery_Terms_4,No,0.095303,-0.204252,-0.168476,1,-0.427738
3,Bureaucratic_Code_5,Source_11,No,Account_Type_5,Opportunity_Type_19,Non Binding,Delivery_Terms_1,Yes,0.150657,0.757642,0.724658,0,-0.427738
4,Bureaucratic_Code_5,Source_11,No,Account_Type_5,Opportunity_Type_19,Non Binding,Delivery_Terms_1,Yes,0.150657,1.513417,1.447064,0,-0.427738
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16939,Bureaucratic_Code_4,Source_9,Yes,Account_Type_0,Opportunity_Type_1,Non Binding,Delivery_Terms_2,No,0.208790,-0.135546,-0.123383,1,-0.427738
16940,Bureaucratic_Code_5,,No,Account_Type_5,Opportunity_Type_19,Non Binding,Delivery_Terms_4,No,0.150657,1.169883,2.417765,0,0.162891
16942,Bureaucratic_Code_4,Source_7,Yes,Account_Type_5,Opportunity_Type_1,Non Binding,Delivery_Terms_2,No,0.215056,-0.204252,-0.137423,1,0.753520
16945,Bureaucratic_Code_4,,No,Account_Type_5,Opportunity_Type_1,Non Binding,Delivery_Terms_4,No,0.269669,0.070575,-0.178684,0,-0.427738


Creamos y compilamos el modelo. En esta seccion se tunean las propiedades del modelo.

In [50]:
model = tf.keras.Sequential([
  feature_layer,
  tf.keras.layers.Dense(1, activation='sigmoid')
])

In [51]:
model.compile(optimizer='adam',
              loss=tf.keras.losses.BinaryCrossentropy(),
              metrics=['accuracy'])

Entrenamos el modelo

In [52]:
#Ignoren el WARNING, esta en la documentacion tambien. Nadie le da bola en StackOverflow xd.
#model.fit(ds, validation_data=ds_validation, epochs=60)
model.fit(ds, epochs=120)
model.summary()

Epoch 1/120
Consider rewriting this model with the Functional API.
Consider rewriting this model with the Functional API.
Epoch 2/120
Epoch 3/120
Epoch 4/120
Epoch 5/120
Epoch 6/120
Epoch 7/120
Epoch 8/120
Epoch 9/120
Epoch 10/120
Epoch 11/120
Epoch 12/120
Epoch 13/120
Epoch 14/120
Epoch 15/120
Epoch 16/120
Epoch 17/120
Epoch 18/120
Epoch 19/120
Epoch 20/120
Epoch 21/120
Epoch 22/120
Epoch 23/120
Epoch 24/120
Epoch 25/120
Epoch 26/120
Epoch 27/120
Epoch 28/120
Epoch 29/120
Epoch 30/120
Epoch 31/120
Epoch 32/120
Epoch 33/120
Epoch 34/120
Epoch 35/120
Epoch 36/120
Epoch 37/120
Epoch 38/120
Epoch 39/120
Epoch 40/120
Epoch 41/120
Epoch 42/120
Epoch 43/120
Epoch 44/120
Epoch 45/120
Epoch 46/120
Epoch 47/120
Epoch 48/120
Epoch 49/120
Epoch 50/120
Epoch 51/120
Epoch 52/120
Epoch 53/120
Epoch 54/120
Epoch 55/120
Epoch 56/120
Epoch 57/120
Epoch 58/120
Epoch 59/120
Epoch 60/120
Epoch 61/120
Epoch 62/120
Epoch 63/120
Epoch 64/120
Epoch 65/120
Epoch 66/120
Epoch 67/120
Epoch 68/120
Epoch 69/120
Ep

Evaluamos el modelo

In [53]:
model.evaluate(ds_test)

Consider rewriting this model with the Functional API.


[0.10156503319740295, 0.9800000190734863]

Escribimos las predicciones

In [55]:

frio_test_df = pd.read_csv('/content/Test_TP2_Datos_2020-2C.csv')
frio_test_df['Stage'] = 'Closed Won' #Esto esta solo para que funque todo, no lo uso. No se bien como armarlo sin los labels de Stage. TODO: Averiguar como es!
aux_df = frio_test_df[['Opportunity_ID']] #Esta columna la vuela el preprocesado sino
frio_test_df = preprocess_dataframe(frio_test_df)
frio_test_ds = df_to_dataset(frio_test_df, shuffle=False, batch_size=56)
predictions = model.predict(frio_test_ds)

aux_df.drop_duplicates(subset='Opportunity_ID', inplace=True) #Lo hacia el preprocesado pero es verdad que lo copie antes a este xd, perdon Agus, paja de dejarlo lindo.
aux_df['Target'] = predictions

#aux_df['Target'] = aux_df.groupby(by='Opportunity_ID').transform(lambda x: x.mean())
#aux_df.drop_duplicates(subset='Opportunity_ID', inplace=True)

aux_df.to_csv('prediccionesFrioFrio.csv', index=False)
'''
df = pd.read_csv('/content/Train_TP2_Datos_2020-2C.csv')
df = df[(df['Stage'] == 'Closed Won') | (df['Stage'] == 'Closed Lost')]
df = df[df['Opportunity_ID'] != 9773]
df = df[['Opportunity_ID']]
df.drop_duplicates(subset='Opportunity_ID', inplace=True)
np.random.seed(1)
drop_indices = np.random.choice(df.index, test_lines, replace=False)
df.drop(drop_indices, inplace=True)
predictions = model.predict(ds)
df['Target'] = predictions
df.to_csv('prediccionesFrioFrio.csv', index=False)
'''

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


"\ndf = pd.read_csv('/content/Train_TP2_Datos_2020-2C.csv')\ndf = df[(df['Stage'] == 'Closed Won') | (df['Stage'] == 'Closed Lost')]\ndf = df[df['Opportunity_ID'] != 9773]\ndf = df[['Opportunity_ID']]\ndf.drop_duplicates(subset='Opportunity_ID', inplace=True)\nnp.random.seed(1)\ndrop_indices = np.random.choice(df.index, test_lines, replace=False)\ndf.drop(drop_indices, inplace=True)\npredictions = model.predict(ds)\ndf['Target'] = predictions\ndf.to_csv('prediccionesFrioFrio.csv', index=False)\n"