In [110]:
import pandas as pd
import numpy as np

df = pd.read_csv("./data/train.csv")
df.shape

(16947, 52)

In [111]:
# columnas con valor unico -> no aportan informacion
nunique = df.apply(pd.Series.nunique)
cols_to_drop = nunique[nunique == 1].index
cols_to_drop

Index(['Submitted_for_Approval', 'Last_Activity', 'ASP_(converted)_Currency',
       'Actual_Delivery_Date', 'Prod_Category_A'],
      dtype='object')

In [112]:
# Elimino columnas que no aporta informacion
df.drop(cols_to_drop, axis=1, inplace = True)
df.shape

(16947, 47)

In [113]:
# Las propuestas diferentes a Closed Won o Closed Lost representan una infima cantidad (64/16mil)
# Son propuestas en curso que estan todavia en diferententes fases y no aportan informacion para predecir
# si la venta se produce o no
# son la moyoria del 2019 o 2020, y una que quedo colgada del 2017
df[(df['Stage']!= 'Closed Lost') & (df['Stage']!= 'Closed Won') ].shape

(64, 47)

In [114]:
# elimino esas 64 columnas
df = df[(df['Stage'] == 'Closed Lost') | (df['Stage'] == 'Closed Won') ]

In [115]:
# Busco columnas que solo tengan 2 valores distintos
cols_with_2_values = nunique[nunique == 2].index
cols_with_2_values

Index(['Pricing, Delivery_Terms_Quote_Appr',
       'Pricing, Delivery_Terms_Approved', 'Bureaucratic_Code_0_Approval',
       'Bureaucratic_Code_0_Approved', 'Quote_Type'],
      dtype='object')

In [116]:
# Solo la columna 'Quote_Type' tiene casi todos las entradas (casi 99%) con el mismo valor
df['Quote_Type'].value_counts()

Non Binding    16713
Binding          170
Name: Quote_Type, dtype: int64

In [117]:
# Y podemos ver que cuando toma el valor poco usual, 
# no determina si la oportunidad se cierra en positivo o en negativo
df[df['Quote_Type'] == "Binding"]['Stage'].value_counts()

Closed Won     86
Closed Lost    84
Name: Stage, dtype: int64

In [118]:
# Por lo tanto podemos descartar esa columna
df.drop('Quote_Type', axis=1, inplace = True)
df.shape


(16883, 46)

In [119]:
df.to_csv(r'./data/train_clean.csv', index = False)
df_clean = pd.read_csv("./data/train_clean.csv")
df_clean.shape

(16883, 46)