In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn')

In [None]:
oportunidades = pd.read_csv('Entrenamiento_ECI_2020.csv')
oportunidades['Account_Created_Date'] = pd.to_datetime(oportunidades['Account_Created_Date'])
oportunidades['Opportunity_Created_Date'] = pd.to_datetime(oportunidades['Opportunity_Created_Date'])
oportunidades['Quote_Expiry_Date'] = pd.to_datetime(oportunidades['Quote_Expiry_Date'])
oportunidades['Last_Modified_Date'] = pd.to_datetime(oportunidades['Last_Modified_Date'])
oportunidades['Planned_Delivery_Start_Date'] = pd.to_datetime(oportunidades['Planned_Delivery_Start_Date'])
oportunidades['Planned_Delivery_End_Date'] = pd.to_datetime(oportunidades['Planned_Delivery_End_Date'])
oportunidades = oportunidades.dropna()
oportunidades['Region'] = oportunidades['Region'].replace({'Japan':'APAC', 'Middle East':'EMEA'})
oportunidades.head(5)

In [None]:
#Filtramos datos no útiles como en el notebook de ClosedWon

oportunidades = oportunidades.loc[oportunidades['Territory'] != 'None']

filtro_terminos_entrega = oportunidades['Pricing, Delivery_Terms_Quote_Appr']\
     == oportunidades['Pricing, Delivery_Terms_Approved']

filtro_codigo_burocratico = oportunidades['Bureaucratic_Code_0_Approval']\
     == oportunidades['Bureaucratic_Code_0_Approved']

oportunidades = oportunidades.drop(['Pricing, Delivery_Terms_Quote_Appr'\
    ,'Pricing, Delivery_Terms_Approved', 'Bureaucratic_Code_0_Approval'\
        , 'Bureaucratic_Code_0_Approved', 'Submitted_for_Approval'], axis = 'columns')

oportunidades_posibles = (filtro_terminos_entrega & filtro_codigo_burocratico)

oportunidades.insert(3,'Es_Oportunidad_Posible', oportunidades_posibles)

oportunidades['Es_Oportunidad_Posible'] = oportunidades['Es_Oportunidad_Posible'].replace(
    {True:1, False:0})
oportunidades

In [None]:
#Obtenemos las columnas de total_amount y total_taxable_amount para cada una de las oportunidades.

oportunidades_amount = oportunidades.groupby('Opportunity_ID').agg({'Total_Amount': 'sum', 'Total_Taxable_Amount': 'mean'})
oportunidades_amount['Total_Amount'] = oportunidades_amount['Total_Amount'].round(1)
oportunidades_amount['Total_Taxable_Amount'] = oportunidades_amount['Total_Taxable_Amount'].round(1)
oportunidades_amount

In [None]:
#Conociendo las columnas puedo ver si alguna de estas tiene distinto taxable amount de total amount.
oportunidades_amount_loc = oportunidades_amount.loc[oportunidades_amount['Total_Amount'] != oportunidades_amount\
                                                    ['Total_Taxable_Amount']]
oportunidades_amount_loc

In [None]:
# Debido a que poseemos 616 elementos con diferencia entre su total amount y su taxable amount, 
# queremos ver si esto afecta a los casos de closed won o lost

oportunidades_amount_loc = oportunidades_amount_loc.reset_index()
oportunidades_amount_loc.columns = ['Opportunity_ID', 'Total_Amount_Sumado', 'Total_Tax_Amount_Comparado']
oportunidades_dif_amount = oportunidades.merge(oportunidades_amount_loc, on='Opportunity_ID')
oportunidades_dif_amount['Delta_Amount'] = (oportunidades_dif_amount['Total_Amount_Sumado'] - \
                                            oportunidades_dif_amount['Total_Taxable_Amount'])/ \
                                            oportunidades_dif_amount['Total_Amount_Sumado']
oportunidades_dif_amount = oportunidades_dif_amount.drop_duplicates('Opportunity_ID', keep='last')
oportunidades_dif_amount_stage = oportunidades_dif_amount[['Stage', 'Delta_Amount', 'Opportunity_ID']]
oportunidades_dif_amount_stage = oportunidades_dif_amount_stage.set_index('Opportunity_ID')
oportunidades_dif_amount_stage['Delta_Amount'] = oportunidades_dif_amount_stage['Delta_Amount'].round(1)
oportunidades_dif_amount_stage = oportunidades_dif_amount_stage.loc[(oportunidades_dif_amount_stage['Stage'] == 'Closed Lost') |\
                                                                    (oportunidades_dif_amount_stage['Stage'] == 'Closed Won')]
oportunidades_dif_amount_stage

In [None]:
# Conociendo los stage de cada uno podemos ver que porcentaje lidera en la diferencia, si closed lost o closed won, y
# por otro lado podemos analizar cual es el delta amount. Si es negativo es porque tiene mas tasa impositiva que total amount.
# Si es positivo, es lo contrario, menor tasa impositiva, que total amount.

colores = ["#FFD97D","#FF9B85"]
desfase = [0.03, 0.0]

oportunidades_count = oportunidades_dif_amount_stage.groupby('Stage').count()
oportunidades_count = oportunidades_count.reset_index()
ax = plt.pie(oportunidades_count['Delta_Amount'], labels = oportunidades_count['Stage'], autopct="%0.1f %%", \
        textprops={'fontsize': 16, 'color': '#02025F'}, colors = colores, explode=desfase)
plt.title('Stage para oportunidades con Diferencia entre Total_Tax_Amount y Total_Amount', 
             pad = 20, 
             fontdict={'fontsize':20, 'weight':'bold', 'color': '#000000'})
plt.axis("equal")

In [None]:
# Ademas, podemos ver si en cada closed lost el delta es negativo como se supondría que debería suceder, o si
# es distinto a lo que esperariamos (Lo mismo para closed wons.)

op_filtered = oportunidades_dif_amount_stage.loc[oportunidades_dif_amount_stage['Stage'] == 'Closed Lost']
oportunidades_para_scatter = op_filtered.groupby('Delta_Amount').agg({'Stage':'count'})\
                                .reset_index().rename({'Stage':'Cantidad'}, axis='columns')
ax = plt.hist(x = oportunidades_para_scatter['Delta_Amount'], bins= 2000)
plt.title('Closed Lost en función de la diferencia impositiva.', fontdict={'fontsize':20, 'weight':'bold', 'color': '#000000'})
plt.xlabel('Delta Amount')
plt.ylabel('Ocurrencia del Delta')

In [None]:
# Haciendo lo mismo para closed won

op_filtered = oportunidades_dif_amount_stage.loc[oportunidades_dif_amount_stage['Stage'] == 'Closed Won']
oportunidades_para_scatter = op_filtered.groupby('Delta_Amount').agg({'Stage':'count'})\
                                .reset_index().rename({'Stage':'Cantidad'}, axis='columns')
ax = plt.scatter(x = oportunidades_para_scatter['Delta_Amount'], y = oportunidades_para_scatter['Cantidad'])
plt.title('Closed Lost en función de la diferencia impositiva.', fontdict={'fontsize':20, 'weight':'bold', 'color': '#000000'})
plt.xlabel('Delta Amount')
plt.ylabel('Ocurrencia del Delta')