# Organización de Datos
## Trabajo Práctico Número 1
### Grupo: L3M
#### Integrantes
1. Gastón Sanchez
2. Diego Durante
3. Juan Rabadan

## Configuración Inicial

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pandas_profiling import ProfileReport

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs
pd.set_option('display.max_columns', 55)

import warnings
warnings.filterwarnings('ignore')

## Columnas del Dataframe

| **Nombre**    | **Descripción**  | **DType**     | CASTED TO    | 
| :--| :-- | :-- | :-- |
| **ID**             | id único del registro |int64 |- |
| **Región** | región de la oportunidad |object |category |
| **Territory** | territorio comercial de la oportunidad |object |category |
| **Pricing, Delivery_Terms_Quote_Approval** | variable que denomina si la oportunidad necesita aprobación especial de su precio total y los términos de la entrega |int64 |- |
| **Pricing, Delivery_Terms_Approved** | variable que denomina si la oportunidad obtuvo aprobación especial de su precio total y los términos de la entrega |int64 |- |
| **Bureaucratic_Code_0_Approval** | variable que denomina si la oportunidad necesita el código burocrático 0 |int64 |- |
| **Bureaucratic_Code_0_Approved** | variable que denomina si la oportunidad obtuvo el código burocrático 0 |int64 |- |
| **Submitted_for_Approval** | variable que denomina si fue entregada la oportunidad para la aprobación |int64 |- |
| **Bureaucratic_Code** | códigos burocráticos que obtuvo la oportunidad |object |category |
| **Account_Created_Date** | fecha de creación de la cuenta del cliente |object |datetime64[ns] |
| **Source** | fuente de creación de la oportunidad |object |category |
| **Billing_Country** | país donde se emite la factura |object |category |
| **Account_Name** | nombre de la cuenta del cliente |object |category |
| **Opportunity_Name** | nombre de la oportunidad |object |category |
| **Opportunity_ID** | id de la oportunidad |int64|- |
| **Sales_Contract_No** | número de contrato |object |int64 |
| **Account_Owner** | vendedor del equipo comercial responsable de la cuenta cliente |object |category |
| **Opportunity_Owner** | vendedor del equipo comercial responsable de la oportunidad comercial |object |category |
| **Account_Type** | tipo de cuenta cliente |object |category |
| **Opportunity_Type** | tipo de oportunidad |object |category |
| **Quote_Type** | tipo de presupuesto |object |category |
| **Delivery_Terms** | términos de entrega |object |category |
| **Opportunity_Created_Date** | fecha de creación de la oportunidad comercial |object |datetime64[ns] |
| **Brand** | marca del producto |object |category |
| **Product_Type** | tipo de producto |object |category |
| **Size** | tamaño del producto |object |category |
| **Product_Category_B** | categoría 'B' del producto |object |category |
| **Price** | precio | - |Decimal |
| **Currency** | moneda |object |category |
| **Last_Activity** | fecha de la última actividad |object |datetime64[ns] |
| **Quote_Expiry_Date** | fecha de vencimiento del presupuesto |object |datetime64[ns] |
| **Last_Modified_Date** | fecha de ultima modificación en la oportunidad |object |datetime64[ns] |
| **Last_Modified_By** | usuario responsable de la última modificación en la oportunidad |object |category |
| **Product_Family** | familia de producto |object |category |
| **Product_Name** | nombre del producto |object |category |
| **ASP_Currency** | moneda del precio promedio |object |category |
| **ASP** | (Average Selling Price) precio promedio a la venta |float64 |- |
| **ASP_(converted)_Currency** | moneda del precio promedio convertido en la variable |object |category |
| **ASP_(converted)** | precio promedio a la venta convertido a otra moneda |float64 |- |
| **Planned_Delivery_Start_Date** | límite inferior del rango previsto para la fecha de entrega |object |datetime64[ns] |
| **Planned_Delivery_End_Date** | límite superior del rango previsto para la fecha de entrega |object |datetime64[ns] |
| **Month** | mes-año de Planned_Delivery_Start_Date | - |Fecha |
| **Delivery_Quarter** | trimestre de Planned_Delivery_Start_Date |object |category |
| **Delivery_Year** | año de Planned_Delivery_Start_Date |object |- |
| **Actual_Delivery_Date** | fecha real de la entrega |object |datetime64[ns] |
| **TRF** | Toneladas de refrigeración |int64|- |
| **Total_Amount_Currency** | moneda del monto total |object |?? |
| **Total_Amount** | monto total |float64 |- |
| **Total_Taxable_Amount_Currency** | moneda del monto gravado total |object |category |
| **Total_Taxable_Amount** | monto gravado total |float64 |-|
| **Stage** | variable target. Estado de la oportunidad |object |category |
| **Prod_Category_A** | categoría 'A' del producto |object |category |
| **Total_Power_Discreet** | categorización de la variable Total Power en bins |object |category |



In [155]:
# Leemos el archivo csv y convertimos ciertas columnas a tipos de datos más eficientes.
# Numpy data types https://numpy.org/doc/stable/user/basics.types.html

df = pd.read_csv('data/Entrenamieto_ECI_2020.csv', 
                dtype={
                    'Region': 'category', 
                    'Territory': 'category',
                    'Bureaucratic_Code': 'category',
                    'Source ': 'category',
                    'Billing_Country': 'category',
                    'Account_Name': 'category',
                    'Opportunity_Name': 'category',
                    'Account_Owner': 'category',
                    'Opportunity_Owner': 'category', 
                    'Account_Type': 'category', 
                    'Opportunity_Type': 'category',     
                    'Quote_Type': 'category', 
                    'Delivery_Terms': 'category',
                    'Brand': 'category',
                    'Product_Type': 'category',
                    'Size': 'category',
                    'Product_Category_B': 'category',    
                    'Currency': 'category',
                    'Last_Modified_By': 'category',    
                    'Product_Family': 'category',    
                    'Product_Name': 'category',
                    'ASP_Currency': 'category',    
                    'ASP_(converted)_Currency': 'category',    
                    'Delivery_Quarter': 'category',    
                    'Total_Taxable_Amount_Currency': 'category',
                    'Total_Amount_Currency': 'category',
                    'Stage': 'category',
                    'Pricing, Delivery_Terms_Quote_Appr': np.bool_,
                    'Pricing, Delivery_Terms_Approved': np.bool_,
                    'Bureaucratic_Code_0_Approval': np.bool_,
                    'Bureaucratic_Code_0_Approved': np.bool_,
                    'Submitted_for_Approval': np.bool_,
                    'Delivery_Year': np.int8,
                },
                parse_dates=[
                    'Account_Created_Date',
                    'Opportunity_Created_Date',
                    'Quote_Expiry_Date',
                    'Last_Modified_Date',
                    'Planned_Delivery_Start_Date',
                    'Planned_Delivery_End_Date'],
                infer_datetime_format=True)

# Convertimos Sales_Contract_No al tipo de datos numerico
df['Sales_Contract_No'] = pd.to_numeric(df['Sales_Contract_No'], errors='coerce')

# Renombramos algunas columnas
df.rename({'Source ': 'Source', 
           'Pricing, Delivery_Terms_Quote_Appr': 'Approval_Required',
           'Pricing, Delivery_Terms_Approved': 'Approval_Ok',
           'Bureaucratic_Code_0_Approval': 'BC0_Required',
           'Bureaucratic_Code_0_Approved': 'BC0_Ok',
          },  
          axis = "columns", inplace = True)

# Se reemplazan los nan con 0 en las siguientes columnas numéricas
df['ASP'] = df['ASP'].fillna(0)
df['ASP_(converted)'] = df['ASP_(converted)'].fillna(0)

In [156]:
# Tamaño del DataFrame (16947 files x 52 columnas)
df.shape

(16947, 52)

In [160]:
# Revisamos algunas columnas en donde faltan valores.
# df['Brand'].value_counts(normalize=True) 94% None / 4% Other
# df['Price'].value_counts(normalize=True) 94% None / 4% Other
# df['Product_Category_B'].value_counts(normalize=True) 94% None / 3% Other
# df['Source'].value_counts(normalize=True) 56% None
# df['Sales_Contract_No'].isnull().value_counts(normalize=True) 59% None 41% Dato


# df['Stage'].value_counts()
# Closed Won       9533
# Closed Lost      7350
# Proposal           35
# Negotiation        18
# Qualification      11

## Conversión de precios a una misma moneda
> El objetivo buscado es poder pasar los importes totales de las oportunidades a una misma moneda. Se utilizará como moneda común los dólares americanos USD. Para ello, se intentará construir una columna de tipo de cambio (Exchange_Rate) que nos permita convertir de la moneda de origen a la moneda de destino (USD). En caso que tanto la moneda de origen como la de destino sean USD, el tipo de cambio tendrá un valor de 1.00. 
Luego de tener generada la columna tipo de cambio, la idea es agrupar por Opportunity_ID, sumar Total_Amount y multiplicar por el Exchange_Rate. Con esto lograríamos que todos los Total_Taxable_Amount de las oportunidades estén expresados en un misma moneda y que puedan ser comparables.

In [162]:
# A modo de ejemplo, se muestran a continuación, dos Oportunidades que incluyen cada una de ellas, más de una fila. IDs 8 y 9
# Por simplicidad solo se mostrarán los datos de algunas columnas relevantes.
df.loc[df.Opportunity_ID.isin([8,9]) ,['Opportunity_ID','ASP', 'ASP_(converted)', 'Total_Amount', 'Total_Taxable_Amount']].set_index('Opportunity_ID')

Unnamed: 0_level_0,ASP,ASP_(converted),Total_Amount,Total_Taxable_Amount
Opportunity_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
8,0.0,0.0,15600.0,470400.0
8,0.0,0.0,4400.0,470400.0
8,0.0,0.0,6200.0,470400.0
8,0.0,0.0,140000.0,470400.0
8,78.0,0.7,304200.0,470400.0
9,0.0,0.0,23400.0,559320.0
9,0.0,0.0,4400.0,559320.0
9,0.0,0.0,6200.0,559320.0
9,0.0,0.0,140000.0,559320.0
9,78.0,0.7,385320.0,559320.0


In [None]:
# Como se puede ver en el ouput anterior, solo 1 fila de cada una de estas oportunidades tiene valores distintos a 0. 
# Por lo cual, se agrupará por Opportunity_ID, utilizando *max* como funcion de agregado y luego así poder calcular correctamente 
# la columna de Exchange_Rate.

In [163]:
# La columna ASP representa el precio promedio a la venta en la moneda del pais de billing, 
# la columna ASP_(converted) representa lo mismo pero en dólares americanos. El cociente entre ambas columnas 
# ASP_(converted) / ASP nos permitirá obtener un tipo de cambio para convertir a dolares todos los importes de Total Taxable A

# Agrupo por Opportunity_ID, utilizo *max* como función de agregado para quedarme con los valores máximos de ASP y ASP_(Converted). 
# Estas dos columnas, cuando la Oportunidad cuenta con más de un fila, están en nan, excepto la última fila.  
df_asp_grouped = df.groupby('Opportunity_ID').agg('max').loc[:,['ASP', 'ASP_(converted)']]
df_asp_grouped['Exchange_Rate'] = df_asp_grouped['ASP_(converted)'] / df_asp_grouped['ASP']

In [167]:
df_null_asp_ids = df_asp_grouped.loc[df_asp_grouped['ASP'] == 0,:].index

In [169]:
df_null_asp_ids

Int64Index([   41,   105,   211,   214,   246,   249,   251,   331,   368,
              437,
            ...
            12473, 12475, 12477, 12486, 12514, 12520, 12659, 12673, 12685,
            12704],
           dtype='int64', name='Opportunity_ID', length=164)

In [172]:
# La siguiente operación, nos mostrará aquellas oportunidades en donde la columna ASP tiene como valor 0, 
# con lo cual hace que el tipo de cambio resultante tienda a infinito.
df_to_fix = df.loc[(df.Opportunity_ID.isin(df_null_asp_ids)), ['Opportunity_ID','Billing_Country','ASP','ASP_(converted)','Total_Amount', 'Total_Taxable_Amount','Stage']]

In [None]:
# Para los anteriores registros hay que pensar como completar esos valores, o bien descartarlos de la muestra.

In [116]:
df.columns

Index(['ID', 'Region', 'Territory', 'Approval_Required', 'Approval_Ok',
       'BC0_Required', 'BC0_Ok', 'Submitted_for_Approval', 'Bureaucratic_Code',
       'Account_Created_Date', 'Source', 'Billing_Country', 'Account_Name',
       'Opportunity_Name', 'Opportunity_ID', 'Sales_Contract_No',
       'Account_Owner', 'Opportunity_Owner', 'Account_Type',
       'Opportunity_Type', 'Quote_Type', 'Delivery_Terms',
       'Opportunity_Created_Date', 'Brand', 'Product_Type', 'Size',
       'Product_Category_B', 'Price', 'Currency', 'Last_Activity',
       'Quote_Expiry_Date', 'Last_Modified_Date', 'Last_Modified_By',
       'Product_Family', 'Product_Name', 'ASP_Currency', 'ASP',
       'ASP_(converted)_Currency', 'ASP_(converted)',
       'Planned_Delivery_Start_Date', 'Planned_Delivery_End_Date', 'Month',
       'Delivery_Quarter', 'Delivery_Year', 'Actual_Delivery_Date', 'TRF',
       'Total_Amount_Currency', 'Total_Amount',
       'Total_Taxable_Amount_Currency', 'Total_Taxable_Amount', 

In [137]:
df_asp_grouped

Unnamed: 0_level_0,ASP,ASP_(converted),Exchange_Rate
Opportunity_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.52,0.59,1.13
1,0.53,0.60,1.13
2,0.48,0.48,1.00
3,0.53,0.53,1.00
4,0.53,0.53,1.00
...,...,...,...
12799,0.52,0.58,1.13
12800,0.53,0.53,1.00
12801,0.52,0.59,1.13
12802,0.64,0.64,1.00


In [138]:
df_asp_grouped.rename({'ASP': 'Foreign_Currency', 
           'ASP_(converted)': 'USD_Currency',
          },  
          axis = "columns", inplace = True) 

In [139]:
df_merged = df.merge(df_asp_grouped, left_on='Opportunity_ID', right_on='Opportunity_ID')

In [140]:
df_merged.loc[:,['Opportunity_ID','Billing_Country','ASP','Foreign_Currency','ASP_(converted)','USD_Currency','Total_Amount', 'Total_Taxable_Amount','Exchange_Rate','Stage']]

Unnamed: 0,Opportunity_ID,Billing_Country,ASP,Foreign_Currency,ASP_(converted),USD_Currency,Total_Amount,Total_Taxable_Amount,Exchange_Rate,Stage
0,0,Netherlands,0.52,0.52,0.59,0.59,5272800.00,5272800.00,1.13,Closed Lost
1,1,Netherlands,0.53,0.53,0.60,0.60,48230.00,48230.00,1.13,Closed Won
2,2,United States,0.48,0.48,0.48,0.48,83865.60,83865.60,1.00,Closed Won
3,3,United States,0.53,0.53,0.53,0.53,7421881.50,7421881.50,1.00,Closed Lost
4,4,United States,0.53,0.53,0.53,0.53,13357192.50,13357192.50,1.00,Closed Lost
...,...,...,...,...,...,...,...,...,...,...
16942,12801,Austria,0.52,0.52,0.59,0.59,103350.00,299715.00,1.13,Closed Won
16943,12801,Austria,0.52,0.52,0.59,0.59,93015.00,299715.00,1.13,Closed Won
16944,12801,Austria,0.52,0.52,0.59,0.59,103350.00,299715.00,1.13,Closed Won
16945,12802,United States,0.64,0.64,0.64,0.64,2346796.88,0.00,1.00,Closed Lost


In [142]:
df_merged.loc[df_merged['Foreign_Currency']==0,['Opportunity_ID','Billing_Country','ASP','Foreign_Currency','ASP_(converted)','USD_Currency','Total_Amount', 'Total_Taxable_Amount','Exchange_Rate','Stage']]

Unnamed: 0,Opportunity_ID,Billing_Country,ASP,Foreign_Currency,ASP_(converted),USD_Currency,Total_Amount,Total_Taxable_Amount,Exchange_Rate,Stage
110,41,Japan,0.00,0.00,0.00,0.00,20280.00,20280.00,,Closed Lost
196,105,Japan,0.00,0.00,0.00,0.00,34000.00,390050.00,,Closed Won
197,105,Japan,0.00,0.00,0.00,0.00,26000.00,390050.00,,Closed Won
198,105,Japan,0.00,0.00,0.00,0.00,1200.00,390050.00,,Closed Won
199,105,Japan,0.00,0.00,0.00,0.00,6200.00,390050.00,,Closed Won
...,...,...,...,...,...,...,...,...,...,...
16334,12514,Germany,0.00,0.00,0.00,0.00,0.00,0.00,,Closed Lost
16348,12520,France,0.00,0.00,0.00,0.00,0.00,0.00,,Closed Lost
16659,12659,France,0.00,0.00,0.00,0.00,0.00,0.00,,Closed Lost
16684,12673,United States,0.00,0.00,0.00,0.00,3380000.00,3380000.00,,Closed Lost


In [144]:
df_merged.shape

(16947, 55)