### Dynamic Fee: Data Processing con PANDAS
En la primera parte, con Spark, se bajaron las acciones de los visitantes del sitio en las últimas 4 semanas para un país. Esta información se pre procesó y se guardó en un Pandas Dataframe. 
 
Ahora en un segundo paso y de acá en adelante trabajo en un nuevo notebook así uso el cluster local.

In [None]:
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
get_ipython().magic(u'matplotlib inline')

In [None]:
# Levantar el PDF
alldataPDF = pd.read_csv("../dynamic_fee_processed_user_actions_MX_4WeeksTo18jul.csv", sep=',', header='infer')
alldataPDF.columns.values

In [None]:
# site que estoy analizando
cc = "MX"

### Limpieza de datos
Me quedo solo con checkouts y thanks, que usare para la estimacion

In [None]:
# Table de MAX fl 
alldataPDF.fl.value_counts()

In [None]:
alldata_ct = alldataPDF.loc[(alldataPDF['fl']=="checkout") | (alldataPDF['fl']=="thanks")]

In [None]:
alldata_ct.count()

In [None]:
# saco las observacions donde no se trackeo el precio
alldata_ct = alldata_ct.loc[(alldata_ct['pri'].isnull()==False)]

### Problemas con trackeos de pritax
Problemas: 
- 1) hasta el 19/7/2016  en MAPI se trackeaba en el campo "prir" el precio total, en vez de en "pri"
- 2) Por el momento no se trackea "pritax" (viene vacío) en los casos en que el hotel ofrece pago en destino. Además en esos casos en "pri" se trackea el precio sin impuestos
     
Soluciones:
- 1) Hacer el análisis excluyendo las acciones en MAPI previas al 19/7. Para identificarlo, en la parte de Spark se pedrirá también el campo "xClient" y se filtrará cuando el valor sea "mapi-hotels-v3"
- 2) Los casos donde "pri" no contiene los impuestos se identifican porque "pritax" viene vacío. Para esos casos, calcular el impuesto para completar "pritax" y luego sumarlos a "pri" para completar con el precio final.
     
#### Cálculo de "pritax":
- "pritax" se calcula con las tasas de impuestos que aplican en el destino (calculamos por iata de destino)
- Aplican diferentes impuestos (IVA, ISH, IGV, etc.)
- Cada impuesto puede tener una tasa distinta a nivel de ciudad, estado o país (para cada impuesto, aplica el de la ciudad si existiera, sino el del estado si existiera y por último el de país.)
- Se suma la tasa impositiva de cada impuesto distinto

In [None]:
alldata_noMAPI = alldata_ct.loc[alldata_ct['xClient']!="mapi-hotels-v3"]

In [None]:
# ya puedo descartar la columna xClient
alldata_noMAPI.drop('xClient', axis=1, inplace=True)

In [None]:
# ##### Armo una tabla de taxes para cada iata de destino

In [None]:
# Levantar tabla de destination taxes en PDF
dest_taxes = pd.read_csv("../dynamicFee/destinationtaxes.csv", sep=',', header='infer')
dest_taxes.columns.values

In [None]:
unique_taxes = dest_taxes['TAX_NAME'].unique()

In [None]:
# Levantar tabla de geoData en PDF
geoData = pd.read_csv("../geoData/geoDataPDF.csv", sep=',', header='infer')
geoData.columns.values

In [None]:
### Me quedo con una lista de 3 mil iatas unicos que figuran en la tabla de eventos asi no calculo para los 108.000 iatas de GEO
unique_iatas = alldataPDF["iata_dest"].unique()
len(unique_iatas)

In [None]:
# Create a list to store the data
lista_por_tax = []

for iata in unique_iatas:
    
    cityID = geoData.loc[geoData['iata']==iata, 'city_id']
    if len(cityID) > 0:
        cityID = cityID.values[0]
    else:
        cityID = 0
    
    stateID = geoData.loc[geoData['iata']==iata,'state_prov_id']
    if len(stateID) > 0:
        stateID = stateID.values[0]
    else:
        stateID = 0
    
    countryID = geoData.loc[geoData['iata']==iata,'country_id']
    if len(countryID) > 0:
        countryID = countryID.values[0]
    else:
        countryID = 0
    
    suma_rates = 0
    
    for tax in unique_taxes:
        city_taxrate = dest_taxes.loc[(dest_taxes['TAX_NAME']==tax) & (dest_taxes['GEOAREA']==cityID), 'PERCENTAGE']
        state_taxrate = dest_taxes.loc[(dest_taxes['TAX_NAME']==tax) & (dest_taxes['GEOAREA']==stateID), 'PERCENTAGE']
        country_taxrate = dest_taxes.loc[(dest_taxes['TAX_NAME']==tax) & (dest_taxes['GEOAREA']==countryID), 'PERCENTAGE']
    
    # acá viene la jerarquía donde, si para un tax hay un rate particular de la ciudad va ese, sino del estado, sino del pais 
        if len(city_taxrate) > 0:
            suma_rates += city_taxrate.values[0]
        elif len(state_taxrate) > 0:
            suma_rates += state_taxrate.values[0]
        elif len(country_taxrate) > 0:
            suma_rates += country_taxrate.values[0]    
            
    lista_por_tax.append(suma_rates) 
            
unique_iatas = pd.DataFrame(unique_iatas)            
unique_iatas['tax_rate'] = lista_por_tax

In [None]:
# renombro las columnas
unique_iatas.columns = ['iata', 'calc_tax_rate']

In [None]:
unique_iatas.describe(percentiles=[ 0.7, 0.8, 0.9])

In [None]:
# merge de la tabla de impuestos por iata con el impuesto calculado
alldata_taxfix = pd.merge(alldata_noMAPI, unique_iatas, how='left', left_on=['iata_dest'], right_on=['iata'])
alldata_taxfix.drop('iata', axis=1, inplace=True)

In [None]:
alldata_taxfix.fl.value_counts()

In [None]:
# calculo pritax para los casos en que pritax fue vacio. en esos casos, pri no incluia impuestos
alldata_taxfix['fixed_pritax'] = np.where((alldata_taxfix['pritax'].isnull())                                        , alldata_taxfix['calc_tax_rate'] / 100 * alldata_taxfix['pri']                                       , alldata_taxfix['pritax'])

In [None]:
# agrego el tax al precio final para los casos en que pritax fue vacio
alldata_taxfix['fixed_pri'] = np.where((alldata_taxfix['pritax'].isnull())                                        , alldata_taxfix['fixed_pritax'] + alldata_taxfix['pri']                                       , alldata_taxfix['pri'])

In [None]:
# creo un campo tax.percentage donde calculo el tax rate que me termino quedando
alldata_taxfix['tax_percentage'] = alldata_taxfix['fixed_pritax'] / alldata_taxfix['fixed_pri']*100

In [None]:
# Analizo tax_percentage. el problema de trackeo de pritax era en el flujo checkout
alldata_taxfix.loc[alldata_taxfix['fl']=="checkout"].tax_percentage.dropna().describe([0.05, 0.25,0.95, 0.99])

#### Paso precios a Per RoomNight (por noche por habitación)
Todavía no paso a dólares porque primero tengo que limpiar "exch" y como "cur" estuvo mal trackeado, necesito ver la magnitud de precios en moneda local y dólares para identificarlos

In [None]:
# to dollar and roomnight
alldata_taxfix['pri_rn'] = alldata_taxfix['fixed_pri'] / (alldata_taxfix['hr'] * alldata_taxfix['duration']) 

In [None]:
# el problema era en checkout
alldata_taxfix.loc[alldata_taxfix['fl']=="checkout"].pri_rn.dropna().describe([0.05, 0.25,0.5, 0.75,0.8, 0.9, 0.95, 0.99])

In [None]:
# ### Limpiar tipo de cambio
# Viendo como se distribuyen los precios, podría ser que siempre se cobre en moneda local

In [None]:
alldata_taxfix['cur'].value_counts()

In [None]:
alldata_taxfix['exch'].dropna().describe([0.05, 0.25,0.95, 0.99])

#### Completo el tipo de cambio con el promedio de las observaciones

In [None]:
alldata_taxfix['fixed_exch'] = alldata_taxfix['exch'].fillna(alldata_taxfix['exch'].mean())

In [None]:
alldata_taxfix['fixed_exch'].describe()

In [None]:
# to dollar and roomnight
alldata_taxfix['pri_usd'] = alldata_taxfix['fixed_pri'] / alldata_taxfix['fixed_exch']
alldata_taxfix['pri_usd_rn'] = alldata_taxfix['fixed_pri'] / (alldata_taxfix['fixed_exch'] * alldata_taxfix['hr'] * alldata_taxfix['duration']) 

In [None]:
alldata_taxfix['pri_usd'].describe([0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99])

#### Price / Stars

In [None]:
alldata_taxfix['price_stars'] = alldata_taxfix['pri_usd_rn'] / (alldata_taxfix['hc']) 

#### Completar Hotel Stars
Cuando el hotel es una cabaña o un hostel, hc=0. Para completar las estrellas en el analisis podría completar de acuerdo con los precios.

In [None]:
alldata_taxfix.hc.value_counts()

In [None]:
colors = np.where(alldata_taxfix.country_dest == cc, 'r', 'g')
plt.scatter(alldata_taxfix.pri_usd_rn, alldata_taxfix.hc, s=120, c=colors)

In [None]:
fig_size = plt.rcParams["figure.figsize"] 
print "old size",  fig_size
plt.rcParams["figure.figsize"] = [9, 6]
print "new size", fig_size

# Por el momento saco las observaciones donde hc=0

In [None]:
alldata_completehc = alldata_taxfix.loc[alldata_taxfix['hc']>0]

### Limpio Outliers
Con un describe() veo que variables toman valores raros. 
Luego filtro quedándome las observaciones donde tienen menos de 3 desvíos respecto de la media.

In [None]:
alldata_completehc.columns.values

In [None]:
# hay casos donde no tuve lat o long de origen o destino. excluyo esos casos (unos 25)
alldata_completeGeo = alldata_completehc.loc[np.isfinite(alldata_completehc['distance_km'])]

In [None]:
alldata_completeGeo.describe()

In [None]:
# si la anticipacion es -1, pongo 0. Si es <1, lo excluyo
alldata_completeGeo['anticipation'] = alldata_completeGeo['anticipation'].apply(lambda x: 0 if (x == -1) else x)
alldata_completeGeo = alldata_completeGeo.loc[alldata_completeGeo['anticipation'] >= 0]

In [None]:
def filterOutliers(bookings, features_to_filter):
    
    #print bookings[features_to_filter].describe()
    
    for column in bookings:
        if column in features_to_filter:
            X_col = bookings[column] # se queda solo con las columnas que elegi para evaluar outliers
            # se queda solo con las obs de TODAS LAS COLUMNAS de bookings donde esas columnas cumplen la siguiente condicion.
            bookings = bookings[np.abs(X_col - X_col.mean()) <= (3 * X_col.std())] 
    
    #print bookings[features_to_filter].describe()
    
    return bookings

In [None]:
features_w_outliers = ['actions_count', 'session_count', 'search_count', 'detail_count', 'checkout_count',
                       'anticipation', 'pri_usd_rn', 'price_stars' ]
# se queda solo con las columnas que elegi para evaluar outliers

In [None]:
# quiero aplicar el filtro de outliers pero que me tome una distinta medida de media y desvio estandar de cada campo por flow, 
# porque la cantidad de acciones cambia mucho segun el flow
def filterOutliersByVar(bookings, features_to_filter, var_to_subset):
    
    print bookings[features_to_filter].describe()
    
    clean_PDF = pd.DataFrame()
    unique_values = bookings[var_to_subset].unique()
    
    for value in unique_values:
        sub_PDF = bookings[bookings[var_to_subset]==value]
        filtered_sub_PDF = filterOutliers(sub_PDF, features_w_outliers)
        clean_PDF = clean_PDF.append(filtered_sub_PDF) #but the append doesn't happen in-place, so you'll have to store the output if you want it
    
    print clean_PDF[features_to_filter].describe()
    
    return clean_PDF       

In [None]:
alldata_clean = filterOutliersByVar(alldata_completeGeo, features_w_outliers, "fl")

#### Guardo como .csv

In [None]:
alldata_clean.to_csv("../dynamicFee/preliminar_data.csv", sep=',', index=False)