# Análisis y modelado


1. [Preparación del espacio de trabajo](#preparacion)<br>
    1.1.[Librerías](#librerias)<br>
    1.2.[Carga de los datos](#carga)<br>
    1.3.[Exploración inicial de los datos](#exploracion_inicial)<br>
2. [Limpieza de los datos.](#limpieza)<br>
    2.1.[Conversión a tipo 'datetime'e 'int'](#conversion_datetime_int)<br>
    2.2.[Eliminación de campos innecesarios](#campos_innecesarios)<br>
    2.3.[Imputación de valores nulos.](#imputacion)<br>
    2.4.[Variables dummy](#dummy)<br>
3. [Visualización de los datos](#visualización)
4. [Modelado](#modelado)
5. [Evaluación](#evaluacion)
    


<a id='preparacion'></a>

## 1. Preparación del espacio de trabajo

En este primier bloque, se cargan los datos del ejercicio y se realiza una exploración inicial de los datos, que permita comprenderlos de forma superficial.

<a id='librerias'></a>

### 1.1. Librerías

In [33]:
# Herramienta de análisis y manipulación de datos estructurados
import pandas as pd

# Paquete fundamental para la computación científica en Python
import numpy as np

# Para la creación de visualizaciones
import matplotlib.pyplot as plt

<a id='carga'></a>

### 1.2. Carga de los datos

In [34]:
# Se cargan los datos del proyecto, que están almacenados en un archivo '.csv', en 
# un dataframe. En algunas columnas, se ha especificado que sus valores sean 
# considerados como de tipo 'str' debido a que en un solo campo puede haber varios
# tipos de datos y éste es el que no genera problemas

df = pd.read_csv("rec_sys_alumnos.csv", dtype={"sexo": str,
                                               "edad": str,
                                               "num_antiguedad": str,
                                               "fec_ult_cli_1t": str,
                                               "ind_nuevo": str,
                                               "ult_fec_cli_1t": str,
                                               "indext": str,
                                               "cod_provincia": str})

<a id='exploracion_inicial'></a>

### 1.3. Exploración inicial de los datos

In [35]:
# Número de filas y de columnas de los datos de entrada
df.shape

(634682, 49)

In [36]:
# Exposición de las cinco primeras filas del dataframe
df.head()

Unnamed: 0.1,Unnamed: 0,cod_persona,mes,pais,sexo,edad,fecha1,xti_empleado,xti_nuevo_cliente,num_antiguedad,...,ind_prod16,ind_prod17,ind_prod18,ind_prod19,ind_prod20,ind_prod21,ind_prod22,ind_prod23,ind_prod24,ind_prod25
0,0,178103,2015-01-28,ES,H,35,2015-01-12,N,0.0,6,...,0,0,0,0,0,0,0.0,0.0,0,0
1,1,503082,2015-01-28,ES,V,27,2012-08-10,N,0.0,35,...,0,0,0,0,0,0,0.0,0.0,0,0
2,2,502996,2015-01-28,ES,V,37,2012-08-10,N,0.0,35,...,0,0,0,0,0,0,0.0,0.0,0,0
3,3,503053,2015-01-28,ES,H,23,2012-08-10,N,0.0,35,...,0,0,0,0,0,0,0.0,0.0,1,0
4,4,503031,2015-01-28,ES,H,44,2012-08-10,N,0.0,35,...,0,0,0,0,0,0,0.0,0.0,0,0


In [37]:
# Exposición de los nombres de los campos asociados a las variables a predecir
productos = df.iloc[:, 24:].columns
productos

Index(['ind_prod1', 'ind_prod2', 'ind_prod3', 'ind_prod4', 'ind_prod5',
       'ind_prod6', 'ind_prod7', 'ind_prod8', 'ind_prod9', 'ind_prod10',
       'ind_prod11', 'ind_prod12', 'ind_prod13', 'ind_prod14', 'ind_prod15',
       'ind_prod16', 'ind_prod17', 'ind_prod18', 'ind_prod19', 'ind_prod20',
       'ind_prod21', 'ind_prod22', 'ind_prod23', 'ind_prod24', 'ind_prod25'],
      dtype='object')

In [38]:
# Creación de una función que permita acceder de forma rápida a una visualización
# de los campos del dataframe, que datos almacena y cuántos nulos hay
def tipos_y_nulos(df):
    """Exposición del tipo de datos almacenados y el numero de valores nulos de cada campo"""
    
    df_tipos_y_nulos = pd.DataFrame({'Columna': df.columns, 
                                     'dtype': df.dtypes.tolist(),
                                     'Número de nulos': df.isna().sum().tolist()})
        

    return df_tipos_y_nulos

tipos_y_nulos(df)

Unnamed: 0,Columna,dtype,Número de nulos
0,Unnamed: 0,int64,0
1,cod_persona,int64,0
2,mes,object,0
3,pais,object,56
4,sexo,object,65
5,edad,object,0
6,fecha1,object,56
7,xti_empleado,object,56
8,xti_nuevo_cliente,float64,56
9,num_antiguedad,object,0


Este análisis revela que existen un gran número de campos que han de ser limpiados y procesados, en mayor o menor medida. Esta labor se realizará en el siguiente bloque.

<a id='limpieza'></a>

## 2. Limpieza de los datos

Tras un primer análisis superficial, se establecieron los siguientes objetivos para este bloque:


<a id='conversion_datetime_int'></a>

### 2.1. Conversión a tipo 'datetime' e 'int'

In [39]:
# El campo 'mes', que se había leido como tipo 'string', indica la fecha en que se toma el dato de la fila correspondiente.
# Se decide pasar los datos a tipo 'datetime' para facilitar operaciones posteriores
df["mes"] = pd.to_datetime(df["mes"], format="%Y-%m-%d")
df = df.rename(columns={"mes": "fecha"})


# En el campo 'fecha1', tambien se pasan los valores a tipo 'datetime' por las mismas razones que 
# se cambió el campo 'mes' ('fecha'). También se cambia el nombre, con el objetivo de hacerlo 
# más descritivo de su función
df["fecha1"] = pd.to_datetime(df["fecha1"], format="%Y-%m-%d")
df = df.rename(columns={"fecha1": "fecha_alta"})

In [40]:
# El campo edad posee datos de tipo 'str'
df["edad"].unique()

array([' 35', ' 27', ' 37', ' 23', ' 44', ' 22', ' 24', ' 29', ' 26',
       ' 28', ' 30', ' 33', ' 32', ' 59', ' 36', ' 34', ' 25', ' 31',
       ' 38', ' 65', ' 56', ' 72', ' 11', ' 57', '  9', ' 53', ' 49',
       ' 42', ' 43', ' 52', ' 40', ' 50', ' 46', ' 41', ' 15', ' 12',
       ' 47', ' 48', ' 60', ' 54', ' 14', ' 69', ' 75', ' 83', ' 67',
       ' 61', ' 18', ' 39', ' 62', ' 17', ' 51', ' 64', ' 84', ' 63',
       ' 45', ' 58', ' 86', ' 20', ' 76', '  5', ' 55', '  8', ' 90',
       ' 89', '  6', '  7', ' 78', ' 82', ' 68', ' 77', ' 71', ' 10',
       ' 81', ' 66', ' NA', ' 21', ' 13', ' 91', '100', ' 74', ' 87',
       ' 73', ' 16', ' 79', ' 80', ' 93', ' 70', ' 88', ' 92', ' 85',
       ' 19', '  3', ' 94', '  4', ' 95', '109', ' 96', ' 99', '102',
       '107', '101', ' 97', ' 98', '105', '104', '103', '117', '106',
       '  2', '110', '108'], dtype=object)

In [41]:
# Se convierten los valores a tipo 'int'
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["edad"].unique()

array([ 35.,  27.,  37.,  23.,  44.,  22.,  24.,  29.,  26.,  28.,  30.,
        33.,  32.,  59.,  36.,  34.,  25.,  31.,  38.,  65.,  56.,  72.,
        11.,  57.,   9.,  53.,  49.,  42.,  43.,  52.,  40.,  50.,  46.,
        41.,  15.,  12.,  47.,  48.,  60.,  54.,  14.,  69.,  75.,  83.,
        67.,  61.,  18.,  39.,  62.,  17.,  51.,  64.,  84.,  63.,  45.,
        58.,  86.,  20.,  76.,   5.,  55.,   8.,  90.,  89.,   6.,   7.,
        78.,  82.,  68.,  77.,  71.,  10.,  81.,  66.,  nan,  21.,  13.,
        91., 100.,  74.,  87.,  73.,  16.,  79.,  80.,  93.,  70.,  88.,
        92.,  85.,  19.,   3.,  94.,   4.,  95., 109.,  96.,  99., 102.,
       107., 101.,  97.,  98., 105., 104., 103., 117., 106.,   2., 110.,
       108.])

<a id='campos_innecesarios'></a>

### 2.2. Eliminación de campos innecesarios

In [42]:
# El campo 'Unnamed: 0' está asociado a un índice de las filas del archivo '.csv'
# original. El dataframe 'df' cuenta con su propio índice, por lo que este campo 
# se elimina
df = df.drop(['Unnamed: 0'], axis=1)

In [43]:
# Se comprueba las proporcion de clientes nuevos y primarios
pd.DataFrame(df[["xti_rel", "xti_rel_1mes", "xti_nuevo_cliente"]].value_counts(), 
             columns=["Número"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Número
xti_rel,xti_rel_1mes,xti_nuevo_cliente,Unnamed: 3_level_1
1.0,1.0,0.0,596581
1.0,1.0,1.0,32164
1.0,3.0,1.0,157
1.0,2.0,0.0,42
1.0,0.0,1.0,39
99.0,1.0,0.0,22
1.0,4.0,1.0,13
99.0,1.0,1.0,10
1.0,2.0,1.0,10
99.0,3.0,1.0,1


Esta tabla demuestra que la gran mayoría de las veces, el cliente que es considerado como 'primary customer', lo es desde el principio del mes y durante todo el mes y no es nuevo. El siguiente grupo de clientes más importante es el de los clientes que son 'primary', durante todo el mes, y además son nuevos.

Se propone observar si existe alguna preferencia de estos clientes nuevos.

In [44]:
df_nuevos = df[df["xti_nuevo_cliente"]==1][productos]
df_nuevos.sum(axis=0).sort_values(ascending=False)

ind_prod3     25527.0
ind_prod24     2146.0
ind_prod5      1121.0
ind_prod7       917.0
ind_prod23      808.0
ind_prod22      764.0
ind_prod10      656.0
ind_prod13      575.0
ind_prod12      387.0
ind_prod6       170.0
ind_prod25      113.0
ind_prod18      100.0
ind_prod14       65.0
ind_prod19       61.0
ind_prod20       56.0
ind_prod16       23.0
ind_prod4         3.0
ind_prod21        2.0
ind_prod15        0.0
ind_prod11        0.0
ind_prod17        0.0
ind_prod9         0.0
ind_prod8         0.0
ind_prod2         0.0
ind_prod1         0.0
dtype: float64

Se puede observar como el producto más empleado por los nuevos clientes es el 'ind_prod3'. A continuación, se explora como influye el mes del año en este hecho.

In [45]:
df_nuevos = df[df["xti_nuevo_cliente"]==1][productos]
df_nuevos["mes"] = df[df["xti_nuevo_cliente"]==1]["fecha"]
df_nuevos = df_nuevos[df_nuevos["mes"] <= df["fecha"].unique()[11]]

df_nuevos["mes"] = pd.DatetimeIndex(df_nuevos["mes"]).month
df_nuevos

Unnamed: 0,ind_prod1,ind_prod2,ind_prod3,ind_prod4,ind_prod5,ind_prod6,ind_prod7,ind_prod8,ind_prod9,ind_prod10,...,ind_prod17,ind_prod18,ind_prod19,ind_prod20,ind_prod21,ind_prod22,ind_prod23,ind_prod24,ind_prod25,mes
4749,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,,,0,0,1
11054,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,1
32218,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,2
34036,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,2
35518,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
448873,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,12
448874,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,12
448875,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,12
448899,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0.0,0.0,0,0,12


In [46]:
# Numero de productos nuevos añadidos, por categoría
df_nuevos.groupby("mes").sum().diff()

Unnamed: 0_level_0,ind_prod1,ind_prod2,ind_prod3,ind_prod4,ind_prod5,ind_prod6,ind_prod7,ind_prod8,ind_prod9,ind_prod10,...,ind_prod16,ind_prod17,ind_prod18,ind_prod19,ind_prod20,ind_prod21,ind_prod22,ind_prod23,ind_prod24,ind_prod25
mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,,
2,0.0,0.0,123.0,0.0,3.0,1.0,1.0,0.0,0.0,20.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0
3,0.0,0.0,121.0,0.0,16.0,0.0,7.0,0.0,0.0,34.0,...,0.0,0.0,0.0,1.0,0.0,0.0,13.0,13.0,17.0,1.0
4,0.0,0.0,97.0,0.0,11.0,6.0,14.0,0.0,0.0,23.0,...,1.0,0.0,1.0,0.0,0.0,0.0,13.0,14.0,34.0,0.0
5,0.0,0.0,110.0,0.0,7.0,0.0,6.0,0.0,0.0,-6.0,...,0.0,0.0,0.0,1.0,0.0,0.0,7.0,6.0,17.0,1.0
6,0.0,0.0,89.0,0.0,13.0,2.0,7.0,0.0,0.0,-10.0,...,0.0,0.0,2.0,1.0,0.0,0.0,12.0,13.0,32.0,1.0
7,0.0,0.0,536.0,0.0,24.0,1.0,-5.0,0.0,0.0,-2.0,...,1.0,0.0,4.0,1.0,0.0,0.0,16.0,18.0,29.0,1.0
8,0.0,0.0,507.0,0.0,-14.0,0.0,11.0,0.0,0.0,14.0,...,-1.0,0.0,-1.0,-1.0,1.0,0.0,-22.0,-24.0,-17.0,0.0
9,0.0,0.0,683.0,0.0,-1.0,-1.0,3.0,0.0,0.0,3.0,...,0.0,0.0,2.0,2.0,1.0,0.0,3.0,3.0,26.0,3.0
10,0.0,0.0,795.0,0.0,8.0,-1.0,3.0,0.0,0.0,-2.0,...,-1.0,0.0,2.0,4.0,3.0,0.0,8.0,10.0,34.0,6.0


El enunciado del problema, explica que el reto consiste en predecir que productos contrataran los clientes, existentes en el último mes del dato. El último mes, como se muestra a continuación, es Abril del 2016, por lo tanto, habrá que evaluar qué productos incorporan los nuevos clientes en Mayo del 2015.

In [47]:
# De momento me lo cargo, más adelante se verá si se puede imputar
df = df.drop(["fec_ult_cli_1t"], axis=1)

<a id='imputacion'></a>

### 2.3. Imputación de valores nulos

In [48]:
# Se prueba a incluir los valores nulos como categoria
df["tip_rel_1mes"] = df["tip_rel_1mes"].fillna("NaN")
df["des_canal"] = df["des_canal"].fillna("NaN")
df["cod_provincia"] = df["cod_provincia"].fillna("NaN")
df["xti_rel_1mes"] = df["xti_rel_1mes"].fillna(0) # Chapuza
df["id_segmento"] = df["id_segmento"].fillna("NaN") 
df["mean_engagement"] = df["mean_engagement"].fillna(df["mean_engagement"].mean())
df = df[df.ind_prod22.notnull()]
df = df[df.ind_prod23.notnull()]

In [49]:
# Se prueba a incluir los valores nulos como categorias en los siguientes campos
df["tip_rel_1mes"] = df["tip_rel_1mes"].fillna("null")
df["des_canal"] = df["des_canal"].fillna("null")
df["cod_provincia"] = df["cod_provincia"].fillna("null")
df["id_segmento"] = df["id_segmento"].fillna("null") 

In [50]:
df["xti_rel_1mes"] = df["xti_rel_1mes"].fillna(0) # Chapuza

# Se imputa el engagement medio con su media
df["mean_engagement"] = df["mean_engagement"].fillna(df["mean_engagement"].mean())

# Se eliminan las filas donde el producto 22 y 23 son nulos
df = df[df.ind_prod22.notnull()]
df = df[df.ind_prod23.notnull()]

In [51]:
# Se imputa la renta con la mediana de las provincias
df['imp_renta'] = df['imp_renta'].fillna(df.groupby('cod_provincia')['imp_renta'].transform('median'))


# Se imputan el resto de nulos con la mediana global
df['imp_renta'] = df['imp_renta'].fillna(df['imp_renta'].median())

In [52]:
# Se recalcula el campo 'num_antiguedad'
# Para ello, se toma como referencia, la fecha de alta y la fecha en que se tomó el dato, y se restan 
# el número de meses de diferencia entre ambos campos
diff = (df["fecha"] - df["fecha_alta"]) /  np.timedelta64(1, 'M')
diff = diff.round()
df['num_antiguedad'] = diff # Con el redondeo, algunos meses se repiten => REVISAR

<a id='eliminacion_imputacion'></a>

### 2.3. Conversión de tipos de datos

In [53]:
# df = df.drop(columns=productos, axis=1)

In [54]:
# df.head()

In [56]:
# Creación de una función que cree variables dummy de los campos no numéricos


<a id=conversion></a>

## 2.3. Creación de variables

In [57]:
df_object = df.select_dtypes(include='object')

In [58]:
def dummies(df, columna):

    # Creacion de un dataframe con las variables dummies extraidas para cada valor 
    # del campo 'categoria_dos'
    dummies = pd.get_dummies(df[columna], prefix=columna,dummy_na=True)

    # Eliminacion del campo 'categoria_dos'
    df = df.drop([columna], axis = 1)

    # Union del dataframe con variables dummies al dataframe 'df'
    df = pd.merge(df, dummies, left_index=True, right_index=True)

    # Se devuelve el dataframe sobre el que se han realizado las operaciones
    return df

for columna in df_object.columns:
    df = dummies(df, columna)

In [None]:
cambio = df.groupby('cod_persona')[productos].diff()
cambio = cambio.fillna(0)
cambio.columns = [str(col) + '_cambio' for col in cambio.columns]

df = pd.concat([df, cambio], axis=1)


In [91]:
df["fecha"] = pd.DatetimeIndex(df['fecha']).month

In [95]:
df = df.drop(["fecha_alta"], axis=1)

In [108]:
productos_cambio = df.iloc[:, 11:36]

In [116]:
i = 1

df2 = df

for column in productos_cambio.columns:
    di = {1.: i, -1.: 0, 0.: 0}
    df2 = df2.replace({column: di})
    i+=1



In [122]:
y = df[productos_cambio.columns].sum(axis = 1)
y

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
         ... 
634677    0.0
634678    0.0
634679    0.0
634680    0.0
634681    0.0
Length: 634614, dtype: float64

In [127]:
from sklearn.model_selection import train_test_split

X = df.iloc[:, 0:11]
X = pd.concat([X, df.iloc[:, 36:]], axis=1) 
# y = df.iloc[:, 11:36]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [129]:
y_train.unique()

array([ 2.,  1.,  0., -2., -1.,  3., -3., -4.,  4., -5.,  5.])

In [133]:
y_train = (y_train+5)

In [None]:
# Vislua

In [135]:

import xgboost as xgb

def runXGB(train_X, train_y, seed_val=25):
    param = {}
    param['objective'] = 'multi:softprob'
    param['eta'] = 0.08
    param['max_depth'] = 7
    param['silent'] = 1
    param['num_class'] = 22
    param['eval_metric'] = "mlogloss"
    param['min_child_weight'] = 1
    param['subsample'] = 0.9
    param['colsample_bytree'] = 0.9
    param['seed'] = seed_val
    param['gamma'] = 0.15 
    param['reg-alpha']=0.075
    num_rounds = 100

    plst = list(param.items())
    xgtrain = xgb.DMatrix(train_X, label=train_y)
    model = xgb.train(plst, xgtrain, num_rounds)
    return model

model = runXGB(X_train, y_train)

Parameters: { reg-alpha, silent } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.




In [139]:
xgtest = xgb.DMatrix(X_test)

preds = model.predict(xgtest)

In [140]:
preds

array([[4.3136752e-04, 5.4637145e-04, 2.5826907e-03, ..., 4.1281554e-04,
        4.1281572e-04, 4.1281572e-04],
       [1.1349473e-04, 1.0879566e-04, 1.1587072e-04, ..., 1.0163575e-04,
        1.0163575e-04, 1.0163575e-04],
       [3.4691356e-04, 5.2446214e-04, 1.4377946e-03, ..., 3.3199400e-04,
        3.3199400e-04, 3.3199400e-04],
       ...,
       [5.4524615e-05, 5.3667514e-05, 5.5719291e-05, ..., 5.2179701e-05,
        5.2179701e-05, 5.2179701e-05],
       [1.2229335e-04, 1.2463702e-04, 1.3116821e-04, ..., 1.1703384e-04,
        1.1703384e-04, 1.1703384e-04],
       [7.3469753e-05, 8.3818399e-05, 8.6690554e-05, ..., 6.9770111e-05,
        6.9770111e-05, 6.9770111e-05]], dtype=float32)

<a id='visualizacion'></a>

## Visualizacion

In [None]:
plt.figure(figsize = (12, 6))

plt.subplot(121)
plt.title("Distribucion de la variable objetivo 'price'")
sns.distplot(df_usa['price'])

plt.subplot(122)
g1 = plt.scatter(range(df_usa.shape[0]), np.sort(df_usa.price.values))
g1= plt.title("Curva de la distribucion de 'price'", fontsize=15)
g1 = plt.xlabel("")
g1 = plt.ylabel("Amount(US)", fontsize=12)

plt.subplots_adjust(wspace = 0.3, hspace = 0.5,
                    top = 0.9)
plt.show()

In [141]:
import numpy as np

def apk(actual, predicted, k):
    if len(predicted)>k:
        predicted = predicted[:k]
    score = 0.0
    num_hits = 0.0
    for i,p in enumerate(predicted):
        if p in actual and p not in predicted[:i]:
            num_hits += 1.0
            score += num_hits / (i+1.0)
    if not actual:
        return 0.0
    return score / min(len(actual), k)


def mapk(actual, predicted, k):    
    return np.mean([apk(a,p,k) for a,p in zip(actual, predicted)])

mapk(actual=y_test, predicted=preds, k=7)

0.5714285714285714

In [None]:
df["mes"] = pd.DatetimeIndex(df["fecha"]).month
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")

In [None]:
clientes_count = df['fecha'].value_counts()
plt.plot(clientes_count)
plt.xticks(rotation=90)
plt.ylabel('Número de usuarios')
plt.show()

In [None]:
plt.bar(np.arange(productos.shape[0]), df[productos].sum())
plt.xticks(np.arange(productos.shape[0]) + 0.5, productos, rotation=90)
plt.figsize=(40,40)
plt.show()

In [None]:
def clean_xti_rel_1mes(arr):
    arr = arr.fillna(-1)
    for i, item in enumerate(arr):
        if item == 'P':
            arr[i] = 5
    arr = pd.to_numeric(arr)
    arr = arr.astype(int)
    return arr

df['xti_rel_1mes'] = clean_xti_rel_1mes(df['xti_rel_1mes'])

In [None]:
df

In [None]:
def clean_xti_empleado(arr):
    mapping_ind_empleado = {'N':1, 'B':2, 'F':3, 'A':4, 'S':5}
    arr = arr.apply(lambda x: mapping_ind_empleado[x] if x in mapping_ind_empleado else -1)
    return arr
df['xti_empleado'] = clean_xti_empleado(df['xti_empleado'])
df['xti_empleado'].unique()

In [None]:
cambio = df.groupby('cod_persona')[productos].diff()
cambio = l.fillna(0)
cambio.columns = [str(col) + '_cambio' for col in l.columns]


df = pd.concat([df, cambio], axis=1)


diff = (df["fecha"] - df["fecha_alta"]) /  np.timedelta64(1, 'M')
diff = diff.round()
df['num_antiguedad'] = diff

In [None]:
cambio = l.fillna(0)

In [None]:
cambio.columns = [str(col) + '_cambio' for col in l.columns]

In [None]:
df = pd.concat([df, cambio], axis=1)

In [None]:
diff = (df["fecha"] - df["fecha_alta"]) /  np.timedelta64(1, 'M')

In [None]:
diff = diff.round()

In [None]:
df['num_antiguedad'] = diff

In [None]:
df[df["cod_persona"] == 178103] ## Algunos datos redondeados se repiten

In [None]:
df.edad.hist(bins=50, figsize=(10,10))

In [None]:
df.edad.isna().sum() ## Se podrían eliminar

In [None]:
df.fecha.unique()