# Estabilidad de variables

## 1. Instalación de librerías

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime

#Elimino posibles warnings
import warnings
warnings.filterwarnings('ignore')

# Comment this if the data visualisations doesn't work on your side
%matplotlib inline


#Mostrar todas las columnas de un dataframe
pd.set_option('display.max_columns', None)

## 2. Importación data

In [3]:
#Seleccionar ruta de la data
dataframe = pd.read_csv(r'C:\GIT_Cumplimiento\epic\EPIC003\data\modeling\01_raw.csv', encoding='latin')
#Reviso filas y columnas
dataframe.shape

(54558, 11)

## 3. Feature engineering

In [4]:
#Corrijo nombre de variable PERIODO
dataframe.rename(columns = {'ï»¿PERIODO':'PERIODO'}, inplace = True)

## 4. Estabilidad de Variables

In [5]:
#Reviso variables a utilizar
dataframe.columns

Index(['PERIODO', 'CODCLAVECIC', 'NBRCLIORDENANTE', 'SEGMENTO', 'MTO_TRANSF',
       'CTD_OPE', 'FLG_PEP', 'FLG_PROF', 'FLG_PAR', 'FLG_PERFIL', 'CTDEVAL'],
      dtype='object')

### 4.1 Variables Categóricas

In [6]:
#Selecciono variables categóricas
col_cat=['FLG_PEP', 'FLG_PROF', 'FLG_PAR', 'FLG_PERFIL' ]

In [7]:
#Pinto una tabla cruzada, distribución de periodo versus categorías
for i in col_cat:
    print(pd.crosstab(dataframe[i],dataframe['PERIODO'],normalize='columns'))

PERIODO    202204    202205    202206    202207    202208    202209    202210
FLG_PEP                                                                      
0        0.983112  0.984225  0.983154  0.982742  0.984759  0.983894  0.983747
1        0.016888  0.015775  0.016846  0.017258  0.015241  0.016106  0.016253
PERIODO     202204    202205    202206    202207    202208    202209    202210
FLG_PROF                                                                      
0         0.672994  0.660904  0.666003  0.667462  0.651729  0.656851  0.643219
1         0.327006  0.339096  0.333997  0.332538  0.348271  0.343149  0.356781
PERIODO    202204    202205    202206    202207    202208    202209    202210
FLG_PAR                                                                      
0        0.559805  0.533695  0.548481  0.547776  0.549477  0.542668  0.549863
1        0.028751  0.027511  0.030641  0.028904  0.030710  0.027764  0.027565
2        0.411445  0.438794  0.420878  0.423320  0.419813  0

#### No existen diferencias en la distribución de las variables categóricas a los largo de los periodos

### 4.2 Variables Numéricas

In [9]:
#Selecciono variables cuantitativas
col_num=['MTO_TRANSF','CTD_OPE', 'CTDEVAL']

In [10]:
#Pinto una tabla cruzada, distribución de periodo versus cuartiles
for i in col_num:
    print(pd.crosstab(pd.qcut(dataframe[i],3,duplicates='drop'),dataframe['PERIODO'],normalize='columns'))

PERIODO                 202204    202205    202206    202207    202208  \
MTO_TRANSF                                                               
(0.999, 2100.067]     0.323238  0.320924  0.334660  0.355269  0.329049   
(2100.067, 9500.0]    0.329798  0.333670  0.335588  0.324260  0.341788   
(9500.0, 25008920.0]  0.346964  0.345406  0.329752  0.320471  0.329163   

PERIODO                 202209    202210  
MTO_TRANSF                                
(0.999, 2100.067]     0.332332  0.339878  
(2100.067, 9500.0]    0.346875  0.350410  
(9500.0, 25008920.0]  0.320793  0.309713  
PERIODO        202204  202205  202206  202207  202208  202209  202210
CTD_OPE                                                              
(0.999, 36.0]     1.0     1.0     1.0     1.0     1.0     1.0     1.0
PERIODO          202204  202205  202206  202207  202208  202209  202210
CTDEVAL                                                                
(-0.001, 166.0]     1.0     1.0     1.0     1.0     1.0     

#### No existen diferencias en la distribución de la variable monto a los largo de los periodos

In [12]:
#Recalculadas como categóricas porque son numéricas con una baja variabilidad o un número que se repite mucho. Las categorías se hacen forzando  la división de su rango en 3
col_cat2=['CTD_OPE', 'CTDEVAL']
for i in col_cat2:
        print(pd.crosstab(pd.cut(dataframe[i],3,duplicates='drop'),dataframe['PERIODO'],normalize='columns'))

PERIODO             202204    202205    202206    202207    202208    202209  \
CTD_OPE                                                                        
(0.965, 12.667]   0.999721  0.999495  0.999602  0.999579  0.999545  0.999399   
(12.667, 24.333]  0.000279  0.000505  0.000398  0.000281  0.000341  0.000601   
(24.333, 36.0]    0.000000  0.000000  0.000000  0.000140  0.000114  0.000000   

PERIODO            202210  
CTD_OPE                    
(0.965, 12.667]   0.99974  
(12.667, 24.333]  0.00026  
(24.333, 36.0]    0.00000  
PERIODO             202204    202205    202206   202207    202208   202209  \
CTDEVAL                                                                      
(-0.166, 55.333]   0.99986  0.999874  0.999867  0.99986  0.999773  0.99976   
(55.333, 110.667]  0.00000  0.000000  0.000133  0.00000  0.000114  0.00012   
(110.667, 166.0]   0.00014  0.000126  0.000000  0.00014  0.000114  0.00012   

PERIODO             202210  
CTDEVAL                     
(-0.166, 5

#### No existen diferencias en la distribución de estas 2 variables a los largo de los periodos