# Construcción variables Activo

In [1]:
import pandas as pd 
import numpy as np 

pd.set_option('max_columns',None)
pd.set_option('max_rows',None)

from datetime import datetime, timedelta 
from dateutil import relativedelta
import gc

In [2]:
import s3fs
import pyarrow as pa
import pyarrow.parquet as pq

def spark_read_parquet(s3_url: str, **args):
    fs = s3fs.S3FileSystem()
    # Leyendo base
    dataset = pq.ParquetDataset(s3_url, filesystem=fs)
    table = dataset.read()
    dataframe = table.to_pandas()

    del dataset, table

    return dataframe

In [3]:
fs = s3fs.S3FileSystem()

In [4]:
"""
MODULE: processing_activos
This script extracts activos information from the activos file
Steps:
1. Get activos file
2. Get the needed columns and rows from activos file including the needed historical period
3. Create additional columns
"""


def process_activos(input_paths_activos):
    """Pending docstring"""
    # 1. Get activos file
    activos = get_activos_file(input_paths_activos)
    print('get_activos_file')
    # 2. Deletes duplicates and casts variables
    activos = get_activos_info(activos)
    print('get_activo_info')
    # 3. Creates aux variables requeried for the final explanatory variables
    activos = create_activos_info(activos)
    print('create_activos_info')
    # 4. Aggregate and produce client-level output data frame
    activos_cli_fec = get_activos_cliente(activos)
    print('get_activos_cliente')
    # 5. Produce client-level output data frame with explanatory variables
    activos_final = create_activos_df(activos, activos_cli_fec)
    print('create_activos_df')
    print('activos_df created successfully')

    return activos_final


def get_activos_file(input_path):
    """ Gets the input_path to the activos file, drops some not useful columns
     and outputs a DataFrame
    :param input_path to activos file location
    :return: DataFrame
    """

    activos_file_path = input_path
    activos = spark_read_parquet(activos_file_path)

    activos.rename(columns=lambda x: x.lower(), inplace=True)

    if activos['nroident'].isnull().sum() > 0:
        activos = activos.loc[activos['nroident'].notnull()]

    str_date = input_path[-6:]
    activos['fecha_activos'] = pd.to_datetime(str_date, format='%Y%m').strftime('%Y%m')

    # cast nroident
    activos['nroident'] = activos['nroident'].fillna('-999').astype(np.int64)
    activos['tipo_ident_hom'] = activos['tipo_ident_hom'].fillna('-999').astype(np.int64)
    activos = activos[
        ['nroident','tipo_ident_hom', 'id_cliente', 'nrooblig', 'fecha_activos', 'dias_morak', 'lineacredi', 'producto', 'sal_capita',
         'vlr_cuota', 'vlr_desemb']]

    return activos


def get_activos_info(activos):
    """Deletes duplicates and casts variables
    :param activos to activos file location
    :return: DataFrame
    """

    # delete negative nroident
    activos = activos[(activos['nroident'] > 0)]

    # delete duplicates
    activos = activos.sort_values(['nroident','tipo_ident_hom', 'fecha_activos'])
    activos = activos.drop_duplicates(subset=['nroident','tipo_ident_hom', 'fecha_activos'], keep='first')

    # casting variables
    activos['fecha_activos'] = activos['fecha_activos'].astype(int)

    return activos


def create_activos_info(activos):
    """Creates aux variables requeried for the final explanatory variables
    :param activos to activos file location
    :return: DataFrame
    """
    # Creates salario minimo mensual vigente
    activos['ano_po'] = activos['fecha_activos'].astype(str).str[0:4].astype(int)
    activos['smlv'] = np.where(activos['ano_po'] == 2018, 781242,
                               np.where(activos['ano_po'] == 2019, 828116,
                                        np.where(activos['ano_po'] == 2020, 877803,
                                                 np.where(activos['ano_po'] == 2021, 908526,
                                                 np.nan))))

    # Creates active credits flag
    #activos['cuenta_vigente'] = np.where(activos['estado'] == 'ACTIVO', 1, 0)
    activos.loc[:, 'cuenta_vigente'] = 1

    # Creates tipo_prod
    activos['tipo_prod'] = np.where((activos['lineacredi'] == 61) & (activos['producto'] == 'TC'), 'TC_T',
                                    np.where((activos['lineacredi'] == 62) & (activos['producto'] == 'TC'), 'TC_X',
                                             activos['producto']))
   
    #Variable amortizacion a nivel obligación
    activos['amortizacion']=np.where((activos['vlr_desemb']> 0) & (activos['sal_capita'] >= 0),(activos['vlr_desemb']-activos['sal_capita'])/activos['vlr_desemb'],
    np.where((activos['vlr_desemb'] > 0) & np.isnan(activos['sal_capita']),1,np.nan))

    return activos


def get_activos_cliente(activos):
    """Takes a product-level data frame and returns a client-level data frame,
    :param activos complete activos DataFrame
    :return: DataFrame, client-level
    """

    # Creates data base at 'nroident','fecha_activos' level.
    activos_cli_fec = pd.DataFrame(activos.groupby(['nroident','tipo_ident_hom', 'fecha_activos'])[['smlv']].max())

    return activos_cli_fec


def create_activos_df(activos, activos_cli_fec):
    """Creates client-level final variables
    :param activos complete activos DataFrame
    :param activos_cli_fec containing activos relevant rows and columns and activos_cli_fec client level data base
    :return: DataFrame
    """

    # Numero de obligaciones libranza al dia
    activos_cli_fec['amortizacion_min_lb'] = activos[
        (activos['cuenta_vigente'] == 1) & (activos['producto'] == 'LB')].groupby(
        ['nroident','tipo_ident_hom','fecha_activos'])[['amortizacion']].min()


    # Saldo y cuota
    activos_cli_fec['cuota_max_lb']  = activos[
        (activos['producto'] == 'LB') & (activos['cuenta_vigente'] == 1)].groupby(
        ['nroident','tipo_ident_hom','fecha_activos'])[['vlr_cuota']].max()

    
   
    # Saldo y cuota / smlv
    activos_cli_fec['cuota_max_lb_smlv'] = activos_cli_fec['cuota_max_lb'] / activos_cli_fec['smlv']

    activos_cli_fec = activos_cli_fec.reset_index()
    activos_out = activos_cli_fec[
        ['nroident','tipo_ident_hom', 'fecha_activos', 'amortizacion_min_lb', 'cuota_max_lb_smlv']]
    print('Shape inicial:',activos_out.shape[0])
    activos_out = activos_out.loc[activos_out['amortizacion_min_lb'].notnull()]
    print('Shape final:',activos_out.shape[0])
   
    return activos_out


In [5]:
period = '202109'
path = 's3://data-bpop-dev-sandbox/estandarizado/productos/activo/productos_activo_sarc_M'
file_name = path + period

data_activos = process_activos(file_name)
print(data_activos.shape)
data_activos.head()

get_activos_file
get_activo_info
create_activos_info
get_activos_cliente
Shape inicial: 449773
Shape final: 309921
create_activos_df
activos_df created successfully
(309921, 5)


Unnamed: 0,nroident,tipo_ident_hom,fecha_activos,amortizacion_min_lb,cuota_max_lb_smlv
0,206,1000003,202109,0.951977,0.531937
1,1112,1000003,202109,0.500772,0.312141
2,1974,1000003,202109,0.392245,0.835206
4,2460,1000003,202109,0.590439,1.78516
5,2538,1000003,202109,0.1414,0.22508


In [6]:
data_activos.count()

nroident               309921
tipo_ident_hom         309921
fecha_activos          309921
amortizacion_min_lb    309921
cuota_max_lb_smlv      309921
dtype: int64

In [7]:
path_out = 's3://adl-refined-dev-popular/parquet/TC_adquisicion/base_activos_M'
file_name_out = path_out + period

data_activos.to_parquet(file_name_out,engine='pyarrow', index=False)


In [8]:
file_name_out

's3://adl-refined-dev-popular/parquet/TC_adquisicion/base_activos_M202109'