In [None]:
from pyspark.sql.types import *
from pyspark.sql.functions import to_timestamp
from pyspark.sql.functions import *
import datetime
from dateutil.relativedelta import *
import pandas as pd
import numpy as np

In [None]:
sc

# Cadastro

In [None]:
cadastral = sc.textFile('CADASTRAL.txt')

In [None]:
header1 = cadastral.first()
cadastral = cadastral.filter(lambda line: line != header1)

In [None]:
cadastral_df = cadastral.map(lambda k: k.split("\t")).toDF(header1.split("\t"))
cadastral_df = cadastral_df.withColumn("DATA_CADASTRO", to_timestamp("DATA_CADASTRO", "yyyy/MM/dd HH:mm:ss"))
cadastral_df.show(5)

## Regra 1) Cadastrados a partir de 2017

In [None]:
cadastral_df = cadastral_df.where(cadastral_df["DATA_CADASTRO"] >= "2017-01-01 00:00:00")


## Regra 2) Cadastrados até dezembro de 2017

In [None]:
cadastral_df = cadastral_df.where(cadastral_df["DATA_CADASTRO"] < "2018-01-01 00:00:00")


## Cartão / Carnê (Linhas são reutilizadas para as duas bases)

Todas as linhas de código abaixo podem ser reaproveitadas paras as bases CARNE.TXT e CARTAO.TXT

In [None]:
cartao = sc.textFile('CARNE.txt')

In [None]:
header3 = cartao.first()
cartao = cartao.filter(lambda line: line != header3)

In [None]:
cartao_df = cartao.map(lambda k: k.split("\t")).toDF(header3.split("\t"))
cartao_df = cartao_df.withColumn("DATA_VENCIMENTO", to_timestamp("DATA_VENCIMENTO", "yyyy/MM/dd HH:mm:ss"))
cartao_df = cartao_df.withColumn("DATA_PAGAMENTO", to_timestamp("DATA_PAGAMENTO", "yyyy/MM/dd HH:mm:ss"))
cartao_df.show(5)

## Inner Join - Cadastro+Cartão

In [None]:
cadaux = cadastral_df.select('CODIGO_CLIENTE', 'DATA_CADASTRO')

In [None]:
tcad = cadaux.alias('tcad')
tcart = cartao_df.alias('tcart')
cad_cart = tcad.join(tcart, tcad.CODIGO_CLIENTE == tcart.CODIGO_CLIENTE)
cad_cart.show(5)

Verifica se existe uma forma de rodar em PySpark.

In [None]:
cad_cart = cad_cart.toPandas()

Adiciona 6 meses à data de cadastro para o limite de elegibilidade.

In [None]:
cad_cart['DATA_LIMITE'] = cad_cart['DATA_CADASTRO'].apply(lambda x: x + relativedelta(months=+6))

Cria o flag que indica se a data de vencimento do contrato é anterior ao limite.

In [None]:
cad_cart['FLAG_LIMITE'] = (cad_cart['DATA_VENCIMENTO'] <= cad_cart['DATA_LIMITE']).astype(int)

Cria o flag que indica se o pagamento foi atrasado ou não foi realizado.

In [None]:
cad_cart['FLAG_ATRASO'] = ((cad_cart['DATA_PAGAMENTO'] > cad_cart['DATA_VENCIMENTO']) | (cad_cart['DATA_PAGAMENTO'].isnull())).astype(int)


Filtra os pagamentos elegíveis.

In [None]:
cad_cart = cad_cart[cad_cart.FLAG_LIMITE > 0]

In [None]:
len(cad_cart)

In [None]:
cad_cart.head()

In [None]:
cad_cart = cad_cart.iloc[:,1:]

Para cada cliente, verifica-se se o mesmo realizou todos os pagamentos em dia.

In [None]:
selection = cad_cart.groupby('CODIGO_CLIENTE').FLAG_ATRASO.max()
selection[:10]

Separação entre "bons" e "maus" pagadores

In [None]:
good = selection.loc[selection<1].index
bad = selection.loc[selection>0].index

In [None]:
# Dataframe dos bons pagadores
good_df = pd.DataFrame()
good_df['CODIGO_CLIENTE'] = good
good_df['CLASS'] = np.zeros(len(good)).astype(int)

# Dataframe dos maus pagadores
bad_df = pd.DataFrame()
bad_df['CODIGO_CLIENTE'] = bad
bad_df['CLASS'] = np.ones(len(bad)).astype(int)

In [None]:
good_df.head()

In [None]:
bad_df.head()

União dos dois dataframes criados acima. <b>P.S: Lembrar de mudar o nome para "classificados_carne" ou "classificados_cartao", dependendo da base escolhida.</b>

In [None]:
classificados_carne = good_df.append(bad_df)

# Junção dos classificados

In [None]:
classificados_cartao.head()

In [None]:
classificados_carne.head()

In [None]:
classificados = classificados_carne.append(classificados_cartao)

In [None]:
final = classificados.groupby("CODIGO_CLIENTE").CLASS.max()

In [None]:
tabelao = pd.DataFrame()

In [None]:
tabelao['CODIGO_CLIENTE'] = final.index
tabelao['CLASS'] = final.values

In [None]:
tabelao.groupby("CLASS").size()

In [None]:
tabelao.to_csv('classified.csv',index=False)

# Join: Cadastral / Classificados

In [None]:
class_rdd = sc.textFile('classified.csv')

In [None]:
header_class = class_rdd.first()
class_rdd = class_rdd.filter(lambda line: line!=header_class)
class_df = class_rdd.map(lambda k: k.split(",")).toDF(header_class.split(","))

In [None]:
class_df.count()

In [None]:
tcad = cadastral_df.alias('tcad')
tclass = class_df.alias('tclass')
final_cadastral = tcad.join(tclass, tcad.CODIGO_CLIENTE == tclass.CODIGO_CLIENTE, 'inner')
final_cadastral.show(5)

# -------------------------------------------
# Tabelão
# -------------------------------------------

In [None]:
FINAL = final_cadastral.toPandas()

In [None]:
FINAL.to_csv('tabelao.csv',index=False)