# **Feature Engineering: application_train**
A Feature Engineering é um processo fundamental para ciência de dados. Ela se refere ao processo de criação e transformação de variáveis para melhorar o desempenho dos modelos de Machine Learning.<br><br>

**Objetivo**

O objetivo desse trabalho é a criação de variáveis explicativas básicas para compor a nossa base de dados a fim obter uma melhor performance em um futuro treinamento de modelos que visa prever a capacidade de um cliente de reembolsar um empréstimo, para melhor escolha de concessão de crédito em uma startup do segmento financeiro. Adicionalmente, serão criadas outras variáveis explicativas, afim de tentar melhorar a predição do modelo.<br><br>

**Ferramentas**

Nesse caso será feito um processo de criação de variáveis bem simples, poderia muito bem ser realizado com o Pandas, porém queremos simular um processo mais complexo e com dados volumosos, pois podemos nos deparar no futuro com esse cenário aqui mesmo na PoD Bank.

Quando se trata de dados volumosos, que geralmente é o que encontramos nessa etapa do processo, o ideal é trabalhar com o Spark, devido à sua capacidade de processamento distribuído e paralelismo. Sendo assim irei trabalhar com o **PySpark** e com o **Spark em conjunto com o SQL**, pois é uma interface familiar e fácil de se trabalhar.

<br><br>

##**Conjunto de Dados**

Vamos trabalhar com o conjunto de dados **`application_train`**. Esse conjunto de dados contem informações sobre cada solicitação de empréstimo na PoD Bank. Cada empréstimo tem sua própria linha e é identificado pela variável SK_ID_CURR. Os dados de aplicação de treinamento vêm com a variável TARGET, indicando 0: o empréstimo foi pago ou 1: o empréstimo não foi pago (inadimplência).
<br><br>

**Metadados**

SK_ID_CURR	:	ID do empréstimo na nossa amostra

TARGET	:	Variável alvo (1 - cliente com dificuldades de pagamento: ele/ela teve atraso de pagamento por mais de X dias em pelo menos uma das primeiras Y parcelas do empréstimo em nossa amostra, 0 - todos os outros casos)

NAME_CONTRACT_TYPE	:	Identificação se o empréstimo é em dinheiro ou rotativo

CODE_GENDER	:	Gênero do cliente

FLAG_OWN_CAR	:	Sinalizador se o cliente possui um carro

FLAG_OWN_REALTY	:	Sinalizador se o cliente possui uma casa ou apartamento

CNT_CHILDREN	:	Número de filhos que o cliente tem

AMT_INCOME_TOTAL	:	Renda do cliente

AMT_CREDIT	:	Valor do crédito do empréstimo

AMT_ANNUITY	:	Anuidade do empréstimo

AMT_GOODS_PRICE	:	Para empréstimos ao consumidor, é o preço dos bens para os quais o empréstimo é concedido

NAME_TYPE_SUITE	:	Quem acompanhava o cliente quando ele solicitou o empréstimo

NAME_INCOME_TYPE	:	Tipo de renda dos clientes (empresário, trabalhador, licença maternidade, ...)

NAME_EDUCATION_TYPE	:	Nível de educação mais alto que o cliente alcançou

NAME_FAMILY_STATUS	:	Estado civil do cliente

NAME_HOUSING_TYPE	:	Qual é a situação habitacional do cliente (alugando, morando com os pais, ...)

REGION_POPULATION_RELATIVE	:	População normalizada da região onde o cliente mora (número mais alto significa que o cliente mora em uma região mais populosa)

DAYS_BIRTH	:	Idade do cliente em dias no momento da aplicação

DAYS_EMPLOYED	:	Quantos dias antes da aplicação a pessoa começou o emprego atual

DAYS_REGISTRATION	:	Quantos dias antes da aplicação o cliente mudou seu registro

DAYS_ID_PUBLISH	:	Quantos dias antes da aplicação o cliente mudou o documento de identidade com o qual solicitou o empréstimo

OWN_CAR_AGE	:	Idade do carro do cliente

FLAG_MOBIL	:	O cliente forneceu telefone celular (1=SIM, 0=NÃO)

FLAG_EMP_PHONE	:	O cliente forneceu telefone comercial (1=SIM, 0=NÃO)

FLAG_WORK_PHONE	:	O cliente forneceu telefone residencial (1=SIM, 0=NÃO)

FLAG_CONT_MOBILE	:	O telefone celular do cliente era acessível (1=SIM, 0=NÃO)

FLAG_PHONE	:	O cliente forneceu telefone residencial (1=SIM, 0=NÃO)

FLAG_EMAIL	:	O cliente forneceu e-mail (1=SIM, 0=NÃO)

OCCUPATION_TYPE	:	Qual tipo de ocupação o cliente tem

CNT_FAM_MEMBERS	:	Quantos membros a família do cliente tem

REGION_RATING_CLIENT	:	Nossa classificação da região onde o cliente mora (1,2,3)

REGION_RATING_CLIENT_W_CITY	:	Nossa classificação da região onde o cliente mora, levando em consideração a cidade (1,2,3)

WEEKDAY_APPR_PROCESS_START	:	Em qual dia da semana o cliente solicitou o empréstimo

HOUR_APPR_PROCESS_START	:	Aproximadamente em que hora o cliente solicitou o empréstimo

REG_REGION_NOT_LIVE_REGION	:	Sinalizador se o endereço permanente do cliente não corresponde ao endereço de contato (1=diferente, 0=igual, no nível regional)

REG_REGION_NOT_WORK_REGION	:	Sinalizador se o endereço permanente do cliente não corresponde ao endereço de trabalho (1=diferente, 0=igual, no nível regional)

LIVE_REGION_NOT_WORK_REGION	:	Sinalizador se o endereço de contato do cliente não corresponde ao endereço de trabalho (1=diferente, 0=igual, no nível regional)

REG_CITY_NOT_LIVE_CITY	:	Sinalizador se o endereço permanente do cliente não corresponde ao endereço de contato (1=diferente, 0=igual, no nível da cidade)

REG_CITY_NOT_WORK_CITY	:	Sinalizador se o endereço permanente do cliente não corresponde ao endereço de trabalho (1=diferente, 0=igual, no nível da cidade)

LIVE_CITY_NOT_WORK_CITY	:	Sinalizador se o endereço de contato do cliente não corresponde ao endereço de trabalho (1=diferente, 0=igual, no nível da cidade)

ORGANIZATION_TYPE	:	Tipo de organização onde o cliente trabalha

EXT_SOURCE_1	:	Pontuação normalizada de fonte de dados externa

EXT_SOURCE_2	:	Pontuação normalizada de fonte de dados externa

EXT_SOURCE_3	:	Pontuação normalizada de fonte de dados externa

APARTMENTS_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

BASEMENTAREA_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BEGINEXPLUATATION_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BUILD_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

COMMONAREA_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ELEVATORS_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ENTRANCES_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMAX_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMIN_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LANDAREA_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAPARTMENTS_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAREA_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAPARTMENTS_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAREA_AVG	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

APARTMENTS_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

BASEMENTAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BEGINEXPLUATATION_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BUILD_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

COMMONAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ELEVATORS_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ENTRANCES_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMAX_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMIN_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LANDAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAPARTMENTS_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAPARTMENTS_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

APARTMENTS_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

BASEMENTAREA_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BEGINEXPLUATATION_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora, qual é o tamanho médio (_AVG), moda (_MODE), tamanho mediano (_MEDI) do apartamento, área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

YEARS_BUILD_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

COMMONAREA_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ELEVATORS_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

ENTRANCES_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMAX_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FLOORSMIN_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LANDAREA_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAPARTMENTS_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

LIVINGAREA_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAPARTMENTS_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

NONLIVINGAREA_MEDI	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

FONDKAPREMONT_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

HOUSETYPE_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

TOTALAREA_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

WALLSMATERIAL_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

EMERGENCYSTATE_MODE	:	Informações normalizadas sobre o prédio onde o cliente mora. Qual é o tamanho médio do apartamento (sufixo _AVG), moda (sufixo _MODE), tamanho mediano (sufixo _MEDI), área comum, área de estar, idade do prédio, número de elevadores, número de entradas, estado do prédio, número de andares

OBS_30_CNT_SOCIAL_CIRCLE	:	Quantas observações do círculo social do cliente são observáveis com 30 DPD (dias de atraso)

DEF_30_CNT_SOCIAL_CIRCLE	:	Quantas observações do círculo social do cliente entraram em default em 30 DPD (dias de atraso)

OBS_60_CNT_SOCIAL_CIRCLE	:	Quantas observações do círculo social do cliente são observáveis com 60 DPD (dias de atraso)

DEF_60_CNT_SOCIAL_CIRCLE	:	Quantas observações do círculo social do cliente entraram em default em 60 DPD (dias de atraso)

DAYS_LAST_PHONE_CHANGE	:	Quantos dias antes da aplicação o cliente mudou de telefone

FLAG_DOCUMENT_2	:	O cliente forneceu o documento 2

FLAG_DOCUMENT_3	:	O cliente forneceu o documento 3

FLAG_DOCUMENT_4	:	O cliente forneceu o documento 4

FLAG_DOCUMENT_5	:	O cliente forneceu o documento 5

FLAG_DOCUMENT_6	:	O cliente forneceu o documento 6

FLAG_DOCUMENT_7	:	O cliente forneceu o documento 7

FLAG_DOCUMENT_8	:	O cliente forneceu o documento 8

FLAG_DOCUMENT_9	:	O cliente forneceu o documento 9

FLAG_DOCUMENT_10	:	O cliente forneceu o documento 10

FLAG_DOCUMENT_11	:	O cliente forneceu o documento 11

FLAG_DOCUMENT_12	:	O cliente forneceu o documento 12

FLAG_DOCUMENT_13	:	O cliente forneceu o documento 13

FLAG_DOCUMENT_14	:	O cliente forneceu o documento 14

FLAG_DOCUMENT_15	:	O cliente forneceu o documento 15

FLAG_DOCUMENT_16	:	O cliente forneceu o documento 16

FLAG_DOCUMENT_17	:	O cliente forneceu o documento 17

FLAG_DOCUMENT_18	:	O cliente forneceu o documento 18

FLAG_DOCUMENT_19	:	O cliente forneceu o documento 19

FLAG_DOCUMENT_20	:	O cliente forneceu o documento 20

FLAG_DOCUMENT_21	:	O cliente forneceu o documento 21

AMT_REQ_CREDIT_BUREAU_HOUR	:	Número de consultas ao Credit Bureau sobre o
cliente uma hora antes da aplicação

AMT_REQ_CREDIT_BUREAU_DAY	:	Número de consultas ao Credit Bureau sobre o cliente um dia antes da aplicação (excluindo uma hora antes da aplicação)

AMT_REQ_CREDIT_BUREAU_WEEK	:	Número de consultas ao Credit Bureau sobre o cliente uma semana antes da aplicação (excluindo um dia antes da aplicação)

AMT_REQ_CREDIT_BUREAU_MON	:	Número de consultas ao Credit Bureau sobre o cliente um mês antes da aplicação (excluindo uma semana antes da aplicação)

AMT_REQ_CREDIT_BUREAU_QRT	:	Número de consultas ao Credit Bureau sobre o cliente 3 meses antes da aplicação (excluindo um mês antes da aplicação)

AMT_REQ_CREDIT_BUREAU_YEAR	:	Número de consultas ao Credit Bureau sobre o cliente um ano antes (excluindo os últimos 3 meses antes da aplicação)


<br><br>

##**Instalação e configuração do Apache Spark em nosso ambiente do Google Colab**

In [2]:
# Montando o drive.
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import sys

# Checando a versão do Python.
print('Versão do Python:')
print(sys.version)

Versão do Python:
3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0]


In [4]:
# Instalando o PySpark.
!pip install pyspark -q

# Importando bibliotecas.
from pyspark.sql.functions import countDistinct, count, col, when
from pyspark.sql import SparkSession

# Configurando a sessão Spark.
spark = SparkSession.builder \
    .appName('app_spark') \
    .config('spark.driver.memory', '4g') \
    .config('spark.executor.memory', '4g') \
    .getOrCreate()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


<br><br>

## **Leitura e visualização do conjunto de dados**

In [5]:
# Lendo nosso conjunto de dados e criando um DataFrame no Spark - TREINO.
df_app_train = spark.read.csv('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/0_bd_podbank/application_train.csv', header=True, inferSchema=True)
df_app_train.createOrReplaceTempView('df_app_train')

In [6]:
# Lendo nosso conjunto de dados e criando um DataFrame no Spark - TESTE.
df_app_test = spark.read.csv('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/0_bd_podbank/application_test.csv', header=True, inferSchema=True)
df_app_test.createOrReplaceTempView('df_app_test')

In [7]:
# Exibindo a estrutura do schema do DataFrame ´df_app_train´.
df_app_train.printSchema()

root
 |-- SK_ID_CURR: integer (nullable = true)
 |-- TARGET: integer (nullable = true)
 |-- NAME_CONTRACT_TYPE: string (nullable = true)
 |-- CODE_GENDER: string (nullable = true)
 |-- FLAG_OWN_CAR: string (nullable = true)
 |-- FLAG_OWN_REALTY: string (nullable = true)
 |-- CNT_CHILDREN: integer (nullable = true)
 |-- AMT_INCOME_TOTAL: double (nullable = true)
 |-- AMT_CREDIT: double (nullable = true)
 |-- AMT_ANNUITY: double (nullable = true)
 |-- AMT_GOODS_PRICE: double (nullable = true)
 |-- NAME_TYPE_SUITE: string (nullable = true)
 |-- NAME_INCOME_TYPE: string (nullable = true)
 |-- NAME_EDUCATION_TYPE: string (nullable = true)
 |-- NAME_FAMILY_STATUS: string (nullable = true)
 |-- NAME_HOUSING_TYPE: string (nullable = true)
 |-- REGION_POPULATION_RELATIVE: double (nullable = true)
 |-- DAYS_BIRTH: integer (nullable = true)
 |-- DAYS_EMPLOYED: integer (nullable = true)
 |-- DAYS_REGISTRATION: double (nullable = true)
 |-- DAYS_ID_PUBLISH: integer (nullable = true)
 |-- OWN_CAR_AG

In [8]:
# Mostrando as 20 primeiras linhas do DataFrame ´df_app_train´.
df_app_train.show(20,False)

+----------+------+------------------+-----------+------------+---------------+------------+----------------+----------+-----------+---------------+---------------+--------------------+-----------------------------+--------------------+-------------------+--------------------------+----------+-------------+-----------------+---------------+-----------+----------+--------------+---------------+----------------+----------+----------+---------------------+---------------+--------------------+---------------------------+--------------------------+-----------------------+--------------------------+--------------------------+---------------------------+----------------------+----------------------+-----------------------+----------------------+------------------+------------------+------------------+------------------+----------------+---------------------------+------------------+--------------+-------------+-------------+-------------+-------------+------------------+--------------------+-

In [9]:
# Checando a quantidade de linhas e colunas do DataFrame ´df_app_train´.

# Quantidade de linhas.
num_rows_df_AT = df_app_train.count()

# Quantidade de colunas.
num_columns_df_AT = len(df_app_train.columns)

# Quantidade de IDs únicos.
num_id_curr_df_AT = df_app_train.select(countDistinct('SK_ID_CURR').alias('num_id_curr_df_AT')).collect()[0]['num_id_curr_df_AT']

# Imprimir o resultado.
print(f'Quantidade de linhas do DataFrame: {num_rows_df_AT}')
print(f'Quantidade de colunas do DataFrame: {num_columns_df_AT}')
print(f'Quantidade de "SK_ID_CURR" únicos do DataFrame: {num_id_curr_df_AT}')

Quantidade de linhas do DataFrame: 215257
Quantidade de colunas do DataFrame: 172
Quantidade de "SK_ID_CURR" únicos do DataFrame: 215257


In [10]:
# Verificando a estatítica básica dos dados.
df_app_train.describe().show()

+-------+------------------+-------------------+------------------+-----------+------------+---------------+-------------------+------------------+------------------+------------------+------------------+---------------+----------------+--------------------+------------------+-----------------+--------------------------+-------------------+------------------+-----------------+------------------+-----------------+--------------------+-------------------+-------------------+-------------------+-------------------+-------------------+--------------------+------------------+--------------------+---------------------------+--------------------------+-----------------------+--------------------------+--------------------------+---------------------------+----------------------+----------------------+-----------------------+-----------------+-------------------+--------------------+------------------+-------------------+-------------------+---------------------------+-------------------+-----

<br><br>

## **Criação de variáveis explicativas**

### **Criação de variáveis a partir da aplicação de algumas equações matemáticas sobre algumas variáveis já existentes**

- Vamos criar novas variáveis chamadas:

  - **`APP_INCOME_CREDIT_RATIO`**: Resultado da divisão entre **`AMT_INCOME_TOTAL`** e **`AMT_CREDIT`**.

  - **`APP_ANNUITY_INCOME_RATIO`**: Resultado da divisão entre **`AMT_ANNUITY`** e **`AMT_INCOME_TOTAL`**.

  - **`APP_AGE`**: Resultado da divisão entre **`DAYS_BIRTH`** e **`-365`**.

  - **`APP_CHILDREN_INCOME_RATIO`**: Resultado da divisão entre **`CNT_CHILDREN`** e **`AMT_INCOME_TOTAL`**.

  - **`EXT_SOURCE_MEAN`**: Resultado da média das variáveis **`EXT_SOURCE_1`**, **`EXT_SOURCE_2`** e **`EXT_SOURCE_3`**.

  - **`APP_EMPLOYED_LENGTH`**: Resultado da divisão entre **`DAYS_EMPLOYED`** e **`-365`**.

  - **`APP_GOODS_CREDIT_RATIO`**: Resultado da divisão entre **`AMT_GOODS_PRICE`** e **`AMT_CREDIT`**.

  - **`APP_CREDIT_DOWN_PAYMENT`**: Resultado da subtração da variável **`AMT_GOODS_PRICE`** pela variável **`AMT_CREDIT`**.  

  - **`APP_NEW_DAYS_EMPLOYED_PERC`**: Resultado da divisão entre **`DAYS_EMPLOYED`** e **`DAYS_BIRTH`**.

  - **`APP_NEW_INCOME_PER_PERSON`**: Resultado da divisão entre **`AMT_INCOME_TOTAL`** e **`CNT_FAM_MEMBERS`**.

  - **`APP_NEW_PAYMENT_RATE`**: Resultado da divisão entre **`AMT_ANNUITY`** e **`AMT_CREDIT`**.

In [12]:
df_app_train_00 = spark.sql('''

SELECT
  *,

  AMT_INCOME_TOTAL / AMT_CREDIT                       as APP_INCOME_CREDIT_RATIO,
  AMT_ANNUITY / AMT_INCOME_TOTAL                      as APP_ANNUITY_INCOME_RATIO,
  DAYS_BIRTH / -365                                   as APP_AGE,
  CNT_CHILDREN / AMT_INCOME_TOTAL                     as APP_CHILDREN_INCOME_RATIO,
  (EXT_SOURCE_1 + EXT_SOURCE_2 + EXT_SOURCE_3) / 3    as EXT_SOURCE_MEAN,
  DAYS_EMPLOYED / -365                                as APP_EMPLOYED_LENGTH,
  AMT_GOODS_PRICE / AMT_CREDIT                        as APP_GOODS_CREDIT_RATIO,
  AMT_GOODS_PRICE - AMT_CREDIT                        as APP_CREDIT_DOWN_PAYMENT,
  DAYS_EMPLOYED / DAYS_BIRTH                          as APP_NEW_DAYS_EMPLOYED_PERC,
  AMT_INCOME_TOTAL / CNT_FAM_MEMBERS                  as APP_NEW_INCOME_PER_PERSON,
  AMT_ANNUITY / AMT_CREDIT                            as APP_NEW_PAYMENT_RATE

FROM
  df_app_train

''')

# Esse código cria ou substitui uma view temporária no Apache Spark.
df_app_train_00.createOrReplaceTempView('df_app_train_00')

# Quantidade e nome das variáveis criadas.
vars_df_AT_00 = [col for col in df_app_train_00.columns if col not in df_app_train.columns]
print('Quantidade Total de Variáveis Criadas:', len(vars_df_AT_00))
print('Nomes das Variáveis Criadas:', vars_df_AT_00)
print('')
print('')

# Quantidade de linhas do DataFrame.
num_rows_df_AT_00 = df_app_train_00.count()

# Quantidade de colunas do DataFrame.
num_columns_df_AT_00 = len(df_app_train_00.columns)

# Imprimir o resultado de número de linhas e colunas.
print(f'Quantidade de linhas do DataFrame: {num_rows_df_AT_00}')
print(f'Quantidade de colunas do DataFrame: {num_columns_df_AT_00}')
print('')
print('')

# Mostrando o novo DataFrame com as variáveis criadas.
df_app_train_00.show(20, False)

Quantidade Total de Variáveis Criadas: 11
Nomes das Variáveis Criadas: ['APP_INCOME_CREDIT_RATIO', 'APP_ANNUITY_INCOME_RATIO', 'APP_AGE', 'APP_CHILDREN_INCOME_RATIO', 'EXT_SOURCE_MEAN', 'APP_EMPLOYED_LENGTH', 'APP_GOODS_CREDIT_RATIO', 'APP_CREDIT_DOWN_PAYMENT', 'APP_NEW_DAYS_EMPLOYED_PERC', 'APP_NEW_INCOME_PER_PERSON', 'APP_NEW_PAYMENT_RATE']


Quantidade de linhas do DataFrame: 215257
Quantidade de colunas do DataFrame: 183


+----------+------+------------------+-----------+------------+---------------+------------+----------------+----------+-----------+---------------+---------------+--------------------+-----------------------------+--------------------+-------------------+--------------------------+----------+-------------+-----------------+---------------+-----------+----------+--------------+---------------+----------------+----------+----------+---------------------+---------------+--------------------+---------------------------+--------------------------+--------------------

<br>

### **Aplicação das mesmas variáveis na base de teste**



In [14]:
df_app_test_00 = spark.sql('''

SELECT
  *,

  AMT_INCOME_TOTAL / AMT_CREDIT                       as APP_INCOME_CREDIT_RATIO,
  AMT_ANNUITY / AMT_INCOME_TOTAL                      as APP_ANNUITY_INCOME_RATIO,
  DAYS_BIRTH / -365                                   as APP_AGE,
  CNT_CHILDREN / AMT_INCOME_TOTAL                     as APP_CHILDREN_INCOME_RATIO,
  (EXT_SOURCE_1 + EXT_SOURCE_2 + EXT_SOURCE_3) / 3    as EXT_SOURCE_MEAN,
  DAYS_EMPLOYED / -365                                as APP_EMPLOYED_LENGTH,
  AMT_GOODS_PRICE / AMT_CREDIT                        as APP_GOODS_CREDIT_RATIO,
  AMT_GOODS_PRICE - AMT_CREDIT                        as APP_CREDIT_DOWN_PAYMENT,
  DAYS_EMPLOYED / DAYS_BIRTH                          as APP_NEW_DAYS_EMPLOYED_PERC,
  AMT_INCOME_TOTAL / CNT_FAM_MEMBERS                  as APP_NEW_INCOME_PER_PERSON,
  AMT_ANNUITY / AMT_CREDIT                            as APP_NEW_PAYMENT_RATE

FROM
  df_app_test

''')

# Esse código cria ou substitui uma view temporária no Apache Spark.
df_app_test_00.createOrReplaceTempView('df_app_test_00')

# Quantidade e nome das variáveis criadas.
vars_df_ATT_00 = [col for col in df_app_test_00.columns if col not in df_app_test.columns]
print('Quantidade Total de Variáveis Criadas:', len(vars_df_ATT_00))
print('Nomes das Variáveis Criadas:', vars_df_ATT_00)
print('')
print('')

# Quantidade de linhas do DataFrame.
num_rows_df_ATT_00 = df_app_test_00.count()

# Quantidade de colunas do DataFrame.
num_columns_df_ATT_00 = len(df_app_test_00.columns)

# Imprimir o resultado de número de linhas e colunas.
print(f'Quantidade de linhas do DataFrame: {num_rows_df_ATT_00}')
print(f'Quantidade de colunas do DataFrame: {num_columns_df_ATT_00}')
print('')
print('')

# Mostrando o novo DataFrame com as variáveis criadas.
df_app_test_00.show(20, False)

Quantidade Total de Variáveis Criadas: 11
Nomes das Variáveis Criadas: ['APP_INCOME_CREDIT_RATIO', 'APP_ANNUITY_INCOME_RATIO', 'APP_AGE', 'APP_CHILDREN_INCOME_RATIO', 'EXT_SOURCE_MEAN', 'APP_EMPLOYED_LENGTH', 'APP_GOODS_CREDIT_RATIO', 'APP_CREDIT_DOWN_PAYMENT', 'APP_NEW_DAYS_EMPLOYED_PERC', 'APP_NEW_INCOME_PER_PERSON', 'APP_NEW_PAYMENT_RATE']


Quantidade de linhas do DataFrame: 92254
Quantidade de colunas do DataFrame: 182


+----------+------------------+-----------+------------+---------------+------------+----------------+----------+-----------+---------------+---------------+--------------------+-----------------------------+--------------------+-------------------+--------------------------+----------+-------------+-----------------+---------------+-----------+----------+--------------+---------------+----------------+----------+----------+---------------------+---------------+--------------------+---------------------------+--------------------------+-----------------------+----

<br><br>

## **Salvando as tabelas com as variáveis criadas, no diretório do Drive**

In [15]:
df_app_train_00.write.parquet('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_01')

In [16]:
df_app_test_00.write.parquet('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_test_01')

<br><br>

## **Lendo o arquivo com as variáveis explicativas no formato Parquet e salvando no formato CSV, usando o Pandas**

In [17]:
# Impotando o Pandas.
import pandas as pd

In [18]:
# Lendo o diretório Parquet - TREINO.
POS_CASH_balance_Variaveis_Explicativas = pd.read_parquet('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_01', engine='pyarrow')
POS_CASH_balance_Variaveis_Explicativas.shape

(215257, 183)

In [19]:
# Lendo o diretório Parquet - TESTE.
POS_CASH_balance_Variaveis_Explicativas = pd.read_parquet('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_test_01', engine='pyarrow')
POS_CASH_balance_Variaveis_Explicativas.shape

(92254, 182)

In [20]:
# Salvando arquivo em formato CSV, sem a coluna de índice.
POS_CASH_balance_Variaveis_Explicativas.to_csv('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_01.csv')
POS_CASH_balance_Variaveis_Explicativas.to_csv('/content/drive/MyDrive/CREDIT_SCORING_SQUAD8/5_documentacao/Feature Engineering/fe_application_test_01.csv')