#Business Understanding

**Feature name	        Explanation	Remarks**
**ID	Client**          number
**CODE_GENDER**         Gender
**FLAG_OWN_CAR**        Is there a car
**FLAG_OWN_REALTY**	    Is there a property
**CNT_CHILDREN**        Number of children
**AMT_INCOME_TOTAL**    Annual income
**NAME_INCOME_TYPE**    Income category
**NAME_EDUCATION_TYPE** Education level
**NAME_FAMILY_STATUS**	Marital status
**NAME_HOUSING_TYPE**	  Way of living
**DAYS_BIRTH**	        Birthday	Count backwards from current day (0), -1 means yesterday
**DAYS_EMPLOYED**	      Start date of employment	Count backwards from current day(0). If positive, it means the person currently unemployed.
**FLAG_MOBIL**	        Is there a mobile phone
**FLAG_WORK_PHONE**	    Is there a work phone
**FLAG_PHONE**    	    Is there a phone
**FLAG_EMAIL**	        Is there an email
**OCCUPATION_TYPE**	    Occupation
**CNT_FAM_MEMBERS**	    Family size**


**Objetivo: Gerar insights para impulsionar a adesão aos produtos do banco.**

**Este objetivo visa utilizar análises detalhadas dos dados disponíveis para identificar padrões, tendências e relações relevantes entre diferentes variáveis. Ao compreender melhor o comportamento dos clientes e os fatores que influenciam suas decisões financeiras, o banco poderá tomar medidas proativas e estratégicas para melhorar a adesão aos seus produtos e serviços. Por meio da análise dos dados, buscamos descobrir oportunidades de melhoria, identificar segmentos de clientes potencialmente lucrativos e desenvolver estratégias eficazes de marketing e engajamento.**

#Data Understanding

##Setup

In [1]:
%pip install sidetable



In [2]:
# Data wrangling
import numpy as np
import pandas as pd
import sidetable

# Dataviz
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

from sklearn.preprocessing import StandardScaler, scale, MinMaxScaler



In [3]:
#FORMATAÇÃO PADRÃO DOS GRÁFICOS
sns.set_theme(
    context='talk',
    style='ticks',
    font_scale=.8,
    palette='tab10',
    rc={
        'figure.figsize': (12,8),
        'axes.grid': True,
        'grid.alpha': .2,
        'axes.titlesize': 'x-large',
        'axes.titleweight': 'bold',
        'axes.titlepad': 20,
    }
)

##Dataset

In [4]:
application = pd.read_csv('/content/application_record.csv')
application

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
438552,6840104,M,N,Y,0,135000.0,Pensioner,Secondary / secondary special,Separated,House / apartment,-22717,365243,1,0,0,0,,1.0
438553,6840222,F,N,N,0,103500.0,Working,Secondary / secondary special,Single / not married,House / apartment,-15939,-3007,1,0,0,0,Laborers,1.0
438554,6841878,F,N,N,0,54000.0,Commercial associate,Higher education,Single / not married,With parents,-8169,-372,1,1,0,0,Sales staff,1.0
438555,6842765,F,N,Y,0,72000.0,Pensioner,Secondary / secondary special,Married,House / apartment,-21673,365243,1,0,0,0,,2.0


In [5]:
record = pd.read_csv('/content/credit_record.csv')
record

Unnamed: 0,ID,MONTHS_BALANCE,STATUS
0,5001711,0,X
1,5001711,-1,0
2,5001711,-2,0
3,5001711,-3,0
4,5001712,0,C
...,...,...,...
1048570,5150487,-25,C
1048571,5150487,-26,C
1048572,5150487,-27,C
1048573,5150487,-28,C


In [6]:
#merge dos dataframes
df = pd.merge(application, record, on = 'ID', how = 'inner')

In [7]:
df.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,MONTHS_BALANCE,STATUS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,0,C
1,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,-1,C
2,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,-2,C
3,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,-3,C
4,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,-4,C


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 777715 entries, 0 to 777714
Data columns (total 20 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   ID                   777715 non-null  int64  
 1   CODE_GENDER          777715 non-null  object 
 2   FLAG_OWN_CAR         777715 non-null  object 
 3   FLAG_OWN_REALTY      777715 non-null  object 
 4   CNT_CHILDREN         777715 non-null  int64  
 5   AMT_INCOME_TOTAL     777715 non-null  float64
 6   NAME_INCOME_TYPE     777715 non-null  object 
 7   NAME_EDUCATION_TYPE  777715 non-null  object 
 8   NAME_FAMILY_STATUS   777715 non-null  object 
 9   NAME_HOUSING_TYPE    777715 non-null  object 
 10  DAYS_BIRTH           777715 non-null  int64  
 11  DAYS_EMPLOYED        777715 non-null  int64  
 12  FLAG_MOBIL           777715 non-null  int64  
 13  FLAG_WORK_PHONE      777715 non-null  int64  
 14  FLAG_PHONE           777715 non-null  int64  
 15  FLAG_EMAIL       

In [9]:
df.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,777715.0,5078742.95,41804.42,5008804.0,5044568.5,5069530.0,5115551.0,5150487.0
CNT_CHILDREN,777715.0,0.43,0.75,0.0,0.0,0.0,1.0,19.0
AMT_INCOME_TOTAL,777715.0,188534.8,101622.45,27000.0,121500.0,162000.0,225000.0,1575000.0
DAYS_BIRTH,777715.0,-16124.94,4104.3,-25152.0,-19453.0,-15760.0,-12716.0,-7489.0
DAYS_EMPLOYED,777715.0,57775.83,136471.74,-15713.0,-3292.0,-1682.0,-431.0,365243.0
FLAG_MOBIL,777715.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
FLAG_WORK_PHONE,777715.0,0.23,0.42,0.0,0.0,0.0,0.0,1.0
FLAG_PHONE,777715.0,0.3,0.46,0.0,0.0,0.0,1.0,1.0
FLAG_EMAIL,777715.0,0.09,0.29,0.0,0.0,0.0,0.0,1.0
CNT_FAM_MEMBERS,777715.0,2.21,0.91,1.0,2.0,2.0,3.0,20.0


#Data Preparation

##Data Cleaning

In [10]:
remover = ['ID', 'OCCUPATION_TYPE', 'MONTHS_BALANCE', 'DAYS_BIRTH','FLAG_MOBIL','FLAG_WORK_PHONE','FLAG_PHONE','FLAG_EMAIL']
df = df.drop(columns=remover)

In [11]:
df.head()

Unnamed: 0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_EMPLOYED,CNT_FAM_MEMBERS,STATUS
0,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-4542,2.0,C
1,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-4542,2.0,C
2,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-4542,2.0,C
3,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-4542,2.0,C
4,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-4542,2.0,C


In [12]:
#transformação de dias em anos de trabalho
df['DAYS_EMPLOYED'] = df['DAYS_EMPLOYED'].abs()
df['YEARS_EMPLOYED'] = (df['DAYS_EMPLOYED']/365).astype(int)

In [13]:
#remoção da coluna days_employed
df = df.drop('DAYS_EMPLOYED', axis = 1)
df.head()

Unnamed: 0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,CNT_FAM_MEMBERS,STATUS,YEARS_EMPLOYED
0,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2.0,C,12
1,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2.0,C,12
2,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2.0,C,12
3,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2.0,C,12
4,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2.0,C,12


In [14]:
#alterando o tipo da coluna type
df['CNT_FAM_MEMBERS'] = df['CNT_FAM_MEMBERS'].astype(int)
df.head()

Unnamed: 0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,CNT_FAM_MEMBERS,STATUS,YEARS_EMPLOYED
0,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2,C,12
1,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2,C,12
2,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2,C,12
3,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2,C,12
4,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,2,C,12


#Analises

##Média de renda por nível de escolaridade

In [15]:
income_education = df.groupby('NAME_EDUCATION_TYPE')['AMT_INCOME_TOTAL'].mean().reset_index().round()
income_education = income_education.sort_values(by ='AMT_INCOME_TOTAL', ascending=False)

In [16]:
fig = px.bar(income_education, x='NAME_EDUCATION_TYPE', y='AMT_INCOME_TOTAL',
             title='Renda Anual Média por Nível de Educação',
             labels={'NAME_EDUCATION_TYPE': 'NAME EDUCATION TYPE', 'AMT_INCOME_TOTAL': 'AMT INCOME TOTAL'},
             color_discrete_sequence=['skyblue'])

fig.show()

##Quantidade de Pessoas por Nível Educacional

In [29]:
# Calcular a contagem de pessoas por tipo de educação
contagem_educacao = df['NAME_EDUCATION_TYPE'].value_counts().reset_index()

# Renomear as colunas
contagem_educacao.columns = ['NAME_EDUCATION_TYPE', 'Quantidade']

# Criar o gráfico de barras com escala logarítmica no eixo y
fig = px.bar(contagem_educacao, x='NAME_EDUCATION_TYPE', y='Quantidade',
             title='Quantidade de Pessoas por Tipo de Educação',
             labels={'NAME_EDUCATION_TYPE': 'Tipo de Educação', 'Quantidade': 'Quantidade de Pessoas'},
             log_y=True)  # Aplicar escala logarítmica no eixo y

# Exibir o gráfico
fig.show()

##Quantide de pessoas por nível de escolaridade e tipo de renda

In [30]:
# Calcular a contagem de pessoas por nível de escolaridade e tipo de renda
contagem_educacao_renda = df.groupby(['NAME_EDUCATION_TYPE', 'NAME_INCOME_TYPE']).size().reset_index(name='Quantidade')

# Criar o gráfico de barras com escala logarítmica no eixo y
fig = px.bar(contagem_educacao_renda, x='NAME_EDUCATION_TYPE', y='Quantidade', color='NAME_INCOME_TYPE',
             title='Quantidade de Pessoas por Nível de Escolaridade e Tipo de Renda',
             labels={'NAME_EDUCATION_TYPE': 'Nível de Escolaridade', 'Quantidade': 'Quantidade de Pessoas', 'NAME_INCOME_TYPE': 'Tipo de Renda'},
             log_y=True)  # Aplicar escala logarítmica no eixo y

# Exibir o gráfico
fig.show()

##Média de renda por Categoria de renda

In [19]:

media_renda_por_tipo_renda = df.groupby('NAME_INCOME_TYPE')['AMT_INCOME_TOTAL'].mean().reset_index()

fig = px.bar(media_renda_por_tipo_renda, x='NAME_INCOME_TYPE', y='AMT_INCOME_TOTAL',
             title='Média de Renda por Categoria de Renda',
             labels={'NAME_INCOME_TYPE': 'Tipo de Renda', 'AMT_INCOME_TOTAL': 'Média de Renda'},
             color='NAME_INCOME_TYPE',
             color_discrete_sequence=px.colors.qualitative.Set1)


fig.show()

##Quantidade de Pessoas por Tipo de Educação e Tipo de imóvel

In [53]:
contagem_educacao_imovel

Unnamed: 0,NAME_EDUCATION_TYPE,NAME_HOUSING_TYPE,Quantidade
0,Academic degree,House / apartment,837
1,Higher education,Co-op apartment,1814
2,Higher education,House / apartment,191740
3,Higher education,Municipal apartment,4316
4,Higher education,Office apartment,2068
5,Higher education,Rented apartment,2070
6,Higher education,With parents,11625
7,Incomplete higher,Co-op apartment,270
8,Incomplete higher,House / apartment,25363
9,Incomplete higher,Municipal apartment,350


In [46]:
# Calcular a contagem de pessoas por tipo de educação e tipo de imóvel
contagem_educacao_imovel = df.groupby(['NAME_EDUCATION_TYPE', 'NAME_HOUSING_TYPE']).size().reset_index(name='Quantidade')

# Criar o gráfico de barras empilhadas com escala logarítmica no eixo y
fig = px.bar(contagem_educacao_imovel, x='NAME_EDUCATION_TYPE', y='Quantidade', color='NAME_HOUSING_TYPE',
             title='Quantidade de Pessoas por Tipo de Educação e Tipo de Imóvel',
             labels={'NAME_EDUCATION_TYPE': 'Tipo de Educação', 'Quantidade': 'Quantidade de Pessoas', 'NAME_HOUSING_TYPE': 'Tipo de Imóvel'},
             barmode='group',
             log_y=True)  # Aplicar escala logarítmica no eixo y

# Exibir o gráfico
fig.show()

****

##Média de Renda por Tipo de Imóvel

In [17]:
# Calcular a média de renda por tipo de imóvel
media_renda_por_tipo_imovel = df.groupby('NAME_HOUSING_TYPE')['AMT_INCOME_TOTAL'].mean().reset_index()

# Criar o gráfico de barras
fig = px.bar(media_renda_por_tipo_imovel, x='NAME_HOUSING_TYPE', y='AMT_INCOME_TOTAL',
             title='Média de Renda por Tipo de Imóvel',
             labels={'NAME_HOUSING_TYPE': 'Tipo de Imóvel', 'AMT_INCOME_TOTAL': 'Média de Renda'})

# Exibir o gráfico
fig.show()

##Categoria de Renda por tipo de imóvel

In [43]:
frequencia_por_renda_imovel = df.groupby(['NAME_INCOME_TYPE', 'NAME_HOUSING_TYPE']).size().unstack(fill_value=0).reset_index()

In [55]:
data_melted

Unnamed: 0,NAME_INCOME_TYPE,NAME_HOUSING_TYPE,Frequência
0,Commercial associate,Co-op apartment,6.230481
1,Pensioner,Co-op apartment,3.931826
2,State servant,Co-op apartment,6.257668
3,Student,Co-op apartment,0.0
4,Working,Co-op apartment,7.854769
5,Commercial associate,House / apartment,12.00229
6,Pensioner,House / apartment,11.723365
7,State servant,House / apartment,10.951613
8,Student,House / apartment,5.777652
9,Working,House / apartment,12.774894


In [47]:
# Copiar os dados para um novo DataFrame
data_scaled = frequencia_por_renda_imovel.copy()

# Calcular o logaritmo dos dados (adicionando 1 para evitar valores negativos)
data_scaled[data_scaled.columns[1:]] = np.log1p(data_scaled[data_scaled.columns[1:]])

# Melt dos dados para o formato adequado para Plotly Express
data_melted = data_scaled.melt(id_vars='NAME_INCOME_TYPE', var_name='NAME_HOUSING_TYPE', value_name='Frequência')

# Criar o gráfico de barras
fig = px.bar(data_melted, x='NAME_INCOME_TYPE', y='Frequência', color='NAME_HOUSING_TYPE',
             title='Frequência do Tipo de Renda por Tipo de Imóvel (Escala Logarítmica)',
             labels={'NAME_INCOME_TYPE': 'Tipo de Renda', 'Frequência': 'Frequência (log)', 'NAME_HOUSING_TYPE': 'Tipo de Imóvel'},
             barmode='group')

# Exibir o gráfico
fig.show()

# **Insights**







**Disparidade na distribuição educacional e de renda:**

A análise revela uma tendência em que os níveis mais baixos de educação geralmente estão associados a rendas mais baixas. No entanto, há exceções, como a presença de indivíduos com níveis mais baixos de educação entre os grupos de renda mais alta.



---

**Alto número de pessoas com educação secundária ou especial secundária:**


A maioria das pessoas tem um nível de educação secundário ou especial secundário, o que indica uma oportunidade de fornecer serviços financeiros adaptados a esse grande segmento da população.



---



**Concentração de renda em determinados grupos de renda e tipos de moradia:**

Os dados mostram que certos grupos de renda, como associados comerciais e trabalhadores, têm uma presença mais forte em certos tipos de habitação, como apartamentos alugados e apartamentos de escritório. Isso pode sugerir estratégias de marketing direcionadas a esses grupos específicos para promover produtos e serviços relacionados à habitação.

#**Planos de Ação**


---

**Desenvolvimento de produtos financeiros acessíveis:**


Com base na distribuição educacional e de renda, o banco pode desenvolver produtos financeiros específicos para atender às necessidades dos clientes em diferentes níveis educacionais e faixas de renda. Isso pode incluir contas bancárias simplificadas, crédito acessível e serviços de investimento acessíveis.



---


**Segmentação de marketing personalizada:**


Utilizando os dados sobre renda, educação e tipo de moradia, o banco pode segmentar sua base de clientes e direcionar campanhas de marketing específicas para cada grupo. Isso pode aumentar a eficácia das campanhas e melhorar o engajamento dos clientes.


---



**Parcerias com programas de educação financeira:**


O banco pode estabelecer parcerias com programas de educação financeira para oferecer recursos educacionais e workshops para clientes em todos os níveis educacionais. Isso pode ajudar a melhorar a literacia financeira e capacitar os clientes a tomar decisões financeiras mais informadas.



---


**Parcerias Estratégicas:**


Estabelecer parcerias estratégicas com instituições educacionais, empresas de tecnologia e organizações comunitárias para oferecer programas de educação financeira, consultoria e suporte. Isso pode ajudar a aumentar a conscientização sobre os serviços do banco e a fortalecer os laços com a comunidade.


# **Conclusão**

A análise dos dados revelou insights valiosos que podem orientar o banco na identificação de oportunidades de melhoria, segmentação de clientes potencialmente lucrativos e desenvolvimento de estratégias eficazes de marketing e engajamento. Ao oferecer produtos financeiros acessíveis, segmentar campanhas de marketing e promover a educação financeira, o banco pode atender melhor às necessidades de seus clientes e impulsionar seu crescimento e rentabilidade a longo prazo.


