Instalação e importação dos pacotes

In [2]:
#%pip install numpy
#%pip install pandas
#%pip install plotly
#
#%pip install pandas_profiling
#%pip install ipywidgets
#%pip install matplotlib
################################################################
import numpy as np
import pandas as pd
import plotly.express as px
# 
from pandas_profiling import ProfileReport
import ipywidgets
#import matplotlib.pyplot

Leitura do arquivo CSV e demais tratamentos

In [21]:
#Leitura do arquivo CSV
df_original = pd.read_csv(filepath_or_buffer = "Bank Customer Churn Prediction.csv", sep = ",", header = 0, index_col = False)

#Alteração do nome das colunas
df = df_original.rename(
        columns = 
            {
            "customer_id": "id_cliente",
            "credit_score": "score_de_credito",
            "country": "pais",
            "gender": "genero",
            "age": "idade",
            "tenure": "idade_abertura_cc",
            "balance": "saldo_cc",
            "products_number": "qtd_produtos",
            "credit_card": "cartao_de_credito",
            "active_member": "ativo",
            "estimated_salary": "salario_estimado"  
            }
        )

In [None]:
#Mostrar o data frame
display(df)

In [None]:
#Informações sobre o data frame
df.info()

Análise Exploratória - Score de Crédito

In [6]:
df.score_de_credito.describe()

count    10000.000000
mean       650.528800
std         96.653299
min        350.000000
25%        584.000000
50%        652.000000
75%        718.000000
max        850.000000
Name: score_de_credito, dtype: float64

In [70]:
#Gráfico - Score de Crédito
fig_score = px.box(
    data_frame = df, 
    x = "score_de_credito",
    title = "Score de Crédito"
    #,
    #notched = False,
    #hover_data = ["churn"]
    )
fig_score

In [95]:
df_pais = df["pais"].count()
df_pais

10000

In [88]:
df_pais

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001467BCF3F10>

In [71]:
#Gráfico - Clientes por país
fig_pais = px.pie(
    data_frame = df, 
    names = "pais",
    title = "Clientes por País",
    color = "pais",
    color_discrete_map = {"France": "cyan",
                          "Germany": "royalblue",
                          "Spain": "darkblue"},
    hole = .4
                )
fig_pais

In [9]:
df.idade.describe()

count    10000.000000
mean        38.921800
std         10.487806
min         18.000000
25%         32.000000
50%         37.000000
75%         44.000000
max         92.000000
Name: idade, dtype: float64

In [10]:
#Gráfico - Idade
fig_idade = px.box(
    data_frame = df, 
    x = "idade",
    title = "Idade"
    #,
    #notched = False,
    #hover_data = ["churn"]
    )
fig_idade

In [17]:
df.idade_abertura_cc.describe()

count    10000.000000
mean         5.012800
std          2.892174
min          0.000000
25%          3.000000
50%          5.000000
75%          7.000000
max         10.000000
Name: idade_abertura_cc, dtype: float64

In [18]:
#Gráfico - Tempo de abertura da conta
fig_idade_abertura_cc= px.box(
    data_frame = df, 
    x = "idade_abertura_cc",
    title = "Tempo de abertura da conta"
    )
fig_idade_abertura_cc

In [19]:
df.saldo_cc.describe()

count     10000.000000
mean      76485.889288
std       62397.405202
min           0.000000
25%           0.000000
50%       97198.540000
75%      127644.240000
max      250898.090000
Name: saldo_cc, dtype: float64

In [20]:
#Gráfico - Saldo em Conta Corrente
fig_saldo_cc= px.box(
    data_frame = df, 
    x = "saldo_cc",
    title = "Saldo em Conta Corrente"
    )
fig_saldo_cc

In [22]:
df.qtd_produtos.describe()

count    10000.000000
mean         1.530200
std          0.581654
min          1.000000
25%          1.000000
50%          1.000000
75%          2.000000
max          4.000000
Name: qtd_produtos, dtype: float64

In [24]:
df.qtd_produtos.value_counts()

1    5084
2    4590
3     266
4      60
Name: qtd_produtos, dtype: int64

In [23]:
#Gráfico - Quantidade de Produtos
fig_qtd_produtos= px.box(
    data_frame = df, 
    x = "qtd_produtos",
    title = "Quantidade de Produtos"
    )
fig_qtd_produtos

In [29]:
#Gráfico - Clientes por quantidade de produtos
fig_qtd_produtos_pie = px.pie(
    data_frame = df, 
    names = "qtd_produtos",
    title = "Clientes por quantidade de produtos",
    color = "qtd_produtos",
    color_discrete_map = {1: "cyan",
                          2: "royalblue",
                          3: "darkblue",
                          4: "lightblue"},
    hole = .5
                )
fig_qtd_produtos_pie

Correlações

In [14]:
df_corr = df.corr(method = "pearson")

In [15]:
import plotly.graph_objects as go

fig_corr = go.Figure(
    data = go.Heatmap(
        z = df_corr,
        x = df_corr.columns,
        y = df_corr.columns
    )
)

fig_corr.show()

In [16]:
fig_corr_arred = px.imshow(
    round(df_corr, 2),
    text_auto = True,
    aspect = "auto"
)

fig_corr_arred.show()

In [26]:
#profile = ProfileReport(df_bank)
#profile.to_widgets()
#profile.to_file("bank_churn.html")
#profile.to_notebook_iframe()

In [66]:
df["pais"].unique()
#df_bank["pais"].nunique()

array(['France', 'Spain', 'Germany'], dtype=object)

In [43]:
#ver as colunas do data frame
df.columns
#ver a quantidade de linhas
df.index
#mostrar estatísticas rápidas do data frame
df.describe()
#pivotar o data frame
df.T
#monstrando o data frame ordenado pelas colunas crescentes
df.sort_index(axis = 1, ascending = True)
#mostrando o data frame ordenado por uma coluna
df.sort_values(by = "churn")
#mostrando 5 primeiras linhas e 2 colunas específicas
df.loc[0:5:, ["ativo", "idade"]]
#mostrar 3 primeiras linhas e todas as colunas
df.iloc[0:3, :]
#mostrar uma posição específica
df.iloc[0]



Unnamed: 0,ativo,cartao_de_credito,churn,genero,id_cliente,idade,idade_abertura_cc,pais,qtd_produtos,salario_estimado,saldo_cc,score_de_credito
0,1,1,1,Female,15634602,42,2,France,1,101348.88,0.00,619
1,1,0,0,Female,15647311,41,1,Spain,1,112542.58,83807.86,608
2,0,1,1,Female,15619304,42,8,France,3,113931.57,159660.80,502
3,0,0,0,Female,15701354,39,1,France,2,93826.63,0.00,699
4,1,1,0,Female,15737888,43,2,Spain,1,79084.10,125510.82,850
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,0,1,0,Male,15606229,39,5,France,2,96270.64,0.00,771
9996,1,1,0,Male,15569892,35,10,France,1,101699.77,57369.61,516
9997,1,0,1,Female,15584532,36,7,France,1,42085.58,0.00,709
9998,0,1,1,Male,15682355,42,3,Germany,2,92888.52,75075.31,772
