In [1]:
import pandas as pd
import plotly.express as px

In [2]:
df = pd.read_csv('../Dados/CHURN_CREDIT_MOD14_TRATADO.csv')
df.head(10)

Unnamed: 0,Credit_Score,Pais,Genero,Idade,Tempo_Credito,Balanco,Qtd_Produtos,Possui_Cartao,Membro_Ativo,Salario_Anual,Churn
0,677,SPAIN,Male,18.0,5,134796.87,2,1.0,0.0,1011687.0,0.0
1,644,SPAIN,Female,18.0,7,0.0,1,0.0,1.0,1011687.0,0.0
2,641,SPAIN,Male,18.0,1,0.0,2,0.0,1.0,1011687.0,0.0
3,826,SPAIN,Male,18.0,2,0.0,2,0.0,1.0,1011687.0,0.0
4,774,SPAIN,Female,18.0,1,185891.54,1,1.0,0.0,1011687.0,0.0
5,688,SPAIN,Female,18.0,2,0.0,2,1.0,0.0,1011687.0,0.0
6,803,SPAIN,Male,18.0,6,0.0,1,0.0,0.0,1011687.0,1.0
7,578,SPAIN,Female,18.0,8,71843.15,2,0.0,1.0,1011687.0,0.0
8,598,SPAIN,Male,18.0,6,0.0,2,0.0,1.0,1011687.0,0.0
9,624,SPAIN,Female,18.0,6,0.0,2,0.0,1.0,1011687.0,0.0


### Vendo qual gênero tem a maior propensão a ser Churn

In [66]:
# AGRUPANDO A COLUNA GÊNERO POR CHURN
df_agrupado = df.groupby(['Churn', 'Genero']).size().reset_index(name = 'Contagem')

# CALCULANDO A QUANTIDADE DE REGISTROS CHURN E NÃO CHURN
total_churn = df_agrupado.groupby('Churn')['Contagem'].transform('sum')

# CALCULANDO A REPRESENTATIVIDADE DE CADA GÊNERO POR STATUS DE CHURN
df_agrupado['Percentual'] = ((df_agrupado['Contagem'] / total_churn) * 100).round(2)
print(f'\nDATA FRAME FINAL: \n{df_agrupado}\n')

# PLOTANDO O GRÁFICO
fig = px.bar(
    df_agrupado,
    x = 'Churn',
    y = 'Percentual',
    color = 'Genero',
    barmode = 'stack',
    labels = {'Genero': 'Gênero'},
    title = 'Relação Entre Gênero e Churn',
    template = 'plotly'
    )

# ALTERANDO A FONTE DENTRO DA CAIXA DE RÓTULOS DE DADOS
fig.update_layout(
    hoverlabel = dict( # ---> ALTERANDO O RÓTULO DE DADO
        font = dict(
            color = 'white',
            size = 16
        )
    ),
    font = dict(  # ---> ALTERA O TAMANHO DA FONTE
        size = 20,
    )
)

fig.show()


DATA FRAME FINAL: 
   Churn  Genero  Contagem  Percentual
0    0.0  Female     31350       39.87
1    0.0    Male     47274       60.13
2    1.0  Female     12159       57.67
3    1.0    Male      8925       42.33



### Relação de Pais com Churn

In [78]:
# CHURN POR PAIS
df_pais_agrupado = df.groupby(['Churn', 'Pais']).size().reset_index(name = 'Contagem')

# TOTAL DE REGISTROS CHURN
total_churn_pais = df_pais_agrupado.groupby('Churn')['Contagem'].transform('sum')

# PERCENTUAL
df_pais_agrupado['Percentual'] = ((df_pais_agrupado['Contagem'] / total_churn_pais) * 100).round(2)
print(f'DATA FRAME FINAL: \n{df_pais_agrupado}\n')

fig = px.bar(
    df_pais_agrupado,
    x = 'Churn',
    y = 'Percentual',
    color = 'Pais',
    barmode = 'stack',
    template = 'plotly',
    title = 'Relação Entre Pais e Churn',
    labels = {'Pais': 'País'}
)

fig.update_layout(
    hoverlabel = dict(
        font = dict(
            color = 'white',
            size = 16
        )
    ),
    font = dict(
        size = 20
    )
)

fig.show()

DATA FRAME FINAL: 
   Churn     Pais  Contagem  Percentual
0    0.0   FRANCE     47677       60.64
1    0.0  GERMANY     12963       16.49
2    0.0    SPAIN     17984       22.87
3    1.0   FRANCE      9362       44.40
4    1.0  GERMANY      7983       37.86
5    1.0    SPAIN      3739       17.73



### Relação de Pais e Quantidade de Produtos

In [87]:
media_produtos_pais = df.groupby('Pais')['Qtd_Produtos'].median().reset_index()

fig = px.bar(
    media_produtos_pais,
    x = 'Pais',
    y = 'Qtd_Produtos',
    title = 'Média Produtos por País',
    template = 'plotly',
    labels = {'Qtd_Produtos': 'Quantidade', 'Pais': 'País'}
)

fig.update_layout(
    font = dict(
        size = 16
    )
)

fig.show()

### Relação de Churn com Idade dos Clientes

In [93]:
mediana_idade = df.groupby('Churn')['Idade'].median().reset_index()

fig = px.bar(
    mediana_idade,
    x = 'Churn',
    y = 'Idade',
    title = 'Idade Média de Status Churn',
    template = 'plotly',
)
fig.update_layout(
    font = dict(
        size = 16
    )
)

fig.show()

### Relação de Churn e Membros Ativos

In [112]:
# CRIANDO UM DATA FRAME PARALELO PARA ATRIBUIR OUTROS VALORES NA COLUNA MEMBRO_ATIVO
df_paralelo = df.copy()
df_paralelo['Membro_Ativo'] = df_paralelo['Membro_Ativo'].replace({0: 'Inativo', 1: 'Ativo'})

df_membro_agrupado = df_paralelo.groupby(['Churn', 'Membro_Ativo']).size().reset_index(name = 'Contagem')
total_churn_membro = df_membro_agrupado.groupby('Churn')['Contagem'].transform('sum')
df_membro_agrupado['Percentual'] = ((df_membro_agrupado['Contagem'] / total_churn_membro ) * 100).round(2)
print(f'DATA FRAME FINAL: \n{df_membro_agrupado}\n')

fig = px.bar(
    df_membro_agrupado,
    x = 'Churn',
    y = 'Percentual',
    barmode = 'stack',
    color = 'Membro_Ativo',
    template = 'plotly',
    labels = {'Membro_Ativo': 'Membro Ativo'},
    title = 'Relação de Churn e Membro Ativo'
)

fig.update_layout(
    hoverlabel = dict(
        font = dict(
            color = 'white',
            size = 16
        )
    ),
    font = dict(
        size = 16
    )
)

fig.show()

DATA FRAME FINAL: 
   Churn Membro_Ativo  Contagem  Percentual
0    0.0        Ativo     43406       55.21
1    0.0      Inativo     35218       44.79
2    1.0        Ativo      6191       29.36
3    1.0      Inativo     14893       70.64



### Relação de Salário e Churn

In [115]:
mediana_salario = df.groupby('Churn')['Salario_Anual'].median().reset_index()

fig = px.bar(
    mediana_salario,
    x = 'Churn',
    y = 'Salario_Anual',
    template = 'plotly',
    title = 'Média Salário por Churn'
)

fig.update_layout(
    font = dict(
        size = 16
    )
)

fig.show()

Nem todas as variáveis são diretamente ligadas a variável que vai ser prevista pelo modelo de ML, mas isso não diminui a sua importância na análise pois combinando com outra variável, pode se tornar incrivelmente informativa.

**Variáveis de interação:** duas variáveis que não possuem relação direta com a variável principal, mas sua combinação pode ser significativamente informativa sobre a variável principal.

**Variável mediadora:** uma variável pode não ter interação direta com a variável principal, mas pode afetar indiretamente a relação de outras variáveis com a variável principal.

**Variável de confusão:** pode não parecer relacionada com a variável principal mas na verdade está correlacionada com uma variável que está relacionada com a variável principal.

In [8]:
df_agrupado_salario_pais = df.groupby('Pais')['Salario_Anual'].median().reset_index()
fig = px.bar(
    df_agrupado_salario_pais,
    x = 'Pais',
    y = 'Salario_Anual',
    title = 'Média salário por pais',
    template = 'plotly'
)

fig.show()

Relação Salário e Idade

In [17]:
df_agrupado_salario_idade = df.groupby('Idade')['Salario_Anual'].mean().reset_index()

fig = px.area(
    df_agrupado_salario_idade,
    x = 'Idade',
    y = 'Salario_Anual',
    template = 'plotly',
    title = 'Salario por idade',
)

fig.show()

### Insights coletados:

- Mulheres possuem maior propensão de abandonar nossos serviços
- Alemanha é o pais que mais perdemos clientes
- Clientes mais velhos são mais propensos a deixarem os serviços
- Membros ativos abandonam menos a marca
- Clientes franceses possuem uma maior faixa salarial
- Clientes mais velhos possuem uma maior média salarial