Caso queira testar, deixei alguns displays e prints comentados, basta descomentar para visualizar as tabelas.

Aqui vamos:

    Importar uma base de dados
    Visualizar nossa base de dados
    Entender os dados que temos nessa base de dados
    Encontrar as falhas da base de dados
    Tratar a base de dados
    Realizar a análise dos dados de cancelamento
    Realizar uma análise detalhada dos dados de cancelamento

Para que o código funcione como deveria, executar as células em sequência.


In [None]:
import pandas as pd

tabelaCancelamentos = pd.read_csv('cancelamentos.csv')

# Visualizar as primeiras linhas:
# print(tabelaCancelamentos.head())

# Visualizar toda a variável:
# print(tabelaCancelamentos)

# Visualizar as últimas linhas:
# print(tabelaCancelamentos.tail())

# Melhor visualização de tabelas:
display(tabelaCancelamentos)

In [None]:
tabelaCancelamentos = pd.read_csv('cancelamentos.csv')

# excluindo colunas que não são úteis para a análise:
tabelaCancelamentos = tabelaCancelamentos.drop(columns='CustomerID')
# se for excluir mais de uma coluna, basta colocar uma lista com os nomes das colunas, exemplo:
# tabelaCancelamentos = tabelaCancelamentos.drop(columns=['CustomerID', 'idade', 'sexo', 'estado_civil', 'estado'])

display(tabelaCancelamentos)

In [None]:
# A função display.info(nome_da_tabela) mostra a informação do objeto/variável, no caso, nossa base de dados

display(tabelaCancelamentos.info())

# Neste exemplo obtivemos a informação de que as colunas estão com valores float (números decimais) e object (texto).
# Como há um número muito baixo de células vazias, 
# podemos excluir essas linhas sem maiores interferências no resultado da análise.

In [None]:
# A função dropna() exclui as linhas com valores nulos.
tabelaCancelamentos = tabelaCancelamentos.dropna()
display(tabelaCancelamentos)
display(tabelaCancelamentos.info())

# antes tínhamos 881666 linhas e agora temos 881659 linhas.
# o total de não nulos em todas as colunas é 881659, o mesmo total de linhas. Com isso tratamos os nulos.

# Se fôssemos preencher as linhas nulas com algum valor, usaríamos a função fillna():
# tabelaCancelamentos = tabelaCancelamentos.fillna(0) 
# Preencherá com 0 as células nulas.

In [None]:
display(tabelaCancelamentos['cancelou'].value_counts())
# A função value_counts() mostra a quantidade de valores únicos de uma coluna, 
# ou seja, conta quantas vezes cada valor aparece.

# Para somar os valores de uma coluna, usamos a função sum().
# Para mostrar a média dos valores de uma coluna, usamos a função mean().
# Para mostrar a mediana dos valores de uma coluna, usamos a função median().
# Para mostrar o desvio padrão dos valores de uma coluna, usamos a função std().
# Para mostrar o valor máximo dos valores de uma coluna, usamos a função max().
# Para mostrar o valor mínimo dos valores de uma coluna, usamos a função min().

In [None]:
display(tabelaCancelamentos['cancelou'].value_counts(normalize=True))
# O parâmetro normalize=True mostra a porcentagem de cada valor único de uma coluna.
display(tabelaCancelamentos['cancelou'].value_counts(normalize=True).map("{:.1%}".format))
# O método map("{:.1%}".format) formata a porcentagem para 1 casa decimal.
# O : informa que um número será formatado, o .1 informa que teremos uma casa decimal 
# e o % informa que o número será multiplicado por 100.
# O método map() é utilizado para aplicar uma função a cada elemento de uma série.
# O método format() formata o valor de acordo com o argumento passado.

Não formate, arredonde ou nada similar antes do fim das operações, pois pode (em algum momento vai, a depender de como use e/ou trate os dados) alterar algum resultado.

In [None]:
# De acordo com o tempo de contrato, qual o tipo de contrato mais cancelado?
# como que a duração de contrato impacta no cancelamento?
import plotly.express as px


column = 'duracao_contrato'
for column in tabelaCancelamentos.columns:
    # Criar o gráfico
    graficoRelacoesCancelamentos = px.histogram(tabelaCancelamentos, x=column, color='cancelou', text_auto=True, nbins=100, title='Relação entre ' + column + ' do contrato e cancelamento')

    # Mostrar o gráfico
    graficoRelacoesCancelamentos.show()

Documentação do Plotly para Python
https://plotly.com/python/

Daqui é possível realizar análises das bases de dados.