# Python Insights - Analisando Dados com Python

## Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

## Resumo da Análise de Cancelamentos

#### 1. Remoção da coluna `CustomerID`
- **O que fez:** Removido a coluna `CustomerID`, pois é um identificador único e não fornece informação relevante para a análise de comportamento de cancelamentos.
- **Por que fez isso:** Para limpar a tabela e focar apenas nas colunas que contêm informações úteis para a análise.

#### 2. Remoção de valores vazios (`dropna()`)
- **O que fez:** Removido registros com valores ausentes (NaN) utilizando `dropna()`.
- **Por que fez isso:** Para garantir que a análise seja feita com dados completos e confiáveis, evitando resultados distorcidos por registros incompletos.

#### 3. Análise da taxa de cancelamento
- **O que fez:** Calculou a contagem e porcentagem de clientes que cancelaram e não cancelaram (`tabela["cancelou"].value_counts()` e `tabela["cancelou"].value_counts(normalize=True)`).
- **Por que fez isso:** Para avaliar a proporção de cancelamentos e entender o padrão geral de cancelamento no banco de dados. Não era o foco imediato identificar uma tendência específica, mas apenas verificar a taxa de cancelamento.

#### 4. Análise por tipo de `duracao_contrato`
- **O que fez:** Verificou a contagem e porcentagem de cancelamentos para diferentes durações de contrato (mensal, trimestral, anual).
- **Por que fez isso:** Para entender o comportamento de cancelamento em diferentes tipos de contratos e se algum tipo de contrato apresenta maior tendência de cancelamento.

#### 5. Exclusão de contratos mensais
- **O que fez:** Excluiu os contratos mensais da análise.
- **Por que fez isso:** Os contratos mensais foram removidos porque todos tinham sido cancelados, o que não traria informações relevantes para análise. Você focou em contratos com maior duração, como trimestral e anual.

#### 6. Análise do cancelamento por tipo de assinatura
- **O que fez:** Verificou a contagem e porcentagem de cancelamentos por tipo de assinatura e calculou a média dos valores numéricos para cada tipo.
- **Por que fez isso:** Para entender como diferentes tipos de assinatura (mensal, anual, etc.) influenciam a taxa de cancelamento e qual tipo apresenta maior taxa de cancelamento geral.

---

### Objetivos gerais:
- **Identificar a taxa de cancelamento** geral e por tipo de contrato.
- **Verificar padrões** de comportamento de cancelamento, focando especialmente em contratos não mensais.
- **Avaliar a influência** de diferentes tipos de assinatura na taxa de cancelamento.
- **Entender possíveis melhorias** no serviço ou mudanças necessárias para reduzir cancelamentos.


In [None]:
# Importando bibliotecas
import pandas as pd

# Importando base de dados
tabela = pd.read_csv("Cópia de cancelamentos.csv") 
tabela = tabela.drop(columns='CustomerID')

# Removendo valores vazios
tabela = tabela.dropna()

# Verificando taxa de cancelamento
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Porcentagem


# Verificando taxa de cancelamento por contrato
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format)) # Porcentagem

# Analisanto Contrato mensal
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

# Analisando contrato trimestral e anual
tabela = tabela [tabela["duracao_contrato"]!= 'Monthly']
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Porcentagem

# Analisando cancelamento por assinatura
display(tabela["assinatura"].value_counts(normalize=True).map("{:.1%}".format)) # Porcentagem
display(tabela.groupby("assinatura").mean(numeric_only=True))

## Resumo dos Gráficos Gerados

#### 1. Gráfico de `idade`
- **O que faz:** Mostra a distribuição da idade dos clientes, separada pela variável `cancelou` (se o cliente cancelou ou não).
- **Por que faz isso:** Para entender a faixa etária dos clientes e verificar se há algum padrão de cancelamento relacionado à idade.

#### 2. Gráfico de `sexo`
- **O que faz:** Mostra a distribuição dos sexos dos clientes (masculino ou feminino), separada pela variável `cancelou`.
- **Por que faz isso:** Para verificar se existe algum padrão de cancelamento com base no sexo dos clientes.

#### 3. Gráfico de `tempo_como_cliente`
- **O que faz:** Mostra a distribuição do tempo de permanência como cliente, separada pela variável `cancelou`.
- **Por que faz isso:** Para verificar se o tempo de relacionamento com a empresa influencia a taxa de cancelamento dos clientes.

#### 4. Gráfico de `frequencia_uso`
- **O que faz:** Mostra a distribuição da frequência de uso do serviço, separada pela variável `cancelou`.
- **Por que faz isso:** Para entender se clientes que utilizam mais ou menos o serviço têm uma maior ou menor tendência a cancelar.

#### 5. Gráfico de `ligacoes_callcenter`
- **O que faz:** Mostra a distribuição do número de ligações feitas ao call center, separada pela variável `cancelou`.
- **Por que faz isso:** Para verificar se a quantidade de ligações ao call center tem alguma relação com o cancelamento do serviço.

#### 6. Gráfico de `dias_atraso`
- **O que faz:** Mostra a distribuição dos dias de atraso no pagamento, separada pela variável `cancelou`.
- **Por que faz isso:** Para entender se clientes com mais dias de atraso no pagamento tendem a cancelar mais frequentemente.

#### 7. Gráfico de `assinatura`
- **O que faz:** Mostra a distribuição dos tipos de assinatura (Standard, Basic, Premium), separada pela variável `cancelou`.
- **Por que faz isso:** Para identificar se algum tipo de assinatura está mais relacionado ao cancelamento do serviço.

#### 8. Gráfico de `duracao_contrato`
- **O que faz:** Mostra a distribuição da duração do contrato (Annual, Quarterly, etc.), separada pela variável `cancelou`.
- **Por que faz isso:** Para verificar se a duração do contrato influencia a taxa de cancelamento, analisando os diferentes tipos de contrato.

#### 9. Gráfico de `total_gasto`
- **O que faz:** Mostra a distribuição do total gasto pelos clientes, separada pela variável `cancelou`.
- **Por que faz isso:** Para entender se os clientes que gastam mais ou menos têm uma maior probabilidade de cancelar o serviço.

#### 10. Gráfico de `meses_ultima_interacao`
- **O que faz:** Mostra a distribuição dos meses desde a última interação com o cliente, separada pela variável `cancelou`.
- **Por que faz isso:** Para entender se clientes com maior ou menor tempo desde a última interação têm maior chance de cancelar.

#### 11. Gráfico de `cancelou`
- **O que faz:** Mostra a distribuição de cancelamentos (0 ou 1) para os clientes, representando diretamente a variável que indica o cancelamento.
- **Por que faz isso:** Para visualizar a quantidade de clientes que cancelaram versus os que não cancelaram, de forma geral.


In [None]:
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    grafico.show()