# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

## Passo a Passo do Projeto

#### Passo 1: Importar Base de Dados
- Carregar os dados necessários para análise.

## Passo 2: Visualizar Base de Dados
- Examinar a estrutura e os valores iniciais da base.

### Passo 3: Corrigir Erros na Base de Dados
- Tratar inconsistências, valores ausentes e problemas de formatação.

### Passo 4: Análise dos Cancelamentos
- Explorar as métricas relacionadas aos cancelamentos.

### Passo 5: Análise das Causas dos Cancelamentos
- Avaliar como diferentes colunas impactam o cancelamento.

---

### Instalação de Pacotes Necessários para o Projeto
Execute os comandos abaixo para instalar os pacotes essenciais:

```python
!pip install pandas numpy openpyxl nbformat ipykernel plotly
```

In [21]:
# Passo 1: Importar a base de dados
import pandas as pd  # Importa o pandas, uma biblioteca para manipulação de dados estruturados (DataFrames e séries temporais).

# Carrega a base de dados em um DataFrame chamado 'tabela'
tabela = pd.read_csv("cancelamentos_sample.csv")  # Lê um arquivo CSV e transforma em um DataFrame do pandas.

In [None]:
# Passo 2: Visualizar a base de dados
# Remoção de colunas que não contribuem para a análise.
tabela = tabela.drop(columns="CustomerID")  # Remove a coluna "CustomerID" pois não é relevante para a análise.

# Exibe as primeiras linhas do DataFrame para inspecionar a estrutura e os dados iniciais.
display(tabela)

In [None]:
# Passo 3: Corrigir as "cagadas" da base de dados
# Exibe informações sobre o DataFrame, incluindo tipos de dados e valores ausentes.
display(tabela.info())

# Remove as linhas com valores ausentes em qualquer coluna.
tabela = tabela.dropna()

# Verifica novamente a estrutura do DataFrame após a limpeza.
display(tabela.info())

In [None]:
# Passo 4: Análise inicial dos cancelamentos
# Conta quantas pessoas cancelaram e quantas não cancelaram (frequência absoluta).
display(tabela["cancelou"].value_counts())

# Calcula a proporção de cancelamentos em percentual.
display(tabela["cancelou"].value_counts(normalize=True))

In [None]:
# Passo 5: Análise das causas dos cancelamentos
# Gráficos/dashboards para entender o impacto de cada coluna no cancelamento.
import plotly.express as px  # Importa o plotly express, usado para criar gráficos interativos.

# Cria gráficos histográficos para cada coluna, coloridos de acordo com a coluna "cancelou".
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")  # Histograma com separação por cancelamento.
    grafico.show()  # Exibe o gráfico.

# Análise baseada nos insights dos gráficos:
# - Clientes com contrato mensal ("Monthly") têm maior probabilidade de cancelar.
# - Clientes que ligam mais de 4 vezes ao call center cancelam com maior frequência.
# - Clientes que atrasaram mais de 20 dias têm maior chance de cancelar.

# Filtra os dados para criar um conjunto com os clientes menos propensos a cancelar, baseado nos insights anteriores.
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]  # Remove clientes com contratos mensais.
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]  # Mantém clientes com até 4 ligações ao call center.
tabela = tabela[tabela["dias_atraso"] <= 20]  # Mantém clientes com até 20 dias de atraso.

# Reanalisa os cancelamentos após aplicar os filtros.
display(tabela["cancelou"].value_counts())  # Frequência absoluta.
display(tabela["cancelou"].value_counts(normalize=True))  # Frequência relativa (percentual).

In [26]:
# Comando adicional sugerido para atualização de pacotes utilizados no projeto
# !pip install nbformat --upgrade