# Qual é o melhor plano?

Você trabalha como analista para a empresa de telecomunicações Megaline. A empresa oferece aos clientes dois planos pré-pagos: Surf e Ultimate. O departamento comercial quer saber qual dos planos gera mais receita para ajustar o orçamento de publicidade.

Você vai realizar uma análise preliminar dos planos com base em uma pequena seleção de clientes. Você terá dados de 500 clientes da Megaline: que clientes são, de onde eles são, qual plano usam e o número de chamadas e mensagens realizadas em 2018. Seu trabalho é analisar o comportamento dos clientes e determinar qual plano pré-pago gera mais receita.

Objetivo da Análise

Neste projeto, realizaremos uma análise detalhada da empresa Megaline, com o principal objetivo de identificar qual plano de serviço gera maior receita e atrai mais clientes. A partir desses dados, será possível ajustar o orçamento destinado à publicidade, direcionando os investimentos de forma mais estratégica e eficiente, com foco nos planos mais rentáveis.

## Inicialização

In [162]:
# Carregando todas as bibliotecas.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind


## Carregue os dados

In [None]:
# Carregue os arquivos de dados em diferentes DataFrames
df_calls = pd.read_csv('megaline_calls.csv')
df_internet = pd.read_csv('megaline_internet.csv')
df_messages = pd.read_csv('megaline_messages.csv')
df_plans = pd.read_csv('megaline_plans.csv')
df_users = pd.read_csv('megaline_users.csv')

Vamos comecar com a tabela de o data frame Calls.csv

In [None]:
# df_calls.info()
# df_calls.sample(5)
# df_calls.describe()
# df_calls.duplicated().sum()
# df_calls.isna().sum()


A tabela não possui valores nulos.

As colunas id e call_date estão no formato object, sendo necessário converter call_date para o tipo datetime para facilitar análises temporais.

A coluna ano contém valores duplicados, o que pode indicar registros de anos repetidos — isso deve ser analisado para garantir consistência.

🧾 Descrição das Colunas:
id — Identificador exclusivo de cada chamada.

call_date — Data em que a chamada foi realizada.

duration — Duração da chamada em minutos.

user_id — Identificador do usuário que realizou a chamada.

Primeiro vamos converte a coluna call_date para DateTime

In [None]:
df_calls['call_date'] = pd.to_datetime(df_calls['call_date'])


Agora mudamos a coluna de id para float, por que se mudar para int iriamos perde as partes decimais. 

In [None]:
df_calls["id"] = df_calls["id"].astype("float")


Verificando... 

In [None]:
# df_calls.info()
# df_calls.describe()

Agora vamos analisa o dataframe magaline_internet 

In [None]:
# df_internet.info()
# df_internet.sample(5)
# df_internet.isna().sum()
# df_internet.duplicated().sum()


A tabela não possui valores nulos.

Não há registros duplicados.

As colunas id e session_date estão no formato object, sendo recomendado:

Converter id para float 

Converter session_date para o tipo datetime para facilitar análises temporais.

[Os dados deste projeto estão divididos em várias tabelas. Explore cada uma para obter uma compreensão inicial dos dados. Faça correções em cada tabela, se necessário.]

In [None]:
df_internet['session_date'] = pd.to_datetime(df_internet['session_date'])
df_internet["id"] = df_internet["id"].astype("float")

conferindo...

In [None]:
# df_internet.info()
# df_internet.sample(5) 
# df_internet.describe()


Agora vamos analisar o dataframe Magaline Messages

In [None]:
# df_messages.isna().sum()
# df_messages.duplicated().sum()
# df_messages.info()
# df_messages.info()

A tabela não possui valores nulos.

Não há registros duplicados.

As colunas id e message_date estão no formato object, sendo recomendada a conversão:

id → para Float

message_date → para o tipo datetime, a fim de possibilitar análises temporais precisas

In [None]:
df_messages["id"] = df_messages["id"].astype("float")
df_messages['message_date'] = pd.to_datetime(df_messages['message_date'])

Conferindo... 

In [None]:
# df_messages.info()

Agora vamos conferir os dados de Magaline Plans 


In [None]:
# df_plans

A tabela contém apenas informações referentes aos planos oferecidos pela empresa.

Não possui valores ausentes ou duplicados.

A estrutura é autoexplicativa e não requer alterações neste momento.

Agora vamos conferir a tabela users.. 

In [None]:
# df_users.info()
# df_users.sample(5)
# df_users.isna().sum()
# df_users.duplicated().sum()

A tabela não possui registros duplicados.

A coluna reg_date (data de registro) está no formato object e deve ser convertida para datetime para facilitar análises temporais.

A coluna churn_date indica a data em que o usuário cancelou o serviço. Também está como object e deve ser convertida para datetime.

Existem 466 valores ausentes nessa coluna, o que significa que esses usuários ainda estavam com o plano ativo no momento da extração dos dados.

In [None]:
df_users["reg_date"] = pd.to_datetime(df_users["reg_date"])
df_users["churn_date"] = pd.to_datetime(df_users["churn_date"])
df_users["status"] = df_users["churn_date"].isna().map({True: "Ativo", False: "Cancelado"})



Foram realizadas duas principais transformações na tabela users com o objetivo de preparar os dados para análises temporais e de cancelamento:

As colunas reg_date e churn_date, originalmente no formato object, foram convertidas para o tipo datetime, permitindo uma análise cronológica precisa.

Foi criada uma nova coluna chamada status, que classifica os usuários como "Ativo" ou "Cancelado", com base na ausência ou presença de data na coluna churn_date.

Essas alterações estruturam melhor a base de dados e facilitam análises relacionadas à retenção de clientes, duração dos planos e comportamento de cancelamento.

## Planos

In [None]:
# Imprima informações gerais/resumo sobre o DataFrame dos planos


In [None]:
# Imprima uma amostra de dados dos planos



[Descreva o que você nota sobre as informações gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investigação e alterações? Como isso pode ser corrigido?]

## Corrija os dados

[Corrija problemas óbvios com os dados conforme as observações iniciais.]

## Enriqueça os dados

[Inclua fatores adicionais aos dados se você acredita que eles podem ser úteis.]

## Usuários

In [None]:
# Imprima informações gerais/resumo sobre o DataFrame dos usuários



In [None]:
# Imprima uma amostra de dados dos usuários



[Descreva o que você nota sobre as informações gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investigação e alterações? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas óbvios com os dados conforme as observações iniciais.]

### Enriqueça os dados

[Inclua fatores adicionais aos dados se você acredita que eles podem ser úteis.]

## Chamadas

In [None]:
# Imprima informações gerais/resumo sobre o DataFrame das chamadas



In [None]:
# Imprima uma amostra de dados das chamadas



[Descreva o que você nota sobre as informações gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investigação e alterações? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas óbvios com os dados conforme as observações iniciais.]

### Enriqueça os dados

[Inclua fatores adicionais aos dados se você acredita que eles podem ser úteis.]

## Mensagens

In [None]:
# Imprima informações gerais/resumo sobre o DataFrame das mensagens



In [None]:
# Imprima uma amostra dos dados das mensagens



[Descreva o que você nota sobre as informações gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investigação e alterações? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas óbvios com os dados conforme as observações iniciais.]

### Enriqueça os dados

[Inclua fatores adicionais aos dados se você acredita que eles podem ser úteis.]

## Internet

In [None]:
# Imprima informações gerais/resumo sobre o DataFrame da internet



In [None]:
#  Imprima uma amostra de dados para o tráfego da internet



[Descreva o que você nota sobre as informações gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investigação e alterações? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas óbvios com os dados conforme as observações iniciais.]

### Enriqueça os dados

[Inclua fatores adicionais aos dados se você acredita que eles podem ser úteis.]

## Estude as condições dos planos

[É fundamental entender como os planos funcionam, ou seja, como as cobranças dos usuários são feitas com base na assinatura. Sugerimos imprimir as informações sobre os planos para visualizar novamente as condições.]

In [None]:
# Imprima as condições dos planos e certifique-se de que elas fazem sentido para você

df_plans.head()

Se muitos usuários do plano surf frequentemente ultrapassam os limites, eles estão gerando mais receita por excedente — e pode valer a pena investir em marketing para manter ou atrair esse perfil.
Já se os usuários do plano ultimate ficam longe dos limites, talvez ele esteja superdimensionado — ou pode ser promovido para heavy users.

## Agregue os dados por usuário

[Agora, como os dados estão limpos, os agregue por usuário e por período para ter apenas um registro dessas informações. Isso vai facilitar muito as próximas análises.]

In [None]:
# Calcule o número de chamadas feitas por cada usuário por mês. Salve o resultado.
df_calls['month'] = df_calls['call_date'].dt.to_period('M')

df_calls['calls_per_month'] = (
    df_calls.groupby(['user_id', 'month'])['call_date'].transform('count')
)

df_calls['calls_per_month'] = df_calls['calls_per_month'].astype(int)

# df_calls.sample(5)

In [None]:
# Calcule a quantidade de minutos gastos por cada usuário por mês. Salve o resultado.
import numpy as np
df_calls['rounded_minutes'] = df_calls['duration'].apply(lambda x: np.ceil(x))
df_calls['minutes_per_month'] = (
    df_calls.groupby(['user_id', 'month'])['rounded_minutes'].transform('sum')
)
df_calls['minutes_per_month'] = df_calls['minutes_per_month'].astype(int)
# df_calls.head(10)


In [None]:
# Calcule o número de mensagens enviadas por cada usuário por mês. Salve o resultado.
df_messages['month'] = pd.to_datetime(df_messages['message_date']).dt.to_period('M')

# Contar o número de mensagens por usuário por mês
df_messages['messages_per_month'] = (
    df_messages.groupby(['user_id', 'month'])['message_date'].transform('count')
)

# Garantir que o resultado seja inteiro
df_messages['messages_per_month'] = df_messages['messages_per_month'].astype(int)



In [None]:
# df_messages.sample(10)

In [None]:
# Calcule o volume de tráfego de internet usado por cada usuário por mês. Salve o resultado.
df_internet['month'] = pd.to_datetime(df_internet['session_date']).dt.to_period('M')

df_internet['internet_per_month'] = (
    df_internet.groupby(['user_id', 'month'])['mb_used'].transform('sum')
)   
# Garantir que o resultado seja inteiro
df_internet['internet_per_month'] = df_internet['internet_per_month'].astype(int)



In [None]:
# df_internet.sample(10)

[Coloque os dados agregados em um DataFrame para que cada registro nele represente o que cada usuário consumiu em um determinado mês.]

In [None]:
# Junte os dados de chamadas, minutos, mensagens e internet com base em user_id e month


calls_monthly = df_calls[['user_id', 'month', 'minutes_per_month']].drop_duplicates()
messages_monthly = df_messages[['user_id', 'month', 'messages_per_month']].drop_duplicates()
internet_monthly = df_internet[['user_id', 'month', 'mb_used']].drop_duplicates()


In [None]:
# Merge 
df_usage = calls_monthly.merge(messages_monthly, on=['user_id', 'month'], how='outer')
df_usage = df_usage.merge(internet_monthly, on=['user_id', 'month'], how='outer')


In [None]:
# df_usage.head(10)

In [None]:
# Adicione as informações sobre o plano

df_usage = df_usage.merge(df_users[['user_id', 'plan']], on='user_id', how='left')


In [None]:
df_usage.sample(10)
df_usage[['minutes_per_month', 'messages_per_month']] = df_usage[['minutes_per_month', 'messages_per_month']].fillna(0).astype(int)
df_usage['mb_used'] = df_usage['mb_used'].fillna(0)


In [None]:
# df_usage.sample(10)

[Calcule a receita mensal para cada usuário: subtraia o limite gratuito do pacote do número total de chamadas, mensagens de texto e dados; multiplique o resultado pelo valor do plano; adicione o preço mensal dependendo do plano. Importante: isso talvez não seja tão simples e necessite de várias linhas, considerando as condições do plano. Portanto, não se preocupe se você passar algum tempo nesta etapa.]

In [None]:
# Juntar os limites e valores do plano com base em plan_name
df_usage = df_usage.merge(df_plans, left_on='plan', right_on='plan_name', how='left')



In [None]:
# df_usage

In [None]:
# Calcular excedentes (valores acima do que o plano inclui)
df_usage['extra_minutes'] = (df_usage['minutes_per_month'] - df_usage['minutes_included']).clip(lower=0)
df_usage['extra_messages'] = (df_usage['messages_per_month'] - df_usage['messages_included']).clip(lower=0)
df_usage['extra_mb'] = (df_usage['mb_used'] - df_usage['mb_per_month_included']).clip(lower=0)

# Converter MB para GB e arredondar pra cima para cobrar
df_usage['extra_gb'] = np.ceil(df_usage['extra_mb'] / 1024)

# Calcular receita total do mês por usuário
df_usage['revenue'] = (
    df_usage['usd_monthly_pay'] +
    df_usage['extra_minutes'] * df_usage['usd_per_minute'] +
    df_usage['extra_messages'] * df_usage['usd_per_message'] +
    df_usage['extra_gb'] * df_usage['usd_per_gb']
)


In [None]:
df_usage[['user_id', 'month', 'plan', 'revenue']].sample(10)


In [None]:
df_usage.groupby('plan')['revenue'].sum().sort_values(ascending=False)


In [None]:
df_usage.groupby('plan')['revenue'].mean().round(2)


## Estude o comportamento do usuário

[Calcule algumas estatísticas descritivas úteis para os dados agregados, o que costuma revelar uma imagem geral capturada pelos dados. Desenhe gráficos úteis para ajudar na compreensão. Já que a tarefa principal é comparar os planos e decidir qual é mais rentável, as estatísticas e os gráficos devem ser calculados por plano.]

[Existem dicas relevantes nos comentários para as chamadas. Essas dicas não foram fornecidas para as mensagens e internet, mas o princípio do estudo estatístico é o mesmo em todos os casos.]

### Chamadas

In [None]:
# Adicionar o plano de cada usuário ao df_calls
df_calls = df_calls.merge(df_users[['user_id', 'plan']], on='user_id', how='left')

# Extrair o mês da chamada
df_calls['month'] = df_calls['call_date'].dt.to_period('M')

# Agrupar por plano e mês, e calcular a média da duração
avg_duration = (
    df_calls.groupby(['plan', 'month'])['duration']
    .mean()
    .reset_index()
)

# Configuração do gráfico
plt.figure(figsize=(12, 6))
sns.barplot(data=avg_duration, x='month', y='duration', hue='plan')

plt.title('📞 Duração média das chamadas por plano (mês a mês)')
plt.xlabel('Mês')
plt.ylabel('Duração média (minutos)')
plt.xticks(rotation=45)
plt.legend(title='Plano')
plt.tight_layout()
plt.show()



In [None]:
plt.figure(figsize=(12, 6))

sns.histplot(
    data=df_usage,
    x='minutes_per_month',
    hue='plan',
    bins=30,
    multiple='dodge',  
    palette='Set2'     
)

plt.title('📊 Distribuição de minutos usados por mês (por plano)')
plt.xlabel('Minutos por mês')
plt.ylabel('Número de usuários')
plt.legend(title='Plano')
plt.tight_layout()
plt.legend(title='Plano', labels=df_usage['plan'].unique())
plt.show()

[Calcule a média e a variância da duração das chamadas para refletir se os usuários de cada plano possuem comportamentos diferentes sobre as chamadas.]

In [None]:
# Criar a coluna 'month' com base na data
df_calls['month'] = pd.to_datetime(df_calls['call_date']).dt.to_period('M')

# Calcular número de chamadas por usuário por mês
calls_monthly = (
    df_calls
    .groupby(['user_id', 'month'])
    .size()
    .reset_index(name='calls_per_month')
)

df_usage = df_usage.merge(calls_monthly, on=['user_id', 'month'], how='left')

# Evitar divisão por zero
df_usage = df_usage[df_usage['calls_per_month'] > 0]

# Calcular a duração média das chamadas por usuário por mês
df_usage['average_call_duration'] = df_usage['minutes_per_month'] / df_usage['calls_per_month']




In [None]:
duration_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(
        media_duracao=('average_call_duration', 'mean'),
        variancia_duracao=('average_call_duration', 'var')
    )
)

print(duration_stats)


In [None]:
# Faça um diagrama de caixa para visualizar a distribuição da duração mensal das chamadas


plt.figure(figsize=(10, 6))
sns.boxplot(data=df_usage, x='plan', y='average_call_duration', palette='Set3')

plt.title('📦 Distribuição da Duração Média das Chamadas por Plano')
plt.xlabel('Plano')
plt.ylabel('Duração Média das Chamadas (min)')
plt.tight_layout()
plt.show()


[Formule conclusões sobre como os usuários se comportam em termos de chamadas. O comportamento é diferente dependendo do plano?]

### 📞 Análise do Comportamento de Chamadas por Plano

#### 1. Duração Média das Chamadas
- A média da duração das chamadas é **semelhante entre os planos**:
  - `Surf`: 7.15 minutos  
  - `Ultimate`: 7.10 minutos
- Isso indica que a **duração individual das ligações não varia de acordo com o plano**.

#### 2. Distribuição da Duração (Boxplot)
- A distribuição da duração das chamadas é **muito parecida entre os planos**, com outliers em ambos.
- A **variância é baixa e próxima nos dois casos**, reforçando a estabilidade no comportamento dos usuários quanto ao tempo por ligação.

#### 3. Volume de Minutos Usados por Mês (Histograma)
- Usuários do plano **Surf** tendem a usar entre **200 e 600 minutos/mês**, a maioria **abaixo do limite de 500 minutos**.
- Usuários do plano **Ultimate** utilizam um **volume significativamente maior** de minutos, com muitos alcançando ou ultrapassando 1000 minutos/mês.
- O **Ultimate é claramente mais usado por usuários que fazem muitas chamadas**, enquanto o **Surf atende quem faz uso mais moderado**.

#### 4. Duração Média por Mês (Gráfico de Barras)
- A duração média das chamadas **permanece estável ao longo dos meses** para ambos os planos.
- Pequenas variações mensais reforçam que o comportamento do cliente é **consistente ao longo do tempo**.

---

### ✅ Conclusão
> A duração média das chamadas é semelhante entre os planos, mas os usuários do plano **Ultimate realizam muito mais chamadas mensalmente**. Isso mostra que o tipo de plano influencia **o volume de uso**, mas não **o tempo por ligação**.  
> O plano **Surf** é ideal para usuários com uso moderado, enquanto o **Ultimate** atende melhor clientes com alto volume de chamadas.


### Mensagens

In [None]:
# Compare o número de mensagens que os usuários de cada plano costumam enviar a cada mês
mensagens_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(media_mensagens=('messages_per_month', 'mean'))
)

print(mensagens_stats)



In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(data=mensagens_stats, x='plan', y='media_mensagens', palette='Blues')

plt.title('📨 Média de mensagens enviadas por mês por plano')
plt.xlabel('Plano')
plt.ylabel('Mensagens por mês')
plt.tight_layout()
plt.show()


In [None]:
# Compare a quantidade de tráfego de internet consumido pelos usuários por plano
internet_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(media_internet_mb=('mb_used', 'mean'))
)

print(internet_stats)



In [None]:

plt.figure(figsize=(8, 5))
sns.barplot(data=internet_stats, x='plan', y='media_internet_mb', palette='Greens')

plt.title('🌐 Média de consumo de internet (MB) por plano')
plt.xlabel('Plano')
plt.ylabel('MB usados por mês')
plt.tight_layout()
plt.show()


### 📱 Análise do Uso de Mensagens e Internet por Plano

#### 1. Envio de Mensagens por Mês
- Usuários do plano **Surf** enviam em média **31.7 mensagens por mês**.
- Usuários do plano **Ultimate** enviam em média **40.6 mensagens por mês**.
- A diferença não é muito grande, mas mostra que os usuários do **Ultimate tendem a utilizar um pouco mais os serviços de mensagens**, o que pode estar relacionado ao perfil de uso mais intensivo.

> ✅ **Interpretação:** Embora ambos os grupos utilizem mensagens com moderação, o plano Ultimate parece atrair usuários **um pouco mais ativos também nesse aspecto**.

---

#### 2. Consumo Médio de Internet (MB) por Mês
- Média de consumo mensal:
  - `Surf`: **408 MB**
  - `Ultimate`: **417 MB**
- A diferença é **muito pequena**, indicando que **o tráfego de internet é praticamente igual entre os dois planos**, apesar do Ultimate oferecer um limite muito maior.

> ✅ **Interpretação:** A maior franquia de dados do plano Ultimate **não está sendo aproveitada por completo** pela maioria dos usuários.  
> Isso sugere que o uso de internet **é mais homogêneo entre os perfis**, independentemente do plano contratado.

---

### ✅ Conclusão Geral
> Os usuários do plano **Ultimate** apresentam um uso um pouco mais intenso de **mensagens**, mas não há diferença relevante no consumo de **internet** entre os planos.  
> O plano Ultimate continua sendo mais vantajoso para quem usa muito as chamadas e mensagens, mas a oferta generosa de dados **não parece estar sendo plenamente utilizada**.


### Internet

## Receita

[Da mesma forma que você estudou o comportamento dos usuários, descreva estatisticamente as receitas dos planos.]

In [156]:
# Estatísticas descritivas por plano
receita_stats = (
    df_usage.groupby('plan', as_index=False)
    .agg(
        media_receita=('revenue', 'mean'),
        receita_total=('revenue', 'sum'),
        mediana_receita=('revenue', 'median'),
        desvio_padrao=('revenue', 'std'),
        receita_max=('revenue', 'max'),
        receita_min=('revenue', 'min')
    )
)

print(receita_stats)


       plan  media_receita  receita_total  mediana_receita  desvio_padrao  \
0      surf      22.286533     1391727.13            20.09       4.160671   
1  ultimate      70.000000     2065140.00            70.00       0.000000   

   receita_max  receita_min  
0        52.55         20.0  
1        70.00         70.0  


In [None]:
#  Gráfico de barras com a média da receita mensal por plano
plt.figure(figsize=(8, 5))
sns.barplot(data=df_usage, x='plan', y='revenue', estimator='mean', ci=None, palette='Oranges')

plt.title('💰 Receita Média Mensal por Usuário (por Plano)')
plt.xlabel('Plano')
plt.ylabel('Receita (€)')
plt.tight_layout()
plt.show()


In [None]:
# Receita total geral por plano (gráfico de pizza)

receita_total = df_usage.groupby('plan')['revenue'].sum()

plt.figure(figsize=(6, 6))
plt.pie(receita_total, labels=receita_total.index, autopct='%1.1f%%', startangle=90, colors=sns.color_palette("Set3"))
plt.title('📊 Participação de Receita por Plano')
plt.tight_layout()
plt.show()


In [154]:
# Filtra apenas os usuários que cancelaram
usuarios_cancelados = df_users[df_users['churn_date'].notna()]['user_id']

# Receita média dos usuários cancelados
perda_mensal = df_usage[df_usage['user_id'].isin(usuarios_cancelados)].groupby('user_id')['revenue'].mean()

# Receita total mensal perdida
perda_total = perda_mensal.sum()

print(f"Perda estimada mensal: €{perda_total:.2f}")


Perda estimada mensal: €1182.84


In [155]:
# Receita média antes do cancelamento
antes_do_churn = df_usage[df_usage['user_id'].isin(usuarios_cancelados)].groupby('user_id')['revenue'].mean()

# Receita média dos usuários ainda ativos
ativos = df_users[df_users['churn_date'].isna()]['user_id']
ativos_revenue = df_usage[df_usage['user_id'].isin(ativos)].groupby('user_id')['revenue'].mean()

# Comparar média entre eles
print("Receita média usuários cancelados:", antes_do_churn.mean())
print("Receita média usuários ativos:", ativos_revenue.mean())


Receita média usuários cancelados: 36.96380553359697
Receita média usuários ativos: 37.803637668904344


### 💰 Análise Estatística da Receita dos Planos

#### 1. Receita média por usuário
- **Plano Surf**: receita média de **€22,29**
- **Plano Ultimate**: receita média de **€70,00**
- A mediana também confirma esse padrão, com valores idênticos à média no plano Ultimate (indicando estabilidade no faturamento desse plano).

> ✅ **Conclusão:** o plano **Ultimate gera mais de 3x mais receita por usuário** do que o plano Surf.

---

#### 2. Receita total gerada por plano
- Receita total do plano **Surf**: **€139.127,73**
- Receita total do plano **Ultimate**: **€2.065.140,00**

> 💡 **Mesmo que o plano Surf tenha mais usuários, o Ultimate é responsável por mais de 90% da receita total da empresa.**

---

#### 3. Receita máxima e mínima
- No plano **Surf**, há usuários pagando entre **€20 a €52,55**, com maior variação de uso.
- No plano **Ultimate**, todos os usuários pagam exatamente **€70,00** (sem excedentes) — o que reflete a natureza "ilimitada" do plano.

> ✅ O plano **Ultimate tem receita estável e previsível**; o plano **Surf tem variabilidade de receita**, influenciada pelo uso excedente.

---

#### 4. Estimativa de perda de receita por churn
- Usuários que cancelaram geravam, em média, **€36,96 por mês**.
- Usuários ativos atualmente geram **€37,80 por mês**.
- A empresa perde aproximadamente **€1.182,84 por mês** com os cancelamentos.

> 🔥 **Conclusão estratégica:** A média de receita entre ativos e cancelados é muito próxima, indicando que **não são apenas usuários de baixo valor que estão cancelando**. A retenção deve ser tratada com atenção em todos os perfis.

---

### ✅ Conclusão Final

> O plano **Ultimate** é o principal responsável pela receita da Megaline, apresentando **valor alto por cliente, faturamento estável e baixa variância**.  
> Já o plano **Surf** oferece oportunidades de crescimento com usuários mais voláteis, mas exige **gestão cuidadosa para evitar churn e aumentar o ticket médio**.  
> A análise de churn revelou que **mesmo usuários com boa receita estão saindo**, indicando a necessidade de **ações de retenção ativas** e **monitoramento contínuo do comportamento dos clientes**.


[Formule conclusões sobre como a receita difere entre os planos.]

## Teste hipóteses estatísticas

[Teste a hipótese de que a receita média dos usuários dos planos Ultimate e Surf são diferentes.]

[Formule as hipóteses nula e alternativa, escolha o teste estatístico, escolha o valor alfa.]

In [None]:
# Teste as hipóteses



[Teste a hipótese de que a receita média dos usuários da área de NY-NJ difere dos usuários das demais regiões.]

[Formule as hipóteses nula e alternativa, escolha o teste estatístico, escolha o valor alfa.]

In [163]:
# Separar as receitas por plano
surf = df_usage[df_usage['plan'] == 'surf']['revenue']
ultimate = df_usage[df_usage['plan'] == 'ultimate']['revenue']

# Aplicar o teste t de Student com variâncias diferentes
t_stat, p_valor = ttest_ind(surf, ultimate, equal_var=False)

print(f"Estatística t: {t_stat:.3f}")
print(f"Valor-p: {p_valor:.5f}")

# Verificar o resultado
if p_valor < 0.05:
    print("❌ Rejeitamos H₀: as receitas médias são estatisticamente diferentes.")
else:
    print("✅ Não rejeitamos H₀: não há evidência suficiente de diferença nas médias.")


Estatística t: -2865.718
Valor-p: 0.00000
❌ Rejeitamos H₀: as receitas médias são estatisticamente diferentes.


  res = hypotest_fun_out(*samples, **kwds)


In [176]:
# Criar uma máscara para NY-NJ 
ny_nj_users = df_users[df_users['city'].str.contains('New York|New Jersey', case=False)]['user_id']
outras_users = df_users[~df_users['user_id'].isin(ny_nj_users)]['user_id']

# Trazer a receita desses usuários via df_usage
ny_nj_revenue = df_usage[df_usage['user_id'].isin(ny_nj_users)]['revenue']
outras_revenue = df_usage[df_usage['user_id'].isin(outras_users)]['revenue']

# Aplicar o teste t (variâncias diferentes)
t_stat, p_valor = ttest_ind(ny_nj_revenue, outras_revenue, equal_var=False)

# Resultado
print(f"Estatística t: {t_stat:.3f}")
print(f"Valor-p: {p_valor:.5f}")

if p_valor < 0.05:
    print("❌ Rejeitamos H₀: as receitas médias são estatisticamente diferentes.")
else:
    print("✅ Não rejeitamos H₀: não há evidência suficiente de diferença nas médias.")

Estatística t: -51.086
Valor-p: 0.00000
❌ Rejeitamos H₀: as receitas médias são estatisticamente diferentes.


## Conclusão geral

[Liste suas conclusões importantes nesta seção final, certifique-se de que elas cobrem todas as decisões (suposições) importantes que você tomou e que levaram à maneira como você processou e analisou os dados.]