# Qual √© o melhor plano?

Voc√™ trabalha como analista para a empresa de telecomunica√ß√µes Megaline. A empresa oferece aos clientes dois planos pr√©-pagos: Surf e Ultimate. O departamento comercial quer saber qual dos planos gera mais receita para ajustar o or√ßamento de publicidade.

Voc√™ vai realizar uma an√°lise preliminar dos planos com base em uma pequena sele√ß√£o de clientes. Voc√™ ter√° dados de 500 clientes da Megaline: que clientes s√£o, de onde eles s√£o, qual plano usam e o n√∫mero de chamadas e mensagens realizadas em 2018. Seu trabalho √© analisar o comportamento dos clientes e determinar qual plano pr√©-pago gera mais receita.

Objetivo da An√°lise

Neste projeto, realizaremos uma an√°lise detalhada da empresa Megaline, com o principal objetivo de identificar qual plano de servi√ßo gera maior receita e atrai mais clientes. A partir desses dados, ser√° poss√≠vel ajustar o or√ßamento destinado √† publicidade, direcionando os investimentos de forma mais estrat√©gica e eficiente, com foco nos planos mais rent√°veis.

## Inicializa√ß√£o

In [162]:
# Carregando todas as bibliotecas.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind


## Carregue os dados

In [None]:
# Carregue os arquivos de dados em diferentes DataFrames
df_calls = pd.read_csv('megaline_calls.csv')
df_internet = pd.read_csv('megaline_internet.csv')
df_messages = pd.read_csv('megaline_messages.csv')
df_plans = pd.read_csv('megaline_plans.csv')
df_users = pd.read_csv('megaline_users.csv')

Vamos comecar com a tabela de o data frame Calls.csv

In [None]:
# df_calls.info()
# df_calls.sample(5)
# df_calls.describe()
# df_calls.duplicated().sum()
# df_calls.isna().sum()


A tabela n√£o possui valores nulos.

As colunas id e call_date est√£o no formato object, sendo necess√°rio converter call_date para o tipo datetime para facilitar an√°lises temporais.

A coluna ano cont√©m valores duplicados, o que pode indicar registros de anos repetidos ‚Äî isso deve ser analisado para garantir consist√™ncia.

üßæ Descri√ß√£o das Colunas:
id ‚Äî Identificador exclusivo de cada chamada.

call_date ‚Äî Data em que a chamada foi realizada.

duration ‚Äî Dura√ß√£o da chamada em minutos.

user_id ‚Äî Identificador do usu√°rio que realizou a chamada.

Primeiro vamos converte a coluna call_date para DateTime

In [None]:
df_calls['call_date'] = pd.to_datetime(df_calls['call_date'])


Agora mudamos a coluna de id para float, por que se mudar para int iriamos perde as partes decimais. 

In [None]:
df_calls["id"] = df_calls["id"].astype("float")


Verificando... 

In [None]:
# df_calls.info()
# df_calls.describe()

Agora vamos analisa o dataframe magaline_internet 

In [None]:
# df_internet.info()
# df_internet.sample(5)
# df_internet.isna().sum()
# df_internet.duplicated().sum()


A tabela n√£o possui valores nulos.

N√£o h√° registros duplicados.

As colunas id e session_date est√£o no formato object, sendo recomendado:

Converter id para float 

Converter session_date para o tipo datetime para facilitar an√°lises temporais.

[Os dados deste projeto est√£o divididos em v√°rias tabelas. Explore cada uma para obter uma compreens√£o inicial dos dados. Fa√ßa corre√ß√µes em cada tabela, se necess√°rio.]

In [None]:
df_internet['session_date'] = pd.to_datetime(df_internet['session_date'])
df_internet["id"] = df_internet["id"].astype("float")

conferindo...

In [None]:
# df_internet.info()
# df_internet.sample(5) 
# df_internet.describe()


Agora vamos analisar o dataframe Magaline Messages

In [None]:
# df_messages.isna().sum()
# df_messages.duplicated().sum()
# df_messages.info()
# df_messages.info()

A tabela n√£o possui valores nulos.

N√£o h√° registros duplicados.

As colunas id e message_date est√£o no formato object, sendo recomendada a convers√£o:

id ‚Üí para Float

message_date ‚Üí para o tipo datetime, a fim de possibilitar an√°lises temporais precisas

In [None]:
df_messages["id"] = df_messages["id"].astype("float")
df_messages['message_date'] = pd.to_datetime(df_messages['message_date'])

Conferindo... 

In [None]:
# df_messages.info()

Agora vamos conferir os dados de Magaline Plans 


In [None]:
# df_plans

A tabela cont√©m apenas informa√ß√µes referentes aos planos oferecidos pela empresa.

N√£o possui valores ausentes ou duplicados.

A estrutura √© autoexplicativa e n√£o requer altera√ß√µes neste momento.

Agora vamos conferir a tabela users.. 

In [None]:
# df_users.info()
# df_users.sample(5)
# df_users.isna().sum()
# df_users.duplicated().sum()

A tabela n√£o possui registros duplicados.

A coluna reg_date (data de registro) est√° no formato object e deve ser convertida para datetime para facilitar an√°lises temporais.

A coluna churn_date indica a data em que o usu√°rio cancelou o servi√ßo. Tamb√©m est√° como object e deve ser convertida para datetime.

Existem 466 valores ausentes nessa coluna, o que significa que esses usu√°rios ainda estavam com o plano ativo no momento da extra√ß√£o dos dados.

In [None]:
df_users["reg_date"] = pd.to_datetime(df_users["reg_date"])
df_users["churn_date"] = pd.to_datetime(df_users["churn_date"])
df_users["status"] = df_users["churn_date"].isna().map({True: "Ativo", False: "Cancelado"})



Foram realizadas duas principais transforma√ß√µes na tabela users com o objetivo de preparar os dados para an√°lises temporais e de cancelamento:

As colunas reg_date e churn_date, originalmente no formato object, foram convertidas para o tipo datetime, permitindo uma an√°lise cronol√≥gica precisa.

Foi criada uma nova coluna chamada status, que classifica os usu√°rios como "Ativo" ou "Cancelado", com base na aus√™ncia ou presen√ßa de data na coluna churn_date.

Essas altera√ß√µes estruturam melhor a base de dados e facilitam an√°lises relacionadas √† reten√ß√£o de clientes, dura√ß√£o dos planos e comportamento de cancelamento.

## Planos

In [None]:
# Imprima informa√ß√µes gerais/resumo sobre o DataFrame dos planos


In [None]:
# Imprima uma amostra de dados dos planos



[Descreva o que voc√™ nota sobre as informa√ß√µes gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investiga√ß√£o e altera√ß√µes? Como isso pode ser corrigido?]

## Corrija os dados

[Corrija problemas √≥bvios com os dados conforme as observa√ß√µes iniciais.]

## Enrique√ßa os dados

[Inclua fatores adicionais aos dados se voc√™ acredita que eles podem ser √∫teis.]

## Usu√°rios

In [None]:
# Imprima informa√ß√µes gerais/resumo sobre o DataFrame dos usu√°rios



In [None]:
# Imprima uma amostra de dados dos usu√°rios



[Descreva o que voc√™ nota sobre as informa√ß√µes gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investiga√ß√£o e altera√ß√µes? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas √≥bvios com os dados conforme as observa√ß√µes iniciais.]

### Enrique√ßa os dados

[Inclua fatores adicionais aos dados se voc√™ acredita que eles podem ser √∫teis.]

## Chamadas

In [None]:
# Imprima informa√ß√µes gerais/resumo sobre o DataFrame das chamadas



In [None]:
# Imprima uma amostra de dados das chamadas



[Descreva o que voc√™ nota sobre as informa√ß√µes gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investiga√ß√£o e altera√ß√µes? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas √≥bvios com os dados conforme as observa√ß√µes iniciais.]

### Enrique√ßa os dados

[Inclua fatores adicionais aos dados se voc√™ acredita que eles podem ser √∫teis.]

## Mensagens

In [None]:
# Imprima informa√ß√µes gerais/resumo sobre o DataFrame das mensagens



In [None]:
# Imprima uma amostra dos dados das mensagens



[Descreva o que voc√™ nota sobre as informa√ß√µes gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investiga√ß√£o e altera√ß√µes? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas √≥bvios com os dados conforme as observa√ß√µes iniciais.]

### Enrique√ßa os dados

[Inclua fatores adicionais aos dados se voc√™ acredita que eles podem ser √∫teis.]

## Internet

In [None]:
# Imprima informa√ß√µes gerais/resumo sobre o DataFrame da internet



In [None]:
#  Imprima uma amostra de dados para o tr√°fego da internet



[Descreva o que voc√™ nota sobre as informa√ß√µes gerais e sobre a amostra de dados impressa acima. Existem problemas (tipos de dados inadequados, dados ausentes, etc.) que precisam de mais investiga√ß√£o e altera√ß√µes? Como isso pode ser corrigido?]

### Corrija os dados

[Corrija problemas √≥bvios com os dados conforme as observa√ß√µes iniciais.]

### Enrique√ßa os dados

[Inclua fatores adicionais aos dados se voc√™ acredita que eles podem ser √∫teis.]

## Estude as condi√ß√µes dos planos

[√â fundamental entender como os planos funcionam, ou seja, como as cobran√ßas dos usu√°rios s√£o feitas com base na assinatura. Sugerimos imprimir as informa√ß√µes sobre os planos para visualizar novamente as condi√ß√µes.]

In [None]:
# Imprima as condi√ß√µes dos planos e certifique-se de que elas fazem sentido para voc√™

df_plans.head()

Se muitos usu√°rios do plano surf frequentemente ultrapassam os limites, eles est√£o gerando mais receita por excedente ‚Äî e pode valer a pena investir em marketing para manter ou atrair esse perfil.
J√° se os usu√°rios do plano ultimate ficam longe dos limites, talvez ele esteja superdimensionado ‚Äî ou pode ser promovido para heavy users.

## Agregue os dados por usu√°rio

[Agora, como os dados est√£o limpos, os agregue por usu√°rio e por per√≠odo para ter apenas um registro dessas informa√ß√µes. Isso vai facilitar muito as pr√≥ximas an√°lises.]

In [None]:
# Calcule o n√∫mero de chamadas feitas por cada usu√°rio por m√™s. Salve o resultado.
df_calls['month'] = df_calls['call_date'].dt.to_period('M')

df_calls['calls_per_month'] = (
    df_calls.groupby(['user_id', 'month'])['call_date'].transform('count')
)

df_calls['calls_per_month'] = df_calls['calls_per_month'].astype(int)

# df_calls.sample(5)

In [None]:
# Calcule a quantidade de minutos gastos por cada usu√°rio por m√™s. Salve o resultado.
import numpy as np
df_calls['rounded_minutes'] = df_calls['duration'].apply(lambda x: np.ceil(x))
df_calls['minutes_per_month'] = (
    df_calls.groupby(['user_id', 'month'])['rounded_minutes'].transform('sum')
)
df_calls['minutes_per_month'] = df_calls['minutes_per_month'].astype(int)
# df_calls.head(10)


In [None]:
# Calcule o n√∫mero de mensagens enviadas por cada usu√°rio por m√™s. Salve o resultado.
df_messages['month'] = pd.to_datetime(df_messages['message_date']).dt.to_period('M')

# Contar o n√∫mero de mensagens por usu√°rio por m√™s
df_messages['messages_per_month'] = (
    df_messages.groupby(['user_id', 'month'])['message_date'].transform('count')
)

# Garantir que o resultado seja inteiro
df_messages['messages_per_month'] = df_messages['messages_per_month'].astype(int)



In [None]:
# df_messages.sample(10)

In [None]:
# Calcule o volume de tr√°fego de internet usado por cada usu√°rio por m√™s. Salve o resultado.
df_internet['month'] = pd.to_datetime(df_internet['session_date']).dt.to_period('M')

df_internet['internet_per_month'] = (
    df_internet.groupby(['user_id', 'month'])['mb_used'].transform('sum')
)   
# Garantir que o resultado seja inteiro
df_internet['internet_per_month'] = df_internet['internet_per_month'].astype(int)



In [None]:
# df_internet.sample(10)

[Coloque os dados agregados em um DataFrame para que cada registro nele represente o que cada usu√°rio consumiu em um determinado m√™s.]

In [None]:
# Junte os dados de chamadas, minutos, mensagens e internet com base em user_id e month


calls_monthly = df_calls[['user_id', 'month', 'minutes_per_month']].drop_duplicates()
messages_monthly = df_messages[['user_id', 'month', 'messages_per_month']].drop_duplicates()
internet_monthly = df_internet[['user_id', 'month', 'mb_used']].drop_duplicates()


In [None]:
# Merge 
df_usage = calls_monthly.merge(messages_monthly, on=['user_id', 'month'], how='outer')
df_usage = df_usage.merge(internet_monthly, on=['user_id', 'month'], how='outer')


In [None]:
# df_usage.head(10)

In [None]:
# Adicione as informa√ß√µes sobre o plano

df_usage = df_usage.merge(df_users[['user_id', 'plan']], on='user_id', how='left')


In [None]:
df_usage.sample(10)
df_usage[['minutes_per_month', 'messages_per_month']] = df_usage[['minutes_per_month', 'messages_per_month']].fillna(0).astype(int)
df_usage['mb_used'] = df_usage['mb_used'].fillna(0)


In [None]:
# df_usage.sample(10)

[Calcule a receita mensal para cada usu√°rio: subtraia o limite gratuito do pacote do n√∫mero total de chamadas, mensagens de texto e dados; multiplique o resultado pelo valor do plano; adicione o pre√ßo mensal dependendo do plano. Importante: isso talvez n√£o seja t√£o simples e necessite de v√°rias linhas, considerando as condi√ß√µes do plano. Portanto, n√£o se preocupe se voc√™ passar algum tempo nesta etapa.]

In [None]:
# Juntar os limites e valores do plano com base em plan_name
df_usage = df_usage.merge(df_plans, left_on='plan', right_on='plan_name', how='left')



In [None]:
# df_usage

In [None]:
# Calcular excedentes (valores acima do que o plano inclui)
df_usage['extra_minutes'] = (df_usage['minutes_per_month'] - df_usage['minutes_included']).clip(lower=0)
df_usage['extra_messages'] = (df_usage['messages_per_month'] - df_usage['messages_included']).clip(lower=0)
df_usage['extra_mb'] = (df_usage['mb_used'] - df_usage['mb_per_month_included']).clip(lower=0)

# Converter MB para GB e arredondar pra cima para cobrar
df_usage['extra_gb'] = np.ceil(df_usage['extra_mb'] / 1024)

# Calcular receita total do m√™s por usu√°rio
df_usage['revenue'] = (
    df_usage['usd_monthly_pay'] +
    df_usage['extra_minutes'] * df_usage['usd_per_minute'] +
    df_usage['extra_messages'] * df_usage['usd_per_message'] +
    df_usage['extra_gb'] * df_usage['usd_per_gb']
)


In [None]:
df_usage[['user_id', 'month', 'plan', 'revenue']].sample(10)


In [None]:
df_usage.groupby('plan')['revenue'].sum().sort_values(ascending=False)


In [None]:
df_usage.groupby('plan')['revenue'].mean().round(2)


## Estude o comportamento do usu√°rio

[Calcule algumas estat√≠sticas descritivas √∫teis para os dados agregados, o que costuma revelar uma imagem geral capturada pelos dados. Desenhe gr√°ficos √∫teis para ajudar na compreens√£o. J√° que a tarefa principal √© comparar os planos e decidir qual √© mais rent√°vel, as estat√≠sticas e os gr√°ficos devem ser calculados por plano.]

[Existem dicas relevantes nos coment√°rios para as chamadas. Essas dicas n√£o foram fornecidas para as mensagens e internet, mas o princ√≠pio do estudo estat√≠stico √© o mesmo em todos os casos.]

### Chamadas

In [None]:
# Adicionar o plano de cada usu√°rio ao df_calls
df_calls = df_calls.merge(df_users[['user_id', 'plan']], on='user_id', how='left')

# Extrair o m√™s da chamada
df_calls['month'] = df_calls['call_date'].dt.to_period('M')

# Agrupar por plano e m√™s, e calcular a m√©dia da dura√ß√£o
avg_duration = (
    df_calls.groupby(['plan', 'month'])['duration']
    .mean()
    .reset_index()
)

# Configura√ß√£o do gr√°fico
plt.figure(figsize=(12, 6))
sns.barplot(data=avg_duration, x='month', y='duration', hue='plan')

plt.title('üìû Dura√ß√£o m√©dia das chamadas por plano (m√™s a m√™s)')
plt.xlabel('M√™s')
plt.ylabel('Dura√ß√£o m√©dia (minutos)')
plt.xticks(rotation=45)
plt.legend(title='Plano')
plt.tight_layout()
plt.show()



In [None]:
plt.figure(figsize=(12, 6))

sns.histplot(
    data=df_usage,
    x='minutes_per_month',
    hue='plan',
    bins=30,
    multiple='dodge',  
    palette='Set2'     
)

plt.title('üìä Distribui√ß√£o de minutos usados por m√™s (por plano)')
plt.xlabel('Minutos por m√™s')
plt.ylabel('N√∫mero de usu√°rios')
plt.legend(title='Plano')
plt.tight_layout()
plt.legend(title='Plano', labels=df_usage['plan'].unique())
plt.show()

[Calcule a m√©dia e a vari√¢ncia da dura√ß√£o das chamadas para refletir se os usu√°rios de cada plano possuem comportamentos diferentes sobre as chamadas.]

In [None]:
# Criar a coluna 'month' com base na data
df_calls['month'] = pd.to_datetime(df_calls['call_date']).dt.to_period('M')

# Calcular n√∫mero de chamadas por usu√°rio por m√™s
calls_monthly = (
    df_calls
    .groupby(['user_id', 'month'])
    .size()
    .reset_index(name='calls_per_month')
)

df_usage = df_usage.merge(calls_monthly, on=['user_id', 'month'], how='left')

# Evitar divis√£o por zero
df_usage = df_usage[df_usage['calls_per_month'] > 0]

# Calcular a dura√ß√£o m√©dia das chamadas por usu√°rio por m√™s
df_usage['average_call_duration'] = df_usage['minutes_per_month'] / df_usage['calls_per_month']




In [None]:
duration_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(
        media_duracao=('average_call_duration', 'mean'),
        variancia_duracao=('average_call_duration', 'var')
    )
)

print(duration_stats)


In [None]:
# Fa√ßa um diagrama de caixa para visualizar a distribui√ß√£o da dura√ß√£o mensal das chamadas


plt.figure(figsize=(10, 6))
sns.boxplot(data=df_usage, x='plan', y='average_call_duration', palette='Set3')

plt.title('üì¶ Distribui√ß√£o da Dura√ß√£o M√©dia das Chamadas por Plano')
plt.xlabel('Plano')
plt.ylabel('Dura√ß√£o M√©dia das Chamadas (min)')
plt.tight_layout()
plt.show()


[Formule conclus√µes sobre como os usu√°rios se comportam em termos de chamadas. O comportamento √© diferente dependendo do plano?]

### üìû An√°lise do Comportamento de Chamadas por Plano

#### 1. Dura√ß√£o M√©dia das Chamadas
- A m√©dia da dura√ß√£o das chamadas √© **semelhante entre os planos**:
  - `Surf`: 7.15 minutos  
  - `Ultimate`: 7.10 minutos
- Isso indica que a **dura√ß√£o individual das liga√ß√µes n√£o varia de acordo com o plano**.

#### 2. Distribui√ß√£o da Dura√ß√£o (Boxplot)
- A distribui√ß√£o da dura√ß√£o das chamadas √© **muito parecida entre os planos**, com outliers em ambos.
- A **vari√¢ncia √© baixa e pr√≥xima nos dois casos**, refor√ßando a estabilidade no comportamento dos usu√°rios quanto ao tempo por liga√ß√£o.

#### 3. Volume de Minutos Usados por M√™s (Histograma)
- Usu√°rios do plano **Surf** tendem a usar entre **200 e 600 minutos/m√™s**, a maioria **abaixo do limite de 500 minutos**.
- Usu√°rios do plano **Ultimate** utilizam um **volume significativamente maior** de minutos, com muitos alcan√ßando ou ultrapassando 1000 minutos/m√™s.
- O **Ultimate √© claramente mais usado por usu√°rios que fazem muitas chamadas**, enquanto o **Surf atende quem faz uso mais moderado**.

#### 4. Dura√ß√£o M√©dia por M√™s (Gr√°fico de Barras)
- A dura√ß√£o m√©dia das chamadas **permanece est√°vel ao longo dos meses** para ambos os planos.
- Pequenas varia√ß√µes mensais refor√ßam que o comportamento do cliente √© **consistente ao longo do tempo**.

---

### ‚úÖ Conclus√£o
> A dura√ß√£o m√©dia das chamadas √© semelhante entre os planos, mas os usu√°rios do plano **Ultimate realizam muito mais chamadas mensalmente**. Isso mostra que o tipo de plano influencia **o volume de uso**, mas n√£o **o tempo por liga√ß√£o**.  
> O plano **Surf** √© ideal para usu√°rios com uso moderado, enquanto o **Ultimate** atende melhor clientes com alto volume de chamadas.


### Mensagens

In [None]:
# Compare o n√∫mero de mensagens que os usu√°rios de cada plano costumam enviar a cada m√™s
mensagens_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(media_mensagens=('messages_per_month', 'mean'))
)

print(mensagens_stats)



In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(data=mensagens_stats, x='plan', y='media_mensagens', palette='Blues')

plt.title('üì® M√©dia de mensagens enviadas por m√™s por plano')
plt.xlabel('Plano')
plt.ylabel('Mensagens por m√™s')
plt.tight_layout()
plt.show()


In [None]:
# Compare a quantidade de tr√°fego de internet consumido pelos usu√°rios por plano
internet_stats = (
    df_usage
    .groupby('plan', as_index=False)
    .agg(media_internet_mb=('mb_used', 'mean'))
)

print(internet_stats)



In [None]:

plt.figure(figsize=(8, 5))
sns.barplot(data=internet_stats, x='plan', y='media_internet_mb', palette='Greens')

plt.title('üåê M√©dia de consumo de internet (MB) por plano')
plt.xlabel('Plano')
plt.ylabel('MB usados por m√™s')
plt.tight_layout()
plt.show()


### üì± An√°lise do Uso de Mensagens e Internet por Plano

#### 1. Envio de Mensagens por M√™s
- Usu√°rios do plano **Surf** enviam em m√©dia **31.7 mensagens por m√™s**.
- Usu√°rios do plano **Ultimate** enviam em m√©dia **40.6 mensagens por m√™s**.
- A diferen√ßa n√£o √© muito grande, mas mostra que os usu√°rios do **Ultimate tendem a utilizar um pouco mais os servi√ßos de mensagens**, o que pode estar relacionado ao perfil de uso mais intensivo.

> ‚úÖ **Interpreta√ß√£o:** Embora ambos os grupos utilizem mensagens com modera√ß√£o, o plano Ultimate parece atrair usu√°rios **um pouco mais ativos tamb√©m nesse aspecto**.

---

#### 2. Consumo M√©dio de Internet (MB) por M√™s
- M√©dia de consumo mensal:
  - `Surf`: **408 MB**
  - `Ultimate`: **417 MB**
- A diferen√ßa √© **muito pequena**, indicando que **o tr√°fego de internet √© praticamente igual entre os dois planos**, apesar do Ultimate oferecer um limite muito maior.

> ‚úÖ **Interpreta√ß√£o:** A maior franquia de dados do plano Ultimate **n√£o est√° sendo aproveitada por completo** pela maioria dos usu√°rios.  
> Isso sugere que o uso de internet **√© mais homog√™neo entre os perfis**, independentemente do plano contratado.

---

### ‚úÖ Conclus√£o Geral
> Os usu√°rios do plano **Ultimate** apresentam um uso um pouco mais intenso de **mensagens**, mas n√£o h√° diferen√ßa relevante no consumo de **internet** entre os planos.  
> O plano Ultimate continua sendo mais vantajoso para quem usa muito as chamadas e mensagens, mas a oferta generosa de dados **n√£o parece estar sendo plenamente utilizada**.


### Internet

## Receita

[Da mesma forma que voc√™ estudou o comportamento dos usu√°rios, descreva estatisticamente as receitas dos planos.]

In [156]:
# Estat√≠sticas descritivas por plano
receita_stats = (
    df_usage.groupby('plan', as_index=False)
    .agg(
        media_receita=('revenue', 'mean'),
        receita_total=('revenue', 'sum'),
        mediana_receita=('revenue', 'median'),
        desvio_padrao=('revenue', 'std'),
        receita_max=('revenue', 'max'),
        receita_min=('revenue', 'min')
    )
)

print(receita_stats)


       plan  media_receita  receita_total  mediana_receita  desvio_padrao  \
0      surf      22.286533     1391727.13            20.09       4.160671   
1  ultimate      70.000000     2065140.00            70.00       0.000000   

   receita_max  receita_min  
0        52.55         20.0  
1        70.00         70.0  


In [None]:
#  Gr√°fico de barras com a m√©dia da receita mensal por plano
plt.figure(figsize=(8, 5))
sns.barplot(data=df_usage, x='plan', y='revenue', estimator='mean', ci=None, palette='Oranges')

plt.title('üí∞ Receita M√©dia Mensal por Usu√°rio (por Plano)')
plt.xlabel('Plano')
plt.ylabel('Receita (‚Ç¨)')
plt.tight_layout()
plt.show()


In [None]:
# Receita total geral por plano (gr√°fico de pizza)

receita_total = df_usage.groupby('plan')['revenue'].sum()

plt.figure(figsize=(6, 6))
plt.pie(receita_total, labels=receita_total.index, autopct='%1.1f%%', startangle=90, colors=sns.color_palette("Set3"))
plt.title('üìä Participa√ß√£o de Receita por Plano')
plt.tight_layout()
plt.show()


In [154]:
# Filtra apenas os usu√°rios que cancelaram
usuarios_cancelados = df_users[df_users['churn_date'].notna()]['user_id']

# Receita m√©dia dos usu√°rios cancelados
perda_mensal = df_usage[df_usage['user_id'].isin(usuarios_cancelados)].groupby('user_id')['revenue'].mean()

# Receita total mensal perdida
perda_total = perda_mensal.sum()

print(f"Perda estimada mensal: ‚Ç¨{perda_total:.2f}")


Perda estimada mensal: ‚Ç¨1182.84


In [155]:
# Receita m√©dia antes do cancelamento
antes_do_churn = df_usage[df_usage['user_id'].isin(usuarios_cancelados)].groupby('user_id')['revenue'].mean()

# Receita m√©dia dos usu√°rios ainda ativos
ativos = df_users[df_users['churn_date'].isna()]['user_id']
ativos_revenue = df_usage[df_usage['user_id'].isin(ativos)].groupby('user_id')['revenue'].mean()

# Comparar m√©dia entre eles
print("Receita m√©dia usu√°rios cancelados:", antes_do_churn.mean())
print("Receita m√©dia usu√°rios ativos:", ativos_revenue.mean())


Receita m√©dia usu√°rios cancelados: 36.96380553359697
Receita m√©dia usu√°rios ativos: 37.803637668904344


### üí∞ An√°lise Estat√≠stica da Receita dos Planos

#### 1. Receita m√©dia por usu√°rio
- **Plano Surf**: receita m√©dia de **‚Ç¨22,29**
- **Plano Ultimate**: receita m√©dia de **‚Ç¨70,00**
- A mediana tamb√©m confirma esse padr√£o, com valores id√™nticos √† m√©dia no plano Ultimate (indicando estabilidade no faturamento desse plano).

> ‚úÖ **Conclus√£o:** o plano **Ultimate gera mais de 3x mais receita por usu√°rio** do que o plano Surf.

---

#### 2. Receita total gerada por plano
- Receita total do plano **Surf**: **‚Ç¨139.127,73**
- Receita total do plano **Ultimate**: **‚Ç¨2.065.140,00**

> üí° **Mesmo que o plano Surf tenha mais usu√°rios, o Ultimate √© respons√°vel por mais de 90% da receita total da empresa.**

---

#### 3. Receita m√°xima e m√≠nima
- No plano **Surf**, h√° usu√°rios pagando entre **‚Ç¨20 a ‚Ç¨52,55**, com maior varia√ß√£o de uso.
- No plano **Ultimate**, todos os usu√°rios pagam exatamente **‚Ç¨70,00** (sem excedentes) ‚Äî o que reflete a natureza "ilimitada" do plano.

> ‚úÖ O plano **Ultimate tem receita est√°vel e previs√≠vel**; o plano **Surf tem variabilidade de receita**, influenciada pelo uso excedente.

---

#### 4. Estimativa de perda de receita por churn
- Usu√°rios que cancelaram geravam, em m√©dia, **‚Ç¨36,96 por m√™s**.
- Usu√°rios ativos atualmente geram **‚Ç¨37,80 por m√™s**.
- A empresa perde aproximadamente **‚Ç¨1.182,84 por m√™s** com os cancelamentos.

> üî• **Conclus√£o estrat√©gica:** A m√©dia de receita entre ativos e cancelados √© muito pr√≥xima, indicando que **n√£o s√£o apenas usu√°rios de baixo valor que est√£o cancelando**. A reten√ß√£o deve ser tratada com aten√ß√£o em todos os perfis.

---

### ‚úÖ Conclus√£o Final

> O plano **Ultimate** √© o principal respons√°vel pela receita da Megaline, apresentando **valor alto por cliente, faturamento est√°vel e baixa vari√¢ncia**.  
> J√° o plano **Surf** oferece oportunidades de crescimento com usu√°rios mais vol√°teis, mas exige **gest√£o cuidadosa para evitar churn e aumentar o ticket m√©dio**.  
> A an√°lise de churn revelou que **mesmo usu√°rios com boa receita est√£o saindo**, indicando a necessidade de **a√ß√µes de reten√ß√£o ativas** e **monitoramento cont√≠nuo do comportamento dos clientes**.


[Formule conclus√µes sobre como a receita difere entre os planos.]

## Teste hip√≥teses estat√≠sticas

[Teste a hip√≥tese de que a receita m√©dia dos usu√°rios dos planos Ultimate e Surf s√£o diferentes.]

[Formule as hip√≥teses nula e alternativa, escolha o teste estat√≠stico, escolha o valor alfa.]

In [None]:
# Teste as hip√≥teses



[Teste a hip√≥tese de que a receita m√©dia dos usu√°rios da √°rea de NY-NJ difere dos usu√°rios das demais regi√µes.]

[Formule as hip√≥teses nula e alternativa, escolha o teste estat√≠stico, escolha o valor alfa.]

In [163]:
# Separar as receitas por plano
surf = df_usage[df_usage['plan'] == 'surf']['revenue']
ultimate = df_usage[df_usage['plan'] == 'ultimate']['revenue']

# Aplicar o teste t de Student com vari√¢ncias diferentes
t_stat, p_valor = ttest_ind(surf, ultimate, equal_var=False)

print(f"Estat√≠stica t: {t_stat:.3f}")
print(f"Valor-p: {p_valor:.5f}")

# Verificar o resultado
if p_valor < 0.05:
    print("‚ùå Rejeitamos H‚ÇÄ: as receitas m√©dias s√£o estatisticamente diferentes.")
else:
    print("‚úÖ N√£o rejeitamos H‚ÇÄ: n√£o h√° evid√™ncia suficiente de diferen√ßa nas m√©dias.")


Estat√≠stica t: -2865.718
Valor-p: 0.00000
‚ùå Rejeitamos H‚ÇÄ: as receitas m√©dias s√£o estatisticamente diferentes.


  res = hypotest_fun_out(*samples, **kwds)


In [176]:
# Criar uma m√°scara para NY-NJ 
ny_nj_users = df_users[df_users['city'].str.contains('New York|New Jersey', case=False)]['user_id']
outras_users = df_users[~df_users['user_id'].isin(ny_nj_users)]['user_id']

# Trazer a receita desses usu√°rios via df_usage
ny_nj_revenue = df_usage[df_usage['user_id'].isin(ny_nj_users)]['revenue']
outras_revenue = df_usage[df_usage['user_id'].isin(outras_users)]['revenue']

# Aplicar o teste t (vari√¢ncias diferentes)
t_stat, p_valor = ttest_ind(ny_nj_revenue, outras_revenue, equal_var=False)

# Resultado
print(f"Estat√≠stica t: {t_stat:.3f}")
print(f"Valor-p: {p_valor:.5f}")

if p_valor < 0.05:
    print("‚ùå Rejeitamos H‚ÇÄ: as receitas m√©dias s√£o estatisticamente diferentes.")
else:
    print("‚úÖ N√£o rejeitamos H‚ÇÄ: n√£o h√° evid√™ncia suficiente de diferen√ßa nas m√©dias.")

Estat√≠stica t: -51.086
Valor-p: 0.00000
‚ùå Rejeitamos H‚ÇÄ: as receitas m√©dias s√£o estatisticamente diferentes.


## Conclus√£o geral

[Liste suas conclus√µes importantes nesta se√ß√£o final, certifique-se de que elas cobrem todas as decis√µes (suposi√ß√µes) importantes que voc√™ tomou e que levaram √† maneira como voc√™ processou e analisou os dados.]