#üìå Extrac√£o

In [None]:
import pandas as pd

#Convertendo os Arquivos para an√°lise em um Data Frame
dado = pd.read_json('G:/Meu Drive/Oracle_alura/ETL G8/Challenge_2/Dados/TelecomX_Data.json')
print(dado.head(),'\n\n')


#Normalizando o arquivo
normal = pd.json_normalize(dado.to_dict(orient='records'))
print(normal)

#üîß Transforma√ß√£o

In [None]:
#Verificando valores nulos e duplicados
print('NULOS ->',normal.isnull().sum())
print('DUPLICADOS',normal.duplicated().sum())

#Valores unicos em cada coluna
for coluna in normal.columns:
    unico=normal[coluna].unique()
    print(f'\n\nValores unicos da coluna {coluna}->{unico} \n\n')



#Transformando certas colunas para Float
normal['account.Charges.Total']=pd.to_numeric(normal['account.Charges.Total'], errors='coerce')
normal['customer.tenure']=pd.to_numeric(normal['customer.tenure'], errors='coerce')

#Criando uma coluna para gastos diarios
normal=normal.drop('Total.Day', errors='ignore')
normal['Total.Day']=((normal['account.Charges.Total'] / normal['customer.tenure'])/30).round(2)
normal.insert(19,'Total.Day', normal.pop('Total.Day'))

#Removendo os valores vazios da coluna Churn
normal.query('Churn != ""', inplace=True)
print('\n\nValores unicos da coluna Churn', normal['Churn'].unique(),'\n\n')


#üìä Carga e an√°lise

In [None]:

#Estatisticas descritivas
descrito = normal.describe()

mean = descrito.loc['mean']
median = descrito.loc['50%']
std = descrito.loc['std']
print(f'Mediana\n{median}\n\n media\n{mean}\n\n std\n{std}\n\n')


#Fazendo os gr√°ficos pra perceber os motivos das saida
import plotly.express as px
import matplotlib.pyplot as plt
print(normal.info())


#Gr√°ficos em fun√ß√£o do dado Churn
#Tenure
fig, ax = plt.subplots(figsize=(8,5))

churn_yes = normal[normal['Churn'] == 'Yes']['customer.tenure'].astype('Int64')
churn_no  = normal[normal['Churn'] == 'No']['customer.tenure'].astype('Int64')

ax.hist([churn_yes, churn_no], bins=20, label=['Churn: Sim', 'Churn: N√£o'], stacked=True)
ax.set_title('Histograma de Tenure por Churn')
ax.set_xlabel('Meses de perman√™ncia')
ax.set_ylabel('N√∫mero de clientes')
ax.legend()
plt.show()

#Outras variaveis n√£o numericas
def churn_grafico(coluna, color):
    fig, ax = plt.subplots(figsize=(8,5))
    churn_yes = normal[normal['Churn'] == 'Yes'][coluna]
    churn_no  = normal[normal['Churn'] == 'No'][coluna]
    
    ax.hist([churn_yes, churn_no], bins=50, label=['Churn: Sim', 'Churn: N√£o'], stacked=True, color=color)
    ax.set_title(f'Histograma de {coluna} por Churn')
    ax.set_xlabel(coluna)
    ax.set_ylabel('N√∫mero de clientes')
    ax.legend()
    plt.show()

#Contagem de evas√£o variaveis num√©ricas
churn_grafico('account.Charges.Total', ['red', 'gold'])
churn_grafico('Total.Day', ['#4DF6FA', '#FA8F4D'])


#Contagem de evas√£o variaveis categ√≥ricas
churn_grafico('customer.gender', ['#722BFA','#FAEF2A'])
churn_grafico('account.Contract', ['#FA1E58', '#1EFA3C'])
churn_grafico('account.PaymentMethod', ['#D33FFA', '#B4FA3E'])
churn_grafico('internet.InternetService', ['#FA573A', '#3CFAA9'])



#üìÑRelatorio Final


### üìò Introdu√ß√£o
Neste desafio, me foi proposta a tarefa de realizar uma an√°lise da evas√£o de clientes da empresa **Telecom X**, uma empresa de servi√ßos de Televis√£o e internet, o projeto se chama **"Churn de Clientes"**. A empresa enfrenta um alto cancelamento de seus servi√ßos por parte dos cli√™ntes e precisa entender o porqu√™ desta ocorrencia.
A an√°lise busca identificar padr√µes em dados fornecidos sobre os clientes e correlacion√°-los com a vari√°vel `Churn`, que indica se o cliente deixou ou n√£o de utilizar os servi√ßos da empresa.

---

### üßπ Limpeza e Tratamento de Dados

A prepara√ß√£o dos dados come√ßou com a leitura do arquivo `TelecomX_Data.json` e sua convers√£o para um DataFrame usando a biblioteca **pandas**. Devido √† presen√ßa de dados aninhados, foi utilizada a fun√ß√£o `pd.json_normalize`, sendo necess√°rio converter o DataFrame para um dicion√°rio com `orient='records'`.

Em seguida, realizou-se uma an√°lise inicial para verificar a exist√™ncia de valores nulos, duplicatas e inconsist√™ncias por meio da inspe√ß√£o dos valores √∫nicos por coluna. Nessa etapa, identificou-se que a coluna `Churn` possu√≠a registros vazios, que foram removidos com o m√©todo `.query()`.

As colunas `account.Charges.Total` e `customer.tenure`, inicialmente no formato texto, foram convertidas para valores num√©ricos utilizando `pd.to_numeric`, tratando automaticamente valores inv√°lidos como nulos (`errors='coerce'`).

Tamb√©m foi criada uma nova m√©trica chamada `Total.Day`, que representa o gasto m√©dio di√°rio do cliente. Essa m√©trica foi calculada a partir do valor total de cobran√ßas dividido pelo tempo de perman√™ncia (em meses), ajustado para um per√≠odo de 30 dias. Qualquer vers√£o anterior dessa coluna foi removida para evitar duplicidade.

---

### üìä An√°lise Explorat√≥ria de Dados

Inicialmente, foram extra√≠das estat√≠sticas descritivas (m√©dia, mediana e desvio padr√£o) para fornecer uma vis√£o geral dos dados, servindo de base para as an√°lises comparativas e visuais.

Para gerar os gr√°ficos, foi utilizada a biblioteca **matplotlib**. Com o objetivo de manter um padr√£o visual e facilitar a gera√ß√£o dos gr√°ficos, foi criada uma fun√ß√£o que segmenta os dados com base na vari√°vel `Churn`.

---

#### üìà An√°lise dos Gr√°ficos

O tipo de gr√°fico construido para a an√°lise foi um histogr√¢ma, um gr√°fico de barras que apresenta a distribui√ß√£o da frequ√™ncia dos dados em determinado intervalo, representando a quantidade de dados em cada intervalo por meio da altura da barra.

---

#### Gr√°fico: Meses de Perman√™ncia dos Clientes

![alt text](<../Gr√°ficos/Histograma de Tenure por Churn.png>)

Este gr√°fico revela que a maioria dos clientes que cancelaram o servi√ßo permaneceu por poucos meses, o que pode indicar uma experi√™ncia inicial negativa ou um servi√ßo aqu√©m das expectativas para novos assinantes. J√° os clientes antigos, com contratos mais longos, parecem permanecer mais tempo, possivelmente devido √† familiaridade com o servi√ßo ou comodidade.

---

#### Contagem de evas√£o variaveis categ√≥ricas

![alt text](<../Gr√°ficos/Histograma de customer.gender por Churn.png>)
![alt text](<../Gr√°ficos/Histograma de account.Contract por Churn.png>)
![alt text](<../Gr√°ficos/Histograma de account.PaymentMethod por Churn.png>)
![alt text](<../Gr√°ficos/Histograma de internet.InternetService por Churn.png>)

Embora esses gr√°ficos n√£o revelem grandes discrep√¢ncias entre quem cancelou ou n√£o o servi√ßo, eles ajudam a identificar padr√µes de comportamento e concentra√ß√£o de clientes. Isso √© √∫til para entender quais perfis devem ser priorizados em estrat√©gias de reten√ß√£o.

Por exemplo:
- Em rela√ß√£o ao **g√™nero**, a evas√£o √© praticamente equilibrada.
- A maioria dos clientes utiliza **contratos mensais**, **internet via fibra √≥ptica** e realiza pagamentos por **cheque eletr√¥nico** ‚Äî √°reas que merecem aten√ß√£o.

---

#### Contagem de evas√£o variaveis num√©ricas

Primeiramente vamos an√°lisar a o quanto as pessoas gastaram pelo servi√ßo ao longo de seu tempo de contrato.

![alt text](<../Gr√°ficos/Histograma de account.Charges.Total por Churn.png>)

Este gr√°fico confirma que os clientes que cancelaram o servi√ßo geralmente gastaram menos, refletindo a tend√™ncia j√° observada de cancelamentos precoces (menos meses de contrato).

---

![alt text](<../Gr√°ficos/Histograma de Total.Day por Churn.png>)

Este gr√°fico traz um insight interessante: os clientes que permaneceram na empresa tendem a pagar entre **R$0,50 e R$1,00** por dia, enquanto muitos dos que cancelaram est√£o na faixa de **R$2,70 a R$3,70** por dia. Isso pode indicar que o custo percebido do servi√ßo em rela√ß√£o ao valor entregue n√£o est√° sendo bem aceito por novos clientes.

---

### ‚úÖ Conclus√µes e Insights

- A maioria dos clientes que cancelam o servi√ßo est√° no perfil ‚Äúm√©dio‚Äù de uso e gasto, ou seja, utilizam o pacote padr√£o.
- Isso sugere que o servi√ßo b√°sico n√£o est√° atendendo √†s expectativas dos novos assinantes, levando √† frustra√ß√£o e ao cancelamento precoce.
- Clientes antigos, por outro lado, tendem a permanecer, o que pode indicar fidelidade, resist√™ncia √† mudan√ßa ou satisfa√ß√£o com servi√ßos personalizados.

---

### üí° Recomenda√ß√µes

- **Melhorar o servi√ßo b√°sico** para atender melhor aos novos assinantes.
- **Investir em campanhas de onboarding** e comunica√ß√£o clara dos benef√≠cios desde o in√≠cio do contrato.
- **Aprimorar o atendimento inicial ao cliente**, garantindo uma boa primeira impress√£o e suporte r√°pido em caso de problemas.
- **Analisar o custo-benef√≠cio percebido pelos clientes**, especialmente na faixa de gasto di√°rio mais elevada.