# Telecom X, análise de evasão de clientes.

A Telecom X é uma empresa de telecomunicações, e você foi contratado como assistente de análise de dados para fazer parte da equipe de Data Science. A equipe está com um novo projeto denominado Churn de Clientes.

A empresa vem sofrendo alto índice de evasão de clientes, porém, eles não conseguem descobrir o porquê disso estar acontecendo. E é aí que você entra como assistente de análise de dados. Você ficará responsável por uma das partes mais importantes da análise de dados. Você ficará responsável por buscar, tratar e realizar uma análise exploratoria dos dados da empresa. Ou seja, você colocará em prática todos os seus conhecimentos sobre o processo de ETL.

Com os dados tratados e limpos, seus colegas mais experientes serão capazes de realizar uma análise mais profunda, e assim, criar modelos preditivos para que essa taxa de evasão diminua.

A parte mais importante desse desafio é a extração dos dados. Os dados da empresa estão em uma API que está armazenada dentro de um repositório no GitHub. O primeiro passo que você tem que fazer nesse desafio é descobrir a melhor maneira de fazer essa extração. Com a extração feita, você colocará em prática a parte T, ou seja, a parte de transformação. Você tem que transformar esses dados para em seguida poder analisar e gerar alguns insights dele.

Como parte final, você deverá gerar um relatório explicando detalhadamente todo o processo de ETL feito. Ou seja, você tem que começar com uma introdução, falando o objetivo da sua análise, explicando o problema da evasão de clientes, descrever o processo de importar, limpar e tratar os dados, explicar a análise exploratória, incluindo gráficos e visualização para identificar padrões e, através disso tudo, criar uma conclusão. Ou seja, resuma os principais achados e como esses dados podem ajudar a reduzir a evasão.

Também recomendamos que você ofereça sugestões baseadas nas análises para, assim, ajudar ainda mais a equipe de data science. Com esse desafio, você colocará em prática todo o seu conhecimento em ETL, análise exploratória, também conhecido na área de data science como EDA. Tudo isso utilizando Python e as suas bibliotecas nativas como Pandas, Seaborn, Matplotlib, entre outras.

Com os dados devidamente tratados e analisados, é possível identificar padrões dos clientes e, assim, evitar o churn (evasão) de clientes.

### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

##📌 Extracão

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/rafaelreisramos/oracle-one/refs/heads/main/challenge-telecom-x/TelecomX_Data.json'
df = pd.read_json(url)
df.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Inspecionando um registro podemos entrender melhor a estrutura do arquivo `.j̀son`

```
{
  "customerID": "0002-ORFBO",
  "Churn": "No",
  "customer": {
    "gender": "Female",
    "SeniorCitizen": 0,
    "Partner": "Yes",
    "Dependents": "Yes",
    "tenure": 9
  },
  "phone": {
    "PhoneService": "Yes",
    "MultipleLines": "No"
  },
  "internet": {
    "InternetService": "DSL",
    "OnlineSecurity": "No",
    "OnlineBackup": "Yes",
    "DeviceProtection": "No",
    "TechSupport": "Yes",
    "StreamingTV": "Yes",
    "StreamingMovies": "No"
  },
  "account": {
    "Contract": "One year",
    "PaperlessBilling": "Yes",
    "PaymentMethod": "Mailed check",
    "Charges": {
      "Monthly": 65.6,
      "Total": "593.3"
    }
  }
}
```

Os campos `customer`, `phone`, `internet` e `account` estão aninhados e tem de ser normalizados.

Como são múltiplas colunas, ao invés de normalizar cada coluna do dataframe e criar um novo, vamos importar o arquivo `.j̀son` e passá-lo ao `json_normalize()` diretamente.

In [2]:
import requests

json_data = requests.get(url).json()
df = pd.json_normalize(json_data, sep='_')
df.head()

Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


As colunas foram prefixadas com o nome das chaves do arquivo `.json`.

Vamos renomeá-las.

In [3]:
df.columns

Index(['customerID', 'Churn', 'customer_gender', 'customer_SeniorCitizen',
       'customer_Partner', 'customer_Dependents', 'customer_tenure',
       'phone_PhoneService', 'phone_MultipleLines', 'internet_InternetService',
       'internet_OnlineSecurity', 'internet_OnlineBackup',
       'internet_DeviceProtection', 'internet_TechSupport',
       'internet_StreamingTV', 'internet_StreamingMovies', 'account_Contract',
       'account_PaperlessBilling', 'account_PaymentMethod',
       'account_Charges_Monthly', 'account_Charges_Total'],
      dtype='object')

In [5]:
new_columns_names = ['customerID', 'Churn', 'Gender', 'SeniorCitizen',
       'Partner', 'Dependents', 'Tenure',
       'PhoneService', 'MultiplePhoneLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup',
       'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod',
       'Charges_Monthly', 'Charges_Total']
df = df.set_axis(new_columns_names, axis='columns')
df.head()

Unnamed: 0,customerID,Churn,Gender,SeniorCitizen,Partner,Dependents,Tenure,PhoneService,MultiplePhoneLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


##🔧 Transformação

##📊 Carga e análise

##📄Relatorio Final