# ETAPA 1: Importar os dados da API JSON

In [1]:

import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'requests'

In [None]:
# Configurar estilo dos gráficos
sns.set(style="whitegrid")

In [None]:
# URL dos dados
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json"

In [None]:
# Requisição e normalização dos dados
response = requests.get(url)
data = response.json()
df = pd.json_normalize(data)

In [None]:
# Padronizar nomes de colunas
df.columns = df.columns.str.lower().str.replace(" ", "_")
print("Colunas disponíveis:", df.columns.tolist())

# ETAPA 2: Transformação dos dados (ETL)

In [None]:
 # Remove registros sem ID
df = df.dropna(subset=['customerid'])


In [None]:
# Conversões de tipo para análise numérica
df['account.charges.total'] = pd.to_numeric(df['account.charges.total'], errors='coerce')
df['account.charges.monthly'] = pd.to_numeric(df['account.charges.monthly'], errors='coerce')


In [None]:
# Estatísticas iniciais
print(df[['account.charges.monthly', 'account.charges.total']].describe())


# ETAPA 3: Visualizações

In [None]:
# Churn por tipo de contrato
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='account.contract', hue='churn')
plt.title("Churn por Tipo de Contrato")
plt.xlabel("Contrato")
plt.ylabel("Clientes")
plt.show()

In [None]:
# Receita mensal média por tipo de internet
plt.figure(figsize=(8, 5))
sns.barplot(data=df, x='internet.internetservice', y='account.charges.monthly', ci=None)
plt.title("Média da Cobrança Mensal por Tipo de Internet")
plt.xlabel("Tipo de Internet")
plt.ylabel("Cobrança Mensal (R$)")
plt.show()

In [None]:
# Distribuição de clientes por tempo de contrato (tenure)
plt.figure(figsize=(8, 5))
sns.histplot(df['customer.tenure'], bins=30, kde=True)
plt.title("Distribuição do Tempo de Contrato (Tenure)")
plt.xlabel("Meses")
plt.show()

# ETAPA 4: Correlação e Análise Exploratória

In [None]:
corr = df[['customer.tenure', 'account.charges.monthly', 'account.charges.total']].corr()
print("Matriz de Correlação:\n", corr)

plt.figure(figsize=(6, 4))
sns.heatmap(corr, annot=True, cmap="Blues")
plt.title("Correlação entre variáveis numéricas")
plt.show()

# ETAPA 5: Análise adicional de gênero

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(data=df, x='customer.gender')
plt.title("Distribuição por Gênero")
plt.xlabel("Gênero")
plt.ylabel("Quantidade")
plt.show()

# ETAPA 6: Quantidade de clientes por serviço prestado

In [None]:
servicos = [
    'phone.phoneservice',
    'phone.multiplelines',
    'internet.internetservice',
    'internet.onlinesecurity',
    'internet.onlinebackup',
    'internet.deviceprotection',
    'internet.techsupport',
    'internet.streamingtv',
    'internet.streamingmovies'
]

for servico in servicos:
    print(f"{servico}:")
    print(df[servico].value_counts(dropna=False))
    print("-" * 40)

for servico in servicos:
    print(f"{servico}:")
    print(df[servico].value_counts(dropna=False))
    print("-" * 40)
