In [None]:
import pandas as pd
import requests
import os
import seaborn as sns
import matplotlib.pyplot as plt

# ============================
# 1️⃣ Criar pastas
# ============================
os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)
os.makedirs("data/plots", exist_ok=True)

# ============================
# 2️⃣ Baixar dados da API
# ============================
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"
response = requests.get(url)

if response.status_code == 200:
    data = response.json()
    df = pd.DataFrame(data)
    # Salvar JSON bruto
    df.to_json("data/raw/telecom_churn_raw.json", orient="records", lines=True)
    print("✅ Dados brutos salvos em data/raw/telecom_churn_raw.json")
else:
    print(f"❌ Erro ao acessar a API: {response.status_code}")
    exit()

# ============================
# 3️⃣ Limpeza e transformação
# ============================
df['MonthlyCharges'] = pd.to_numeric(df['MonthlyCharges'], errors='coerce')
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df = df.dropna()

# Salvar CSV limpo
df.to_csv("data/processed/telecom_churn_clean.csv", index=False)
print("✅ Dados processados salvos em data/processed/telecom_churn_clean.csv")

# ============================
# 4️⃣ Análise exploratória inicial
# ============================
plt.figure(figsize=(6,4))
sns.countplot(x='Churn', data=df)
plt.title("Distribuição de Churn")
plt.savefig("data/plots/churn_distribution.png")
plt.show()


✅ Dados carregados com sucesso!
📄 Dados brutos salvos em data/raw/telecom_churn_raw.json

📊 Informações gerais do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB
None

❗ Valores nulos por coluna:
customerID    0
Churn         0
customer      0
phone         0
internet      0
account       0
dtype: int64


KeyError: 'MonthlyCharges'