# TIM AI Academy

## Demonstração 10 - A partir do dataset Telco Customer Churn, explanação a respeito de método de coleta de dados (acesso via token).

### Prof. Dr. Ahirton Lopes (https://github.com/ahirtonlopes)

Ref https://www.kaggle.com/datasets/blastchar/telco-customer-churn

# Instalar o pacote Kaggle e fazer upload do token

No Google Colab, primeiramente instale o pacote Kaggle e faça o upload do seu arquivo kaggle.json (o token de acesso). Isso permitirá que você baixe os dados diretamente do Kaggle.

In [1]:
!pip install kaggle



Depois, fazemos upload do arquivo kaggle.json no Colab.



In [2]:
# Upload do arquivo kaggle.json
from google.colab import files
uploaded = files.upload()

Saving kaggle.json to kaggle (1).json


# Configurando a API do Kaggle

Após o upload, defina a variável de ambiente para autenticação da API do Kaggle e faça o download do conjunto de dados.

In [3]:
import os

# Configuração do diretório do Kaggle
os.environ['KAGGLE_CONFIG_DIR'] = '/content'

# Baixar o conjunto de dados Telco Churn
!kaggle datasets download -d blastchar/telco-customer-churn
!unzip telco-customer-churn.zip

Dataset URL: https://www.kaggle.com/datasets/blastchar/telco-customer-churn
License(s): copyright-authors
Downloading telco-customer-churn.zip to /content
  0% 0.00/172k [00:00<?, ?B/s]
100% 172k/172k [00:00<00:00, 69.9MB/s]
Archive:  telco-customer-churn.zip
replace WA_Fn-UseC_-Telco-Customer-Churn.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
  inflating: WA_Fn-UseC_-Telco-Customer-Churn.csv  


# Carregando e visualizando dados

Agora que os dados estão no Colab, vamos carregá-los com a biblioteca Pandas e visualizar as primeiras linhas do conjunto de dados.

In [4]:
import pandas as pd

# Carregar o conjunto de dados
df = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')

# Visualizar as primeiras 5 linhas dos dados
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


# Limpeza e Pré-processamento de Dados

Antes de realizar qualquer análise, é comum limpar e tratar os dados. Vamos lidar com valores ausentes e variáveis categóricas, bem como preencher valores ausentes (se houver).

In [5]:
# Verificar valores ausentes
df.isnull().sum()

# Substituir valores vazios na coluna 'TotalCharges' por 0 e converter para numérico
df['TotalCharges'] = df['TotalCharges'].replace(' ', '0').astype(float)

# Conversão de variáveis categóricas em variáveis numéricas (técnica de One-Hot Encoding)


In [6]:
# Convertendo variáveis categóricas em variáveis numéricas
df = pd.get_dummies(df, drop_first=True)

# Visualizar as primeiras 5 linhas após a conversão
df.head()

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges,TotalCharges,customerID_0003-MKNFE,customerID_0004-TLHLJ,customerID_0011-IGKFF,customerID_0013-EXCHZ,customerID_0013-MHZWF,customerID_0013-SMEOE,...,StreamingTV_Yes,StreamingMovies_No internet service,StreamingMovies_Yes,Contract_One year,Contract_Two year,PaperlessBilling_Yes,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,Churn_Yes
0,0,1,29.85,29.85,False,False,False,False,False,False,...,False,False,False,False,False,True,False,True,False,False
1,0,34,56.95,1889.5,False,False,False,False,False,False,...,False,False,False,True,False,False,False,False,True,False
2,0,2,53.85,108.15,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,True,True
3,0,45,42.3,1840.75,False,False,False,False,False,False,...,False,False,False,True,False,False,False,False,False,False
4,0,2,70.7,151.65,False,False,False,False,False,False,...,False,False,False,False,False,True,False,True,False,True


In [7]:
# Salvar os dados processados
df.to_csv('processed_telco_churn.csv', index=False)

Este código fornece uma introdução completa para coleta, limpeza e análise de dados de telecomunicações usando dados reais.

Em breve, você poderá expandir esse exemplo com mais técnicas de engenharia de atributos, como a criação de novos atributos baseados nas variáveis existentes, ou aplicar modelos de aprendizado de máquina para prever o churn dos clientes.