# Semana 1: Limpeza dos Dados

A primeira tarefa do desafio consiste em coletar os dados dos clientes da Alura Voz, verificar o conteúdo e a natureza desses dados e corrigir eventuais inconsistências, como presença de dados nulos e normalização da estrutura dos dados.

Para essas atividades, utilizaremos a biblioteca Pandas, ferramenta muito poderosa para trabalhar com dados estruturados em tabelas, séries ou quadro de dados (*dataframe*).

In [2]:
# importing libraries
import pandas as pd

A seguir, iremos coletar os dados fornecidos por uma API própria, fornecida pela empresa. Os dados estão no formato JSON.

In [3]:
# getting clients' data from API
api_url = "https://raw.githubusercontent.com/sthemonica/alura-voz/main/Dados/Telco-Customer-Churn.json"
raw_data = pd.read_json(api_url)

# raw data first look
raw_data.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Um primeiro olhar mostra que os dados dos clientes estão separeados em algumas categorias: *customerID*, *Churn*, *customer*, *phone*, *internet* e *account*. Ademais, algumas dessas categorias tem suas próprias subcategorias (*gender*, *PhoneService*, *InternetService*, etc), que precisam ser trazidas ao mesmo nível das categorias principais. Desse modo, o *dataframe* consistirá em uma tabela única, em que cada linha representa os dados de um único cliente e cada coluna, uma única unidade de informação correspondente à categoria de sua respectiva coluna.

In [4]:
# separating the first two columns
first_columns = pd.DataFrame(raw_data[raw_data.columns[:2]])

# first columns first look
first_columns.head()

Unnamed: 0,customerID,Churn
0,0002-ORFBO,No
1,0003-MKNFE,No
2,0004-TLHLJ,Yes
3,0011-IGKFF,Yes
4,0013-EXCHZ,Yes


In [5]:
# converting customer dictionary into a dataframe
customer_data = pd.DataFrame(dict(raw_data[raw_data.columns[2]])).T

# customer data first look
customer_data.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [6]:
# converting phone dictionary into a dataframe
phone_data = pd.DataFrame(dict(raw_data[raw_data.columns[3]])).T

# phone data first look
phone_data.head()

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [7]:
# converting internet dictionary into a dataframe
internet_data = pd.DataFrame(dict(raw_data[raw_data.columns[4]])).T

# internet data first look
internet_data.head()

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


In [8]:
# converting account dictionary into a dataframe
account_data = pd.DataFrame(dict(raw_data[raw_data.columns[5]])).T

# account data first look
account_data.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges
0,One year,Yes,Mailed check,"{'Monthly': 65.6, 'Total': '593.3'}"
1,Month-to-month,No,Mailed check,"{'Monthly': 59.9, 'Total': '542.4'}"
2,Month-to-month,Yes,Electronic check,"{'Monthly': 73.9, 'Total': '280.85'}"
3,Month-to-month,Yes,Electronic check,"{'Monthly': 98.0, 'Total': '1237.85'}"
4,Month-to-month,Yes,Mailed check,"{'Monthly': 83.9, 'Total': '267.4'}"


In [9]:
# removing the charges dictionary from account data and converting it into a dataframe
charges_data = pd.DataFrame(dict(account_data.pop(account_data.columns[-1]))).T

# charges data first look
charges_data.head()

Unnamed: 0,Monthly,Total
0,65.6,593.3
1,59.9,542.4
2,73.9,280.85
3,98.0,1237.85
4,83.9,267.4


In [10]:
# concatenating all dataframes into alura voz database
dataframe_list = [first_columns, customer_data, phone_data, internet_data, account_data, charges_data]
alura_voz_db = pd.concat(dataframe_list, axis = 1)

# database first look
alura_voz_db.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Monthly,Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Encerrada a parte da normalização da estrutura dos dados, cabe verificarmos a sanidade (*sanity check*) dos dados.

In [11]:
# verifying null values
alura_voz_db.count()

customerID          7267
Churn               7267
gender              7267
SeniorCitizen       7267
Partner             7267
Dependents          7267
tenure              7267
PhoneService        7267
MultipleLines       7267
InternetService     7267
OnlineSecurity      7267
OnlineBackup        7267
DeviceProtection    7267
TechSupport         7267
StreamingTV         7267
StreamingMovies     7267
Contract            7267
PaperlessBilling    7267
PaymentMethod       7267
Monthly             7267
Total               7267
dtype: int64

In [12]:
alura_voz_db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        7267 non-null   object
 1   Churn             7267 non-null   object
 2   gender            7267 non-null   object
 3   SeniorCitizen     7267 non-null   object
 4   Partner           7267 non-null   object
 5   Dependents        7267 non-null   object
 6   tenure            7267 non-null   object
 7   PhoneService      7267 non-null   object
 8   MultipleLines     7267 non-null   object
 9   InternetService   7267 non-null   object
 10  OnlineSecurity    7267 non-null   object
 11  OnlineBackup      7267 non-null   object
 12  DeviceProtection  7267 non-null   object
 13  TechSupport       7267 non-null   object
 14  StreamingTV       7267 non-null   object
 15  StreamingMovies   7267 non-null   object
 16  Contract          7267 non-null   object
 17  PaperlessBilli

In [13]:
print(f'Tamanho da tabela sem os valores nulos: {alura_voz_db.dropna().shape}')
print(f'Tamanho da total da tabela: {alura_voz_db.shape}')

Tamanho da tabela sem os valores nulos: (7267, 21)
Tamanho da total da tabela: (7267, 21)


Fazendo a contagem dos dados, verificamos que não há valores nulos; caso houvesse, o número de entradas em uma determinada categoria seria menor do que o total. Verificamos agora quais são esses dados contidos na tabela.

In [14]:
for column in alura_voz_db.columns:

  print(f'Valores únicos de {column}: {alura_voz_db[column].unique()}\n')

Valores únicos de customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']

Valores únicos de Churn: ['No' 'Yes' '']

Valores únicos de gender: ['Female' 'Male']

Valores únicos de SeniorCitizen: [0 1]

Valores únicos de Partner: ['Yes' 'No']

Valores únicos de Dependents: ['Yes' 'No']

Valores únicos de tenure: [9 4 13 3 71 63 7 65 54 72 5 56 34 1 45 50 23 55 26 69 11 37 49 66 67 20
 43 59 12 27 2 25 29 14 35 64 39 40 6 30 70 57 58 16 32 33 10 21 61 15 44
 22 24 19 47 62 46 52 8 60 48 28 41 53 68 51 31 36 17 18 38 42 0]

Valores únicos de PhoneService: ['Yes' 'No']

Valores únicos de MultipleLines: ['No' 'Yes' 'No phone service']

Valores únicos de InternetService: ['DSL' 'Fiber optic' 'No']

Valores únicos de OnlineSecurity: ['No' 'Yes' 'No internet service']

Valores únicos de OnlineBackup: ['Yes' 'No' 'No internet service']

Valores únicos de DeviceProtection: ['No' 'Yes' 'No internet service']

Valores únicos de TechSupport: ['Yes' 'No' 'No 

Verificamos que na categoria *Churn*, apesar de não haver valores nulos, há entradas que não contém informação alguma (' ').

In [15]:
alura_voz_db[alura_voz_db['Churn'] == '']

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Monthly,Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.0,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.9,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.9,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


Há diversas estratégias para lidar com dados ausentes. No entanto, por se tratar de um valor crucial (a taxa de retenção dos clientes) para a análise do problema solicitada pela empresa, o melhor é simplesmente remover essas entradas. 

In [16]:
alura_voz_db = alura_voz_db[~(alura_voz_db['Churn'] == '')]
alura_voz_db.shape

(7043, 21)

Vamos conferir se há valores em branco nas outras tabelas.

In [68]:
for column in alura_voz_db.columns:
  number_empty = alura_voz_db[column][alura_voz_db[column] == ' '].size
  print(f'Número de valores vazios na coluna {column} : {number_empty}')

Número de valores vazios na coluna customerID : 0
Número de valores vazios na coluna Churn : 0
Número de valores vazios na coluna gender : 0
Número de valores vazios na coluna SeniorCitizen : 0
Número de valores vazios na coluna Partner : 0
Número de valores vazios na coluna Dependents : 0
Número de valores vazios na coluna tenure : 0
Número de valores vazios na coluna PhoneService : 0
Número de valores vazios na coluna MultipleLines : 0
Número de valores vazios na coluna InternetService : 0
Número de valores vazios na coluna OnlineSecurity : 0
Número de valores vazios na coluna OnlineBackup : 0
Número de valores vazios na coluna DeviceProtection : 0
Número de valores vazios na coluna TechSupport : 0
Número de valores vazios na coluna StreamingTV : 0
Número de valores vazios na coluna StreamingMovies : 0
Número de valores vazios na coluna Contract : 0
Número de valores vazios na coluna PaperlessBilling : 0
Número de valores vazios na coluna PaymentMethod : 0
Número de valores vazios na

Verificamos que na coluna *Total* há 11 valores vazios. Ao contrário do que fizemos, com a coluna *Churn*, vamos manter esses valores, para posterior análise. Agora iremos verificar a natureza dos dados contidos em cada categoria.

In [17]:
for column in alura_voz_db.columns:

  print(f'Tipo de dado da coluna {column}: {type(alura_voz_db[column].iloc[0])}')

Tipo de dado da coluna customerID: <class 'str'>
Tipo de dado da coluna Churn: <class 'str'>
Tipo de dado da coluna gender: <class 'str'>
Tipo de dado da coluna SeniorCitizen: <class 'int'>
Tipo de dado da coluna Partner: <class 'str'>
Tipo de dado da coluna Dependents: <class 'str'>
Tipo de dado da coluna tenure: <class 'int'>
Tipo de dado da coluna PhoneService: <class 'str'>
Tipo de dado da coluna MultipleLines: <class 'str'>
Tipo de dado da coluna InternetService: <class 'str'>
Tipo de dado da coluna OnlineSecurity: <class 'str'>
Tipo de dado da coluna OnlineBackup: <class 'str'>
Tipo de dado da coluna DeviceProtection: <class 'str'>
Tipo de dado da coluna TechSupport: <class 'str'>
Tipo de dado da coluna StreamingTV: <class 'str'>
Tipo de dado da coluna StreamingMovies: <class 'str'>
Tipo de dado da coluna Contract: <class 'str'>
Tipo de dado da coluna PaperlessBilling: <class 'str'>
Tipo de dado da coluna PaymentMethod: <class 'str'>
Tipo de dado da coluna Monthly: <class 'float'

Verificamos que quase todas as categorias são do tipo conjunto de caracteres (*string*), exceto *tenure*, que é do tipo número inteiro (*integer*) e *Monthly*, que é do tipo número decimal (*float*). É condizente que eles sejam dessa natureza, uma vez que se espera fazer operações numéricas com esses valores. Por outro lado, os valores da categoria *Total* serem do tipo *string* podem acarretar problemas futuros (ver adiante). O melhor é convertê-los também para o tipo *float* (observando os valores vazios).

In [71]:
import numpy as np

for i in range(len(alura_voz_db['Total'])):
  if alura_voz_db['Total'].iloc[i] != ' ':
    alura_voz_db['Total'].iloc[i] = float(alura_voz_db['Total'].iloc[i])
  else:
    alura_voz_db['Total'].iloc[i] = np.nan

Os valores em branco foram substituídos por valores NAN (*not a number*), para ajudar em futura análise. Com esse passo, conseguimos tratar todos os dados acessados dos clientes da empresa Alura Voz. Podemos, adicionalmente, traduzir as categorias contidas nos rótulos das colunas.

In [None]:
#changing column names
rename_columns = {
   'customerID' : 'Número de Identificação',
   'Churn' : 'Deixou a Empresa',
   'gender' : 'Gênero',
   'SeniorCitizen' : 'Idade Igual ou Maior que 65 Anos',
   'Partner' : ' Possui Parceiro ou Parceira',
   'Dependents' : 'Possui Dependentes',
   'tenure' : 'Meses de Contrato',
   'PhoneService' : 'Assinatura de Serviço Telefônico',
   'MultipleLines' : 'Assisnatura de mais de uma Linha de Telefone',
   'InternetService' : 'Tipo de Provedor de Internet',
   'OnlineSecurity' : 'assinatura Adicional de Segurança Online',
   'OnlineBackup' : 'Assinatura Adicional de Backup Online',
   'DeviceProtection' : 'Assinatura Adicional de Proteção no Dispositivo',
   'TechSupport' : 'Assinatura Adicional de Suporte Técnico',
   'StreamingTV': 'Assinatura de TV a Cabo',
   'StreamingMovies' : 'Assinatura de Streaming de Filmes',
   'Contract' : 'Tipo de Contrato',
   'PaperlessBilling' : 'Fatura Online',
   'PaymentMethod' : 'Forma de Pagamento',
   'Monthly' : 'Custo Mensal dos Serviços',
   'Total' : 'Custo Total do Cliente',
}
alura_voz_db.rename(columns = rename_columns, inplace = True)

# database new look
alura_voz_db.head()

Unnamed: 0,Número de Identificação,Deixou a Empresa,Gênero,Idade Igual ou Maior que 65 Anos,Possui Parceiro ou Parceira,Possui Dependentes,Meses de Contrato,Assinatura de Serviço Telefônico,Assisnatura de mais de uma Linha de Telefone,Tipo de Provedor de Internet,...,Assinatura Adicional de Backup Online,Assinatura Adicional de Proteção no Dispositivo,Assinatura Adicional de Suporte Técnico,Assinatura de TV a Cabo,Assinatura de Streaming de Filmes,Tipo de Contrato,Fatura Online,Forma de Pagamento,Custo Mensal dos Serviços,Custo Total do Cliente
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Por fim, acrescentamos uma coluna adicional de custos diários, criada com base na coluna de gastos mensais.

In [None]:
# calculating the daily costs
daily_costs = (alura_voz_db['Custo Mensal dos Serviços'].astype(float) / 30).round(2)
alura_voz_db.insert(loc = 19, column = 'Custo Diário dos Serviços', value = daily_costs)

# database last look
alura_voz_db.head()

Unnamed: 0,Número de Identificação,Deixou a Empresa,Gênero,Idade Igual ou Maior que 65 Anos,Possui Parceiro ou Parceira,Possui Dependentes,Meses de Contrato,Assinatura de Serviço Telefônico,Assisnatura de mais de uma Linha de Telefone,Tipo de Provedor de Internet,...,Assinatura Adicional de Proteção no Dispositivo,Assinatura Adicional de Suporte Técnico,Assinatura de TV a Cabo,Assinatura de Streaming de Filmes,Tipo de Contrato,Fatura Online,Forma de Pagamento,Custo Diário dos Serviços,Custo Mensal dos Serviços,Custo Total do Cliente
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,2.19,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,2.0,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,2.46,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,3.27,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,2.8,83.9,267.4
