## Importando as bibliotecas

In [2]:
import pandas as pd 
pd.set_option('display.max.rows', None)

## Importando os dados

In [3]:
dataset = pd.read_json('Dados\Telco-Customer-Churn.json')
dataset.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## Limpeza dos dados

### Extração das colunas

Vemos que as colunas - custumer, phone, internet e account ainda possuem informações acopladas, devemos extrair as informações para novas colunas.

In [4]:
#Extraindo a coluna de costumer
dt_customer = pd.json_normalize(data=dataset.customer)

In [5]:
#Extraindo a coluna de phone 
dt_phone = pd.json_normalize(data=dataset.phone)

In [6]:
# Extraindo a coluna de Internet
dt_internet = pd.json_normalize(data = dataset.internet)

In [7]:
# Extraindo a coluna de account 
dt_account = pd.json_normalize(data = dataset.account)

Antes de adicionar as colunas novas ao dataset inicial temos que excluir as colunas antigas

In [8]:
dataset.drop(columns=['customer','phone','internet','account'], axis=1, inplace=True)

In [9]:
#validando que foi excluído
dataset.head()

Unnamed: 0,customerID,Churn
0,0002-ORFBO,No
1,0003-MKNFE,No
2,0004-TLHLJ,Yes
3,0011-IGKFF,Yes
4,0013-EXCHZ,Yes


Adicionando ao dataset as novas colunas

In [10]:
dataset = pd.concat([dataset, dt_customer, dt_phone, dt_internet, dt_account], axis=1)
dataset.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### Limpando as colunas

In [11]:
dataset.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#### Padronizando e traduzindo o nome das colunas

In [12]:
dataset.rename(columns={'customerID': 'clienteId', 
                        'Churn': 'cancelouPlano', 
                        'gender': 'genero', 
                        'SeniorCitizen': 'cidadaoIdoso', 
                        'Partner': 'temParceiro', 
                        'Dependents': 'temDependentes', 
                        'tenure': 'mesesContrato', 
                        'PhoneService': 'assinaturaTelefonica', 
                        'MultipleLines': 'multiplasLinhas', 
                        'InternetService': 'provedorInternet', 
                        'OnlineSecurity': 'segurancaOnline', 
                        'OnlineBackup': 'backupOnline', 
                        'DeviceProtection': 'protecaoDispositivo', 
                        'TechSupport': 'suporteTecnico', 
                        'StreamingTV': 'streamingTV', 
                        'StreamingMovies': 'streamingFilmes', 
                        'Contract': 'tipoContrato', 
                        'PaperlessBilling': 'contaOnline', 
                        'PaymentMethod': 'formaPagamento', 
                        'Charges.Monthly': 'totalServicosMensalmente', 
                        'Charges.Total': 'totalGasto'}, inplace=True)

#### Buscando registros nullos 

In [13]:
## buscando campos 
for col in dataset.columns:
    null = dataset[col].isnull().sum()
    

    print (f' A coluna {col} - Tem {null} registros null')

 A coluna clienteId - Tem 0 registros null
 A coluna cancelouPlano - Tem 0 registros null
 A coluna genero - Tem 0 registros null
 A coluna cidadaoIdoso - Tem 0 registros null
 A coluna temParceiro - Tem 0 registros null
 A coluna temDependentes - Tem 0 registros null
 A coluna mesesContrato - Tem 0 registros null
 A coluna assinaturaTelefonica - Tem 0 registros null
 A coluna multiplasLinhas - Tem 0 registros null
 A coluna provedorInternet - Tem 0 registros null
 A coluna segurancaOnline - Tem 0 registros null
 A coluna backupOnline - Tem 0 registros null
 A coluna protecaoDispositivo - Tem 0 registros null
 A coluna suporteTecnico - Tem 0 registros null
 A coluna streamingTV - Tem 0 registros null
 A coluna streamingFilmes - Tem 0 registros null
 A coluna tipoContrato - Tem 0 registros null
 A coluna contaOnline - Tem 0 registros null
 A coluna formaPagamento - Tem 0 registros null
 A coluna totalServicosMensalmente - Tem 0 registros null
 A coluna totalGasto - Tem 0 registros null


In [14]:
## buscando campos 
for col in dataset.columns:
    vazio = dataset[col].isna().sum()
    

    print (f' A coluna {col} - Tem {vazio} registros vazios')

 A coluna clienteId - Tem 0 registros vazios
 A coluna cancelouPlano - Tem 0 registros vazios
 A coluna genero - Tem 0 registros vazios
 A coluna cidadaoIdoso - Tem 0 registros vazios
 A coluna temParceiro - Tem 0 registros vazios
 A coluna temDependentes - Tem 0 registros vazios
 A coluna mesesContrato - Tem 0 registros vazios
 A coluna assinaturaTelefonica - Tem 0 registros vazios
 A coluna multiplasLinhas - Tem 0 registros vazios
 A coluna provedorInternet - Tem 0 registros vazios
 A coluna segurancaOnline - Tem 0 registros vazios
 A coluna backupOnline - Tem 0 registros vazios
 A coluna protecaoDispositivo - Tem 0 registros vazios
 A coluna suporteTecnico - Tem 0 registros vazios
 A coluna streamingTV - Tem 0 registros vazios
 A coluna streamingFilmes - Tem 0 registros vazios
 A coluna tipoContrato - Tem 0 registros vazios
 A coluna contaOnline - Tem 0 registros vazios
 A coluna formaPagamento - Tem 0 registros vazios
 A coluna totalServicosMensalmente - Tem 0 registros vazios
 A c

#### Mudando o tipo das colunas

 As colunas seniorCitizen, tenure, chargesMonthly e chargesTotal devem ser numéricas

In [15]:
dataset.dtypes

clienteId                    object
cancelouPlano                object
genero                       object
cidadaoIdoso                  int64
temParceiro                  object
temDependentes               object
mesesContrato                 int64
assinaturaTelefonica         object
multiplasLinhas              object
provedorInternet             object
segurancaOnline              object
backupOnline                 object
protecaoDispositivo          object
suporteTecnico               object
streamingTV                  object
streamingFilmes              object
tipoContrato                 object
contaOnline                  object
formaPagamento               object
totalServicosMensalmente    float64
totalGasto                   object
dtype: object

In [16]:
dataset['totalGasto'] = dataset['totalGasto'].astype('float64') #da erro apontando que tem uma coluna vazia perdida

Quando tentei mudar a coluna chargesTotal para float, descobri que existiam casos que a coluna era vazia com  " "

In [17]:
dataset.query('totalGasto ==  " "')

Unnamed: 0,clienteId,cancelouPlano,genero,cidadaoIdoso,temParceiro,temDependentes,mesesContrato,assinaturaTelefonica,multiplasLinhas,provedorInternet,...,backupOnline,protecaoDispositivo,suporteTecnico,streamingTV,streamingFilmes,tipoContrato,contaOnline,formaPagamento,totalServicosMensalmente,totalGasto
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,


Checando se nas outras colunas também tem casos assim

In [18]:
## buscando campos 
for col in dataset.columns:
    for lin, posicao in zip(dataset[col], range(dataset[col].shape[0])):
        if lin == " ":
            print(f'A coluna {col} tem registros com " " ')
            dataset.loc[posicao, col] = 0 
            print('Mudado')
        if lin == '':
            print(f'A coluna {col} tem registros com aspas ')
            dataset.loc[posicao, col] = 'Sem Informação'
            print('Mudado')
        
        

A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna cancelouPlano tem registros com aspas 
Mudado
A coluna c

In [19]:
dataset['totalGasto'] = dataset['totalGasto'].astype('float64')

### Alterando os registros da coluna cidadaoIdoso

In [20]:
dataset['cidadaoIdoso'] = dataset['cidadaoIdoso'].replace([0],'Não')
dataset['cidadaoIdoso'] = dataset['cidadaoIdoso'].replace([1],'Sim')
dataset['cidadaoIdoso'].unique()

array(['Não', 'Sim'], dtype=object)

## Análise Exploratória

Verificar os dados que temos em cada coluna 

In [21]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   clienteId                 7267 non-null   object 
 1   cancelouPlano             7267 non-null   object 
 2   genero                    7267 non-null   object 
 3   cidadaoIdoso              7267 non-null   object 
 4   temParceiro               7267 non-null   object 
 5   temDependentes            7267 non-null   object 
 6   mesesContrato             7267 non-null   int64  
 7   assinaturaTelefonica      7267 non-null   object 
 8   multiplasLinhas           7267 non-null   object 
 9   provedorInternet          7267 non-null   object 
 10  segurancaOnline           7267 non-null   object 
 11  backupOnline              7267 non-null   object 
 12  protecaoDispositivo       7267 non-null   object 
 13  suporteTecnico            7267 non-null   object 
 14  streamin

In [22]:
for col in dataset.columns:
    print(f' A {col} tem esses registros:{dataset[col].unique()}')

 A clienteId tem esses registros:['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
 A cancelouPlano tem esses registros:['No' 'Yes' 'Sem Informação']
 A genero tem esses registros:['Female' 'Male']
 A cidadaoIdoso tem esses registros:['Não' 'Sim']
 A temParceiro tem esses registros:['Yes' 'No']
 A temDependentes tem esses registros:['Yes' 'No']
 A mesesContrato tem esses registros:[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
 A assinaturaTelefonica tem esses registros:['Yes' 'No']
 A multiplasLinhas tem esses registros:['No' 'Yes' 'No phone service']
 A provedorInternet tem esses registros:['DSL' 'Fiber optic' 'No']
 A segurancaOnline tem esses registros:['No' 'Yes' 'No internet service']
 A backupOnline tem esses registros:['Yes' 'No' 'No internet service']
 A protecaoDispos

#### Tipos de dados

* **Dados Quantitativos:**
  São números que representam contagens ou medidas (renda e anos de escolaridade,por exemplo). 
  Esses dados se dividem em discretos e contínuos:
  * **Discreto:**
    Os dados discretos são aqueles em que o número de valores possíveis são finitos ou “enumeráveis” (tal como o número de cômodos em um domicílio).
    * MesesContrato
  * **Contínuo:**
    Os dados contínuos resultam de infinitos valores possíveis em uma escala contínua (renda per capita).
    * totalServicosMensalmente 
    * totalGasto 
* **Dados Qualitativos ou Categóricos:**
  Se distinguem por alguma característica não-numérica (sexo e raça, por exemplo).
  * **Nominal:**
    Utiliza dados que informam nomes, rótulos ou categorias. Os dados não são ordenados e não devem ser usados para cálculos de médias, como é o caso de raça e código do município, por exemplo.
    * ClienteID
    * cancelouPlano
    * genero 
    * cidadaoIdoso 
    * temParceiro 
    * temDependentes 
    * mesesContrato
    * assinaturaTelefonica 
    * multiplasLinhas 
    * provedorInternet 
    * segurancaOnline 
    * backupOnline 
    * protecaoDispositivo 
    * suporteTecnico 
    * streamingTV 
    * streamingFilmes 
    * tipoContrato 
    * contaOnline
    * formaPagamento 
    
    

### Traduzindo os dados Qualitativos

In [23]:
dataset['cancelouPlano'] = dataset['cancelouPlano'].replace(['No'],'Não')
dataset['cancelouPlano'] = dataset['cancelouPlano'].replace(['Yes'],'Sim')
dataset['cancelouPlano'].unique()

array(['Não', 'Sim', 'Sem Informação'], dtype=object)

In [24]:
dataset['temParceiro'] = dataset['temParceiro'].replace(['No'],'Não')
dataset['temParceiro'] = dataset['temParceiro'].replace(['Yes'],'Sim')
dataset['temParceiro'].unique()

array(['Sim', 'Não'], dtype=object)

In [25]:
dataset['genero'] = dataset['genero'].replace(['Female'],'Feminino')
dataset['genero'] = dataset['genero'].replace(['Male'],'Masculino')
dataset['genero'].unique()

array(['Feminino', 'Masculino'], dtype=object)

In [26]:
dataset['temDependentes'] = dataset['temDependentes'].replace(['No'],'Não')
dataset['temDependentes'] = dataset['temDependentes'].replace(['Yes'],'Sim')
dataset['temDependentes'].unique()

array(['Sim', 'Não'], dtype=object)

In [27]:
dataset['formaPagamento'] = dataset['formaPagamento'].replace(['Mailed check'],'Conta Enviada')
dataset['formaPagamento'] = dataset['formaPagamento'].replace(['Electronic check'],'Conta Eletrônica')
dataset['formaPagamento'] = dataset['formaPagamento'].replace(['Credit card (automatic)'],'Cartão de Crédito (Automático)')
dataset['formaPagamento'] = dataset['formaPagamento'].replace(['Bank transfer (automatic)'],'Transferência bancária (Automático)')
dataset['formaPagamento'].unique()

array(['Conta Enviada', 'Conta Eletrônica',
       'Cartão de Crédito (Automático)',
       'Transferência bancária (Automático)'], dtype=object)

In [28]:
dataset['multiplasLinhas'] = dataset['multiplasLinhas'].replace(['No'],'Não')
dataset['multiplasLinhas'] = dataset['multiplasLinhas'].replace(['Yes'],'Sim')
dataset['multiplasLinhas'] = dataset['multiplasLinhas'].replace(['No phone service'],'Sem serviço de telefone')
dataset['multiplasLinhas'].unique()

array(['Não', 'Sim', 'Sem serviço de telefone'], dtype=object)

In [29]:
dataset['provedorInternet'] = dataset['provedorInternet'].replace(['DSL'],'DSL')
dataset['provedorInternet'] = dataset['provedorInternet'].replace(['Fiber optic'],'Fibra ótica')
dataset['provedorInternet'] = dataset['provedorInternet'].replace(['No'],'Não')
dataset['provedorInternet'].unique()

array(['DSL', 'Fibra ótica', 'Não'], dtype=object)

In [30]:
dataset['segurancaOnline'] = dataset['segurancaOnline'].replace(['No'],'Não')
dataset['segurancaOnline'] = dataset['segurancaOnline'].replace(['Yes'],'Sim')
dataset['segurancaOnline'] = dataset['segurancaOnline'].replace(['No internet service'],'Sem serviço de internet')
dataset['segurancaOnline'].unique()

array(['Não', 'Sim', 'Sem serviço de internet'], dtype=object)

In [31]:
dataset['backupOnline'] = dataset['backupOnline'].replace(['No'],'Não')
dataset['backupOnline'] = dataset['backupOnline'].replace(['Yes'],'Sim')
dataset['backupOnline'] = dataset['backupOnline'].replace(['No internet service'],'Sem serviço de internet')
dataset['backupOnline'].unique()

array(['Sim', 'Não', 'Sem serviço de internet'], dtype=object)

In [32]:
dataset['protecaoDispositivo'] = dataset['protecaoDispositivo'].replace(['No'],'Não')
dataset['protecaoDispositivo'] = dataset['protecaoDispositivo'].replace(['Yes'],'Sim')
dataset['protecaoDispositivo'] = dataset['protecaoDispositivo'].replace(['No internet service'],'Sem serviço de internet')
dataset['protecaoDispositivo'].unique()

array(['Não', 'Sim', 'Sem serviço de internet'], dtype=object)

In [33]:
dataset['suporteTecnico'] = dataset['suporteTecnico'].replace(['No'],'Não')
dataset['suporteTecnico'] = dataset['suporteTecnico'].replace(['Yes'],'Sim')
dataset['suporteTecnico'] = dataset['suporteTecnico'].replace(['No internet service'],'Sem serviço de internet')
dataset['suporteTecnico'].unique()

array(['Sim', 'Não', 'Sem serviço de internet'], dtype=object)

In [34]:
dataset['streamingTV'] = dataset['streamingTV'].replace(['No'],'Não')
dataset['streamingTV'] = dataset['streamingTV'].replace(['Yes'],'Sim')
dataset['streamingTV'] = dataset['streamingTV'].replace(['No internet service'],'Sem serviço de internet')
dataset['streamingTV'].unique()

array(['Sim', 'Não', 'Sem serviço de internet'], dtype=object)

In [35]:
dataset['streamingFilmes'] = dataset['streamingFilmes'].replace(['No'],'Não')
dataset['streamingFilmes'] = dataset['streamingFilmes'].replace(['Yes'],'Sim')
dataset['streamingFilmes'] = dataset['streamingFilmes'].replace(['No internet service'],'Sem serviço de internet')
dataset['streamingFilmes'].unique()

array(['Não', 'Sim', 'Sem serviço de internet'], dtype=object)

In [36]:
dataset['tipoContrato'] = dataset['tipoContrato'].replace(['One year'],'Um ano')
dataset['tipoContrato'] = dataset['tipoContrato'].replace(['Month-to-month'],'Mensal')
dataset['tipoContrato'] = dataset['tipoContrato'].replace(['Two year'],'Dois anos')
dataset['tipoContrato'].unique()

array(['Um ano', 'Mensal', 'Dois anos'], dtype=object)

In [37]:
dataset['assinaturaTelefonica'] = dataset['assinaturaTelefonica'].replace(['No'],'Não')
dataset['assinaturaTelefonica'] = dataset['assinaturaTelefonica'].replace(['Yes'],'Sim')
dataset['assinaturaTelefonica'].unique()

array(['Sim', 'Não'], dtype=object)

In [38]:
dataset['contaOnline'] = dataset['contaOnline'].replace(['No'],'Não')
dataset['contaOnline'] = dataset['contaOnline'].replace(['Yes'],'Sim')
dataset['contaOnline'].unique()

array(['Sim', 'Não'], dtype=object)

## Calcular os valores gastos diariamente e colocar na décima oitava posição nas colunas


In [39]:
##gastoDiario = valormensal / 30

In [40]:
dataset.insert(18, 'gastoDiario',round(dataset['totalServicosMensalmente'] / 30))
dataset.head()

Unnamed: 0,clienteId,cancelouPlano,genero,cidadaoIdoso,temParceiro,temDependentes,mesesContrato,assinaturaTelefonica,multiplasLinhas,provedorInternet,...,protecaoDispositivo,suporteTecnico,streamingTV,streamingFilmes,tipoContrato,contaOnline,gastoDiario,formaPagamento,totalServicosMensalmente,totalGasto
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,...,Não,Sim,Sim,Não,Um ano,Sim,2.0,Conta Enviada,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,...,Não,Não,Não,Sim,Mensal,Não,2.0,Conta Enviada,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra ótica,...,Sim,Não,Não,Não,Mensal,Sim,2.0,Conta Eletrônica,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra ótica,...,Sim,Não,Sim,Sim,Mensal,Sim,3.0,Conta Eletrônica,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra ótica,...,Não,Sim,Sim,Não,Mensal,Sim,3.0,Conta Enviada,83.9,267.4


## Verificando os valores da coluna totalGasto

In [41]:
#totalGasto = valorMensal * meses de contrato 

In [42]:
dataset['validacaoTotalGasto'] = dataset['totalServicosMensalmente'] * dataset['mesesContrato']
dataset.head()

Unnamed: 0,clienteId,cancelouPlano,genero,cidadaoIdoso,temParceiro,temDependentes,mesesContrato,assinaturaTelefonica,multiplasLinhas,provedorInternet,...,suporteTecnico,streamingTV,streamingFilmes,tipoContrato,contaOnline,gastoDiario,formaPagamento,totalServicosMensalmente,totalGasto,validacaoTotalGasto
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,...,Sim,Sim,Não,Um ano,Sim,2.0,Conta Enviada,65.6,593.3,590.4
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,...,Não,Não,Sim,Mensal,Não,2.0,Conta Enviada,59.9,542.4,539.1
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra ótica,...,Não,Não,Não,Mensal,Sim,2.0,Conta Eletrônica,73.9,280.85,295.6
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra ótica,...,Não,Sim,Sim,Mensal,Sim,3.0,Conta Eletrônica,98.0,1237.85,1274.0
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra ótica,...,Sim,Sim,Não,Mensal,Sim,3.0,Conta Enviada,83.9,267.4,251.7


Tem uma diferença entre os valores de ambas as colunas (validacaoTotalGasto e totalGasto), vamos apontar essa diferença

In [43]:
dataset['diferencaTotalGasto'] = dataset['totalGasto'] -  dataset['validacaoTotalGasto']
dataset.head()

Unnamed: 0,clienteId,cancelouPlano,genero,cidadaoIdoso,temParceiro,temDependentes,mesesContrato,assinaturaTelefonica,multiplasLinhas,provedorInternet,...,streamingTV,streamingFilmes,tipoContrato,contaOnline,gastoDiario,formaPagamento,totalServicosMensalmente,totalGasto,validacaoTotalGasto,diferencaTotalGasto
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,...,Sim,Não,Um ano,Sim,2.0,Conta Enviada,65.6,593.3,590.4,2.9
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,...,Não,Sim,Mensal,Não,2.0,Conta Enviada,59.9,542.4,539.1,3.3
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra ótica,...,Não,Não,Mensal,Sim,2.0,Conta Eletrônica,73.9,280.85,295.6,-14.75
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra ótica,...,Sim,Sim,Mensal,Sim,3.0,Conta Eletrônica,98.0,1237.85,1274.0,-36.15
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra ótica,...,Sim,Não,Mensal,Sim,3.0,Conta Enviada,83.9,267.4,251.7,15.7


### Exportando os dados Limpos

In [45]:
dataset.to_csv('Dados\DadosTelco.csv', sep=";", index = False)