# Explorando os dados para limpeza e preparação da análise

Objetivos:
- Ter todos os dados coletados tratados e funcionais para uso em uma análise

In [1]:
import os
import dotenv
import requests as rt
import json

import pandas as pd
import numpy as np
from datetime import date as dt

In [2]:
# Definindo as pastas do diretório

root = os.getcwd()
dataFolder = os.path.join(root, 'data')
docFolder = os.path.join(root, 'doc')
env = dotenv.find_dotenv()

# 01) Importando, organizando e limpandando os dados

In [3]:
dataPath = os.path.join(dataFolder, 'churn_com_texto.csv')
dados = pd.read_csv(dataPath)

In [4]:
dados.head(10)

Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Volume de Dados,Número de Reclamações,Comentários
0,1,João Silva,35,Masculino,São Paulo/SP/São Paulo,Casado,2,2018-05-10,,79.99,Telefonia Móvel,4.5,2.3 GB,2,O serviço de internet tem sido instável. Estou...
1,2,Maria Santos,28,Feminino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-03-15,,109.99,Internet,,-,0,Estou satisfeita com o serviço. A velocidade d...
2,3,Carlos Oliveira,42,Masculino,Belo Horizonte/MG/Minas Gerais,Casado,1,2020-01-20,2021-06-30,139.99,Internet,,-,1,Tive problemas com a fatura deste mês. O valor...
3,4,Ana Pereira,55,Feminino,Porto Alegre/RS/Rio Grande do Sul,Viúvo,0,2017-09-01,,159.99,Telefonia Fixa,6.2,,-,Sem reclamações até o momento. O serviço tem a...
4,5,Paulo Rodrigues,41,Masculino,Brasília/DF,Divorciado,3,2019-11-12,2022-01-05,99.99,TV a Cabo,,-,0,O canal de esportes não está funcionando corre...
5,1001,Renata Costa,32,Feminino,São Paulo/SP/São Paulo,Casado,1,2020-07-10,,89.99,Telefonia Móvel,3.2,1.8 GB,0,O sinal de internet no meu bairro é muito frac...
6,1002,André Oliveira,45,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-11-15,,119.99,Internet,,-,0,Estou bastante satisfeito com o serviço de int...
7,1003,Luiza Rodrigues,39,Feminino,Belo Horizonte/MG/Minas Gerais,Casado,2,2018-02-20,2022-09-30,149.99,TV a Cabo,,-,0,Os canais HD têm apresentado problemas de qual...
8,1004,Marcos Santos,28,Masculino,São Paulo/SP/São Paulo,Solteiro,0,2022-01-01,,109.99,Internet,,-,0,O serviço de internet é ótimo. A velocidade at...
9,1005,Amanda Lima,37,Feminino,Porto Alegre/RS/Rio Grande do Sul,Casado,2,2017-12-01,,179.99,Telefonia Fixa,7.5,,-,Estou satisfeita com o serviço de telefonia fi...


In [5]:
dados.tail(10)

Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Volume de Dados,Número de Reclamações,Comentários
92,1093,Marcelo Fernandes,29,Masculino,Belo Horizonte/MG/Minas Gerais,Solteiro,0,2022-09-01,,99.99,Telefonia Fixa,2.3,Extremamente Negativo,O serviço de telefonia fixa dessa empresa é um...,
93,1094,Isabela Santos,31,Feminino,Porto Alegre/RS/Rio Grande do Sul,Solteiro,0,2023-01-15,,89.99,Telefonia Móvel,1.2,Extremamente Negativo,A telefonia móvel dessa empresa é um verdadeir...,
94,1095,Marcos Lima,37,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Casado,2,2020-05-01,,149.99,Internet,2.8,Extremamente Negativo,Estou extremamente insatisfeito com a empresa ...,
95,1096,Juliana Fernandes,28,Feminino,São Paulo/SP/São Paulo,Casado,1,2018-12-10,,109.99,TV a Cabo,1.5,Extremamente Negativo,O serviço de TV a cabo dessa empresa é uma pia...,
96,1097,Fernando Oliveira,34,Masculino,Belo Horizonte/MG/Minas Gerais,Solteiro,0,2022-09-01,,99.99,Telefonia Fixa,2.4,Extremamente Negativo,O serviço de telefonia fixa dessa empresa é um...,
97,1098,Patrícia Lima,26,Feminino,Porto Alegre/RS/Rio Grande do Sul,Solteiro,0,2023-01-15,,89.99,Telefonia Móvel,1.1,Extremamente Negativo,Estou extremamente desapontada com o serviço d...,
98,1099,André Silva,39,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Casado,2,2020-05-01,,149.99,Internet,2.9,Extremamente Negativo,A internet dessa empresa é um verdadeiro pesad...,
99,1100,Amanda Almeida,27,Feminino,São Paulo/SP/São Paulo,Casado,1,2018-12-10,,109.99,TV a Cabo,1.2,Extremamente Negativo,O serviço de TV a cabo dessa empresa é uma dec...,
100,1101,Rodrigo Santos,33,Masculino,Belo Horizonte/MG/Minas Gerais,Solteiro,0,2022-09-01,,99.99,Telefonia Fixa,2.2,Extremamente Negativo,A telefonia fixa dessa empresa é uma vergonha....,
101,1102,Carolina Fernandes,29,Feminino,Porto Alegre/RS/Rio Grande do Sul,Solteiro,0,2023-01-15,,89.99,Telefonia Móvel,1.3,Extremamente Negativo,A telefonia móvel dessa empresa é um completo ...,


In [6]:
# visualizando info sobre os dados

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 15 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   ID                           102 non-null    int64  
 1   Nome                         102 non-null    object 
 2   Idade                        102 non-null    int64  
 3   Gênero                       102 non-null    object 
 4   Localização                  102 non-null    object 
 5   Estado Civil                 102 non-null    object 
 6   Número de Dependentes        102 non-null    int64  
 7   Data de Início do Contrato   102 non-null    object 
 8   Data de Término do Contrato  4 non-null      object 
 9   Valor Mensal do Contrato     102 non-null    float64
 10  Tipo de Serviço              102 non-null    object 
 11  Duração Média das Chamadas   62 non-null     float64
 12  Volume de Dados              87 non-null     object 
 13  Número de Reclamaçõe

In [7]:
# visualizando valores únicos de IDs

pd.DataFrame(dados.groupby('ID').size()).sort_values(0, ascending=False)

Unnamed: 0_level_0,0
ID,Unnamed: 1_level_1
1068,2
1,1
1063,1
1074,1
1073,1
...,...
1027,1
1026,1
1025,1
1024,1


In [8]:
# visualizando único ID de cliente duplicado

dados.query("ID == 1068")

Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Volume de Dados,Número de Reclamações,Comentários
69,1068,Gabriela Almeida,32,Feminino,Rio de Janeiro/RJ/Rio de Janeiro,Casado,1,2021-03-20,,129.99,Telefonia Fixa,4.2,Extremamente Negativo,Estou profundamente insatisfeita com o serviço...,
70,1068,Julio Santos,28,Masculino,São Paulo/SP/São Paulo,Solteiro,0,2022-09-01,,99.99,Internet,3.9,Extremamente Negativo,A internet fornecida é simplesmente terrível. ...,


Por se tratarem de duas pessoas completamente diferentes (e não possuir um dicionário de dados para explicar se o ID é de fato o ID único de um cliente e se ele pode ter mais de um dependente), irei assumir que o input do ID está incorreto e usar o index como ID do cliente.

In [9]:
# Criando a coluna de última data de contrato ativo
# Para aqueles que possuem a Data de término de contrato, sera essa data, para os que tiverem valores vazios será a data atual

dados['Última data de contrato ativo'] = dados['Data de Término do Contrato'].fillna(dt.today())

In [10]:
# Criando a coluna para saber quais clientes já cancelaram e calculando o tempo ativo de contrato em dias
# Os clientes que já cancelaram são aqueles que possuem data de término do contrato preenchidas

dados['Houve término de contrato'] = dados['Data de Término do Contrato'].notnull()

dados['Data de Início do Contrato'] = pd.to_datetime(dados['Data de Início do Contrato'])
dados['Data de Término do Contrato'] = pd.to_datetime(dados['Data de Término do Contrato'])
dados['Última data de contrato ativo'] = pd.to_datetime(dados['Última data de contrato ativo'])

dados['Tempo ativo de contrato - dias'] = (dados['Última data de contrato ativo'] - dados['Data de Início do Contrato'])

In [11]:
dados.head(10)

Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Volume de Dados,Número de Reclamações,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias
0,1,João Silva,35,Masculino,São Paulo/SP/São Paulo,Casado,2,2018-05-10,NaT,79.99,Telefonia Móvel,4.5,2.3 GB,2,O serviço de internet tem sido instável. Estou...,2023-07-10,False,1887 days
1,2,Maria Santos,28,Feminino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-03-15,NaT,109.99,Internet,,-,0,Estou satisfeita com o serviço. A velocidade d...,2023-07-10,False,1578 days
2,3,Carlos Oliveira,42,Masculino,Belo Horizonte/MG/Minas Gerais,Casado,1,2020-01-20,2021-06-30,139.99,Internet,,-,1,Tive problemas com a fatura deste mês. O valor...,2021-06-30,True,527 days
3,4,Ana Pereira,55,Feminino,Porto Alegre/RS/Rio Grande do Sul,Viúvo,0,2017-09-01,NaT,159.99,Telefonia Fixa,6.2,,-,Sem reclamações até o momento. O serviço tem a...,2023-07-10,False,2138 days
4,5,Paulo Rodrigues,41,Masculino,Brasília/DF,Divorciado,3,2019-11-12,2022-01-05,99.99,TV a Cabo,,-,0,O canal de esportes não está funcionando corre...,2022-01-05,True,785 days
5,1001,Renata Costa,32,Feminino,São Paulo/SP/São Paulo,Casado,1,2020-07-10,NaT,89.99,Telefonia Móvel,3.2,1.8 GB,0,O sinal de internet no meu bairro é muito frac...,2023-07-10,False,1095 days
6,1002,André Oliveira,45,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-11-15,NaT,119.99,Internet,,-,0,Estou bastante satisfeito com o serviço de int...,2023-07-10,False,1333 days
7,1003,Luiza Rodrigues,39,Feminino,Belo Horizonte/MG/Minas Gerais,Casado,2,2018-02-20,2022-09-30,149.99,TV a Cabo,,-,0,Os canais HD têm apresentado problemas de qual...,2022-09-30,True,1683 days
8,1004,Marcos Santos,28,Masculino,São Paulo/SP/São Paulo,Solteiro,0,2022-01-01,NaT,109.99,Internet,,-,0,O serviço de internet é ótimo. A velocidade at...,2023-07-10,False,555 days
9,1005,Amanda Lima,37,Feminino,Porto Alegre/RS/Rio Grande do Sul,Casado,2,2017-12-01,NaT,179.99,Telefonia Fixa,7.5,,-,Estou satisfeita com o serviço de telefonia fi...,2023-07-10,False,2047 days


In [12]:
# Visualizando valores únicos das colunas textuais para verificar padronização de preenchimento

def visualiza_valores_unicos(coluna):
    print(f"Lista de {coluna}:", dados[coluna].unique())

lista_colunas = ['Gênero', 'Estado Civil', 'Tipo de Serviço', 'Localização']

for colunas in lista_colunas:
    visualiza_valores_unicos(colunas)

Lista de Gênero: ['Masculino' 'Feminino']
Lista de Estado Civil: ['Casado' 'Solteiro' 'Viúvo' 'Divorciado']
Lista de Tipo de Serviço: ['Telefonia Móvel' 'Internet' 'Telefonia Fixa' 'TV a Cabo']
Lista de Localização: ['São Paulo/SP/São Paulo' 'Rio de Janeiro/RJ/Rio de Janeiro'
 'Belo Horizonte/MG/Minas Gerais' 'Porto Alegre/RS/Rio Grande do Sul'
 'Brasília/DF' 'Rio de Janeiro/RJ/Rio Grande do Sul']


Para gênero, estado civil e tipo de serviço os dados forma coletados com padrão de preenchimento sem necessidade de tratamento.

 Já para localização, temos um padrão definido como 'Cidade/Estado(sigla)/Nome do estado'. Porém para registros de Brasília/DF, não temos preenchido 'Distrito Federal'.

 Um registro de localização aparenta estar incorreto, pois temos a sigla do Estado RJ e o nome Rio Grande do Sul, isso será corrigido.

In [13]:
# Corrigindo a variaçãoes incorretas da localização

dados['Localização'] = dados['Localização'].replace('Rio de Janeiro/RJ/Rio Grande do Sul', 'Rio de Janeiro/RJ/Rio de Janeiro')
dados['Localização'] = dados['Localização'].replace('Brasília/DF', 'Brasília/DF/Distrito Federal')

dados['Localização'].unique()

array(['São Paulo/SP/São Paulo', 'Rio de Janeiro/RJ/Rio de Janeiro',
       'Belo Horizonte/MG/Minas Gerais',
       'Porto Alegre/RS/Rio Grande do Sul',
       'Brasília/DF/Distrito Federal'], dtype=object)

In [14]:
# Criando as variáveis Cidade, UF e Estado

lista_cidades = []
lista_uf = []
lista_estados = []


for i in range(0, dados.shape[0]):
    lista_cidades.append(dados['Localização'].str.split('/', n=3)[i][0])
    lista_uf.append(dados['Localização'].str.split('/', n=3)[i][1])
    lista_estados.append(dados['Localização'].str.split('/', n=3)[i][2])

dados['Cidade'] = lista_cidades
dados['UF'] = lista_uf
dados['Estado'] = lista_estados

dados.head(10)

Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,...,Duração Média das Chamadas,Volume de Dados,Número de Reclamações,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado
0,1,João Silva,35,Masculino,São Paulo/SP/São Paulo,Casado,2,2018-05-10,NaT,79.99,...,4.5,2.3 GB,2,O serviço de internet tem sido instável. Estou...,2023-07-10,False,1887 days,São Paulo,SP,São Paulo
1,2,Maria Santos,28,Feminino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-03-15,NaT,109.99,...,,-,0,Estou satisfeita com o serviço. A velocidade d...,2023-07-10,False,1578 days,Rio de Janeiro,RJ,Rio de Janeiro
2,3,Carlos Oliveira,42,Masculino,Belo Horizonte/MG/Minas Gerais,Casado,1,2020-01-20,2021-06-30,139.99,...,,-,1,Tive problemas com a fatura deste mês. O valor...,2021-06-30,True,527 days,Belo Horizonte,MG,Minas Gerais
3,4,Ana Pereira,55,Feminino,Porto Alegre/RS/Rio Grande do Sul,Viúvo,0,2017-09-01,NaT,159.99,...,6.2,,-,Sem reclamações até o momento. O serviço tem a...,2023-07-10,False,2138 days,Porto Alegre,RS,Rio Grande do Sul
4,5,Paulo Rodrigues,41,Masculino,Brasília/DF/Distrito Federal,Divorciado,3,2019-11-12,2022-01-05,99.99,...,,-,0,O canal de esportes não está funcionando corre...,2022-01-05,True,785 days,Brasília,DF,Distrito Federal
5,1001,Renata Costa,32,Feminino,São Paulo/SP/São Paulo,Casado,1,2020-07-10,NaT,89.99,...,3.2,1.8 GB,0,O sinal de internet no meu bairro é muito frac...,2023-07-10,False,1095 days,São Paulo,SP,São Paulo
6,1002,André Oliveira,45,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Solteiro,0,2019-11-15,NaT,119.99,...,,-,0,Estou bastante satisfeito com o serviço de int...,2023-07-10,False,1333 days,Rio de Janeiro,RJ,Rio de Janeiro
7,1003,Luiza Rodrigues,39,Feminino,Belo Horizonte/MG/Minas Gerais,Casado,2,2018-02-20,2022-09-30,149.99,...,,-,0,Os canais HD têm apresentado problemas de qual...,2022-09-30,True,1683 days,Belo Horizonte,MG,Minas Gerais
8,1004,Marcos Santos,28,Masculino,São Paulo/SP/São Paulo,Solteiro,0,2022-01-01,NaT,109.99,...,,-,0,O serviço de internet é ótimo. A velocidade at...,2023-07-10,False,555 days,São Paulo,SP,São Paulo
9,1005,Amanda Lima,37,Feminino,Porto Alegre/RS/Rio Grande do Sul,Casado,2,2017-12-01,NaT,179.99,...,7.5,,-,Estou satisfeita com o serviço de telefonia fi...,2023-07-10,False,2047 days,Porto Alegre,RS,Rio Grande do Sul


# Resolvendo o problema de dados das colunas "Volume de Dados" e "Número de Reclamações", onde ambas se apresentam como String mas deveriam ser do tipo numérica.

In [15]:
dados[['Volume de Dados', 'Número de Reclamações', 'Comentários']][69:]

Unnamed: 0,Volume de Dados,Número de Reclamações,Comentários
69,Extremamente Negativo,Estou profundamente insatisfeita com o serviço...,
70,Extremamente Negativo,A internet fornecida é simplesmente terrível. ...,
71,Extremamente Negativo,Não consigo expressar o quão decepcionada esto...,
72,Extremamente Negativo,O serviço de telefonia móvel é absolutamente h...,
73,Extremamente Negativo,Essa empresa de internet é um verdadeiro pesad...,
74,Extremamente Negativo,O serviço de telefonia fixa dessa empresa é um...,
75,Extremamente Negativo,A telefonia móvel dessa empresa é uma piada de...,
76,Extremamente Negativo,Essa empresa de internet é simplesmente horrív...,
77,Extremamente Negativo,Estou completamente desapontada com o serviço ...,
78,Extremamente Negativo,O serviço de telefonia fixa dessa empresa é um...,


A partir do índice 69, a coluna "Volume de dados" deixa de preencher a quantidade total de Dados do plano do cliente, para colocar uma classificação do comentário do cliente sobre o serviço. 

 Por consequência, a coluna "Número de reclamações" foi preenchida por aquilo que deveria ser o comentário e a coluna "Comentário" permaneceu vazia.

In [16]:
# Corrigindo as colunas

dados['Comentários'][69:] = dados['Número de Reclamações'][69:]
dados['Número de Reclamações - Split'] = dados['Número de Reclamações'][:69]

dados['Classificação Comentário'] = dados['Volume de Dados'][69:]
dados['Volume de Dados - Split'] = dados['Volume de Dados'][:69]

dados.tail()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['Comentários'][69:] = dados['Número de Reclamações'][69:]


Unnamed: 0,ID,Nome,Idade,Gênero,Localização,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,...,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado,Número de Reclamações - Split,Classificação Comentário,Volume de Dados - Split
97,1098,Patrícia Lima,26,Feminino,Porto Alegre/RS/Rio Grande do Sul,Solteiro,0,2023-01-15,NaT,89.99,...,Estou extremamente desapontada com o serviço d...,2023-07-10,False,176 days,Porto Alegre,RS,Rio Grande do Sul,,Extremamente Negativo,
98,1099,André Silva,39,Masculino,Rio de Janeiro/RJ/Rio de Janeiro,Casado,2,2020-05-01,NaT,149.99,...,A internet dessa empresa é um verdadeiro pesad...,2023-07-10,False,1165 days,Rio de Janeiro,RJ,Rio de Janeiro,,Extremamente Negativo,
99,1100,Amanda Almeida,27,Feminino,São Paulo/SP/São Paulo,Casado,1,2018-12-10,NaT,109.99,...,O serviço de TV a cabo dessa empresa é uma dec...,2023-07-10,False,1673 days,São Paulo,SP,São Paulo,,Extremamente Negativo,
100,1101,Rodrigo Santos,33,Masculino,Belo Horizonte/MG/Minas Gerais,Solteiro,0,2022-09-01,NaT,99.99,...,A telefonia fixa dessa empresa é uma vergonha....,2023-07-10,False,312 days,Belo Horizonte,MG,Minas Gerais,,Extremamente Negativo,
101,1102,Carolina Fernandes,29,Feminino,Porto Alegre/RS/Rio Grande do Sul,Solteiro,0,2023-01-15,NaT,89.99,...,A telefonia móvel dessa empresa é um completo ...,2023-07-10,False,176 days,Porto Alegre,RS,Rio Grande do Sul,,Extremamente Negativo,


# Resolvendo problema do tipo de dado das colunas "Número de Reclamações - Split" e "Volume de Dados - Split", para ambas possam se tornar numéricas e não string.

In [17]:
# Retira os dados preenchidos com '-' e coloca uma linha vazia
dados['Num Reclamações'] = dados['Número de Reclamações - Split'].replace("-", np.nan).astype('float')

# Retira os dados preenchidos com '-' e coloca uma linha vazia, depois retira o valor GB deixando apenas o valor numérico
dados['Volume de Dados - Split'] = dados['Volume de Dados - Split'].replace("-", np.nan)
dados['Volume de Dados - GB'] = dados['Volume de Dados - Split'].str.removesuffix(' GB').astype('float')

Mantendo apenas as colunas que foram trtadas

In [18]:
# Verificando as colunas totais
dados.columns

Index(['ID', 'Nome', 'Idade', 'Gênero', 'Localização', 'Estado Civil',
       'Número de Dependentes', 'Data de Início do Contrato',
       'Data de Término do Contrato', 'Valor Mensal do Contrato',
       'Tipo de Serviço', 'Duração Média das Chamadas', 'Volume de Dados',
       'Número de Reclamações', 'Comentários', 'Última data de contrato ativo',
       'Houve término de contrato', 'Tempo ativo de contrato - dias', 'Cidade',
       'UF', 'Estado', 'Número de Reclamações - Split',
       'Classificação Comentário', 'Volume de Dados - Split',
       'Num Reclamações', 'Volume de Dados - GB'],
      dtype='object')

In [19]:
# Filtrando apenas as de interesse
dados_tratados = dados.drop(columns=['ID', 'Localização', 'Volume de Dados', 'Número de Reclamações', 'Número de Reclamações - Split', 'Volume de Dados - Split'])
dados_tratados.head()

Unnamed: 0,Nome,Idade,Gênero,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado,Classificação Comentário,Num Reclamações,Volume de Dados - GB
0,João Silva,35,Masculino,Casado,2,2018-05-10,NaT,79.99,Telefonia Móvel,4.5,O serviço de internet tem sido instável. Estou...,2023-07-10,False,1887 days,São Paulo,SP,São Paulo,,2.0,2.3
1,Maria Santos,28,Feminino,Solteiro,0,2019-03-15,NaT,109.99,Internet,,Estou satisfeita com o serviço. A velocidade d...,2023-07-10,False,1578 days,Rio de Janeiro,RJ,Rio de Janeiro,,0.0,
2,Carlos Oliveira,42,Masculino,Casado,1,2020-01-20,2021-06-30,139.99,Internet,,Tive problemas com a fatura deste mês. O valor...,2021-06-30,True,527 days,Belo Horizonte,MG,Minas Gerais,,1.0,
3,Ana Pereira,55,Feminino,Viúvo,0,2017-09-01,NaT,159.99,Telefonia Fixa,6.2,Sem reclamações até o momento. O serviço tem a...,2023-07-10,False,2138 days,Porto Alegre,RS,Rio Grande do Sul,,,
4,Paulo Rodrigues,41,Masculino,Divorciado,3,2019-11-12,2022-01-05,99.99,TV a Cabo,,O canal de esportes não está funcionando corre...,2022-01-05,True,785 days,Brasília,DF,Distrito Federal,,0.0,


In [20]:
dados_tratados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype          
---  ------                          --------------  -----          
 0   Nome                            102 non-null    object         
 1   Idade                           102 non-null    int64          
 2   Gênero                          102 non-null    object         
 3   Estado Civil                    102 non-null    object         
 4   Número de Dependentes           102 non-null    int64          
 5   Data de Início do Contrato      102 non-null    datetime64[ns] 
 6   Data de Término do Contrato     4 non-null      datetime64[ns] 
 7   Valor Mensal do Contrato        102 non-null    float64        
 8   Tipo de Serviço                 102 non-null    object         
 9   Duração Média das Chamadas      62 non-null     float64        
 10  Comentários                     102 non-null    object        

# Lidando com os dados faltantes e nulos

In [21]:
dados_tratados.isnull().sum()

Nome                               0
Idade                              0
Gênero                             0
Estado Civil                       0
Número de Dependentes              0
Data de Início do Contrato         0
Data de Término do Contrato       98
Valor Mensal do Contrato           0
Tipo de Serviço                    0
Duração Média das Chamadas        40
Comentários                        0
Última data de contrato ativo      0
Houve término de contrato          0
Tempo ativo de contrato - dias     0
Cidade                             0
UF                                 0
Estado                             0
Classificação Comentário          69
Num Reclamações                   48
Volume de Dados - GB              88
dtype: int64

- **Data de Término do Contrato:** Já foi resolvido quando criado a coluna "Última data de contrato ativo"
- **Duração Média das Chamadas:** Os valore serão substituídos pela mediana da distribuição, uma vez que ja é uma coluna que traz o valor médio das chamads
- **Classificação Comentário:** Será utilizado uma API de um modelo de LLM (gpt3) para avaliar os comentários e preencher a classificação entre Positivo, Neutro e Negativo.
- **Num Reclamações:** Será considerado que nenhuma reclamação foi feita para os valores vazios e que não apresentam a coluna "Classificação Comentário" preenchida. Se ela estiver preenchida, sera considerado que pelo menos uma reclamação foi efetuada.
- **Volume de Dados - GB:** Como cerca de 87% dos dados estão vazios, a coluna não será considerada nas análises seguintes, afinal de contas apresenta pouca massa bruta para tomar uma decisão.

In [22]:
# Lidando com a duração média das chamadas
dados_tratados['Duração Média das Chamadas'] = dados_tratados['Duração Média das Chamadas'].fillna(dados_tratados['Duração Média das Chamadas'].median())

# Lidando com a coluna de número de reclamações
dados_tratados.loc[dados_tratados['Classificação Comentário'].notnull() & dados_tratados['Num Reclamações'].isnull(), 'Num Reclamações'] = 1
dados_tratados['Num Reclamações'] = dados_tratados['Num Reclamações'].fillna(0)

# Lidando com o Volume de dados
dados_tratados = dados_tratados.drop(columns=['Volume de Dados - GB'])

# Fazendo a integração com a API da OpenAI e utilizando o gpt3

In [23]:
# Lendo a chave de uso da API e o prompt a ser utlizado

api_key_gpt = dotenv.get_key(env, 'API_KEY_GPT')
prompt = open(os.path.join(dataFolder, 'prompt_gpt.txt'), mode='r', encoding='utf-8').read()

In [24]:
headers = {"Authorization": f"Bearer {api_key_gpt}", "Content-Type":"application/json"}
link = "https://api.openai.com/v1/chat/completions"
id_model = "gpt-3.5-turbo"

In [25]:
lista_avaliacoes_gpt = []

In [26]:
# Percorrendo para cada Comentário da base de dados original, gerando uma avaliação via GPT3

for i in range(0, dados_tratados.shape[0]):
    mensagem_prompt = prompt + '"' + str(dados_tratados['Comentários'][i]) + '"'

    body_message = json.dumps(
        {
            "model": id_model,
            "messages": [{"role": "user", "content": mensagem_prompt}]
        }
    )

    request_gpt = rt.post(link, headers=headers, data=body_message)
    avaliacao = json.loads(request_gpt.content)['choices'][0]['message']['content']

    lista_avaliacoes_gpt.append(avaliacao)
    print(avaliacao)

Negativa
Extremamente Positiva
Negativa
Extremamente Positiva
Negativa
Negativa
Positiva
Negativa
Positiva
Positiva
Negativa
Negativa
Negativa
Negativa.
Extremamente Positiva
Positiva
Extremamente Positiva
Positiva
Negativa
Positiva
Positiva
Extremamente Positiva
Extremamente Positiva
Positiva
Extremamente Positiva
Negativa
Positiva
Extremamente Positiva.
Negativa
Neutra
Extremamente Positiva
Positiva
Extremamente Positiva
Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Negativa
Extremamente Positiva
Extremamente Positiva
Negativa
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva.
Extremamente Positiva
Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Positiva
Positiva
Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva
Extremamente Positiva.
Extremamente Positiva
Po

In [40]:
# Salvando a lista das avaliações geradas em CSV

df_avaliacoes_gpt = pd.DataFrame({"Avaliações GPT": lista_avaliacoes_gpt})
df_avaliacoes_gpt.to_csv(os.path.join(dataFolder, 'avaliacoes_gpt.csv'), sep=';')

In [35]:
# Avaliando se o chat GPT também avaliou como negativa as últimas 69 linhas que originalmente também eram Negativas
df_avaliacoes_gpt[69:]

Unnamed: 0,Avaliações GPT
69,Negativa
70,Negativa.
71,Negativa
72,Negativa
73,Negativa.
74,Extremamente Negativa
75,Negativa
76,Extremamente Negativa
77,Negativa
78,Negativa


Como podemos ver, o rótulo permaceneceu Negativo, porém anteriormente estava como "Extremamente Negativa". Por isso, para manter o padrão de classificação único, vou optar por reduzir em 3 classificações de avaliação: Negativa, Neutra, Positiva.

In [28]:
dados_tratados['Avaliações - GPT'] = lista_avaliacoes_gpt
dados_tratados.head()

Unnamed: 0,Nome,Idade,Gênero,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado,Classificação Comentário,Num Reclamações,Avaliações - GPT
0,João Silva,35,Masculino,Casado,2,2018-05-10,NaT,79.99,Telefonia Móvel,4.5,O serviço de internet tem sido instável. Estou...,2023-07-10,False,1887 days,São Paulo,SP,São Paulo,,2.0,Negativa
1,Maria Santos,28,Feminino,Solteiro,0,2019-03-15,NaT,109.99,Internet,3.8,Estou satisfeita com o serviço. A velocidade d...,2023-07-10,False,1578 days,Rio de Janeiro,RJ,Rio de Janeiro,,0.0,Extremamente Positiva
2,Carlos Oliveira,42,Masculino,Casado,1,2020-01-20,2021-06-30,139.99,Internet,3.8,Tive problemas com a fatura deste mês. O valor...,2021-06-30,True,527 days,Belo Horizonte,MG,Minas Gerais,,1.0,Negativa
3,Ana Pereira,55,Feminino,Viúvo,0,2017-09-01,NaT,159.99,Telefonia Fixa,6.2,Sem reclamações até o momento. O serviço tem a...,2023-07-10,False,2138 days,Porto Alegre,RS,Rio Grande do Sul,,0.0,Extremamente Positiva
4,Paulo Rodrigues,41,Masculino,Divorciado,3,2019-11-12,2022-01-05,99.99,TV a Cabo,3.8,O canal de esportes não está funcionando corre...,2022-01-05,True,785 days,Brasília,DF,Distrito Federal,,0.0,Negativa


In [29]:
# Limpando as avaliações feitas pelo Chat GPT (mantendo o mesmo padrão) e removendo a coluna de avaliações original

dados_tratados['Avaliações - GPT'].unique()

array(['Negativa', 'Extremamente Positiva', 'Positiva', 'Negativa.',
       'Extremamente Positiva.', 'Neutra', 'Extremamente Negativa',
       'Extremamente Negativa.', 'Classificação: Extremamente Negativa'],
      dtype=object)

In [30]:
padrao_avaliacoes_comentarios = {
    'Classificação: Extremamente Negativa': 'Negativa',
    'Extremamente Negativa.': 'Negativa',
    'Extremamente Negativa': 'Negativa',
    'Negativa.': 'Negativa',
    'Extremamente Positiva.': 'Positiva',
    'Extremamente Positiva': 'Positiva'
}

dados_tratados['Avaliações - GPT'] = dados_tratados['Avaliações - GPT'].replace(padrao_avaliacoes_comentarios)
dados_tratados = dados_tratados.drop(columns=['Classificação Comentário'])

# Tabela de dados final que foi salva em csv

In [32]:
dados_tratados.to_csv(os.path.join(dataFolder, 'dados_tratados.csv'), sep=';', index=False)

In [33]:
dados_tratados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 19 columns):
 #   Column                          Non-Null Count  Dtype          
---  ------                          --------------  -----          
 0   Nome                            102 non-null    object         
 1   Idade                           102 non-null    int64          
 2   Gênero                          102 non-null    object         
 3   Estado Civil                    102 non-null    object         
 4   Número de Dependentes           102 non-null    int64          
 5   Data de Início do Contrato      102 non-null    datetime64[ns] 
 6   Data de Término do Contrato     4 non-null      datetime64[ns] 
 7   Valor Mensal do Contrato        102 non-null    float64        
 8   Tipo de Serviço                 102 non-null    object         
 9   Duração Média das Chamadas      102 non-null    float64        
 10  Comentários                     102 non-null    object        

In [34]:
dados_tratados.head()

Unnamed: 0,Nome,Idade,Gênero,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado,Num Reclamações,Avaliações - GPT
0,João Silva,35,Masculino,Casado,2,2018-05-10,NaT,79.99,Telefonia Móvel,4.5,O serviço de internet tem sido instável. Estou...,2023-07-10,False,1887 days,São Paulo,SP,São Paulo,2.0,Negativa
1,Maria Santos,28,Feminino,Solteiro,0,2019-03-15,NaT,109.99,Internet,3.8,Estou satisfeita com o serviço. A velocidade d...,2023-07-10,False,1578 days,Rio de Janeiro,RJ,Rio de Janeiro,0.0,Positiva
2,Carlos Oliveira,42,Masculino,Casado,1,2020-01-20,2021-06-30,139.99,Internet,3.8,Tive problemas com a fatura deste mês. O valor...,2021-06-30,True,527 days,Belo Horizonte,MG,Minas Gerais,1.0,Negativa
3,Ana Pereira,55,Feminino,Viúvo,0,2017-09-01,NaT,159.99,Telefonia Fixa,6.2,Sem reclamações até o momento. O serviço tem a...,2023-07-10,False,2138 days,Porto Alegre,RS,Rio Grande do Sul,0.0,Positiva
4,Paulo Rodrigues,41,Masculino,Divorciado,3,2019-11-12,2022-01-05,99.99,TV a Cabo,3.8,O canal de esportes não está funcionando corre...,2022-01-05,True,785 days,Brasília,DF,Distrito Federal,0.0,Negativa


In [35]:
dados_tratados.tail()

Unnamed: 0,Nome,Idade,Gênero,Estado Civil,Número de Dependentes,Data de Início do Contrato,Data de Término do Contrato,Valor Mensal do Contrato,Tipo de Serviço,Duração Média das Chamadas,Comentários,Última data de contrato ativo,Houve término de contrato,Tempo ativo de contrato - dias,Cidade,UF,Estado,Num Reclamações,Avaliações - GPT
97,Patrícia Lima,26,Feminino,Solteiro,0,2023-01-15,NaT,89.99,Telefonia Móvel,1.1,Estou extremamente desapontada com o serviço d...,2023-07-10,False,176 days,Porto Alegre,RS,Rio Grande do Sul,1.0,Negativa
98,André Silva,39,Masculino,Casado,2,2020-05-01,NaT,149.99,Internet,2.9,A internet dessa empresa é um verdadeiro pesad...,2023-07-10,False,1165 days,Rio de Janeiro,RJ,Rio de Janeiro,1.0,Negativa
99,Amanda Almeida,27,Feminino,Casado,1,2018-12-10,NaT,109.99,TV a Cabo,1.2,O serviço de TV a cabo dessa empresa é uma dec...,2023-07-10,False,1673 days,São Paulo,SP,São Paulo,1.0,Negativa
100,Rodrigo Santos,33,Masculino,Solteiro,0,2022-09-01,NaT,99.99,Telefonia Fixa,2.2,A telefonia fixa dessa empresa é uma vergonha....,2023-07-10,False,312 days,Belo Horizonte,MG,Minas Gerais,1.0,Negativa
101,Carolina Fernandes,29,Feminino,Solteiro,0,2023-01-15,NaT,89.99,Telefonia Móvel,1.3,A telefonia móvel dessa empresa é um completo ...,2023-07-10,False,176 days,Porto Alegre,RS,Rio Grande do Sul,1.0,Negativa
