<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/preditiva_assinatura.jpg">

# Preparação dos Dados (Data Prep)

## Estudo de Caso: Qualidade na Central de Atendimento

Uma empresa de Contact Center fez uma pesquisa no momento da contratação de um grupo de colaboradores (agentes de atendimento) através do <a href="https://pt.surveymonkey.com/">Survey Monkey</a>. Após 6 meses da contratação verificou se quais colaboradores atingiram um bom desempenho de Qualidade e dos indicadores operacionais e estes agentes foram identificados com o valor 1 na coluna "Target".

Antes de criar um modelo que possa ser utilizado para entender os fatores mais associados a uma boa performance futura, o time de Atendimento ao Cliente precisa processar os dados brutos da ferramenta de pesquisa e realizar algumas análises exploratórias. Você como Cientista de Dados está encarregado desta tarefa de preparação dos dados brutos.

### Dados Brutos do Questionário

In [10]:
import pandas as pd

In [11]:
import pandas as pd

# Lê o arquivo CSV 'dados_contact_center_survey.csv' e o armazena no DataFrame 'df_bruto'
df_bruto = pd.read_csv('dados_contact_center_survey.csv', 
                       sep = ";",           # Define o delimitador como ponto e vírgula (;) em vez de vírgula (,)
                       low_memory=False,    # Desativa o carregamento parcial para reduzir o uso de memória
                       header=[0,1])        # Informa que as duas primeiras linhas (nível 0 e 1) contêm os cabeçalhos das colunas

# Exibe as primeiras 5 linhas do DataFrame 'df_bruto'
df_bruto.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Unnamed: 1_level_0,Você está trabalhando no Campus ou em Casa?,Unnamed: 3_level_0,Qual o tempo gasto no trajeto da sua residência até a empresa?,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Qual a sua escolaridade?,...,Pessoas fortes vêm de ambientes competitivos.,Unnamed: 309_level_0,Unnamed: 310_level_0,Unnamed: 311_level_0,Unnamed: 312_level_0,Gosto de ter um trabalho exigente.,Unnamed: 314_level_0,Unnamed: 315_level_0,Unnamed: 316_level_0,Unnamed: 317_level_0
Unnamed: 0_level_1,Id_Agente,Cliente,1 - Campus,1 - Casa,2 - Até 30min,2 - De 30min à 1h,2 - De 1h à 1h30,2 - De 1h30 à 2h,2 - Acima de 2h,3 - Ensino Médio completo,...,64 - 5 - Concordo totalmente,64 - 4 - Concordo,64 - 3 - Indiferente,64 - 2 - Discordo,64 - 1 - Discordo totalmente,65 - 5 - Concordo totalmente,65 - 4 - Concordo,65 - 3 - Indiferente,65 - 2 - Discordo,65 - 1 - Discordo totalmente
0,1,Cliente 1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2,Cliente 2,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,3,Cliente 2,0,1,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,1,0
3,4,Cliente 3,0,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,1,0,0
4,5,Cliente 4,0,1,0,0,0,0,0,1,...,0,0,1,0,0,0,0,1,0,0


In [12]:
df_bruto.shape

(7240, 318)

### Dados de Desempenho

In [13]:
df_desempenho = pd.read_csv('dados_contact_center_survey_desempenho.csv', 
                            sep = ";", 
                            low_memory=False)
df_desempenho.head()

Unnamed: 0,Id_Agente,Target
0,1,1
1,2,1
2,3,1
3,4,0
4,5,0


### Dados Esperados pelo time de Atendimento ao Cliente para a Análise Exploratória

In [14]:
df_proc = pd.read_csv('dados_contact_center_survey_processado.csv', 
                      sep = ";")

In [15]:
df_proc.head()

Unnamed: 0,Id_Agente,P 01: Você está trabalhando no Campus ou em Casa?,P 02: Qual o tempo gasto no trajeto da sua residência até a empresa?,P 03: Qual a sua escolaridade?,P 04: Qual a sua área de estudo?,P 05: Você possui dependentes?,P 06: Quantos dependentes você possui?,P 07: Qual seu conhecimento em inglês?,P 08: Qual seu conhecimento em espanhol?,"P 09: Antes de trabalhar na empresa, você tinha experiência em Contact Center?",...,P 58: Os melhores resultados vêm do trabalho em equipe.,P 59: Baseio meu trabalho em relações interpessoais.,P 60: Fico tenso quando estou trabalhando.,P 61: Providencio soluções para os meus problemas com rapidez.,P 62: Demonstro meu valor nas horas difíceis.,P 63: Falta de tempo não me assusta.,P 64: Pessoas fortes vêm de ambientes competitivos.,P 65: Gosto de ter um trabalho exigente.,Cliente,Target
0,1,1 - Casa,0 - Sem resposta,3 - Ensino Superior incompleto,4 - Humanas,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Intermediário,9 - Não,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,Cliente 1,1
1,2,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Não tenho conhecimento em inglês,8 - Não tenho conhecimento em espanhol,9 - Sim,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,Cliente 2,1
2,3,1 - Casa,0 - Sem resposta,3 - Ensino Superior cursando,4 - Gestão de Pessoas/Negócios,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Não tenho conhecimento em espanhol,9 - Sim,...,58 - 4 - Concordo,59 - 2 - Discordo,60 - 3 - Indiferente,61 - 3 - Indiferente,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 4 - Concordo,65 - 2 - Discordo,Cliente 2,1
3,4,1 - Casa,0 - Sem resposta,3 - Ensino Superior concluído,4 - Saúde,5 - Não,0 - Sem resposta,7 - Básico,8 - Não tenho conhecimento em espanhol,9 - Não,...,58 - 4 - Concordo,59 - 4 - Concordo,60 - 4 - Concordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 2 - Discordo,65 - 3 - Indiferente,Cliente 3,0
4,5,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Avançado,8 - Básico,9 - Não,...,58 - 4 - Concordo,59 - 4 - Concordo,60 - 3 - Indiferente,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 3 - Indiferente,65 - 3 - Indiferente,Cliente 4,0


## Correção dos nomes das variáveis
Perceba que o dataframe orginal tem um problema no cabeçalho: temos duas linhas para definir o nome das variáveis com cada resposta dos colaboradores. Para corrigir isso, realizaremos algumas etapas utilizando diferentes funções do Pandas e vários recursos do Python. Por isso, é importante que o Cientista de Dados conheça diversas ferramentas diferentes para poder escolher a mais adequada para se utilizar em cada tarefa.

In [16]:
df_bruto.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Unnamed: 1_level_0,Você está trabalhando no Campus ou em Casa?,Unnamed: 3_level_0,Qual o tempo gasto no trajeto da sua residência até a empresa?,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Qual a sua escolaridade?,...,Pessoas fortes vêm de ambientes competitivos.,Unnamed: 309_level_0,Unnamed: 310_level_0,Unnamed: 311_level_0,Unnamed: 312_level_0,Gosto de ter um trabalho exigente.,Unnamed: 314_level_0,Unnamed: 315_level_0,Unnamed: 316_level_0,Unnamed: 317_level_0
Unnamed: 0_level_1,Id_Agente,Cliente,1 - Campus,1 - Casa,2 - Até 30min,2 - De 30min à 1h,2 - De 1h à 1h30,2 - De 1h30 à 2h,2 - Acima de 2h,3 - Ensino Médio completo,...,64 - 5 - Concordo totalmente,64 - 4 - Concordo,64 - 3 - Indiferente,64 - 2 - Discordo,64 - 1 - Discordo totalmente,65 - 5 - Concordo totalmente,65 - 4 - Concordo,65 - 3 - Indiferente,65 - 2 - Discordo,65 - 1 - Discordo totalmente
0,1,Cliente 1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2,Cliente 2,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,3,Cliente 2,0,1,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,1,0
3,4,Cliente 3,0,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,1,0,0
4,5,Cliente 4,0,1,0,0,0,0,0,1,...,0,0,1,0,0,0,0,1,0,0


### Identificação do índice dos textos das questões.
Esse índice será utilizado nas etapas seguintes.

In [17]:
indices = [i for i, c in enumerate(df_bruto.columns) if not c[0].startswith('Unnamed')]
indices

[2,
 4,
 9,
 15,
 27,
 29,
 32,
 37,
 42,
 45,
 49,
 59,
 71,
 73,
 75,
 79,
 84,
 86,
 88,
 90,
 93,
 98,
 103,
 108,
 113,
 118,
 123,
 128,
 133,
 138,
 143,
 148,
 153,
 158,
 163,
 168,
 173,
 178,
 183,
 188,
 193,
 198,
 203,
 208,
 213,
 218,
 223,
 228,
 233,
 238,
 243,
 248,
 253,
 258,
 263,
 268,
 273,
 278,
 283,
 288,
 293,
 298,
 303,
 308,
 313]

### Obtenção do texto da questão.
Esse texto será utilizado para atribuir os nomes às variáveis.

In [18]:
questions = [c[0] for c in df_bruto.columns if not c[0].startswith('Unnamed')]
questions

['Você está trabalhando no Campus ou em Casa?',
 'Qual o tempo gasto no trajeto da sua residência até a empresa?',
 'Qual a sua escolaridade?',
 'Qual a sua área de estudo?',
 'Você possui dependentes?',
 'Quantos dependentes você possui?',
 'Qual seu conhecimento em inglês?',
 'Qual seu conhecimento em espanhol?',
 'Antes de trabalhar na empresa, você tinha experiência em Contact Center?',
 'Por quanto tempo você trabalhou em Contact Center?',
 'Qual área de atendimento você atua ou atuou por mais tempo?',
 'Em qual área você trabalhou?',
 'Você tem experiência anterior com vendas em outro segmento?',
 'Você possui disponibilidade pra trabalhar em casa?',
 'Você possui Desktop ou Notebook?',
 'Qual sistema operacional utiliza?',
 'Seu dispositivo possui Webcam?',
 'Você possui Headset USB?',
 'Você possui internet FIXA em casa?',
 'Qual a velocidade da sua internet?',
 'Pedir ajuda não é sinal de fraqueza.',
 'Não gosto de situações que requerem que eu me comporte de forma controlada.

### Definição das fatias do DataFrame.
Essas fatias serão utilizadas para selecionar os blocos de variáveis relacionados a cada questão.

In [19]:
slices = [slice(i, j) for i, j in zip(indices, indices[1:] + [None])]
slices

[slice(2, 4, None),
 slice(4, 9, None),
 slice(9, 15, None),
 slice(15, 27, None),
 slice(27, 29, None),
 slice(29, 32, None),
 slice(32, 37, None),
 slice(37, 42, None),
 slice(42, 45, None),
 slice(45, 49, None),
 slice(49, 59, None),
 slice(59, 71, None),
 slice(71, 73, None),
 slice(73, 75, None),
 slice(75, 79, None),
 slice(79, 84, None),
 slice(84, 86, None),
 slice(86, 88, None),
 slice(88, 90, None),
 slice(90, 93, None),
 slice(93, 98, None),
 slice(98, 103, None),
 slice(103, 108, None),
 slice(108, 113, None),
 slice(113, 118, None),
 slice(118, 123, None),
 slice(123, 128, None),
 slice(128, 133, None),
 slice(133, 138, None),
 slice(138, 143, None),
 slice(143, 148, None),
 slice(148, 153, None),
 slice(153, 158, None),
 slice(158, 163, None),
 slice(163, 168, None),
 slice(168, 173, None),
 slice(173, 178, None),
 slice(178, 183, None),
 slice(183, 188, None),
 slice(188, 193, None),
 slice(193, 198, None),
 slice(198, 203, None),
 slice(203, 208, None),
 slice(208, 213,

### Pipeline de Preparação dos Dados
Em cada bloco de variáveis serão realizados os seguintes processamentos:
1. Atribuição do índice para unificação das perguntas
2. Empilhamento das diversas respostas possíveis: **pd.melt()**
3. Seleção dos registros com respostas

Ao final, teremos em cada linha os colaboradores (respondentes) e em cada coluna as perguntas.

In [20]:
# Cria lista para armazenar cada fatia tratada do DataFrame
data = []

for i, q in enumerate(slices):

    # Obtém a variável Id_Agente para utilizar como índice
    d = pd.concat([df_bruto.iloc[:,0], df_bruto.iloc[:,slices[i]]], axis=1)
    
    # Empilha as diversas respostas possíveis em 1 variável
    d = d.melt(id_vars = 'Id_Agente', var_name=questions[i], col_level=1)
    
    # Seleciona apenas os registros que tiveram resposta
    d = d.loc[d['value'] == 1]
    
    # Define Id_Agente como índice
    d.index = d['Id_Agente']
    
    # Elimina as variáveis Id_Agente e value para evita repetições
    d.drop(['Id_Agente', 'value'], axis=1, inplace=True)
    
    # Adiciona a fatia na lista
    data.append(d)

In [21]:
data[35]

Unnamed: 0_level_0,O objetivo de cada esforço é a satisfação total do cliente.
Id_Agente,Unnamed: 1_level_1
6,36 - 5 - Concordo totalmente
8,36 - 5 - Concordo totalmente
13,36 - 5 - Concordo totalmente
16,36 - 5 - Concordo totalmente
18,36 - 5 - Concordo totalmente
...,...
4803,36 - 1 - Discordo totalmente
6108,36 - 1 - Discordo totalmente
6407,36 - 1 - Discordo totalmente
6428,36 - 1 - Discordo totalmente


### Preparação das variáveis extra questões

In [22]:
df_prim = df_bruto.iloc[:,0:2].copy()
df_prim.columns = df_prim.columns.droplevel(0)
df_prim.index = df_prim['Id_Agente']
df_prim

Unnamed: 0_level_0,Id_Agente,Cliente
Id_Agente,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,Cliente 1
2,2,Cliente 2
3,3,Cliente 2
4,4,Cliente 3
5,5,Cliente 4
...,...,...
7236,7236,Cliente 6
7237,7237,Cliente 6
7238,7238,Cliente 17
7239,7239,Cliente 6


### Unificação dos Dados

In [23]:
data.insert(0, df_prim)

In [24]:
data

[           Id_Agente     Cliente
 Id_Agente                       
 1                  1   Cliente 1
 2                  2   Cliente 2
 3                  3   Cliente 2
 4                  4   Cliente 3
 5                  5   Cliente 4
 ...              ...         ...
 7236            7236   Cliente 6
 7237            7237   Cliente 6
 7238            7238  Cliente 17
 7239            7239   Cliente 6
 7240            7240  Cliente 17
 
 [7240 rows x 2 columns],
           Você está trabalhando no Campus ou em Casa?
 Id_Agente                                            
 6                                          1 - Campus
 7                                          1 - Campus
 10                                         1 - Campus
 13                                         1 - Campus
 24                                         1 - Campus
 ...                                               ...
 7225                                         1 - Casa
 7229                              

In [26]:
df_corrigido = pd.concat(data, axis=1)
df_corrigido.fillna('0 - Sem resposta', inplace=True)
df_corrigido.reset_index(drop=True, inplace=True)
df_corrigido

Unnamed: 0,Id_Agente,Cliente,Você está trabalhando no Campus ou em Casa?,Qual o tempo gasto no trajeto da sua residência até a empresa?,Qual a sua escolaridade?,Qual a sua área de estudo?,Você possui dependentes?,Quantos dependentes você possui?,Qual seu conhecimento em inglês?,Qual seu conhecimento em espanhol?,...,A maioria das pessoas precisam de algum tipo de apoio.,É bom trabalhar com meus colegas de trabalho.,Os melhores resultados vêm do trabalho em equipe.,Baseio meu trabalho em relações interpessoais.,Fico tenso quando estou trabalhando.,Providencio soluções para os meus problemas com rapidez.,Demonstro meu valor nas horas difíceis.,Falta de tempo não me assusta.,Pessoas fortes vêm de ambientes competitivos.,Gosto de ter um trabalho exigente.
0,1,Cliente 1,1 - Casa,0 - Sem resposta,3 - Ensino Superior incompleto,4 - Humanas,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Intermediário,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta
1,2,Cliente 2,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Não tenho conhecimento em inglês,8 - Não tenho conhecimento em espanhol,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta
2,3,Cliente 2,1 - Casa,0 - Sem resposta,3 - Ensino Superior cursando,4 - Gestão de Pessoas/Negócios,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Não tenho conhecimento em espanhol,...,56 - 5 - Concordo totalmente,57 - 4 - Concordo,58 - 4 - Concordo,59 - 2 - Discordo,60 - 3 - Indiferente,61 - 3 - Indiferente,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 4 - Concordo,65 - 2 - Discordo
3,4,Cliente 3,1 - Casa,0 - Sem resposta,3 - Ensino Superior concluído,4 - Saúde,5 - Não,0 - Sem resposta,7 - Básico,8 - Não tenho conhecimento em espanhol,...,56 - 4 - Concordo,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 4 - Concordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 2 - Discordo,65 - 3 - Indiferente
4,5,Cliente 4,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Avançado,8 - Básico,...,56 - 4 - Concordo,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 3 - Indiferente,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 3 - Indiferente,65 - 3 - Indiferente
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7235,7236,Cliente 6,1 - Campus,2 - Até 30min,3 - Ensino Superior cursando,4 - Humanas,5 - Não,0 - Sem resposta,7 - Fluente,8 - Não tenho conhecimento em espanhol,...,56 - 5 - Concordo totalmente,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 1 - Discordo totalmente,61 - 5 - Concordo totalmente,62 - 5 - Concordo totalmente,63 - 2 - Discordo,64 - 2 - Discordo,65 - 4 - Concordo
7236,7237,Cliente 6,1 - Campus,2 - Até 30min,3 - Ensino Médio completo,0 - Sem resposta,5 - Sim,6 - 3 ou mais,7 - Não tenho conhecimento em inglês,8 - Não tenho conhecimento em espanhol,...,56 - 4 - Concordo,57 - 5 - Concordo totalmente,58 - 5 - Concordo totalmente,59 - 3 - Indiferente,60 - 2 - Discordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 4 - Concordo,65 - 4 - Concordo
7237,7238,Cliente 17,1 - Campus,2 - De 1h à 1h30,3 - Ensino Superior cursando,4 - Exatas,5 - Não,0 - Sem resposta,7 - Básico,8 - Básico,...,56 - 4 - Concordo,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 2 - Discordo,61 - 4 - Concordo,62 - 3 - Indiferente,63 - 2 - Discordo,64 - 4 - Concordo,65 - 3 - Indiferente
7238,7239,Cliente 6,1 - Campus,2 - De 1h à 1h30,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Não tenho conhecimento em espanhol,...,56 - 5 - Concordo totalmente,57 - 5 - Concordo totalmente,58 - 5 - Concordo totalmente,59 - 1 - Discordo totalmente,60 - 2 - Discordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 4 - Concordo,65 - 4 - Concordo


## Verificação de dados duplicados

In [27]:
df_corrigido.duplicated().sum()

0

In [28]:
df_corrigido = df_corrigido.drop_duplicates()
df_corrigido.shape

(7240, 67)

## Adição dos dados de desempenho
Utilizaremos o Pandas Merge para unificar a base de questões e a base de desempenho.

In [29]:
df_completa = pd.merge(left=df_corrigido, 
                       right=df_desempenho, 
                       how='left', 
                       left_on='Id_Agente', right_on='Id_Agente')
df_completa

Unnamed: 0,Id_Agente,Cliente,Você está trabalhando no Campus ou em Casa?,Qual o tempo gasto no trajeto da sua residência até a empresa?,Qual a sua escolaridade?,Qual a sua área de estudo?,Você possui dependentes?,Quantos dependentes você possui?,Qual seu conhecimento em inglês?,Qual seu conhecimento em espanhol?,...,É bom trabalhar com meus colegas de trabalho.,Os melhores resultados vêm do trabalho em equipe.,Baseio meu trabalho em relações interpessoais.,Fico tenso quando estou trabalhando.,Providencio soluções para os meus problemas com rapidez.,Demonstro meu valor nas horas difíceis.,Falta de tempo não me assusta.,Pessoas fortes vêm de ambientes competitivos.,Gosto de ter um trabalho exigente.,Target
0,1,Cliente 1,1 - Casa,0 - Sem resposta,3 - Ensino Superior incompleto,4 - Humanas,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Intermediário,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,1
1,2,Cliente 2,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Não tenho conhecimento em inglês,8 - Não tenho conhecimento em espanhol,...,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,0 - Sem resposta,1
2,3,Cliente 2,1 - Casa,0 - Sem resposta,3 - Ensino Superior cursando,4 - Gestão de Pessoas/Negócios,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Não tenho conhecimento em espanhol,...,57 - 4 - Concordo,58 - 4 - Concordo,59 - 2 - Discordo,60 - 3 - Indiferente,61 - 3 - Indiferente,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 4 - Concordo,65 - 2 - Discordo,1
3,4,Cliente 3,1 - Casa,0 - Sem resposta,3 - Ensino Superior concluído,4 - Saúde,5 - Não,0 - Sem resposta,7 - Básico,8 - Não tenho conhecimento em espanhol,...,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 4 - Concordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 3 - Indiferente,64 - 2 - Discordo,65 - 3 - Indiferente,0
4,5,Cliente 4,1 - Casa,0 - Sem resposta,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Avançado,8 - Básico,...,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 3 - Indiferente,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 3 - Indiferente,65 - 3 - Indiferente,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7235,7236,Cliente 6,1 - Campus,2 - Até 30min,3 - Ensino Superior cursando,4 - Humanas,5 - Não,0 - Sem resposta,7 - Fluente,8 - Não tenho conhecimento em espanhol,...,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 1 - Discordo totalmente,61 - 5 - Concordo totalmente,62 - 5 - Concordo totalmente,63 - 2 - Discordo,64 - 2 - Discordo,65 - 4 - Concordo,1
7236,7237,Cliente 6,1 - Campus,2 - Até 30min,3 - Ensino Médio completo,0 - Sem resposta,5 - Sim,6 - 3 ou mais,7 - Não tenho conhecimento em inglês,8 - Não tenho conhecimento em espanhol,...,57 - 5 - Concordo totalmente,58 - 5 - Concordo totalmente,59 - 3 - Indiferente,60 - 2 - Discordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 4 - Concordo,65 - 4 - Concordo,1
7237,7238,Cliente 17,1 - Campus,2 - De 1h à 1h30,3 - Ensino Superior cursando,4 - Exatas,5 - Não,0 - Sem resposta,7 - Básico,8 - Básico,...,57 - 4 - Concordo,58 - 4 - Concordo,59 - 4 - Concordo,60 - 2 - Discordo,61 - 4 - Concordo,62 - 3 - Indiferente,63 - 2 - Discordo,64 - 4 - Concordo,65 - 3 - Indiferente,1
7238,7239,Cliente 6,1 - Campus,2 - De 1h à 1h30,3 - Ensino Médio completo,0 - Sem resposta,5 - Não,0 - Sem resposta,7 - Intermediário,8 - Não tenho conhecimento em espanhol,...,57 - 5 - Concordo totalmente,58 - 5 - Concordo totalmente,59 - 1 - Discordo totalmente,60 - 2 - Discordo,61 - 4 - Concordo,62 - 4 - Concordo,63 - 4 - Concordo,64 - 4 - Concordo,65 - 4 - Concordo,1


# Análise Exploratória dos Dados

## Utilizando o SweetViz

In [30]:
# Instale o pacote em seu ambiente virtual com "pip install sweetviz"
import sweetviz as sv

# Executa o Data Profiling
aed_sv = sv.analyze(df_completa, 
                    target_feat='Target')

# Salva o arquivo HTML final com o relatório
aed_sv.show_html('aed_sv.html')

                                             |                                             | [  0%]   00:00 ->…

Report aed_sv.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## Utilizando o Pandas Profiling

In [32]:
# Instale o pacote em seu ambiente virtual com "pip install pandas_profiling".
import ydata_profiling

# Executa Data Profiling
aed_pp = df_completa.profile_report()

# Salva o arquivo HTML final com o relatório
aed_pp.to_file(output_file="aed_pp.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Aplicação: Quais questões estão mais associadas ao bom desempenho dos agentes?
Identifique quais questões estão mais associadas ao bom desempenho dos agentes e explique como essa associação ocorre na base de dados.