# Análise Exploratória de Dados com Python
## Análise Univariada - Exercício
O objetivo deste notebook é aplicar as principais funções em Python para conduzir uma análise univariada de dados, a saber:
- Medidas resumo
- Tabela de frequência

### Enunciado



Uma empresa solicitou a uma consultoria um diagnóstico de seu Serviço de Suporte a Clientes. Com base no diagnóstico a partir da análise de dados, a empresa pretende entender quais são as oportunidades de melhorias dos produtos e serviços ofertados.   

Considerando a base **dados_suporte_tecnico.xlsx**, extraia dos dados informações para auxiliar o diagnóstico.  

Como roteiro, responda às perguntas:  

a) Interessado em saber quais são os tempos médios de atendimento (TMA), você decidiu utilizar o conceito de quartis. Qual seria o valor de tempo de atendimento que separaria os 25% dos tickets abertos?  

b) Há uma concentração de tickets em algum turno de trabalho?  

c) Divida os tempos TMA em intervalos baixo-médio-alto e faça sua análise. Quais são suas conclusões?  

d) Assim como para a métrica Tempo Médio de Atendimento (TMA), analisada anteriormente, faça uma análise similar para Taxa de Conversão de Atendimento.  

e) Crie uma tabela de frequência para Atendente e analise. Quais são suas conclusões?  


In [1]:
import pandas as pd

In [2]:
pd.__version__

'2.1.4'

### Carregando os dados

In [3]:
# Lendo a base de dados
df = pd.read_excel('Exercicio_suporte_tecnico.xlsx')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3025 entries, 0 to 3024
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   ticket_id                      3025 non-null   int64         
 1   inicio_atendimento             3025 non-null   datetime64[ns]
 2   fim_atendimento                3025 non-null   datetime64[ns]
 3   turno                          3025 non-null   object        
 4   atendente_nome                 3025 non-null   object        
 5   resolvido_na_primeira_chamada  3025 non-null   object        
 6   conversao_atendimento          3025 non-null   object        
 7   nota_csat                      3006 non-null   float64       
 8   produto                        3025 non-null   object        
 9   cliente                        3025 non-null   object        
 10  ticket_reaberto                3025 non-null   object        
 11  ticket_original  

In [4]:
df.head()

Unnamed: 0,ticket_id,inicio_atendimento,fim_atendimento,turno,atendente_nome,resolvido_na_primeira_chamada,conversao_atendimento,nota_csat,produto,cliente,ticket_reaberto,ticket_original
0,1048,2023-12-01 06:00:00,2023-12-01 06:15:00,Manhã,Carla Souza,Sim,Sim,7.0,Serviço C,Empresa X,Não,
1,436,2023-12-01 06:12:00,2023-12-01 06:18:00,Manhã,Ana Paula,Sim,Sim,4.0,Serviço C,Empresa Z,Não,
2,1725,2023-12-01 06:18:00,2023-12-01 06:52:00,Manhã,Maria Fernandes,Não,Não,3.0,Produto B,Empresa Y,Sim,
3,1186,2023-12-01 06:19:00,2023-12-01 06:56:00,Manhã,Carla Souza,Sim,Sim,4.0,Serviço C,Empresa X,Não,
4,2683,2023-12-01 06:27:00,2023-12-01 06:50:00,Manhã,Ricardo Andrade,Não,Não,2.0,Produto A,Empresa Z,Não,


### Análise Univariada

O primeiro indicador a ser analisado é o **Tempo Médio de Atendimento (TMA)**, uma medida calculada para computar a duração entre o momento do início e o final do contato do atendimento.  

#### a) TMA - 25%
Interessado em saber quais são os tempos médios de atendimento - TMA, você decidiu utilizar o conceito de quartis. Qual seria o valor de tempo de atendimento que separaria os 25% dos tickets abertos?

In [5]:
# Criando uma coluna para o cálculo do TMA
df['TMA'] = df['fim_atendimento']-df['inicio_atendimento']

In [6]:
# Estatística descritiva básica - Medidas resumo
df['TMA'].describe()

count                         3025
mean     0 days 00:33:18.069421487
std      0 days 00:17:15.480476207
min                0 days 00:02:00
25%                0 days 00:18:00
50%                0 days 00:36:00
75%                0 days 00:48:00
max                0 days 01:00:00
Name: TMA, dtype: object

_Resposta a)_:  
O tempo médio de atendimento (TMA) para o primeiro quartil (25% do tickets abertos) é 18 minutos.  
Ou seja, em 25% dos casos, o atendimento é finalizado em um tempo menor ou igual a 18 minutos. 

#### b) Tickets por turno de trabalho  
Há uma concentração de tickets em algum turno de trabalho?


In [7]:
# Frequencia de tickets por turno de trabalho
tabela_frequencia_turno = df['turno'].value_counts().reset_index() 
tabela_frequencia_turno.columns = ['Turno', 'Frequência Absoluta']
tabela_frequencia_turno['Frequência Relativa']=tabela_frequencia_turno['Frequência Absoluta']/tabela_frequencia_turno['Frequência Absoluta'].sum()
tabela_frequencia_turno['Frequência Acumulada']=tabela_frequencia_turno['Frequência Relativa'].cumsum()
tabela_frequencia_turno

Unnamed: 0,Turno,Frequência Absoluta,Frequência Relativa,Frequência Acumulada
0,Noite,1289,0.426116,0.426116
1,Manhã,1022,0.337851,0.763967
2,Tarde,714,0.236033,1.0


_Resposta b)_:  
O turno que mais concentra atendimentos é o turno da noite, com 42% dos atendimentos (1289 tickets no período analisado), o que corresponde a quase o dobro dos atendimentos da parte da tarde (23%).

In [8]:
# Frequencia de tickets por turno de trabalho - percentual - outra forma de calcular a frequencia relativa
(df['turno'].value_counts()*100/df['turno'].count()).apply('{:.1f}%'.format)

turno
Noite    42.6%
Manhã    33.8%
Tarde    23.6%
Name: count, dtype: object

#### c) Frequência de Intervalos para TMA  
Divida os tempos TMA em 3 intervalos (baixo-médio-alto) e analise. Quais são suas conclusões?  



In [9]:
# Criando uma coluna com intervalos de TMA
df['faixa_TMA'] = pd.cut(df['TMA'],3) 
df['faixa_TMA'].value_counts()

faixa_TMA
(0 days 00:40:40, 0 days 01:00:00]           1229
(0 days 00:01:56.520000, 0 days 00:21:20]     907
(0 days 00:21:20, 0 days 00:40:40]            889
Name: count, dtype: int64

In [10]:
# Criando uma coluna para os intervalos de TMA + nomes para os intervalos
df['faixa_TMA'] = pd.cut(df['TMA'],3,labels=['Baixo','Médio','Alto'], ordered=True)
df['faixa_TMA'].value_counts()

faixa_TMA
Alto     1229
Baixo     907
Médio     889
Name: count, dtype: int64

In [11]:
# Faixa TMA - percentual - cálculo alternativo da frequencia relativa
(df['faixa_TMA'].value_counts()*100/df['faixa_TMA'].count()).apply('{:.1f}%'.format)

faixa_TMA
Alto     40.6%
Baixo    30.0%
Médio    29.4%
Name: count, dtype: object

_Resposta c)_:  
Observa-se que 40,6% dos atendimentos tem um TMA Alto (maior do que 40 min).

#### d) Taxa de Conversão de Atendimento
Assim como para a métrica Tempo Médio de Atendimento (TMA), analisada anteriormente, faça uma análise similar para Taxa de Conversão de Atendimento.


In [12]:
(df['conversao_atendimento'].value_counts()*100/df['conversao_atendimento'].count()).apply('{:.1f}%'.format)

conversao_atendimento
Não    51.2%
Sim    48.8%
Name: count, dtype: object

_Resposta d)_:  
Observa-se que em um pouco mais da metade dos casos (51,2%) não há conversão do atendimento, isto é, o cliente não considera que aquele atendimento resolveu o problema dele.

#### e) Frequência de Atendimentos por Atendente  
Crie uma tabela de frequência para Atendente e analise. Quais são suas conclusões?  




In [13]:
# Frequência Absoluta
df['atendente_nome'].value_counts()

atendente_nome
Lucas Martins      524
Ana Paula          512
João Silva         508
Maria Fernandes    507
Carla Souza        501
Ricardo Andrade    473
Name: count, dtype: int64

In [14]:
# Frequência Relativa
(df['atendente_nome'].value_counts()*100/df['atendente_nome'].count()).apply('{:.1f}%'.format)

atendente_nome
Lucas Martins      17.3%
Ana Paula          16.9%
João Silva         16.8%
Maria Fernandes    16.8%
Carla Souza        16.6%
Ricardo Andrade    15.6%
Name: count, dtype: object

_Resposta e)_:  
Observa-se que a distribuição de tickets entre os atendentes apresenta um padrão sem muitas discrepâncias, a não ser por uma ligeira participação maior de Lucas (17,3%) e menor de Ricardo (15,6%).