## Oficina - Aula 5: Aplicando os fundamentos da estatística

Uma grande rede de supermercados está enfrentando desafios com o atendimento ao cliente. As reclamações mais comuns são sobre o tempo de espera nas filas dos caixas e a disponibilidade de funcionários para ajudar os clientes. A empresa decidiu realizar uma pesquisa para entender melhor esses problemas e encontrar maneiras de melhorar a experiência do cliente.

Considere que você tem os seguintes dados disponíveis:

Tempo de espera nas filas (em minutos): dados coletados ao longo de uma semana em diferentes horários e dias.

Satisfação do cliente (em uma escala de 1 a 10): avaliações feitas pelos clientes após o atendimento.

Número de funcionários por turno: dados sobre a quantidade de funcionários disponíveis em cada turno.

Número de clientes por hora: Dados sobre o fluxo de clientes em diferentes horários.

Agora responda:

1 - Como você poderia usar os fundamentos da estatística para obter insights com base nos dados de tempo de espera nas filas e na satisfação dos clientes? Quais técnicas estatísticas, como medidas de tendência central, dispersão, correlação e regressão, você pode utilizar para identificar padrões e relações significativas que ajudem a melhorar a experiência do cliente?

2 - Como você identificaria outliers nos dados de tempo de espera e satisfação dos clientes? Que impacto esses outliers podem ter na análise estatística e quais decisões você tomaria para lidar com eles?

3 - Suponha que a rede de supermercados implemente uma nova política de atendimento em algumas lojas. Como você utilizaria a estatística para comparar o tempo de espera e a satisfação dos clientes entre as lojas com a nova política e as lojas com a política antiga?

4 - Como você poderia calcular a probabilidade de um cliente esperar mais de 10 minutos na fila, baseado nos dados históricos?

In [None]:
#Importando bibliotecas
import numpy as np
import pandas as pd


In [None]:
#Crindo DataFrame usando dicionario

#Criando lista 'semana' co  todos os dias da semana
semana = ['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo']
"""
A lista 'dfs' vai armazenar os daframes com as informações geradas para cada dia da semana e ao final sera usada para juntar tdos
e formar um unico df"""

dfs = []
for dia in semana:
    df_dia = pd.DataFrame({
      'Dia':dia,
      'Hora': np.arange(8, 20),
      'Tempo_Espera' : np.random.randint(1, 16, size = 12),
      'Clientes_por_hr': np.random.randint(1, 31, size = 12),
      'funcionario_por_turno': np.random.randint(1, 8, size = 12),
      'Satisfaçao': np.random.randint(1, 11, size = 12),
    })
    dfs.append(df_dia)

df = pd.concat(dfs, ignore_index = True)

df

Unnamed: 0,Dia,Hora,Tempo_Espera,Clientes_por_hr,funcionario_por_turno,Satisfaçao
0,Segunda,8,6,24,4,7
1,Segunda,9,3,29,1,7
2,Segunda,10,3,15,5,8
3,Segunda,11,8,6,3,1
4,Segunda,12,5,5,1,4
...,...,...,...,...,...,...
79,Domingo,15,8,25,5,2
80,Domingo,16,4,7,5,6
81,Domingo,17,1,28,1,2
82,Domingo,18,8,5,3,10


1 - Como você poderia usar os fundamentos da estatística para obter insights com base nos dados de tempo de espera nas filas
e na satisfação dos clientes? Quais técnicas estatísticas,
como medidas de tendência central, dispersão, correlação e regressão, você pode utilizar para identificar padrões e relações significativas
que ajudem a melhorar a experiência do cliente?

In [None]:
#Calculando medidas de tendência central dos dados de tempo de espera e satisfação
#MEDIA
media_tempo_espera = df['Tempo_Espera'].mean()
media_satisfacao = df['Satisfaçao'].mean()

#MEDIANA
mediana_satisfacao = df['Satisfaçao'].median()

#MODA
moda_satisfação = df['Satisfaçao'].mode().iloc[0]

print(f"A média do tempo de espera é {media_tempo_espera:.2f} min")
print(f"A média da satisfação do clientes é {media_satisfacao:.2f}")
print(f"A mediana da satisfação do cliente é {mediana_satisfacao}")
print(f"A moda da satisfação do cliente é {moda_satisfação}")

A média do tempo de espera é 8.32 min
A média da satisfação do clientes é 5.76
A mediana da satisfação do cliente é 6.0
A moda da satisfação do cliente é 1


DISCUSSÃO

- Note que a mediana da satisfação do cliente esta próxima da média, indicando uma distribuição simetríca das satisfações

- Para a analise não considero relevante o cálculo da moda e da mediana da variável 'tempo de espera' do cliente



In [None]:
#calculando medidas de disperção dos dados de tempo e espera e satisfação do cliente

colunas = ['Tempo_Espera', 'Satisfaçao']
desvio_padrao = df[colunas].std()
media = df[colunas].mean()
coeficiente_variacao = desvio_padrao / media


medidas_dispercao = {
    'amplitude' : df[colunas].max() - df[colunas].min(),
    'variancia' : df[colunas].var(),
    'desvio_padrao' : df[colunas].std(),
    'coeficiente_variacao': coeficiente_variacao,
}

df_medidas_disperção = pd.DataFrame(medidas_dispercao)

df_medidas_disperção



Unnamed: 0,amplitude,variancia,desvio_padrao,coeficiente_variacao
Tempo_Espera,14,16.293029,4.036462,0.485068
Satisfaçao,9,9.412507,3.067981,0.53246


DISCUSSÃO

1. AMPLITUDE
- A amplitude mostra alta variação tanto na espera quanto na satisfação, evidênciando diferentes experiências do cliente.
2. VARIÂNCIA E DESVIO PADRÃO
- O desvio padrão do tempo de espera esta variando cerca de 5 minutos da média geral. Na satisfação essa metrica caí um pouco, variando cerca de 3 pontos da média geral
4. COEFICIENTE DE VARIAÇÃO
- Mostra um instabilidade de cerca de 55% tanto no tempo de espera quanto na satisfação.

OBS.: As medidas de disperção considerando tempo de espera e satisfação mostram a necessidade de uma avaliação no que se pode ser feito para melhorar a experiência do cliente.


In [None]:
#Medida de correlação

colunas_correlacao = ['Tempo_Espera', 'Clientes_por_hr', 'funcionario_por_turno', 'Satisfaçao']

correlacoes = df[colunas_correlacao].corr()

correlacoes_filtradas  = correlacoes.loc[['Tempo_Espera', 'Satisfaçao']]

correlacoes_filtradas

Unnamed: 0,Tempo_Espera,Clientes_por_hr,funcionario_por_turno,Satisfaçao
Tempo_Espera,1.0,-0.145401,0.013698,-0.151355
Satisfaçao,-0.151355,-0.048985,0.072086,1.0


Os números mostram correlação muito fraca entre as variáveis, entre -0.2 e 0.2, significando não haver relação direta significativa entre as variaveis, considerando os dados produzidos no ínicio.

As tecnicas estatisticas utilizadas nos dados, sobretudo as tecnicas de medidas de dispersão mostram que existe uma variação consideravel, havendo necessidade de alguma ação que melhore a experiência do cliente.

 2 - Como você identificaria outliers nos dados de tempo de espera e satisfação dos clientes? Que impacto esses outliers podem ter na análise estatística e quais decisões você tomaria para lidar com eles?

_Para identificar outliers nos dados de tempo de espera e satisfação dos clientes, é possível utilizar métodos estatísticos como o intervalo interquartil (IQR) ou o Z-score. O IQR considera como outliers os valores que estão muito abaixo ou acima dos quartis (1,5 vezes a diferença entre o terceiro e o primeiro quartil), enquanto o Z-score detecta valores que se distanciam da média por mais de 3 desvios padrão._

_Outliers podem distorcer medidas estatísticas importantes, como média, variância e regressão, gerando interpretações incorretas sobre o comportamento dos dados. Por isso, sua presença deve ser cuidadosamente analisada. Dependendo do contexto, os outliers podem ser mantidos (se representarem situações reais e relevantes), corrigidos (caso sejam erros de coleta) ou removidos da análise para garantir maior precisão._

3 - Suponha que a rede de supermercados implemente uma nova política de atendimento em algumas lojas. Como você utilizaria a estatística para comparar o tempo de espera e a satisfação dos clientes entre as lojas com a nova política e as lojas com a política antiga?

_Para comparar o tempo de espera e a satisfação entre as lojas com a nova política e as com a política antiga, podemos usar a estatística separando os dados em dois grupos. Depois, calculamos a média e o desvio padrão de cada grupo para ver se há diferenças. Também podemos usar testes estatísticos, como o teste t, para saber se essas diferenças são realmente importantes ou se aconteceram por acaso. Assim, conseguimos avaliar se a nova política trouxe melhorias no atendimento._

4 - Como você poderia calcular a probabilidade de um cliente esperar mais de 10 minutos na fila, baseado nos dados históricos?

In [None]:
#Calcular quantos clientes esperaram mais de 10 min

espera_maior_10 = df[df['Tempo_Espera'] > 10]

#Calcular a probabilidade como frequência relativa

probabilidade = len(espera_maior_10) / len(df)

print(f"A probabilidade de um cliente esperar mais que 10 minutos na fila é de aproximadamente {probabilidade:.2%}")

30
84
A probabilidade de um cliente esperar mais que 10 minutos na fila é de aproximadamente 35.71%
