In [10]:
import pandas as pd 
from textblob import TextBlob
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

# 1. Análise de Satisfação do Cliente (CSAT)

In [12]:
outubro2023 = r"C:\Users\46241887807\Desktop\Py\AnáliseIAnoBOT\Bases\Outubro2023.csv"
outubro2024 = r"C:\Users\46241887807\Desktop\Py\AnáliseIAnoBOT\Bases\Outubro2024.csv"

data_2023 = pd.read_csv(outubro2023)
data_2024 = pd.read_csv(outubro2024)

In [13]:
# Converter a coluna 'surveyAnswerPostSurvey' para numérico e remover valores NaN
data_2023['surveyAnswerPostSurvey'] = pd.to_numeric(data_2023['surveyAnswerPostSurvey'], errors='coerce')
data_2024['surveyAnswerPostSurvey'] = pd.to_numeric(data_2024['surveyAnswerPostSurvey'], errors='coerce')

# Filtrar apenas as interações com respostas de satisfação (CSAT)
data_filtered_csat_2023 = data_2023.dropna(subset=['surveyAnswerPostSurvey'])
data_filtered_csat_2024 = data_2024.dropna(subset=['surveyAnswerPostSurvey'])

# Calcular a média de satisfação para cada período
csat_mean_2023 = data_filtered_csat_2023['surveyAnswerPostSurvey'].mean()
csat_mean_2024 = data_filtered_csat_2024['surveyAnswerPostSurvey'].mean()

# Contagem de notas altas (4 ou 5) e baixas (1 ou 2)
csat_high_2023 = data_filtered_csat_2023[data_filtered_csat_2023['surveyAnswerPostSurvey'] >= 4].shape[0]
csat_low_2023 = data_filtered_csat_2023[data_filtered_csat_2023['surveyAnswerPostSurvey'] <= 2].shape[0]

csat_high_2024 = data_filtered_csat_2024[data_filtered_csat_2024['surveyAnswerPostSurvey'] >= 4].shape[0]
csat_low_2024 = data_filtered_csat_2024[data_filtered_csat_2024['surveyAnswerPostSurvey'] <= 2].shape[0]

# Exibir os resultados
print("Análise de Satisfação do Cliente (CSAT)")
print(f"Média de Satisfação 2023 (sem IA): {csat_mean_2023}")
print(f"Média de Satisfação 2024 (com IA): {csat_mean_2024}")
print(f"Notas Altas 2023: {csat_high_2023}")
print(f"Notas Baixas 2023: {csat_low_2023}")
print(f"Notas Altas 2024: {csat_high_2024}")
print(f"Notas Baixas 2024: {csat_low_2024}")

Análise de Satisfação do Cliente (CSAT)
Média de Satisfação 2023 (sem IA): 4.777292576419214
Média de Satisfação 2024 (com IA): 4.823529411764706
Notas Altas 2023: 221
Notas Baixas 2023: 3
Notas Altas 2024: 212
Notas Baixas 2024: 2


# 2. Análise de Sentimento nas Interações

In [14]:
# Inicializando o analisador de sentimento VADER
analyzer = SentimentIntensityAnalyzer()

def analyze_sentiment(text):
    """Função para calcular o sentimento de uma string usando TextBlob e VADER."""
    if pd.isna(text):
        return None  # Retornar None para textos ausentes
    
    # Análise de sentimento com TextBlob (polaridade varia de -1 a 1)
    blob = TextBlob(text)
    textblob_polarity = blob.sentiment.polarity
    
    # Análise de sentimento com VADER (dicionário de scores)
    vader_scores = analyzer.polarity_scores(text)
    vader_compound = vader_scores['compound']  # Valor composto da análise
    
    # Retornar uma média entre TextBlob e VADER para maior robustez
    return (textblob_polarity + vader_compound) / 2

In [16]:
# Aplicando a função nas colunas transcriptAll em cada período
data_filtered_csat_2023['sentiment_score'] = data_filtered_csat_2023['transcriptAll'].apply(analyze_sentiment)
data_filtered_csat_2024['sentiment_score'] = data_filtered_csat_2024['transcriptAll'].apply(analyze_sentiment)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_filtered_csat_2023['sentiment_score'] = data_filtered_csat_2023['transcriptAll'].apply(analyze_sentiment)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_filtered_csat_2024['sentiment_score'] = data_filtered_csat_2024['transcriptAll'].apply(analyze_sentiment)


In [17]:
# Calculando o sentimento médio para cada período
sentiment_mean_2023 = data_filtered_csat_2023['sentiment_score'].mean()
sentiment_mean_2024 = data_filtered_csat_2024['sentiment_score'].mean()

In [18]:
# Exibindo os resultados
sentiment_mean_2023, sentiment_mean_2024

(0.6502672315768891, 0.561907590870769)

# 3. Tempo Médio de Primeira Resposta (First Response Time)

In [19]:
# Convertendo as colunas de tempo de resposta para numérico para cálculo
data_2023['firstResponseTimeAgentFromConsumer'] = pd.to_numeric(data_2023['firstResponseTimeAgentFromConsumer'], errors='coerce')
data_2024['firstResponseTimeAgentFromConsumer'] = pd.to_numeric(data_2024['firstResponseTimeAgentFromConsumer'], errors='coerce')

In [21]:
# Calculando o tempo médio de primeira resposta para cada período, ignorando valores NaN
first_response_mean_2023 = data_2023['firstResponseTimeAgentFromConsumer'].mean()
first_response_mean_2024 = data_2024['firstResponseTimeAgentFromConsumer'].mean()

In [22]:
# Exibindo os resultados
first_response_mean_2023, first_response_mean_2024

(171.54231204527082, 681.526931330472)

Aqui estão os resultados para o Tempo Médio de Primeira Resposta (First Response Time):

Outubro de 2023 (sem IA): aproximadamente 171,5 segundos
Outubro de 2024 (com IA): aproximadamente 681,5 segundos

# 4. Taxa de Escalamento para Humanos

In [23]:
# Substituir valores ausentes por zero para evitar problemas no cálculo
data_2023['messageCountAgentBot'] = data_2023['messageCountAgentBot'].fillna(0)
data_2023['messageCountAgentHuman'] = data_2023['messageCountAgentHuman'].fillna(0)
data_2024['messageCountAgentBot'] = data_2024['messageCountAgentBot'].fillna(0)
data_2024['messageCountAgentHuman'] = data_2024['messageCountAgentHuman'].fillna(0)

In [25]:
# Contagem de interações que foram resolvidas pela IA e que foram escaladas para agentes humanos
resolved_by_ia_2023 = data_2023[data_2023['messageCountAgentBot'] > 0].shape[0]
escalated_to_human_2023 = data_2023[data_2023['messageCountAgentHuman'] > 0].shape[0]

resolved_by_ia_2024 = data_2024[data_2024['messageCountAgentBot'] > 0].shape[0]
escalated_to_human_2024 = data_2024[data_2024['messageCountAgentHuman'] > 0].shape[0]

In [26]:
# Exibindo os resultados
resolved_by_ia_2023, escalated_to_human_2023, resolved_by_ia_2024, escalated_to_human_2024

(741, 1250, 724, 1326)

Outubro de 2023 (sem IA):

Interações resolvidas pela IA: 741
Interações escaladas para agentes humanos: 1.250

Outubro de 2024 (com IA):

Interações resolvidas pela IA: 724
Interações escaladas para agentes humanos: 1.326

# 5. Frequência e Padrões de Intenções

In [27]:
from collections import Counter
import re

def extract_intentions(transcript_column):
    """Extrai intenções da coluna de transcrição usando um padrão básico de palavras-chave.
       Este é um exemplo simples e pode ser ajustado conforme as intenções esperadas."""
    intentions = []
    for text in transcript_column.dropna():
        # Exemplo de padrão para encontrar intenções (pode ser ajustado)
        found_intentions = re.findall(r'\b(intenção\s+\w+|intenção:\s*\w+)', text, re.IGNORECASE)
        intentions.extend(found_intentions)
    return intentions

# Extraindo intenções para cada período
intentions_2023 = extract_intentions(data_2023['transcriptAll'])
intentions_2024 = extract_intentions(data_2024['transcriptAll'])

# Contando as intenções mais frequentes em cada período
intentions_count_2023 = Counter(intentions_2023).most_common(10)
intentions_count_2024 = Counter(intentions_2024).most_common(10)

# Exibindo os resultados
intentions_count_2023, intentions_count_2024


([('intenção de', 3), ('intenção prejudicar', 1)],
 [('intenção é', 1), ('intenção de', 1)])

Os resultados mostram que as intenções extraídas nas transcrições foram limitadas:

Outubro de 2023 (sem IA): Intenções detectadas, como "intenção de" e "intenção prejudicar".
Outubro de 2024 (com IA): Intenções detectadas incluem "intenção é" e "intenção de".

# 6. Análise de Eficiência do Canal

In [28]:
# Verificando as colunas 'source' e 'device' para identificar os diferentes canais
# Exibindo os valores únicos em cada coluna para entender quais canais estão disponíveis

source_2023 = data_2023['source'].unique()
source_2024 = data_2024['source'].unique()

device_2023 = data_2023['device'].unique()
device_2024 = data_2024['device'].unique()

source_2023, source_2024, device_2023, device_2024


(array(['Email', 'WhatsApp Business', 'AGENT'], dtype=object),
 array(['WhatsApp Business', 'Email', 'AGENT'], dtype=object),
 array([nan]),
 array([nan]))

In [29]:
# Calculando a frequência de interações por canal em cada período
channel_counts_2023 = data_2023['source'].value_counts()
channel_counts_2024 = data_2024['source'].value_counts()

# Exibindo os resultados
channel_counts_2023, channel_counts_2024


(source
 WhatsApp Business    852
 Email                499
 AGENT                109
 Name: count, dtype: int64,
 source
 WhatsApp Business    1011
 Email                 459
 AGENT                  46
 Name: count, dtype: int64)

Outubro de 2023 (sem IA):

WhatsApp Business: 852 interações
Email: 499 interações
AGENT: 109 interações
Outubro de 2024 (com IA):

WhatsApp Business: 1.011 interações
Email: 459 interações
AGENT: 46 interações
Observamos que:

O canal WhatsApp Business teve um aumento significativo de interações no período com IA.
O canal AGENT teve uma queda nas interações, o que pode indicar uma redução na necessidade de agentes humanos diretos devido ao uso da IA.

Email: 459 interações
AGENT: 46 interações
Observamos que:

O canal WhatsApp Business teve um aumento significativo de interações no período com IA.
O canal AGENT teve uma queda nas interações, o que pode indicar uma redução na necessidade de agentes humanos diretos devido ao uso da IA.

# 7. Número Médio de Mensagens por Interação

In [30]:
# Substituir valores ausentes por zero para evitar problemas no cálculo
data_2023['messageCountAgent'] = data_2023['messageCountAgent'].fillna(0)
data_2023['messageCountConsumer'] = data_2023['messageCountConsumer'].fillna(0)
data_2024['messageCountAgent'] = data_2024['messageCountAgent'].fillna(0)
data_2024['messageCountConsumer'] = data_2024['messageCountConsumer'].fillna(0)

# Calcular o número total de mensagens (agente + consumidor) e a média de mensagens por interação
data_2023['totalMessageCount'] = data_2023['messageCountAgent'] + data_2023['messageCountConsumer']
data_2024['totalMessageCount'] = data_2024['messageCountAgent'] + data_2024['messageCountConsumer']

# Calculando a média de mensagens por interação para cada período
average_messages_2023 = data_2023['totalMessageCount'].mean()
average_messages_2024 = data_2024['totalMessageCount'].mean()

# Exibindo os resultados
average_messages_2023, average_messages_2024


(22.528767123287672, 18.82915567282322)

Outubro de 2023 (sem IA): aproximadamente 22,5 mensagens por interação
Outubro de 2024 (com IA): aproximadamente 18,8 mensagens por interação

# 8. Taxa de Resolução na Primeira Interação (FCR)

In [31]:
# Verificando os valores únicos em 'closeReason' para identificar os que indicam resolução completa
close_reason_2023 = data_2023['closeReason'].unique()
close_reason_2024 = data_2024['closeReason'].unique()

close_reason_2023, close_reason_2024


(array(['AGENT', 'TIMEOUT'], dtype=object),
 array([nan, 'TIMEOUT', 'AGENT'], dtype=object))

In [32]:
# Contando interações com resolução na primeira tentativa (closeReason = 'AGENT')
resolved_first_attempt_2023 = data_2023[data_2023['closeReason'] == 'AGENT'].shape[0]
total_interactions_2023 = data_2023.shape[0]

resolved_first_attempt_2024 = data_2024[data_2024['closeReason'] == 'AGENT'].shape[0]
total_interactions_2024 = data_2024.shape[0]

# Calculando a taxa de FCR para cada período
fcr_rate_2023 = (resolved_first_attempt_2023 / total_interactions_2023) * 100
fcr_rate_2024 = (resolved_first_attempt_2024 / total_interactions_2024) * 100

# Exibindo os resultados
fcr_rate_2023, fcr_rate_2024

(66.23287671232877, 56.266490765171504)

Aqui estão os resultados para a Taxa de Resolução na Primeira Interação (FCR):

Outubro de 2023 (sem IA): 66,2%
Outubro de 2024 (com IA): 56,3%

# 9. Distribuição de Tempos de Interação

In [34]:
def categorize_duration_adjusted(duration):
    """Classifica o tempo de duração com os novos critérios."""
    if duration < 30:       # Curto: menos de 30 minutos
        return 'curto'
    elif duration <= 120:   # Médio: entre 30 minutos e 2 horas
        return 'medio'
    else:                   # Longo: mais de 2 horas
        return 'longo'

In [35]:
# Convertendo as colunas de data para datetime e calculando a duração em minutos
data_2023['startTimeUTC'] = pd.to_datetime(data_2023['startTimeUTC'], errors='coerce')
data_2023['endTimeUTC'] = pd.to_datetime(data_2023['endTimeUTC'], errors='coerce')
data_2024['startTimeUTC'] = pd.to_datetime(data_2024['startTimeUTC'], errors='coerce')
data_2024['endTimeUTC'] = pd.to_datetime(data_2024['endTimeUTC'], errors='coerce')

# Calculando a duração das interações em minutos
data_2023['duration_minutes'] = (data_2023['endTimeUTC'] - data_2023['startTimeUTC']).dt.total_seconds() / 60
data_2024['duration_minutes'] = (data_2024['endTimeUTC'] - data_2024['startTimeUTC']).dt.total_seconds() / 60

# Filtrando dados com duração válida
data_filtered = data_2023.dropna(subset=['duration_minutes']).copy()
data_2024_filtered = data_2024.dropna(subset=['duration_minutes']).copy()

# Aplicando a nova função de categorização de duração
data_filtered['duration_category'] = data_filtered['duration_minutes'].apply(categorize_duration_adjusted)
data_2024_filtered['duration_category'] = data_2024_filtered['duration_minutes'].apply(categorize_duration_adjusted)

# Calculando a distribuição ajustada das categorias de tempo de interação para cada período
duration_distribution_adjusted_2023 = data_filtered['duration_category'].value_counts(normalize=True) * 100
duration_distribution_adjusted_2024 = data_2024_filtered['duration_category'].value_counts(normalize=True) * 100

# Exibindo os resultados
duration_distribution_adjusted_2023, duration_distribution_adjusted_2024

(duration_category
 longo    75.479452
 medio    12.534247
 curto    11.986301
 Name: proportion, dtype: float64,
 duration_category
 longo    91.041515
 medio     5.608157
 curto     3.350328
 Name: proportion, dtype: float64)

Aqui está a Distribuição de Tempos de Interação com os intervalos ajustados:

Outubro de 2023 (sem IA):

Longo: 75,5%
Médio: 12,5%
Curto: 12,0%
Outubro de 2024 (com IA):

Longo: 91,0%
Médio: 5,6%
Curto: 3,4%

curto menos de 30 
medio de 30 a 2h 
longo mais de 2h 