# üöÄ Projeto de Portf√≥lio: Otimiza√ß√£o de Atendimento ao Cliente com IA Generativa

*   **Autor:** Natasha Brand√£o
*   **Data:** 07/08/2025

---

### 1. Contexto do Problema

No cen√°rio digital atual, empresas de grande porte lidam com um volume massivo de intera√ß√µes de clientes em redes sociais. Analisar e responder a cada tweet de forma eficiente √© um desafio log√≠stico e de custo. Respostas lentas ou inadequadas podem levar √† insatisfa√ß√£o do cliente, enquanto a an√°lise manual de milhares de mensagens √© impratic√°vel.

### 2. Objetivo do Projeto

Este projeto tem como objetivo desenvolver um prot√≥tipo de ponta a ponta de um sistema de Intelig√™ncia Artificial para otimizar o atendimento ao cliente. A solu√ß√£o ir√°:

1.  **Analisar e classificar** automaticamente os tweets dos clientes em categorias (reclama√ß√£o, elogio, d√∫vida).
2.  **Detectar o sentimento** (positivo, negativo, neutro) de cada mensagem.
3.  **Gerar respostas contextuais e adequadas** usando um modelo de linguagem avan√ßado (LLM).
4.  **(Etapa Futura) Apresentar os resultados** de forma interativa atrav√©s de um dashboard.

### ‚úÖ Habilidades e Tecnologias Demonstradas

Este projeto serve como uma demonstra√ß√£o pr√°tica de um fluxo de trabalho de ponta a ponta em Ci√™ncia de Dados e IA, cobrindo as seguintes compet√™ncias t√©cnicas e anal√≠ticas:

*   **Engenharia de Features e An√°lise de Dados:** An√°lise explorat√≥ria (EDA), limpeza de dados textuais, e cria√ß√£o de features relevantes (e.g., tipo de mensagem, sentimento) a partir de dados n√£o estruturados.
*   **Processamento de Linguagem Natural (NLP):** T√©cnicas de pr√©-processamento, an√°lise de sentimento com NLTK (VADER) e modelagem de t√≥picos impl√≠cita atrav√©s da gera√ß√£o de respostas.
*   **IA Generativa e LLMs:** Utiliza√ß√£o da biblioteca `transformers` (Hugging Face) para implementar e controlar um Large Language Model (como o GPT-2) na gera√ß√£o de texto contextual.
*   **Modelagem de Machine Learning:** Aplica√ß√£o de modelos pr√©-treinados para tarefas de NLP e prototipagem de uma solu√ß√£o de IA.
*   **Visualiza√ß√£o de Dados e BI:** Cria√ß√£o de visualiza√ß√µes para extrair insights e (na etapa final) desenvolvimento de um dashboard interativo para apresentar os resultados de forma clara.
*   **Pensamento Estrat√©gico:** Tradu√ß√£o de um problema de neg√≥cio (otimiza√ß√£o de atendimento) em um plano de projeto t√©cnico, executado de forma sequencial e l√≥gica.

### Dataset
*   **Fonte:** [Customer Support on Twitter](https://www.kaggle.com/datasets/thoughtvector/customer-support-on-twitter)
*   **Descri√ß√£o:** Um grande dataset do Kaggle contendo quase 3 milh√µes de tweets de e para grandes marcas.

In [None]:
# --- Configura√ß√£o do Ambiente e Bibliotecas Essenciais ---

# An√°lise de Dados e Manipula√ß√£o
import pandas as pd
import numpy as np

# Visualiza√ß√£o de Dados
import matplotlib.pyplot as plt
import seaborn as sns

# Utilit√°rios do Sistema
import os

# Configura√ß√µes de Visualiza√ß√£o (opcional, para deixar os gr√°ficos mais bonitos)
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

# --- Verifica√ß√£o Inicial dos Arquivos ---
# Este loop inicial nos ajuda a confirmar os caminhos dos arquivos de dados dispon√≠veis.
print("Arquivos de dados dispon√≠veis:")
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Parte 1: An√°lise Explorat√≥ria e Engenharia de Features

## üß† Objetivo da An√°lise Explorat√≥ria de Dados (EDA)

Antes de construir qualquer modelo, precisamos entender profundamente nossos dados. O objetivo desta primeira fase √© responder √†s seguintes perguntas-chave:

*   Qual √© o volume total de intera√ß√µes no dataset?
*   Como as conversas entre clientes e empresas est√£o estruturadas?
*   Quais s√£o os temas e palavras-chave mais recorrentes nas mensagens?
*   √â poss√≠vel identificar automaticamente se um tweet √© uma pergunta, reclama√ß√£o ou elogio?
*   Como o volume de atendimentos se distribui ao longo do tempo? Existe alguma sazonalidade?

---
### üõ†Ô∏è Etapas do EDA

#### 1. Carregando os Dados

In [None]:
# Importando pandas para manipula√ß√£o de dados
import pandas as pd

# Carregando o conjunto de dados principal em um DataFrame do pandas.
# O arquivo est√° no formato CSV (Comma-Separated Values).
df = pd.read_csv('/kaggle/input/customer-support-on-twitter/twcs/twcs.csv')

# Exibindo as primeiras 5 linhas para uma inspe√ß√£o inicial da estrutura e do conte√∫do.
# Isso nos ajuda a ter uma primeira impress√£o dos dados com os quais estamos trabalhando.
df.head()

### 2. An√°lise Estrutural e Valida√ß√£o dos Dados

Nesta etapa, realizamos uma verifica√ß√£o fundamental para entender as dimens√µes, os tipos de dados e a integridade do nosso DataFrame. Isso √© crucial para planejar as etapas de limpeza e pr√©-processamento.

Vamos verificar:
*   **Dimens√µes:** N√∫mero de linhas e colunas.
*   **Tipos de Dados (Dtypes):** Se as colunas foram lidas corretamente (n√∫meros, texto, data, etc.).
*   **Valores Nulos:** A quantidade de dados ausentes em cada coluna.

In [None]:
# --- Verifica√ß√£o T√©cnica do DataFrame ---

# Um resumo completo da estrutura, incluindo tipos de dados e uso de mem√≥ria.
print("--- Informa√ß√µes Gerais do DataFrame (df.info()) ---")
df.info()

print("\n" + "="*50 + "\n")

# Contagem de valores nulos para cada coluna.
print("--- Contagem de Valores Nulos por Coluna ---")
print(df.isnull().sum())

### Principais Observa√ß√µes:

1.  **Volume Massivo:** O dataset cont√©m aproximadamente **2.8 milh√µes de tweets**, confirmando a necessidade de uma solu√ß√£o automatizada.
2.  **Datas como Texto:** A coluna `created_at` foi lida como `object` (texto). Precisaremos convert√™-la para um formato de data (`datetime`) para realizar an√°lises temporais.
3.  **Valores Nulos Estrat√©gicos:** As colunas `response_tweet_id` e `in_response_to_tweet_id` possuem um grande n√∫mero de valores nulos. Isso √© uma informa√ß√£o valiosa: um tweet com `in_response_to_tweet_id` nulo provavelmente √© o **in√≠cio de uma conversa**, ou seja, o primeiro contato de um cliente.

### 3. Reconstruindo o Fio da Conversa

O DataFrame apresenta os tweets de forma "plana", mas eles fazem parte de conversas encadeadas. Para entender a din√¢mica do atendimento, √© essencial reconstruir um exemplo de intera√ß√£o `Cliente -> Empresa`. O c√≥digo abaixo faz exatamente isso.

In [None]:
# --- L√≥gica para Exibir uma Conversa de Exemplo ---

# 1. Identificar os autores que s√£o empresas (aqueles que enviam tweets "outbound").
# A coluna 'inbound' nos diz se o tweet foi direcionado √† empresa (True) ou enviado pela empresa (False).
empresas = df[df['inbound'] == False]['author_id'].unique()

# 2. Selecionar uma amostra aleat√≥ria de um tweet que seja de um cliente (N√ÉO √© de uma empresa) e que tenha recebido uma resposta.
tweet_do_cliente = df[(~df['author_id'].isin(empresas)) & (df['response_tweet_id'].notna())].sample(1)

# 3. Extrair os IDs do tweet do cliente e da resposta da empresa.
id_tweet_cliente = tweet_do_cliente['tweet_id'].values[0]
id_resposta_empresa = tweet_do_cliente['response_tweet_id'].values[0]

# 4. Localizar o texto da resposta da empresa usando o ID obtido.
# √â necess√°rio converter o ID da resposta para inteiro (int) para corresponder ao tipo de 'tweet_id'.
texto_cliente = tweet_do_cliente['text'].values[0]
resposta_empresa = df[df['tweet_id'] == int(id_resposta_empresa)]

# 5. Exibir a conversa reconstru√≠da.
print(f"TWEET DO CLIENTE: {texto_cliente}")

if not resposta_empresa.empty:
    print(f"RESPOSTA DA EMPRESA: {resposta_empresa['text'].values[0]}")
else:
    print("RESPOSTA DA EMPRESA: N√£o encontrada.")


# Parte 2: Pr√©-processamento e Limpeza dos Dados

Com os insights da EDA, agora preparamos os dados para a modelagem. Isso envolve duas etapas principais: filtrar o dataset para o per√≠odo de maior relev√¢ncia e limpar o texto dos tweets para remover ru√≠dos.

### 1. Filtragem Temporal e Limpeza de Texto

In [None]:
# --- ETAPA DE PREPARA√á√ÉO ---

# Importando as bibliotecas necess√°rias para esta se√ß√£o.
import pandas as pd
import re  # Biblioteca para express√µes regulares, essencial para a limpeza de texto.
from nltk.corpus import stopwords
import nltk

# 1. Converter a coluna 'created_at' para o formato de data.
#    Especificamos o 'format' para melhorar a performance e remover avisos.
#    O formato corresponde exatamente √† estrutura da data no CSV (Ex: 'Tue Oct 31 22:10:47 +0000 2017')
df['created_at'] = pd.to_datetime(df['created_at'], format='%a %b %d %H:%M:%S %z %Y', errors='coerce')

# 2. Filtrar o DataFrame para manter apenas os dados a partir de 2017, per√≠odo de maior atividade.
df_filtered = df[df['created_at'].dt.year >= 2017].copy()

# 3. Baixar a lista de stopwords (se ainda n√£o tiver sido baixada nesta sess√£o)
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# 4. Definir a fun√ß√£o para limpar o texto dos tweets.
#    Esta fun√ß√£o ir√° remover elementos que n√£o agregam valor sem√¢ntico, como URLs, men√ß√µes e stopwords.
def clean_text(text):
    text = str(text).lower()
    text = re.sub(r'https?://\S+|www\.\S+', '', text) # Remove URLs
    text = re.sub(r'@\w+', '', text) # Remove men√ß√µes (@usuario)
    text = re.sub(r'#', '', text) # Remove o s√≠mbolo de hashtag
    text = re.sub(r'[^a-z\s]', '', text) # Remove pontua√ß√µes e n√∫meros
    text = ' '.join([word for word in text.split() if word not in stop_words]) # Remove 'stopwords'
    return text

# 5. Aplicar a fun√ß√£o de limpeza na coluna de texto para criar a coluna 'clean_text'.
df_filtered['clean_text'] = df_filtered['text'].apply(clean_text)

# 6. Exibir uma amostra do resultado para validar a limpeza.
print("\n--- Resultado da Limpeza ---")
print(df_filtered[['text', 'clean_text']].head())

### 2. An√°lise do Comprimento das Mensagens

Uma an√°lise r√°pida do comprimento dos tweets nos ajuda a entender a natureza das intera√ß√µes. S√£o mensagens curtas e diretas ou longas e detalhadas? Isso pode nos dar pistas sobre a complexidade dos problemas dos clientes.

In [None]:
# --- An√°lise do Comprimento dos Tweets ---

# 1. Criar uma nova coluna 'comprimento_texto' no DataFrame original 'df'.
#    Usamos o DataFrame original para ter uma vis√£o completa, antes de qualquer filtragem.
df['comprimento_texto'] = df['text'].str.len()

# 2. Criar um histograma para visualizar a distribui√ß√£o dos comprimentos.
#    O histograma agrupa os tweets por faixas de comprimento e mostra a frequ√™ncia de cada faixa.
plt.figure(figsize=(14, 7))
sns.histplot(df['comprimento_texto'], bins=50, kde=True, color='skyblue')
plt.title('Distribui√ß√£o do Comprimento dos Tweets (em caracteres)', fontsize=16)
plt.xlabel('Comprimento do Texto (Caracteres)', fontsize=12)
plt.ylabel('Frequ√™ncia (Quantidade de Tweets)', fontsize=12)
plt.grid(True)
plt.show()

#### Insights:

*   **Pico em ~140 Caracteres:** A grande maioria dos tweets se concentra em torno de 100 a 140 caracteres. Isso √© consistente com o limite hist√≥rico de 140 caracteres do Twitter, indicando que o dataset foi coletado majoritariamente nesse per√≠odo.
*   **Cauda Longa √† Direita:** Existe uma pequena quantidade de tweets mais longos, provavelmente coletados ap√≥s a mudan√ßa do Twitter para 280 caracteres.

Esta an√°lise confirma que estamos lidando com textos curtos e diretos, t√≠picos de redes sociais, o que guiar√° a escolha das nossas t√©cnicas de NLP.

### 3. An√°lise da Distribui√ß√£o por Ano

Seguindo a hip√≥tese de que os dados podem n√£o ter sido coletados de forma cont√≠nua, vamos primeiro investigar o volume de tweets em cada ano. Esta an√°lise macro nos dar√° uma vis√£o clara da relev√¢ncia de cada per√≠odo e se existem lacunas na coleta de dados.

In [None]:
# --- An√°lise da Contagem de Tweets por Ano ---

# 1. Garantir que a coluna 'created_at' est√° no formato de data.
df['created_at'] = pd.to_datetime(df['created_at'], format='%a %b %d %H:%M:%S %z %Y', errors='coerce')

# 2. Extrair o ano de cada tweet para uma nova coluna.
df['year'] = df['created_at'].dt.year

# 3. Contar o n√∫mero de tweets para cada ano e ordenar os resultados.
tweets_por_ano = df['year'].value_counts().sort_index()

# 4. Exibir os resultados em um formato claro.
print("--- Contagem de Tweets por Ano ---")

# Formata a coluna para ser um n√∫mero inteiro com separador de v√≠rgula
tabela_formatada = tweets_por_ano.to_frame(name='Quantidade de Tweets')
tabela_formatada['Quantidade de Tweets'] = tabela_formatada['Quantidade de Tweets'].map('{:,.0f}'.format)

print(tabela_formatada.to_markdown())

# 5. Criar um gr√°fico de linha.
plt.figure(figsize=(14, 8))
plt.plot(tweets_por_ano.index, tweets_por_ano.values, marker='o', linestyle='-', color='teal')
plt.title('Crescimento Exponencial de Tweets no Dataset (Escala Logar√≠tmica)', fontsize=16)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Quantidade de Tweets (Escala Log)', fontsize=12)

# 6. Mudar a escala do eixo Y para logar√≠tmica para visualizar melhor os valores baixos.
plt.yscale('log')

plt.grid(True, which="both", ls="--")

# 7. Adicionar os r√≥tulos de dados (data labels) em cada ponto do gr√°fico.
#    Este loop percorre cada ano e sua respectiva contagem de tweets.
for ano, quantidade in tweets_por_ano.items():
    # O comando 'plt.text' posiciona um texto nas coordenadas (x, y)
    # Adicionamos um pequeno deslocamento vertical para o texto n√£o sobrepor o ponto.
    plt.text(ano, quantidade * 1.1, f'{quantidade:,.0f}', ha='center', va='bottom', fontsize=9)
    # '{:,.0f}' formata o n√∫mero com v√≠rgulas e sem casas decimais.

plt.show()

### 4. An√°lise Detalhada da S√©rie Temporal (Di√°ria)

A an√°lise anual confirmou de forma conclusiva que **a atividade do dataset se concentra quase que inteiramente em 2017**. Agora, vamos aplicar um "zoom" nesse per√≠odo, plotando o volume de tweets em uma base di√°ria. Isso nos permitir√° observar flutua√ß√µes e padr√µes de curto prazo com mais clareza.

In [None]:
# --- An√°lise da S√©rie Temporal de Tweets (Di√°ria) ---

# 1. Agrupar a contagem de tweets por dia.
#    O m√©todo 'resample('D')' √© uma forma poderosa do pandas para reagrupar dados de s√©ries temporais.
tweets_por_dia = df.set_index('created_at')['tweet_id'].resample('D').count()

# 2. Gerar um gr√°fico de linha para visualizar a tend√™ncia di√°ria.
plt.figure(figsize=(16, 7))
tweets_por_dia.plot(color='c')
plt.title('Volume de Tweets por Dia ao Longo do Tempo', fontsize=16)
plt.xlabel('Data', fontsize=12)
plt.ylabel('Quantidade de Tweets', fontsize=12)
plt.grid(True)
plt.xlim(pd.Timestamp('2017-01-01'), pd.Timestamp('2017-12-31')) # Adicionando um zoom no gr√°fico
plt.show()

### Insights da An√°lise Temporal

As duas an√°lises temporais, a anual e a di√°ria, nos fornecem uma vis√£o completa e poderosa sobre a distribui√ß√£o dos dados, revelando dois insights cr√≠ticos:

1.  **Concentra√ß√£o Anual (Gr√°fico Logar√≠tmico):** A primeira an√°lise deixa claro que o dataset n√£o √© uma coleta cont√≠nua. Pelo contr√°rio, a atividade √© **massivamente concentrada no ano de 2017**. O uso da escala logar√≠tmica nos permite ver o crescimento nos anos anteriores, mas confirma que esses volumes s√£o insignificantes em compara√ß√£o com o salto exponencial no √∫ltimo ano.

2.  **Intensifica√ß√£o da Coleta em 2017 (Gr√°fico Di√°rio):** Ao dar um "zoom" em 2017, descobrimos um padr√£o ainda mais espec√≠fico: a coleta de dados n√£o foi uniforme ao longo do ano. Houve uma **explos√£o dr√°stica no volume de tweets a partir de Outubro**, indicando que a grande maioria dos dados relevantes se concentra no **√∫ltimo trimestre (Q4) de 2017**.

**Conclus√£o e Justificativa da A√ß√£o:**
Estas descobertas validam de forma irrefut√°vel a nossa decis√£o, tomada na etapa de pr√©-processamento, de **filtrar o dataset para focar em 2017**. Esta a√ß√£o foi essencial para garantir que nossa an√°lise e futura modelagem sejam feitas sobre o conjunto de dados mais denso, consistente e relevante, otimizando o processamento e a qualidade dos resultados.

Com a explora√ß√£o temporal conclu√≠da, podemos prosseguir com confian√ßa para a pr√≥xima fase: a cria√ß√£o de features a partir do nosso dataset limpo e focado.

# Parte 3: Engenharia de Features - Classifica√ß√£o de Inten√ß√£o

Com um dataset limpo e filtrado, iniciamos a Engenharia de Features. Nosso objetivo √© transformar o texto n√£o estruturado dos tweets em uma **feature categ√≥rica e estruturada** que descreva a **inten√ß√£o** do cliente. Isso √© fundamental para que nossos modelos possam entender o contexto de cada mensagem.

### 1. Classifica√ß√£o de Inten√ß√£o por Regras

Como primeira abordagem, implementaremos um classificador simples baseado em regras e palavras-chave. Este m√©todo tem grandes vantagens para a prototipagem:

*   **Rapidez:** √â computacionalmente muito eficiente.
*   **Interpretabilidade:** As regras s√£o claras e f√°ceis de entender e ajustar.
*   **Baseline:** Cria uma base de refer√™ncia s√≥lida para, futuramente, comparar com modelos de Machine Learning mais complexos.

As inten√ß√µes que buscaremos identificar s√£o: `RECLAMA√á√ÉO`, `D√öVIDA`, `ELOGIO` e `OUTRO`.

In [None]:
# --- Fun√ß√£o de Classifica√ß√£o e Aplica√ß√£o ---

# 1. Defini√ß√£o da fun√ß√£o de classifica√ß√£o baseada em palavras-chave.
def classificar_tipo(texto):
    """Classifica um texto em 'reclamacao', 'duvida', 'elogio' ou 'outro'."""
    texto = str(texto).lower()
    
    # Listas de palavras-gatilho para cada categoria.
    palavras_reclamacao = ['not working', 'problem', 'issue', 'broken', "doesn't work", 'worst', 'unacceptable', 'fail']
    palavras_elogio = ['thanks', 'great', 'awesome', 'love', 'excellent', 'perfect', 'thank you', 'kudos']
    
    # A ordem da verifica√ß√£o √© importante para a l√≥gica.
    if any(p in texto for p in palavras_reclamacao):
        return 'reclamacao'
    
    # Assumimos que a presen√ßa de '?' indica uma d√∫vida.
    elif '?' in texto:
        return 'd√∫vida'
        
    elif any(p in texto for p in palavras_elogio):
        return 'elogio'
    
    # Se nenhuma das condi√ß√µes anteriores for atendida, classificamos como 'outro'.
    else:
        return 'outro'

# 2. Aplicar a fun√ß√£o na coluna de texto do nosso DataFrame FILTRADO e LIMPO.
#    <<< CORRE√á√ÉO CR√çTICA: Usamos 'df_filtered' para manter a consist√™ncia do projeto.
df_filtered['tipo'] = df_filtered['text'].apply(classificar_tipo)

# 3. Exibir a distribui√ß√£o das novas categorias.
print("--- Distribui√ß√£o das Inten√ß√µes dos Tweets ---")
print(df_filtered['tipo'].value_counts())

In [None]:
# --- Visualiza√ß√£o da Distribui√ß√£o das Inten√ß√µes ---

# 1. Calcular a contagem de cada tipo.
tipo_counts = df_filtered['tipo'].value_counts()

# 2. Criar o gr√°fico de barras com Seaborn para um visual melhorado.
plt.figure(figsize=(12, 7))
ax = sns.barplot(x=tipo_counts.index, y=tipo_counts.values, palette='mako')
plt.title('Distribui√ß√£o dos Tipos de Mensagem (Inten√ß√£o)', fontsize=16)
plt.xlabel('Tipo de Inten√ß√£o', fontsize=12)
plt.ylabel('Quantidade de Tweets', fontsize=12)

# 3. Adicionar r√≥tulos de dados (data labels) em cima de cada barra.
#    Isso torna o gr√°fico muito mais f√°cil de ler.
for p in ax.patches:
    ax.annotate(f'{int(p.get_height()):,}', # Formata o n√∫mero com v√≠rgulas
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points')

plt.show()


#### Insights da Distribui√ß√£o:

O gr√°fico acima nos fornece a primeira vis√£o quantitativa sobre a natureza das intera√ß√µes no nosso dataset. Vemos uma distribui√ß√£o clara:

1.  **Grande Volume de "Outro":** A categoria `outro` √© a maior, com mais de 1.6 milh√£o de tweets. Isso √© esperado, pois nosso classificador por regras √© conservador e s√≥ categoriza tweets que cont√™m palavras-chave muito espec√≠ficas. Este grupo representa uma vasta gama de intera√ß√µes que n√£o s√£o claramente reclama√ß√µes, d√∫vidas ou elogios.

2.  **D√∫vidas s√£o Frequentes:** Com mais de 638 mil ocorr√™ncias, as `d√∫vidas` (identificadas pela presen√ßa de "?") s√£o a segunda categoria mais comum. Isso indica que uma grande parte do suporte ao cliente em redes sociais envolve esclarecer quest√µes dos usu√°rios.

3.  **Elogios Superam Reclama√ß√µes:** Um insight interessante √© que o n√∫mero de `elogios` (317 mil) √© maior que o de `reclama√ß√µes` (242 mil). Isso sugere que os clientes tamb√©m usam o Twitter como um canal para expressar satisfa√ß√£o, e n√£o apenas para relatar problemas.

**Implica√ß√£o Estrat√©gica:**
A distribui√ß√£o nos mostra que, embora as reclama√ß√µes sejam um ponto cr√≠tico, um sistema de IA eficaz tamb√©m deve ser capaz de lidar com um grande volume de d√∫vidas e intera√ß√µes neutras, al√©m de saber como responder a um elogio para refor√ßar a lealdade do cliente.

Com essa primeira classifica√ß√£o feita, o pr√≥ximo passo √© valid√°-la qualitativamente, observando amostras reais de cada categoria.```

### Por que esta an√°lise √© valiosa:

*   **Interpreta cada Categoria:** Ela n√£o apenas olha para o gr√°fico como um todo, mas tira uma conclus√£o para cada uma das barras.
*   **Justifica os Resultados:** A an√°lise explica *por que* √© normal que a categoria `outro` seja a maior, demonstrando um entendimento do funcionamento do seu pr√≥prio classificador.
*   **Extrai um Insight de Neg√≥cio:** A observa√ß√£o de que "Elogios Superam Reclama√ß√µes" √© um insight n√£o-trivial que pode ser valioso para uma equipe de marketing ou de produto.
*   **Cria uma Transi√ß√£o L√≥gica:** A √∫ltima frase j√° prepara o terreno para a pr√≥xima etapa que voc√™ tem no seu notebook (a valida√ß√£o por amostragem), criando um fluxo narrativo perfeito.

### 2. Valida√ß√£o da Classifica√ß√£o

Um passo crucial em qualquer tarefa de classifica√ß√£o √© verificar a qualidade dos resultados. Vamos extrair uma amostra aleat√≥ria de tweets classificados como `reclamacao` e `elogio` para avaliar se nosso classificador simples est√° se comportando como esperado.

In [None]:
# --- Valida√ß√£o por Amostragem ---

print("--- Amostra de Tweets classificados como RECLAMA√á√ÉO ---")
# Usamos '.tolist()' para obter uma lista de strings, facilitando a exibi√ß√£o.
amostra_reclamacoes = df_filtered[df_filtered['tipo'] == 'reclamacao']['text'].sample(5).tolist()

# O loop 'enumerate' nos d√° um contador 'i' (come√ßando em 1) e o tweet.
for i, tweet in enumerate(amostra_reclamacoes, 1):
    print(f"{i}: {tweet}\n")


print("\n" + "="*50 + "\n")


print("--- Amostra de Tweets classificados como ELOGIO ---")
amostra_elogios = df_filtered[df_filtered['tipo'] == 'elogio']['text'].sample(5).tolist()
for i, tweet in enumerate(amostra_elogios, 1):
    # A corre√ß√£o √© remover as aspas extras no final da linha abaixo.
    print(f"{i}: {tweet}\n")

### 3. Refinando a Classifica√ß√£o: Focando Apenas nos Clientes

Nossa valida√ß√£o manual revelou um insight importante: o classificador est√° identificando corretamente as palavras-chave, mas est√° sendo aplicado a todos os tweets, incluindo os dos agentes de suporte. Isso gera falsos positivos (e.g., um agente que menciona a palavra "issue" tem seu tweet classificado como uma reclama√ß√£o).

Para criar uma feature mais precisa, vamos refinar nossa abordagem: aplicaremos a l√≥gica de classifica√ß√£o **apenas nos tweets de entrada (inbound)**, que s√£o os que v√™m dos clientes.

In [None]:
# --- Criando uma Feature de Inten√ß√£o Refinada ---

def classificar_intencao_cliente(row):
    """
    Aplica a l√≥gica de classifica√ß√£o apenas se o tweet for de um cliente.
    Recebe uma linha inteira do DataFrame como entrada.
    """
    # Se o tweet for inbound (do cliente), aplicamos nossa l√≥gica.
    if row['inbound']:
        texto = str(row['text']).lower()
        palavras_reclamacao = ['not working', 'problem', 'issue', 'broken', "doesn't work", 'worst', 'unacceptable', 'fail']
        palavras_elogio = ['thanks', 'great', 'awesome', 'love', 'excellent', 'perfect', 'thank you', 'kudos']
        
        if any(p in texto for p in palavras_reclamacao):
            return 'reclamacao_cliente'
        elif '?' in texto:
            return 'duvida_cliente'
        elif any(p in texto for p in palavras_elogio):
            return 'elogio_cliente'
        else:
            return 'outro_cliente'
    # Se o tweet n√£o for inbound (da empresa), simplesmente rotulamos como 'resposta_empresa'.
    else:
        return 'resposta_empresa'

# Aplicamos a nova fun√ß√£o ao DataFrame inteiro, linha por linha (axis=1)
df_filtered['tipo_refinado'] = df_filtered.apply(classificar_intencao_cliente, axis=1)

# Verificamos a nova distribui√ß√£o
print("--- Distribui√ß√£o das Inten√ß√µes Refinadas ---")
print(df_filtered['tipo_refinado'].value_counts())

# Parte 4: Engenharia de Features II - An√°lise de Sentimento

A segunda feature crucial que vamos criar √© o **sentimento** de cada tweet. Saber se um cliente est√° feliz, neutro ou insatisfeito √© um contexto poderoso para gerar respostas autom√°ticas adequadas.

| Ferramenta     | Justificativa T√©cnica                                                                                               |
| :------------- | :------------------------------------------------------------------------------------------------------------------ |
| **VADER (NLTK)** | Escolhido por ser um modelo de an√°lise de sentimento otimizado para textos curtos de redes sociais, **capaz de interpretar emojis, pontua√ß√£o e a intensidade das palavras (e.g., "very good!!!")**. |
| **Visualiza√ß√µes**| Ser√£o usadas para analisar a distribui√ß√£o geral dos sentimentos e, mais importante, a **correla√ß√£o entre a inten√ß√£o do cliente e o seu sentimento**. |
| **Integra√ß√£o Futura**| A feature `sentimento` ser√° um input direto para o nosso modelo de LLM, permitindo a gera√ß√£o de respostas contextuais. |

In [None]:
# --- 1. Implementa√ß√£o da An√°lise de Sentimentos ---

# Importar as bibliotecas e inicializar as ferramentas
from nltk.sentiment.vader import SentimentIntensityAnalyzer
import nltk
nltk.download('vader_lexicon')
analisador = SentimentIntensityAnalyzer()

# Definir a fun√ß√£o para rotular o sentimento
def rotular_sentimento(texto):
    """Analisa um texto e o classifica como 'positivo', 'negativo' ou 'neutro'."""
    scores = analisador.polarity_scores(str(texto))
    compound_score = scores['compound']
    if compound_score >= 0.05: return 'positivo'
    elif compound_score <= -0.05: return 'negativo'
    else: return 'neutro'

# Aplicar a fun√ß√£o ao DataFrame filtrado, criando a coluna 'sentimento'
# <<< CORRE√á√ÉO DE CONSIST√äNCIA: Usamos 'df_filtered'.
# Aplicamos no texto original ('text') para que VADER use emojis e pontua√ß√£o.
df_filtered['sentimento'] = df_filtered['text'].apply(rotular_sentimento)

# --- 2. Visualiza√ß√£o da Distribui√ß√£o Geral ---
plt.figure(figsize=(10, 6))
ax = sns.countplot(x='sentimento', data=df_filtered, order=['positivo', 'neutro', 'negativo'], palette='coolwarm_r')
ax.set_title('Distribui√ß√£o Geral dos Sentimentos nos Tweets', fontsize=16)
ax.set_xlabel('Sentimento', fontsize=12)
ax.set_ylabel('Quantidade de Tweets', fontsize=12)

# Adicionar r√≥tulos de dados para clareza
for p in ax.patches:
    ax.annotate(f'{int(p.get_height()):,}', (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', xytext=(0, 9), textcoords='offset points')

plt.show()

In [None]:
# Cruzar tipo de mensagem x sentimento
import pandas as pd

df_clientes = df_filtered[df_filtered['inbound'] == True]
tabela_cruzada = pd.crosstab(df_clientes['tipo_refinado'], df_clientes['sentimento'], normalize='index') * 100
tabela_cruzada = tabela_cruzada.round(1)


# Visualizar com gr√°fico de barras empilhadas
tabela_cruzada.plot(kind='bar', stacked=True, figsize=(10,6), colormap='coolwarm')
plt.title('Sentimentos por Tipo de Mensagem (%)')
plt.xlabel('Tipo de Mensagem')
plt.ylabel('Porcentagem')
plt.legend(title='Sentimento')
plt.grid(True)
plt.show()


### Insights da An√°lise de Sentimentos

As visualiza√ß√µes acima nos fornecem uma compreens√£o profunda do tom emocional das intera√ß√µes no nosso dataset.

#### 1. Distribui√ß√£o Geral dos Sentimentos

O primeiro gr√°fico (distribui√ß√£o geral) revela um panorama interessante:
*   **Predomin√¢ncia Positiva:** A maioria dos tweets no dataset tem um sentimento **positivo**. Isso pode ser um pouco contraintuitivo, j√° que muitas vezes associamos o suporte ao cliente a problemas.
*   **Volume Relevante de Negatividade:** Apesar da predomin√¢ncia positiva, existe um volume substancial de quase **660 mil tweets negativos**, o que representa uma enorme quantidade de clientes insatisfeitos que precisam de aten√ß√£o.

Essa vis√£o geral, no entanto, √© incompleta. Ela mistura tweets de clientes com respostas de empresas. A verdadeira an√°lise vem do cruzamento com a inten√ß√£o do cliente.

#### 2. Correla√ß√£o entre Inten√ß√£o do Cliente e Sentimento

O segundo gr√°fico (barras empilhadas) √© a an√°lise mais poderosa e valida nossas hip√≥teses:
*   **Reclama√ß√µes s√£o Negativas:** Como esperado, a categoria `reclamacao_cliente` √© majoritariamente composta por sentimentos **negativos** (cerca de 55%). Isso confirma que nosso classificador de inten√ß√£o est√° funcionando bem.
*   **Elogios s√£o Positivos:** De forma esmagadora, a categoria `elogio_cliente` √© quase **100% positiva**. Outra forte valida√ß√£o da nossa engenharia de features.
*   **D√∫vidas e Outros:** As categorias `duvida_cliente` e `outro_cliente` s√£o mais mistas, com uma distribui√ß√£o mais equilibrada entre sentimentos positivos, neutros e negativos. Isso faz sentido, pois uma d√∫vida pode ser formulada de maneira neutra ("como fa√ßo X?"), frustrada ("por que n√£o consigo fazer X?!") ou positiva.

**Conclus√£o Estrat√©gica:**
Conseguimos criar duas features (`tipo_refinado` e `sentimento`) que n√£o apenas estruturam os dados, mas tamb√©m se validam mutuamente. Agora temos um contexto rico para cada tweet de cliente, o que ser√° fundamental para a pr√≥xima e √∫ltima etapa do projeto: **treinar um modelo de IA para gerar respostas adequadas a cada cen√°rio**.

### An√°lise B√¥nus: Ranking de Sentimento por Empresa

Como uma an√°lise de neg√≥cio adicional, podemos calcular o sentimento m√©dio associado √†s **respostas** de cada empresa. Isso nos permite criar um ranking e identificar quais marcas se comunicam de forma mais positiva ou negativa.

In [None]:
# --- Ranking de Sentimento M√©dio por Empresa ---

# 1. Criar a coluna com a pontua√ß√£o 'compound' bruta no nosso DataFrame principal.
df_filtered['compound_score'] = df_filtered['text'].apply(lambda text: analisador.polarity_scores(str(text))['compound'])

# 2. Filtrar apenas as respostas das empresas ('outbound') e calcular a m√©dia do score.
sentimento_por_empresa = df_filtered[df_filtered['inbound'] == False].groupby('author_id')['compound_score'].mean().sort_values(ascending=False)

# 3. Visualizar as 10 empresas com as respostas mais positivas.
plt.figure(figsize=(12, 6))
sentimento_por_empresa.head(10).plot(kind='barh', color='green')
plt.title('Top 10 Empresas com Maior Sentimento M√©dio em suas Respostas', fontsize=16)
plt.xlabel('Sentimento M√©dio (Compound Score)', fontsize=12)
plt.ylabel('ID da Empresa', fontsize=12)
plt.gca().invert_yaxis()
plt.show()

# 4. Visualizar as 10 empresas com as respostas mais negativas.
plt.figure(figsize=(12, 6))
sentimento_por_empresa.tail(10).plot(kind='barh', color='red')
plt.title('Top 10 Empresas com Menor Sentimento M√©dio em suas Respostas', fontsize=16)
plt.xlabel('Sentimento M√©dio (Compound Score)', fontsize=12)
plt.ylabel('ID da Empresa', fontsize=12)
plt.gca().invert_yaxis()
plt.show()

### Mapa de Calor: Correla√ß√£o entre Inten√ß√£o e Sentimento

Agora, vamos conectar nossas duas novas features (`tipo_refinado` e `sentimento`). Qual √© o sentimento predominante em cada tipo de inten√ß√£o do cliente? Esta an√°lise √© fundamental para validar nossas classifica√ß√µes.

In [None]:
# --- Mapa de Calor: Correla√ß√£o entre Inten√ß√£o e Sentimento ---

# 1. Filtrar apenas os tweets que s√£o de clientes ('inbound').
df_clientes = df_filtered[df_filtered['inbound'] == True].copy()

# 2. Criar uma tabela cruzada (crosstab) usando nossa coluna 'tipo_refinado'.
#    <<< CORRE√á√ÉO PRINCIPAL AQUI >>>
cross_tab = pd.crosstab(index=df_clientes['tipo_refinado'], 
                        columns=df_clientes['sentimento'],
                        normalize="index") * 100

# 3. Gerar o Mapa de Calor (Heatmap) para uma visualiza√ß√£o impactante.
plt.figure(figsize=(12, 7))
sns.heatmap(cross_tab, annot=True, cmap='viridis', fmt='.1f',
            cbar_kws={'label': 'Porcentagem (%)'})
plt.title('Mapa de Calor: Sentimento (%) por Tipo de Inten√ß√£o do Cliente', fontsize=16)
plt.xlabel('Sentimento', fontsize=12)
plt.ylabel('Tipo de Inten√ß√£o (Cliente)', fontsize=12)
plt.show()

### An√°lise de Performance por Marca e Valida√ß√£o Cruzada

As an√°lises finais desta se√ß√£o nos permitem avaliar a performance de comunica√ß√£o das empresas e validar a coer√™ncia das nossas features.

#### 1. Ranking de Sentimento por Empresa

Os gr√°ficos de barras horizontais nos mostram um ranking claro de quais empresas utilizam uma linguagem mais positiva ou negativa em suas respostas de suporte.
*   **Melhores Comunicadores:** Empresas como **HPSupport** e **TwitterSupport** se destacam por usarem uma linguagem consistentemente positiva em suas intera√ß√µes.
*   **Pontos de Melhoria:** Marcas como **KFC_UKI_Help** e **SW_Help** apresentam um sentimento m√©dio negativo em suas respostas, o que pode indicar um tom mais seco, rob√≥tico ou at√© mesmo frustrado, sendo um ponto de aten√ß√£o para a gest√£o de marca.

Esta an√°lise poderia, em um cen√°rio de neg√≥cio real, ser usada para identificar benchmarks de comunica√ß√£o ou √°reas que necessitam de treinamento.

#### 2. Mapa de Calor: A Prova Final

O mapa de calor √© a valida√ß√£o definitiva da nossa engenharia de features. Ele mostra a distribui√ß√£o percentual de sentimentos dentro de cada tipo de inten√ß√£o do cliente, revelando padr√µes claros:
*   **Elogios s√£o Positivos (90.4%):** Como esperado, a vasta maioria dos elogios de clientes tem um sentimento detectado como positivo.
*   **Reclama√ß√µes s√£o Negativas (55.4%):** A categoria `reclamacao_cliente` √© predominantemente negativa. Isso n√£o s√≥ valida nosso classificador de inten√ß√£o, mas tamb√©m mostra que a an√°lise de sentimentos est√° capturando a frustra√ß√£o dos clientes. O fato de n√£o ser 100% negativo √© interessante, indicando que algumas reclama√ß√µes s√£o feitas de forma mais neutra ou at√© educada ("... aprecio a ajuda, mas ainda n√£o funcionou").
*   **D√∫vidas e Outros:** As outras categorias s√£o mais distribu√≠das, o que √© esperado, pois perguntas e coment√°rios gerais podem ser feitos em qualquer tom.

**Conclus√£o Final da Engenharia de Features:**
Com sucesso, transformamos textos brutos e n√£o estruturados em **duas features de alta qualidade e mutuamente validadas**: `tipo_refinado` (a inten√ß√£o do cliente) e `sentimento` (o tom emocional).

Estamos agora na melhor posi√ß√£o poss√≠vel para avan√ßar para a fase final e mais empolgante do projeto: **utilizar essas features para guiar um modelo de IA Generativa na etapa de Modelagem**.


# Parte 2: Modelagem - Gera√ß√£o de Respostas com LLM

Com nossas features de contexto (`tipo_refinado` e `sentimento`) prontas, entramos na fase de modelagem. O objetivo aqui √© construir um sistema que utilize um **Modelo de Linguagem Grande (LLM)** para gerar respostas de atendimento ao cliente que sejam n√£o apenas relevantes, mas tamb√©m contextualmente adequadas ao tom e √† inten√ß√£o de cada tweet.

### 1. Escolha da Ferramenta e do Modelo

| Tecnologia | Justificativa T√©cnica                                                                                                                                                                     |
| :----------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **`transformers` (Hugging Face)** | √â a biblioteca padr√£o da ind√∫stria para trabalhar com modelos de linguagem de √∫ltima gera√ß√£o. Ela nos d√° acesso a milhares de modelos pr√©-treinados e ferramentas para control√°-los. |
| **`gpt2`** | Ap√≥s experimenta√ß√£o inicial com modelos de di√°logo (`DialoGPT`), escolhemos o `gpt2` como nosso modelo final. Por ser um modelo de prop√≥sito geral, ele demonstrou maior flexibilidade para seguir os padr√µes e instru√ß√µes complexas do nosso prompt, resultando em respostas de maior qualidade para esta tarefa. |
---

### üß† Um Mergulho R√°pido nos Transformers: O Que Roda Por Baixo dos Panos?

Embora a biblioteca `transformers` facilite nosso trabalho com uma √∫nica chamada de `pipeline`, por tr√°s dela ocorre um processo sofisticado, baseado na revolucion√°ria arquitetura "Transformer". Entender seus fundamentos nos permite criar prompts melhores e depurar problemas de forma mais eficaz.

Aqui est√° uma vis√£o simplificada do que acontece quando pedimos para a nossa IA gerar uma resposta:

1.  **Tokeniza√ß√£o:** O texto de entrada (nosso "prompt") n√£o √© lido diretamente. Primeiro, ele √© quebrado em peda√ßos menores chamados **tokens**. Estes podem ser palavras inteiras (como "app"), partes de palavras (como "un-accept-able") ou pontua√ß√£o.

2.  **Embeddings (Convers√£o para Vetores):** Cada token √© ent√£o mapeado para um **vetor num√©rico** de alta dimens√£o. Este vetor, chamado de *embedding*, representa o "significado" do token em um espa√ßo matem√°tico. Palavras com significados semelhantes ter√£o vetores pr√≥ximos.

3.  **O Mecanismo de Auto-Aten√ß√£o (Self-Attention):** Este √© o ingrediente secreto e a grande inova√ß√£o da arquitetura Transformer. Antes de gerar uma resposta, o modelo precisa entender o **contexto**. O mecanismo de aten√ß√£o permite que o modelo pese a import√¢ncia de cada token na frase em rela√ß√£o a todos os outros.
    *   **Analogia:** Imagine que voc√™ est√° lendo a frase: *"O aplicativo parou de funcionar depois da atualiza√ß√£o, que decep√ß√£o!"*. Para entender a frustra√ß√£o, o modelo precisa dar mais "aten√ß√£o" √†s palavras **'parou'**, **'funcionar'**, **'atualiza√ß√£o'** e **'decep√ß√£o'** do que a 'O' ou 'de'. O mecanismo de aten√ß√£o essencialmente "ilumina" as palavras mais relevantes para o contexto, permitindo que o modelo "preste aten√ß√£o" ao que realmente importa.

4.  **Gera√ß√£o da Resposta (Processo Autoregressivo):** Com o contexto entendido, o modelo come√ßa a gerar a resposta, um token de cada vez. Ele prev√™ a palavra mais prov√°vel para vir a seguir. Essa nova palavra √© ent√£o adicionada √† sequ√™ncia, e o processo se repete, com o modelo prestando aten√ß√£o em toda a sequ√™ncia (prompt original + palavras j√° geradas) para prever a pr√≥xima palavra, e assim por diante.

5.  **Decodifica√ß√£o:** Finalmente, a sequ√™ncia de tokens gerada pela IA √© decodificada de volta para um **texto leg√≠vel**, que √© o que vemos como a resposta final.

Entender esse fluxo nos ajuda a compreender por que o "prompt engineering" e t√©cnicas como o "Few-Shot Prompting" s√£o t√£o eficazes: estamos, na verdade, fornecendo um contexto inicial muito mais rico para o mecanismo de aten√ß√£o operar.

In [None]:
# --- Carregando o Modelo Final: GPT-2 ---

# Importar as bibliotecas necess√°rias
from transformers import pipeline
import torch

# Carregar o pipeline com o modelo 'gpt2', que √© mais robusto para seguir instru√ß√µes.
print("Carregando o modelo de IA 'gpt2'...")
generator = pipeline('text-generation', model='gpt2', device=0 if torch.cuda.is_available() else -1)
print("\nModelo de IA carregado com sucesso!")

### 2. Construindo o C√©rebro da Solu√ß√£o: A Fun√ß√£o de Gera√ß√£o Contextual

Esta fun√ß√£o representa o cora√ß√£o do sistema. Em vez de simplesmente passar o tweet do cliente para o modelo, foi constru√≠do um **prompt din√¢mico** para instru√≠-lo sobre como se comportar.

Ap√≥s um processo de experimenta√ß√£o, concluiu-se que a t√©cnica mais eficaz para o modelo `gpt2` nesta tarefa √© o **"One-Shot Prompting"**. A abordagem consiste em fornecer ao modelo um √∫nico exemplo de alta qualidade de uma intera√ß√£o ideal (Cliente -> Agente).

Isso "mostra" ao modelo o tom, o formato e a qualidade da resposta esperada, for√ßando-o a seguir um padr√£o conversacional e, consequentemente, a gerar resultados muito mais consistentes do que apenas atrav√©s de instru√ß√µes diretas.

In [None]:
# --- Fun√ß√£o de Gera√ß√£o Final (com Prompt H√≠brido "One-Shot") ---

def gerar_resposta_final(tweet_texto):
    """
    Gera uma resposta usando um prompt h√≠brido que d√° um exemplo claro (One-Shot),
    uma t√©cnica muito eficaz para modelos como o GPT-2.
    """
    # Este prompt define o contexto e mostra um exemplo ideal de intera√ß√£o.
    prompt = f"""This is a transcript of a customer service chat.

###
Customer: My order hasn't arrived yet and the tracking number doesn't work!
Agent: I'm so sorry to hear about the trouble with your order. I can definitely look into this for you. Could you please provide your order number?
###
Customer: {tweet_texto}
Agent: We're sorry"""
    
    respostas = generator(
        prompt,
        max_new_tokens=60,      # Limita o tamanho da resposta
        no_repeat_ngram_size=2, # Evita repeti√ß√µes
        pad_token_id=generator.tokenizer.eos_token_id,
        truncation=True
    )

    # L√≥gica de limpeza para extrair apenas a resposta final do agente.
    texto_gerado = respostas[0]['generated_text']
    # Encontra a posi√ß√£o da √∫ltima ocorr√™ncia de "Agent:"
    posicao_final_agent = texto_gerado.rfind("Agent:")
    # Pega todo o texto ap√≥s essa posi√ß√£o.
    resposta_limpa = texto_gerado[posicao_final_agent + len("Agent:"):].strip()
    
    return resposta_limpa



### 3. Teste em Cen√°rios Reais

Para validar o sistema completo, a etapa seguinte consiste em test√°-lo com dados reais. Ser√£o selecionadas amostras aleat√≥rias de diferentes inten√ß√µes de cliente (reclama√ß√µes, elogios, etc.) do dataset para serem processadas pela fun√ß√£o de gera√ß√£o de IA, permitindo uma avalia√ß√£o qualitativa das respostas geradas.

In [None]:
# --- Teste Final com a Abordagem Definitiva ---

# --- Teste 1: Uma Reclama√ß√£o REAL de um cliente ---
exemplo_reclamacao = df_filtered[df_filtered['tipo_refinado'] == 'reclamacao_cliente'].sample(1)
texto_reclamacao = exemplo_reclamacao['text'].values[0]
resposta_gerada_reclamacao = gerar_resposta_final(texto_reclamacao)

print("--- üí¨ EXEMPLO COM RECLAMA√á√ÉO ---")
print(f"Tweet Original: {texto_reclamacao}")
print(f"‚úÖ Resposta Gerada pelo LLM: {resposta_gerada_reclamacao}\n")


# --- Teste 2: Um Elogio REAL de um cliente ---
exemplo_elogio = df_filtered[df_filtered['tipo_refinado'] == 'elogio_cliente'].sample(1)
texto_elogio = exemplo_elogio['text'].values[0]
resposta_gerada_elogio = gerar_resposta_final(texto_elogio)

print("--- üòç EXEMPLO COM ELOGIO ---")
print(f"Tweet Original: {texto_elogio}")
print(f"‚úÖ Resposta Gerada pelo LLM: {resposta_gerada_elogio}\n")


# --- Teste 3: Uma D√∫vida REAL de um cliente ---
exemplo_duvida = df_filtered[df_filtered['tipo_refinado'] == 'duvida_cliente'].sample(1)
texto_duvida = exemplo_duvida['text'].values[0]
resposta_gerada_duvida = gerar_resposta_final(texto_duvida)

print("--- ‚ùì EXEMPLO COM D√öVIDA ---")
print(f"Tweet Original: {texto_duvida}")
print(f"‚úÖ Resposta Gerada pelo LLM: {resposta_gerada_duvida}\n")

# Conclus√£o e Pr√≥ximos Passos

## ‚úÖ Resultados e Conclus√£o do Projeto

Neste projeto, foi desenvolvido com sucesso um prot√≥tipo de ponta a ponta para um sistema de otimiza√ß√£o de atendimento ao cliente baseado em IA. Partindo de um dataset bruto de quase 3 milh√µes de tweets, foi poss√≠vel:

1.  **Analisar e Pr√©-processar** os dados, identificando o per√≠odo de maior relev√¢ncia (2017) e aplicando t√©cnicas de limpeza de texto.
2.  **Criar Features de Alto Valor** atrav√©s da Engenharia de Features, classificando a inten√ß√£o de cada tweet de cliente (`tipo_refinado`) e seu tom emocional (`sentimento`).
3.  **Implementar um Modelo de Linguagem Avan√ßado (LLM)**, o **`gpt2`**, para gerar respostas contextuais.
4.  **Refinar a Gera√ß√£o de Respostas** utilizando a t√©cnica de **"One-Shot Prompting"** e o controle de par√¢metros (`temperature`, `top_k`, etc.), melhorando significativamente a qualidade e a consist√™ncia das respostas geradas.

O resultado final √© um sistema capaz de receber um tweet e, em segundos, fornecer uma sugest√£o de resposta adequada, demonstrando o imenso potencial da IA Generativa para automatizar e escalar opera√ß√µes de atendimento ao cliente.

## üöÄ Pr√≥ximos Passos e Melhorias Futuras

Este prot√≥tipo funcional √© um excelente ponto de partida, mas um projeto de IA est√° sempre em evolu√ß√£o. Com base no que foi constru√≠do, identifico v√°rias oportunidades claras para levar esta solu√ß√£o ao pr√≥ximo n√≠vel:

*   **Evoluir a Classifica√ß√£o de Inten√ß√£o:** O classificador por regras foi um √≥timo primeiro passo, mas para capturar nuances mais complexas, o pr√≥ximo passo seria **treinar um modelo de Machine Learning dedicado**. Eu poderia come√ßar com um `Logistic Regression` sobre vetores TF-IDF e, para m√°xima precis√£o, evoluir para um modelo baseado em Transformers, como o `BERT`, que treinaria especificamente para esta tarefa.

*   **Personalizar o Tom com Fine-tuning:** Para que as respostas soem exatamente como uma marca espec√≠fica, eu realizaria o **fine-tuning (ajuste fino) do modelo `gpt2`**. Para isso, eu buscaria um dataset com exemplos reais de intera√ß√µes da empresa, ensinando o modelo a adotar um tom de voz e um estilo de comunica√ß√£o √∫nicos.

*   **Aumentar a Qualidade com Modelos de Ponta:** Para alcan√ßar o estado da arte em gera√ß√£o de texto, o passo seguinte seria integrar o sistema com APIs de modelos maiores, como o **GPT-4 (OpenAI)** ou o **Gemini (Google AI)**. Isso me permitiria explorar como a qualidade da resposta escala com o poder do modelo e me daria experi√™ncia pr√°tica com plataformas de MLaaS (Machine Learning as a Service) como **AWS Bedrock** ou **Azure AI Studio**.

*   **Transformar em Produto com um Dashboard Interativo:** A melhor forma de demonstrar o valor deste projeto √© torn√°-lo tang√≠vel. Meu pr√≥ximo objetivo √© **empacotar esta solu√ß√£o em um dashboard interativo usando Streamlit**. Isso permitiria que qualquer pessoa, mesmo sem conhecimento t√©cnico, pudesse testar a IA, ver os resultados e entender seu potencial.

*   **Quantificar o Impacto de Neg√≥cio:** Finalmente, em um contexto corporativo, eu focaria em uma **an√°lise de custo-benef√≠cio**. Isso envolveria estimar o impacto da automa√ß√£o em m√©tricas de neg√≥cio, como a potencial redu√ß√£o no Tempo M√©dio de Resposta (TMR) e o c√°lculo do Retorno Sobre o Investimento (ROI) da solu√ß√£o.