# üìä An√°lise de E-commerce: O que faz um produto ser 5 estrelas?
**Autor:** Guilherme Pires Oliveira
**Tecnologias:** Python, Pandas, Seaborn, NLP (Processamento de Linguagem Natural)

---

### üéØ Objetivo do Projeto
Analisar dados reais de vendas de eletr√¥nicos na Amazon para responder a perguntas estrat√©gicas:
1. Pre√ßo alto √© sin√¥nimo de qualidade?
2. A Intelig√™ncia Artificial avalia produtos da mesma forma que humanos?
3. O que os clientes mais valorizam na hora da compra?

**O Diferencial:** Al√©m da an√°lise estat√≠stica, utilizamos t√©cnicas de **NLP** para ler os resumos gerados por IA e extrair insights de neg√≥cio para o time de Marketing.

### üì• Etapa 1: Coleta e Carga de Dados (Data Ingestion)
Todo projeto de Data Science come√ßa com a aquisi√ß√£o dos dados.
Nesta etapa, realizamos:

1.  **Conex√£o via API:** Utilizamos a biblioteca `kagglehub` para baixar o dataset *"Amazon Reviews and AI Narratives"* diretamente da fonte, garantindo que estamos usando a vers√£o mais atualizada.
2.  **Leitura do Arquivo:** Identificamos o arquivo principal (`final_narratives.csv`) dentro da pasta baixada e o carregamos para um DataFrame do Pandas.
3.  **Inspe√ß√£o Inicial:** Exibimos as primeiras linhas (`df.head()`) para entender a estrutura da tabela e verificar se as colunas (como `review_rating`, `actual_price`) foram importadas corretamente.

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("nadaarfaoui/amazon-reviews-and-ai-narratives-dataset")

print("Path to dataset files:", path)

In [None]:
import pandas as pd
import os

# 1. Definir o caminho onde os arquivos est√£o (baseado no seu print)
path = "/kaggle/input/amazon-reviews-and-ai-narratives-dataset"

# 2. Carregar o arquivo principal (o "final_narratives.csv" √© o mais limpo para come√ßar)
# Vamos listar os arquivos na pasta para garantir o nome exato
arquivos = os.listdir(path)
print(f"Arquivos encontrados: {arquivos}")

# Carregando o dataset curado
df = pd.read_csv(f"{path}/final_narratives.csv")

# 3. Visualizar as primeiras linhas e informa√ß√µes gerais
print("\n--- Primeiras 5 linhas ---")
display(df.head())

print("\n--- Informa√ß√µes do Dataset ---")
df.info()

### üßπ Etapa 2: Tratamento e Limpeza (Data Cleaning)
Ao inspecionar os dados, identificamos um problema comum em datasets reais: colunas num√©ricas (como Pre√ßo e Avalia√ß√£o) foram interpretadas como Texto (`object`) devido √† presen√ßa de caracteres especiais (s√≠mbolos de moeda, v√≠rgulas, etc.).

**O que este c√≥digo faz:**
1.  **Sele√ß√£o:** Identificamos as colunas problem√°ticas (`discount_price`, `actual_price`, etc.).
2.  **Express√£o Regular (Regex):** Utilizamos o padr√£o `r'[^\d.]'` para varrer cada linha e **apagar** tudo o que n√£o for n√∫mero (d√≠gito) ou ponto decimal. Isso remove moedas e textos indesejados.
3.  **Convers√£o de Tipo (Casting):** Transformamos o resultado limpo em n√∫meros reais (`float`), permitindo que fa√ßamos c√°lculos matem√°ticos e estat√≠sticos nas pr√≥ximas etapas.

In [None]:
# Lista das colunas que deveriam ser n√∫meros mas est√£o como texto
colunas_numericas = ['discount_price', 'actual_price', 'review_rating', 'no_of_ratings']

# Vamos limpar cada uma delas
for col in colunas_numericas:
    # 1. For√ßa virar texto (str) para garantir
    # 2. Substitui tudo que N√ÉO for n√∫mero ou ponto (.) por vazio
    # O regex r'[^\d.]' significa: "apague tudo que n√£o for d√≠gito ou ponto"
    df[col] = df[col].astype(str).str.replace(r'[^\d.]', '', regex=True)

    # 3. Converte para n√∫mero (float). Se der erro, coloca NaN (nulo)
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Vamos verificar se mudou de 'object' para 'float64'
print("--- Novos Tipos de Dados ---")
df.info()

# Vamos ver as estat√≠sticas (M√©dia, M√°ximo, M√≠nimo) para ver se faz sentido
print("\n--- Estat√≠sticas Descritivas ---")
display(df.describe())

In [None]:
# Taxa de convers√£o aproximada (1 INR = 0.07 BRL)
taxa_conversao = 0.07

# Criando colunas novas em Reais
df['preco_real'] = df['actual_price'] * taxa_conversao
df['desconto_real'] = df['discount_price'] * taxa_conversao

# Vamos ver como ficou
print("--- Compara√ß√£o R√∫pia vs Real ---")
display(df[['actual_price', 'preco_real']].head())

print("\n--- Estat√≠sticas em Reais ---")
display(df['preco_real'].describe())

### üîç Etapa 3: An√°lise Explorat√≥ria (EDA) - Matriz de Correla√ß√£o
Com os dados limpos e num√©ricos, entramos na an√°lise estat√≠stica.
O objetivo aqui √© medir a for√ßa da rela√ß√£o linear entre diferentes vari√°veis. Para isso, utilizamos a **Correla√ß√£o de Pearson**, que varia de -1 a 1.

**O que o c√≥digo faz:**
1.  **Filtro:** Selecionamos apenas as colunas num√©ricas relevantes para o neg√≥cio (`Pre√ßo`, `Desconto`, `Nota do Cliente`, `Nota da IA`).
2.  **C√°lculo:** O m√©todo `.corr()` processa milhares de linhas e calcula como uma vari√°vel se comporta em rela√ß√£o √† outra.
3.  **Visualiza√ß√£o:** Usamos a biblioteca **Seaborn** para gerar um *Heatmap*.
    * **Vermelho (perto de 1.0):** Correla√ß√£o Positiva Forte (quando um sobe, o outro sobe).
    * **Azul (perto de -1.0):** Correla√ß√£o Negativa (quando um sobe, o outro desce).
    * **Claro (perto de 0.0):** Nenhuma rela√ß√£o aparente.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configurando o tamanho da imagem
plt.figure(figsize=(10, 6))

# Selecionando apenas as colunas num√©ricas para correla√ß√£o
# Vamos ver a rela√ß√£o entre: Pre√ßo, Desconto, Nota do Cliente e Nota da IA
cols_interesse = ['actual_price', 'discount_price', 'review_rating', 'best_avg_score']
correlacao = df[cols_interesse].corr()

# Criando o Mapa de Calor (Heatmap)
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)

plt.title("Mapa de Correla√ß√£o: Pre√ßo x Avalia√ß√£o x Nota da IA")
plt.show()

### 1. Dinheiro n√£o compra satisfa√ß√£o (Pre√ßo vs. Nota)
**Observa√ß√£o:** Ao analisar a correla√ß√£o entre `preco_real` e `review_rating`, o valor encontrado foi pr√≥ximo de **0.01** (cor muito clara no mapa).

**Conclus√£o de Neg√≥cio:**
Identificamos que **n√£o existe correla√ß√£o linear** entre o pre√ßo do produto e a nota dada pelo cliente.
* **O que isso significa:** Um produto custar 10x mais n√£o garante que ele ter√° uma nota melhor. Na Amazon, a satisfa√ß√£o do cliente est√° ligada √† entrega de valor (custo-benef√≠cio) e n√£o ao pre√ßo absoluto. Produtos baratos podem ser t√£o bem avaliados quanto itens de luxo, desde que cumpram o que prometem.

### üáßüá∑ Etapa 4: Localiza√ß√£o e Engenharia de Atributos (Feature Engineering)
Para que a an√°lise gere valor para stakeholders brasileiros, precisamos adaptar os dados ao nosso contexto.
Nesta etapa, realizamos duas transforma√ß√µes cruciais:

1.  **Convers√£o Monet√°ria (Currency Conversion):**
    * Os pre√ßos originais estavam em R√∫pias Indianas (INR).
    * Aplicamos uma taxa de convers√£o aproximada (`0.07`) para criar colunas em Reais (BRL), permitindo uma no√ß√£o intuitiva de valor (saber se o produto custa R$ 50 ou R$ 5.000).

2.  **Tradu√ß√£o de Colunas (Renaming):**
    * Renomeamos as vari√°veis t√©cnicas do ingl√™s (ex: `actual_price`, `review_rating`) para termos de neg√≥cio em portugu√™s (ex: `preco_original`, `nota_cliente`).
    * Isso n√£o √© apenas est√©tica; √© **acessibilidade**. Facilita a leitura de gr√°ficos e relat√≥rios por qualquer pessoa da empresa, n√£o apenas programadores.

In [None]:
# --- ETAPA 1: CONVERS√ÉO DE MOEDA (Matem√°tica) ---
# Taxa aproximada: 1 R√∫pia (INR) = 0.07 Reais (BRL)
# Vamos multiplicar as colunas de pre√ßo por 0.07
df['actual_price'] = df['actual_price'] * 0.07
df['discount_price'] = df['discount_price'] * 0.07

# --- ETAPA 2: TRADU√á√ÉO DAS COLUNAS (Renomea√ß√£o) ---
# Dicion√°rio DE (Ingl√™s) -> PARA (Portugu√™s)
dicionario_colunas = {
    'name': 'nome_produto',
    'main_category': 'categoria_principal',
    'sub_category': 'sub_categoria',
    'review_rating': 'nota_cliente',
    'no_of_ratings': 'num_avaliacoes',
    'discount_price': 'preco_com_desconto',  # Pre√ßo que o cliente paga
    'actual_price': 'preco_original',        # Pre√ßo "de tabela" (riscado)
    'best_model': 'melhor_modelo_ia',
    'raw_best_summary': 'resumo_ia',
    'best_avg_score': 'nota_ia'
}

# Aplicando a renomea√ß√£o
df = df.rename(columns=dicionario_colunas)

# --- VERIFICANDO O RESULTADO ---
print("--- Novas Colunas em Portugu√™s ---")
display(df.head(3))

print("\n--- Estat√≠sticas em Reais (R$) ---")
# Formatando para aparecer com 2 casas decimais
display(df[['preco_original', 'preco_com_desconto']].describe().round(2))

### üìä Etapa 5: Visualiza√ß√£o da Correla√ß√£o (Dados Localizados)
Com as colunas traduzidas e os valores convertidos para Reais, geramos o gr√°fico definitivo para a an√°lise.

**Por que refazer o gr√°fico?**
1.  **Acessibilidade:** Ao usar eixos em portugu√™s (`preco_original`, `nota_cliente`), eliminamos a barreira do idioma. O gr√°fico deixa de ser apenas t√©cnico e passa a ser uma ferramenta de comunica√ß√£o de neg√≥cio.
2.  **Valida√ß√£o de Integridade:** Observe que os valores de correla√ß√£o (ex: `0.01` entre Pre√ßo e Nota) permanecem id√™nticos aos dados originais. Isso prova matematicamente que nossa convers√£o de moeda (R$ vs ‚Çπ) foi feita corretamente e n√£o distorceu a realidade estat√≠stica dos dados.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))

# Selecionando as colunas com os NOVOS nomes em portugu√™s
cols_luso = ['preco_original', 'preco_com_desconto', 'nota_cliente', 'nota_ia']
correlacao = df[cols_luso].corr()

# Gerando o gr√°fico
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Mapa de Correla√ß√£o (Dados em Portugu√™s)")
plt.show()

### 1. Pre√ßo alto n√£o garante nota alta
**Observa√ß√£o:**
Ao analisar a correla√ß√£o entre `preco_original` e `nota_cliente`, o valor encontrado foi pr√≥ximo de **0.01** (cor muito clara no mapa).

**Conclus√£o de Neg√≥cio:**
Identificamos que **n√£o existe correla√ß√£o linear** entre o pre√ßo do produto e a nota dada pelo cliente.
* **O que isso significa:** Um produto custar R\$ 10.000 n√£o garante que ele ter√° uma nota melhor do que um de R\$ 50. Na Amazon, a satisfa√ß√£o do cliente est√° ligada √† entrega de valor (custo-benef√≠cio) e n√£o ao pre√ßo absoluto. Produtos baratos podem ser t√£o bem avaliados quanto itens de luxo.

### 2. Diverg√™ncia entre Humanos e IA (Cliente vs. Algoritmo)
**Observa√ß√£o:**
Ao cruzar a nota dada pelos clientes (`nota_cliente`) com a pontua√ß√£o de qualidade da narrativa gerada pela IA (`nota_ia`), encontramos uma **correla√ß√£o negativa fraca de -0.18**.

**Conclus√£o de Neg√≥cio:**
Isso indica que a IA e os Humanos avaliam crit√©rios diferentes:
* **O Humano (Cliente):** Avalia a **experi√™ncia de uso** (funcionalidade, entrega, satisfa√ß√£o pessoal).
* **A M√°quina (IA):** Avalia a **riqueza t√©cnica do texto** (detalhes, estrutura da narrativa).
* **O Insight Estrat√©gico:** Um produto pode ser amado pelos clientes (5 estrelas) mas ter uma descri√ß√£o simples que a IA n√£o considera "rica". Portanto, sistemas de recomenda√ß√£o n√£o devem confiar cegamente apenas em scores autom√°ticos de IA, pois eles podem n√£o refletir a satisfa√ß√£o real do usu√°rio.

### 3. A L√≥gica dos Descontos (Valida√ß√£o de Dados)
**Observa√ß√£o:**
A correla√ß√£o entre `preco_original` e `preco_com_desconto` √© fort√≠ssima: **0.96** (vermelho escuro).

**Conclus√£o de Neg√≥cio:**
Este resultado valida a integridade dos dados.
* **A L√≥gica:** √â matematicamente esperado que quanto maior o pre√ßo original de um produto, maior ser√° o valor absoluto do desconto aplicado (ex: 10% de desconto em um carro √© mais dinheiro do que 10% em uma bala).
* **Por que isso √© importante:** Essa correla√ß√£o forte confirma que n√£o h√° erros graves de c√°lculo na base de dados, garantindo que podemos confiar nos n√∫meros para as pr√≥ximas an√°lises.

### üìä Etapa 6: Ranking de Categorias (A Descoberta do Nicho)
Nesta etapa, nosso objetivo de neg√≥cio era responder: *"Qual categoria de produtos tem a maior satisfa√ß√£o m√©dia?"*

**O que o c√≥digo faz:**
1.  **Agrupamento:** Utilizamos `.groupby('categoria_principal')` para juntar todos os produtos da mesma fam√≠lia.
2.  **M√©dia:** Calculamos a m√©dia da `nota_cliente` para cada grupo.
3.  **Visualiza√ß√£o:** Geramos um gr√°fico de barras para comparar os resultados.

**O Insight (A surpresa):**
O gr√°fico revelou que **100% dos dados** pertencem a uma √∫nica categoria: `tv, audio & cameras`.
* **Conclus√£o:** Este dataset n√£o √© de um e-commerce generalista, mas sim especializado em eletr√¥nicos.
* **Decis√£o de Projeto:** Como n√£o √© poss√≠vel comparar categorias diferentes, nossa an√°lise estrat√©gica ir√° pivotar para investigar **Sub-categorias** e, principalmente, a **An√°lise de Texto (NLP)** para encontrar diferenciais competitivos dentro desse nicho.

In [None]:
# 1. Preparando os dados (Agrupando por Categoria e calculando a M√©dia da Nota)
ranking_categorias = df.groupby('categoria_principal')['nota_cliente'].mean().sort_values(ascending=False).reset_index()

# 2. Criando o Gr√°fico
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 6))
sns.barplot(x='nota_cliente', y='categoria_principal', data=ranking_categorias, palette='viridis')

# 3. Ajustando o visual
plt.title('Ranking de Satisfa√ß√£o: Qual categoria tem as melhores notas?', fontsize=14)
plt.xlabel('Nota M√©dia (1 a 5)')
plt.ylabel('Categoria')
plt.xlim(3.5, 5.0) # Dando um "zoom" para ver melhor as diferen√ßas
plt.show()

# 4. Mostrando a tabela com os n√∫meros exatos
display(ranking_categorias)

### üìä Etapa 6: Ranking de Categorias (A Descoberta do Nicho)
Nesta etapa, nosso objetivo de neg√≥cio era responder: *"Qual categoria de produtos tem a maior satisfa√ß√£o m√©dia?"*

**O que o c√≥digo faz:**
1.  **Agrupamento:** Utilizamos `.groupby('categoria_principal')` para juntar todos os produtos da mesma fam√≠lia.
2.  **M√©dia:** Calculamos a m√©dia da `nota_cliente` para cada grupo.
3.  **Visualiza√ß√£o:** Geramos um gr√°fico de barras para comparar os resultados.

**O Insight (A surpresa):**
O gr√°fico revelou que **100% dos dados** pertencem a uma √∫nica categoria: `tv, audio & cameras`.
* **Conclus√£o:** Este dataset n√£o √© de um e-commerce generalista, mas sim especializado em eletr√¥nicos.
* **Decis√£o de Projeto:** Como n√£o √© poss√≠vel comparar categorias diferentes, nossa an√°lise estrat√©gica ir√° pivotar para investigar **Sub-categorias** e, principalmente, a **An√°lise de Texto (NLP)** para encontrar diferenciais competitivos dentro desse nicho.

In [None]:
# 1. Tira a prova real: Quantas categorias principais existem?
print("--- Contagem por Categoria Principal ---")
print(df['categoria_principal'].value_counts())

print("\n" + "="*50 + "\n")

# 2. Vamos para o detalhe: An√°lise por SUB-CATEGORIA
# Agrupando e ordenando
ranking_sub = df.groupby('sub_categoria')['nota_cliente'].mean().sort_values(ascending=False).reset_index()

# 3. Gerando o Gr√°fico de Barras (Top 10 para n√£o ficar pol√∫ido)
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 7))
# Pegamos apenas as top 10 subcategorias com head(10)
sns.barplot(x='nota_cliente', y='sub_categoria', data=ranking_sub.head(10), palette='magma')

plt.title('Top 10 Sub-Categorias com Maior Satisfa√ß√£o', fontsize=14)
plt.xlabel('Nota M√©dia (1 a 5)')
plt.ylabel('Sub-Categoria')
plt.xlim(3.5, 5.0) # Zoom para ver as diferen√ßas
plt.show()

# 4. Mostrando os dados
display(ranking_sub.head(10))

In [None]:
# 1. Vamos contar quantos modelos de IA diferentes existem
contagem_modelos = df['melhor_modelo_ia'].value_counts()

print("--- Modelos de IA encontrados ---")
print(contagem_modelos)

# 2. Se tiver mais de um modelo, vamos ver qual tem a melhor nota m√©dia (nota_ia)
if len(contagem_modelos) > 1:
    ranking_ia = df.groupby('melhor_modelo_ia')['nota_ia'].mean().sort_values(ascending=False).reset_index()

    import seaborn as sns
    import matplotlib.pyplot as plt

    plt.figure(figsize=(10, 6))
    sns.barplot(x='nota_ia', y='melhor_modelo_ia', data=ranking_ia, palette='rocket')
    plt.title('Batalha das IAs: Qual modelo escreve as melhores narrativas?')
    plt.xlabel('Nota M√©dia da IA')
    plt.xlim(0, 1) # A nota da IA geralmente vai de 0 a 1
    plt.show()
else:
    print("\n‚ö†Ô∏è OPA! S√≥ tem um modelo de IA tamb√©m. Me avise se aparecer essa mensagem!")

### 4. Batalha de LLMs: BART vs. T5
**Observa√ß√£o:**
Ao comparar a performance m√©dia dos modelos de linguagem utilizados para gerar as narrativas:
* **Modelo BART:** Atingiu uma pontua√ß√£o m√©dia superior a **0.55**.
* **Modelo T5:** Ficou com uma m√©dia inferior, pr√≥xima de **0.38**.

**Conclus√£o T√©cnica:**
O modelo **BART** demonstrou ser significativamente superior ao T5 para a tarefa de sumariza√ß√£o de avalia√ß√µes neste dom√≠nio de produtos (eletr√¥nicos).
* **Decis√£o de Engenharia:** Em um cen√°rio de implementa√ß√£o real (deploy), o BART seria a escolha recomendada, pois entrega resumos de maior qualidade t√©cnica, garantindo descri√ß√µes mais ricas e precisas para os clientes.

### ‚òÅÔ∏è Etapa 7: Minera√ß√£o de Texto (NLP) e Word Cloud
Como descobrimos que o dataset √© focado em um nicho (eletr√¥nicos), a an√°lise num√©rica de vendas (que √© parecida para todos) perde for√ßa.
√â aqui que entra o **Processamento de Linguagem Natural (NLP)**.

**O que o c√≥digo faz:**
1.  **Agrega√ß√£o de Texto:** O comando `" ".join(...)` pega todos os resumos escritos pela IA na coluna `resumo_ia` e os junta em um √∫nico texto gigante.
2.  **Limpeza (Stopwords):** Utilizamos a lista `STOPWORDS` para remover palavras que n√£o agregam valor sem√¢ntico (como "the", "is", "a", "and"), deixando apenas os termos de neg√≥cio.
3.  **Visualiza√ß√£o:** A biblioteca `WordCloud` gera a imagem onde **tamanho = frequ√™ncia**.
    * **Resultado Visual:** As palavras **"Battery"**, **"Camera"** e **"Good"** aparecem gigantes.
    * **Insight Imediato:** Isso prova visualmente que a satisfa√ß√£o do cliente nesta categoria depende quase exclusivamente da bateria e da c√¢mera, guiando a estrat√©gia de marketing.

In [None]:
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

# 1. Juntando todos os textos da coluna 'resumo_ia' em um √∫nico texto gigante
# (Certifique-se que o nome da coluna est√° certo. Se der erro, tente 'raw_best_summary')
todos_resumos = " ".join(s for s in df['resumo_ia'].dropna())

# 2. Configurando a Nuvem de Palavras
# STOPWORDS s√£o palavras vazias (the, a, in, etc) que a gente remove para n√£o poluir
stopwords = set(STOPWORDS)
# Adicione palavras extras se precisar (ex: "product", "amazon")
stopwords.update(["product", "amazon", "one", "use"])

wordcloud = WordCloud(stopwords=stopwords,
                      background_color="black",
                      width=1600, height=800,
                      colormap='viridis').generate(todos_resumos)

# 3. Exibindo a imagem
plt.figure(figsize=(15, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off") # Tira as bordas com n√∫meros
plt.title("O que a IA mais destaca nos produtos?", fontsize=20, color='gray')
plt.show()

### 5. Nuvem de Palavras: O que o cliente valoriza?
**Observa√ß√£o:**
A an√°lise visual das palavras mais frequentes nos resumos gerados pela IA (Word Cloud) revelou tr√™s pilares principais:
1. **Sentimento:** Predomin√¢ncia absoluta de termos positivos ("Awesome", "Good", "Great"), alinhado com a alta m√©dia de notas do dataset.
2. **Funcionalidade:** As caracter√≠sticas t√©cnicas mais citadas foram **"Battery Life"** (Vida √∫til da bateria) e **"Camera"**.
3. **Marca:** A presen√ßa destacada da palavra **"Apple"** indica a relev√¢ncia da marca nas avalia√ß√µes analisadas.

**Conclus√£o de Neg√≥cio:**
Para produtos desta categoria (Eletr√¥nicos/Smartphones), a satisfa√ß√£o do cliente √© definida primariamente pela **autonomia da bateria** e **qualidade da c√¢mera**.
* **A√ß√£o Recomendada:** Em campanhas de marketing para estes produtos, destacar termos como "Bateria de longa dura√ß√£o" e "C√¢mera de alta resolu√ß√£o" tende a gerar maior convers√£o, pois s√£o as dores e desejos mais latentes nos resumos de quem j√° comprou.

# üöÄ Conclus√£o Executiva e Solu√ß√£o de Neg√≥cio

Ap√≥s pivotar a an√°lise para focar em Processamento de Linguagem Natural (NLP), transformamos dados t√©cnicos em **Estrat√©gia de Vendas**.

### 1. O Diagn√≥stico
A an√°lise de correla√ß√£o provou que **pre√ßo n√£o define satisfa√ß√£o** (correla√ß√£o 0.01). O cliente de eletr√¥nicos √© pragm√°tico e busca funcionalidade, n√£o luxo.

### 2. A Solu√ß√£o de Marketing (Actionable Insight)
A minera√ß√£o de texto revelou que a satisfa√ß√£o do cliente est√° ancorada em dois pilares t√©cnicos: **BATERIA** e **C√ÇMERA**.

‚úÖ **A√ß√£o Recomendada:**
Em campanhas de marketing para estes produtos, **destacar termos como "Bateria de longa dura√ß√£o" e "C√¢mera de alta resolu√ß√£o" tende a gerar maior convers√£o.**
Os dados mostram que essas s√£o as dores e desejos mais latentes nos resumos de quem j√° comprou. Focar nisso na *copy* do an√∫ncio √© atacar diretamente a necessidade do consumidor.

### 3. Decis√£o de Engenharia
Para a automa√ß√£o de resumos de produtos no site, o modelo **BART** deve ser o escolhido, pois superou o modelo T5 em qualidade t√©cnica de escrita (M√©dia 0.55 vs 0.38).

---
*Projeto de Portf√≥lio de Data Science - Focado em Business Analytics.*