# üåü PROJETO ETL ‚Äì An√°lise Automatizada de Feedbacks Internos (Vers√£o Oficial - Karin)

### üìò 1. Introdu√ß√£o

Bem-vindo ao meu projeto ETL ‚Äì Extra√ß√£o, Transforma√ß√£o e Carregamento de Feedbacks Internos, uma iniciativa criada para demonstrar como dados textuais n√£o estruturados podem ser convertidos em informa√ß√µes √∫teis para decis√µes organizacionais.

Neste projeto:

- Eu simulo uma base de dados interna contendo feedbacks em texto.

- Construo um pipeline ETL completo sem depender de APIs.

- Transformo os textos brutos em m√©tricas estruturadas:

  - limpeza lingu√≠stica

  - remo√ß√£o de stopwords

  - an√°lise de sentimento simples

  - contagem de palavras

- Gero como sa√≠da CSV e JSON, prontos para BI, dashboards ou an√°lises.

Este projeto √© uma releitura criativa do processo ETL que aprendi anteriormente, adaptado para um novo dom√≠nio e com implementa√ß√£o 100% pr√≥pria.

### üß± 2. Arquitetura Geral do Projeto (ETL)

A solu√ß√£o √© dividida em tr√™s m√≥dulos principais:

**E ‚Äì Extra√ß√£o**

Carrego v√°rios arquivos .txt contendo textos brutos armazenados em uma pasta.

**T ‚Äì Transforma√ß√£o**

Aplico diversas etapas de pr√©-processamento:

- limpeza de caracteres

- padroniza√ß√£o

- remo√ß√£o de stopwords

- cria√ß√£o de vari√°veis (features)

- sentiment analysis usando regras simples

**L ‚Äì Carregamento**

Salvo o dataset final em:

- feedbacks_processados.csv

- feedbacks_processados.json

## üõ†Ô∏è 3. Prepara√ß√£o do Ambiente

In [1]:
import os
import pandas as pd
import re
import nltk

nltk.download('stopwords')
from nltk.corpus import stopwords

print("Ambiente inicializado!")

Ambiente inicializado!


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## üß™ 4. Criando Dados Fict√≠cios

Para simular uma base interna de feedbacks, gero automaticamente tr√™s arquivos .txt em uma pasta de trabalho.

In [2]:
# Criando diret√≥rio de dados fict√≠cios
os.makedirs("/content/dados_feedbacks", exist_ok=True)

# Conjunto fict√≠cio de feedbacks
feedbacks_ficticios = {
    "feedback1.txt": "O atendimento foi excelente, muito r√°pido e eficiente.",
    "feedback2.txt": "Achei o servi√ßo ruim e demorado. N√£o gostei da experi√™ncia.",
    "feedback3.txt": "O produto √© bom, mas poderia ser melhor. No geral, foi ok.",
}

# Gravando os arquivos
for nome, conteudo in feedbacks_ficticios.items():
    with open(f"/content/dados_feedbacks/{nome}", "w", encoding="utf-8") as arq:
        arq.write(conteudo)

print("Arquivos fict√≠cios criados com sucesso!")

Arquivos fict√≠cios criados com sucesso!


## üì• 5. ETAPA E ‚Äì Extra√ß√£o

Carrego automaticamente todos os .txt da pasta.

In [3]:
def extrair_textos(pasta):
    linhas = []
    for arquivo in os.listdir(pasta):
        if arquivo.endswith(".txt"):
            with open(os.path.join(pasta, arquivo), "r", encoding="utf-8") as f:
                linhas.append({
                    "arquivo": arquivo,
                    "texto_original": f.read()
                })
    return pd.DataFrame(linhas)

df_raw = extrair_textos("/content/dados_feedbacks")
df_raw

Unnamed: 0,arquivo,texto_original
0,feedback2.txt,Achei o servi√ßo ruim e demorado. N√£o gostei da...
1,feedback3.txt,"O produto √© bom, mas poderia ser melhor. No ge..."
2,feedback1.txt,"O atendimento foi excelente, muito r√°pido e ef..."


## üîß 6. ETAPA T ‚Äì Transforma√ß√£o

### 6.1. Limpeza de texto

In [4]:
def limpar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"[^a-zA-Z0-9√°√©√≠√≥√∫√£√µ√ß ]", "", texto)
    texto = re.sub(r"\s+", " ", texto).strip()
    return texto

### 6.2. Remo√ß√£o de Stopwords

In [5]:
stop_pt = set(stopwords.words("portuguese"))

def remover_stopwords(texto):
    palavras = texto.split()
    filtradas = [p for p in palavras if p not in stop_pt]
    return " ".join(filtradas)


### 6.3. An√°lise simples de sentimento

In [6]:
positivas = {"bom", "√≥timo", "excelente", "maravilhoso", "gostei", "eficiente", "r√°pido"}
negativas = {"ruim", "p√©ssimo", "horr√≠vel", "demorado", "n√£o", "gostei"}

def classificar_sentimento(texto):
    tokens = set(texto.split())
    pos = len(tokens & positivas)
    neg = len(tokens & negativas)

    if pos > neg:
        return "positivo"
    elif neg > pos:
        return "negativo"
    else:
        return "neutro"

### 6.4. Aplicando todas as transforma√ß√µes

In [7]:
df = df_raw.copy()

df["texto_limpo"] = df["texto_original"].apply(limpar_texto)
df["sem_stopwords"] = df["texto_limpo"].apply(remover_stopwords)
df["sentimento"] = df["sem_stopwords"].apply(classificar_sentimento)
df["contagem_palavras"] = df["sem_stopwords"].str.split().str.len()

df

Unnamed: 0,arquivo,texto_original,texto_limpo,sem_stopwords,sentimento,contagem_palavras
0,feedback2.txt,Achei o servi√ßo ruim e demorado. N√£o gostei da...,achei o servi√ßo ruim e demorado n√£o gostei da ...,achei servi√ßo ruim demorado gostei experincia,negativo,6
1,feedback3.txt,"O produto √© bom, mas poderia ser melhor. No ge...",o produto √© bom mas poderia ser melhor no gera...,produto bom poderia melhor geral ok,positivo,6
2,feedback1.txt,"O atendimento foi excelente, muito r√°pido e ef...",o atendimento foi excelente muito r√°pido e efi...,atendimento excelente r√°pido eficiente,positivo,4


## üì§ 7. ETAPA L ‚Äì Carregamento

### 7.1. Exportando em CSV

In [8]:
df.to_csv("/content/feedbacks_processados.csv", index=False, encoding="utf-8")
print("Arquivo CSV gerado!")

Arquivo CSV gerado!


### 7.2. Exportando em JSON

In [9]:
df.to_json("/content/feedbacks_processados.json", orient="records", force_ascii=False)
print("Arquivo JSON gerado!")

Arquivo JSON gerado!
