# ETAPA 6: An√°lise Qualitativa das Respostas Abertas

## Consulta √† Comunidade UFPE sobre o Uso de Intelig√™ncia Artificial

---

**Objetivo:** Explorar percep√ß√µes, preocupa√ß√µes e sugest√µes em profundidade.

**Vari√°veis analisadas (7 quest√µes abertas):**
1. Benef√≠cios percebidos no uso da IA
2. Riscos e preocupa√ß√µes identificados
3. Impacto na produ√ß√£o autoral
4. Impacto na integridade acad√™mica
5. Medidas para uso √©tico
6. Estrutura de governan√ßa
7. Sugest√µes e coment√°rios finais

**Procedimentos:**
1. Realizar leitura explorat√≥ria de amostra representativa (m√≠nimo 10% das respostas)
2. Desenvolver codebook inicial com categorias tem√°ticas emergentes
3. Aplicar An√°lise de Conte√∫do (Bardin) para categoriza√ß√£o sistem√°tica
4. Utilizar t√©cnicas de an√°lise textual para identifica√ß√£o de temas
5. Gerar nuvens de palavras e an√°lises de frequ√™ncia
6. Selecionar cita√ß√µes representativas para cada tema identificado
7. Estratificar an√°lise por v√≠nculo institucional quando pertinente

**Produto:** Relat√≥rio de an√°lise de conte√∫do com categorias, frequ√™ncias, cita√ß√µes exemplares e visualiza√ß√µes.

**Crit√©rio de Valida√ß√£o:** Satura√ß√£o tem√°tica; coer√™ncia entre categorias e cita√ß√µes.

---

## Requisitos T√©cnicos

### Kernel Python
- **Python:** 3.9 ou superior
- **Kernel recomendado:** `python3` ou ambiente virtual com as depend√™ncias instaladas

### Dados de Entrada

| Arquivo | Descri√ß√£o | Origem |
|---------|-----------|--------|
| `dados_limpos_etapa1.xlsx` | Base de dados limpa com 2.164 registros | Etapa 1 |

### Dados de Sa√≠da

| Arquivo | Descri√ß√£o |
|---------|----------|
| `qualitativa_etapa6.xlsx` | An√°lise de frequ√™ncia de termos e categorias tem√°ticas |
| `amostra_analise_etapa6.xlsx` | Amostra de 10% para an√°lise manual |
| `grafico_nuvem_[variavel]_etapa6.png` | Nuvens de palavras por quest√£o |
| `grafico_frequencia_termos_etapa6.png` | Termos mais frequentes por quest√£o |
| `grafico_comprimento_respostas_etapa6.png` | Distribui√ß√£o do comprimento das respostas |
| `citacoes_representativas_etapa6.xlsx` | Cita√ß√µes selecionadas por tema |
| `relatorio_qualitativa_etapa6.md` | Relat√≥rio com an√°lise de conte√∫do |

---

## 1. Instala√ß√£o de Depend√™ncias

In [None]:
# ============================================================================
# INSTALA√á√ÉO DE DEPEND√äNCIAS
# Execute esta c√©lula apenas uma vez para instalar os pacotes necess√°rios
# ============================================================================

!pip install pandas openpyxl matplotlib seaborn numpy wordcloud nltk unidecode --quiet

print("‚úÖ Depend√™ncias instaladas com sucesso!")

## 2. Configura√ß√£o Inicial

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from datetime import datetime
import re
import string
import warnings
warnings.filterwarnings('ignore')

# Tentar importar bibliotecas opcionais
try:
    from wordcloud import WordCloud
    WORDCLOUD_DISPONIVEL = True
except ImportError:
    WORDCLOUD_DISPONIVEL = False
    print("‚ö†Ô∏è Biblioteca 'wordcloud' n√£o dispon√≠vel.")

try:
    from unidecode import unidecode
    UNIDECODE_DISPONIVEL = True
except ImportError:
    UNIDECODE_DISPONIVEL = False
    print("‚ö†Ô∏è Biblioteca 'unidecode' n√£o dispon√≠vel.")

try:
    import nltk
    nltk.download('stopwords', quiet=True)
    nltk.download('punkt', quiet=True)
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    NLTK_DISPONIVEL = True
except:
    NLTK_DISPONIVEL = False
    print("‚ö†Ô∏è Biblioteca 'nltk' n√£o dispon√≠vel ou erro no download.")

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 200)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 100)

# Configura√ß√µes de visualiza√ß√£o
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
plt.rcParams['axes.titlesize'] = 12
plt.rcParams['axes.labelsize'] = 10
sns.set_style("whitegrid")

print("\nBibliotecas carregadas com sucesso!")
print(f"  ‚Ä¢ Pandas: {pd.__version__}")
print(f"  ‚Ä¢ WordCloud: {'Dispon√≠vel' if WORDCLOUD_DISPONIVEL else 'N√£o dispon√≠vel'}")
print(f"  ‚Ä¢ NLTK: {'Dispon√≠vel' if NLTK_DISPONIVEL else 'N√£o dispon√≠vel'}")
print(f"  ‚Ä¢ Unidecode: {'Dispon√≠vel' if UNIDECODE_DISPONIVEL else 'N√£o dispon√≠vel'}")

In [None]:
# ============================================================================
# CONFIGURA√á√ÉO DE ARQUIVOS DE ENTRADA E SA√çDA
# ============================================================================

# Arquivo de entrada (gerado na Etapa 1)
ARQUIVO_ENTRADA = "dados_limpos_etapa1.xlsx"

# Arquivos de sa√≠da
ARQUIVO_SAIDA_EXCEL = "qualitativa_etapa6.xlsx"
ARQUIVO_SAIDA_AMOSTRA = "amostra_analise_etapa6.xlsx"
ARQUIVO_SAIDA_CITACOES = "citacoes_representativas_etapa6.xlsx"
ARQUIVO_SAIDA_RELATORIO = "relatorio_qualitativa_etapa6.md"

# Percentual da amostra para an√°lise manual
PERCENTUAL_AMOSTRA = 0.10  # 10%

# Seed para reprodutibilidade
SEED = 42

print("Configura√ß√£o de arquivos:")
print(f"  üì• Entrada: {ARQUIVO_ENTRADA}")
print(f"  üì§ Sa√≠das:  {ARQUIVO_SAIDA_EXCEL}")
print(f"            {ARQUIVO_SAIDA_AMOSTRA}")
print(f"            {ARQUIVO_SAIDA_CITACOES}")
print(f"            {ARQUIVO_SAIDA_RELATORIO}")
print(f"  üìä Amostra para an√°lise manual: {PERCENTUAL_AMOSTRA*100:.0f}%")

## 3. Carregamento dos Dados

In [None]:
# Carregar dados limpos da Etapa 1
try:
    df = pd.read_excel(ARQUIVO_ENTRADA)
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   Registros: {len(df)}")
    print(f"   Vari√°veis: {len(df.columns)}")
except FileNotFoundError:
    print(f"‚ùå ERRO: Arquivo '{ARQUIVO_ENTRADA}' n√£o encontrado!")
    print(f"   Certifique-se de que a Etapa 1 foi executada e o arquivo est√° no diret√≥rio correto.")
    raise

In [None]:
# ============================================================================
# IDENTIFICA√á√ÉO DAS VARI√ÅVEIS ABERTAS
# ============================================================================

# Dicion√°rio com as vari√°veis abertas e suas descri√ß√µes
variaveis_abertas = {
    'Beneficios_Percebidos': {
        'descricao': 'Quais benef√≠cios voc√™ percebe no uso de IA?',
        'nome_curto': 'Benef√≠cios'
    },
    'Riscos_Preocupacoes': {
        'descricao': 'Quais riscos e preocupa√ß√µes voc√™ identifica?',
        'nome_curto': 'Riscos'
    },
    'Impacto_Producao_Autoral': {
        'descricao': 'Como a IA impacta a produ√ß√£o autoral?',
        'nome_curto': 'Produ√ß√£o Autoral'
    },
    'Impacto_Integridade_Academica': {
        'descricao': 'Como a IA impacta a integridade acad√™mica?',
        'nome_curto': 'Integridade Acad√™mica'
    },
    'Medidas_Uso_Etico': {
        'descricao': 'Quais medidas devem ser adotadas para uso √©tico?',
        'nome_curto': 'Medidas √âticas'
    },
    'Estrutura_Governanca': {
        'descricao': 'Como deve ser a estrutura de governan√ßa?',
        'nome_curto': 'Governan√ßa'
    },
    'Comentarios_Finais': {
        'descricao': 'Sugest√µes e coment√°rios finais',
        'nome_curto': 'Coment√°rios Finais'
    }
}

print("=" * 80)
print("VARI√ÅVEIS ABERTAS PARA AN√ÅLISE QUALITATIVA")
print("=" * 80)

estatisticas_variaveis = []

for var, info in variaveis_abertas.items():
    n_respostas = df[var].notna().sum()
    pct_respostas = n_respostas / len(df) * 100
    
    # Calcular comprimento m√©dio das respostas
    comprimentos = df[var].dropna().astype(str).str.len()
    comp_medio = comprimentos.mean() if len(comprimentos) > 0 else 0
    
    estatisticas_variaveis.append({
        'Vari√°vel': var,
        'Nome Curto': info['nome_curto'],
        'Respostas': n_respostas,
        '% Preenchimento': round(pct_respostas, 1),
        'Comp. M√©dio (chars)': round(comp_medio, 0)
    })
    
    print(f"\nüìå {info['nome_curto']}")
    print(f"   Vari√°vel: {var}")
    print(f"   Respostas v√°lidas: {n_respostas} ({pct_respostas:.1f}%)")
    print(f"   Comprimento m√©dio: {comp_medio:.0f} caracteres")

df_estatisticas = pd.DataFrame(estatisticas_variaveis)

---

## 4. Fun√ß√µes Auxiliares para An√°lise Textual

In [None]:
# ============================================================================
# STOPWORDS EM PORTUGU√äS (lista expandida)
# ============================================================================

# Stopwords b√°sicas em portugu√™s
STOPWORDS_PT = {
    'a', '√†', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo',
    'as', '√†s', 'at√©', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas',
    'dele', 'deles', 'depois', 'do', 'dos', 'e', '√©', 'ela', 'elas', 'ele',
    'eles', 'em', 'entre', 'era', 'eram', '√©ramos', 'essa', 'essas', 'esse',
    'esses', 'esta', 'est√°', 'estamos', 'est√£o', 'estar', 'estas', 'estava',
    'estavam', 'est√°vamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes',
    'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram',
    'estiv√©ramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem',
    'estiv√©ssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram',
    'f√¥ramos', 'forem', 'formos', 'fosse', 'fossem', 'f√¥ssemos', 'fui',
    'h√°', 'haja', 'hajam', 'hajamos', 'h√£o', 'havemos', 'haver', 'hei',
    'houve', 'houvemos', 'houver', 'houvera', 'houver√°', 'houveram',
    'houv√©ramos', 'houver√£o', 'houverei', 'houverem', 'houveremos',
    'houveria', 'houveriam', 'houver√≠amos', 'houvermos', 'houvesse',
    'houvessem', 'houv√©ssemos', 'isso', 'isto', 'j√°', 'lhe', 'lhes', 'lo',
    'mais', 'mas', 'me', 'mesmo', 'meu', 'meus', 'minha', 'minhas', 'muito',
    'muita', 'muitas', 'muitos', 'na', 'n√£o', 'nas', 'nem', 'no', 'nos',
    'n√≥s', 'nossa', 'nossas', 'nosso', 'nossos', 'num', 'numa', 'o', 'os',
    'ou', 'para', 'pela', 'pelas', 'pelo', 'pelos', 'por', 'qual', 'quando',
    'que', 'quem', 's√£o', 'se', 'seja', 'sejam', 'sejamos', 'sem', 'ser',
    'ser√°', 'ser√£o', 'serei', 'seremos', 'seria', 'seriam', 'ser√≠amos',
    'seu', 'seus', 's√≥', 'somos', 'sou', 'sua', 'suas', 'tamb√©m', 'te',
    'tem', 't√©m', 'temos', 'tendo', 'tenha', 'tenham', 'tenhamos', 'tenho',
    'ter', 'ter√°', 'ter√£o', 'terei', 'teremos', 'teria', 'teriam',
    'ter√≠amos', 'teu', 'teus', 'teve', 'tinha', 'tinham', 't√≠nhamos',
    'tive', 'tivemos', 'tiver', 'tivera', 'tiveram', 'tiv√©ramos', 'tiverem',
    'tivermos', 'tivesse', 'tivessem', 'tiv√©ssemos', 'tu', 'tua', 'tuas',
    'um', 'uma', 'umas', 'uns', 'voc√™', 'voc√™s', 'vos',
    # Adicionais comuns em respostas de pesquisa
    'ser', 'pode', 'podem', 'poder', 'fazer', 'uso', 'usar', 'utilizar',
    'forma', 'modo', 'tipo', 'coisa', 'coisas', 'vez', 'vezes', 'caso',
    'casos', 'exemplo', 'alguns', 'algumas', 'algo', 'ainda', 'assim',
    'bem', 'cada', 'onde', 'porque', 'pois', 'ent√£o', 'por√©m', 'contudo',
    'apenas', 'sobre', 'todo', 'toda', 'todos', 'todas', 'outro', 'outra',
    'outros', 'outras', 'mesmo', 'mesma', 'mesmos', 'mesmas', 'pr√≥prio',
    'pr√≥pria', 'dia', 'dias', 'ano', 'anos', 'parte', 'partes', 'lado',
    'grande', 'maior', 'menor', 'melhor', 'pior', 'bom', 'boa', 'bons',
    'boas', 'mau', 'm√°', 'maus', 'm√°s', 'novo', 'nova', 'novos', 'novas',
    'primeiro', 'primeira', 'segundo', 'segunda', '√∫ltimo', '√∫ltima',
    'sim', 'nao', 'talvez', 'sempre', 'nunca', 'aqui', 'ali', 'l√°', 'c√°',
    'agora', 'hoje', 'ontem', 'amanh√£', 'antes', 'depois', 'durante',
    'while', 'the', 'and', 'of', 'to', 'in', 'is', 'it', 'that', 'for',
    'acredito', 'acho', 'penso', 'creio', 'entendo', 'considero',
    'ia', 'intelig√™ncia', 'artificial', 'inteligencia', 'ufpe'
}

# Adicionar stopwords do NLTK se dispon√≠vel
if NLTK_DISPONIVEL:
    try:
        STOPWORDS_PT = STOPWORDS_PT.union(set(stopwords.words('portuguese')))
    except:
        pass

print(f"‚úÖ {len(STOPWORDS_PT)} stopwords carregadas")

In [None]:
# ============================================================================
# FUN√á√ïES DE PR√â-PROCESSAMENTO DE TEXTO
# ============================================================================

def limpar_texto(texto):
    """
    Limpa e normaliza um texto para an√°lise.
    """
    if pd.isna(texto):
        return ""
    
    texto = str(texto).lower()
    
    # Remover acentos se unidecode dispon√≠vel
    if UNIDECODE_DISPONIVEL:
        texto = unidecode(texto)
    
    # Remover pontua√ß√£o e n√∫meros
    texto = re.sub(r'[^a-z√°√†√¢√£√©√®√™√≠√Ø√≥√¥√µ√∂√∫√ß√±\s]', ' ', texto)
    
    # Remover espa√ßos m√∫ltiplos
    texto = re.sub(r'\s+', ' ', texto).strip()
    
    return texto


def tokenizar(texto, remover_stopwords=True, min_length=3):
    """
    Tokeniza um texto em palavras individuais.
    """
    texto_limpo = limpar_texto(texto)
    
    if not texto_limpo:
        return []
    
    # Tokenizar
    palavras = texto_limpo.split()
    
    # Filtrar
    if remover_stopwords:
        palavras = [p for p in palavras if p not in STOPWORDS_PT]
    
    # Filtrar por comprimento m√≠nimo
    palavras = [p for p in palavras if len(p) >= min_length]
    
    return palavras


def extrair_ngramas(texto, n=2):
    """
    Extrai n-gramas de um texto.
    """
    palavras = tokenizar(texto, remover_stopwords=False, min_length=2)
    
    if len(palavras) < n:
        return []
    
    ngramas = []
    for i in range(len(palavras) - n + 1):
        ngrama = ' '.join(palavras[i:i+n])
        # Verificar se pelo menos uma palavra n√£o √© stopword
        palavras_ngrama = ngrama.split()
        if any(p not in STOPWORDS_PT for p in palavras_ngrama):
            ngramas.append(ngrama)
    
    return ngramas


def calcular_frequencia_termos(serie, top_n=30, min_freq=5):
    """
    Calcula a frequ√™ncia de termos em uma s√©rie de textos.
    """
    todas_palavras = []
    
    for texto in serie.dropna():
        palavras = tokenizar(texto)
        todas_palavras.extend(palavras)
    
    contagem = Counter(todas_palavras)
    
    # Filtrar por frequ√™ncia m√≠nima
    contagem = {k: v for k, v in contagem.items() if v >= min_freq}
    
    # Criar DataFrame
    df_freq = pd.DataFrame(contagem.items(), columns=['Termo', 'Frequ√™ncia'])
    df_freq = df_freq.sort_values('Frequ√™ncia', ascending=False).head(top_n)
    df_freq['Ranking'] = range(1, len(df_freq) + 1)
    df_freq = df_freq[['Ranking', 'Termo', 'Frequ√™ncia']]
    
    return df_freq


def calcular_frequencia_bigramas(serie, top_n=20, min_freq=5):
    """
    Calcula a frequ√™ncia de bigramas em uma s√©rie de textos.
    """
    todos_bigramas = []
    
    for texto in serie.dropna():
        bigramas = extrair_ngramas(texto, n=2)
        todos_bigramas.extend(bigramas)
    
    contagem = Counter(todos_bigramas)
    
    # Filtrar por frequ√™ncia m√≠nima
    contagem = {k: v for k, v in contagem.items() if v >= min_freq}
    
    # Criar DataFrame
    df_freq = pd.DataFrame(contagem.items(), columns=['Bigrama', 'Frequ√™ncia'])
    df_freq = df_freq.sort_values('Frequ√™ncia', ascending=False).head(top_n)
    df_freq['Ranking'] = range(1, len(df_freq) + 1)
    df_freq = df_freq[['Ranking', 'Bigrama', 'Frequ√™ncia']]
    
    return df_freq


print("‚úÖ Fun√ß√µes de pr√©-processamento carregadas com sucesso!")

In [None]:
# ============================================================================
# FUN√á√ïES PARA SELE√á√ÉO DE CITA√á√ïES REPRESENTATIVAS
# ============================================================================

def selecionar_citacoes(serie, termos_busca=None, n_citacoes=5, min_chars=50, max_chars=500):
    """
    Seleciona cita√ß√µes representativas de uma s√©rie de textos.
    Se termos_busca fornecidos, prioriza respostas que contenham esses termos.
    """
    respostas = serie.dropna().astype(str)
    
    # Filtrar por comprimento
    respostas = respostas[(respostas.str.len() >= min_chars) & (respostas.str.len() <= max_chars)]
    
    if len(respostas) == 0:
        return []
    
    if termos_busca:
        # Priorizar respostas com termos de busca
        def contem_termos(texto):
            texto_lower = texto.lower()
            return sum(1 for termo in termos_busca if termo.lower() in texto_lower)
        
        respostas_ordenadas = respostas.copy()
        scores = respostas_ordenadas.apply(contem_termos)
        respostas_ordenadas = respostas_ordenadas[scores > 0]
        
        if len(respostas_ordenadas) >= n_citacoes:
            return respostas_ordenadas.sample(n=n_citacoes, random_state=SEED).tolist()
    
    # Selecionar aleatoriamente
    n_selecionar = min(n_citacoes, len(respostas))
    return respostas.sample(n=n_selecionar, random_state=SEED).tolist()


def selecionar_citacoes_por_vinculo(df, variavel, n_por_vinculo=2):
    """
    Seleciona cita√ß√µes representativas estratificadas por v√≠nculo.
    """
    citacoes = []
    
    for vinculo in df['Vinculo_Padronizado'].dropna().unique():
        df_vinculo = df[df['Vinculo_Padronizado'] == vinculo]
        cits = selecionar_citacoes(df_vinculo[variavel], n_citacoes=n_por_vinculo)
        
        for cit in cits:
            citacoes.append({
                'V√≠nculo': vinculo,
                'Cita√ß√£o': cit
            })
    
    return pd.DataFrame(citacoes)


print("‚úÖ Fun√ß√µes de sele√ß√£o de cita√ß√µes carregadas com sucesso!")

---

## 5. An√°lise Explorat√≥ria das Respostas

In [None]:
# ============================================================================
# ESTAT√çSTICAS DESCRITIVAS DAS RESPOSTAS
# ============================================================================

print("=" * 80)
print("ESTAT√çSTICAS DESCRITIVAS DAS RESPOSTAS ABERTAS")
print("=" * 80)

print(df_estatisticas.to_string(index=False))

In [None]:
# ============================================================================
# DISTRIBUI√á√ÉO DO COMPRIMENTO DAS RESPOSTAS
# ============================================================================

fig, axes = plt.subplots(2, 4, figsize=(16, 8))
axes = axes.flatten()

for idx, (var, info) in enumerate(variaveis_abertas.items()):
    ax = axes[idx]
    
    comprimentos = df[var].dropna().astype(str).str.len()
    
    if len(comprimentos) > 0:
        ax.hist(comprimentos, bins=30, color='steelblue', edgecolor='white', alpha=0.7)
        ax.axvline(comprimentos.median(), color='red', linestyle='--', label=f'Mediana: {comprimentos.median():.0f}')
        ax.set_title(info['nome_curto'], fontsize=10, fontweight='bold')
        ax.set_xlabel('Caracteres')
        ax.set_ylabel('Frequ√™ncia')
        ax.legend(fontsize=8)
    else:
        ax.text(0.5, 0.5, 'Sem dados', ha='center', va='center')
        ax.set_title(info['nome_curto'], fontsize=10)

# Remover subplot extra
axes[7].axis('off')

plt.suptitle('Distribui√ß√£o do Comprimento das Respostas (em caracteres)', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.savefig('grafico_comprimento_respostas_etapa6.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_comprimento_respostas_etapa6.png")

---

## 6. An√°lise de Frequ√™ncia de Termos

In [None]:
# ============================================================================
# FREQU√äNCIA DE TERMOS PARA CADA QUEST√ÉO
# ============================================================================

print("=" * 80)
print("TERMOS MAIS FREQUENTES POR QUEST√ÉO")
print("=" * 80)

frequencias_termos = {}

for var, info in variaveis_abertas.items():
    print(f"\nüìå {info['nome_curto']}")
    print("-" * 60)
    
    freq = calcular_frequencia_termos(df[var], top_n=15, min_freq=10)
    frequencias_termos[var] = freq
    
    if len(freq) > 0:
        print(freq.to_string(index=False))
    else:
        print("   Nenhum termo com frequ√™ncia suficiente.")

In [None]:
# ============================================================================
# GR√ÅFICO DE TERMOS MAIS FREQUENTES (TOP 10 DE CADA)
# ============================================================================

fig, axes = plt.subplots(2, 4, figsize=(18, 10))
axes = axes.flatten()

cores = plt.cm.Set2(np.linspace(0, 1, 7))

for idx, (var, info) in enumerate(variaveis_abertas.items()):
    ax = axes[idx]
    
    freq = frequencias_termos[var].head(10)
    
    if len(freq) > 0:
        bars = ax.barh(freq['Termo'], freq['Frequ√™ncia'], color=cores[idx], edgecolor='white')
        ax.invert_yaxis()
        ax.set_xlabel('Frequ√™ncia')
        ax.set_title(info['nome_curto'], fontsize=11, fontweight='bold')
        
        # Labels nas barras
        for bar in bars:
            ax.text(bar.get_width() + 1, bar.get_y() + bar.get_height()/2,
                    f'{int(bar.get_width())}', va='center', fontsize=8)
    else:
        ax.text(0.5, 0.5, 'Dados insuficientes', ha='center', va='center')
        ax.set_title(info['nome_curto'], fontsize=11)

# Remover subplot extra
axes[7].axis('off')

plt.suptitle('Top 10 Termos Mais Frequentes por Quest√£o', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.savefig('grafico_frequencia_termos_etapa6.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_frequencia_termos_etapa6.png")

---

## 7. Nuvens de Palavras

In [None]:
# ============================================================================
# NUVENS DE PALAVRAS PARA CADA QUEST√ÉO
# ============================================================================

if WORDCLOUD_DISPONIVEL:
    fig, axes = plt.subplots(2, 4, figsize=(20, 10))
    axes = axes.flatten()
    
    colormaps = ['Blues', 'Greens', 'Oranges', 'Purples', 'Reds', 'YlOrBr', 'BuGn']
    
    for idx, (var, info) in enumerate(variaveis_abertas.items()):
        ax = axes[idx]
        
        # Concatenar todas as respostas
        textos = df[var].dropna().astype(str)
        texto_completo = ' '.join([limpar_texto(t) for t in textos])
        
        if texto_completo.strip():
            # Gerar nuvem de palavras
            wordcloud = WordCloud(
                width=800, height=400,
                background_color='white',
                stopwords=STOPWORDS_PT,
                colormap=colormaps[idx],
                max_words=100,
                min_font_size=10,
                random_state=SEED
            ).generate(texto_completo)
            
            ax.imshow(wordcloud, interpolation='bilinear')
            ax.axis('off')
            ax.set_title(info['nome_curto'], fontsize=12, fontweight='bold')
            
            # Salvar nuvem individual
            fig_individual, ax_individual = plt.subplots(figsize=(10, 5))
            ax_individual.imshow(wordcloud, interpolation='bilinear')
            ax_individual.axis('off')
            ax_individual.set_title(info['nome_curto'], fontsize=14, fontweight='bold')
            plt.tight_layout()
            nome_arquivo = f"grafico_nuvem_{var.lower()}_etapa6.png"
            plt.savefig(nome_arquivo, dpi=150, bbox_inches='tight')
            plt.close(fig_individual)
        else:
            ax.text(0.5, 0.5, 'Sem dados', ha='center', va='center')
            ax.set_title(info['nome_curto'], fontsize=12)
            ax.axis('off')
    
    # Remover subplot extra
    axes[7].axis('off')
    
    plt.suptitle('Nuvens de Palavras - Respostas Abertas', fontsize=16, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.savefig('grafico_nuvens_completo_etapa6.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("\nNuvens de palavras salvas!")
else:
    print("‚ö†Ô∏è Nuvens de palavras n√£o geradas (biblioteca 'wordcloud' n√£o dispon√≠vel).")

---

## 8. An√°lise de Bigramas (Express√µes Frequentes)

In [None]:
# ============================================================================
# BIGRAMAS MAIS FREQUENTES
# ============================================================================

print("=" * 80)
print("EXPRESS√ïES (BIGRAMAS) MAIS FREQUENTES")
print("=" * 80)

frequencias_bigramas = {}

for var, info in variaveis_abertas.items():
    print(f"\nüìå {info['nome_curto']}")
    print("-" * 60)
    
    freq_bi = calcular_frequencia_bigramas(df[var], top_n=10, min_freq=10)
    frequencias_bigramas[var] = freq_bi
    
    if len(freq_bi) > 0:
        print(freq_bi.to_string(index=False))
    else:
        print("   Nenhum bigrama com frequ√™ncia suficiente.")

---

## 9. Gera√ß√£o de Amostra para An√°lise Manual

In [None]:
# ============================================================================
# GERA√á√ÉO DE AMOSTRA ESTRATIFICADA (10%) PARA AN√ÅLISE MANUAL
# ============================================================================

print("=" * 80)
print("GERA√á√ÉO DE AMOSTRA PARA AN√ÅLISE MANUAL (CODIFICA√á√ÉO)")
print("=" * 80)

# Calcular tamanho da amostra por v√≠nculo (estratificada)
n_amostra = int(len(df) * PERCENTUAL_AMOSTRA)

# Amostragem estratificada por v√≠nculo
amostra = df.groupby('Vinculo_Padronizado', group_keys=False).apply(
    lambda x: x.sample(frac=PERCENTUAL_AMOSTRA, random_state=SEED)
)

print(f"\nTamanho da amostra: {len(amostra)} registros ({len(amostra)/len(df)*100:.1f}% do total)")
print(f"\nDistribui√ß√£o por v√≠nculo:")
print(amostra['Vinculo_Padronizado'].value_counts())

# Selecionar apenas vari√°veis relevantes para an√°lise
colunas_amostra = ['Vinculo_Padronizado', 'Centro_Unidade'] + list(variaveis_abertas.keys())
amostra_exportar = amostra[colunas_amostra].copy()

# Adicionar colunas para codifica√ß√£o manual
for var in variaveis_abertas.keys():
    amostra_exportar[f'{var}_CODIGO'] = ''  # Coluna para c√≥digo tem√°tico
    amostra_exportar[f'{var}_OBS'] = ''     # Coluna para observa√ß√µes

# Salvar amostra
amostra_exportar.to_excel(ARQUIVO_SAIDA_AMOSTRA, index=False)
print(f"\n‚úÖ Amostra salva em: {ARQUIVO_SAIDA_AMOSTRA}")
print(f"   Use este arquivo para codifica√ß√£o manual das respostas.")

---

## 10. Sele√ß√£o de Cita√ß√µes Representativas

In [None]:
# ============================================================================
# SELE√á√ÉO DE CITA√á√ïES REPRESENTATIVAS POR QUEST√ÉO
# ============================================================================

print("=" * 80)
print("CITA√á√ïES REPRESENTATIVAS POR QUEST√ÉO")
print("=" * 80)

todas_citacoes = []

for var, info in variaveis_abertas.items():
    print(f"\n{'='*70}")
    print(f"üìå {info['nome_curto'].upper()}")
    print(f"{'='*70}")
    
    # Selecionar cita√ß√µes
    citacoes = selecionar_citacoes(df[var], n_citacoes=5, min_chars=80, max_chars=400)
    
    for i, cit in enumerate(citacoes, 1):
        print(f"\n  [{i}] \"{cit}\"")
        todas_citacoes.append({
            'Quest√£o': info['nome_curto'],
            'Vari√°vel': var,
            'Cita√ß√£o': cit
        })

# Criar DataFrame com cita√ß√µes
df_citacoes = pd.DataFrame(todas_citacoes)

In [None]:
# ============================================================================
# CITA√á√ïES ESTRATIFICADAS POR V√çNCULO (para as 3 principais quest√µes)
# ============================================================================

print("\n" + "=" * 80)
print("CITA√á√ïES POR V√çNCULO INSTITUCIONAL (QUEST√ïES PRINCIPAIS)")
print("=" * 80)

questoes_principais = ['Beneficios_Percebidos', 'Riscos_Preocupacoes', 'Medidas_Uso_Etico']

citacoes_vinculo = []

for var in questoes_principais:
    info = variaveis_abertas[var]
    print(f"\nüìå {info['nome_curto']}")
    print("-" * 70)
    
    df_cit_vinculo = selecionar_citacoes_por_vinculo(df, var, n_por_vinculo=1)
    
    for _, row in df_cit_vinculo.iterrows():
        print(f"\n  [{row['V√≠nculo']}]")
        print(f"  \"{row['Cita√ß√£o'][:200]}{'...' if len(row['Cita√ß√£o']) > 200 else ''}\"")
        
        citacoes_vinculo.append({
            'Quest√£o': info['nome_curto'],
            'V√≠nculo': row['V√≠nculo'],
            'Cita√ß√£o': row['Cita√ß√£o']
        })

df_citacoes_vinculo = pd.DataFrame(citacoes_vinculo)

---

## 11. Categoriza√ß√£o Tem√°tica Preliminar

In [None]:
# ============================================================================
# CATEGORIZA√á√ÉO TEM√ÅTICA BASEADA EM PALAVRAS-CHAVE
# ============================================================================

# Definir categorias tem√°ticas e palavras-chave associadas
categorias_tematicas = {
    'Beneficios_Percebidos': {
        'Produtividade/Efici√™ncia': ['produtividade', 'eficiencia', 'rapido', 'rapidez', 'tempo', 'agilidade', 'otimizar', 'automatizar'],
        'Apoio √† Pesquisa': ['pesquisa', 'pesquisar', 'busca', 'buscar', 'informacao', 'dados', 'analise', 'analisar'],
        'Apoio ao Ensino/Aprendizagem': ['aprendizado', 'aprender', 'estudar', 'ensino', 'ensinar', 'didatico', 'educacao'],
        'Escrita/Reda√ß√£o': ['escrever', 'escrita', 'texto', 'redacao', 'revisar', 'revisao', 'corrigir', 'gramatica'],
        'Criatividade/Inova√ß√£o': ['criatividade', 'criativo', 'inovacao', 'inovar', 'ideias', 'inspiracao'],
        'Acessibilidade': ['acessibilidade', 'acessivel', 'inclusao', 'inclusivo', 'democratizar']
    },
    'Riscos_Preocupacoes': {
        'Pl√°gio/Integridade': ['plagio', 'copiar', 'copia', 'integridade', 'autoria', 'original', 'originalidade'],
        'Depend√™ncia/Pregui√ßa': ['dependencia', 'dependente', 'preguica', 'acomodacao', 'passivo', 'pensar'],
        'Desinforma√ß√£o': ['desinformacao', 'fake', 'falso', 'incorreto', 'erro', 'erros', 'confiabilidade'],
        'Desemprego/Substitui√ß√£o': ['emprego', 'desemprego', 'substituir', 'substituicao', 'trabalho', 'profissional'],
        'Privacidade/Dados': ['privacidade', 'dados', 'seguranca', 'vazamento', 'confidencial'],
        'Vi√©s/Discrimina√ß√£o': ['vies', 'discriminacao', 'preconceito', 'racismo', 'desigualdade']
    },
    'Medidas_Uso_Etico': {
        'Regulamenta√ß√£o/Normas': ['regulamentacao', 'regulamentar', 'norma', 'normas', 'regra', 'regras', 'politica', 'politicas'],
        'Capacita√ß√£o/Forma√ß√£o': ['capacitacao', 'capacitar', 'formacao', 'formar', 'treinamento', 'treinar', 'curso', 'cursos'],
        'Transpar√™ncia': ['transparencia', 'transparente', 'declarar', 'declaracao', 'informar', 'citar'],
        'Conscientiza√ß√£o': ['conscientizacao', 'conscientizar', 'sensibilizar', 'orientar', 'orientacao'],
        'Fiscaliza√ß√£o/Controle': ['fiscalizacao', 'fiscalizar', 'controle', 'monitorar', 'monitoramento', 'verificar']
    }
}


def categorizar_resposta(texto, categorias):
    """
    Categoriza uma resposta com base em palavras-chave.
    Retorna lista de categorias identificadas.
    """
    if pd.isna(texto):
        return []
    
    texto_limpo = limpar_texto(texto)
    categorias_encontradas = []
    
    for categoria, palavras in categorias.items():
        for palavra in palavras:
            if palavra in texto_limpo:
                categorias_encontradas.append(categoria)
                break  # Evitar contar mesma categoria m√∫ltiplas vezes
    
    return categorias_encontradas


# Aplicar categoriza√ß√£o para as quest√µes principais
print("=" * 80)
print("CATEGORIZA√á√ÉO TEM√ÅTICA PRELIMINAR (baseada em palavras-chave)")
print("=" * 80)

resultados_categorizacao = {}

for var, categorias in categorias_tematicas.items():
    info = variaveis_abertas[var]
    print(f"\nüìå {info['nome_curto']}")
    print("-" * 60)
    
    # Categorizar cada resposta
    todas_categorias = []
    for texto in df[var].dropna():
        cats = categorizar_resposta(texto, categorias)
        todas_categorias.extend(cats)
    
    # Contar frequ√™ncia de cada categoria
    contagem = Counter(todas_categorias)
    n_respondentes = df[var].notna().sum()
    
    df_cat = pd.DataFrame(contagem.items(), columns=['Categoria', 'Men√ß√µes'])
    df_cat = df_cat.sort_values('Men√ß√µes', ascending=False)
    df_cat['% Respondentes'] = (df_cat['Men√ß√µes'] / n_respondentes * 100).round(1)
    
    resultados_categorizacao[var] = df_cat
    
    print(df_cat.to_string(index=False))

In [None]:
# ============================================================================
# GR√ÅFICO DE CATEGORIAS TEM√ÅTICAS
# ============================================================================

fig, axes = plt.subplots(1, 3, figsize=(16, 6))

cores_cat = ['#3498db', '#2ecc71', '#e74c3c']

for idx, (var, df_cat) in enumerate(resultados_categorizacao.items()):
    ax = axes[idx]
    info = variaveis_abertas[var]
    
    if len(df_cat) > 0:
        cores = plt.cm.get_cmap(['Blues', 'Greens', 'Oranges'][idx])(np.linspace(0.3, 0.8, len(df_cat)))[::-1]
        
        bars = ax.barh(df_cat['Categoria'], df_cat['% Respondentes'], color=cores, edgecolor='white')
        ax.invert_yaxis()
        ax.set_xlabel('% dos Respondentes')
        ax.set_title(info['nome_curto'], fontsize=12, fontweight='bold')
        
        for bar, pct in zip(bars, df_cat['% Respondentes']):
            ax.text(bar.get_width() + 0.5, bar.get_y() + bar.get_height()/2,
                    f'{pct}%', va='center', fontsize=9)

plt.suptitle('Categorias Tem√°ticas Identificadas', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.savefig('grafico_categorias_tematicas_etapa6.png', dpi=150, bbox_inches='tight')
plt.show()
print("\nGr√°fico salvo como: grafico_categorias_tematicas_etapa6.png")

---

## 12. Resumo Executivo

In [None]:
print("=" * 80)
print("RESUMO EXECUTIVO - ETAPA 6")
print("=" * 80)

print(f"""
üìä VIS√ÉO GERAL DAS RESPOSTAS ABERTAS

   Total de quest√µes analisadas: {len(variaveis_abertas)}
   Taxa m√©dia de resposta: {df_estatisticas['% Preenchimento'].mean():.1f}%
   Quest√£o com maior taxa: {df_estatisticas.loc[df_estatisticas['% Preenchimento'].idxmax(), 'Nome Curto']} ({df_estatisticas['% Preenchimento'].max()}%)
   Quest√£o com menor taxa: {df_estatisticas.loc[df_estatisticas['% Preenchimento'].idxmin(), 'Nome Curto']} ({df_estatisticas['% Preenchimento'].min()}%)

üìå PRINCIPAIS TEMAS IDENTIFICADOS
""")

for var, df_cat in resultados_categorizacao.items():
    info = variaveis_abertas[var]
    if len(df_cat) > 0:
        top_cat = df_cat.iloc[0]
        print(f"   ‚Ä¢ {info['nome_curto']}: \"{top_cat['Categoria']}\" ({top_cat['% Respondentes']}%)")

print(f"""
üìå TERMOS MAIS FREQUENTES (GLOBAL)
""")

for var, info in list(variaveis_abertas.items())[:3]:
    if var in frequencias_termos and len(frequencias_termos[var]) > 0:
        top_termos = frequencias_termos[var].head(3)['Termo'].tolist()
        print(f"   ‚Ä¢ {info['nome_curto']}: {', '.join(top_termos)}")

print(f"""
üìå MATERIAIS GERADOS PARA AN√ÅLISE MANUAL

   ‚Ä¢ Amostra de {len(amostra)} respostas ({PERCENTUAL_AMOSTRA*100:.0f}%) para codifica√ß√£o
   ‚Ä¢ {len(df_citacoes)} cita√ß√µes representativas selecionadas
   ‚Ä¢ {len(df_citacoes_vinculo)} cita√ß√µes estratificadas por v√≠nculo
""")

---

## 13. Salvar Resultados

In [None]:
# Salvar todas as tabelas em um arquivo Excel com m√∫ltiplas abas
with pd.ExcelWriter(ARQUIVO_SAIDA_EXCEL, engine='openpyxl') as writer:
    # Estat√≠sticas gerais
    df_estatisticas.to_excel(writer, sheet_name='Estatisticas_Gerais', index=False)
    
    # Frequ√™ncia de termos
    for var, freq in frequencias_termos.items():
        nome_aba = f'Termos_{variaveis_abertas[var]["nome_curto"][:15]}'
        freq.to_excel(writer, sheet_name=nome_aba, index=False)
    
    # Frequ√™ncia de bigramas
    for var, freq in frequencias_bigramas.items():
        if len(freq) > 0:
            nome_aba = f'Bigr_{variaveis_abertas[var]["nome_curto"][:15]}'
            freq.to_excel(writer, sheet_name=nome_aba, index=False)
    
    # Categoriza√ß√£o tem√°tica
    for var, df_cat in resultados_categorizacao.items():
        nome_aba = f'Cat_{variaveis_abertas[var]["nome_curto"][:15]}'
        df_cat.to_excel(writer, sheet_name=nome_aba, index=False)

print(f"‚úÖ An√°lises salvas em: {ARQUIVO_SAIDA_EXCEL}")

In [None]:
# Salvar cita√ß√µes representativas
with pd.ExcelWriter(ARQUIVO_SAIDA_CITACOES, engine='openpyxl') as writer:
    df_citacoes.to_excel(writer, sheet_name='Citacoes_Gerais', index=False)
    df_citacoes_vinculo.to_excel(writer, sheet_name='Citacoes_por_Vinculo', index=False)

print(f"‚úÖ Cita√ß√µes salvas em: {ARQUIVO_SAIDA_CITACOES}")

In [None]:
# Gerar relat√≥rio em Markdown
relatorio = f"""# RELAT√ìRIO DE AN√ÅLISE QUALITATIVA DAS RESPOSTAS ABERTAS
## Etapa 6 ‚Äî Consulta √† Comunidade UFPE sobre o Uso de IA

**Data de execu√ß√£o:** {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}

---

## 1. VIS√ÉO GERAL DAS RESPOSTAS

| Quest√£o | Respostas | % Preenchimento | Comp. M√©dio |
|---------|-----------|-----------------|-------------|
"""

for _, row in df_estatisticas.iterrows():
    relatorio += f"| {row['Nome Curto']} | {row['Respostas']} | {row['% Preenchimento']}% | {row['Comp. M√©dio (chars)']:.0f} chars |\n"

relatorio += f"""
---

## 2. CATEGORIAS TEM√ÅTICAS IDENTIFICADAS

### 2.1 Benef√≠cios Percebidos

| Categoria | Men√ß√µes | % Respondentes |
|-----------|---------|----------------|
"""

if 'Beneficios_Percebidos' in resultados_categorizacao:
    for _, row in resultados_categorizacao['Beneficios_Percebidos'].iterrows():
        relatorio += f"| {row['Categoria']} | {row['Men√ß√µes']} | {row['% Respondentes']}% |\n"

relatorio += f"""
### 2.2 Riscos e Preocupa√ß√µes

| Categoria | Men√ß√µes | % Respondentes |
|-----------|---------|----------------|
"""

if 'Riscos_Preocupacoes' in resultados_categorizacao:
    for _, row in resultados_categorizacao['Riscos_Preocupacoes'].iterrows():
        relatorio += f"| {row['Categoria']} | {row['Men√ß√µes']} | {row['% Respondentes']}% |\n"

relatorio += f"""
### 2.3 Medidas para Uso √âtico

| Categoria | Men√ß√µes | % Respondentes |
|-----------|---------|----------------|
"""

if 'Medidas_Uso_Etico' in resultados_categorizacao:
    for _, row in resultados_categorizacao['Medidas_Uso_Etico'].iterrows():
        relatorio += f"| {row['Categoria']} | {row['Men√ß√µes']} | {row['% Respondentes']}% |\n"

relatorio += f"""
---

## 3. CITA√á√ïES REPRESENTATIVAS

"""

for var, info in list(variaveis_abertas.items())[:3]:
    relatorio += f"### {info['nome_curto']}\n\n"
    citacoes_var = df_citacoes[df_citacoes['Vari√°vel'] == var]['Cita√ß√£o'].head(3).tolist()
    for i, cit in enumerate(citacoes_var, 1):
        cit_truncada = cit[:300] + '...' if len(cit) > 300 else cit
        relatorio += f"> *\"{cit_truncada}\"*\n\n"

relatorio += f"""
---

## 4. TERMOS MAIS FREQUENTES

"""

for var, info in list(variaveis_abertas.items())[:3]:
    relatorio += f"### {info['nome_curto']}\n\n"
    if var in frequencias_termos and len(frequencias_termos[var]) > 0:
        relatorio += "| # | Termo | Frequ√™ncia |\n|---|-------|------------|\n"
        for _, row in frequencias_termos[var].head(10).iterrows():
            relatorio += f"| {row['Ranking']} | {row['Termo']} | {row['Frequ√™ncia']} |\n"
    relatorio += "\n"

relatorio += f"""
---

## 5. MATERIAIS PARA AN√ÅLISE MANUAL

| Arquivo | Descri√ß√£o |
|---------|----------|
| `{ARQUIVO_SAIDA_AMOSTRA}` | Amostra de {len(amostra)} respostas ({PERCENTUAL_AMOSTRA*100:.0f}%) para codifica√ß√£o manual |
| `{ARQUIVO_SAIDA_CITACOES}` | Cita√ß√µes representativas selecionadas |

### Instru√ß√µes para Codifica√ß√£o Manual

1. Abra o arquivo `{ARQUIVO_SAIDA_AMOSTRA}`
2. Para cada resposta, preencha a coluna `_CODIGO` com a categoria tem√°tica identificada
3. Use a coluna `_OBS` para observa√ß√µes adicionais
4. Recomenda-se que dois codificadores independentes realizem a an√°lise
5. Calcule o √≠ndice Kappa para verificar a concord√¢ncia entre codificadores

---

## 6. ARQUIVOS GERADOS

| Arquivo | Descri√ß√£o |
|---------|----------|
| `{ARQUIVO_SAIDA_EXCEL}` | An√°lise de frequ√™ncia de termos e categorias |
| `{ARQUIVO_SAIDA_AMOSTRA}` | Amostra para an√°lise manual |
| `{ARQUIVO_SAIDA_CITACOES}` | Cita√ß√µes representativas |
| `grafico_comprimento_respostas_etapa6.png` | Distribui√ß√£o do comprimento |
| `grafico_frequencia_termos_etapa6.png` | Termos mais frequentes |
| `grafico_nuvens_completo_etapa6.png` | Painel de nuvens de palavras |
| `grafico_nuvem_[variavel]_etapa6.png` | Nuvens individuais |
| `grafico_categorias_tematicas_etapa6.png` | Categorias tem√°ticas |

---

## 7. LIMITA√á√ïES E PR√ìXIMOS PASSOS

**Limita√ß√µes desta an√°lise autom√°tica:**
- A categoriza√ß√£o por palavras-chave √© aproximada e deve ser validada manualmente
- Nuances e contexto podem ser perdidos na an√°lise automatizada
- Recomenda-se an√°lise manual da amostra para refinamento das categorias

**Pr√≥ximos passos recomendados:**
1. Realizar codifica√ß√£o manual da amostra de 10%
2. Refinar o codebook com base nos achados
3. Calcular √≠ndice Kappa entre codificadores
4. Expandir an√°lise para toda a base ap√≥s valida√ß√£o

---

*Relat√≥rio gerado automaticamente em {datetime.now().strftime("%d/%m/%Y √†s %H:%M")}*
"""

# Salvar relat√≥rio
with open(ARQUIVO_SAIDA_RELATORIO, "w", encoding='utf-8') as f:
    f.write(relatorio)

print(f"‚úÖ Relat√≥rio salvo em: {ARQUIVO_SAIDA_RELATORIO}")

In [None]:
print("\n" + "=" * 70)
print("ETAPA 6 CONCLU√çDA COM SUCESSO!")
print("=" * 70)
print(f"""
üìÅ ARQUIVOS GERADOS:

   üìä Dados:
      ‚Ä¢ {ARQUIVO_SAIDA_EXCEL}
      ‚Ä¢ {ARQUIVO_SAIDA_AMOSTRA}
      ‚Ä¢ {ARQUIVO_SAIDA_CITACOES}

   üìà Gr√°ficos:
      ‚Ä¢ grafico_comprimento_respostas_etapa6.png
      ‚Ä¢ grafico_frequencia_termos_etapa6.png
      ‚Ä¢ grafico_nuvens_completo_etapa6.png
      ‚Ä¢ grafico_nuvem_[variavel]_etapa6.png (7 arquivos)
      ‚Ä¢ grafico_categorias_tematicas_etapa6.png

   üìù Relat√≥rio:
      ‚Ä¢ {ARQUIVO_SAIDA_RELATORIO}

‚ñ∂Ô∏è  PR√ìXIMA ETAPA: Etapa 7 - S√≠ntese e Elabora√ß√£o de Recomenda√ß√µes

‚ö†Ô∏è  IMPORTANTE: Antes de prosseguir para a Etapa 7, recomenda-se:
      1. Revisar a amostra gerada ({ARQUIVO_SAIDA_AMOSTRA})
      2. Realizar codifica√ß√£o manual com dois codificadores
      3. Calcular √≠ndice Kappa para valida√ß√£o
""")

---

## Resumo dos Arquivos

### Entrada
| Arquivo | Origem |
|---------|--------|
| `dados_limpos_etapa1.xlsx` | Etapa 1 |

### Sa√≠da
| Arquivo | Descri√ß√£o |
|---------|----------|
| `qualitativa_etapa6.xlsx` | An√°lise de frequ√™ncia de termos e categorias tem√°ticas |
| `amostra_analise_etapa6.xlsx` | Amostra de 10% para codifica√ß√£o manual |
| `citacoes_representativas_etapa6.xlsx` | Cita√ß√µes selecionadas por quest√£o e v√≠nculo |
| `grafico_comprimento_respostas_etapa6.png` | Distribui√ß√£o do comprimento das respostas |
| `grafico_frequencia_termos_etapa6.png` | Top 10 termos por quest√£o |
| `grafico_nuvens_completo_etapa6.png` | Painel com todas as nuvens de palavras |
| `grafico_nuvem_[variavel]_etapa6.png` | Nuvens individuais (7 arquivos) |
| `grafico_categorias_tematicas_etapa6.png` | Categorias tem√°ticas identificadas |
| `relatorio_qualitativa_etapa6.md` | Relat√≥rio completo da an√°lise qualitativa |

---

**Pr√≥xima etapa:** Etapa 7 - S√≠ntese e Elabora√ß√£o de Recomenda√ß√µes