# Projeto: Análise Automatizada de Revisões Sistemáticas na Engenharia de Software

## Visão Geral
Este projeto foi desenvolvido como parte da disciplina de Programação com foco em análise de dados aplicados a Revisões Sistemáticas da Literatura (RSL) na área de Engenharia de Software.

## Objetivo
Automatizar o carregamento, tratamento, análise e visualização de dados obtidos por meio de RSLs, usando ferramentas da linguagem Python como `Pandas`, `Matplotlib`, `Seaborn` e `WordCloud`.

## Processos Realizados
- Leitura e pré-processamento de dados CSV contendo metadados de artigos;
- Tratamento de colunas, remoção de nulos, padronização de dados;
- Visualização com gráficos de barras e nuvem de palavras;
- Filtros interativos para explorar os dados por ano e autor;
- Exportação de dados tratados para novo arquivo CSV.

## Bibliotecas Utilizadas
- `Pandas` para manipulação de dados;
- `Matplotlib` e `Seaborn` para visualizações;
- `WordCloud` para nuvem de palavras;
- `ipywidgets` para interatividade.

# Automação e Análise de RSL em Engenharia de Software
Este notebook demonstra como aplicar técnicas de programação para manipulação e análise de dados de uma Revisão Sistemática da Literatura (RSL).

In [None]:
# Instalação de bibliotecas (se necessário)
# !pip install pandas matplotlib seaborn
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Upload do arquivo
from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.BytesIO(uploaded['rsl_eng_software_exemplo.csv']))
df.head()

In [None]:
# Tratamento dos dados
# def tratar_dados(df):
    df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
    df['ano'] = pd.to_numeric(df['ano'], errors='coerce')
    df = df.dropna(subset=['titulo'])
    return df

df = tratar_dados(df)
df.head()

In [None]:
# Gráfico: Artigos por ano
# def plotar_artigos_por_ano(df):
    plt.figure(figsize=(10,5))
    sns.countplot(data=df, x='ano', palette='viridis')
    plt.title("Distribuição de Artigos por Ano")
    plt.xlabel("Ano")
    plt.ylabel("Quantidade de Artigos")
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

plotar_artigos_por_ano(df)

In [None]:
# Gráfico: Autores mais frequentes
# def plotar_autores_mais_frequentes(df, coluna='autores', top_n=5):
    autores = df[coluna].dropna().str.split(',').explode().str.strip()
    contagem = autores.value_counts().head(top_n)

    plt.figure(figsize=(10,6))
    contagem.plot(kind='barh', title='Top Autores em RSL')
    plt.xlabel("Número de Publicações")
    plt.ylabel("Autor")
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()

plotar_autores_mais_frequentes(df)

In [None]:
# Exportar dados tratados
df.to_csv("rsl_tratada.csv", index=False)
files.download("rsl_tratada.csv")

## Extensões Avançadas de Análise
Inclui: nuvem de palavras, filtros interativos e análise de palavras mais frequentes nos resumos.

In [None]:
# Instalação da wordcloud
!pip install wordcloud

In [None]:
# Nuvem de palavras dos resumos
from wordcloud import WordCloud
# def gerar_nuvem_resumo(df):
    texto = ' '.join(df['resumo'].dropna().astype(str))
    nuvem = WordCloud(width=800, height=400, background_color='white').generate(texto)
    plt.figure(figsize=(12, 6))
    plt.imshow(nuvem, interpolation='bilinear')
    plt.axis('off')
    plt.title("Nuvem de Palavras dos Resumos")
    plt.show()
gerar_nuvem_resumo(df)

In [None]:
# Instalação de ipywidgets
!pip install ipywidgets

In [None]:
# Filtro interativo por ano e autor
import ipywidgets as widgets
from IPython.display import display
# def filtro_interativo(df):
    anos = sorted(df['ano'].dropna().unique())
    autores = sorted(set([a.strip() for sublist in df['autores'].dropna().str.split(',') for a in sublist]))
    ano_widget = widgets.Dropdown(options=['Todos'] + list(anos), description='Ano:')
    autor_widget = widgets.Dropdown(options=['Todos'] + list(autores), description='Autor:')
#     def filtrar(ano, autor):
        df_filtrado = df.copy()
        if ano != 'Todos':
            df_filtrado = df_filtrado[df_filtrado['ano'] == ano]
        if autor != 'Todos':
            df_filtrado = df_filtrado[df_filtrado['autores'].str.contains(autor)]
        display(df_filtrado)
    ui = widgets.HBox([ano_widget, autor_widget])
    out = widgets.interactive_output(filtrar, {'ano': ano_widget, 'autor': autor_widget})
    display(ui, out)
filtro_interativo(df)

In [None]:
# Palavras mais frequentes nos resumos
from collections import Counter
# def top_palavras_resumo(df, top_n=10):
    texto = ' '.join(df['resumo'].dropna().str.lower())
    palavras = [p for p in texto.split() if len(p) > 3]
    mais_comuns = Counter(palavras).most_common(top_n)
    palavras, frequencias = zip(*mais_comuns)
    plt.figure(figsize=(10,6))
    sns.barplot(x=frequencias, y=palavras)
    plt.title("Palavras mais frequentes nos resumos")
    plt.xlabel("Frequência")
    plt.ylabel("Palavras")
    plt.show()
top_palavras_resumo(df)