# Alterar CSV

- Versão feita em **18 outubro de 2023** para rodar no Colab

**Missão:** Este arquivo tem por objetivo realizar a **Stemmatização** no **dataset_pre_processado_2.csv.**

## Dataset com pré-processamento: *dataset_pre_processado_2.csv*

In [3]:
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize
import nltk
import pandas as pd
import numpy as np

In [2]:
# Pré-processamento
nltk.download('punkt')
nltk.download('rslp')
stemmer = RSLPStemmer()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [4]:
df = pd.read_csv("dataset_pre_processado_2.csv")
df.head(2)

Unnamed: 0,id,titulo,autor,url,tipo_documento,rotulo,resumo,texto
0,88,estudo dos efeitos de dircm em mísseis infrave...,"caio augusto de melo silvestre, lester de abre...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,crescente emprego misseis ombro infravermelhos...,misseis infravermelhos especialmente tipo manp...
1,125,caracterização de capacitores cerâmicos na fai...,"silva neto, l. p., rossi, j. o., barroso j. j.",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,materiais dieletricos baixas perdas alta permi...,introducao ceramicas dieletricas encontram imp...


In [5]:
def preprocess_text(text):
    tokens = word_tokenize(text)  # Tokenização e conversão para minúsculas
    tokens = [stemmer.stem(token) for token in tokens]  # Stemmatização
    return ' '.join(tokens)

In [6]:
df['resumo'] = df['resumo'].apply(preprocess_text)

In [7]:
df

Unnamed: 0,id,titulo,autor,url,tipo_documento,rotulo,resumo,texto
0,88,estudo dos efeitos de dircm em mísseis infrave...,"caio augusto de melo silvestre, lester de abre...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,cresc empreg missel ombr infravermelh contr al...,misseis infravermelhos especialmente tipo manp...
1,125,caracterização de capacitores cerâmicos na fai...,"silva neto, l. p., rossi, j. o., barroso j. j.",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,mater dieletr baix perd alt permiss compon ess...,introducao ceramicas dieletricas encontram imp...
2,35,avaliação de algoritmos de machine learning na...,"fabiano g. da silva, lucas p. ramos, bruna g. ...",https://www.sige.ita.br/edicoes-anteriores/202...,Artigo de Simpósio,1,recent disponibil dad publ sensor remot obt at...,introducao imagens orbitais sido utilizadas se...
3,147,avaliação de desempenho de redes tolerantes a ...,"davi marinho de a falcão, ronaldo moreira sall...",http://www.ebrevistas.eb.mil.br/CT/article/vie...,Artigo de Revista,1,disruptiontolerant network dtn evoluca mobil a...,introducao otransporte maritimo responsavel co...
4,104,uma arquitetura para radar secundário nos mod...,vitor augusto ferreira santa rita,https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,nest artig apresent arquitet rad secundari ope...,introducao modos operacao c radares secundario...
...,...,...,...,...,...,...,...,...
163,33,centro de avaliações do exército conclui teste...,Noticiário do Exército,https://www.eb.mil.br/web/noticias/noticiario-...,Notícia,3,rio jan rj centr avaliaco exercit caex camp pr...,rio janeiro rj centro avaliacoes exercito caex...
164,139,sarp aplicado ao monitoramento de áreas com di...,"luis claudio batista da silva, ricardo maroqui...",http://www.ebrevistas.eb.mil.br/CT/article/vie...,Artigo de Revista,3,trabalh apresent sistem control multipl aerona...,introducao sistemas aeronaves remotamente pilo...
165,66,planejador de missões do rádio definido por so...,"Victor Feitosa de Carvalho Souza, Fillipe Mach...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,3,context comunicaco tatic base uso radi defin s...,introducao conceito radio definido software rd...
166,165,verificação de velocidade de alvos marítimos m...,"marcos roberto seixas, rafael lemos paes e dav...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,val veloc alv movel imag obt rad abert sinte s...,introducao sistema sar utilizado meio militar ...


In [8]:
# Exportando o DataFrame para um arquivo CSV
df.to_csv('dataset_pre_processado_stem_2.csv', index=False)