# Alterar CSV

- Versão feita em **21 março de 2024** para rodar no Colab

**Missão:** Este arquivo tem por objetivo realizar a **Stemmatização** no **dataset_pre_processado_2.csv.**

## Dataset com pré-processamento: *dataset_pre_processado_2.csv*

In [1]:
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize
import nltk
import pandas as pd
import numpy as np

In [2]:
# Pré-processamento
nltk.download('punkt')
nltk.download('rslp')
stemmer = RSLPStemmer()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [3]:
df = pd.read_csv("dataset_pre_processado_2.csv")
df.head(2)

Unnamed: 0,id,titulo,autor,url,tipo_documento,rotulo,resumo,texto
0,61,guerra eletrônica e defesa cibernética na amaz...,"cristiano torres do amaral, edilson vasconcelo...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,regiao amazonica possui extensa area fronteira...,expansao grupos ligados faccoes criminosas mil...
1,31,centro de avaliações do exército finaliza test...,Noticiário do Exército,https://www.eb.mil.br/web/noticias/noticiario-...,Notícia,3,rio janeiro rj centro avaliacoes exercito caex...,rio janeiro rj centro avaliacoes exercito caex...


In [4]:
def preprocess_text(text):
    tokens = word_tokenize(text)  # Tokenização e conversão para minúsculas
    tokens = [stemmer.stem(token) for token in tokens]  # Stemmatização
    return ' '.join(tokens)

In [5]:
df['resumo'] = df['resumo'].apply(preprocess_text)

In [6]:
df['texto'] = df['texto'].apply(preprocess_text)

In [7]:
df

Unnamed: 0,id,titulo,autor,url,tipo_documento,rotulo,resumo,texto
0,61,guerra eletrônica e defesa cibernética na amaz...,"cristiano torres do amaral, edilson vasconcelo...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,regia amazon possu extens are fronteir biodive...,expansa grup lig facco crimin milic avanc dife...
1,31,centro de avaliações do exército finaliza test...,Noticiário do Exército,https://www.eb.mil.br/web/noticias/noticiario-...,Notícia,3,rio jan rj centr avaliaco exercit caex camp pr...,rio jan rj centr avaliaco exercit caex camp pr...
2,71,excitação e transmissão de ondas eletromagnéti...,"Joaquim Paulino Leite Neto, Joaquim J. Barroso",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,metod excitaca gui ond evanesc carreg metamate...,gui ond retangul sid ampl us estrut basic gui ...
3,110,caracterização do óculos de visão noturna em ...,"cristiano link, ernesto cordeiro marujo e deni...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,3,trabalh descrev test realiz caracterizaca equi...,inici aviaca brasil ativ busc salv sar lev efe...
4,170,aplicação de titanato zirconato de chumbo no d...,"silva neto, l. p., silva junior, a. r., rossi,...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,capaci ceram comerc bas titanat bari dop estro...,ceram dieletr sid utiliz mei dieletr disposi a...
...,...,...,...,...,...,...,...,...
163,111,geração de sinais por técnicas fotônicas de co...,"romildo henrique de souza, olympio. l. coutinh...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,promis are rf foton possibilit atend demand la...,advent comunicaco digit introduz tecn modulaca...
164,62,proposta de um receptor de guerra eletrônica m...,"André Paim Gonçalves, Renan Miranda Richter, F...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,1,artig apresent propost recep guerr eletron mic...,advent empreg satelit aeronav remot pilot guer...
165,59,knn e rede neural convolucional para o reconhe...,"Leonan Entringer Falqueto, Ricardo Suterio, Ra...",https://www.sige.ita.br/edicoes-anteriores/201...,Artigo de Simpósio,2,reconhec automa alv plataform petrolif mei ima...,brasil assim demal pais grand dimenso territor...
166,137,redução de dimensionalidade por transformação ...,"carlos cypriano vallim junior, felipe aurélio ...",http://www.ebrevistas.eb.mil.br/CT/article/vie...,Artigo de Revista,1,princip aplicaco process adapt espacotemp spac...,process espacotemp usual refer process adapt e...


In [8]:
# Exportando o DataFrame para um arquivo CSV
df.to_csv('dataset_pre_processado_stem_2.csv', index=False)