In [1]:
!pip install nltk
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import csv

# Baixe os recursos necessários do NLTK se ainda não tiver feito isso
nltk.download('punkt')
nltk.download('stopwords')

def remove_stop_words_and_save(csv_file, column_name, output_file):
    stop_words = set(stopwords.words('portuguese'))  # Escolha o idioma das stop words

    # Abre o arquivo CSV
    data = pd.read_csv(csv_file)

    # Itera sobre os itens na coluna especificada
    for index, row in data.iterrows():
        text = str(row[column_name])  # Obtém o texto da coluna específica
        word_tokens = word_tokenize(text.lower())  # Tokeniza o texto em palavras

        # Remove as stop words do texto tokenizado
        filtered_text = [word for word in word_tokens if word not in stop_words]

        # Atualiza a coluna no DataFrame com o texto sem stop words
        data.at[index, column_name] = ' '.join(filtered_text)

    # Salva o DataFrame atualizado em um novo arquivo CSV
    data.to_csv(output_file, index=False, quoting=csv.QUOTE_NONNUMERIC)

# Exemplo de uso
remove_stop_words_and_save('/content/drive/MyDrive/sentimentogpt/IMDB Dataset.csv', 'review', 'semstopwords.csv')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [3]:
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem import RSLPStemmer
import csv

# Baixe os recursos necessários do NLTK se ainda não tiver feito isso
nltk.download('punkt')
nltk.download('rslp')

def apply_stemming_and_save(csv_file, column_name, output_file):
    stemmer = RSLPStemmer()  # Escolha o algoritmo de Stemming

    # Abre o arquivo CSV
    data = pd.read_csv(csv_file)

    # Itera sobre os itens na coluna especificada
    for index, row in data.iterrows():
        text = str(row[column_name])  # Obtém o texto da coluna específica
        word_tokens = word_tokenize(text.lower())  # Tokeniza o texto em palavras

        # Aplica Stemming a cada palavra do texto
        stemmed_text = [stemmer.stem(word) for word in word_tokens]

        # Atualiza a coluna no DataFrame com o texto após o Stemming
        data.at[index, column_name] = ' '.join(stemmed_text)

    # Salva o DataFrame atualizado em um novo arquivo CSV
    data.to_csv(output_file, index=False, quoting=csv.QUOTE_NONNUMERIC)

# Exemplo de uso
apply_stemming_and_save('/content/drive/MyDrive/sentimentogpt/IMDB Dataset.csv', 'review', 'Imdb_stemming.csv')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [4]:
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import csv

# Baixe os recursos necessários do NLTK se ainda não tiver feito isso
nltk.download('punkt')
nltk.download('wordnet')

def apply_lemmatization_and_save(csv_file, column_name, output_file):
    lemmatizer = WordNetLemmatizer()

    # Abre o arquivo CSV
    data = pd.read_csv(csv_file)

    # Itera sobre os itens na coluna especificada
    for index, row in data.iterrows():
        text = str(row[column_name])  # Obtém o texto da coluna específica
        word_tokens = word_tokenize(text.lower())  # Tokeniza o texto em palavras

        # Aplica lematização a cada palavra do texto
        lemmatized_text = [lemmatizer.lemmatize(word) for word in word_tokens]

        # Atualiza a coluna no DataFrame com o texto após a lematização
        data.at[index, column_name] = ' '.join(lemmatized_text)

    # Salva o DataFrame atualizado em um novo arquivo CSV
    data.to_csv(output_file, index=False, quoting=csv.QUOTE_NONNUMERIC)

# Exemplo de uso
apply_lemmatization_and_save('/content/drive/MyDrive/sentimentogpt/IMDB Dataset.csv', 'review', 'Imdb_lemmatization.csv')



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [5]:
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem import RSLPStemmer
from nltk.stem import WordNetLemmatizer
import csv

# Baixe os recursos necessários do NLTK se ainda não tiver feito isso
nltk.download('punkt')
nltk.download('rslp')
nltk.download('wordnet')

def apply_stemming_and_lemmatization_and_save(csv_file, column_name, output_file):
    stemmer = RSLPStemmer()  # Stemmer para o português
    lemmatizer = WordNetLemmatizer()  # Lematizador para o inglês

    # Abre o arquivo CSV
    data = pd.read_csv(csv_file)

    # Itera sobre os itens na coluna especificada
    for index, row in data.iterrows():
        text = str(row[column_name])  # Obtém o texto da coluna específica
        word_tokens = word_tokenize(text.lower())  # Tokeniza o texto em palavras

        # Aplica Stemming a cada palavra do texto
        stemmed_text = [stemmer.stem(word) for word in word_tokens]

        # Em seguida, aplica lematização a cada palavra do texto já stemmizado
        lemmatized_text = [lemmatizer.lemmatize(word) for word in stemmed_text]

        # Atualiza a coluna no DataFrame com o texto após o Stemming e Lematização
        data.at[index, column_name] = ' '.join(lemmatized_text)

    # Salva o DataFrame atualizado em um novo arquivo CSV
    data.to_csv(output_file, index=False, quoting=csv.QUOTE_NONNUMERIC)

# Exemplo de uso
apply_stemming_and_lemmatization_and_save('/content/drive/MyDrive/sentimentogpt/IMDB Dataset.csv', 'review', 'Imbd_steeming_and_lemmatization.csv')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [6]:
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem import RSLPStemmer
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import csv

# Baixe os recursos necessários do NLTK se ainda não tiver feito isso
nltk.download('punkt')
nltk.download('rslp')
nltk.download('stopwords')
nltk.download('wordnet')

def apply_stemming_lemmatization_remove_stopwords_and_save(csv_file, column_name, output_file):
    stemmer = RSLPStemmer()  # Stemmer para o português
    lemmatizer = WordNetLemmatizer()  # Lematizador para o inglês
    stop_words = set(stopwords.words('portuguese'))  # Stop words em português

    # Abre o arquivo CSV
    data = pd.read_csv(csv_file)

    # Itera sobre os itens na coluna especificada
    for index, row in data.iterrows():
        text = str(row[column_name])  # Obtém o texto da coluna específica
        word_tokens = word_tokenize(text.lower())  # Tokeniza o texto em palavras

        # Remove as stop words do texto tokenizado
        filtered_text = [word for word in word_tokens if word not in stop_words]

        # Aplica Stemming a cada palavra do texto já sem as stop words
        stemmed_text = [stemmer.stem(word) for word in filtered_text]

        # Em seguida, aplica lematização a cada palavra do texto já stemmizado e sem stop words
        lemmatized_text = [lemmatizer.lemmatize(word) for word in stemmed_text]

        # Atualiza a coluna no DataFrame com o texto após o Stemming, Lematização e remoção de stop words
        data.at[index, column_name] = ' '.join(lemmatized_text)

    # Salva o DataFrame atualizado em um novo arquivo CSV
    data.to_csv(output_file, index=False, quoting=csv.QUOTE_NONNUMERIC)

# Exemplo de uso
apply_stemming_lemmatization_remove_stopwords_and_save('/content/drive/MyDrive/sentimentogpt/IMDB Dataset.csv', 'review', 'Imbd_steeming_and_lemmatization.csv')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
