In [1]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# Download necessary NLTK resources
nltk.download('punkt')

# Load your Excel file
file_path = 'all_facebook_and_twitter_dataset.xlsx'

# Try loading the file with different engines based on extension
try:
    if file_path.endswith('.xlsx'):
        df = pd.read_excel(file_path, engine='openpyxl')
    elif file_path.endswith('.xls'):
        df = pd.read_excel(file_path, engine='xlrd')
    else:
        raise ValueError("File format not supported. Please provide a .xls or .xlsx file.")
except Exception as e:
    print(f"Error loading the Excel file: {e}")
    raise

# Function to tokenize comments
def tokenize_comment(comment):
    return word_tokenize(comment)

# Function to generate n-grams
def generate_ngrams(tokens, n):
    return list(ngrams(tokens, n))

# Apply tokenization and n-gram generation
df['Tokens'] = df['Comments'].apply(tokenize_comment)

# Choose the value of n for n-grams
n = 2  # For example, 2 for bigrams, 3 for trigrams, etc.
df['N-Grams'] = df['Tokens'].apply(lambda tokens: generate_ngrams(tokens, n))

# Print tokens and n-grams for each comment
for index, row in df.iterrows():
    print(f"Comment: {row['Comments']}")
    print(f"Tokens: {row['Tokens']}")
    print(f"{n}-Grams: {row['N-Grams']}")
    print("\n")

# If you need to save the tokens and n-grams back to the Excel file
output_file_path = 'all_facebook_and_twitter_dataset_with_ngrams.xlsx'
df.to_excel(output_file_path, index=False, engine='openpyxl')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Comment: ріЦрЅБріФрЅйрѕЂ ріЦрѕѕрЅ│рІі рЇќрігрїЁ рѕІрІГрѕЮ рѕЏрѕ╗рѕ╗рІФ ріарІхрѕГрїЅ рѕѕріЦріЏ рѕѕрІхрѕєрЅ╣рѕЮ ріарѕхрЅА ріЦріЋрїѓ
Tokens: ['ріЦрЅБріФрЅйрѕЂ', 'ріЦрѕѕрЅ│рІі', 'рЇќрігрїЁ', 'рѕІрІГрѕЮ', 'рѕЏрѕ╗рѕ╗рІФ', 'ріарІхрѕГрїЅ', 'рѕѕріЦріЏ', 'рѕѕрІхрѕєрЅ╣рѕЮ', 'ріарѕхрЅА', 'ріЦріЋрїѓ']
2-Grams: [('ріЦрЅБріФрЅйрѕЂ', 'ріЦрѕѕрЅ│рІі'), ('ріЦрѕѕрЅ│рІі', 'рЇќрігрїЁ'), ('рЇќрігрїЁ', 'рѕІрІГрѕЮ'), ('рѕІрІГрѕЮ', 'рѕЏрѕ╗рѕ╗рІФ'), ('рѕЏрѕ╗рѕ╗рІФ', 'ріарІхрѕГрїЅ'), ('ріарІхрѕГрїЅ', 'рѕѕріЦріЏ'), ('рѕѕріЦріЏ', 'рѕѕрІхрѕєрЅ╣рѕЮ'), ('рѕѕрІхрѕєрЅ╣рѕЮ', 'ріарѕхрЅА'), ('ріарѕхрЅА', 'ріЦріЋрїѓ')]


Comment: рѕўрЅ╝ріљрІЇ рЅЁріЊрѕ╣ рІерѕџрїђрѕЮрѕерІЇ wifi рІерѕўріќрѕфрІФрЅБрѕѕ mg рЅБрѕѕ mg рІеріљрЅарѕерІЇ рѕхріЋрЅх рѕџрЅђріЋрѕ░рІЇрѕх
Tokens: ['рѕўрЅ╝ріљрІЇ', 'рЅЁріЊрѕ╣', 'рІерѕџрїђрѕЮрѕерІЇ', 'wifi', 'рІерѕўріќрѕфрІФрЅБрѕѕ', 'mg', 'рЅБрѕѕ', 'mg', 'рІеріљрЅарѕерІЇ', 'рѕхріЋрЅх', 'рѕџрЅђріЋрѕ░рІЇрѕх']
2-Grams: [('рѕўрЅ╝ріљрІЇ', 'рЅЁріЊрѕ╣'), ('рЅЁріЊрѕ╣', 'рІерѕџрїђрѕЮрѕерІЇ'), ('рІерѕџрїђрѕЮрѕерІЇ', 'wif

Comment: рІФрЅ░рѕерЇІрЅ╣рЅх ріерЅ░рїарЅЃрѕџрІЇ рѕхрѕѕрІџ рѕѕрЅ░рїарЅЃрѕџрІЇ рІерѕєріљ рѕџрѕірІеріЋ ріарЅхрѕ░рїАрѕЮ
Tokens: ['рІФрЅ░рѕерЇІрЅ╣рЅх', 'ріерЅ░рїарЅЃрѕџрІЇ', 'рѕхрѕѕрІџ', 'рѕѕрЅ░рїарЅЃрѕџрІЇ', 'рІерѕєріљ', 'рѕџрѕірІеріЋ', 'ріарЅхрѕ░рїАрѕЮ']
2-Grams: [('рІФрЅ░рѕерЇІрЅ╣рЅх', 'ріерЅ░рїарЅЃрѕџрІЇ'), ('ріерЅ░рїарЅЃрѕџрІЇ', 'рѕхрѕѕрІџ'), ('рѕхрѕѕрІџ', 'рѕѕрЅ░рїарЅЃрѕџрІЇ'), ('рѕѕрЅ░рїарЅЃрѕџрІЇ', 'рІерѕєріљ'), ('рІерѕєріљ', 'рѕџрѕірІеріЋ'), ('рѕџрѕірІеріЋ', 'ріарЅхрѕ░рїАрѕЮ')]


Comment: ріЦрЅБріФрЅйрѕЂ рІѕрІ░рїѕрїарѕГ ріаріерЅБрЅб рѕЮріЋрѕЮ network ріЦрІерѕ░рѕФ ріарІГрІ░рѕЇрѕЮ рѕхрѕЇріЕ ріГрЇЇрЅх ріЦрІФрѕѕ рїГрѕФрѕй рІЮрїЇ рІГрѕІрѕЇ ріЦрЅБріФрЅйрѕЂ рІ│рЅ│рѕЮ рѕєріљ рібріЋрЅ░рѕГріљрЅх рѕўрїарЅђрѕЮ ріарѕЇрЅ╗рѕЇріЋрѕЮ ріЦрЅБріФрЅйрѕЂ ріарѕхрЅ░ріФріГрѕЅрѕЇріЋ рѕўрѕўрѕхрїѕріЉ ріФрѕЇрЅђрѕе рІФрІЇ рЅарѕЂрѕЅрѕЮ рЅ░рѕўрѕ░рїѕріЉ ріЦріЋрїѓ рЅБріЋрІ░ріЏрІЇ рЅ░рІѕрІхрѕ│рЅйрѕЂ рЅарѕїрѕІріЏрІЇ рІ░рїЇрѕъ ріарЅхрЅ░рЅ╣ ріЦріЋрїѓ
Tokens: ['ріЦрЅБріФрЅйрѕЂ', 'рІѕрІ░рїѕрїарѕГ', 'ріаріерЅБрЅб', 'рѕЮріЋ

Comment: ріарѕе ріЦрЅБріГрѕЁ рІерѕџрЅарѕІрІЇ ріЦрІФрїБ ріарІхрѕГрїЅрЅхріЊ рѕЂрѕЅрѕЮ рібрЅхрІ«рїхрІФрІі рІеріарїѕрѕЕріЋ рѕђрЅЦрЅх рЅарЇЇрЅхрѕђрІіріљрЅх рІерѕўрїарЅђрѕЮ рѕўрЅЦрЅ▒ріЋ ріарѕхріерЅЦрѕЕ
Tokens: ['ріарѕе', 'ріЦрЅБріГрѕЁ', 'рІерѕџрЅарѕІрІЇ', 'ріЦрІФрїБ', 'ріарІхрѕГрїЅрЅхріЊ', 'рѕЂрѕЅрѕЮ', 'рібрЅхрІ«рїхрІФрІі', 'рІеріарїѕрѕЕріЋ', 'рѕђрЅЦрЅх', 'рЅарЇЇрЅхрѕђрІіріљрЅх', 'рІерѕўрїарЅђрѕЮ', 'рѕўрЅЦрЅ▒ріЋ', 'ріарѕхріерЅЦрѕЕ']
2-Grams: [('ріарѕе', 'ріЦрЅБріГрѕЁ'), ('ріЦрЅБріГрѕЁ', 'рІерѕџрЅарѕІрІЇ'), ('рІерѕџрЅарѕІрІЇ', 'ріЦрІФрїБ'), ('ріЦрІФрїБ', 'ріарІхрѕГрїЅрЅхріЊ'), ('ріарІхрѕГрїЅрЅхріЊ', 'рѕЂрѕЅрѕЮ'), ('рѕЂрѕЅрѕЮ', 'рібрЅхрІ«рїхрІФрІі'), ('рібрЅхрІ«рїхрІФрІі', 'рІеріарїѕрѕЕріЋ'), ('рІеріарїѕрѕЕріЋ', 'рѕђрЅЦрЅх'), ('рѕђрЅЦрЅх', 'рЅарЇЇрЅхрѕђрІіріљрЅх'), ('рЅарЇЇрЅхрѕђрІіріљрЅх', 'рІерѕўрїарЅђрѕЮ'), ('рІерѕўрїарЅђрѕЮ', 'рѕўрЅЦрЅ▒ріЋ'), ('рѕўрЅЦрЅ▒ріЋ', 'ріарѕхріерЅЦрѕЕ')]


Comment: рЅЦрѕЕ рЇЇрїЦріљрЅ▒ рѕхріЋрЅх
Tokens: ['рЅЦрѕЕ', 'рЇЇрїЦріљрЅ▒', 'рѕхріЋрЅх']
2-Grams: [('рЅЦрѕЕ', 'р

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)

