In [1]:
import pandas as pd
import numpy as np

# Q1a

In [346]:
# Write a function that estimates the emission parameters from training set

In [619]:
 def emission_parameters_v1(training_filepath):
    with open(training_filepath, "r", encoding="UTF-8") as file:
        # Read the entire contents of the file
        training_contents = file.read().split()
        
    # Convert the data into a Pandas Dataframe
    training_words = []
    training_labels = []

    # Process each line and extract words and labels
    for i in  range(0,len(training_contents)):
        if i % 2 == 0:
            training_words.append(training_contents[i])
        else:
            training_labels.append(training_contents[i])

    # Create a pandas DataFrame
    training_data = {
        "x": training_words,
        "y": training_labels
    }

    training_df = pd.DataFrame(training_data)
    
    # Now in this case, for every single word and every single label,
    # We are going to calculate the emission parameter of these N^2 pairs

    # Calculate emission parameters
#     emission_parameters = df.groupby(["y", "x"]).size() / df.groupby("y").size()
    
#     return pd.DataFrame(emission_parameters)

   # Now we want to calculate the emission parameter for each word-label pair
    emission_parameters = {}
    
    for label in training_df["y"].unique()[0:7]:
        label_df = training_df[training_df["y"] == label]
        total_label_occurrences = len(label_df)
        
        word_counts = label_df["x"].value_counts().to_dict()
        emission_probabilities = {word: count / total_label_occurrences for word, count in word_counts.items()}
        
        emission_parameters[label] = emission_probabilities
    
    return emission_parameters
    

In [620]:
training_emission_params_v1 = emission_parameters_v1("Data/ES/train")

In [622]:
# Q1b

In [623]:
 def emission_parameters_v2(training_filepath):
    with open(training_filepath, "r", encoding="UTF-8") as file:
        # Read the entire contents of the file
        training_contents = file.read().split()
        
    # Convert the data into a Pandas Dataframe
    training_words = []
    training_labels = []

    # Process each line and extract words and labels
    for i in  range(0,len(training_contents)):
        if i % 2 == 0:
            training_words.append(training_contents[i])
        else:
            training_labels.append(training_contents[i])

    # Create a pandas DataFrame
    training_data = {
        "x": training_words,
        "y": training_labels
    }

    training_df = pd.DataFrame(training_data)
    
    # Now in this case, for every single word and every single label,
    # We are going to calculate the emission parameter of these N^2 pairs

    # Calculate emission parameters
#     emission_parameters = df.groupby(["y", "x"]).size() / df.groupby("y").size()
    
#     return pd.DataFrame(emission_parameters)

   # Now we want to calculate the emission parameter for each word-label pair
    emission_parameters = {}
    
    for label in training_df["y"].unique():
        label_df = training_df[training_df["y"] == label]
        total_label_occurrences = len(label_df)
        
        word_counts = label_df["x"].value_counts().to_dict()
        
        # Add #UNK# special word here with a count of 1 for ALL labels
        word_counts["#UNK#"] = 1
        
        # Update emission_probabilities denominator
        emission_probabilities = {word: count / (total_label_occurrences+1) for word, count in word_counts.items()}
        
        emission_parameters[label] = emission_probabilities
    
    return emission_parameters

In [624]:
training_emission_params_v2 = emission_parameters_v2("Data/ES/train")

In [625]:
def label_test_set(test_words, emission_params):
    labelled_sequence = []

    for word in test_words:
        if len(word) == 0:
            labelled_sequence.append("Space")
        else:
            max_emission_prob = 0.0

            for label, word_emission_probs in emission_params.items():
                if word in word_emission_probs:
                    if word_emission_probs[word] > max_emission_prob:
                        max_emission_prob = word_emission_probs[word]
                        max_label = label
                        
                # Word does not exist in the dataset
                else:
                    if word_emission_probs["#UNK#"] > max_emission_prob:
                        max_emission_prob = word_emission_probs["#UNK#"]
                        max_label = label

            labelled_sequence.append(max_label)

    return labelled_sequence

In [626]:
# Pulling out the test set for ES
# Opening the file
with open("Data/ES/dev.in", "r", encoding="UTF-8") as file:
    # Read the entire contents of the file
    test_words = file.read().split('\n')

In [627]:
# Now you will do prediction
predicted_labels = label_test_set(test_words, training_emission_params_v2)

In [630]:
def write_predictions_to_file(test_words, test_labels, output_filepath):
    with open(output_filepath, "w", encoding="UTF-8") as file:
        for word, label in zip(test_words, test_labels):
            if label == "Space":
                file.write("\n")
            else:
                file.write(f"{word} {label}\n")

In [631]:
write_predictions_to_file(test_words=test_words, test_labels=predicted_labels,output_filepath="Data/ES/dev.p1.out")

In [632]:
# Now perform evaluation with given script
!python EvalScript/evalResult.py Data/ES/dev.out Data/ES/dev.p1.out


#Entity in gold data: 229
#Entity in prediction: 1439

#Correct Entity : 100
Entity  precision: 0.0695
Entity  recall: 0.4367
Entity  F: 0.1199

#Correct Sentiment : 51
Sentiment  precision: 0.0354
Sentiment  recall: 0.2227
Sentiment  F: 0.0612


In [615]:
# Now to perform this for the RU Dataset with the above functions

In [579]:
training_emission_params_v2 = emission_parameters_v2("Data/RU/train")

{'интерьер': 55, 'ресторан': 45, 'место': 43, 'обслуживание': 43, 'Интерьер': 42, 'кухня': 27, 'атмосфера': 24, 'Обслуживание': 23, 'девушка': 23, 'Кухня': 23, 'блюда': 21, 'официант': 21, 'порции': 20, 'персонал': 18, 'заведение': 18, 'салат': 17, 'музыка': 17, 'меню': 17, 'еда': 16, 'обстановка': 16, 'пиво': 14, 'Еда': 14, 'официанты': 13, 'Официанты': 12, 'Персонал': 11, 'блюд': 11, 'роллы': 11, 'диваны': 11, 'официантка': 11, 'десерт': 10, 'администратор': 10, 'кафе': 10, 'Ресторан': 10, 'живая': 10, 'Меню': 8, 'обслуживанием': 8, 'атмосферу': 8, 'персоналу': 8, 'суши': 8, 'сервис': 7, 'оформление': 7, 'вино': 7, 'ресторану': 7, 'Сервис': 7, 'мясо': 6, 'салаты': 6, 'ресторане': 6, 'столы': 6, 'чай': 5, 'стейк': 5, 'кухней': 5, 'еды': 5, 'Зал': 5, 'кальян': 5, 'ресторана': 5, 'Официант': 5, 'посуда': 5, 'Порции': 5, 'вид': 5, 'Атмосфера': 5, 'подача': 4, '"': 4, 'тирамису': 4, 'диванчики': 4, 'мебель': 4, 'свечи': 4, 'десерты': 4, 'Салаты': 4, 'сервировка': 4, 'Обстановка': 4, 'заве

In [580]:
with open("Data/RU/train", "r", encoding="UTF-8") as file:
    # Read the entire contents of the file
    test_words = file.read().split('\n')
    print(test_words)

['Еда B-positive', 'вкусная O', ', O', 'но O', 'отдельно O', 'хочу O', 'отметить O', 'красивую O', 'сервировку B-positive', 'блюд I-positive', '; O', '. O', '', 'Филадельфию B-positive', 'мне O', 'удалось O', 'только O', 'попробовать O', ', O', 'сделали O', 'на O', 'отлично O', ', O', 'хороший O', 'кусок O', 'лосося-филадельфии-чуток B-positive', 'риса I-positive', ', O', 'смело O', 'возьму O', 'в O', 'следующий O', 'раз O', 'Десерт B-positive', 'Тирамису I-positive', 'просто O', 'таял O', 'во O', 'рту O', ') O', ') O', ') O', '', 'Очень O', 'благодарны O', 'персоналу B-positive', 'за O', 'качественное O', 'обслуживание B-positive', '. O', '', 'Были O', 'здесь O', 'первый O', 'раз O', 'и O', ', O', 'точно O', ', O', 'не O', 'последний O', '! O', '', 'Резервировать O', 'всё O', 'помещение O', 'не O', 'было O', 'необходимости O', 'из-за O', 'небольшого O', 'количества O', 'посетителей O', '. O', '', 'А O', 'вот O', 'рыба B-positive', 'в I-positive', 'беконе I-positive', '- O', 'порадовал

In [581]:
training_emission_params_v2

{'B-positive': {'интерьер': 0.03433208489388265,
  'ресторан': 0.028089887640449437,
  'место': 0.026841448189762796,
  'обслуживание': 0.026841448189762796,
  'Интерьер': 0.026217228464419477,
  'кухня': 0.016853932584269662,
  'атмосфера': 0.0149812734082397,
  'Обслуживание': 0.01435705368289638,
  'девушка': 0.01435705368289638,
  'Кухня': 0.01435705368289638,
  'блюда': 0.013108614232209739,
  'официант': 0.013108614232209739,
  'порции': 0.012484394506866416,
  'персонал': 0.011235955056179775,
  'заведение': 0.011235955056179775,
  'салат': 0.010611735330836454,
  'музыка': 0.010611735330836454,
  'меню': 0.010611735330836454,
  'еда': 0.009987515605493134,
  'обстановка': 0.009987515605493134,
  'пиво': 0.008739076154806492,
  'Еда': 0.008739076154806492,
  'официанты': 0.008114856429463172,
  'Официанты': 0.00749063670411985,
  'Персонал': 0.00686641697877653,
  'блюд': 0.00686641697877653,
  'роллы': 0.00686641697877653,
  'диваны': 0.00686641697877653,
  'официантка': 0.0068

In [568]:
with open("Data/RU/dev.in", "r", encoding="UTF-8") as file:
    # Read the entire contents of the file
    test_words = file.read().split('\n')
    

In [586]:
predicted_labels = label_test_set(test_words, training_emission_params_v2)

B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive
O
I-positive
B-negative
I-negative
B-neutral
I-neutral
B-positive

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [588]:
training_emission_params_v2 = emission_parameters_v2("Data/RU/train")

{'интерьер': 55, 'ресторан': 45, 'место': 43, 'обслуживание': 43, 'Интерьер': 42, 'кухня': 27, 'атмосфера': 24, 'Обслуживание': 23, 'девушка': 23, 'Кухня': 23, 'блюда': 21, 'официант': 21, 'порции': 20, 'персонал': 18, 'заведение': 18, 'салат': 17, 'музыка': 17, 'меню': 17, 'еда': 16, 'обстановка': 16, 'пиво': 14, 'Еда': 14, 'официанты': 13, 'Официанты': 12, 'Персонал': 11, 'блюд': 11, 'роллы': 11, 'диваны': 11, 'официантка': 11, 'десерт': 10, 'администратор': 10, 'кафе': 10, 'Ресторан': 10, 'живая': 10, 'Меню': 8, 'обслуживанием': 8, 'атмосферу': 8, 'персоналу': 8, 'суши': 8, 'сервис': 7, 'оформление': 7, 'вино': 7, 'ресторану': 7, 'Сервис': 7, 'мясо': 6, 'салаты': 6, 'ресторане': 6, 'столы': 6, 'чай': 5, 'стейк': 5, 'кухней': 5, 'еды': 5, 'Зал': 5, 'кальян': 5, 'ресторана': 5, 'Официант': 5, 'посуда': 5, 'Порции': 5, 'вид': 5, 'Атмосфера': 5, 'подача': 4, '"': 4, 'тирамису': 4, 'диванчики': 4, 'мебель': 4, 'свечи': 4, 'десерты': 4, 'Салаты': 4, 'сервировка': 4, 'Обстановка': 4, 'заве

In [590]:
training_emission_params_v2 = emission_parameters_v2("Data/RU/train")

# Pulling out the test set for RU
# Opening the file
with open("Data/RU/dev.in", "r", encoding="UTF-8") as file:
    # Read the entire contents of the file
    test_words = file.read().split('\n')

# Now you will do prediction
predicted_labels = label_test_set(test_words, training_emission_params_v2)

write_predictions_to_file(test_words=test_words, test_labels=predicted_labels,output_filepath="Data/RU/dev.p1.out")

{'интерьер': 55, 'ресторан': 45, 'место': 43, 'обслуживание': 43, 'Интерьер': 42, 'кухня': 27, 'атмосфера': 24, 'Обслуживание': 23, 'девушка': 23, 'Кухня': 23, 'блюда': 21, 'официант': 21, 'порции': 20, 'персонал': 18, 'заведение': 18, 'салат': 17, 'музыка': 17, 'меню': 17, 'еда': 16, 'обстановка': 16, 'пиво': 14, 'Еда': 14, 'официанты': 13, 'Официанты': 12, 'Персонал': 11, 'блюд': 11, 'роллы': 11, 'диваны': 11, 'официантка': 11, 'десерт': 10, 'администратор': 10, 'кафе': 10, 'Ресторан': 10, 'живая': 10, 'Меню': 8, 'обслуживанием': 8, 'атмосферу': 8, 'персоналу': 8, 'суши': 8, 'сервис': 7, 'оформление': 7, 'вино': 7, 'ресторану': 7, 'Сервис': 7, 'мясо': 6, 'салаты': 6, 'ресторане': 6, 'столы': 6, 'чай': 5, 'стейк': 5, 'кухней': 5, 'еды': 5, 'Зал': 5, 'кальян': 5, 'ресторана': 5, 'Официант': 5, 'посуда': 5, 'Порции': 5, 'вид': 5, 'Атмосфера': 5, 'подача': 4, '"': 4, 'тирамису': 4, 'диванчики': 4, 'мебель': 4, 'свечи': 4, 'десерты': 4, 'Салаты': 4, 'сервировка': 4, 'Обстановка': 4, 'заве

In [633]:
!python EvalScript/evalResult.py Data/RU/dev.out Data/RU/dev.p1.out


#Entity in gold data: 389
#Entity in prediction: 1584

#Correct Entity : 84
Entity  precision: 0.0530
Entity  recall: 0.2159
Entity  F: 0.0851

#Correct Sentiment : 34
Sentiment  precision: 0.0215
Sentiment  recall: 0.0874
Sentiment  F: 0.0345
