<h1>Dataquest: Building Fast Queries on a CSV</h1>

Adaptação da solução do projeto guiado presente no curso "Algorithm Complexity" do Dataquest. Foi utilizado o dataset https://www.kaggle.com/datasets/pavellexyr/the-reddit-climate-change-dataset e foram implementadas 3 funções:

<br>
a-) Dado um id de uma mensagem no Reddit, retornar todas as informações sobre a mensagem;
<br>
b-) Dado um limite inferior e superior da coluna "sentiment", retornar todas as mensagens com valores de sentimento entre os limites inferior e superior;
<br>
c-) Dado um valor de parâmetro, retornar duas mensagens cuja soma do valor da coluna "score" é igual ao parâmetro. Retornar -1 se não existir.

In [22]:
#Importando bibliotecas e o dataset

import csv 
import time
import random

In [23]:
def row_sentiment(row):
    return row[8]

class AnaliseDF():
    #Inicializando o dataset
    def __init__(self, dataset):
        with open(dataset, encoding = 'utf-8') as file:
            reader = csv.reader(file)
            rows = list(reader)
        self.header = rows[0]
        self.rows = rows[1:]

        self.id_to_row = {}
        for row in self.rows:
            self.id_to_row[row[1]] = row
            
        self.score_to_row = {}
        for row in self.rows:
            score = int(row[9])
            if(row[8] == ''):
                row[8] = 0.0
            else:
                row[8] = float(row[8])
            self.score_to_row[score] = row
            
        self.sentiment_to_row = sorted(self.rows, key=row[-2])

    #Implementação da função "a", onde dado um id de uma mensagem no Reddit, retorna todas as informações sobre a mensagem
    def get_message_id(self, message_id):
        for row in self.rows:
            if(row[1] == message_id):
                return row
        return None
    
    def get_message_id_fast(self, message_id):
        if(message_id in self.id_to_row):
            return self.id_to_row[message_id]
        return None 
    
    #Implementação da função "b", onde dado um limite inferior e superior da coluna "sentiment", retorna todas as mensagens com valores de sentimento entre os limites inferior e superior
    def get_messages_by_sentiment(self, lower_limit, upper_limit):
        lower = self.get_message_by_range(lower_limit,0)
        upper = self.get_message_by_range(upper_limit, inf)
        
        if(lower == -1 || upper == -1):
            return -1

        messages_body = self.sentiment_to_row[lower:upper+1]

        return [row[7] for row in messages_body]

    #Implementação da função "c", onde dado um valor de parâmetro, retorna duas mensagens cuja soma do valor da coluna "score" é igual ao parâmetro. Retorna -1 se não existir.
    def check_score(self, total_score):
        for row1 in self.rows:
            for row2 in self.rows:
                score1 = row1[-1]
                score2 = row2[-1]
                if score1 + score2 == total_score:
                    return [row1, row2]
        return -1
    
    def check_score_fast(self, target_sum):
        for row in self.score_to_row:
            if((target_sum-row) in self.score_to_row):
                return [self.score_to_row[row], self.score_to_row[(target_sum-row)]]
        return -1

In [None]:
analiseDataFrame = AnaliseDF('the-reddit-climate-change-dataset-comments.csv')

<h2> Comparando o tempo de execução dos algoritmos </h2>

In [None]:
start = time.time()
analiseDataFrame.get_message_id('imlbfv6')
end = time.time()
timeElapsed_normal = end-start
print("forma tradicional: ", timeElapsed_normal)

start = time.time()
analiseDataFrame.get_message_id_fast('imlbfv6')
end = time.time()
timeElapsed_fast = end-start

print("forma rápida: ", timeElapsed_fast)

In [None]:
start = time.time()
analiseDataFrame.check_score(1500)
end = time.time()
timeElapsed_normal = end-start

print("Forma tradicional: ",timeElapsed_normal)

start = time.time()
analiseDataFrame.check_score_fast(1500)
end = time.time()
timeElapsed_fast = end-start

print("Forma rápida: ",timeElapsed_fast)

In [None]:
scores = [random.randint(0,3000) for _ in range(100)]

total_time_normal = 0
for score in scores:
    start = time.time()
    analiseDataFrame.check_score(score)
    end = time.time()

    total_time_normal += (end-start)
print('Forma tradicional: ', total_time_normal)
total_time_fast = 0
for score in scores:
    start = time.time()
    analiseDataFrame.check_score_fast(score)
    end = time.time()

    total_time_fast += (end-start)
print('Forma rápida: ', total_time_fast)