# Projeto 4 - Guided Project: Building Fast Queries on a CSV

O seguinte trabalho tem como objetivo trabalhar com algoritmos de busca em cima de um arquivo CSV contendo comentários acerca da pauta climatica. Para isso foi implementada uma classe "Comments", onde podemos chamar os metodos criados afim de realizarmos buscas específicas baseadas em 3 funções, que veremos no decorrer do algoritmo.

Importação das bibliotecas necessárias para execução do código.

In [1]:
import csv
import time
import random  

O código abaixo comprende a implementação geral da classe "Comments":

## Class Comments with search methods

In [3]:
#For function 2
def row_sentiment(row):
    return row[8]

#Class implementation
class Comments():                    
    def __init__(self, csv_filename): 
        with open(csv_filename, encoding='utf8') as f:
            reader = csv.reader(f)
            rows = list(reader)
            
        self.header = rows[0]
        self.rows = rows[1:]
        
        ##for function 1
        self.id_to_row = {}
        for row in self.rows:
            self.id_to_row[row[1]] = row
        
        ##for function 2
        for row in self.rows:
            if row[8] == '': 
                row[8] = 0.0
            else:
                row[8] = float(row[8])
                
        self.rows_sentiment = sorted(self.rows, key=row_sentiment)
        
        ##for function 3
        for row in self.rows:              
            row[9] = int(row[9])

        self.rows_score = {}                    
        for row in self.rows:                       
            self.rows_score[row[9]] = row

        
    # 1st Function -----------------------------------------        
    def get_message_from_id(self, commentID):
        for row in self.rows:                 
            if row[1] == commentID:
                return row
            
        return None   
 

    def get_message_from_id_fast(self, commentID):
        if commentID in self.id_to_row:           
            return self.id_to_row[commentID]
        return None
    #-------------------------------------------------------
    
    # 2nd Function -----------------------------------------
    def find_message_with_sentiment(self, target_sentiment, row_start):
        range_start = row_start                                   
        range_end = len(self.rows_sentiment) - 1     
        
        while range_start < range_end:
            range_middle = (range_end + range_start) // 2  
            value = self.rows_sentiment[range_middle][8]
            if value == target_sentiment:                            
                return range_middle                        
            elif value < target_sentiment:                           
                range_start = range_middle + 1             
            else:                                          
                range_end = range_middle - 1 
                
        if self.rows_sentiment[range_start][8] != target_sentiment:                  
            return -1  
        
        return range_start

    
    def messages_by_sentiments_range(self, lim_inferior, lim_superior):
        inferior_limit = self.find_message_with_sentiment(lim_inferior, 0)
        if inferior_limit == -1:
            return -1
        
        superior_limit = self.find_message_with_sentiment(lim_superior, inferior_limit)
        if superior_limit == -1:
            return -1
        
        data = self.rows_sentiment[inferior_limit:superior_limit+1]
        return [row[7] for row in data] 
    
    # 3nd Function -----------------------------------------
    def check_socore_sum(self, value):    
        for row1 in self.rows:                  
            for row2 in self.rows:
                if row1[9] + row2[9] == value:
                    return row1, row2
        return -1                      
    
    def check_score_sum_fast(self, value):
        for row in self.rows_score:
            if (value - row) in self.rows_score:
                return self.rows_score[row], self.rows_score[value - row]
        return -1   
    #-------------------------------------------------------

## 1st Function Test - Info messages by ID

A primeira função da classe "Comments" nos permite buscar as informações de qualquer comentário tendo como entrada o ID. A seguir é feito um teste para mostrar como a classe é chamada e como ela retorna a informação. Para essa função foram criados dois algoritmos, onde um utilizada o recurso de biblioteca(get_message_from_id_fast) e o outro não(get_message_from_id), com os seguintes testes podemos comparar o desempenho de ambos:

In [4]:
comments = Comments('the-reddit-climate-change-dataset-comments.csv')
print(comments.get_message_from_id('imlddn9'))
print(comments.get_message_from_id_fast('imlddn9'))

['comment', 'imlddn9', '2qh3l', 'news', 'false', '1661990368', 'https://old.reddit.com/r/news/comments/x2cszk/us_life_expectancy_down_for_secondstraight_year/imlddn9/', 'Yeah but what the above commenter is saying is their base doesn’t want any of that. They detest all of those things, even the small gradual changes. Investing in nuclear energy is a tacit acknowledgement of man made climate change. Any acknowledgement or concession and they will be primaried out in a minute', 0.5719, 2]
['comment', 'imlddn9', '2qh3l', 'news', 'false', '1661990368', 'https://old.reddit.com/r/news/comments/x2cszk/us_life_expectancy_down_for_secondstraight_year/imlddn9/', 'Yeah but what the above commenter is saying is their base doesn’t want any of that. They detest all of those things, even the small gradual changes. Investing in nuclear energy is a tacit acknowledgement of man made climate change. Any acknowledgement or concession and they will be primaried out in a minute', 0.5719, 2]


In [5]:
ids = []
for row in comments.rows:
    ids.append(row[1])
    
ids_random = [ids[random.randint(0, len(ids))] for _ in range(100)]

total_time_no_dict = 0
for identifier in ids_random:
    start = time.time()
    comments.get_message_from_id(identifier)
    end = time.time()
    total_time_no_dict += end - start
    
total_time_dict = 0
for identifier in ids_random:
    start = time.time()
    comments.get_message_from_id_fast(identifier)
    end = time.time()
    total_time_dict += end - start
    
print(round(total_time_no_dict, 30))
print(round(total_time_dict, 39))

18.150451183319092
0.0


O programa está sendo rodado em Jupyter, mas em testes no colab os valores menores não foram arredondados, assim foram obtidos os valores: 
37.040876388549805
0.0001397132873535

Dessa forma observa-se uma nitida diferença entre os algoritmos, visto que o tempo de perfomance do método que utiliza a biblioteca é bem melhor do que não usa.

## 2nd Function Test - Messages by Sentiments 

A segunda função nos permite buscar comentarios mediante um intervalo de valores da coluna "Sentiments" que varia de -1 a 1. Podemos ver uma demonstração de sua chamada abaixo:

In [6]:
print(comments.messages_by_sentiments_range(0.012, 0.013))



## 3rd Function Test - search by score sum

Por ultimo, a terceira função nos permite buscar scores de comentários a partir de um valor de entrada, cuja soma dos scores tenha como resultado esse target. Foram implementados, assim como na função um, dois algoritmos, um utilizando biblioteca e o outro não. Com o algoritmo abaixo podemos comparar a perfomance de ambos.

In [7]:
random_scrores = [random.randint(-25, 350) for _ in range(100)] # step 1

total_time_no_set = 0
for score in random_scrores:
    start = time.time()
    comments.check_socore_sum(score)
    end = time.time()
    total_time_no_set += end - start
    
total_time_set = 0
for score in random_scrores:
    start = time.time()
    comments.check_score_sum_fast(score)
    end = time.time()
    total_time_set += end - start
    
print(total_time_no_set)
print(total_time_set)

0.3547649383544922
0.0


O programa está sendo rodado em Jupyter, mas em testes no colab os valores menores não foram arredondados, assim foram obtidos os valores: 
0.38237953186035156
0.00010228157043457

Dessa forma observa-se uma nitida diferença entre os algoritmos, visto que o tempo de perfomance do método que utiliza a biblioteca é bem melhor do que não usa.