## Evaluación de Diagnóstico de buena prácticas de gitflow
Andrés Fauré Ropert  
17639875  
afaure2@uc.cl  
**GitHub**: AndresFaure  


### Estructura de Noteboook

Consiste de dos partes. En la 1 se detallan todas las funciones operacionales que hacen lo que pide el enunciado. En la 2, que está más abajo, está la función ___main___, que permite llamar a cualquiera de las cuatro funciones.

## Parte 1: Funciones

In [23]:
import json
import re
from collections import Counter
from datetime import datetime

**IMPORTANTE**: Acá se definen el path que marca el dataset, cambiar path en caso de que el dataset esté en otro lado.

In [24]:
path = '../dataset.json'

Función de carga de datos:

In [25]:
def cargar_datos(path):
    lista_json = list()

    with open(path, "r") as file:
        for line in file:
            dataline = file.readline()
            try: 
                json_data = json.loads(dataline)
            except:
                print(dataline)
            lista_json.append(json_data)
    return lista_json

def print_lista_tuplas(lista_tuplas):
    cont = 1
    for tupla in lista_tuplas:
        print(f"{cont}. ({tupla[0]}, {tupla[1]})")
        cont += 1

#### 1. Los top 10 tweets más retweeted

In [26]:
def top10tweets(path):
    lista_tuplas = []
    lista_tweets = cargar_datos(path)
    for tweet in lista_tweets:
        #
        tweet_id = tweet["id"]
        retweets = tweet["retweetCount"]
        #
        tupla = (tweet_id, retweets)
        lista_tuplas.append(tupla)
        
    lista_tuplas_ordenada = sorted(lista_tuplas, key=lambda x: x[1], reverse=True)
    return lista_tuplas_ordenada[:10]

#### 2. Los top 10 usuarios en función a la cantidad de tweets que emitieron.

In [27]:
def top10usuarios(path):
    lista_usuarios = []
    lista_tweets = cargar_datos(path)
    for tweet in lista_tweets:
        #
        usuario_name = tweet["user"]["username"]
        #
        lista_usuarios.append(usuario_name)

    counter_object = Counter(lista_usuarios)
    lista_tuplas = counter_object.items()
    
    lista_tuplas_ordenada = sorted(lista_tuplas, key=lambda x: x[1], reverse=True)
    return lista_tuplas_ordenada[:10]

#### 3. Los top 10 días donde hay más tweets.

In [28]:
def top10dias(path):
    lista_dias = []
    lista_tweets = cargar_datos(path)
    for tweet in lista_tweets:
        #
        dia_raw = tweet["date"]
        fecha, _ = dia_raw.split("T")
        #
        lista_dias.append(fecha)
        
    counter_object = Counter(lista_dias)
    lista_tuplas = counter_object.items()

    lista_tuplas_ordenada = sorted(lista_tuplas, key=lambda x: x[1], reverse=True)
    return lista_tuplas_ordenada[:10]

#### 4. Top 10 hashtags más usados.

In [29]:
def top10hastags(path):
    lista_hastag = []
    lista_tweets = cargar_datos(path)
    
    for tweet in lista_tweets:
        #
        text = tweet["content"]
        contiene_hastag = re.search("#", text)
        #
        if contiene_hastag:
            for palabra in text.split():
                if palabra[0] == "#":
                    lista_hastag.append(palabra)
        #
        
    counter_object = Counter(lista_hastag)
    lista_tuplas = counter_object.items()

    lista_tuplas_ordenada = sorted(lista_tuplas, key=lambda x: x[1], reverse=True)
    return lista_tuplas_ordenada[:10]

## Parte 2: Main

In [30]:
def main(path):
    loop = True
    print(f"¡Bienvenido a la ev. de gitflow de Andrés Fauré!\nEl programa trabaja con un dataset en el path [{path}].")
    while loop:
        print("¿Qué función desea ejecutar?")
        print("\t1. Los top 10 tweets más retweeted.")
        print("\t2. Los top 10 usuarios en función a la cantidad de tweets que emitieron.")
        print("\t3. Los top 10 días donde hay más tweets.")
        print("\t4. Top 10 hashtags más usados.")
        print("Ingrese el número correspondiente, 0 si desea salir.")
        
        decision = input(">")
        
        if decision == "1":
            print("Los tops 10 tweets con más retweets son:")
            print_lista_tuplas(top10tweets(path))
            
        elif decision == "2":
            print("Los top 10 usuarios con más tweets son:")
            print_lista_tuplas(top10usuarios(path))
            
        elif decision == "3":
            print("Los top 10 días con más tweets son:")
            print_lista_tuplas(top10dias(path))
            
        elif decision == "4":
            print("Los top 10 hastags más usados son:")
            print_lista_tuplas(top10hastags(path))
            
        elif decision == "0":
            loop = False
        
        else:
            print("Número ingresado no corresponde a uno válido.")
            
        if loop:
            print("¿Desea continuar consultando? Ingrese (1) si sí, (0) si no:")
            decision2 = input(">")
            if decision2 == "1":
                loop = True
            elif decision2 == "0":
                loop = False
            else:
                print("Ingrese una opción válida: (1) o (0).")
    print("¡Gracias por consultar!")
    print("¡Adiós!")
            
            

## Ejecutar casilla de abajo para correr función ___main___.

In [31]:
main(path)

¡Bienvenido a la ev. de gitflow de Andrés Fauré!
El programa trabaja con un dataset en el path [../dataset.json].
¿Qué función desea ejecutar?
	1. Los top 10 tweets más retweeted.
	2. Los top 10 usuarios en función a la cantidad de tweets que emitieron.
	3. Los top 10 días donde hay más tweets.
	4. Top 10 hashtags más usados.
Ingrese el número correspondiente, 0 si desea salir.
>
Número ingresado no corresponde a uno válido.
¿Desea continuar consultando? Ingrese (1) si sí, (0) si no:
>0
¡Gracias por consultar!
¡Adiós!
