# Toggle Track Dataset

- Este dataset lo consigo a través de mis datos personales, descargados el 29 de Septiembre de 2021
- Con la intención de aplicar lo aprendido a lo largo de la asignatura en un proyecto con datos reales

# Importando los módulos necesarios

In [16]:
import pandas as pd
import matplotlib.pyplot as plt
import os

# Exploración de los ficheros que tenemos en el dataset

Para poder cargar los datos del dataset, primero tenemos que mirar qué ficheros nos parecen interesantes y que ficheros parecen que no sirven para nada. Mostramos la carpeta en la que tenemos los datos:


In [17]:
base_path = "./data"
!ls $base_path

alerts.json	saved_reports.json  workspace_settings.json
clients.json	tags.json	    workspace_users.json
projects.json	team.json
projects_users	user_groups.json


Muchos de estos archivos `.json` son archivos sin información, o con información que no nos interesa. Así que pasamos a mostrar el contenido de estos archivos para hacer un primer filtrado:

In [27]:
def display_contents_of_dir(base_path: str):

    # Iteramos sobre los archivos en la carpeta de datos
    for file_name in os.listdir(base_path):
        # Tomamos el path al archivo
        file_path = os.path.join(base_path, file_name)

        # Mostramos los contenidos de un fichero regular
        if os.path.isfile(file_path):
            # Abrimos el archivo en modo lectura
            with open(file_path, "r") as fileobj:
                print(f"Contenidos de {file_path}")
                print("=" * 80)
                for line in fileobj:
                    print(line)

        # Mostramos que nos hemos encontrado con un directorio
        elif os.path.isdir(file_path):
            print(f"{file_path} es un directorio")
            print("=" * 80)

        # Mostramos la situacion inusual
        else:
            print(f"{file_path} no es reconocido ni como fichero ni como directorio")
            print("=" * 80)

        print("\n\n")

# Usamos la funcion definida para mostrar los contenidos de nuestro directorio
display_contents_of_dir(base_path = base_path)

./data/projects_users es un directorio



Contenidos de ./data/tags.json
[{"id":7133372,"name":"Becas","workspace_id":3407776},{"id":9843772,"name":"Gatod","workspace_id":3407776},{"id":9843773,"name":"Gatos","workspace_id":3407776},{"id":7435821,"name":"health","workspace_id":3407776},{"id":6042494,"name":"Informática","workspace_id":3407776},{"id":6080522,"name":"Inglés","workspace_id":3407776},{"id":6042492,"name":"Matemáticas","workspace_id":3407776},{"id":7061832,"name":"Notion","workspace_id":3407776},{"id":10000590,"name":"TFG","workspace_id":3407776},{"id":7394594,"name":"Twitch","workspace_id":3407776},{"id":7394600,"name":"Youtube","workspace_id":3407776}]



Contenidos de ./data/user_groups.json
null



Contenidos de ./data/workspace_users.json
[{"active":true,"admin":true,"email":"sergiquijano@gmail.com","group_ids":null,"id":4973755,"inactive":false,"labour_cost":null,"name":"Sergiquijano","owner":true,"rate":null,"timezone":"Europe/Madrid","uid":4817439,"wid":3407776}]




Con esto vemos que los archivos con los que nos interesa trabajar son:

- `projects.json`
- `tags.json`

Además tenemos un directorio llamado `projects_users`. Mostramos sus contenidos del mismo modo para saber si nos interesa trabajar con sus archivos:

In [29]:
display_contents_of_dir(os.path.join(base_path, "projects_users"))

Contenidos de ./data/projects_users/162839455.json
[{"gid":null,"group_id":null,"id":93227939,"labour_cost":null,"manager":true,"project_id":162839455,"rate":null,"user_id":4817439,"workspace_id":3407776}]



Contenidos de ./data/projects_users/152338858.json
[{"gid":null,"group_id":null,"id":74127377,"labour_cost":null,"manager":true,"project_id":152338858,"rate":null,"user_id":4817439,"workspace_id":3407776}]



Contenidos de ./data/projects_users/152311168.json
[{"gid":null,"group_id":null,"id":74078088,"labour_cost":null,"manager":true,"project_id":152311168,"rate":null,"user_id":4817439,"workspace_id":3407776}]



Contenidos de ./data/projects_users/166083644.json
[{"gid":null,"group_id":null,"id":99393239,"labour_cost":null,"manager":true,"project_id":166083644,"rate":null,"user_id":4817439,"workspace_id":3407776}]



Contenidos de ./data/projects_users/154848503.json
[{"gid":null,"group_id":null,"id":79185109,"labour_cost":null,"manager":true,"project_id":154848503,"rate":null,"

Con esto podemos pensar que no nos interesa ningún fichero de los de la carpeta que hemos explorado. Así que acabamos con los dos ficheros que mencionábamos anteriormente

# Cargando el dataset

In [30]:
# Paths de los dos archivos que nos interesan
projects_path = "projects.json"
tags_path = "tags.json"

# Cargamos los dos archivos en dos dataframes separados
projects_df = pd.read_json(os.path.join(base_path, projects_path))
tags_df = pd.read_json(os.path.join(base_path, tags_path))

# Exploración básica del dataset

Mostramos las dimensiones de nuestro dataset:

print(f"Dimensiones del dataset \"projects\": {projects_df.shape}")
print(f"Dimensiones del dataset \"tags\": {tags_df.shape}")

Como tenemos dataframes muy pequeños, podemos mostrar los contenidos de estos dataframes sin demasiados problemas:

In [36]:
projects_df

Unnamed: 0,active,actual_hours,auto_estimates,billable,cid,client_id,color,currency,estimated_hours,id,is_private,name,rate,template,wid,workspace_id
0,True,2,,,,,#e36a00,,,152338858,True,App Librea,,,0,3407776
1,True,48,,,,,#9e5bd9,,,151456915,False,Autoescuela,,,0,3407776
2,True,51,,,,,#9e5bd9,,,166083644,True,Bullet Journal,,,0,3407776
3,True,41,,,,,#d94182,,,151850791,True,LinuxCloud,,,0,3407776
4,True,66,,,,,#566614,,,156960844,True,Personal,,,0,3407776
5,True,4,,,,,#06a893,,,154848503,True,Productivity System,,,0,3407776
6,True,68,,,,,#465bb3,,,156728898,True,Profesional,,,0,3407776
7,True,1,,,,,#d94182,,,162839455,True,Profesor Clases Linux + Programación,,,0,3407776
8,True,15,,,,,#991102,,,167064038,True,Programming Projects,,,0,3407776
9,True,106,,,,,#e36a00,,,151981904,False,Tareas del hogar,,,0,3407776


In [37]:
tags_df

Unnamed: 0,id,name,workspace_id
0,7133372,Becas,3407776
1,9843772,Gatod,3407776
2,9843773,Gatos,3407776
3,7435821,health,3407776
4,6042494,Informática,3407776
5,6080522,Inglés,3407776
6,6042492,Matemáticas,3407776
7,7061832,Notion,3407776
8,10000590,TFG,3407776
9,7394594,Twitch,3407776


Lamentablemente, el dataset no nos da toda la información detallada que cabría esperar. Por ejemplo:

- Desglose semanal de las horas trabajadas
- Desglose diario de las horas trabajadas
- Todos los *Time Entries* de trabajo con los que trabaja `Toggle`. Estos supuestos bloques podrían venir dados por:
    - Nombre del bloque
    - Proyecto al que pertenece
    - Etiqueta asignada al bloque
    - *Timestap* de inicio y de final

Con esta información, solo podemos hacer una exploración de datos muy breve y poco interesante.

# Algunas visualizaciones