In [17]:
import pandas as pd
import random
from collections import defaultdict
# import csv
# import hashlib
# import os
# from anytree import Node, RenderTree

arch1 = pd.read_csv("Datos/User_track_data.csv")
arch2 = pd.read_csv("Datos/User_track_data_2.csv")
arch3 = pd.read_csv("Datos/User_track_data_3.csv")

new_data= pd.concat([arch1, arch2, arch3])
new_data.to_csv("Datos/All_Data.csv", index=False)
df = pd.DataFrame(new_data)

print(df.head())

              User_name      User_ID          Artist_name  \
0  Sebastian Racedo Val  12179172375           Nickelback   
1  Sebastian Racedo Val  12179172375           Nickelback   
2  Sebastian Racedo Val  12179172375  Panic! At The Disco   
3  Sebastian Racedo Val  12179172375         Fall Out Boy   
4  Sebastian Racedo Val  12179172375                 Hugo   

                        Track  valence  
0                     Animals    0.818  
1       Burn It to the Ground    0.600  
2  I Write Sins Not Tragedies    0.672  
3            Thnks fr th Mmrs    0.588  
4                 99 Problems    0.592  


CLASE NODO 


In [2]:
class Node:
    def __init__(self, value):
        self.value = value
        self.left = None
        self.right = None
        self.height = 1
        self.parent = None

CLASE DEL ARBOL AVL 


In [3]:

class AVLTree:
    def __init__(self):
        self.root = None 

# recibe un nodo como argumento y devuelve la altura de ese nodo en el árbol AVL. Si el nodo es None, devuelve 0.
    def get_height(self, node):
        if node is None:
            return 0
        else:
            return node.height
# recibe un nodo como argumento y devuelve el factor de balance de ese nodo en el árbol AVL, 
# que es la diferencia de altura entre el subárbol izquierdo y el subárbol derecho del nodo. 
# Si el nodo es None, devuelve 0. Este método utiliza el método get_height para obtener la altura de los subárboles.
    def get_balance_factor(self, node):
        if node is None:
            return 0
        else:
            return self.get_height(node.left) - self.get_height(node.right)

# Los metodos rotate_right y left: 
# recibe un nodo como argumento y realiza una rotación hacia la derecha en el subárbol con raíz en ese nodo, 
# para balancear el árbol AVL. La rotación consiste en tomar el hijo izquierdo del nodo como nueva raíz del subárbol, 
# y el nodo original se convierte en el hijo derecho del nuevo nodo raíz. Si el hijo izquierdo del nodo es None, 
# no se realiza ninguna rotación y se devuelve el nodo original. Este método actualiza la altura de los nodos modificados en el subárbol.
# Y pues lo mismo para left cambiandole hacia donde rota.
    def rotate_right(self, node):
        left_child = node.left
        if left_child is None:
            return node  # nothing to rotate
        left_right_child = left_child.right

        left_child.right = node
        node.left = left_right_child

        node.height = max(self.get_height(node.left), self.get_height(node.right)) + 1
        left_child.height = max(self.get_height(left_child.left), self.get_height(left_child.right)) + 1

        return left_child

    def rotate_left(self, node):
        right_child = node.right
        if right_child is None:
            return node  # nothing to rotate
        right_left_child = right_child.left

        right_child.left = node
        node.right = right_left_child

        node.height = max(self.get_height(node.left), self.get_height(node.right)) + 1
        right_child.height = max(self.get_height(right_child.left), self.get_height(right_child.right)) + 1

        return right_child

# FUNCION INSERT_NODE()
#Si value es menor que el valor del nodo node, se inserta en el subárbol izquierdo, y si es mayor se inserta en el subárbol derecho. 
# Después de insertar el nodo, se actualiza la altura del nodo node y se verifica el balance del árbol. 
# Si el balance del árbol es mayor que 1 o menor que -1, se realizan rotaciones para equilibrar el árbol. 
# El método devuelve el nodo raíz del árbol AVL actualizado.
    def insert_node(self, node, value):
            if node is None:
                return Node(value)
            elif value < node.value:
                node.left = self.insert_node(node.left, value)
            else:
                node.right = self.insert_node(node.right, value)

            node.height = max(self.get_height(node.left), self.get_height(node.right)) + 1
            new_node = Node(value)

            balance_factor = self.get_balance_factor(node)

            # Left-Left case
            if balance_factor > 1 and value < node.left.value:
                return self.rotate_right(node)

            # Right-Right case
            if balance_factor < -1 and value > node.right.value:
                return self.rotate_left(node)

            # Left-Right case
            if balance_factor > 1 and value > node.left.value:
                node.left = self.rotate_left(node.left)
                return self.rotate_right(node)

            # Right-Left case
            if balance_factor < -1 and value < node.right.value:
                node.right = self.rotate_right(node.right)
                return self.rotate_left(node)

            new_node.parent = node
            return node
    
    def insert(self, value):
        self.root = self.insert_node(self.root, value)


# FUNCION DELETE_NODE()
# Si value es menor que el valor del nodo node, se elimina en el subárbol izquierdo, y si es mayor se elimina en el subárbol derecho. 
# Si el nodo a eliminar tiene dos hijos, se busca su sucesor inmediato (el nodo más pequeño en el subárbol derecho) para reemplazarlo. 
# Después de eliminar el nodo, se actualiza la altura del nodo node y se verifica el balance del árbol. 
# Si el balance del árbol es mayor que 1 o menor que -1, se realizan rotaciones para equilibrar el árbol. 
# El método devuelve el nodo raíz del árbol AVL actualizado.

    def delete_node(self, node, value):
            if node is None:
                return node

            if value < node.value:
                node.left = self.delete_node(node.left, value)
            elif value > node.value:
                node.right = self.delete_node(node.right, value)
            else:
                if node.left is None and node.right is None:
                    return None
                elif node.left is None:
                    return node.right
                elif node.right is None:
                    return node.left
                else:
                    successor = node.right
                    while successor.left:
                        successor = successor.left

                    node.value = successor.value
                    node.right = self.delete_node(node.right, successor.value)

            node.height = 1 + max(self.get_height(node.left), self.get_height(node.right))
            balance_factor = self.get_balance_factor(node)

            if balance_factor > 1:
                if self.get_balance_factor(node.left) >= 0:
                    return self.rotate_right(node)
                else:
                    node.left = self.rotate_left(node.left)
                    return self.rotate_right(node)

            if balance_factor < -1:
                if self.get_balance_factor(node.right) <= 0:
                    return self.rotate_left(node)
                else:
                    node.right = self.rotate_right(node.right)
                    return self.rotate_left(node)

            return node


# FUNCION SEARCH_NODE()
#compara el valor buscado con el valor del nodo actual y decide si continuar buscando en el subárbol izquierdo o derecho del nodo actual 
# en función del resultado de la comparación.
#Si el valor buscado es menor que el valor del nodo actual y es una cadena, el método buscará en el subárbol izquierdo. 
# Si es mayor, buscará en el subárbol derecho. Si el valor buscado es menor que el valor del nodo actual y es un número entero, 
# el método buscará en el subárbol izquierdo. Si es mayor, buscará en el subárbol derecho.
#Si el valor buscado es igual al valor del nodo actual, el método devuelve el nodo actual.
    def search(self, value):
        return self._search_node(self.root, value)

    def _search_node(self, node: Node, value):
        if node is None:
            return None
        elif isinstance(value, str) and value < str(node.value):
            return self._search_node(node.left, value)
        elif isinstance(value, str) and value > str(node.value):
            return self._search_node(node.right, value)
        elif isinstance(value, int) and value < node.value:
            return self._search_node(node.left, value)
        elif isinstance(value, int) and value > node.value:
            return self._search_node(node.right, value)
        else:
            return node
        
        
    def find_grandfather(self, value):
        node = self.search(value)
        if node is None:
            return None
        elif node.parent is None or node.parent.parent is None:
            return None
        else:
            return node.parent.parent



    def level_order_traversal(self):
        # Dictionary to store nodes by level
        levels = {}
        # Recursive helper function to traverse the tree
        def traverse(node, level):
            if node is None:
                return
            # Add the current node to the dictionary of the corresponding level
            if level not in levels:
                levels[level] = []
            levels[level].append(node.value)
            # Recursively traverse the left and right subtrees
            traverse(node.left, level+1)
            traverse(node.right, level+1)
        # Call the helper function to traverse the tree starting at the root
        traverse(self.root, 1)
        # Print the results
        for level, values in levels.items():
            print(f"level {level} = {values}")

    def print_in_order(self):
        self._print_in_order(self.root)

    def _print_in_order(self, node):
        if node:
            self._print_in_order(node.left)
            print(node.value)
            self._print_in_order(node.right)

    def print_root(self):
        if self.root is not None:
            print(self.root.value)




"MAIN"

In [None]:
new_data.to_csv("Datos/All_Data_With_Unique_IDs.csv", index=False)
data = pd.read_csv("Datos/All_Data_With_Unique_IDs.csv")
df_unico = pd.DataFrame(data)

# Agrupar por el nombre de usuario y asignar un ID único a cada grupo
user_id_dict = defaultdict(str)
unique_id = 1
for user_name in data['User_name'].unique():
    user_id_dict[user_name] = str(unique_id)
    unique_id += 1
data['User_id_unique'] = data['User_name'].map(user_id_dict)

# Guardar el DataFrame con los IDs únicos en un archivo CSV
data.to_csv("Datos/All_Data_With_Unique_IDs.csv", index=False)

# Crear un objeto AVLTree y agregar los IDs únicos
tree = AVLTree()
for unique_id in data['User_id_unique'].unique():
    tree.insert(unique_id)

# Imprimir el árbol AVL
tree.level_order_traversal()
# tree.print_root()
# tree.print_in_order()

PRUEBAS


In [None]:
# def make_ids_unique(df):
#     unique_ids = {}  # Diccionario para almacenar ids únicos.
#     result = []  # Lista para almacenar los ids únicos generados.
#     for index, row in df.iterrows():
#         name = row['User_name']
#         if name not in unique_ids:  # El nombre de usuario no se ha encontrado anteriormente.
#             unique_ids[name] = hash(name) % (10 ** 8)  # Genera un id único.
#         else:
#             unique_ids[name] += index  # Genera un id único adicional para usuarios duplicados.
#         result.append(unique_ids[name])  # Agrega el id único generado a la lista de resultados.
#     df['User_id_unique'] = result
#     return df

# # Generar IDs únicos para cada usuario
# csv_unique_ids = make_ids_unique(new_data)

# # Guardar el DataFrame con los IDs únicos en un archivo CSV
# csv_unique_ids.to_csv("Datos/All_Data_With_Unique_IDs.csv", index=False)

# # Crear un objeto AVLTree
# tree = AVLTree()

# # Insertar los IDs únicos en el árbol AVL
# for user_id_unique in csv_unique_ids['User_id_unique']:
#     tree.insert(user_id_unique)

# # Imprimir el árbol AVL en orden de nivel
# tree.level_order_traversal()

# # Generar IDs únicos aleatorios para cada usuario
# unique_ids = []
# for i in range(len(new_data)):
#     unique_id = str(random.randint(1, 10**10))
#     while unique_id in unique_ids:
#         unique_id = str(random.randint(1, 10**10))
#     unique_ids.append(unique_id)
# new_data['User_id_unique'] = unique_ids

# # Guardar el DataFrame con los IDs únicos en un archivo CSV
# new_data.to_csv("Datos/All_Data_With_Unique_IDs.csv", index=False)
# data = pd.read_csv("Datos/All_Data_With_Unique_IDs.csv")
# df_unico = pd.DataFrame(data)

# # IDs únicos en el árbol AVL
# for user_name, group in new_data.groupby('User_name'):
#     unique_id = group['User_id_unique'].iloc[0]  # obtener el primer ID único en el grupo
#     tree.insert(unique_id)
#     tree.delete_node(unique_id)


# # Imprimir el árbol AVL
# tree.level_order_traversal()

# def create_node(node):
#     if node is None:
#         return None
#     new_node = Node(str(node.value))
#     new_node.left = create_node(node.left)
#     new_node.right = create_node(node.right)
#     return new_node
# root = create_node(tree.root)

# for pre, _, node in RenderTree(root):
#     print("%s%s" % (pre, node.name))