In [25]:
import pandas as pd
base_unificada = r'C:\Users\nicof\Documents\Seguimiento1_Metodos_de_Ordenamiento\bases_unificadas_ok.csv'

df = pd.read_csv(base_unificada)

print(df.head())

                                              Título  \
0  STEAM, PROJETOS E O PENSAMENTO COMPUTACIONAL N...   
1  The SNS-based E-mentoring and Development of C...   
2  Effects of a teacher development program on te...   
3  Classroom Play and Activities to Support Compu...   
4  How a Rubric Score Application Empowers Teache...   

                                             Autores  \
0  de Almeida Rosa, Thais; de Lima Terçariol, Adr...   
1  Yeonju Jang; Seongyune Choi; Seonghun Kim; Hye...   
2                        Kong, Siu‐Cheung; Lai, Ming   
3        Lee, Joohi; Joswick, Candace; Pole, Kathryn   
4  Dimos, Ioannis; Velaora, Chrysoula; Louvaris, ...   

                                     Revista         ISSN Fecha Publicacion  \
0                 Eccos - Revista Científica  ="15171949"    ="abr-jun2023"   
1           Educational Technology & Society  ="11763647"        ="Apr2023"   
2  British Journal of Educational Technology  ="00071013"        ="Mar2023"   
3         

In [26]:
import time

Filtrado por ISSN

In [None]:
# Limpiar la columna ISSN (remover =" " y cualquier caracter no numérico)
df['ISSN'] = df['ISSN'].str.extract(r'(\d{4}-?\d{4})')

# Filtrar los valores no nulos de ISSN
issn_list = df['ISSN'].dropna().tolist()

# Función de Insertion Sort (para ordenar cada cubo)
def insertion_sort(arr):
     # Iteramos desde el segundo elemento hasta el final del array
    for i in range(1, len(arr)):
        key = arr[i]  # Guardamos el valor actual en 'key' este es el elemento a insertar
        j = i - 1     # 'j' se inicializa en el índice del elemento anterior a 'key'
        # Comparamos 'key' con los elementos en la parte ordenada del array
        # que se encuentra a la izquierda de 'key'
        while j >= 0 and key < arr[j]:
            # Si 'key' es menor que el elemento en la posición 'j',
            # movemos el elemento arr[j] una posición hacia la derecha
            arr[j + 1] = arr[j]
            j -= 1  # Decrementamos 'j' para continuar comparando con el siguiente elemento
            # Una vez que encontramos la posición correcta para 'key',
        # lo insertamos en su lugar
        arr[j + 1] = key

# Implementación de Bucket Sort
def bucket_sort(arr):
    max_val = max(arr)  # valor máximo para normalizar
    min_val = min(arr)  # valor mínimo para normalizar
    n = len(arr)
    
    # Normalizar los elementos al rango [0, 1]
    normalized = [(num - min_val) / (max_val - min_val) for num in arr]

    # Crear una lista de "cubos" vacíos
    buckets = [[] for _ in range(n)]

    # Distribuir los elementos en los cubos
    for num in normalized:
        index = int(num * (n - 1))
        buckets[index].append(num)

    # Ordenar cada cubo individualmente
    for bucket in buckets:
        insertion_sort(bucket)

    # Concatenar los cubos ordenados
    sorted_arr = []
    for bucket in buckets:
        sorted_arr.extend(bucket)

    # Desnormalizar los elementos al rango original
    sorted_arr = [min_val + num * (max_val - min_val) for num in sorted_arr]
    return sorted_arr

# Medir tiempo de ejecución
def measure_execution(arr, num_executions=4):
    times = []
    sizes = []
    
    for _ in range(num_executions):
        start_time = time.time()
        
        # Ejecutar el algoritmo Bucket Sort
        sorted_issn = bucket_sort(arr)
        
        end_time = time.time()
        execution_time = end_time - start_time
        
        # Guardar el tiempo y el tamaño de los datos procesados
        times.append(execution_time)
        sizes.append(len(arr))
        
    return times, sizes

# Filtrar correctamente solo los ISSN que tengan 8 dígitos (con o sin guion)
issn_as_ints = [int(issn.replace('-', '')) for issn in issn_list if len(issn.replace('-', '')) == 8]

# Medir tiempos de ejecución
execution_times, data_sizes = measure_execution(issn_as_ints)

# Imprimir los tiempos de ejecución y tamaños de los datos
print("Estos son los tiempos de ejecución (en segundos):")
for idx, time_exec in enumerate(execution_times):
    print(f"{idx + 1}ª ejecución: {time_exec:.5f} s")

print("\nEste es el tamaño de los elementos procesados:")
print(f"Tamaño: {data_sizes[0]} elementos")

Filtrado por autor

In [None]:
# Implementación de Bucket Sort para cadenas (orden alfabético)
def bucket_sort_strings(arr):
    # Crear una lista de 26 cubos (uno para cada letra del alfabeto)
    buckets = [[] for _ in range(26)]

    # Función auxiliar para obtener el índice del bucket en función del primer carácter
    def get_bucket_index(author):
        if author and author[0].isalpha():  # Verificar si el primer carácter es una letra
            first_char = author[0].upper()  # Asegurar que sea mayúscula
            index = ord(first_char) - ord('A')  # Convertir la letra en un índice (0-25)
            if 0 <= index < 26:  # Verificar que el índice esté dentro del rango
                return index
        return None  # Retornar None si no es una letra o si el índice no es válido

    # Distribuir los autores en los cubos
    for author in arr:
        index = get_bucket_index(author)
        if index is not None:  # Solo añadir si el índice es válido
            buckets[index].append(author)

    # Concatenar los cubos para formar el arreglo ordenado final (ya ordenado por los buckets)
    sorted_arr = []
    for bucket in buckets:
        sorted_arr.extend(bucket)

    return sorted_arr

# Medir tiempo de ejecución
def measure_execution_strings(arr, num_executions=4):
    times = []
    sizes = []
    
    for _ in range(num_executions):
        start_time = time.time()
        
        # Ejecutar el algoritmo Bucket Sort
        sorted_authors = bucket_sort_strings(arr)
        
        end_time = time.time()
        execution_time = end_time - start_time
        
        # Guardar el tiempo y el tamaño de los datos procesados
        times.append(execution_time)
        sizes.append(len(arr))
        
    return times, sizes

# Buscar posibles columnas de autores en el archivo, ignorando espacios y mayúsculas
possible_author_columns = ['autor', 'author', 'autores', 'authors']

# Normalizar nombres de columnas del DataFrame (eliminar espacios y convertir a minúsculas)
normalized_columns = {col.lower().strip(): col for col in df.columns}

# Revisar si alguna de estas columnas existe en el archivo (después de normalizar)
author_column = next((normalized_columns[col] for col in possible_author_columns if col in normalized_columns), None)

# Si se encuentra una columna de autores, proceder con el ordenamiento
if author_column:
    # Obtener la lista de autores
    author_list = df[author_column].dropna().tolist()

    # Medir tiempos de ejecución
    execution_times_authors, data_sizes_authors = measure_execution_strings(author_list)

    # Imprimir resultados
    print(f"Se usó la columna '{author_column}' para ordenar.")
    print("Estos son los tiempos de ejecución (en segundos):")
    for idx, time_exec in enumerate(execution_times_authors):
        print(f"{idx + 1}ª ejecución: {time_exec:.5f} s")

    print("\nEste es el tamaño de los elementos procesados:")
    print(f"Tamaño: {data_sizes_authors[0]} elementos")
else:
    print("No se encontró una columna relacionada con autores en el archivo CSV.")


Filtrar por fechas

In [27]:
from datetime import datetime

# Función para normalizar las fechas en diferentes formatos, incluso si falta el día, el mes o el año
def normalize_date(date_str):
    date_formats = [
        "%Y-%m-%d",  # Formato estándar (ISO)
        "%d-%m-%Y",  # Formato día-mes-año
        "%m/%d/%Y",  # Formato mes/día/año
        "%d/%m/%Y",  # Formato día/mes/año
        "%B %d, %Y",  # Formato completo (ej. January 01, 2023)
        "%d %B %Y",  # Formato día-mes-año (ej. 01 January 2023)
        "%Y",  # Solo el año
        "%B %Y",  # Mes y año (ej. January 2023)
        "%m-%Y",  # Mes y año en formato numérico (ej. 01-2023)
        "%Y/%m",  # Año/Mes (ej. 2023/01)
    ]
    
    for fmt in date_formats:
        try:
            return datetime.strptime(date_str.strip(), fmt)
        except ValueError:
            continue
    return None  # Retornar None si no se pudo convertir

# Implementación de Bucket Sort para fechas normalizadas
def bucket_sort_dates(arr):
    # Normalizar las fechas primero
    arr_normalized = [normalize_date(date) for date in arr if normalize_date(date) is not None]
    
    if not arr_normalized:
        return []

    # Crear una lista de 12 cubos (uno para cada mes)
    min_date, max_date = min(arr_normalized), max(arr_normalized)
    range_of_dates = (max_date - min_date).days
    
    # Inicializar cubos para cada grupo de fechas
    buckets = [[] for _ in range(12)]

    # Distribuir las fechas normalizadas en los cubos
    for date in arr_normalized:
        # Normalizar el índice del bucket según el mes de la fecha
        index = date.month - 1  # Meses del 1 al 12, convertidos a 0 a 11
        buckets[index].append(date)

    # Ordenar los cubos y concatenar los resultados
    sorted_arr = []
    for bucket in buckets:
        sorted_arr.extend(sorted(bucket))

    return sorted_arr

# Medir tiempo de ejecución para fechas
def measure_execution_dates(arr, num_executions=4):
    times = []
    sizes = []
    
    for _ in range(num_executions):
        start_time = time.time()
        
        # Ejecutar el algoritmo Bucket Sort
        sorted_dates = bucket_sort_dates(arr)
        
        end_time = time.time()
        execution_time = end_time - start_time
        
        # Guardar el tiempo y el tamaño de los datos procesados
        times.append(execution_time)
        sizes.append(len(arr))
        
    return times, sizes

# Buscar posibles columnas de fecha en el archivo, ignorando espacios y mayúsculas
possible_date_columns = [
    'fecha', 'publication_date', 'date', 'fecha_publicacion', 
    'fecha de publicacion', 'fecha_de_publicacion', 'published', 
    'date of publication', 'pub_date'
]

# Normalizar nombres de columnas del DataFrame (eliminar espacios y convertir a minúsculas)
normalized_columns = {col.lower().replace(' ', '_').strip(): col for col in df.columns}

# Revisar si alguna de estas columnas existe en el archivo (después de normalizar)
date_column = next((normalized_columns[col] for col in possible_date_columns if col in normalized_columns), None)

# Si se encuentra una columna de fechas, proceder con el ordenamiento
if date_column:
    # Obtener la lista de fechas
    date_list = df[date_column].dropna().tolist()

    # Medir tiempos de ejecución
    execution_times_dates, data_sizes_dates = measure_execution_dates(date_list)

    # Imprimir resultados
    print(f"Se usó la columna '{date_column}' para ordenar las fechas.")
    print("Estos son los tiempos de ejecución (en segundos):")
    for idx, time_exec in enumerate(execution_times_dates):
        print(f"{idx + 1}ª ejecución: {time_exec:.5f} s")

    print("\nEste es el tamaño de los elementos procesados:")
    print(f"Tamaño: {data_sizes_dates[0]} elementos")
else:
    print("No se encontró una columna relacionada con fechas en el archivo CSV.")


Se usó la columna 'Fecha Publicacion' para ordenar las fechas.
Estos son los tiempos de ejecución (en segundos):
1ª ejecución: 1.25856 s
2ª ejecución: 1.22201 s
3ª ejecución: 1.22347 s
4ª ejecución: 1.18886 s

Este es el tamaño de los elementos procesados:
Tamaño: 7713 elementos
