In [None]:
import os
import shutil
import openpyxl

def copiar_imagenes(carpeta_principal, carpeta_externa):
    """
    Copia la primera imagen de cada post desde la carpeta principal a una carpeta externa.
    carpeta_principal: Ruta de la carpeta principal que contiene subcarpetas con imagenes.
    carpeta_externa: Ruta de la carpeta externa donde se copiaran las imagenes.
    """
    post = set()

    for carpeta_actual, subcarpetas, archivos in os.walk(carpeta_principal):
        if len(archivos) != 0:
            copiados = 0
            for archivo in archivos:
                ruta_completa = os.path.join(carpeta_actual, archivo) # Ruta de la imagen en la carpeta actual
                if archivo.lower().endswith('.jpg'): # Solo las imagenes (tambien hay archivos mp4, txt y csv)
                    renombre_archivo = str(carpeta_actual[12:]+'_'+str(archivo)[0:23]) # Se añade el nombre de usuario al titulo de la imagen
                    if renombre_archivo not in post:
                        post.add(renombre_archivo)
                        ruta_destino = os.path.join(carpeta_externa, renombre_archivo+'.jpg') # Ruta de la imagen en la carpeta externa
                        shutil.copy(ruta_completa, ruta_destino) # Copiar el archivo a la carpeta externa
                        copiados += 1
            print(f"Se han copiado {copiados} archivos de la carpeta: {carpeta_actual}.")
        else:
            print(f"La carpeta {carpeta_actual} no contiene archivos.")
    print("Proceso completado.")


def unir_excel(directorio):
    """
    Procesa archivos Excel en el directorio especificado, extrae la informacion y los escribe en un nuevo archivo Excel.
    """
    # Abrimos el archivo Excel y añadimos las nuevas columnas
    wb = openpyxl.Workbook()
    hoja_activa = wb.active

    # Creamos las nuevas columnas
    hoja_activa.cell(row=1, column=1, value='post')
    hoja_activa.cell(row=1, column=2, value='shortcode')
    hoja_activa.cell(row=1, column=3, value='fecha')
    hoja_activa.cell(row=1, column=4, value='hora')
    hoja_activa.cell(row=1, column=5, value='video')
    hoja_activa.cell(row=1, column=6, value='likes')
    hoja_activa.cell(row=1, column=7, value='comentarios')
    hoja_activa.cell(row=1, column=8, value='carrusel')
    hoja_activa.cell(row=1, column=9, value='imagenes')
    hoja_activa.cell(row=1, column=10, value='texto')
    hoja_activa.cell(row=1, column=11, value='hashtags')
    hoja_activa.cell(row=1, column=12, value='usuario')

    datos = []

    # Se transforman los archivos csv a Excel y se juntan manualmente en una carpeta
    # Recorremos todos los archivos resumenes de los usuarios
    for excel in os.listdir():
        if excel.endswith(".xlsx"):
            wb_user = openpyxl.load_workbook(excel)
            hoja_user = wb_user.active

            # Iteramos sobre las filas de la hoja
            for index, row in enumerate(hoja_user.iter_rows(min_row=1, values_only=True)):
                # Añadimos los datos, incluyendo el usuario (nombre del archivo sin la extension y con los primeros dos caracteres "0_" eliminados)
                datos.append(row[1:] + (excel[2:-13],)) # La primera columna no se añade porque es el indice de numero de post

    # Imprimimos la cantidad de filas almacenadas
    print(len(datos))

    # Itera sobre la lista y escribe los datos en columnas del nuevo Excel
    for i_dato, dato in enumerate(datos, start=2):
        for i_valor, valor in enumerate(dato, start=1):
            hoja_activa.cell(row=i_dato, column=i_valor, value=valor)
    # Guarda el libro de Excel
    wb.save("info_post.xlsx")

In [None]:
# Ruta de la carpeta principal (dentro hay una carpeta por usuario con las imagenes publicadas en el ultimo año)
carpeta_principal = "F:\\TFG\\POST"
# Ruta de la carpeta externa donde se copiaran las primeras imagenes de cada post
carpeta_externa = "F:\\TFG\\imagenes_por_post"

# Funciones para unir todas las imagenes y unificar los excels a un archivo donde cada fila representa la informacion de 1 post
copiar_imagenes(carpeta_principal, carpeta_externa)
unir_excel("F:\\TFG\\usuarios")