# Crear DataFrame a partir de un directorio
Este notebook proporciona un script de Python que utiliza Pandas para crear un DataFrame basado en la estructura de un directorio proporcionado, que contiene información sobre cursos, lecciones, rutas m3u8 y enlaces del servidor.

## Bibliotecas
* `os` para manipular archivos y directorios.
* `pandas` para crear el DataFrame.

In [1]:
%pip install pandas openpyxl

Note: you may need to restart the kernel to use updated packages.


### Importamos bibliotecas
Importamos las bibliotecas:

In [2]:
import os
import pandas as pd
import openpyxl

## Función
Definimos una función llamada generate_dataframe que toma un directorio como entrada y genera el DataFrame.

In [8]:
def generate_dataframe(directory):
    data = []
    for curso in os.listdir(directory):
        curso_path = os.path.join(directory, curso)
        if os.path.isdir(curso_path):
            for leccion in os.listdir(curso_path):
                leccion_path = os.path.join(curso_path, leccion)
                if os.path.isdir(leccion_path):
                    m3u8_files = [file for file in os.listdir(leccion_path) if file.endswith('.m3u8')]
                    if m3u8_files:
                        # asumimos que hay un solo archivo m3u8 por lección
                        m3u8_file = m3u8_files[0]
                        m3u8_path = os.path.join(leccion_path, m3u8_file)
                        # armamos un link para cada lección
                        link_server = "https://storage.googleapis.com/stream-videos/{}".format(m3u8_path.replace('\\', '/'))
                        data.append([curso, leccion, m3u8_path, link_server])
    
    df = pd.DataFrame(data, columns=['Curso', 'Lección', 'ruta m3u8', 'link server'])
    return df

### Función para archivos maestros m3u8 (Playlist)
Si tenemos un archivo maestro que manda a llamar a los demás maestros por cada definición:

In [28]:
def generate_dataframe(directory):
    data = []
    for curso in os.listdir(directory):
        curso_path = os.path.join(directory, curso)
        if os.path.isdir(curso_path):
            for leccion in os.listdir(curso_path):
                leccion_path = os.path.join(curso_path, leccion)
                if os.path.isdir(leccion_path):
                    m3u8_files = [file for file in os.listdir(leccion_path) if file.endswith('.m3u8') and file.startswith('master')]
                    if m3u8_files:
                        m3u8_file = m3u8_files[0]
                        m3u8_path = os.path.join(leccion_path, m3u8_file)
                        link_server = "https://storage.googleapis.com/stream-videos/{}".format(m3u8_path.replace('\\', '/'))
                        data.append([curso, leccion, m3u8_path, link_server])
    
    df = pd.DataFrame(data, columns=['Curso', 'Lección', 'ruta master.m3u8', 'link server'])
    return df

### Función que crea el link server sin la carpeta raíz

In [26]:
def generate_dataframe(directory):
    data = []
    for curso in os.listdir(directory):
        curso_path = os.path.join(directory, curso)
        if os.path.isdir(curso_path):
            for leccion in os.listdir(curso_path):
                leccion_path = os.path.join(curso_path, leccion)
                if os.path.isdir(leccion_path):
                    m3u8_files = [file for file in os.listdir(leccion_path) if file.endswith('.m3u8') and file.startswith('master')]
                    if m3u8_files:
                        m3u8_file = m3u8_files[0]
                        m3u8_path = os.path.join(leccion_path, m3u8_file)
                        # Reemplazar '\' por '/'
                        link_server = "https://storage.googleapis.com/stream-videos/{}".format(m3u8_path.replace('\\', '/'))
                        # Eliminar la parte 'output/' del enlace
                        link_server = link_server.replace('/output/', '/')
                        data.append([curso, leccion, m3u8_path, link_server])
        df = pd.DataFrame(data, columns=['Curso', 'Lección', 'ruta master.m3u8', 'link server'])
    return df

## Especificar el directoriio y generar DataFrame
Especifica el directorio que contiene la estructura de directorios de cursos y lecciones, y luego llama a la función generate_dataframe para generar el DataFrame.

In [29]:
directory = 'vod'
df = generate_dataframe(directory)
df.head(10)

Unnamed: 0,Curso,Lección,ruta master.m3u8,link server
0,eClass_ABC_de_la_diversidad_e_inclusion_laboral,00-TS,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
1,eClass_ABC_de_la_diversidad_e_inclusion_laboral,01-Introduccion,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
2,eClass_ABC_de_la_diversidad_e_inclusion_laboral,02-Hablemos_de_diversidad_e_inclusion,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
3,eClass_ABC_de_la_diversidad_e_inclusion_laboral,03-La_diversidad_como_modelo_de_negocio,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
4,eClass_ABC_de_la_diversidad_e_inclusion_laboral,04-Los_enemigos_de_la_diversidad_y_la_inclusion,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
5,eClass_ABC_de_la_diversidad_e_inclusion_laboral,05-Una_evolucion_necesaria,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
6,eClass_ABC_de_la_diversidad_e_inclusion_laboral,06-Conclusiones,vod\eClass_ABC_de_la_diversidad_e_inclusion_la...,https://storage.googleapis.com/stream-videos/v...
7,eClass_Adios_al_sindrome_de_la_impostora_soy_c...,00-TS,vod\eClass_Adios_al_sindrome_de_la_impostora_s...,https://storage.googleapis.com/stream-videos/v...
8,eClass_Adios_al_sindrome_de_la_impostora_soy_c...,01-Introduccion,vod\eClass_Adios_al_sindrome_de_la_impostora_s...,https://storage.googleapis.com/stream-videos/v...
9,eClass_Adios_al_sindrome_de_la_impostora_soy_c...,02-Conociendo_el_sindrome_del_impostor_o_de_la...,vod\eClass_Adios_al_sindrome_de_la_impostora_s...,https://storage.googleapis.com/stream-videos/v...


In [30]:
len(df)

361

## Guardar en un excel

In [31]:
df.to_excel('dataCoursesHLS.xlsx', index=False)