# Tarea 0 
## CRUD de HDFS con Python

La documentación que utilicé la saqué de las siguientes fuentes:
- https://hdfscli.readthedocs.io/en/latest/api.html
- https://docs.python.org/3/library/os.html 
- https://hdfscli.readthedocs.io/en/latest/quickstart.html
 

In [23]:
from hdfs import InsecureClient
import json as js

In [24]:
def conexion(url):
    """
    Esta función logra la conexión con hfds
    
    La url debe ser un string no nulo del host
    """
    url = 'http://localhost:9870'
    try:
        client = InsecureClient(url) 
        return client
    except:
        print("¡Ocurrió un error! Favor de verificar la url del host")

In [25]:
def crear_directorio(client, hdfs_path):
    """
    Esta función crea un directorio en hdfs con la ruta dada
    
    Usamos el método 'makedirs()' donde el parámetro es un string de la ruta del directorio que queremos crear en HDFS
    """'
    try:
        create_path = client.makedirs(hdfs_path)
        print("¡Felicidades! Se ha creado el directorio " + hdfs_path)
        return create_path
    except:
        print("Ocurrió un problema. Por favor verifica la ruta")

In [None]:
def cargar_archivo(client, hdfs_path, local_path):
    """
    Esta función carga un archivo o directorio de la ruta local hacia un directorio en HDFS

    Usamos el método 'upload()' donde debemos de indicaerle en el primer parámetro un str con la ruta del directorio a donde queremos cargar el archivo/directorio en HDFS y en el segundo parámetro un string con la ruta del archivo/directorio que queremos cargar; la cual se encuentra en la ruta local (i.e. la que no está en HDFS)

    """
    try:
        load_file = client.upload(hdfs_path, local_path)
        return(load_file)
        print("Ahora ya se ha cargado el archivo con ruta: " + local_path)
    except:
        print("Ocurrió un error")


In [None]:
def lista_directorio(client, hdfs_path):
    """
    Esta función toma el directorio en la ruta dada y lista sus archivos
    
    Primero usamos el método 'listdir()' el cual recibe como parámetro un str con la ruta del directorio al cual queremos listar ubicado en HDFS. Éste nos regresa una lista con los archivos/directorios pertenecientes en tipo str. Luego, hacemos un ciclo para recorrer estos elementos y determinar cuáles de ellos son archivos y cuales directorios. Para esto usamos el método 'path.isfile()' el cual tiene como parámetro un str de la ruta de los elementos del directorio que queremos listar. Para darle ese str, tenemos que contruirlo a partir de los elementos de la iteración, y para eso usamos el método 'path.join( , )' que recibe como primer parámetro la ruta del directorio que queremos listar y como segundo el str del elemento en la lista de dicho directorio; para devolvernos un str que contiene la ruta del elemento del directorio a listar que queremos determinar. Para determinar si es o no un tipo archivo, usamos el 'if - print'. Al final tendremos la impresión de todos los elementos tipo archivo del directorio a interes.
    """
    try:
        # Tomamos el directorio de la ruta y listamos sus elementos como tipo str 
        # Para cada elemento en la lista del directorio
        # Nos fijamos en aquellos que sean archivos solamente mediante el método client.path.join(ruta_directorio, elemento_del_directorio). Éste contruye la ruta de los elementos que están en el directorio. P.ej. clase={a.txt,a.py,sub_dir}
        # client.path.join(ruta_dir=/home/julio/desktop/clase, elemento=sub_dir)=/home/julio/desktop/clase/subdir -> .isfile(directorio)
        # Y los imprimimos
        print('A continuación se lista los archivos del directorio en HDFS con ruta: hdfs_path' + hdfs_path)
        for element in client.listdir(hdfs_path):  
            if client.path.isfile(client.path.join(hdfs_path, element)):
                print(element)
    except:
        print("Ocurrió un problema. Por favor verifica la ruta")

In [None]:
def lectura_HDFS(client, file_path):
    """
    Esta función nos permite la lectura del archivo dado

    Usando el método 'open()' abrimos el archivo deseado y lo guardamos en la variable 'open_file'. Para esto debemos alimentar a éste método con la ruta tipo str del archivo en cuestión. Luego, con el método 'read()' leemos la variable donde está guardado el archivo y lo guardamos en la variable 'read'. Una vez guardado, imprimimos dicha variable y finalmente cerramos el archivo con el método 'close()'.
    """    
    try:
        print('Ahora leemos el archivo en HDFS con ruta: ' + file_path)
        open_file = client.open(file_path)
        read = client.read(open_file)
        print(read)
        client.close(open_file)
    except:
        print("Ocurrió un problema. No sé cuál...")

In [None]:
def eliminar_directorio(client, hdfs_path):
    """
    Esta función elimina un directorio
    
    Usamos el método 'remove()' para eliminar el directorio dada la ruta como tipo str
    """
    try:
        #Eliminamos la ruta 'path_hdfs' del cliente 'client'
        client.remove(hdfs_path)
        print('Se ha eliminado el directorio en HDFS con ruta: ' + hdfs_path)
    except OSError:
        print("Ocurrió un problema. Por favor verifica la ruta")

In [4]:
def main():

    """
    Para llevar a cabo el CRUD necesitamos definir la ruta para conectarnos con HDFS ('url'), la ruta en HDFS del directorio que queremos crear ('hdfs_path'), la ruta del archivo ubicado fuera de HDFS que queremos cargar al directorio creado ('local_path') y la ruta del archivo que hemos cargado y que queremos leer ubicado en HDFS ('file_path')

    Al final invocamos a nuestras funciones para realizar el CRUD

    NOTA IMPORTANTE: Las rutas que he puesto relacionadas a la ubicación de HDFS (hdfs y file) no son las correctas debido a que nunca pude instalar correctamente Honrtonswork-Sandbox en mi máquina con Docker. Aún así, teóricamente, tengo claro que esas rutas deben vivir en los repositorios que haya creado con Docker 
    """

    url = 'http://localhost:9870'
    
    hdfs_path  = '/home/julio/docker-hadoop/prueba_tarea_hdfs '

    local_path = '/home/julio/Desktop/Clase_Jimmy/BigData20202/Tarea0/prueba_tarea_hdfs.json'

    file_path = '/home/julio/docker-hadoop/prueba_tarea_hdfs/prueba_tarea_hdfs/prueba_tarea_hdfs.json' 

    client = conexion(url)

    crear_directorio(client, hdfs_path)

    cargar_archivo(client, hdfs_path, local_path)

    lista_directorio(client, hdfs_path)

    lectura_HDFS(client, file_path)

    eliminar_directorio(client, hdfs_path)

main()

NameError: name 'conexion' is not defined