## Nombre alumno: Rafael Navarro Gómez

# Práctica HDFS: Interacción con HDFS desde Python

En esta práctica se utilizará la clase `InsecureClient` del paquete `hdfs` para realizar operaciones básicas en HDFS: crear directorios, subir y descargar archivos, listar contenido y obtener información de archivos.

**Nota:** Los directorios iniciales están vacíos, por lo que todas las operaciones de listado o lectura comienzan con la creación de directorios y archivos necesarios.

In [2]:
# Importar la librería
from hdfs import InsecureClient
import pandas as pd

# Conexión al HDFS
client = InsecureClient('http://localhost:9870', user='root')

## Crear directorios en HDFS

Primero creamos un directorio de usuario y un subdirectorio donde trabajaremos.

In [7]:
client.makedirs('/user/hadoop_user')
client.makedirs('/user/hadoop_user/datos')

## Crear archivos en HDFS

Vamos a crear algunos archivos de ejemplo directamente desde Python para poder trabajar con ellos.

In [10]:
client.write('/user/hadoop_user/datos/archivo1.txt', data='Contenido del archivo 1', encoding='utf-8')
client.write('/user/hadoop_user/datos/archivo2.txt', data='Contenido del archivo 2', encoding='utf-8')

HdfsError: /user/hadoop_user/datos/archivo1.txt for client 127.0.0.1 already exists
	at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.startFile(FSDirWriteFileOp.java:389)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2732)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:2625)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:807)
	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:496)
	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
	at org.apache.hadoop.ipc.ProtobufRpcEngine2$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine2.java:621)
	at org.apache.hadoop.ipc.ProtobufRpcEngine2$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine2.java:589)
	at org.apache.hadoop.ipc.ProtobufRpcEngine2$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine2.java:573)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1227)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:1094)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:1017)
	at java.base/java.security.AccessController.doPrivileged(Native Method)
	at java.base/javax.security.auth.Subject.doAs(Subject.java:423)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1899)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:3048)


## Listar contenido de directorios

Primero listamos los archivos sin información adicional, luego con información de estado.

In [11]:
# Listado simple
print(client.list('/user/hadoop_user/datos'))
!echo ""
# Listado con información de estado
print(client.list('/user/hadoop_user/datos', status=True))

['archivo1.txt', 'archivo2.txt']

[('archivo1.txt', {'accessTime': 1760634564904, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16400, 'group': 'supergroup', 'length': 23, 'modificationTime': 1760634565463, 'owner': 'root', 'pathSuffix': 'archivo1.txt', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'}), ('archivo2.txt', {'accessTime': 1760634565482, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16401, 'group': 'supergroup', 'length': 23, 'modificationTime': 1760634565514, 'owner': 'root', 'pathSuffix': 'archivo2.txt', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'})]


## Leer un archivo desde HDFS

Usamos `pandas` para leer el contenido de un archivo si fuera un CSV. Aquí usamos texto simple como ejemplo.

In [12]:
with client.read('/user/hadoop_user/datos/archivo1.txt') as reader:
    contenido = reader.read().decode('utf-8')
print(contenido)

Contenido del archivo 1


## Descargar archivos desde HDFS

Descargamos un archivo a la máquina local.

In [13]:
client.download('/user/hadoop_user/datos/archivo1.txt', './archivo1_descargado.txt')

'/opt/archivo1_descargado.txt'

## Subir archivos desde local a HDFS

Creamos un archivo local y lo subimos a HDFS.

In [8]:
# Crear archivo local
with open('archivo_local.txt', 'w') as f:
    f.write('Contenido del archivo local')

# Subirlo a HDFS
client.upload('/user/hadoop_user/datos/archivo_local_subido.txt', 'archivo_local.txt')

'/user/hadoop_user/datos/archivo_local_subido.txt'

## Obtener información de archivos

Ver información de permisos, tamaño y propietario de un archivo en HDFS.

In [14]:
info = client.status('/user/hadoop_user/datos/archivo1.txt')
print(info)

{'accessTime': 1760634564904, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16400, 'group': 'supergroup', 'length': 23, 'modificationTime': 1760634565463, 'owner': 'root', 'pathSuffix': '', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'}


## Eliminar archivos y directorios

Primero eliminamos archivos individuales, luego eliminamos un directorio completo.

In [15]:
client.delete('/user/hadoop_user/datos/archivo2.txt')
client.delete('/user/hadoop_user/datos', recursive=True)

True

# Ejercicios de práctica para desarrollar

A continuación se presentan 10 ejercicios que el alumno debe desarrollar completamente, usando las funciones vistas en esta práctica. Cada ejercicio requiere crear los directorios y archivos necesarios antes de operar sobre ellos.

### Ejercicio 1
Crear un directorio `/user/hadoop_user/proyectos` en HDFS y dentro de él, un subdirectorio llamado `2025`. Luego, crear un archivo de texto `informe.txt` dentro de `/user/hadoop_user/proyectos/2025` con contenido de tu elección.

In [19]:
# Solución del Ejercicio 1
client.delete('/user/hadoop_user/proyectos', recursive=True)
client.makedirs("/user/hadoop_user/proyectos")
client.makedirs("/user/hadoop_user/proyectos/2025")
client.write('/user/hadoop_user/proyectos/2025/informe.txt', data='Buenas tardes desde Hadoop', encoding='utf-8')

### Ejercicio 2
Lista los archivos y subdirectorios de `/user/hadoop_user/proyectos` antes y después de crear un archivo llamado `resumen.txt` en ese mismo directorio.

In [26]:
# Solución del Ejercicio 2
print("Antes de resumen.txt")
print(client.list('/user/hadoop_user/proyectos'))
print(client.list('/user/hadoop_user/proyectos/2025'))
!echo ""
client.write('/user/hadoop_user/proyectos/resumen.txt', data='Esto es un resumen', encoding='utf-8')
!echo ""
print("Después de resumen.txt")
print(client.list('/user/hadoop_user/proyectos'))

Antes de resumen.txt
['2025']
['informe.txt']


Después de resumen.txt
['2025', 'resumen.txt']


### Ejercicio 3
Crea un archivo local llamado `datos_cliente.csv` y súbelo a HDFS en `/user/hadoop_user/proyectos/2025`. Asegúrate de que el directorio destino existe antes de subir el archivo.

In [28]:
# Solución del Ejercicio 3
# Crear archivo local
with open('datos_cliente.csv', 'w') as f:
    f.write('Hola,Mundo,Desde,Local')

# Subirlo a HDFS
client.upload('/user/hadoop_user/proyectos/2025/datos_cliente.csv', 'datos_cliente.csv')

'/user/hadoop_user/proyectos/2025/datos_cliente.csv'

### Ejercicio 4
Descarga el archivo `datos_cliente.csv` que subiste desde HDFS al directorio local `./descargas`.

In [29]:
# Solución del Ejercicio 4
client.download('/user/hadoop_user/proyectos/2025/datos_cliente.csv', './datos_cliente_descargado.csv')

'/opt/datos_cliente_descargado.csv'

### Ejercicio 5
Lee el contenido del archivo `/user/hadoop_user/proyectos/2025/informe.txt` directamente desde HDFS y muéstralo por pantalla.

In [30]:
# Solución del Ejercicio 5
with client.read('/user/hadoop_user/proyectos/2025/informe.txt') as reader:
    contenido = reader.read().decode('utf-8')
print(contenido)

Buenas tardes desde Hadoop


### Ejercicio 6
Consulta los permisos, propietario y tamaño del archivo `/user/hadoop_user/proyectos/2025/informe.txt`.

In [31]:
# Solución del Ejercicio 6
info = client.status('/user/hadoop_user/proyectos/2025/informe.txt')
print(info)

{'accessTime': 1760635415100, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16408, 'group': 'supergroup', 'length': 26, 'modificationTime': 1760635415129, 'owner': 'root', 'pathSuffix': '', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'}


### Ejercicio 7
Elimina el archivo `/user/hadoop_user/proyectos/2025/informe.txt` de HDFS.

In [32]:
# Solución del Ejercicio 7
client.delete('/user/hadoop_user/proyectos/2025/informe.txt')

True

### Ejercicio 8
Elimina todo el directorio `/user/hadoop_user/proyectos/2025` de manera recursiva, incluyendo todos los archivos que contenga.

In [33]:
# Solución del Ejercicio 8
client.delete('/user/hadoop_user/proyectos/2025', recursive=True)

True

### Ejercicio 9
Crea un directorio `/user/hadoop_user/reportes` y dentro de él, tres archivos de texto (`r1.txt`, `r2.txt`, `r3.txt`). Luego lista el contenido con información de estado (`status=True`).

In [34]:
# Solución del Ejercicio 9
client.makedirs('/user/hadoop_user/reportes')
client.write('/user/hadoop_user/reportes/r1.txt', data='Contenido del archivo r1', encoding='utf-8')
client.write('/user/hadoop_user/reportes/r2.txt', data='Contenido del archivo r2', encoding='utf-8')
client.write('/user/hadoop_user/reportes/r3.txt', data='Contenido del archivo r3', encoding='utf-8')
print(client.list('/user/hadoop_user/reportes', status=True))

[('r1.txt', {'accessTime': 1760637328061, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16412, 'group': 'supergroup', 'length': 24, 'modificationTime': 1760637328095, 'owner': 'root', 'pathSuffix': 'r1.txt', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'}), ('r2.txt', {'accessTime': 1760637328106, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16413, 'group': 'supergroup', 'length': 24, 'modificationTime': 1760637328136, 'owner': 'root', 'pathSuffix': 'r2.txt', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'}), ('r3.txt', {'accessTime': 1760637328146, 'blockSize': 134217728, 'childrenNum': 0, 'fileId': 16414, 'group': 'supergroup', 'length': 24, 'modificationTime': 1760637328178, 'owner': 'root', 'pathSuffix': 'r3.txt', 'permission': '644', 'replication': 1, 'storagePolicy': 0, 'type': 'FILE'})]


### Ejercicio 10
Crea un directorio `/user/hadoop_user/mis_pruebas`, dentro de él un subdirectorio `prueba_python`. Dentro de `prueba_python`: crear un archivo `ejemplo1.txt`, subir un archivo local `archivo_local.txt`, listar los archivos, leer `ejemplo1.txt`, descargar `archivo_local.txt` a `./descargas_pruebas` y eliminar finalmente `ejemplo1.txt` y todo el subdirectorio.

In [37]:
# Solución del Ejercicio 10
client.makedirs('/user/hadoop_user/mis_pruebas')
client.makedirs('/user/hadoop_user/mis_pruebas/prueba_python')
client.write('/user/hadoop_user/mis_pruebas/prueba_python/ejemplo1.txt', data='Esto es solo un ejemplo', encoding='utf-8')
# Crear archivo local
with open('archivo_local.txt', 'w') as f:
    f.write('Este es mi archivo local')

client.upload('/user/hadoop_user/mis_pruebas/prueba_python/archivo_local.txt', 'archivo_local.txt')
print(client.list('/user/hadoop_user/mis_pruebas/prueba_python'))
with client.read('/user/hadoop_user/mis_pruebas/prueba_python/ejemplo1.txt') as reader:
    contenido = reader.read().decode('utf-8')
print(contenido)
client.download('/user/hadoop_user/mis_pruebas/prueba_python/archivo_local.txt', './archivo_local_descargado.txt')
client.delete('/user/hadoop_user/mis_pruebas/prueba_python/archivo_local.txt')
client.delete('/user/hadoop_user/mis_pruebas/prueba_python', recursive=True)

HdfsError: Remote path '/user/hadoop_user/mis_pruebas/prueba_python/archivo_local.txt' already exists.