#Apache Spark - Comandos DBFS

<p><strong>Objetivo: </strong> El objetivo de este cuaderno es utilizar los distintos comandos que nos ofrece DBFS para trabajar con el sistema de archivos.</p>

<h2>Índice</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
  <li>Acceder al sistema de archivos</li>
  <li>Trabajando con carpetas</li>
  <li>Mover, copiar y eliminar archivos dentro de DBFS</li>
  <li>Ayuda</li>
</ul>

Tiempo estimado: <strong>20 min</strong>

</div>
<hr>

##Acceder al sistema de archivos

El <b>signo de porcentaje % </b> y <b>fs</b> le dicen a Databricks que el comando que sigue debe ejecutarse en el sistema de archivos de Databricks. Es comando mágico de databricks. Se comienza ejecutando un comando de lista, <b>ls</b>. El primer argumento dice qué carpeta se quiere investigar. La barra indica que se está mirando en la raíz:

In [0]:
%fs ls /

path,name,size
dbfs:/FileStore/,FileStore/,0
dbfs:/databricks-datasets/,databricks-datasets/,0
dbfs:/databricks-results/,databricks-results/,0
dbfs:/local_disk0/,local_disk0/,0
dbfs:/tmp/,tmp/,0
dbfs:/user/,user/,0


Ahora se va a acceder a una de las carpetas que están en la raiz, para ello ponemos el nombre dentro de las barras. Se accede a la carpeta <b>FileStore</b> que es donde usualmente se van a ubicar los ficheros de datos:

In [0]:
%fs ls /FileStore/

path,name,size
dbfs:/FileStore/DatosCovdBtaJson/,DatosCovdBtaJson/,0
dbfs:/FileStore/Prueba/,Prueba/,0
dbfs:/FileStore/import-stage/,import-stage/,0
dbfs:/FileStore/jars/,jars/,0
dbfs:/FileStore/plots/,plots/,0
dbfs:/FileStore/shared_uploads/,shared_uploads/,0
dbfs:/FileStore/tables/,tables/,0


Aquí se obtiene la lista de conjuntos de datos y luego enumeramos el contenido de la carpeta que contiene el ejemplo de las aerolíneas:

In [0]:
%fs ls /databricks-datasets/

path,name,size
dbfs:/databricks-datasets/,databricks-datasets/,0
dbfs:/databricks-datasets/COVID/,COVID/,0
dbfs:/databricks-datasets/README.md,README.md,976
dbfs:/databricks-datasets/Rdatasets/,Rdatasets/,0
dbfs:/databricks-datasets/SPARK_README.md,SPARK_README.md,3359
dbfs:/databricks-datasets/adult/,adult/,0
dbfs:/databricks-datasets/airlines/,airlines/,0
dbfs:/databricks-datasets/amazon/,amazon/,0
dbfs:/databricks-datasets/asa/,asa/,0
dbfs:/databricks-datasets/atlas_higgs/,atlas_higgs/,0


In [0]:
%fs ls /databricks-datasets/airlines/

path,name,size
dbfs:/databricks-datasets/airlines/README.md,README.md,1089
dbfs:/databricks-datasets/airlines/_SUCCESS,_SUCCESS,0
dbfs:/databricks-datasets/airlines/part-00000,part-00000,67108879
dbfs:/databricks-datasets/airlines/part-00001,part-00001,67108862
dbfs:/databricks-datasets/airlines/part-00002,part-00002,67108930
dbfs:/databricks-datasets/airlines/part-00003,part-00003,67108804
dbfs:/databricks-datasets/airlines/part-00004,part-00004,67108908
dbfs:/databricks-datasets/airlines/part-00005,part-00005,67108890
dbfs:/databricks-datasets/airlines/part-00006,part-00006,67108825
dbfs:/databricks-datasets/airlines/part-00007,part-00007,67108880


Usamos otro comando, <b>head</b>, para ver el archivo <b>README.md</b> en la carpeta:

In [0]:
%fs head /databricks-datasets/airlines/README.md

In [0]:
%fs head /databricks-datasets/airlines/part-00000

##Trabajando con carpetas

El comando <b>mkdirs</b> crea una carpeta dentro del sistema de archivos. Se va a crear una carpeta Prueba para el ejercicio:

In [0]:
%fs mkdirs /FileStore/Prueba2

In [0]:
%fs ls /FileStore/

path,name,size
dbfs:/FileStore/DatosCovdBtaJson/,DatosCovdBtaJson/,0
dbfs:/FileStore/Prueba/,Prueba/,0
dbfs:/FileStore/Prueba2/,Prueba2/,0
dbfs:/FileStore/import-stage/,import-stage/,0
dbfs:/FileStore/jars/,jars/,0
dbfs:/FileStore/plots/,plots/,0
dbfs:/FileStore/shared_uploads/,shared_uploads/,0
dbfs:/FileStore/tables/,tables/,0


Si han creado carpetas y desean eliminarlas pueden ejecutar la siguiente sentencia <b>rm -r</b>. Se debe especificar la ruta donde se encuentra la carpeta. Se devuelve un <b>Boolean = true</b> si fue exitoso el borrado:

In [0]:
%fs rm -r /FileStore/Prueba2

##Mover, copiar y eliminar archivos dentro de DBFS

Para copiar un archivo de una carpeta a otra se utiliza el comando <b>cp</b>. Debe especificar la ruta donde está el archivo, un espacio y la ruta para donde será copiado:

In [0]:
%fs cp /databricks-datasets/airlines/README.md /FileStore/Prueba

In [0]:
%fs ls /FileStore/Prueba

path,name,size
dbfs:/FileStore/Prueba/0.json,0.json,4
dbfs:/FileStore/Prueba/README.md,README.md,1089


Para eliminar un archivo de una carpeta se utiliza el comando <b>rm</b>. Debe especificar la ruta donde está el archivo:

In [0]:
%fs rm /FileStore/Prueba/README.md

In [0]:
%fs rm /FileStore/Prueba/test.ipynb

Para guardar un archivo en FileStore, colóquelo en el directorio / FileStore en DBFS:

In [0]:
dbutils.fs.put("/FileStore/Prueba/test.ipynb", "Contents of my file")

Wrote 19 bytes.
Out[1]: True

In [0]:
dbutils.fs.head("/FileStore/Prueba/test.ipynb")

Out[2]: 'Contents of my file'

In [0]:
%fs ls /FileStore/Prueba

path,name,size
dbfs:/FileStore/Prueba/0.json,0.json,4
dbfs:/FileStore/Prueba/test.ipynb,test.ipynb,19


Para mover un archivo de una carpeta a otra se utiliza el comando <b>mv</b>. Debe especificar la ruta donde está el archivo, un espacio y la ruta para donde será movido. No puede mover los archivos de prueba de databricks, prueba a mover alguno de los archivos que tiene en su sistema de archivos:

In [0]:
%fs mv /FileStore/Prueba/test.ipynb /FileStore/tables

In [0]:
%fs ls /FileStore/Prueba

path,name,size
dbfs:/FileStore/Prueba/0.json,0.json,4


In [0]:
%fs ls /FileStore/tables/

path,name,size
dbfs:/FileStore/tables/Titanic_train.csv,Titanic_train.csv,61194
dbfs:/FileStore/tables/automobile.csv,automobile.csv,25695
dbfs:/FileStore/tables/bankmarketing.csv,bankmarketing.csv,4928746
dbfs:/FileStore/tables/cursos/,cursos/,0
dbfs:/FileStore/tables/ejemplos/,ejemplos/,0
dbfs:/FileStore/tables/movies.csv,movies.csv,494431
dbfs:/FileStore/tables/movies.parquet,movies.parquet,214084
dbfs:/FileStore/tables/sample_kmeans_data.txt,sample_kmeans_data.txt,120
dbfs:/FileStore/tables/stopwords.txt,stopwords.txt,1818
dbfs:/FileStore/tables/tags.csv,tags.csv,118660


In [0]:
%fs rm /FileStore/tables/test.ipynb

##Ayuda

Con estos comandos puedes acceder a la ayuda y descripción de los comandos anteriores, y tambien se puede acceder a la ayuda de un comando en especial:

In [0]:
dbutils.fs.help()

In [0]:
dbutils.fs.help("cp")

##Links de ayuda interesantes
<ul>
    <li>Databricks Utilities: https://docs.databricks.com/dev-tools/databricks-utils.html</li>
    <li>Databricks File System (DBFS): https://docs.databricks.com/data/databricks-file-system.html</li> 
    <li>Comandos mágicos: https://docs.databricks.com/notebooks/notebooks-use.html#language-magic</li>  
<ul>