** Manejo del sistema de ficheros **

Crear una función que tome una lista de ficheros y los borre del disco si los
encuentra en una carpeta dada.

In [33]:
from pathlib import Path
import os.path

def borraFicheros(carpeta, listaFicheros):
    p = Path(carpeta)
    if p.is_dir():
        print("Carpeta encontrada: " + carpeta)

        #Iterar en el contenido de la carpeta
        for x in p.iterdir():
            if x.is_file() and str(x.relative_to(carpeta)) in listaFicheros:
                #Si el fichero corresponde con alguno de la lista, borrarlo
                print("Borrando: " + str(x))
                x.unlink()
    else:
        print("Carpeta no encontrada: " + carpeta)
    
#Prueba con ficheros descargados en los ejercicios de descarga de ficheros
borraFicheros("titanic", ['Dataset.spec', 'Summary'])

#Referencias
#https://docs.python.org/3/library/pathlib.html
#https://pymotw.com/3/pathlib/

Carpeta encontrada: titanic


** (**) Hacer un programa que descargue páginas consecutivas de resultados de
una búsqueda de Google, y las borre si no encuentra dentro de ellas una
determinada palabra (que no sea término de búsqueda). **

Definir una función en Python que tome como parámetro el nombre de una
carpeta de nuestro sistema de ficheros y devuelva una lista con las rutas
completas de los ficheros CSV que encuentre en esa carpeta

In [44]:
from pathlib import Path
import os.path

def getRutasFicheros(carpeta, suffix = '.csv'):
    matches = []
    #Verificación de existencia de carpeta
    p = Path(carpeta)
    if p.is_dir():
        print("Buscando " + suffix + " en " + carpeta)
       
        #Iterar en el contenido de la carpeta
        for x in p.iterdir():
            if x.is_file() and x.suffix == suffix:
                #Si la terminacion corresponde con la buscada, añadirlo a la lista de matches
                matches.append(str(x))
    else:
        print("Carpeta no encontrada: " + carpeta)
    
    return matches
    
getRutasFicheros('titanic')
#En el ejemplo del titanic no hay .csv, pero sí .data
getRutasFicheros('titanic', '.data')

#Referencias
#http://stackoverflow.com/questions/2186525/use-a-glob-to-find-files-recursively-in-python
#https://docs.python.org/3/library/pathlib.html

Buscando .csv en titanic
Buscando .data en titanic


['titanic\\Dataset.data']

(**) Ampliar la función anterior, pero mirando también en las sub-carpetas que
contiene.

In [65]:
from pathlib import Path
import os.path
import glob
import fnmatch

def getRutasFicherosRec(carpeta, suffix = '.csv'):
    matches = []
    #Verificación de existencia de carpeta
    p = Path(carpeta)
    if p.is_dir():
        print("Buscando " + suffix + " en " + carpeta)
        patron = carpeta + '/**/*' + suffix
        #Válido a partir de python 3.5 (como en este caso). Búsqueda recursiva        
        for filename in glob.iglob(patron, recursive=True):
            matches.append(str(filename))
    else:
        print("Carpeta no encontrada: " + carpeta)
    
    return matches

def getRutasFicherosRec_v2(carpeta, suffix = '.csv'):
    matches2 = []
    #Verificación de existencia de carpeta
    p = Path(carpeta)
    if p.is_dir():
        #Se puede emplear el método de Python 2.2 to 3.4, con os.walk
        for root, dirnames, filenames in os.walk(carpeta):
            for filename in fnmatch.filter(filenames, '*' + suffix):
                matches2.append(str(os.path.join(root, filename)))
    else:
        print("Carpeta no encontrada: " + carpeta)    
    return matches2


#En el ejemplo del titanic no hay .csv, pero sí .data
print(getRutasFicherosRec('titanic'))
print(getRutasFicherosRec('titanic', '.data'))
print('\n')
print(getRutasFicherosRec_v2('titanic'))
print(getRutasFicherosRec_v2('titanic', '.data'))
                    
#Referencias
#http://stackoverflow.com/questions/2186525/use-a-glob-to-find-files-recursively-in-python
#https://docs.python.org/3/library/pathlib.html

Buscando .csv en titanic
[]
Buscando .data en titanic
['titanic\\Dataset.data', 'titanic\\survived\\Prototask.data']


[]
['titanic\\Dataset.data', 'titanic\\survived\\Prototask.data']
