# Interactuamos con los ficheros y con el sistema operativo
Trataremos los ficheros, manipularlos, y leer/guardar desde la consola

In [2]:
# Crear una carpeta mkdir
!mkdir carpeta

In [3]:
# cambiar de directorio cd y touch sirve para crear un fichero nuevo
!cd carpeta && touch fichero.py

"touch" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [4]:
#!/bin/bash
!ls

"ls" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [5]:
# Para interactuar con el Sistema Operativo
import os

El módulo `os` que nos permite interactuar con el sistema operativo

In [12]:
nombre_fichero = 'test_file'
# Abrimos el fichero para escritura
out = open(f'carpeta/{nombre_fichero}.txt', 'w')

In [13]:
# Escribimos la palabra TheBridge en este archivo
out.write("TheBridge")

9

In [14]:
# Debemos cerrar el out con el comando close
out.close()

In [15]:
# Si queremos guardar el fichero en la carpeta week8
out = open(f'../../week08/{nombre_fichero}.txt', 'w')
out.write("TheBridge")
out.close()

> En windows utilizamos el slash desde arriba hacía la derecha, pero
en Python SIEMPRE utilizaremos desde abajo hacía la derecha

PATH = C:\Users\mrusso\THE_BRIDGE_FEB22_local\02_PYTHON\week09\labs\ficheros_e_interacciones_sistema.ipynb

RELATIVE PATH = week09\labs\ficheros_e_interacciones_sistema.ipynb

In [16]:
# Abrimos el path o ruta del fichero
ruta = f'../../week08/{nombre_fichero}.txt'

In [17]:
# otra forma de leer y escribir ficheros con with
try:
    with open(ruta, 'r') as entrada:
        pass
except FileNotFoundError as e:
    print(e)

In [28]:
with open(f'carpeta/{nombre_fichero}_2.txt', 'w') as out:
    out.write("TheBridge Data Science")

In [19]:
# Probamos a escribir una nueva línea en text_file 2
try:
    out.write('otra línea')
except Exception as e:
    print(e)

I/O operation on closed file.


> Con el primer método `open` dejamos abierta la conexión hasta su cierre, con 
> el método `with` el proceso cierra de forma automática.

> El resto de modo para operar con los ficheros:
> https://docs.python.org/3/library/functions.html#open

In [44]:
# Si deseamos escribir una nueva línea con append
try:
    with open(f'carpeta/{nombre_fichero}_2.txt', 'a') as entrada:
        entrada.write('\n')
        entrada.write('otra línea\n')
        entrada.write('otra línea más')
except FileNotFoundError as e:
    print(e)

In [46]:
# Leer en línea el contenido del fichero
try:
    with open(f'carpeta/{nombre_fichero}_2.txt', 'r') as f:
        contenido = f.read()
except Exception as e:
    print(e)
finally:
    print(contenido)

TheBridge Data Science
otra línea
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más
otra línea
otra línea más


> Lectura de ficheros grande (no exactamente igual que este fichero...)
>

In [47]:
from sys import getsizeof

In [48]:
ruta_big_file = 'carpeta/somehow_big_file.txt'
with open(ruta_big_file, 'r') as f:
    content = f.read()
    size_in_bytes = getsizeof(content)
    print(size_in_bytes)

256090


In [51]:
# Más bonito expresado en Kilobytes
ruta_big_file = 'carpeta_ficheros/somehow_big_file.txt'
with open(ruta_big_file, 'r') as f:
    content = f.read()
    size_in_bytes = getsizeof(content)
    print(f'El fichero pesa {round(size_in_bytes / 1024, 3)} KB')

El fichero pesa 250.088 KB


> Crear Carpetas

In [54]:
# Utilizamos os.mkdir
new_folder = 'carpeta_ficheros/new_folder'
os.mkdir(new_folder)

In [55]:
# Si volvamos a crear una carpeta ya creada 
new_folder = 'carpeta_ficheros/new_folder'
os.mkdir(new_folder)

FileExistsError: [WinError 183] No se puede crear un archivo que ya existe: 'carpeta_ficheros/new_folder'

In [56]:
# Para crear subcarpetas NO utilizamores mkdir
try:
    new_subfolder = 'carpeta_ficheros/new_folder/1/2'
    os.mkdir(new_subfolder)
except Exception as e:
    print(e)

[WinError 3] El sistema no puede encontrar la ruta especificada: 'carpeta_ficheros/new_folder/1/2'


> Para poder realizar la creación de subcarpetas, utilizaremos 
> el método iterativo makedirs

In [58]:
# Utilizaremos makedirs
try:
    new_subfolder = 'carpeta_ficheros/new_folder/1/2'
    os.makedirs(new_subfolder)
except Exception as e:
    print(e)

[WinError 183] No se puede crear un archivo que ya existe: 'carpeta_ficheros/new_folder/1/2'


In [63]:
!ls -l carpeta/

"ls" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


> En caso de eliminar ficheros

In [66]:
# Utilizaremos el comando os.remove
nombre_fichero = 'test_file.txt'
ruta = f'carpeta_ficheros/{nombre_fichero}'
os.remove(ruta)

> En caso de eliminar un directorio vacío

In [67]:
# En este ejemplo eliminaremos solamente la carpeta 2
ruta_carpeta_vacia = f'carpeta_ficheros/new_folder/1/2'
os.rmdir(ruta_carpeta_vacia)

> en caso de eliminar más carpetas vacías
> `os.removedirs`

```
Para eliminar y forzar la eliminación utilizamos la sentencia de linux:

$ rm -r <nombre-carpeta>
o bien en Jupyter utilizamos : ! el signo de admiración
```

#!rm -r files_folder 

> en caso de renombrar un fichero
```
os.rename(<fichero origen>, <fichero destino>)
```

In [69]:
os.rename('carpeta_ficheros/test_file_2.txt', 'carpeta_ficheros/fichero_prueba_2.txt')

> Funciones auxiliares de `paths`

In [71]:
# Unimos diferentes partes de un path con join
path = '/home'
full_path = os.path.join(path, '/thebridge/notebooks/', 'filename.py')
print(full_path)

/thebridge/notebooks/filename.py


In [74]:
# Obtener el directorio dado un fichero
os.path.dirname('carpeta_ficheros/fichero.py')

'carpeta_ficheros'

In [77]:
# Obtener la carpeta del working directory
os.getcwd()

'c:\\Users\\mrusso\\THE_BRIDGE_FEB22_local\\02_PYTHON\\week09\\labs'

In [78]:
# Si queremos separar la extensióin del fichero
os.path.splitext('carpeta_ficheros/fichero.py')

('carpeta_ficheros/fichero', '.py')

> Listado de directorios

In [79]:
folder_name = 'carpeta_ficheros/'
with os.scandir(folder_name) as dir_list:
    for entrada in dir_list:
        print(entrada.name)

fichero.py
fichero_prueba_2.txt
new_folder
somehow_big_file.txt


In [80]:
# mostramos los ficheros de la carpeta_ficheros
with os.scandir(folder_name) as dir_list:
    for entrada in dir_list:
        if os.path.isfile(entrada.path):
            print(entrada.name)

fichero.py
fichero_prueba_2.txt
somehow_big_file.txt


> Patrones de Unix Shell

In [81]:
# mostramos nuevamente los ficheros de la carpeta files_folder
with os.scandir(folder_name) as dir_list:
    for entry in dir_list:
        if entry.is_file() and entry.name.endswith(".txt"):
            print(entry.name)

fichero_prueba_2.txt
somehow_big_file.txt


In [82]:
# Alternativa que emula el escenario cloud
import glob

In [85]:
# obtener una lista de ficheros .py
glob.glob('carpeta_ficheros/*.py')

['carpeta_ficheros\\fichero.py']

In [87]:
# Listamos el contendido de una carpeta
glob.glob('./carpeta_ficheros/*')

['./carpeta_ficheros\\fichero.py',
 './carpeta_ficheros\\fichero_prueba_2.txt',
 './carpeta_ficheros\\new_folder',
 './carpeta_ficheros\\somehow_big_file.txt']

In [94]:
# listamos los ficheros que hay en este path actual buscando
# recursivamente dentro de las carpetas
glob.glob('**/*', recursive=True)

['carpeta_ficheros',
 'ficheros_e_interacciones_sistema.ipynb',
 'carpeta_ficheros\\fichero.py',
 'carpeta_ficheros\\fichero_prueba_2.txt',
 'carpeta_ficheros\\new_folder',
 'carpeta_ficheros\\somehow_big_file.txt',
 'carpeta_ficheros\\new_folder\\1',
 'carpeta_ficheros\\new_folder\\fichero_prueba_2.txt',
 'carpeta_ficheros\\new_folder\\1\\fichero_prueba_2.txt']

### Lectura y ficheros con Pandas 
Input/Output 
https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [95]:
import pandas as pd

In [96]:
# Cargamos los datos del fichero
ruta = 'carpeta_ficheros/data_marvel-wikia-data.csv'
dataset = pd.read_csv(ruta)
dataset.head(10)

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
5,2458,Benjamin Grimm (Earth-616),\/Benjamin_Grimm_(Earth-616),Public Identity,Good Characters,Blue Eyes,No Hair,Male Characters,,Living Characters,2255.0,Nov-61,1961.0
6,2166,Reed Richards (Earth-616),\/Reed_Richards_(Earth-616),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2072.0,Nov-61,1961.0
7,1833,Hulk (Robert Bruce Banner),\/Hulk_(Robert_Bruce_Banner),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2017.0,May-62,1962.0
8,29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1963.0
9,1837,Jonathan Storm (Earth-616),\/Jonathan_Storm_(Earth-616),Public Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,1934.0,Nov-61,1961.0


In [107]:
dataset.sample(5, random_state=17)

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
11599,548362,Prunella Hawkins (Earth-616),\/Prunella_Hawkins_(Earth-616),Secret Identity,Bad Characters,,Grey Hair,Female Characters,,Living Characters,1.0,Jan-49,1949.0
13172,289020,Monte Devlin (Earth-616),\/Monte_Devlin_(Earth-616),Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Aug-92,1992.0
5983,706138,Godfried Herter (Earth-616),\/Godfried_Herter_(Earth-616),Secret Identity,Bad Characters,Brown Eyes,Grey Hair,Male Characters,,Living Characters,4.0,Jan-71,1971.0
2762,43764,Flea (Earth-616),\/Flea_(Earth-616),,Neutral Characters,,Black Hair,Male Characters,,Deceased Characters,12.0,Jan-73,1973.0
8706,248767,Erik Gorbo (Earth-616),\/Erik_Gorbo_(Earth-616),,Bad Characters,,,Male Characters,,Deceased Characters,2.0,Mar-71,1971.0


In [108]:
# Si quiero ver las últimas filas
dataset.tail()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
16371,657508,Ru'ach (Earth-616),\/Ru%27ach_(Earth-616),No Dual Identity,Bad Characters,Green Eyes,No Hair,Male Characters,,Living Characters,,,
16372,665474,Thane (Thanos' son) (Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Bald,Male Characters,,Living Characters,,,
16373,695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,
16374,708811,TK421 (Spiderling) (Earth-616),\/TK421_(Spiderling)_(Earth-616),Secret Identity,Neutral Characters,,,Male Characters,,Living Characters,,,
16375,673702,Yologarch (Earth-616),\/Yologarch_(Earth-616),,Bad Characters,,,,,Living Characters,,,


In [110]:
# El shape devuelve el formato del dataset (n filas, m columnas)
dataset.shape

(16376, 13)

In [111]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16376 entries, 0 to 16375
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   page_id           16376 non-null  int64  
 1   name              16376 non-null  object 
 2   urlslug           16376 non-null  object 
 3   ID                12606 non-null  object 
 4   ALIGN             13564 non-null  object 
 5   EYE               6609 non-null   object 
 6   HAIR              12112 non-null  object 
 7   SEX               15522 non-null  object 
 8   GSM               90 non-null     object 
 9   ALIVE             16373 non-null  object 
 10  APPEARANCES       15280 non-null  float64
 11  FIRST APPEARANCE  15561 non-null  object 
 12  Year              15561 non-null  float64
dtypes: float64(2), int64(1), object(10)
memory usage: 1.6+ MB


In [112]:
# Los estadísticos del dataset
dataset.describe()

Unnamed: 0,page_id,APPEARANCES,Year
count,16376.0,15280.0,15561.0
mean,300232.082377,17.033377,1984.951803
std,253460.403399,96.372959,19.663571
min,1025.0,1.0,1939.0
25%,28309.5,1.0,1974.0
50%,282578.0,3.0,1990.0
75%,509077.0,8.0,2000.0
max,755278.0,4043.0,2013.0


In [114]:
# Conocer las columnas
dataset.columns

Index(['page_id', 'name', 'urlslug', 'ID', 'ALIGN', 'EYE', 'HAIR', 'SEX',
       'GSM', 'ALIVE', 'APPEARANCES', 'FIRST APPEARANCE', 'Year'],
      dtype='object')