# Interactuamos con los ficheros y con el sistema operativo

Trataremos los ficheros, manipularlos y leer/guardar desde la consola

## Ficheros con el módulo OS

el módulo `os` que nos permite interactura con el sistema operativo.

In [1]:
# importamos el módulo
import os

In [6]:


nombre_fichero = 'test_file'
# Abrir el fichero test_file.txt para escritura
out = open(f'../../files_folder/{nombre_fichero}.txt', 'w')

# Escribimos la palabra 'test' en este archivo
out.write('test')

# Cerramos el fichero
out.close()

In [8]:
# Abrimos el path o ruta del fichero para leerlo
ruta = f'../../files_folder/{nombre_fichero}.txt'

try:
    with open(ruta, 'r') as entrada:
        pass
except FileNotFoundError as e:
    print(e)

In [10]:
# Hay un método alternativo para abrir y el programa cierra automaticamente según el contexto
with open(f'../../files_folder/{nombre_fichero}_2.txt', 'w') as out:
    out.write('another test')

In [11]:
# Para comprobar que con el método with cierra de forma automática
try:
    out.write("otra línea")
except Exception as e:
    print(e)

I/O operation on closed file.


Con el primer método debemos cerrar para ahorrar memoría, con el segundo el progrma lo cierra automáticamente.

***
### 1.1.1. El *path*

El primer argumento que recibe la función [`open`](https://docs.python.org/3/library/functions.html#open) (y el único que es obligatorio) es el *path*. El *path* puede ser absoluto o relativo al directorio donde se está ejecutando el código.

Indicaremos que el *path* es **absoluto** iniciándolo con una barra, `/` (que indica el directorio raíz).

En cambio, si el *path* comienza con un carácter, este será **relativo** al directorio donde se ejecuta el código. Así, en los dos ejemplos anteriores, los *paths* `test_file.txt` y `test_file_2.txt` eran relativos al directorio de ejecución, e indicaban que los archivos se encontraban directamente en el propio directorio.

Del mismo modo que en el sistema operativo, podemos utilizar `.` y` ..` para referirnos, respectivamente, al directorio actual y al superior al actual en *paths* relativos. Especificaremos el *path* utilizando también barras `/` después de cada nombre de directorio.


### 1.1.2. El modo

En relación con el modo de apertura, Python reconoce los siguientes modificadores, que se pueden combinar entre ellos para especificar cómo y con qué finalidad se abre el fichero:

* `r`, modo de lectura (del inglés, _**r**eading_).
* `w`, modo de escritura (del inglés, _**w**riting_), sobrescribe el contenido del archivo si este ya existe, o bien crea el archivo si no existe.
* `x`, modo de creación e**x**clusiva.
* `a`, modo de escritura, escribe al final del archivo, después del contenido ya existente en el archivo (del inglés, _**a**ppend_), o bien crea el archivo si no existe.
* `b`, modo **b**inario.
* `t`, modo de **t**exto (modo predeterminado).
* `+`, modo de actualización (tanto para lectura como para escritura).

Python permite abrir archivo en modo binario (devolviendo los contenidos como bytes, sin descodificarlo) o en modo texto (devolviendo los contenidos como cadenas de texto, obtenidas de descodificar los bytes en función de la plataforma donde se ejecute el código o bien de la codificación especificada). Por defecto (es decir, si no se especifica el modo), los archivos se abren en modo texto, de manera que, por ejemplo, `r` y `rt` son equivalentes.

Tanto el modo `w` como el modo `a` permiten escribir en un archivo. La diferencia entre ellos radica en el tratamiento del contenido existente en el archivo: `w` sobrescribe el contenido del archivo, eliminando el contenido ya existente e incorporando el nuevo; en cambio, `a` escribe a continuación del contenido ya existente en el archivo, añadiendo el nuevo contenido después del contenido ya existente.

El modo de actualización, `+`, permite abrir un archivo para escribir y leer. Así, tanto `w+` como `r+` permitirán leer y escribir un archivo. La diferencia entre ambos modos recae en el comportamiento respecto al contenido existente en el archivo y a la existencia del propio archivo. Si especificamos `w+`, sobrescribiremos el contenido del archivo y crearemos el archivo si este no existe; en cambio, si especificamos `r+`, mantendremos el contenido del archivo y se generará un error si el archivo no existe.

A continuación se presentan algunos ejemplos del funcionamiento de los modos de apertura de archivos:

In [21]:
with open(ruta, 'w') as out:
    out.write("El fichero no existe_3\n")
    out.write("Contiene dos líneas_3\n")

In [24]:
try:
    with open(ruta, 'r') as inpt:
        content = inpt.read()
        
        # Mostramos el contenido
        print(content)
except Exception as e:
    print(e)

El fichero no existe_3
Contiene dos líneas_3
Nueva línea por aquí



In [23]:
#  Para añadir lineas nuevas a un fichero existente
with open(ruta, 'a') as out:
    out.write("Nueva línea por aquí\n")

In [25]:
# Abrimos el archivo en modo de lectura con actualización, escribimos una
# frase y leemos el contenido a partir del final de la escritura
with open(ruta, 'r+') as out:
    out.write("Trying the r+ mode!")
    content = out.read()
    print(content)

e_3
Contiene dos líneas_3
Nueva línea por aquí



In [26]:
# Lectura de ficheros grandes

from sys import getsizeof

p_big = '../../files_folder/somehow_big_file.txt'

# Cargamos el archivo somehow_big_file.txt completo y mostramos
# el tamaño de la variable content en memoria
with open(p_big, 'r') as f:
    content = f.read()
    size_in_bytes = getsizeof(content)
    print("The size of the variable is: {} KB\n\n".format(
        size_in_bytes / 1024))

# Leemos el fichero línea a línea (y únicamente las 5 primeras líneas),
# mostrando el tamaño de la variable line
with open(p_big, 'r') as f:
    counter = 0
    for line in f:
        print(line)
        size_in_bytes = getsizeof(line)
        print("The size of the variable is: {} KB\n\n".format(
            size_in_bytes / 1024))
        counter += 1
        if counter == 5:
            break

The size of the variable is: 250.087890625 KB


This document gives coding conventions for the Python code comprising the standard library in the main Python distribution. Please see the companion informational PEP describing style guidelines for the C code in the C implementation of Python [1].

The size of the variable is: 0.291015625 KB


This style guide evolves over time as additional conventions are identified and past conventions are rendered obsolete by changes in the language itself.

The size of the variable is: 0.1982421875 KB


Many projects have their own coding style guidelines. In the event of any conflicts, such project-specific guides take precedence for that project.

The size of the variable is: 0.1923828125 KB


One of Guido's key insights is that code is read much more often than it is written. The guidelines provided here are intended to improve the readability of code and make it consistent across the wide spectrum of Python code. As PEP 20 says, "Readability cou

## Creación de carpetas

In [12]:
# Si queremos crear una nueva carpeta dentro de /files_folder/
new_folder = 'files_folder/a_new_folder'
os.mkdir(new_folder)

FileExistsError: [Errno 17] File exists: 'files_folder/a_new_folder'

In [13]:
!ls -l files_folder/

total 257
drwxrwxrwx 1 jovyan users      0 Nov  6 13:05 a_folder_in_a_zip
drwxrwxrwx 1 jovyan users      0 Nov 12 15:33 a_new_folder
-rwxr-xr-x 1 jovyan users      3 Jul  1 14:33 a_number.txt
-rwxr-xr-x 1 jovyan users     78 Jul  1 14:33 echo_read_script.sh
-rwxr-xr-x 1 jovyan users     37 Jul  1 14:33 echo_script.sh
-rwxr-xr-x 1 jovyan users     41 Jul  1 14:33 endless_script.sh
-rwxr-xr-x 1 jovyan users    823 Jul  1 14:33 file_1.txt
-rwxr-xr-x 1 jovyan users     17 Jul  1 14:33 file_2.txt
-rwxr-xr-x 1 jovyan users      0 Jul  1 14:33 original_file.txt
-rwxr-xr-x 1 jovyan users 256041 Jul  1 14:33 somehow_big_file.txt
-rwxr-xr-x 1 jovyan users     12 Nov  6 13:43 test_file_2.txt
-rwxr-xr-x 1 jovyan users     69 Nov  6 13:54 test_file.txt
-rwxr-xr-x 1 jovyan users   1051 Jul  1 14:33 zip_with_multiple_files.zip


In [18]:
# intentamos crear la carpeta 2 dentro de una carpeta 1 dentro de la carpeta
# a_new_folder que hemos creado anteriormente
try:
    new_folder = 'files_folder/a_new_folder/1/2'
    os.mkdir(new_folder)
except Exception as e:
    print(e)

[Errno 17] File exists: 'files_folder/a_new_folder/1/2'


In [19]:
# Para crear más carpetas y subcarpetas a la vez
new_folders = 'files_folder/a_new_folder/1/2/3'
os.makedirs(new_folders)

FileExistsError: [Errno 17] File exists: 'files_folder/a_new_folder/1/2/3'

In [17]:
!ls new_folder/a_new_folder

ls: cannot access 'new_folder/a_new_folder': No such file or directory


In [21]:
# En caso de remover ficheros
nombre_fichero = 'test_file'
ruta = f'files_folder/{nombre_fichero}.txt'
os.remove(ruta)

In [22]:
!ls -l files_folder/

total 256
drwxrwxrwx 1 jovyan users      0 Nov  6 13:05 a_folder_in_a_zip
drwxrwxrwx 1 jovyan users      0 Nov 12 15:33 a_new_folder
-rwxr-xr-x 1 jovyan users      3 Jul  1 14:33 a_number.txt
-rwxr-xr-x 1 jovyan users     78 Jul  1 14:33 echo_read_script.sh
-rwxr-xr-x 1 jovyan users     37 Jul  1 14:33 echo_script.sh
-rwxr-xr-x 1 jovyan users     41 Jul  1 14:33 endless_script.sh
-rwxr-xr-x 1 jovyan users    823 Jul  1 14:33 file_1.txt
-rwxr-xr-x 1 jovyan users     17 Jul  1 14:33 file_2.txt
-rwxr-xr-x 1 jovyan users      0 Jul  1 14:33 original_file.txt
-rwxr-xr-x 1 jovyan users 256041 Jul  1 14:33 somehow_big_file.txt
-rwxr-xr-x 1 jovyan users     12 Nov  6 13:43 test_file_2.txt
-rwxr-xr-x 1 jovyan users   1051 Jul  1 14:33 zip_with_multiple_files.zip


In [23]:
# Eliminamos carpeta vacía

empty_folder = 'files_folder/an_empty_folder'
os.mkdir(empty_folder) # creamos la carpeta vacía
os.rmdir(empty_folder) # eliminamos la carpeta vacía

In [24]:
# Intentamos eliminar ficheros y directorios con ficheros
try:
    non_empty_folder = 'files_folder'
    os.rmdir(non_empty_folder)
except Exception as e:
    print(e)

[Errno 39] Directory not empty: 'files_folder'


> Para eliminar y forzar la eliminación utilizamos la sentencia de linux:
```
$ rm -r <nombre-carpeta>
```
o bien en Jupyter utilizamos : `!` el signo de admiración

In [None]:
#!rm -r files_folder 

In [25]:
# En caso de renombrar el archivo original_file.txt a dest_file.txt
os.rename('files_folder/original_file.txt', 'files_folder/dest_file.txt')

> El comando que viene a continuación solo sirve para verificar el contenido emulando
la acción de shell en Jupyter, NUNCA utilizarlo en script de Python.

In [27]:
!ls -l files_folder/

total 256
drwxrwxrwx 1 jovyan users      0 Nov  6 13:05 a_folder_in_a_zip
drwxrwxrwx 1 jovyan users      0 Nov 12 15:33 a_new_folder
-rwxr-xr-x 1 jovyan users      3 Jul  1 14:33 a_number.txt
-rwxr-xr-x 1 jovyan users      0 Jul  1 14:33 dest_file.txt
-rwxr-xr-x 1 jovyan users     78 Jul  1 14:33 echo_read_script.sh
-rwxr-xr-x 1 jovyan users     37 Jul  1 14:33 echo_script.sh
-rwxr-xr-x 1 jovyan users     41 Jul  1 14:33 endless_script.sh
-rwxr-xr-x 1 jovyan users    823 Jul  1 14:33 file_1.txt
-rwxr-xr-x 1 jovyan users     17 Jul  1 14:33 file_2.txt
-rwxr-xr-x 1 jovyan users 256041 Jul  1 14:33 somehow_big_file.txt
-rwxr-xr-x 1 jovyan users     12 Nov  6 13:43 test_file_2.txt
-rwxr-xr-x 1 jovyan users   1051 Jul  1 14:33 zip_with_multiple_files.zip


## Funciones auxiliare de `paths`

In [28]:
# Unimos diferentes partes de un path con join
path = "/home"
full_path = os.path.join(path, "idBootcamps/notebooks", "filename.txt")
print(full_path)

/home/idBootcamps/notebooks/filename.txt


In [33]:
another_full_path = os.path.join(path, "idBootcamps/notebooks/", "Documents", "")
print(another_full_path)

/home/idBootcamps/notebooks/Documents/


A partir de un `path`podemos obtener el nombre de las carpetas y ficheros

In [34]:
# Obtenemos el nombre del directorio
os.path.dirname(full_path)

'/home/idBootcamps/notebooks'

In [35]:
# Para obtener el nombre del fichero
os.path.basename(full_path)

'filename.txt'

In [36]:
# Si queremos separar la extensión del path
os.path.splitext(full_path)

('/home/idBootcamps/notebooks/filename', '.txt')

## Listado de directorios

In [37]:
# Mostramos todas las entradas de la carpeta files_folder
folder_name = 'files_folder/'
with os.scandir(folder_name) as dir_list:
    for entry in dir_list:
        print(entry.name)

a_folder_in_a_zip
a_new_folder
a_number.txt
dest_file.txt
echo_read_script.sh
echo_script.sh
endless_script.sh
file_1.txt
file_2.txt
somehow_big_file.txt
test_file_2.txt
zip_with_multiple_files.zip


In [38]:
#mostramos los ficheros de la carpeta files_folder
with os.scandir(folder_name) as dir_list:
    for entry in dir_list:
        if os.path.isfile(entry.path):
            print(entry.name)

a_number.txt
dest_file.txt
echo_read_script.sh
echo_script.sh
endless_script.sh
file_1.txt
file_2.txt
somehow_big_file.txt
test_file_2.txt
zip_with_multiple_files.zip


In [39]:
# Mostramos todos los archivos de la carpeta files_folder
with os.scandir(folder_name) as dir_list:
    for entry in dir_list:
        if entry.is_file():
            print(type(entry), entry.name)

<class 'posix.DirEntry'> a_number.txt
<class 'posix.DirEntry'> dest_file.txt
<class 'posix.DirEntry'> echo_read_script.sh
<class 'posix.DirEntry'> echo_script.sh
<class 'posix.DirEntry'> endless_script.sh
<class 'posix.DirEntry'> file_1.txt
<class 'posix.DirEntry'> file_2.txt
<class 'posix.DirEntry'> somehow_big_file.txt
<class 'posix.DirEntry'> test_file_2.txt
<class 'posix.DirEntry'> zip_with_multiple_files.zip


# Patrones de Unix shell

In [40]:
# mostramos nuevamente los ficheros de la carpeta files_folder
with os.scandir(folder_name) as dir_list:
    for entry in dir_list:
        if entry.is_file() and entry.name.endswith(".txt"):
            print(entry.name)

a_number.txt
dest_file.txt
file_1.txt
file_2.txt
somehow_big_file.txt
test_file_2.txt


In [44]:
# Alternativa que emula el escenario cloud
import glob

# obtenemos la lsita con los nombres de jupyter
glob.glob('*.ipynb')

['07.1_python_avanzado.ipynb',
 '11_Ficheros_e_interacción_con_el_sistema.ipynb',
 'LAB_numpy.ipynb',
 'MADS_201920_10_DATA_MINING_Kaggle_Titanic_Predict survival on the Titanic_v2.ipynb',
 'Matplot library.ipynb',
 'PoC_advancedAnalytics.ipynb',
 'Práctica_con_Funciones_week2.ipynb',
 'R_datasets.ipynb',
 'demandforecast.ipynb',
 'kafka.ipynb',
 'mlapis.ipynb',
 'python101.ipynb']

In [45]:
# listamos el contenido de files_folder
glob.glob('./files_folder/*')

['./files_folder/a_folder_in_a_zip',
 './files_folder/a_new_folder',
 './files_folder/a_number.txt',
 './files_folder/dest_file.txt',
 './files_folder/echo_read_script.sh',
 './files_folder/echo_script.sh',
 './files_folder/endless_script.sh',
 './files_folder/file_1.txt',
 './files_folder/file_2.txt',
 './files_folder/somehow_big_file.txt',
 './files_folder/test_file_2.txt',
 './files_folder/zip_with_multiple_files.zip']

In [50]:
# listamos los ficheros que terminen en .txt dentro de la carpeta files_folder
glob.glob('./files_folder/*.txt')

['./files_folder/a_number.txt',
 './files_folder/dest_file.txt',
 './files_folder/file_1.txt',
 './files_folder/file_2.txt',
 './files_folder/somehow_big_file.txt',
 './files_folder/test_file_2.txt']

In [51]:
# listamos los ficheros que hay en este path actual buscando
# recursivamente dentro de las carpetas
glob.glob('**/*', recursive=True)

KeyboardInterrupt: 

## Obtención de metadatos de los ficheros

In [55]:
# obtenemos el tamaño del fichero p_big
p_big = 'files_folder/somehow_big_file.txt'
p_big_size = os.path.getsize(p_big)
print(f"Este fichero {p_big} pesa {p_big_size} KB")

Este fichero files_folder/somehow_big_file.txt pesa 256041 KB


In [57]:
# Listamos la fecha de modificación del fichero
from datetime import datetime

unx_ts_mtime = os.path.getmtime(p_big)
print(f"La última modificación del fichero {p_big} es {unx_ts_mtime} (unix ts)")

La última modificación del fichero files_folder/somehow_big_file.txt es 1625150010.0 (unix ts)


In [60]:
# Si queremos convertir el timestamp de unix en format yyyy-mm-dd hh:mm:ss
yyyy_mm_dd = datetime.utcfromtimestamp(unx_ts_mtime)
print(f"La conversión human readable es: {yyyy_mm_dd}")

La conversión human readable es: 2021-07-01 14:33:30


In [61]:
# Si queremos convertir el timestamp de unix en format d-m-y h:m:s
yyyy_mm_dd = datetime.utcfromtimestamp(unx_ts_mtime).strftime('%d-%m-%Y %H:%M:%S')
print(f"La conversión human readable es: {yyyy_mm_dd}")

La conversión human readable es: 01-07-2021 14:33:30


In [62]:
# La otra manera de imprimir metadatos
import stat

# mostramos los bits de protección del fichero
print(oct(stat.S_IMODE(os.stat(p_big).st_mode)))

0o755


## Trabajo con ficheros comprimidos

In [63]:
# CREAR FICHEROS ZIP
import zipfile as zf
zip_file = 'files_folder/compressed_file.zip'
# creamos el fichero
with zf.ZipFile(zip_file, 'w', compression=zf.ZIP_DEFLATED) as zip_f:
    # Añadimos el fichero p_big 
    zip_f.write(p_big)

In [70]:
# Para obtener el tamaño
p_big_size = os.path.getsize(p_big)
print(f"El fichero tiene tamaño {p_big_size/1024} KB")

El fichero tiene tamaño 250.0400390625 KB


In [71]:
zip_file_size = os.path.getsize(zip_file)
print(f"El fichero tiene tamaño {zip_file_size/1024} KB")

El fichero tiene tamaño 1.876953125 KB


In [73]:
# Lectura de ficheros grandes
zip_with_multiple_files = 'files_folder/zip_with_multiple_files.zip'
with zf.ZipFile(zip_with_multiple_files, 'r') as zip_f:
    # descomprimimos únicamente el fichero file_2.txt
    zip_f.extract("file_2.txt")

In [74]:
# imprimimos en pantalla el contenido del zip
zip_with_multiple_files = 'files_folder/zip_with_multiple_files.zip'
with zf.ZipFile(zip_with_multiple_files, 'r') as zip_f:
    print(zip_f.printdir())

File Name                                             Modified             Size
a_folder_in_a_zip/                             2020-01-20 16:42:00            0
a_folder_in_a_zip/file_3.txt                   2020-01-20 16:42:00           24
file_1.txt                                     2020-01-20 16:41:14          823
file_2.txt                                     2020-01-20 16:41:42           17
None


In [76]:
# Imprime la info del contenido del fichero zip
with zf.ZipFile(zip_with_multiple_files, 'r') as zip_f:
    # Obtenemos un objeto ZipInfo del archivo zip_with_mult_files
    info_list = zip_f.infolist()

    # Para cada archivo dentro del zip, mostramos la
    # información del fichero
    for info in info_list:
        print("Filename: {}".format(info.filename))
        print("\tFile size: {} bytes".format(info.file_size))
        print("\tIs dir?: {}".format(info.is_dir()))
        print("\tDate and time: {}".format(info.date_time))
        print("\tCompression type: {}".format(info.compress_type))
        print("\tCRC: {}\n".format(info.CRC))

Filename: a_folder_in_a_zip/
	File size: 0 bytes
	Is dir?: True
	Date and time: (2020, 1, 20, 16, 42, 0)
	Compression type: 0
	CRC: 0

Filename: a_folder_in_a_zip/file_3.txt
	File size: 24 bytes
	Is dir?: False
	Date and time: (2020, 1, 20, 16, 42, 0)
	Compression type: 0
	CRC: 2817114606

Filename: file_1.txt
	File size: 823 bytes
	Is dir?: False
	Date and time: (2020, 1, 20, 16, 41, 14)
	Compression type: 8
	CRC: 3521977432

Filename: file_2.txt
	File size: 17 bytes
	Is dir?: False
	Date and time: (2020, 1, 20, 16, 41, 42)
	Compression type: 0
	CRC: 742541709



## Lectura y escritura de ficheros con la librería Pandas

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [77]:
import pandas as pd

In [79]:
# Cargamos los datos del fichero "marvel-wikia-data.csv"
df = pd.read_csv("data/marvel-wikia-data.csv",)
df.head(10)

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,dontknow,Living Characters,4043.0,Aug-62,1.962
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1.941
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,dontknow,Living Characters,3061.0,Oct-74,1.974
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1.963
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1.95
5,2458,Benjamin Grimm (Earth-616),\/Benjamin_Grimm_(Earth-616),Public Identity,Good Characters,Blue Eyes,No Hair,Male Characters,,Living Characters,2255.0,Nov-61,1.961
6,2166,Reed Richards (Earth-616),\/Reed_Richards_(Earth-616),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,dontknow,Living Characters,2072.0,Nov-61,1.961
7,1833,Hulk (Robert Bruce Banner),\/Hulk_(Robert_Bruce_Banner),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2017.0,May-62,1.962
8,29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1.963
9,1837,Jonathan Storm (Earth-616),\/Jonathan_Storm_(Earth-616),Public Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,1934.0,Nov-61,1.961


In [80]:
df.tail()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
26,1976,Janet van Dyne (Earth-616),\/Janet_van_Dyne_(Earth-616),Public Identity,Good Characters,Blue Eyes,Auburn Hair,Female Characters,,Living Characters,1120.0,Jun-63,1.963
27,65219,Jean Grey (Earth-616),\/Jean_Grey_(Earth-616),Public Identity,Good Characters,Green Eyes,Red Hair,Female Characters,,Deceased Characters,1107.0,Sep-63,1.963
28,6545,Natalia Romanova (Earth-616),\/Natalia_Romanova_(Earth-616),Public Identity,Good Characters,Green Eyes,Red Hair,Female Characters,Bisexual Characters,Living Characters,1050.0,Apr-64,1.964
29,2223,Kurt Wagner (Earth-616),\/Kurt_Wagner_(Earth-616),Secret Identity,Good Characters,Yellow Eyes,Blue Hair,Male Characters,,Living Characters,1047.0,May-75,1.975
30,9999,-,-,-,-,-,-,-,,-,0.0,-0,0.0


In [81]:
# Observamos los estadísticos básico de los datos numéricos
df.describe()

Unnamed: 0,page_id,APPEARANCES,Year
count,31.0,30.0,31.0
mean,12936.774194,1677.466667,1.885871
std,21056.994013,821.949228,0.358674
min,1073.0,0.0,0.0
25%,1835.0,1179.0,1.9615
50%,2223.0,1322.5,1.963
75%,8911.0,2001.5,1.964
max,65255.0,4043.0,1.975


In [85]:
# Información básica del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   page_id           31 non-null     int64  
 1   name              31 non-null     object 
 2   urlslug           31 non-null     object 
 3   ID                31 non-null     object 
 4   ALIGN             31 non-null     object 
 5   EYE               31 non-null     object 
 6   HAIR              31 non-null     object 
 7   SEX               31 non-null     object 
 8   GSM               4 non-null      object 
 9   ALIVE             31 non-null     object 
 10  APPEARANCES       30 non-null     float64
 11  FIRST APPEARANCE  31 non-null     object 
 12  Year              31 non-null     float64
dtypes: float64(2), int64(1), object(10)
memory usage: 3.3+ KB


In [96]:
df.columns

Index(['page_id', 'name', 'urlslug', 'ID', 'ALIGN', 'EYE', 'HAIR', 'SEX',
       'GSM', 'ALIVE', 'APPEARANCES', 'FIRST APPEARANCE', 'Year'],
      dtype='object')

In [97]:
df.index

RangeIndex(start=0, stop=31, step=1)

In [88]:
# Podemos corregir el año con el parámetro thousand
data = pd.read_csv("data/marvel-wikia-data.csv", thousands=".")
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,dontknow,Living Characters,4043.0,Aug-62,1962
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,dontknow,Living Characters,3061.0,Oct-74,1974
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950


In [94]:
# Si queremos recoger la info de la columna literal Year
data.Year.head()

0    1962
1    1941
2    1974
3    1963
4    1950
Name: Year, dtype: int64

In [95]:
# En caso que la columna tiene espacio o guión medio entonces utilizamos los corchetes
data['FIRST APPEARANCE'].head()

0    Aug-62
1    Mar-41
2    Oct-74
3    Mar-63
4    Nov-50
Name: FIRST APPEARANCE, dtype: object

In [98]:
data.tail()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
26,1976,Janet van Dyne (Earth-616),\/Janet_van_Dyne_(Earth-616),Public Identity,Good Characters,Blue Eyes,Auburn Hair,Female Characters,,Living Characters,1120.0,Jun-63,1963
27,65219,Jean Grey (Earth-616),\/Jean_Grey_(Earth-616),Public Identity,Good Characters,Green Eyes,Red Hair,Female Characters,,Deceased Characters,1107.0,Sep-63,1963
28,6545,Natalia Romanova (Earth-616),\/Natalia_Romanova_(Earth-616),Public Identity,Good Characters,Green Eyes,Red Hair,Female Characters,Bisexual Characters,Living Characters,1050.0,Apr-64,1964
29,2223,Kurt Wagner (Earth-616),\/Kurt_Wagner_(Earth-616),Secret Identity,Good Characters,Yellow Eyes,Blue Hair,Male Characters,,Living Characters,1047.0,May-75,1975
30,9999,-,-,-,-,-,-,-,,-,0.0,-0,0


In [99]:
# Omitimos la última fila de nuestro dataset
data = pd.read_csv("data/marvel-wikia-data.csv", 
                   thousands=".",
                  skiprows=[31])
data.Year.tail()

25    1963
26    1963
27    1963
28    1964
29    1975
Name: Year, dtype: int64

In [101]:
data[['Year', 'page_id']].tail()

Unnamed: 0,Year,page_id
25,1963,1671
26,1963,1976
27,1963,65219
28,1964,6545
29,1975,2223


In [104]:
# Si queremos eliminar el índice por defecto y sustituirlo con el page_id
df.set_index('page_id', inplace=True)

In [106]:
df

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,dontknow,Living Characters,4043.0,Aug-62,1.962
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1.941
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,dontknow,Living Characters,3061.0,Oct-74,1.974
1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1.963
2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1.95
2458,Benjamin Grimm (Earth-616),\/Benjamin_Grimm_(Earth-616),Public Identity,Good Characters,Blue Eyes,No Hair,Male Characters,,Living Characters,2255.0,Nov-61,1.961
2166,Reed Richards (Earth-616),\/Reed_Richards_(Earth-616),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,dontknow,Living Characters,2072.0,Nov-61,1.961
1833,Hulk (Robert Bruce Banner),\/Hulk_(Robert_Bruce_Banner),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2017.0,May-62,1.962
29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1.963
1837,Jonathan Storm (Earth-616),\/Jonathan_Storm_(Earth-616),Public Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,1934.0,Nov-61,1.961


In [107]:
# Para eliminar la barra de escape "\" que se utiliza delante de las "" o "/"
data = pd.read_csv("data/marvel-wikia-data.csv", 
                  thousands=".",
                  skiprows=[31],
                  escapechar="\\")
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,dontknow,Living Characters,4043.0,Aug-62,1962
1,7139,Captain America (Steven Rogers),/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941
2,64786,"Wolverine (James ""Logan"""" Howlett)""",/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,dontknow,Living Characters,3061.0,Oct-74,1974
3,1868,"Iron Man (Anthony ""Tony"""" Stark)""",/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963
4,2460,Thor (Thor Odinson),/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950


In [108]:
# En caso de detectar valores NaN
data = pd.read_csv("data/marvel-wikia-data.csv", 
                  thousands=".",
                  skiprows=[31],
                  escapechar="\\",
                  na_values=["dontknow"])
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962
1,7139,Captain America (Steven Rogers),/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941
2,64786,"Wolverine (James ""Logan"""" Howlett)""",/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974
3,1868,"Iron Man (Anthony ""Tony"""" Stark)""",/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963
4,2460,Thor (Thor Odinson),/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950


In [109]:
# si queremos convertir un valor 
data = pd.read_csv("data/marvel-wikia-data.csv", 
                  thousands=".",
                  skiprows=[31],
                  escapechar="\\",
                  na_values=['dontknow'],
                  converters={'FIRST APPEARANCE': lambda x: int(x.split("-")[1])+1900})
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,1962,1962
1,7139,Captain America (Steven Rogers),/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,1941,1941
2,64786,"Wolverine (James ""Logan"""" Howlett)""",/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,1974,1974
3,1868,"Iron Man (Anthony ""Tony"""" Stark)""",/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,1963,1963
4,2460,Thor (Thor Odinson),/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,1950,1950


In [112]:
import numpy as np

In [None]:
data['First Appearance'].apply(np.mean())

In [111]:
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year,First Appearance
0,1678,Spider-Man (Peter Parker),/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,1962,1962,1956
1,7139,Captain America (Steven Rogers),/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,1941,1941,1956
2,64786,"Wolverine (James ""Logan"""" Howlett)""",/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,1974,1974,1956
3,1868,"Iron Man (Anthony ""Tony"""" Stark)""",/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,1963,1963,1956
4,2460,Thor (Thor Odinson),/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,1950,1950,1956


## Serialización de datos

convierte los datos estructurados (una lista o diccionario) en algo que es posible su manipulación y distribución

In [113]:
# serialización con pickle
import pickle

# creamos un diccionario
a_dict = {'Spain': 34, 'Italia': 39, 'Alemania':44, 'France':33}

# serializamos el diccionario y mostramos los resultados
serialized_dict = pickle.dumps(a_dict)
print(serialized_dict)

b'\x80\x04\x952\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x05Spain\x94K"\x8c\x06Italia\x94K\'\x8c\x08Alemania\x94K,\x8c\x06France\x94K!u.'


In [114]:
# Para leer el fichero debemos deserializar el pickle
des_dict = pickle.loads(serialized_dict)

des_dict

{'Spain': 34, 'Italia': 39, 'Alemania': 44, 'France': 33}

In [116]:
# comparamos la serialización de la deserialización
a_dict == des_dict

True

In [117]:
# Para dar un sentido a la serialización
# Jugamos con machine learning

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import pandas as pd

# Cargamos los datos
data = datasets.load_iris()
iris_df = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# Creamos los conjuntos de test y aprendizaje
x_train, x_test, y_train, y_test = train_test_split(iris_df, y, test_size=0.1)

# Entrenamos un árbol de decisión
dec_tree = DecisionTreeClassifier(splitter="random", criterion="entropy")
dec_tree.fit(x_train, y_train)

# Probamos el clasificador con los datos de test
y_test_predicted = dec_tree.predict(x_test)
print("Predicted classes: \t" + str(y_test_predicted))
print("Accuracy: \t\t" + str(dec_tree.score(x_test, y_test)))

# Guardamos el modelo aprendido serializado en un fichero
p = "files_folder/dec_tree_model.pickle"
with open(p, "wb") as f:
    pickle.dump(dec_tree, f)



Predicted classes: 	[1 2 0 0 1 2 2 2 0 1 0 2 2 0 1]
Accuracy: 		1.0


In [118]:
# serializamos el diccionario y mostramos los resultados
path = "files_folder/dec_tree_model.pickle"
serialized_dict = pickle.dumps(path)
print(serialized_dict)

b'\x80\x04\x95&\x00\x00\x00\x00\x00\x00\x00\x8c"files_folder/dec_tree_model.pickle\x94.'


In [119]:
# Cargamos el modelo guardado
with open(p, "rb") as f:
    dec_tree_des = pickle.load(f)

# Comprobamos que el modelo guardado se ha recuperado correctamente
y_test_predicted_des = dec_tree_des.predict(x_test)
print("Predicted classes: \t" + str(y_test_predicted_des))
print("Accuracy: \t\t" + str(dec_tree_des.score(x_test, y_test)))

Predicted classes: 	[1 2 0 0 1 2 2 2 0 1 0 2 2 0 1]
Accuracy: 		1.0


| Propiedad | Pickle | JSON / XML / CSV / Otros |
| ---- |: ----: |: ----: |
| Intercambio de datos sin confianza entre las partes |. | x |
| Compatibilidad con otros lenguajes de programación (diferentes de Python) u otros programas |. | x |
| Almacenamiento a largo plazo (posibles cambios de versión) |. | x |
| Ejecución en diferentes máquinas, que tienen diferentes versiones de las librerías que proporcionan los tipos de datos almacenados |. | x |
| Necesidad de lectura por parte de humanos |. | x |
| Necesidad de almacenar objetos de manera rápida (por el programador), sin tener que decidir cómo representar el objeto | x |. |
| Almacenamiento temporal (por ejemplo, *checkpoints* en la ejecución de un *script*) | x |. |
| Necesidad de guardar el estado de nuestro programa (en vez de conjuntos de datos con cierta homogeneidad) | x |. |
| Necesidad de almacenar funciones | x |. |


# Interacción con bases de datos

El [PEP249](https://www.python.org/dev/peps/pep-0249/) describe la especificación de la API para acceder a bases de datos desde Python. La mayoría de los sistemas gestores de bases de datos (SGBD) más populares siguen esta especificación, por lo que hay bastante similitud en cómo se accede a los diferentes motores de bases de datos desde Python.

Así pues, el procedimiento general para interactuar con una base de datos desde Python consta de los siguientes pasos:
1. Importar el módulo que provee de la interfaz con la base de datos (específico para cada SGBD).
2. Crear una conexión con la base de datos, proveyendo datos sobre la localización de la base de datos y, en su caso, la autenticación.
3. Obtener un cursor sobre la conexión creada en el paso anterior.
4. Ejecutar las sentencias SQL deseadas.
5. Si las sentencias eran de consulta, recuperar los datos devueltos por la base de datos.
6. Cerrar la conexión.

Para ejemplificar el proceso, vamos a crear una nueva base de datos SQLite, donde guardaremos los datos de los personajes de Marvel (que cargaremos previamente del csv como hemos hecho anteriormente) y haremos consultas sobre estos datos utilizando SQL.

In [120]:
# Cargamos los datos del csv de Marvel en un dataframe de pandas
data = pd.read_csv(
    "data/marvel-wikia-data.csv", decimal=",", escapechar="\\",
    na_values=["dontknow"],
    converters={"FIRST APPEARANCE": lambda x: int(x.split("-")[1])+1900},
    skiprows=[31])

# Obtenemos una cadena con la lista de columnas, que utilizaremos para crear
# la tabla de la base de datos
cols = ", ".join(data.columns)
print(cols)

page_id, name, urlslug, ID, ALIGN, EYE, HAIR, SEX, GSM, ALIVE, APPEARANCES, FIRST APPEARANCE, Year


In [121]:
# Importamos SQLite3
import sqlite3

# Creamos una conexión con la base de datos marvel.db
conn = sqlite3.connect('files_folder/marvel.db')

# Obtenemos un cursor sobre la conexión
cur = conn.cursor()

# Creamos una tabla utilizando los nombres de las columnas del dataframe
sql_create_stm = "CREATE TABLE marvel_chars ({})".format(cols)
print(sql_create_stm)

# Ejecutamos la sentencia SQL de creación de la tabla
cur.execute(sql_create_stm)

# Guardamos los cambios (hacemos un commit en la db)
conn.commit()

CREATE TABLE marvel_chars (page_id, name, urlslug, ID, ALIGN, EYE, HAIR, SEX, GSM, ALIVE, APPEARANCES, FIRST APPEARANCE, Year)


In [122]:
# Ejecutamos SELECT * sobre toda la tabla
sql_sel_stm = "SELECT * FROM marvel_chars"
cur.execute(sql_sel_stm)

# Recuperamos los resultados
results = cur.fetchall()

# Mostramos los resultados: la tabla de la base de datos está vacía
print(results)

[]


In [124]:
# Iteramos por cada fila de la tabla
for index, row in data.iterrows():
    # Insertamos los datos en la tabla marvel_chars
    cur.execute("INSERT INTO marvel_chars VALUES "
                "(?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)", row)

# Hacemos un commit de los cambios
conn.commit()

In [125]:
# Ejecutamos SELECT * sobre toda la tabla
sql_sel_stm = "SELECT * FROM marvel_chars"
cur.execute(sql_sel_stm)

# Recuperamos los resultados
results = cur.fetchall()

# Mostramos los resultados: la tabla de la base de datos contiene los datos
# de los personajes de Marvel
print(results)

[(1678, 'Spider-Man (Peter Parker)', '/Spider-Man_(Peter_Parker)', 'Secret Identity', 'Good Characters', 'Hazel Eyes', 'Brown Hair', 'Male Characters', None, 'Living Characters', 4043.0, 1962, '1.962'), (7139, 'Captain America (Steven Rogers)', '/Captain_America_(Steven_Rogers)', 'Public Identity', 'Good Characters', 'Blue Eyes', 'White Hair', 'Male Characters', None, 'Living Characters', 3360.0, 1941, '1.941'), (64786, 'Wolverine (James "Logan"" Howlett)"', '/Wolverine_(James_%22Logan%22_Howlett)', 'Public Identity', 'Neutral Characters', 'Blue Eyes', 'Black Hair', 'Male Characters', None, 'Living Characters', 3061.0, 1974, '1.974'), (1868, 'Iron Man (Anthony "Tony"" Stark)"', '/Iron_Man_(Anthony_%22Tony%22_Stark)', 'Public Identity', 'Good Characters', 'Blue Eyes', 'Black Hair', 'Male Characters', None, 'Living Characters', 2961.0, 1963, '1.963'), (2460, 'Thor (Thor Odinson)', '/Thor_(Thor_Odinson)', 'No Dual Identity', 'Good Characters', 'Blue Eyes', 'Blond Hair', 'Male Characters',

In [126]:
# Ejecutamos la consulta SQL
sql_sel_stm = "SELECT name FROM marvel_chars WHERE sex = 'Female Characters'"
cur.execute(sql_sel_stm)

# Mostramos los resultados
results = cur.fetchall()
print(results)

[('Susan Storm (Earth-616)',), ('Ororo Munroe (Earth-616)',), ('Mary Jane Watson (Earth-616)',), ('Wanda Maximoff (Earth-616)',), ('Janet van Dyne (Earth-616)',), ('Jean Grey (Earth-616)',), ('Natalia Romanova (Earth-616)',), ('Susan Storm (Earth-616)',), ('Ororo Munroe (Earth-616)',), ('Mary Jane Watson (Earth-616)',), ('Wanda Maximoff (Earth-616)',), ('Janet van Dyne (Earth-616)',), ('Jean Grey (Earth-616)',), ('Natalia Romanova (Earth-616)',)]


In [127]:
# Cerramos la conexión
conn.close()