# Trabajar con variables strings

Los objetos de la clase `str` son cadenas de caracteres que tienen una enorme variedad de usos. Son objetos inmutables, pero al mismo tiempo son muy versátiles gracias a los métodos asociados a su clase. Veamos algunos de los más útiles. Con los métodos `str.find()` y `str.index()` se puede determinar si una cadena de caracteres, llamemosle `substring` está o no en otra cadena de caracteres. En ambos casos los métodos devuelven el índice de la primera ocurrencia. La diferencia entre ellos radica en lo que ocurre si lo que buscamos no se encuentra en la cadena de caracteres que buscamos. Si lo que queremos es saber cuántas veces aparece, entonces se puede utilizar `str.count()`.

In [None]:
test = 'Jupyter Notebook es un entorno basado en una interfaz web.'
substring = 'entorno'

a = test.find(substring) # Devuelve -1 si no existe el substring.
b = test.index(substring) # Si no lo encuentra, lanza un error.
c = test.count('un')

print(test[a:])
print(test[b:])
print('El substring "un" aparece ' + str(c) + ' veces.')

Imaginemos que nos interesa determinar si en un directorio determinado hay ficheros con una extensión concreta. Por ejemplo, vamos a ver si en el mismo directorio en el que está este Notebook hay otros ficheros con la misma extensión. Para ello vamos a usar un módulo nuevo: `os`. Este módulo nos proporciona recursos muy útiles para interactuar, en general, con el sistema operativo. Específicamente nos interesa ahora el método `os.listdir()`, que nos devuelve una lista con los nombres de los ficheros que hay en la ruta que especifiquemos. Si no especificamos una ruta, nos devuelve los ficheros que hay en el directorio en el que se está trabajando actualmente. Una vez tenemos la lista de los ficheros, usamos el método `str.endswith()` para ver si la extensión de dichos archivos es o no la de un Jupyter Notebook. El método devuelve `True` si el objeto string termina con el sufijo que hemos especificado y `False` en caso contrario. 

In [None]:
from os import listdir

files = listdir()

for file in files:
    if file.endswith('.ipynb'):
        print(file)

Hay una funcionalidad de este método que es especialmente interesante: podemos proporcionarle un `tuple` con varias terminaciones para las strings que queremos comprobar. Esto es útil para casos como los ficheros excel o word, en los que hay varias versiones y varias extensiones de archivo ligeramente distintas. Veamos un ejemplo.

In [None]:
from os import listdir

files = listdir('./ejemplos/fusionar datos excel')
suffix = ('.xlsx', '.xls')

for file in files:
    if file.endswith(suffix): # En este caso no hay ficheros xls, pero si los hubiera nos los sacaría por pantalla.
        print(file)

Puede darse el caso en que tengamos una lista de strings y necesitemos juntarlas en una única string. Por ejemplo, si tenemos información en una base de datos del momento exacto en que nos ha entregado un trabajo un alumno y queremos que  todo esté en una misma string para trabajar de forma más sencilla, podemos utilizar el método `str.join()` de la siguiente manera:

In [None]:
data = ['Nombre y apellidos', '78237456G', '12-5-2020', '9h37m']

"""
¡Ojo! En este caso la string que usamos como objeto para el método 
se utiliza como nexo entre los elementos de la lista.
"""
test = ' '.join(data)

print(test)

Es muy común tener que modificar algún elemento de las strings. Son objetos inmutables, por lo que no se pueden cambiar directamente, pero el método `str.replace()` es una forma de lograr el mismo resultado. Devuelve una copia de la string que se utiliza como objeto, pero con las sustituciones que le indiquemos.

In [None]:
test = 'Jupyter Notebook es un entorno basado en una interfaz web.'
substring = 'entorno'

new_test = test.replace('te', 'TE') # str.replace(lo_antiguo, lo_nuevo)
print(new_test)

También es muy frecuente tener que separar palabras o líneas en una string. Imaginemos que tenemos una frase y queremos separar las palabras para analizarlas por separado. La forma más sencilla es utilizar el método `str.split()`, al que debemos proporcionar una substring para identificar los puntos en los que queremos que la string original se divida. Si lo que buscamos separar las palabras, podemos utilizar un espacio en blanco `' '` como separador.

In [None]:
test = 'Jupyter Notebook es un entorno basado en una interfaz web.'

str_list = test.split(' ')

print(str_list)

Por otro lado, cuando abrimos un fichero de texto plano (.txt, .do, .csv, etc.), es fundamental poder separar las líneas que lo componen. En una string los saltos de línea vienen representadas generalmente por `'\n'`. Este procedimiento podría hacerse con `str.split()`, pero al final nos devolvería una string vacía `''` que puede ser molesta. Para obtener de forma eficiente una lista de strings en la que cada string sea una línea de un fichero de texto plano usaremos `str.splitlines()`. Puede darse el caso de que la separación de las líneas no venga dada por `'\n'`. Esto está previsto en este último método, lo cual es otra ventaja con respecto a `str.split()`. La lista completa de elementos que se consideran separadores en este método se puede consultar en la [documentación del método](https://docs.python.org/3/library/stdtypes.html#str.splitlines).

In [None]:
test = 'Jupyter Notebook es un entorno basado en una interfaz web.\nCuenta con celdas de Markdown y celdas de código.\nSe puede utilizar con una gran variedad de lenguajes de programación, pero destacan R y Python.'

str_list = test.splitlines()

print(str_list)

A la hora de trabajar con datos en forma de string es útil poder retirar los espacios en blanco y otros caracteres no deseados. Esto se puede hacer de forma sencilla con `str.strip()`. Este método retira todos los caracteres indicados a la derecha y a la izquierda de la string hasta que se topa con algún caracter deseado, es decir, que no le hayamos indicado. Veamos algunos ejemplos.

In [None]:
test = '            Jupyter      '
print(test)

new_test = test.strip()
print(new_test)

In [None]:
test = '#.Número. #12::'
print(test)

new_test = test.strip('#.:')
print(new_test)

Hasta ahora hemos utilizado el operador `+` con strings para juntarlas en una única string. Aunque Python permita esta sintaxis, realmente se recomienda utilizar el método `str.format()` para realizar esta clase de operaciones. Esto se debe a que dicho método nos ofrece numerosas ventajas:
* Nos permite dar formato automáticamente al texto. Eso nos da capacidad, por ejemplo, para elaborar tablas. Se puede leer más sobre [su sintaxis en la documentación](https://docs.python.org/3/library/string.html#formatstrings).
* Al tener una sintaxis más fácil de leer, resulta más sencillo trabajar cuando se quiere componer strings complejas.
* No es necesario cambiar de tipo de variable ningún objeto. Esto es muy cómodo.

Veamos un ejemplo de la sintaxis:

In [None]:
from string import ascii_lowercase

test = 'Jupyter Notebook es un entorno basado en una interfaz web.'

for char in ascii_lowercase:
    num = test.lower().count(char)
    if num:
        print('La letra {} aparece {} veces.'.format(char, num))

Por último, vamos a profundizar en la función `print()`. Aunque se ha ejecutado muchas veces, existen muchas funcionalidades de esta función que aún no se han trabajado. Vamos a ver dos de ellas. En primer lugar, `print()` admite cualquier número de elementos. Por defecto, estos elementos se sacarán por pantalla separados por un espacio `' '`. Lo segundo es que este separador podemos cambiarlo si así lo deseamos. Basta con utilizar el argumento `sep`. Este es un tipo de argumento diferente a los que hemos visto anteriormente, ya que tiene un nombre. Hasta ahora todos los argumentos que hemos visto eran posicionales, mientras que este se trata de un *key argument* y debe usarse con su nombre de la siguiente manera: 

In [None]:
# * print() con múltiples argumentos y sep
print(1, 2, 3)
print(1, 2, 3, sep=', ')

Que la función admita múltiples argumentos no quiere decir que una estructura de datos se trate como tal por `print()`. Por ejemplo, una lista es tratada como un único objeto de la clase `list`, por lo que se sacará en pantalla una representación de dicha lista, con corchetes y todo. Si queremos que los objetos de una lista sean tratados como elementos individuales debemos usar el operador `*` de una forma particular que nos sirve para "desempaquetar" nuestra lista. Esta utilidad es relativamente reciente, ya que fue introducida en la versión 3.5, pero se está extendiendo bastante debido a su comodidad. Se puede leer más en [estas notas de la versión 3.5](https://docs.python.org/3/whatsnew/3.5.html#whatsnew-pep-448). Veamos un ejemplo.

In [None]:
test = 'Jupyter Notebook es un entorno basado en una interfaz web.'
str_list = test.split(' ')

print(str_list)

print(*str_list)

# Trabajar con variables numéricas

Es común trabajar con rangos en los bucles. Existe una función de tipo `generator` llamanda `range()` que facilita enormemente la labor en este sentido y además es muy eficiente. Funciona con una sintaxis muy similar a la de los índices en las listas o las strings.

In [None]:
for x in range(10):
    print(x)

In [None]:
for x in range(1, 11):
    print(x)

In [None]:
for x in range(0, 11, 2):
    print(x)

También puede darse el caso de que necesitemos enumerar los elementos de un objeto iterable, como una lista, cuando trabajamos con él en un bucle. Para hacer esto fácilmente podemos usar la función interna `enumerate()`. Vamos a introducir aquí los bucles en los que se trabaja con dos variables al mismo tiempo. Los retomaremos cuando abordemos los diccionarios.

In [None]:
a_list = ['a', 't', 'x', 's', 'w', 'y']

for index, value in enumerate(a_list):
    print('Índice: {}; valor: {}'.format(index, value))

Aunque la mayoría de funciones especializadas para trabajar con números están en módulos como `math`, `numpy`, `scipy` o `sympy`, también existen algunas en el núcleo de Python. Por ejemplo, podemos redondear un número con `round()`, que nos devolverá el número entero más cercano; realizar fácilmente una sumatoria de una lista de números son `sum()` u; obtener el número más grande de una serie con `max()` o el menor con `min()`.

In [None]:
a = 2.57
b = 3.25
c = 6.78

print(round(a))
print(round(b))
print(round(c))
print(round(c, 1))

In [None]:
a_list = [a, b, c]

print(max(a_list))
print(min(a_list))

El módulo `math` viene con Python, por lo que sólo hace falta importarlo. Los demás módulos que hemos mencionado hay que instalarlos previamente con `pip` (véase el contenido de la sesión 1), aunque si se ha instalado Anaconda estos módulos ya los tendremos en nuestro sistema. Con `math` podemos satisfacer muchas de nuestras necesidades a la hora de trabajar con datos, así que merece la pena que veamos un par de ejemplos. De cualquier forma siempre podemos consultar la documentación de cualquiera de estos módulos para aprender más:
* [Documentación](https://docs.python.org/3/library/math.html) del módulo `math`.
* [Documentación](https://numpy.org/doc/1.18/reference/index.html) del módulo `numpy`.
* [Documentación](https://docs.scipy.org/doc/scipy/reference/) del módulo `scipy`.
* [Documentación](https://docs.sympy.org/latest/index.html) del módulo `sympy`.

Veamos cómo utilizar algunos de los recursos de `math`:

In [None]:
import math

a = 2.57
b = 3.25
c = 6.78

print(math.floor(a))
print(math.ceil(b))
print(math.sqrt(25))


Una de las cuestiones teóricas más importantes a tener en cuenta cuando trabajamos con números es el error de punto flotante. Este no es un problema de Python, sino que se aplica a cualquier lenguaje de programación y programa. Los números decimales en informática se representan internamente por fracciones de base 2. Por ejemplo, `0.001` está representado internamente por `0/2 + 0/4 + 1/8`. Existen dificultades para representar algunos números en fracciones de base 2, por lo que a veces se redondean estos valores para obtener un valor aproximado. Python reproduce hasta 16 dígitos numéricos (17 dígitos significativos), así que a partir de este punto se pierde precisión.

In [None]:
a = 0.9876543210987654821 # 21 dígitos
print(len(str(a)))
print(a)

print(1.2 - 1.0)
print(1 / 3)

Una explicación más detallada de este problema puede [leerse aquí](https://docs.python.org/3.8/tutorial/floatingpoint.html).

Hay diversas formas de abordar este problema. Una de las más recomendadas es usar el módulo `decimal`. Este módulo cuenta con una clase que permite alterar la precisión y ajustarla a las necesidades del usuario. Veamos un ejemplo.

In [None]:
from decimal import getcontext, Decimal

getcontext().prec = 16
print(Decimal(1) / Decimal(3))

getcontext().prec = 30
print(Decimal(1) / Decimal(3))

Otra forma es trabajar con `numpy`, que [gestiona los errores de punto flotante](https://numpy.org/doc/stable/reference/routines.err.html) de forma automática e incluso nos permite modificar esto.

# Trabajar con variables booleanas

Las variables booleanas nos permiten simplificar bastante nuestro código. Hay ciertas equivalencias que es conveniente conocer para ser eficientes cuando trabajamos con el control de flujo. En primer lugar, `0` es equivalente a `False` cuando trabajamos con bloques `if` y `while`. Cualquier número distinto de `0` es `True`.

In [None]:
a = 2
b = -2
c = 0

if a:
    print('{} es distinto de 0'.format(a))
if b:
    print('{} es distinto de 0'.format(b))
if c:
    print('esto no se va a sacar por pantalla')

x = 3
while x:
    print(x)
    x -= 1

Esto también se aplica para estructuras de datos. Cuando están vacías son equivalentes a `False` y en otro caso son equivalentes a `True`.

In [None]:
a_list = [0, 1, 2]
b_list = []
a_dict = dict() # Esta función es el constructor de diccionarios por excelencia

if a_list:
    print('La lista "a" no está vacía.')
else:
    print('La lista "a" está vacía')
    
if b_list:
    print('La lista "b" no está vacía.')
else:
    print('La lista "b" está vacía')
    
if a_dict:
    print('El diccionario "a" no está vacío.')
else:
    print('El diccionario "a" está vacío')

# Trabajar con listas

En la anterior sesión vimos la sintaxis más elemental para trabajar con las listas y el método `append()`. Este método nos permite añadir valores al final de una lista, pero en ocasiones vamos a necesitar añadir una serie de valores a la lista en lugar de un único valor. Para esto se utiliza el método `extend()` y funciona con cualquier iterable.

In [None]:
a_list = [6, 2, 'vr', 'wt']
b_list = ['foo', 'bar']

a_list.extend(b_list)
print(a_list)

En este caso hay que fijarse en algo muy importante. Al igual que `append()`, el método `extend()` no ha generado una copia de la lista que hemos guardado. Estos métodos modifican la propia lista, por lo que, tal y como se aprecia en el ejemplo, no es necesario guardar el resultado con un nombre nuevo. Si intentamos guardar el resultado obtendremos `None`, ya que estos métodos no devuelven nada, sino que cambian el objeto con el que se utilizan.

In [None]:
a_list = [6, 2, 'vr', 'wt']
b_list = ['foo', 'bar']

a = a_list.extend(b_list)
print(a)

Es un momento oportuno para aprender a borrar elementos de las listas. El método `remove()` sirve para este propósito, pero no es frecuente usarlo. Dada su utilidad, el método `pop()` es el que cumple esta función. Este método devuelve un elemento de la lista y lo elimina. Si le proporcionamos un índice, nos devuelve ese elemento, y si no se lo proporcionamos, devuelve el último elemento de la lista.

In [None]:
c_list = [6, 2, 'vr', 'wt', 'foo', 'bar']

while c_list: # Cuando esté vacía será equivalente a False
    c_list.pop() # En cada iteración, pop() elimina un elemento de la lista, es decir, la modifica
    
print(c_list) # En este punto la lista estará vacía

Si lo que necesitamos es contar las veces que aparece un determinado elemento en una lista, podemos hacerlo con el método `count()`. 

In [None]:
a_list = ['a', 'b', 'r', 'a', 'c', 'a', 'd', 'a', 'b', 'r', 'a']

num = a_list.count('a')
print(num)

Cabe la posibilidad de que tengamos un tipo de objeto iterable y nos venga bien convertirlo a una lista para poder aprovechar los métodos de la clase `list`. Esto se puede hacer con la función `list()`, que es el constructor por excelencia de esta clase. Esto nos puede servir, por ejemplo, para convertir los objetos iterables que nos devuelven los métodos `dict.keys()`, `dict.values()` y `dict.items()` o para convertir un tuple.

In [None]:
a_dict = {'a':21, 'b':99, 'c':78}
a_tup = (0, 9, 8, 7)

a_list = list(a_dict.values())
b_list = list(a_dict.items())
c_list = list(a_tup)

print(a_list)
print(b_list)
print(c_list)

Hay una cuestion acerca de las listas que resulta un tanto desconcertante. Veamos el siguiente fragmento de código.

In [None]:
a_list = [6, 2, 'vr', 'wt', 'foo', 'bar']
b_list = a_list

¿Lo que acabamos de hacer es crear una copia de la lista `a_list` en la lista `b_list`? Si esto fuera así, el siguiente código devolvería `[6, 2, 'vr', 'wt', 'foo', 'bar']`. Veamos lo que pasa.

In [None]:
while b_list:
    b_list.pop()

print(a_list)

Hemos vaciado `b_list` y después hemos sacado por pantalla `a_list`. ¿Cómo es posible que esté vacía `a_list`? Al trabajar con listas hay que tener en cuenta que la operación de la celda donde se definen las listas no supone que `b_list` sea una copia independiente de `a_list`. De hecho, cuando se hace esto lo que se genera es un *puntero*. Cuando creamos un puntero no asignamos un valor a una variable, sino que asignamos una posición en la memoria del ordenador. Esa posición en memoria que hemos guardado en `b_list` lleva a `a_list`, y esta es la razón por la que `a_list` es modificada cuando trabajamos con `b_list`. Es desconcertante encontrar esta figura en Python, puesto que no  es una figura frecuente en este lenguaje. Es más propia de otros lenguajes como C o C++. Veamos qué pasos hay que dar para realizar una copia de una lista.

In [None]:
a_list = [6, 2, 'vr', 'wt', 'foo', 'bar']
b_list = []

for x in a_list:
    b_list.append(x)

Este bucle sencillo nos sirve para crear una copia. Al final de este documento, en el apartado de comprehensiones, veremos una forma más eficiente de hacer esto mismo.

Por último, puede ser útil en algunos casos ordenar la lista con la que estamos trabajando. Esto se puede hacer de varias maneras, pero por ahora nos vamos a quedar con la función `sort()`. Este método [tiene muchas posibilidades](https://docs.python.org/3/howto/sorting.html#sortinghowto), pero requieren de un conocimiento profundo de los fundamentos de Python para aprender a definir la *clave* que ordena los objetos. Por ahora vamos a quedarnos con que nos sirve para ordenar listas con elementos homogéneos, tanto con variables numéricas como con caracteres de cualquier tipo. Hay que tener en cuenta que algunos caracteres, como la 'ñ', son tratados por `list.sort()` como caracteres que están detrás de los demás.

In [None]:
a_list = ['h', 't', 'a', 'g', 'p', 'ñ', 'n', 'm', 'o']
b_list = [6, 1, 8, 3, 6, 9]

a_list.sort()
b_list.sort()
print(a_list)
print(b_list)

In [None]:
b_list = [6, 1, 8, 3, 6, 9]

b_list.sort(reverse=True)

print(b_list)

# Trabajar con diccionarios

Lo más frecuente a la hora de trabajar con diccionarios es utilizar los objetos `dict_view`. Estos objetos son los que nos proporcionan los métodos `dict.keys()`, `dict.values()` y `dict.items`. Imaginemos que tenemos una lista de calificaciones de alumnos guardada en el siguiente diccionario.

In [None]:
notas = {'Demetrio':4.25,
        'Pedro': 7.7,
        'Vanesa': 7.7,
        'Beatriz': 6.2,
        'Alex':5.1
        }

Queremos, en primer lugar, sacar una lista de alumnos. Lo hacemos iterando sobre `dict.keys()`de la siguiente manera.

In [None]:
for name in notas.keys():
    print(name)

Ahora queremos saber cuántos alumnos han suspendido y cuántos han aprobado.

In [None]:
apro = 0
susp = 0
for cal in notas.values():
    if cal >= 5:
        apro += 1
    else:
        susp += 1
        
print('Aprobados: {}\nSuspensos: {}'.format(apro, susp))
        

Y, por último, queremos saber los alumnos que han aprobado y los que han suspendido, con su nota correspondiente.

In [None]:
for name, cal in notas.items():
    if cal >= 5:
        status = 'aprobado'
    else:
        status = 'suspendido'
        
    print('{} ha {}({}).'.format(name, status, cal))

Resulta que tenemos las actas de los alumnos repartidas entre dos ficheros excel. Hemos leído ambos. El primero ha dado como resultado el listado con el que hemos trabajado antes. Ahora hemos leído uno nuevo y lo hemos guardado de la siguiente manera:

In [None]:
new_dict = {'Claudia': 6.3,
           'Alberto': 6.3,
           'Demetrio': 5.0
           }

Se puede apreciar que el alumno 'Demetrio' sale de nuevo. Resulta que el hubo un error y su auténtica nota es 5.0. Para añadir los nuevos valores al diccionario original, y al mismo tiempo cambiar la nueva nota, podemos usar el método `dict.update()`.

In [None]:
notas.update(new_dict)

print(notas)

Para finalizar, queremos sacar un listado de alumnos ordenado de mayor a menor en función de su calificación. Para empezar tenemos que ordenar los elementos del diccionario. No es tan sencillo como en las listas, pero se puede hacer empleando el argumento `key` de la función `sorted()`. Esta función tiene un mecanismo muy similar al método `list.sort()`.

In [None]:
from operator import itemgetter

sorted_dict = sorted(notas.items(), key=itemgetter(1), reverse=True)
for pair in sorted_dict:
    print(pair)

El módulo `operator` proporciona una variada gama de herramientas relacionadas con los operadores de Python. Algunas de ellas nos sirven para cambiar el comportamiento de operadores que vimos en la primera sesión. En este caso hemos importado `operator.itemgetter()` que utilizamos como `key` para la función `sorted()`. Con `itemgetter()` lo que estamos haciendo es que `sorted()` utilice el elemento del índice `1` para ordenar los tuples que le hemos proporcionado con `dict.items()`. El segundo elemento de cada tuple, de índice `1`, es la calificación de los alumnos.

# Trabajar con ficheros

Hasta ahora hemos visto muchas herramientas para trabajar con datos. Parece que el siguiente paso lógico es poder obtener datos de ficheros para trabajar con ellos. Vamos a empezar con [ficheros de texto plano](https://es.wikipedia.org/wiki/Archivo_de_texto). Muchos de los ficheros con los que trabajamos a menudo son ficheros de texto plano. Por ejemplo, aquellos con extensión `.txt`, las bases de datos en formato `.csv` o los do-file de Stata. Para trabajar con esta clase de ficheros vamos a usar la función `open()`. El primer argumento de esta función es la ruta del archivo. El segundo es el modo. Si no indicamos modo, se usa el modo lectura.

| Modo | Descripción                                                       |
|------|-------------------------------------------------------------------|
| r    | Modo lectura, se usa por defecto.                                 |
| w    | Modo escritura, sobrescribe el archivo.                           |
| x    | Únicamente crea el archivo.                                       |
| a    | Modo escritura, escribiendo al final del archivo. No sobrescribe. |
| r+   | Abre un archivo para actualizarlo(lectura y escritura).           |



In [None]:
file = open('prueba.txt', 'r')

for line in file:
    print(line) # Podríamos limpiar los espacios en blanco con str.strip()
    
file.close()

In [None]:
file = open('data.csv', 'r')

lines = file.readlines()

headers = lines[0].strip().split(',')
print(headers)

data = []
for line in lines[1:]:
    data.append(line.strip().split(','))
    
print(data[0])

file.close() # Es necesario eliminar la instancia que hemos creado para liberar la memoria

Y ahora vamos a probar a escribir nuestra base de datos con la variable `serv` transformada.

In [None]:
for row in data:
    if row[1] == 'urgencias':
        row[1] = 0
    elif row[1] == 'hospital':
        row[1] = 1

file = open('new_data.csv', 'w')

file.write('{}\n'.format(','.join(headers)))

for row in data:
    """
    Para que str.join() funcione correctamente en una línea posterior es necesario
    transformar a string todas las variables de cada fila. Esto se puede hacer con
    el siguiente bucle, aunque hay maneras más eficientes, como veremos con las
    comprehensiones al final del documento.
    """
    str_row = [] # Vamos a crear una copia de nuestra base de datos para que la original no se vea modificada
    for item in row:
        str_row.append(str(item))
    
    final_row = ','.join(str_row)
        
    file.write('{}\n'.format(final_row))
    
file.close() # Es fundamental no olvidarse de esta línea si trabajamos de esta manera

Las celdas anteriores son ejemplos de cómo se trabaja con ficheros de texto plano en general. Aunque es bastante intuitiva y operativa, no es la forma más eficiente de trabajar. Para los formatos más comunes existen paquetes específicos, como para `csv` ([documentación del paquete](https://docs.python.org/3/library/csv.html)), que normalmente han sido optimizados y cuentan con pocos o ningún bug. Si vamos a trabajar con frecuencia con un determinado formato merece la pena aprender a usar su paquete, pero en caso contrario nos basta con saber escribir en ficheros de texto plano genéricos. Veamos una forma de hacer más eficiente la tarea de leer uno de estos ficheros.

In [None]:
with open('prueba.txt', 'r') as file:
    lines = file.readlines()

Haciendo uso del *statement* `with` no es necesario utilizar el método `close()` para destruir la instancia con la que estamos trabajando, ya que Python lo hace por nosotros. A partir de la primera línea, que inicia el bloque de código, podemos trabajar con el objeto `file` de la misma forma que en los ejemplos anteriores.

Los ficheros excel son muy frecuentes y es pertinente saber trabajar con ellos. Vamos a ver ahora dos paquetes relacionados con este formato. Con el primero, `xlrd`, leeremos un fichero de excel y con el segundo, `openpyxl`, escribiremos en un fichero de este tipo. Cabe destacar que vamos a trabajar con el formato más reciente de excel. Para trabajar con ficheros de formato `.xls` existen otros paquetes. Además de los métodos que se van a examinar aquí, se pueden consultar todos los recursos que nos proporcionan estos paquetes en los siguientes enlaces:

* [Documentación](https://xlrd.readthedocs.io/en/latest/api.html) del paquete `xlrd`.
* [Documentación](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.workbook.workbook.html) del paquete `openpyxl`.

In [None]:
import xlrd

file = './ejemplos/fusionar datos excel/database_1.xlsx'

wb = xlrd.open_workbook(file) # Se abre el fichero en la ruta especificada y se crea el objeto wb
sheet = wb.sheet_by_index(0) # Le indicamos la hoja que queremos leer con su índice y se crea el objeto sheet

En este ejemplo vamos a leer los valores de cada fila, pero podemos seleccionar cualquier rango de datos haciendo uso de los siguientes métodos:

* Para filas: `row_values(y)`.
* Para columnas: `col_values(x)`.
* Para celdas concretas: `cell_value(y, x)`.

Los dos primeros métodos nos devuelven listas con los valores que solicitamos y el último nos devuelve el valor de una celda. Otros métodos de este paquete nos devuelven objetos `cell`, que contienen más información, pero realmente lo que suele interesar son los valores. Como es habitual en programación, hay muchas formas de trabajar con este paquete. Yo os propongo la siguiente.

In [None]:
headers = sheet.row_values(0)
data = []

x = 1
while x < sheet.nrows:
    data.append(sheet.row_values(x))
    x += 1

print(headers)
print(data)

Vamos a transformar ligeramente los datos anteriores y a trasladarlos a una nueva base de datos. Para ello usaremos el segundo paquete: `openpyxl`.

In [None]:
from openpyxl import Workbook

wb = Workbook() # Se inicializa la clase Workbook y se crea el objeto wb
ws = wb.active # Se selecciona la hoja activa y se crea el objeto ws para empezar a trabajar

Ya hemos inicializado la clase y ahora únicamente tenemos que modificar los datos y añadirlos como si estuviéramos trabajando con listas. Esta forma tan cómoda e intuitiva de trabajar no se da en todos los paquetes de excel, así que es un punto positivo para usar `openpyxl`. Vamos a multiplicar por dos cada valor de la columna 2 (índice 1).

In [None]:
for row in data:
    row[1] *= 2

Los añadimos tal y como haríamos al trabajar con listas.

In [None]:
ws.append(headers) # Añadimos los metadatos

for row in data: # Añadimos los datos
    ws.append(row)

Y, por último, guardamos el fichero proporcionando una ruta al método `save()`.

In [None]:
wb.save('test.xlsx') # Si ya existe, el fichero se sobrescribirá

Independientemente del tipo de fichero con el que tengamos que trabajar, lo ideal es trabajar con un paquete específico diseñado para dicho formato. Antes o después el paquete nos permitirá trabajar con la información en listas, diccionarios u objetos similares. En este momento podremos aprovechar todo lo que hemos visto anteriormente.

Por último, si trabajamos con bases de datos, y especialmente si hemos trabajado antes con R, es muy conveniente aprender a utilizar el paquete `pandas`. La unidad de información fundamental con la que trabaja este paquete es el `DataFrame` y sigue una sintaxis idéntica a la de R. Para aprender más sobre `pandas` se puede consultar [su documentación](https://pandas.pydata.org/docs/reference/index.html), el [*Python Data Science Handbook*](https://jakevdp.github.io/PythonDataScienceHandbook/) y algunos [ejemplos](https://www.learnpython.org/es/Pandas%20Basics).  

# Funciones

Al igual que en el resto de lenguajes, en Python podemos definir nuestras propias funciones. Definir una función nos ayuda a modularizar nuestro código y evitar repetir ciertos fragmentos de código. Esto ayuda, también, a detectar mejor los errores, ya que es posible *rastrearlos* a través de las funciones. Para definir una función se usa `def` y posteriormente se indica el nombre que se le quiere dar. Inmediatamente después del nombre se hace constar, entre paréntesis, los argumentos que se prevé se van a usar. Tras cerrar los paréntesis hay que escribir dos puntos antes de empezar a escribir el resto de nuestra función. Veamos un ejemplo.

In [None]:
def nombre():

En el ejemplo anterior únicamente se ve el nombre. Esta función está incompleta, ya que le faltarían los argumentos, en caso de tenerlos, y la salida, que es fundamental. Por esta razón, si ejecutamos estas celdas nos saldrá un error. Hasta ahora hemos visto, a través de las funciones del núcleo de Python, dos tipos de argumentos. Los primeros son los argumentos posicionales. Como su propio nombre indica, se asignan en función de su posición y no es necesario indicar su nombre al usar la función, únicamente su valor. Esto se ve más claro con un ejemplo. Imaginemos que queremos hacer una función que eleve un número `x` a `n`. Dicha función debe tener dos argumentos. El primero, `x`, será la base de la potencia, y el segundo, `n`, será el exponente. La definición quedaría de la siguiente manera.

In [None]:
def potencia(x, n):

Para usar la función basta con usar su nombre y proporcionarle los argumentos necesarios (ejemplo: `potencia(5, 2)`). Es posible hacer que uno o más argumentos de nuestra función tengan un valor por defecto. De esta manera, si el usuario no introduce ese argumento, la función cogerá su valor por defecto. Para hacer esto seguiremos la siguiente sintaxis:

In [None]:
def potencia(x, n=0):

Si el usuario no introduce el exponente a la hora de usar la función (ejemplo: `potencia(5)` ), entonces este argumento, que en nuestra función está representado por `n`, será 0. Es posible que la función que tengamos en mente no prevea un número finito de valores, es decir, que la cantidad de argumentos posicionales sea indeterminada. Un ejemplo de esta lógica es la función `print()`, que como vimos antes puede aceptar cualquier número de argumentos para sacar por pantalla. Para hacer esto se utiliza el operador `*`. Cuando utilizamos este operador con un argumento en la definición de la función le indicamos a Python que ahí se encuentran todos los argumentos posicionales. Veamos ahora un ejemplo de cómo se definen estos argumentos y más adelante aprenderemos a trabajar con ellos.

In [None]:
def otro_print(*args):

La función anterior recibirá cualquier número de argumentos posicionales. El segundo tipo de argumentos que admiten nuestras funciones son los *key arguments*. Para usar estos argumentos con la función es necesario usar la palabra clave o nombre asociado a éstos, como hicimpos antes con la función `print()` al usar el argumento `sep`. Si estamos trabajando con cualquier número de argumentos posicionales (usando el operador `*`), podemos definir *key arguments* simplemente con su nombre. Veamos un ejemplo:

In [None]:
def otro_print(*args, sep=' ')

En la función anterior, el argumento `sep` por defecto tiene el valor `' '`, es decir, una string con un espacio en blanco. Se usaría en el código así: `otro_print('Otra', 'var', 'para', 'imprimir', sep=', ')`. Hay otras cuestiones relacionadas con los argumentos que son interesantes de cara a elaborar funciones, pero quizás exceden de la complejidad que debe tener este curso, así que vamos a omitirlo por ahora. Si alguien desea leer más, puede hacerlo [aquí](https://treyhunner.com/2018/04/keyword-arguments-in-python/).

Sigamos con el ejemplo de la potencia. Ahora vamos a añadirle algunas líneas para que nuestra función realice su cometido y a emplear `return` para indicar cuál es la salida de nuestra función, es decir, qué resultado va a devolver. El resultado de la función será todo lo que escribamos tras `return`. Hay que tener en cuenta que, una vez se ejecuta éste, la ejecución del código dentro de la función se detiene: no se ejecutará nada más dentro de la función tras un `return`. Además, para las funciones seguimos con la misma lógica de indentación que con otros bloques de código como aquellos que se inician con `for`, `while`, o `if`.

In [None]:
def potencia(x, n):
    y = 1
    
    while n > 0:
        y *= x
        n -= 1
        
    return y

print(potencia(2, 0))
print(potencia(2, 3))
print(potencia(3, 2))

Veamos ahora un ejemplo con un número indeterminado de argumentos posicionales. Básicamente la palabra clave que se utiliza, que en este caso es `args`, es una lista con los argumentos posicionales que se le van a dar a la función cuando se use, así que se puede trabajar con la sintaxis y los métodos propios de las listas.

In [None]:
def sumatoria(*args):
    result = 0
    
    for num in args:
        result += num
        
    return result

print(sumatoria(0, 1, 2, 3, 4, 5, 6))

Ahora vamos a ver un ejemplo de una función que usa un *key argument*. Esta función realiza la sumatoria de una serie de números, igual que en el ejemplo anterior, pero ahora hay un argumento llamado `mean`. Su valor por defecto es `False`, así que si el usuario no lo pone, el comportamiento de la función `sumatoria()` será el mismo que el de la función anterior. Sin embargo, si el usuario especifica `mean=True` al usar la función, el resultado no será la sumatoria, sino la media de los valores. Esto es así porque lo hemos especificado mediante una estructura de control de flujo condicional (`if` / `else`) y para cada posibilidad hemos previsto un resultado distinto (`return`).

In [None]:
def sumatoria(*args, mean=False):
    result = 0
    
    for num in args:
        result += num
    
    if mean:
        return result / len(args)
    else:
        return result

print(sumatoria(0, 1, 2, 3, 4, 5, 6))
print(sumatoria(0, 1, 2, 3, 4, 5, 6, mean=True))

Para aprender más sobre funciones se puede leer sobre:
* [Documentando funciones y otras partes del código](https://realpython.com/documenting-python-code/).
* [Recursividad](https://realpython.com/python-thinking-recursively/).

# Comprehensiones

Una de las novedades de la versión 3 de Python son las comprehensiones. Nos permiten comprimir bucles en una única línea con ciertas restricciones. Dan como resultado una estructura de datos, ya sea una lista, un tuple, un set o un diccionario. Veamos un ejemplo de comprehensión de lista para examinar su sintaxis.

In [None]:
a_list = []

for num in range(10):
    a_list.append(num)

print(a_list)

b_list = [num for num in range(10)]
print(b_list)

Como hemos visto, la sintaxis es como sigue: `[resultado for objeto in iterable]`. Pueden parecer complejas al principio, pero podemos optimizar nuestro código con este recurso. Por ejemplo, es la forma más eficiente de copiar una lista.

In [None]:
a_list = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

b_list = [x for x in a_list] # Esta es una lista diferente a la anterior

print(b_list)

Cabe la posibilidad de añadir condiciones al final de la comprehensión.

In [None]:
a_list = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

b_list = [x for x in a_list if x % 2 == 0] # Sólo selecciona los valores pares

print(b_list)

También existen comprehensiones de diccionario. Siguen la misma sintaxis, con la excepción de que hay que prever que los elementos de los diccionarios se estructuran en pares.

In [None]:
word = 'abcdef'

a_dict = {k:v for v, k in enumerate(word)}

print(a_dict)

# Control de errores

Existe una amplia teoría detrás de los errores en Python. Hay muchos tipos y casuísticas, por lo que no tiene sentido examinarlos todos: ahora mismo lo que más nos interesa es cómo lidiar con ellos. Lo principal para poder corregir errores es comprenderlos y comprender nuestro código. Cualquier tipo de error [está referenciado en la documentación de Python](https://docs.python.org/3/library/exceptions.html#concrete-exceptions). Si obtenemos un error que no conocemos es importante leer sobre él. Si aún con esto no somos capaces de dar con el problema del código, entonces podemos utilizar los recursos que nos proporciona Python para ayudarnos en nuestra búsqueda.

Normalmente los errores están relacionados con algún objeto que podemos sacar por pantalla con `print()`, así que es buena idea usar esta función para examinar qué valores toman nuestros objetos en momentos importantes de la ejecución del código.

In [None]:
a_list = [0, 1, 2]

x = 0
while x <= len(a_list):
    a_list[x] += 1
    x += 1

El código anterior da `IndexError`. Veamos la causa. Parece que el error tiene que ver con el índice. Vamos a introducir `print()` en el bucle para que nos muestre el índice `x` al final de cada iteración.

In [None]:
a_list = [0, 1, 2]

x = 0
while x <= len(a_list):
    a_list[x] += 1
    x += 1
    print(x)

Esta función nos muestra que el índice `x` en la iteración previa al error tiene un valor de 3. No existe en la lista un elemento con índice 3, así que ya hemos encontrado el error. ¿Cómo podemos solucionarlo? Si nos fijamos en el bucle, la condición que se usa en while es `x <= len(a_list)`. Si cambiamos el operador relacional por `<` conseguiremos que el bucle se detenga antes de que `x` sobrepase el último índice de la lista y el error se habrá solventado.

In [None]:
a_list = [0, 1, 2]

x = 0
while x < len(a_list):
    a_list[x] += 1
    x += 1

Vamos a terminar este apartado con uno de los mejores recursos de Python para la gestión de errores. El *statement* `try` nos permite reaccionar de una forma determinada si el bloque de código que le asignamos produce algún error. Incluso podemos hacer que la ejecución del código continúe a pesar del error. También sigue la lógica de indentación que utilizan otros bloques de código `if`, `for` o `while`.

In [None]:
a_list = [0, 1, 2]

try:
    x = 0
    while x <= len(a_list):
        a_list[x] += 1
        x += 1
except:
    print(x)

El código de la celda anterior se ejecutará con normalidad a menos que haya un error. Si hay un error se ejecutará el código que escribamos tras `except`. Es posible sacar por pantalla información sobre el error con la clase `Exception` de la siguiente manera

In [None]:
a_list = [0, 1, 2]

try:
    x = 0
    while x <= len(a_list):
        a_list[x] += 1
        x += 1
except Exception as E:
    print(x)
    print(E)

Se puede leer más sobre el *statement* `try` en [el siguiente enlace](https://docs.python.org/3/reference/compound_stmts.html#try).

# Eficiencia

* Tiempo de ejecución
* Complejidad algorítmica

Vamos a finalizar el curso con algunas nociones sobre eficiencia. Una de las formas de medir la eficiencia de un código es midiendo el tiempo de ejecución de un código. Se puede hacer de la siguiente manera:

In [None]:
from time import perf_counter as pc

t1 = pc() # Medimos el tiempo al principio
a_list = []
for num in range(10):
    a_list.append(num)
t1 = pc() - t1 # Medimos el tiempo al final y vemos la diferencia

t2 = pc()
b_list = [num for num in range(10)]
t2 = pc() - t2

print(t1)
print(t2)

La medición del tiempo no es del todo precisa y siempre cambia. A veces las variaciones son muy grandes, así que lo ideal es realizar varias mediciones y calcular el tiempo medio de ejecución, lo que puede hacerse de la siguiente forma:

In [None]:
from time import perf_counter as pc
from decimal import Decimal

t1_list = []
t2_list = []

for _ in range(90):
    t1 = pc() # Medimos el tiempo al principio
    a_list = []
    for num in range(10):
        a_list.append(num)
    t1 = pc() - t1 # Medimos el tiempo al final y vemos la diferencia
    t1_list.append(t1)

for _ in range(90):
    t2 = pc()
    b_list = [num for num in range(10)]
    t2 = pc() - t2
    t2_list.append(t2)

print(Decimal(sum(t1_list)/len(t1_list)))
print(Decimal(sum(t2_list)/len(t2_list)))

Otra forma de comparar la eficiencia de dos códigos que realizan la misma tarea es analizar su complejidad algorítmica. Un bloque de código que realice la misma tarea que otro y tenga menos complejidad algorítmica será más eficiente. Para aprender a analizar la complejidad de un bloque de código se puede leer sobre [la notación O grande](https://stackabuse.com/big-o-notation-and-algorithm-analysis-with-python-examples/).