# Secuencias y ficheros en python

Python proporciona una serie de estructuras de datos que nos permiten ordenar información.

En primer lugar vamos a introducir las listas, y los métodos y característias que tienen. Vamos a repasar los strings que pueden considerarse por sus características un caso de las listas.
Posteriormente introduciremos las tuplas y sets, y acabaremos viendo como podemos utilizar ficheros.

Dejaremos para el siguiente tema y por su importancia los diccionarios

En este tema nos vamos a centrar en entender el funcionamiento de las listas y de otro tipo de datos que tienen similitudes con las listas como son los strings. También veremos las tuplas y sets, y dejaremos para un capítulo específico los diccionarios.

Además introduciremos el trabajo con ficheros, que nos permitirá leer y escribir datos para conservarlos en nuestros sistemas de almacenamiento.


# Estructuras de datos en Python

Hemos visto los tipos de datos sencillos: ``int``, ``float``, ``complex``, ``bool``.
Python tiene también en su base varios tipos de datos compuestos, que pueden actuar como contenedores de datos para otros tipos.
Estos tipos de datos son los siguientes:

| Type Name | Example                   |Description                            |
|-----------|---------------------------|---------------------------------------|
| ``list``  | ``[1, 2, 3]``             | Ordered collection                    |
| ``tuple`` | ``(1, 2, 3)``             | **Immutable** ordered collection          |
| ``dict``  | ``{'a':1, 'b':2, 'c':3}`` | Unordered (key,value) mapping         |
| ``set``   | ``{1, 2, 3}``             | Unordered collection of **unique** values |

Como se puede ver en la tabla, los corchetes, llaves, y paréntesis diferencias el tipo de colección que se va a producirs.
Vamos a ver en este notebook las listas, tuplas y sets. Además aunque ya introdujimos el tipo string, como comparte características con las listas, lo repasaremos aquí y veremos más caracteristicas del mismo. 
Además acabaremos con ficheros, que nos ayudan atrabajar con estas estructuras y conservarlas en el almacenamiento de nuestros equipos, y hacerlas de esta manera persistentes.

# Listas
Las listas son el tipo de estructura de datos básico en Pyton, siendo una estructura *ordenada* y *mutable*..
Las listas se definen con valores separados por comas, en corchetes. Por ejemplo a continuación definimos una lista formada por varios números primos:

In [2]:
L = [2, 3, 5, 7]

Las listas tienen propiedades y pétodos muy útiles. Vamos a ver aquí algunos de los más comunes:

In [3]:
# Longitud de una lista
len(L)

4

In [4]:
# Añadir un valor al final de la lista
L.append(11)
L

[2, 3, 5, 7, 11]

In [5]:
# La "+" concatena listas
L + [13, 17, 19]

[2, 3, 5, 7, 11, 13, 17, 19]

In [6]:
# sort() nos permite ordenar la lista in-place
L = [2, 5, 1, 6, 3, 4]
L.sort()
L

[1, 2, 3, 4, 5, 6]

Como los métodos son bastantes es recomendable que sepas donde puedes encontrarlos en la documentación de Python [online documentation](https://docs.python.org/3/tutorial/datastructures.html).

Hemos visto hasta el momento ejemplos de listas en las que todos los valores eran del mismo tipo. Una de las características que tienen las listas es la capacidad de almacenar valores de cualquier tipo, e incluso de *varios tipos distintos a la vez*:

In [7]:
L = [1, 'two', 3.14, [0, 3, 5]]

Esta flexibilidad de nuevo se debe al tipado dinámico en Python. 

Hasta el momento hemos visto como manipular listas completas, pero otra de las caracteristicas de las listas es la capacidad de acceder a elementos individuales.
Esto se puede hacer en python usando dos mecanismos muy útiles como el *indexado* y el *slicing*, que veremos a continuación.

### Indexado y slicing en listas
Python proporciona acceso a los elementos de los tipos compuestos a traves de mecanismos como el *indexado* para acceder a un elemento, y el *slicing* para acceder a varios elementos.
Vamos a ver que los dos mecanismos se utilizan con una sintaxis basada en corchetes.

Vamos a verlo en práctica. Vamos a trabajar con la lista de números primos:

In [8]:
L = [2, 3, 5, 7, 11]

Python usa indexado *zero-based*, así que para acceder al primer elemento de nuestra lista tendriamos que utilizar la siguiente sintaxis:

In [9]:
L[0]

2

El acceso al segundo elemento se haría de la siguiente manera.

In [10]:
L[1]

3

PAra acceder a los elementos del final de la lista se puede utilizar indices negativos, comenzando por -1:

In [11]:
L[-1]

11

In [12]:
L[-2]

7

Para tratar de hacerlo más intuitivo vamos a visualizar el esquema de indexado:

![List Indexing Figure](./fig/list-indexing.png)

El *indexado* es la forma de accede a un valor de una losta. El *slicing* es la forma de acceder a varios valores a la vez.
El slicing utiliza de nuevo los corchetes, y se utilizan dos puntos para indicar el punto de inicio (inclusivo) y el punto de fin (no inclusivo) del array que queremos acceder.
Por ejemplo para acceder a los 3 primeros elementos de nuestra lista podriamos escribir:

In [13]:
L[0:3]

[2, 3, 5]

Fijaros dónde están el indice ``0`` y ``3`` en el diagrama, y como el slice selecciona los valores que están entre ambos índices.
Si no incluimos en el slicing el primer indice, se toma por defecto el índice ``0``, así que podriamos escribir:

In [14]:
L[:3]

[2, 3, 5]

De manera similar si dejamos fuera el último indice se toma por defecto la longitud de la lista.
Así que para acceder a los 3 últimos elementos de la lista podriamos utilizar:

In [15]:
L[-3:]

[5, 7, 11]

Por último, es posible especificar un tercer número que representará el paso, es decir una forma de seleccionar un slice, pero quedandonos con los elementos separados por ese paso. Por ejemplo para quedarnos con las posiciones pares de la lista podriamos usar lo siguiente:

In [16]:
L[::2]  # equivalent to L[0:len(L):2]

[2, 5, 11]

Un uso particular de estos pasos es el uso de un paso de -1, que daría como resultado un array ordenado a la inversa:

In [17]:
L[::-1]

[11, 7, 5, 3, 2]

El indexado y el slicing se pueden utilizar no solo para acceder a elementos, sino también para darles valores.
LA sintaxis sería la siguiente:

In [20]:
L[0] = 100
print(L)

[100, 3, 5, 7, 11]


In [21]:
L[1:3] = [55, 56]
print(L)

[100, 55, 56, 7, 11]


El slicing es un mecanismos que veremos repetido en librerias que utilizaremos más adelante como Numpy y Pandas.
Dado que manejar listas es muy importante vamos a ver más ejemplos de su funcionamiento:




## Checqueando si cierto elemento está en una lista

In [1]:
languages = ['Java', 'C++', 'Go', 'Python', 'JavaScript']

#if 'Python' in languages:
#     print('Python is there!')

bool = 'Python' in languages
bool    


True

In [2]:
if 6 not in [1, 2, 3, 7]:
    print('number 6 is not present')

number 6 is not present


## Las listas son mutables

In [24]:
original = [1, 2, 3]
modified = original
modified[0] = 99
print('original: {}, modified: {}'.format(original, modified))  #imprimimos las dos listas 

original: [99, 2, 3], modified: [99, 2, 3]


Como vemos al cambiar la lisra "original", y al ser las variables punteros a objetos, se modifica el objeto lista, y también cambia la variable "modified"

Para que este comportamiento no afecte se debería crear una nueva lista, lo que por ejemplo se podria hacer utilizando el contructor list(), o el metodo copy:

In [25]:
original = [1, 2, 3]
modified = list(original)               # fijaros que se usa list() 
# Alternativamente se podria utilizar el método copy
# modified = original.copy()
modified[0] = 99
print('original: {}, modified: {}'.format(original, modified))

original: [1, 2, 3], modified: [99, 2, 3]


Como veis no se está repitiendo el comportamiento anterior, dado que en este caso original y modified apuntan a diferentes objetos.

## `list.append()`

In [26]:
my_list = [1]
my_list.append('ham')
print(my_list)

[1, 'ham']


## `list.pop()`

In [82]:
my_list = ['Python', 'is', 'sometimes', 'fun']
my_list.pop()
print(my_list)
my_list.pop()
print(my_list)
my_list.pop(0)
print(my_list)

['Python', 'is', 'sometimes']
['Python', 'is']
['is']


## `list.remove()`

In [27]:
my_list = ['Python', 'is', 'sometimes', 'fun']
my_list.remove('sometimes')
print(my_list)

# If you are not sure that the value is in list, better to check first:
if 'Java' in my_list:
    my_list.remove('Java')
else:
    print('Java is not part of this story.')

['Python', 'is', 'fun']
Java is not part of this story.


## `list.sort()`

In [5]:
numbers = [8, 1, 6, 5, 10]
numbers.sort()
print('numbers: {}'.format(numbers))

numbers.sort(reverse=True)
print('numbers reversed: {}'.format(numbers))

words = ['this', 'is', 'a', 'list', 'of', 'words']
words.sort()
print('words:',words)

numbers: [1, 5, 6, 8, 10]
numbers reversed: [10, 8, 6, 5, 1]
words: ['a', 'is', 'list', 'of', 'this', 'words']


## `sorted(list)`
Mientras que `list.sort()` ordena la lista **in-place**, `sorted(list)` da como resultado una nueva lista y deja la original sin tocar:

In [29]:
numbers = [8, 1, 6, 5, 10]
sorted_numbers = sorted(numbers)
print('numbers: {}, sorted: {}'.format(numbers, sorted_numbers))

numbers: [8, 1, 6, 5, 10], sorted: [1, 5, 6, 8, 10]


**Esta diferencia entre la ejecución in-place, y la creacción de un nuevo objeto, o vista (en otras librerias que veremos), es importante!!**

## `list.extend()`

In [30]:
first_list = ['beef', 'ham']
second_list = ['potatoes',1 ,3]
first_list.extend(second_list)
print('first: {}, second: {}'.format(first_list, second_list))

first: ['beef', 'ham', 'potatoes', 1, 3], second: ['potatoes', 1, 3]


Una forma más común de realizar la operación de extensión es usar el operador "+":

In [23]:
first = [1, 2, 3]
second = [4, 5]
first += second  # same as: first = first + second
print('first: {}'.format(first))

# If you need a new list
summed = first + second
print('summed: {}'.format(summed))

first: [1, 2, 3, 4, 5]
summed: [1, 2, 3, 4, 5, 4, 5]


## `list.reverse()`

In [32]:
my_list = ['a', 'b', 'ham']
my_list.reverse()
print(my_list)

['ham', 'b', 'a']


# Tipo String
Ya vimos los strings cuando vimos los tipos sencillos en Python. Extrictamente lo son, pero también tienen características compartidas con las listas, que nos hacen verlas aquí de nuevo. También tienen una diferencia importante y es que los Strings son objetos **no mutables** a diferencia de las listas.

Los strings como vimos se crean con cadenas de caracteres entre comillas dobles o sencillas:

In [28]:
message = "what do you like?"
response = 'spam'

De nuevo se nos proporcionan métodos que son muy útiles, algunos de ellos específicos del tipo String, y otros compartidos con las listas

In [29]:
# length of string
len(response)

4

In [30]:
# Make upper-case. See also str.lower()
response.upper()

'SPAM'

In [31]:
# Capitalize. See also str.title()
message.capitalize()

'What do you like?'

In [32]:
# concatenation with +
message + response

'what do you like?spam'

In [33]:
# multiplication is multiple concatenation
5 * response

'spamspamspamspamspam'

Como en el caso de las listas se pueden realizar indexado, y slicing:

In [34]:
# Access individual characters (zero-based indexing)
message[0]

'w'

In [36]:
# Access groups of characters
message[0:4]

'what'

In [37]:
# Access groups of characters
message[-3:]

'ke?'

In [38]:
#Reverse with negative step
message[::-1]

'?ekil uoy od tahw'

Pero como hemos comentado los strings no son mutables A diferencia de las listas. Es decir si quisieramos ambiar algun elemento, obtendriamos un error:


In [41]:
message[2]="T"

TypeError: 'str' object does not support item assignment

A continuación veremos los métodos que existen para manipular listas.

# Manipulación de Strings y Expresiones Regulares (ReGex)

Una de las áreas en las que Python destaca es ek la manipulación de Strings. Posiblemente fue una de las áreas en las que se popularizó también como herramienta de scripting. Esta sección cubre alguna de los metodos de strings, y operaciones de formato, antes de avanzar en una guía rápida sobre *Expresiones Regulares*.
Estas operaciones de manipulación de Strings basadas en patrones, son de mucha utilidad en el contexto del trabajo de Data Science, y es una de las areas en las que Python destaca.

Los Strings pueden ser definidos en Python con comillas simples y comillas dobles (son equivalentes):

In [43]:
x = 'a string'
y = "a string"
x == y

True

Adicionalmente es posible definir strings multilinea usando comillas triples:

In [49]:
multiline = """
one
two
three
"""

## Manipulación de Strings 

Introdujimos anteriormente algunas métodos. pero ahora vamos a profundizar más.

### Formateando strings: Ajustando mayúsculas y minúsculas

Python hace muy sencillo manipular las mayúsculas y minúsculas en las cadenas de caracteres .
Vamos a ver algunos métodos como ``upper()``, ``lower()``, ``capitalize()``, ``title()``, y ``swapcase()``, utilizando la siguientes cadena como ejemplo:

In [26]:
fox = "tHe qUICk bROWn fOx."


Para convertir la cadena completa a mayúsculas o minúculas puedes usar los métodos ``upper()`` or ``lower()`` respectivamente:

In [51]:
fox.upper()

'THE QUICK BROWN FOX.'

In [52]:
fox.lower()

'the quick brown fox.'

Para poner en mayúscula la primera letra de cada palabra, o la primera letra de una frase, podremos utilizar los métodos ``title()`` y ``capitalize()``:

In [44]:
fox.title()

'The Quick Brown Fox.'

In [45]:
fox.capitalize()

'The quick brown fox.'

Las mayúsculas y minúculas pueden ser cambiadas con el método ``swapcase()``:

In [46]:
fox.swapcase()

'ThE QuicK BrowN FoX.'

### Formateando strings: añadiendo y quitando espacios

Otra necesidad bastante común es quitar espacios (u otros caracteres) del comienzo o el final de un string.
El método básico para quitar caracteres es ``strip()``, que elimina espacios en blanco del comienzo y el final de la linea:

In [56]:
line = '         this is the content         '
line.strip()

'this is the content'

Para eliminar espacios sólo a la derecha o a la izquierda de un string podemos usar ``rstrip()`` o ``lstrip()`` respectivamente:

In [57]:
line.rstrip()

'         this is the content'

In [58]:
line.lstrip()

'this is the content         '

Para eliminar otros caracteres se puede pasar dicho carácter al método ``strip()``:

In [47]:
num = "000000000000435"
num.strip('0')

'435'

Lo opuesto a esta operación de retirar caractéres sería añadirlos, lo que se puede hacerse añadiendo spacios u otros caracteres utilizando los métodos ``center()``, ``ljust()``, y ``rjust()``.

Por ejemplo, podemos usar ``center()`` para centrar un string usando un determinado número de espacios:

In [48]:
line = "this is the content"
line.center(30)

'     this is the content      '

De manera similar ``ljust()`` y ``rjust()`` justificarán a las derecha e izquierda al número de espacios en blanco que le indiquemos:

In [61]:
line.ljust(30)

'this is the content           '

In [62]:
line.rjust(30)

'           this is the content'

Todos estos métodos pueden aceptar cualquier carácter que se usará para rellenar el espacio:

In [63]:
'435'.rjust(10, '0')

'0000000435'

Dado que rellenar de ceros es una operación muy común,  Python proporciona el método ``zfill()``, que rellena con ceros un string hasta la longitud requerida:

In [64]:
'435'.zfill(10)

'0000000435'

### Busqueda y sustitución de substrings

Si quieres encontrar ocurrencias de un carácter o serie de caracteres en un string o sustituirlo, puedes utilizar los métodos ``find()``/``rfind()``, ``index()``/``rindex()``, y ``replace()``.

``find()`` e ``index()`` son dado que buscan la primera ocurrencia del caracter o substring proporcionado y devuelven el índice o posición donde se encuentra:

In [49]:
line = 'the quick brown fox jumped over a lazy dog'
line.find('fox')

16

In [50]:
line.index('fox')

16

La diferencia entre ámbos métodos es que el valor que devuelven cuando no encuentran  el substring que buscan. En el caso de ``find()`` se retorna un ``-1``, mientras que ``index()`` da lugar a un  ``ValueError``:

In [67]:
line.find('bear')

-1

In [68]:
line.index('bear')

ValueError: substring not found

``rfind()`` and ``rindex()`` funcionan de una manera similar salvo que buscan desde el final del string tratando de buscar la primera ocurrencia:

In [51]:
line.rfind('a')

35

Para ver si un string comienza o finaliza por un determinado substring Python proporciona los métodos ``startswith()`` y ``endswith()``:

In [52]:
line.endswith('dog')

True

In [53]:
line.startswith('fox')

False

Para ir un poco más allá, y reemplazar un determinado substring por otro, podemos utilizar el metodo  ``replace()``.
Vamos a reemplazar ``'brown'`` por ``'red'``:

In [54]:
line.replace('brown', 'red')

'the quick red fox jumped over a lazy dog'

``replace()`` devuelve un nuevo string, y reemplazará todas las ocurrencias de la entrada:

In [55]:
line.replace('o', '--')

'the quick br--wn f--x jumped --ver a lazy d--g'

For a more flexible approach to this ``replace()`` functionality, see the discussion of regular expressions in [Flexible Pattern Matching with Regular Expressions](https://jakevdp.github.io/WhirlwindTourOfPython/14-strings-and-regular-expressions.html#Flexible-Pattern-Matching-with-Regular-Expressions).

### Splitting strings

Si queremos encontrar un determinado substring y después dividir/splitear el string basado en su localización, los métodos ``partition()`` y/o ``split()`` son los que usaremos.
Ambos retornarán una secuencia  de substrings.

``partition()`` dará como resultado una **tupla** con tres elementos: el substring antes del punto de división, el string que define el punto de división, y el substring posterior. Lo vemos con un ejemplo:

In [56]:
line.partition('fox')

('the quick brown ', 'fox', ' jumped over a lazy dog')

``rpartition()`` es similar, pero inicia la búsqueda desde la derecha del string.

El método ``split()`` probablemente es más útil porque busca *todas* las instancias del string que define el punto de división, y devuelve los substrings que se encuentran entre esos puntos.
La opción por defecto es splitear usando un espacio en blanco, y esto retornará una **lista** de las palabras del string:

In [75]:
line.split()

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

Un método similar es ``splitlines()``, que divide utilizando los caracteres de salto de linea:

In [57]:
haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""

haiku.splitlines()

['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']

Si queremos deshacer un ``split()``, podemos utilizar ``join()``, que devuelve un string construido a partir de un splitpoint y un iterable:

In [58]:
'--'.join(['1', '2', '3'])

'1--2--3'

Un caso muy común es usar el carácter de salto de lines``"\n"`` para unir de nuevo lineaa que han sido previamente separadas, y recuperar la entrada inicial:

In [59]:
print("\n".join(['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']))

matsushima-ya
aah matsushima-ya
matsushima-ya


## Formateando strings

Los métodos anteriores nos permiten manipular strings para cambiarlas de la manera deseada. Otro uso de los métodos de strings es manipular **representaciones** de valores de otros tipos.
Estas representaciones siempre se pueden generar utilizando el método o constructor ``str()``, como por ejmplo vemos en el siguiente caso:

In [60]:
pi = 3.14159
str(pi)

'3.14159'

Para formatos más complejos, o que queramos ajustar más podremos utilizar algo de aritmética de strings como hemos visto anteriormente:

In [80]:
"The value of pi is " + str(pi)

'The value of pi is 3.14159'

En cualquier caso una forma más flexible de hacer esto es utilizar las capacidades de *format strings*, que son strings con marcadores especiales (definidos por llaves) en los que se insertarán valores de otros tipos formateados como strings.
Aquí vemos un ejemplo sencillo:

In [81]:
"The value of pi is {}".format(pi)

'The value of pi is 3.14159'

Dentro de las llaves ``{}``  también se puede incluir información sobre lo que queremos mostrar. Por ejemplo si se incluyen números se considerará que son los índices de los argumentos que hay que insertar:

In [1]:
"First letter: {0}. Last letter: {1}.".format('A', 'Z')

'First letter: A. Last letter: Z.'

Si se incluye un string se referirá a la clave del argumento correspondiente:

In [61]:
"First letter: {first}. Last letter: {last}.".format(last='Z', first='A')

'First letter: A. Last letter: Z.'

Finalmente para entradas numéricas se pueden incluir códigos de formato que permiten manejar el formato con el que el valor numérico se convierte a string para su representación.

Por ejemplo si queremos imprimir un número como un número decimal, con tres posiciones decimales después del punto, podemos utilizar lo siguiente:

In [62]:
"pi = {0:.3f}".format(pi)

'pi = 3.142'

Como antes el "``0``" indica el índice del valor a ser insertado
Los "``:``" indican que lo siguiente es un código de formato.
El "``.3f``" indica la precisión y el formato.

Este tipo de formato es muy flexible y esto es un ejemplo muy sencillo. Para aprender más al respecto es interesante acudir a la documentación online de Python que [ especifica estos Formatos](https://docs.python.org/3/library/string.html#formatspec) 

# Tuplas
Las tuplas son similares a las listas, pero se definen en este caso con paréntesis:

In [63]:
t = (1, 2, 3)

También se pueden definir sin paréntesis

In [65]:
t = 1, 2, 3
print(t)

(1, 2, 3)


Como en el caso de las listas, las tuplas tienen un atributo de longitud, y se puede acceder a los elementos individuales utilizando indices entre corchetes:

In [66]:
len(t)

3

In [69]:
t[0]

1

La característica que distingue de una manera más importante a listas y tuplas, es que las tuplas son **immutables**: es decir, una vez que son creadas su longitud y contenido no puede ser cambiado:

In [70]:
t[1] = 4

TypeError: 'tuple' object does not support item assignment

In [71]:
t.append(4)

AttributeError: 'tuple' object has no attribute 'append'

Las tuplas se utilizan habitualmente en Python. Es habitual que funciones que devuelven varios valores los retornen en forma de tupla.
Por ejemplo el método ``as_integer_ratio()`` de los float devuelve un numerador y un denominador , y lo hace en forma de tupla:

In [39]:
x = 0.125
x.as_integer_ratio()

(1, 8)

Estos valores pueden ser asignados a variables individuales como se muestra a continuación:

In [40]:
numerator, denominator = x.as_integer_ratio()
print(numerator / denominator)

0.125


La lógica de indexado y slicing que aplicaba a las listas funciona igual para las tuplas, así como otros métodos. Puedes consultar la [documentación de Python](https://docs.python.org/3/tutorial/datastructures.html) para una lista completa.

# Sets

La tercera colección básica son los Sets, que contienen datos no ordenados, y cuyos valores no se repiten.
Se definen como las listas o las tuplas, pero en este caso utilizaremos llaves:

In [30]:
primes = {2, 3, 5, 7}
odds = {1, 3, 5, 7, 9}

Los Sets tienen una serie de operaciones típicas como la unión, intersección, diferencia, diferencia simétrica y otras.
Python tiene estas operaciones por defecto como métodos y como operadores. Vamos a mostrar los dos métodos para las distintas operacioens:

In [31]:
# union: items appearing in either
primes | odds      # with an operator
primes.union(odds) # equivalently with a method

{1, 2, 3, 5, 7, 9}

In [32]:
# intersection: items appearing in both
primes & odds             # with an operator
primes.intersection(odds) # equivalently with a method

{3, 5, 7}

In [33]:
# difference: items in primes but not in odds
primes - odds           # with an operator
primes.difference(odds) # equivalently with a method

{2}

In [34]:
# symmetric difference: items appearing in only one set
primes ^ odds                     # with an operator
primes.symmetric_difference(odds) # equivalently with a method

{1, 2, 9}

Hay otros métodos disponibles, que puedes ver en la [documentación online ](https://docs.python.org/3/library/stdtypes.html) for a complete reference.