# Introducción a la ciencia de datos con Python 
###  Rafa Caballero 

## Estructuras de datos: listas, tuplas, strings, conjuntos y diccionarios


### Índice

[Secuencias](#Secuencias)<br>
[Conjuntos](#Conjuntos)<br>
[Diccionarios](#Diccionarios)<br>

Los enteros, reales, booleanos o caracteres son datos simples. Sin embargo, los lenguajes de programación ofrecen también la posibilidad de agregar varios de estos datos simples en estructuras que pueden manejarse como una unidad: almacenarse en variables, mostrarse por pantalla, etc.


<img src="https://github.com/RafaelCaballero/tdm/blob/master/images/python-data-types.png?raw=true">


<a name="Secuencias"></a>
## Secuencias

[Operadores para secuencias](#Operadores-para-secuencias)<br>
[Listas](#Listas)<br>
&emsp;[Acceso por índice](#Acceso-por-índices)<br>
&emsp;[Funciones de listas](#Funciones-de-listas)<br>
&emsp;[Copias de listas: ¡ojo!](#Copia-de-listas)<br>
[Tuplas](#Tuplas)<br>
[Strings](#Strings)<br>


Las secuencias son sucesiones de elementos (no necesariamente del mismo tipo). Son principalmente listas (entre corchetes [1,2,3]), tuplas (entre paréntesis) y strings (entre comillas), y tienen características comunes

- Se puede hablar de la posición o índice de un elemento (siempre empezando desde 0)
- Se pueden recorrer secuencialmente
- Se pueden extraer subsecuencias

Todo esto hace que tengan numeras funciones comunes, aunque luego veremos que cada una tiene sus particularidades

<a name="Operadores-para-secuencias"></a>
### Operadores para secuencias

En este apartado vemos los operadadores comunes a todas las secuencias aplicados a las tuplas. Los mismos operadores, sin ningún cambio son aplicables a listas y a strings.



#### **Concatenación con + y ***

El operador + *concatena* dos secuencias

In [1]:
(1,2,3) + ( 4 ,5)  

(1, 2, 3, 4, 5)

In [2]:
"hola "+"mundo"

'hola mundo'

El operador * repite una secuencia una cantidad de veces

In [3]:
(1,2,3)*4

(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3)

Resulta muy útil para ahorrarse escribir en algunas ocasiones:

In [4]:
print("-"*30)

------------------------------


#### **Acceso por índice**

El operador `[i]` permite acceder al i-ésimo elemento (i una expresión que devuelve un entero). Hay que tener en cuenta que el primer elemento es el que ocupa la posición 0, el segundo la posición 1, etc. Si el índice `i`es un valor negativo empieza a contar desde el final, siendo el -1 el primer elemento desde el final (es decir, el ultimo elemento de la secuencia)

In [5]:
#     0  1  2   posiciones desde el principio
#    -3 -2 -1   posiciones desde el final
t = (10,20,30)

print(t[0],t[-3])

10 10


**Ej.** ¿Qué ocurre aquí?

In [7]:
(1,2,3)[3]

3

**Nota**: dentro del acceso por posición nos falta la extracción de subsecuencias por posiciones consecutivas también llamadas slices, las veremos en seguida

#### **len( )** nos dice el número de elementos en la secuencia.

In [8]:
ventas = (10,30,50,1,7,20)
len(ventas)

6

####**in** y **not in**

Los operadores relacionales infijos *in* y  *not in* sirven para determinar si un elemento está o no en una secuencia

In [9]:
x = (1,2,3)
print(2 in x)
print(5 not in x)
print(5  in x)

True
True
False


In [10]:
ventas = (10,30,50,1,7,20)
print(7 in ventas)

True


#### **all**, **any**: secuencias de booleanos

La función predefinida `all` indica si todos los elementos de una secuencia son ciertos (valores True), es como una generalización del `and`

In [11]:
all( (True, False, True))

False

In [None]:
all((True, True, True))

In [12]:
any( (True, False, True))

True

In [None]:
any( (False, False, False))

**Ejercicio 1** Penar el significado de las siguientes expresiones en función del valor de s

In [13]:
s = (True, False, True) # pensarlo en general, no para este valor concreto
print(not all(s))
print(not any(s))

True
False


#### **Otras funciones para secuencias**

También se pueden utilizar otras funciones como

- min(mySeq), max(mySeq): devuelve el menor y el mayor elemento de mySeq, respectivamente.

- x *in* mySeq: devuelve True o False según si x aparece o no en MySeq

- mySeq.*index*(x): devuelve la posición (empezando desde 0) de la primera ocurrencia del valor x en la secuencia mySeq, o un error si no x no aparece.  Si se quiere evitar el error mejor emplear el operador *in* dentro de una instrucción *if*. 

    
- mySeq.count(x): devuelve el número de apariciones del valor x en mySeq.

En el caso de secuencias cuyos elementos son todos enteros **min( )** y **max( )**  nos dará el minimo y el máximo de la secuencia.

In [None]:
num = (100,200,600,300,400)
min(num), max(num)


Si la lista contiene cadenas de caracteres,  **max( )** devolverá el string mayor según el orden alfabético, mientras que  **min( )**  devolverá el menor (primero en orden alfabético). 

Si lo que se desea es que  **max( )** devuelva el string de mayor longitud se puede añadir el parámetro  'key=len'.

Sean string o enteros, tanto **max** como **min** devuelven el elemento de menor índice en el caso de elementos repetidos.

In [14]:
herramientas = ('tornillos','tuercas','arandelas') 
print(max(herramientas, key=len))
print(min(herramientas, key=len))

tornillos
tuercas


**index( )** permite encontrar la posición en la que aparece la primera aparición de un cierto elemento. Si se le pasa un segundo parámetro, éste especifica la posición inicial desde la que buscar. Si solo hay un parámetro se busca desde el primero.

Ojo porque si el elemento no está se devolverá una excepción, es decir se producirá un error.

In [15]:
s = (1,1,4,8,7)
print(s.index(7))
print(s.index(4,5))

4


ValueError: tuple.index(x): x not in tuple

Para evitar que se lance la excepción se recomienda preguntar si el elemento está 


In [16]:
if 5 in s[5:]:
    print(s.index(4,5))
else:
    print("No está")


No está


In [17]:
# otra forma, menos eficiente
if s[4:].count(5)>0:
    print(s.index(4,5))
else:
    print("No está")


No está


**Ejercicio 2** ¿Qué mostrará la siguiente expresión (pensar antes de ejecutar)?

In [18]:
s = (2,2,4,8,7)
s.index(2,1)

1

**count( )** permite contar el número de repeticiones de una elemento en una secuencia. 

In [19]:
"abracadabra".count("a")

5

#### **Slices**

El acceso mediante índices nos permite acceder a un elemento concreto. Si lo que queremos es acceder a varios  elementos consecutivos a la vez, tendremos que emplear *slicing* representado por el operador :.
Este operador extrae una subsecuencia de la secuencia

Al hacer slicing usaremos la notacion s[ ini : fin ], con ini la posición del primer elemento a seleccionar (incluido)  y fin el último elemento (excluido). 
Si `ini`  o `in no se definen, entonces se asume que se trata del primero (si falta a), y el último (si falta b)


    s[ini:fin]  # elementos desde ini hasta fin -1
    s[ini:]      # desde ini hasta el final
    s[:fin]       # desde el principio hasta fin-1
    s[:]           # copia la secuencia
    s[ini:fin:step] # desde ini sin llegar ni pasar de fin, saltando step


In [20]:
num = (0,1,2,3,4,5,6,7,8,9)

In [21]:
print(num[0:4])
print(num[4:])

(0, 1, 2, 3)
(4, 5, 6, 7, 8, 9)


También podemos hacer 'rodajas saltarinas', añadiendo el tamaño del salto, de nuevo meidante el operador :

In [22]:
num[0:9:3]

(0, 3, 6)

Si no se especifica el final del intervalo se entiende que sigue hasta el último elemento, y si no se especifica el primero que comienza desde el principio de la secuencia:

In [None]:
num[1:]

In [None]:
num[:6]

**Ejercicio 3** ¿qué devolverá este código?

In [23]:
num[-3:-1]

(7, 8)

<a name="Listas"></a>
### Listas

La estructura más común en Python. Podemos pensar en las listas como secuencias de elementos de cualquier tipo que se pueden modificar. Se escriben entre corchetes, con sus componentes, o elementos, separados por comas. 

Como toda secuencia las listas están ordenadas: cada elemento tiene una posición, comenzando desde 0, que podremos utilizar para acceder a él.

Comencemos por la lista más simple, la lista con 0 elementos:

In [24]:
soyunalistavacia = []
print(soyunalistavacia, type(soyunalistavacia))

[] <class 'list'>


Una lista con elementos de tipos diferentes

In [25]:
soyunalistaNovacia = [5,"si", True,"vaya"]
print(soyunalistaNovacia, type(soyunalistavacia))

[5, 'si', True, 'vaya'] <class 'list'>


Una lista con strings:

In [26]:
herramientas = ['tornillos','tuercas','arandelas']
print(herramientas)

['tornillos', 'tuercas', 'arandelas']


<a name="Acceso-por-índices"></a>
#### Acceso por índices

Como hemos dicho, los índices en Python empiezan en 0. Por tanto en una lista de 2 elementos podemos hablar del elemento en la posición 0, o primer elemento, y del elemento en la posición 1, o segundo elemento

In [None]:
herramientas[0]

También hemos visto una particularidad de Python: además de empezar a contar desde el principio, también podemos hacerlo comenzando desde el final. El indice del último elemento es -1, el del penúltimo -2, y así sucesivamente.

In [27]:
herramientas[-1]

'arandelas'

En la variable herramientas, de 3 elementos, herramientas[0] = herramientas[-3], herramientas[1] = herramientas[-2] y herramientas[2] = herramientas -1. 


Ahora vamos a combinar la lista herramientas con una lista de utensilios en una nueva lista, `caja`. Este procedimiento de listas anidadas es muy común.

In [28]:
herramientas = ['tornillos','tuercas','arandelas']
utensilios = ['martillo','sierra']
caja  = [herramientas,utensilios]
print(caja)

[['tornillos', 'tuercas', 'arandelas'], ['martillo', 'sierra']]


**Ejercicio 4**

-¿Cuantos elementos tiene la lista `caja`?

-¿Cómo se accedería al 'martillo'?

In [29]:
#Solución
# núm elementos de caja:
# print ....

print(len(caja))
print(caja[1][0])


2
martillo


<a name="Funciones-de-listas"></a>
#### Funciones de listas

Recordemos para comenzar que todas las funciones vistas para secuencias están disponibles para listas.

Por ejemplo, en ocasiones estaremos interesados en saber si un elemento particular aparrece en la lista

In [32]:
herramientas = ['tornillos','tuercas','arandelas']

En este caso podemos usar el operador **in** devuelve un booleano que indica si el elemento está en la lista

In [30]:
'tornillos' in herramientas

True

In [31]:
'clavos' in herramientas

False

##### **append( )** en cambio es específica para listas: se utiliza para añadir elementos al final de una lista. Nos será muy útil.

In [34]:
lst = [1,1,4,8,7]

In [35]:
lst.append(66)
print(lst)

[1, 1, 4, 8, 7, 66]


**Ejercicio 5**
Añadir 'clavos' a las herramientas

In [36]:
herramientas = ['tornillos','tuercas','arandelas']
# sol.
herramientas.append('clavos')
# para ver si hemos añadido bien los clavos...
herramientas

['tornillos', 'tuercas', 'arandelas', 'clavos']

**Ejercicio 6** (algo más difícil). Ahora queremos añadir igual los clavos a la caja de herramientas, tras las arandelas

In [38]:

caja  = [['tornillos','tuercas','arandelas'],['martillo','sierra']]

# solución
caja[0].append('clavos')

# para ver si hemos añadido bien los clavos
caja

[['tornillos', 'tuercas', 'arandelas', 'clavos'], ['martillo', 'sierra']]

**append( )** también permite añadir una lista al final de otra, pero ojo, la lista se añadirá como una lista anidada.

In [39]:
lst = [1,1,4,8,7]
lst1 = [5,4,2,8]
lst.append(lst1)
print(lst)

[1, 1, 4, 8, 7, [5, 4, 2, 8]]


Si se quieren añadir todos los elementos de la lista, pero no de forma anidada sino como si se repitiera **append** muchas veces, podemos usar **extend( )**.

In [40]:
lst = [1,1,4,8,7]
lst1 = [5,4,2,8]
lst.extend(lst1)
print(lst)

[1, 1, 4, 8, 7, 5, 4, 2, 8]


In [41]:
print(lst)

[1, 1, 4, 8, 7, 5, 4, 2, 8]


**insert(x,y)** permite insertar un elemento *y* en la posición *x*, al contrario que **append( )**, que solo inserta al final. 

In [42]:
lst.insert(5, 'name')
print(lst)

[1, 1, 4, 8, 7, 'name', 5, 4, 2, 8]


**insert(x,y)** inserta pero no reemplaza, es decir la lista aumenta su longitud en uno. Si lo que se requiere es reemplazar, no necesitamos una función especial, sino acceder directamente a la posición y asignar el valor deseado:

In [43]:
lst[5] = 'Python'
print(lst)

[1, 1, 4, 8, 7, 'Python', 5, 4, 2, 8]


**pop( )** elimina y devuelve el último elemento de la lista. Esto permite utilizar las listas como si fuera el tipo abstracto de datos pila al ser el inverso de `append`

In [None]:
lst.pop()

Pop también se puede utilizar para eliminar un elemento concreto.

In [44]:
print(lst)
x = lst.pop(0)
print('eliminado ',x)
print(lst)

[1, 1, 4, 8, 7, 'Python', 5, 4, 2, 8]
eliminado  1
[1, 4, 8, 7, 'Python', 5, 4, 2, 8]


**Nota**: Obsérvese la diferencia entre las funciones **pop( )** y **remove()**: mientras que la primera elimina un elemento por su posición,  la segunda lo hace buscando la primera aparición del elemento en la lista. 

In [45]:
lst = ["Java","R","Python","C++"]
lst.remove('Python')
print(lst)


['Java', 'R', 'C++']


Otra forma de borrar a partir de la posición es **del**

In [46]:
del lst[1]
print(lst)

['Java', 'C++']


Si queremos dar la vuelta a toda la lista utilizaremos la función  **reverse()**.

In [47]:
lst = [10,[20,21,22],30]
lst.reverse()
print(lst)

[30, [20, 21, 22], 10]


###### Pregunta: ¿Por qué la lista [20,21,22] no se ha invertido?

In [None]:
# respuesta:  

###### **Ejercicio 7** (algo difícil): ¿Cómo encontrar la última posición en la que aparece un elemento p en una lista l?

In [None]:
# Solución: máximo 3 instrucciones
p = 5
l = list([3,5,5,6,7,5,8])

#
#


La función predefinida **sort( )** permite ordenar los elementos en orden ascendente (de menor a mayor).

In [49]:
l.sort()
print(l)

[3, 5, 5, 5, 6, 7, 8]


El parámetro *reverse* indica en qué sentido se ordena. Por defecto vale False, indicando que va de menor a mayor. Si lo ponemos a True el orden será de mayor a menor (descendente).

In [50]:
l.sort(reverse=True)
print(l)

[8, 7, 6, 5, 5, 5, 3]


En el caso de listas de strings, **sort( )** funciona de forma análoga, incluyendo la positibilidad de poner *reverse=True* para orden descendente.

In [51]:
herramientas = ['tornillos','tuercas','arandelas']
herramientas.sort()
print(herramientas)
herramientas.sort(reverse=True)
print(herramientas)

['arandelas', 'tornillos', 'tuercas']
['tuercas', 'tornillos', 'arandelas']


Para ordenar por longitud usaremos **key=len**:

In [52]:
herramientas.sort(key=len)
print(herramientas)
herramientas.sort(key=len,reverse=True)
print(herramientas)

['tuercas', 'tornillos', 'arandelas']
['tornillos', 'arandelas', 'tuercas']


<a name="Copia-de-listas"></a>
#### Copias de listas: ¡ojo!

Este es un error común cuando se comienza a programar en Python. Consideramos la lista:

In [54]:
lista= [2,1,4,3]

In [55]:
listb = lista
print(listb)

[2, 1, 4, 3]


Hasta aquí nada sospechoso:
* Hemos creado una lista, lista = [2,1,4,3]. 
* También hemos creado listb como una copia de lista, obtenida usando la asignación.


Ahora jugamos un poco con lista:

In [56]:
print(lista)
lista.extend([9,10,11,12])
print(lista)
lista.pop()
print(lista)

[2, 1, 4, 3]
[2, 1, 4, 3, 9, 10, 11, 12]
[2, 1, 4, 3, 9, 10, 11]


In [57]:
print(listb)

[2, 1, 4, 3, 9, 10, 11]


listb también ha cambiado ¡¡pero si no la hemos tocado!!

Esto es porque las variables tipo lista son *punteros*. Es decir en el caso de estructuras complejas, como las listas la variable no contiene los datos, como sí ocurría con los enteros, sino *la dirección de memoria donde se aloja la estructura*. Así que la asignación `listab = lista`, solo copia en `listab` la dirección de memoria de `lista`; ambas "apuntan" a la misma estructura. Por tanto no hemos copiado la lista, solo hemos creado otro alias para la lista. En Python a las variables que se guardan como punteros se les llama *mutables*

<img src="https://csharpcorner-mindcrackerinc.netdna-ssl.com/article/python-datatypes/Images/pd12.png">

¿Cómo conseguir una copia auténtica? El truco nos lo da el operador de slicing, :. Recordemos que devuelve una sublista dadas una posición inicial y final. Al hacer, : crea esta sublista como una lista nueva, es decir, *realmente copia los elementos*. 

Así que podemos hacer:

In [58]:
lista = [2,1,4,3]

In [59]:
listb = lista[:] # al no indicar inicio ni fin es la lista completa
print(listb)

[2, 1, 4, 3]


In [60]:
print(lista)
lista.extend([9,10,11,12])
print(lista)
lista.pop()
print(lista)

[2, 1, 4, 3]
[2, 1, 4, 3, 9, 10, 11, 12]
[2, 1, 4, 3, 9, 10, 11]


In [61]:
print(listb)

[2, 1, 4, 3]


Otra forma de lograr lo mismo es con la función *copy()*

In [62]:
lista = [2,1,4,3]
listb = lista.copy()
lista[3]=7
print(lista,listb)

[2, 1, 4, 7] [2, 1, 4, 3]


<a name="Tuplas"></a>
### Tuplas

Ya hemos visto las tuplas son similares a las listas, pero con la diferencia de que sus elementos no pueden ser modifiados. Para entender mejor su utilidad, vamos a ver un ejemplo basado en  la función **divmod()**, que devuelve tanto el cociente como el resto de una división.

In [63]:
xyz = divmod(10,3)
print(xyz)
print(type(xyz))

(3, 1)
<class 'tuple'>


Divmod devuelve una tupla porque se trata de valores fijos, que no se espera que sean modificados..

Para hacer que una variable sea de tipo tupla se puede o bien asignarle ( ) o *tuple( )*.

In [64]:
tup = ()
tup2 = tuple()

Tambíen se puede asignar directamente con sus valores:

In [None]:
x = 4.5
y = 18.0
punto = (x,y)
print(punto)

Un caso curioso es la creación de tuplas de un solo elemento. 
Si escribimos por ejemplo x = (66), esto creará la variable x como el valor
entero 66, ya que considera que son los paréntesis de una expresión aritmética. En lugar de eso se emplea el truco de poner una coma al final, para avisar de que es una tupla

In [65]:
v = 66,
print(v)

(66,)


Puede pensarse que al fin y al cabo 66 como entero o 66 como tupla da igual, se trata del mismo número. Esto no es cierto porque el comportamiento de operadores como * cambia si se trata de una tupla:

In [66]:
print(2*66)
print(2*(66,))

132
(66, 66)


También se pueden crear tuplas a partir de listas:

In [67]:
tup3 = tuple([1,2,3])
print(tup3)
tup4 = tuple('Hello')
print(tup4)

(1, 2, 3)
('H', 'e', 'l', 'l', 'o')


Las tuplas siguen la misma forma de indexación y acceso que las listas:

In [68]:
print(tup3)
print(len(tup3))
print(tup3[1])
tup5 = tup4[:3]
print(tup5)

(1, 2, 3)
3
2
('H', 'e', 'l')


#### Mapping entre tuplas... o asignación múltiple

In [69]:
(a,b,c)= ('alpha','beta','gamma') #declaración de 3 variables, a,b y c
d,e,f = ('alpha','beta','gamma')
g,h,i = 'alpha','beta','gamma'


In [70]:
print(a,b,c)
print(d,e,f)
print(g,h,i)

alpha beta gamma
alpha beta gamma
alpha beta gamma


In [71]:
d = tuple('It is a capital mistake to theorize before one has data (Sherlock Holmes)')
print(d)

('I', 't', ' ', 'i', 's', ' ', 'a', ' ', 'c', 'a', 'p', 'i', 't', 'a', 'l', ' ', 'm', 'i', 's', 't', 'a', 'k', 'e', ' ', 't', 'o', ' ', 't', 'h', 'e', 'o', 'r', 'i', 'z', 'e', ' ', 'b', 'e', 'f', 'o', 'r', 'e', ' ', 'o', 'n', 'e', ' ', 'h', 'a', 's', ' ', 'd', 'a', 't', 'a', ' ', '(', 'S', 'h', 'e', 'r', 'l', 'o', 'c', 'k', ' ', 'H', 'o', 'l', 'm', 'e', 's', ')')


#### Funciones predefinidas para tuplas

No hay funciones específicas, tenemos las mismas que las ya vistas para las secuencias:

La función **count()** indica el númro de veces que un elemento aparece en la tupla.

In [None]:
d.count('a')

Igual que en el caso de las listas, **index()** devuelve la posición o índice de la primera aparición del elemento especificado 

In [None]:
d.index('a')

<a name="Strings"></a>
### Strings

Llamamos *strings* a las cadenas de caracteres

#### Declaración
Se pueden usar comillas simples o dobles, pero recordar utilizar la misma para abrir que para cerrar. También se pueden utilizar 3 comillas para cadenas multilínea

In [73]:
s0 = 'vivo sin vivir en mí'
s1 = "Vivo sin vivir en mí"
s2 = '''Vivo sin vivir en mí
y tan alta vida espero
que muero porque no muero'''

print(s0 , type(s0))
print(s1, type(s1))
print(s2, type(s2))

vivo sin vivir en mí <class 'str'>
Vivo sin vivir en mí <class 'str'>
Vivo sin vivir en mí
y tan alta vida espero
que muero porque no muero <class 'str'>


#### Funciones de búsqueda y formato

Vamos a ver algunas operaciones básicas con cadenas de caracteres. Muchas de ellas nos aparecieron cuando hablemos de listas, ya que los strings son realmente listas de caracteres, así nos sirve de repaso.

Comenzando buscando la posición en la que aparece una subcadena con **find**. Sustituye a **index** que como vimos falla si el elemento buscado no existe. En realidad tiene dos diferencias


1.- No falla si el elemento no existe, sino que devuelve -1<br>
2.- Permite buscar una secuencia de elementos, no solo 1

In [74]:
print(s0)
print(s0.find('in vi'))
print(s0.find('am'))

vivo sin vivir en mí
6
-1


También se puede especificar entre qué posiciones buscar (recordar que la primera posición es la 0):

In [None]:
print(s0.find('i',4))   # a partir de la 4
print(s0.find('i',1,3)) # entre la 1 y la 3

**capitalize( )** convierte a mayúscula la primera letra

In [None]:
print(s0)
print(s0.capitalize())

**lower()** y **upper()** convierten todo el texto enn minúsculas y en mayúsculas, respectivamente:

In [None]:
print(s0.upper())

**center( )** alinea el texto dentro de los espacios indicados

In [75]:
centrado = s0.center(70)
print(centrado)

                         vivo sin vivir en mí                         


En lugar de espacios, se puede rellanar con otro carácter, como '-'

In [76]:
s0.center(70,'-')

'-------------------------vivo sin vivir en mí-------------------------'

Para quitar caracteres sobrantes podemos usar **strip()**, que elimina 
el caracter indicado (blanco si no se dice nada) de ambos extremos de la 
cadena. Si solo queremos quitarlos por un lado, podemos usar **rstrip()**
o **lstrip()**

In [77]:
print(centrado.strip(), end="")
print(".")
s1 = 'Big'
s2 = 'Data'
print( s1 +' '+ s2)

vivo sin vivir en mí.
Big Data


print utiliza códigos especiales para mostrar valores. Por ejemplo **%s** Se usa en print para representar una cadena

In [78]:
print("Hello %s" % s1)

Hello Big


De forma análoga podemos usar otros símbolos

    - %s -> string
    - %d -> Integer
    - %f -> Float
    - %o -> Octal
    - %x -> Hexadecimal
    - %e -> exponential
    
Esto permite hacer conversiones dentro del print

In [79]:
nombre = "Bertoldo"
snacido = "1985"
nacido = int(snacido)
actual = 2022

print("Hola %s! Tu edad es %d o %d"%(nombre,actual-nacido-1,actual-nacido))


Hola Bertoldo! Tu edad es 36 o 37


Normalmente es más fácil usar texto formateado:

In [None]:
nombre = "Bertoldo"
snacido = "1985"
nacido = int(snacido)
actual = 2018

print(f"Hola {nombre}! Tu edad es {actual-nacido-1} o {actual-nacido}")


Sin embargo, el % resulta muy útil para formatear números reales limitando por ejemplo sus posiciones decimales

In [None]:
x = 12.3456789
print('The value of x is %2.3f' %x)

La función **replace( )** reemplaza un substring por otro

In [None]:
cadena = 'programación'
print(cadena.replace('gram','fan'))
cadena = 'xxyyxxyyxx'
print(cadena.replace('xx','aa'))

otras funciones interesantes se aplican al caso particular de un carácter is nos permite comprobar si es in dígito (isdigit), alfanumérico (isalpha), etc. Ver [aquí](https://www.w3schools.com/python/python_ref_string.asp) para una lista bastante completa de funciones sobre strings

**Ejercicio 8**

Vamos a cargar una página de la wikipedia para hacer unas pruebas. Google Colab tiene una versión antigua, que primero borramos; luego instalamos la más actualizada

In [80]:
!pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting beautifulsoup4 (from wikipedia)
  Downloading beautifulsoup4-4.14.3-py3-none-any.whl.metadata (3.8 kB)
Collecting requests<3.0.0,>=2.0.0 (from wikipedia)
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting charset_normalizer<4,>=2 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading charset_normalizer-3.4.4-cp313-cp313-win_amd64.whl.metadata (38 kB)
Collecting idna<4,>=2.5 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading idna-3.11-py3-none-any.whl.metadata (8.4 kB)
Collecting urllib3<3,>=1.21.1 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading urllib


[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [81]:

import wikipedia
wikipedia.set_lang("es")

q1 = wikipedia.page('Bolsa de Madrid')
s = q1.content
print(s)

La Bolsa de Madrid es el principal mercado de valores de España, con sede en el Palacio de la Bolsa de Madrid, un edificio inaugurado en 1893 y situado en la Plaza de la Lealtad de la capital española.​ 
Su índice de referencia es el Índice General de la Bolsa de Madrid (IGBM), que agrupa a todas las acciones cotizadas en los mercados gestionados por la Bolsa y actúa como barómetro de su evolución. Además, en la Bolsa de Madrid se calculan otros índices relevantes, como el IBEX 35, que reúne a las 35 empresas de mayor liquidez del mercado español.​
La Bolsa de Madrid forma parte del grupo Bolsas y Mercados Españoles (BME), operador que desde 2020 pertenece al grupo SIX, gestor de los mercados financieros en Suiza.​


== Normas de funcionamiento ==
La organización y funcionamiento depende de una Sociedad Rectora existente al efecto.
La normativa interna de la Bolsa de Madrid está articulada a través de circulares e instrucciones operativas que aprueba y publica la propia Sociedad Rector

a) Encontrar la primera aparición en s del string *lonja*, y mostrar desde esa posición hasta 165 caracteres más adelante.

In [87]:
# a) Encontrar la primera aparición de "lonja" y mostrar desde esa posición hasta 165 caracteres adelante
pos = s.find('lonja')
print(s[pos:pos+165])

lonjas de contratación ====
Los antecedentes a la bolsa propiamente dicha, los encontramos desde el siglo XIV en las casas o lonjas de contratación, estas son típica


b) Cambiar en s las 'a' por 'i'. Mostrar los 150 primeros caracteres del string resultante

In [88]:
# b) Cambiar las 'a' por 'i' y mostrar los 150 primeros caracteres
s_modificado = s.replace('a', 'i')
print(s_modificado[:150])

Li Bolsi de Midrid es el principil mercido de vilores de Espiñi, con sede en el Pilicio de li Bolsi de Midrid, un edificio iniugurido en 1893 y situid


c) Contar cuántas veces aparece en s la palabra "Bolsa"


In [89]:
# c) Contar cuántas veces aparece "Bolsa"
print(s.count("Bolsa"))

57


d) El problema de buscar "Bolsa" es que busca exactamente esa palabra, pero puede que aparezca por ejemplo en minúsculas. Convertir primero el string s a mayúsculas para luego buscar las apariciones de "BOLSA"

In [90]:
# d) Convertir a mayúsculas y buscar "BOLSA"
print(s.upper().count("BOLSA"))

82


<a name="Conjuntos"></a>
## Conjuntos

Los conjuntos representan secuencias de elementos no repetidos.

Para inicializar una varial conjunto vacíon usaremos la constructora **set()**. También podemos utilizar la notación **set([sequence])** para indicar los elementos iniciales.

In [91]:
set1 = set()
print(type(set1))

<class 'set'>


In [92]:
seta = set([1,2,2,3,3,4])
print(seta)

{1, 2, 3, 4}


como podemos ver los elementos 2 y 3, que se repetían dos veces en la lista original, se ven  solo una vez al convertir la lista a conjunto.

#### Funciones predefinidas

In [93]:
set1 = set([1,2,3])

In [94]:
set2 = set([2,3,4,5])

La función **union( )** reune los elementos de dos conjuntos, por supuesto evitando repeticiones.

In [95]:
set1.union(set2)

{1, 2, 3, 4, 5}

**add( )** Añade un nuevo elemento al conjunto (si no está ya).

In [96]:
set1.add(0)
set1

{0, 1, 2, 3}

La función **intersection( )** recoge los elementos comunes a dos conjuntos.

In [97]:
set1.intersection(set2)

{2, 3}

La función **difference( )** devuelve los elementos del conjunto set1 que no estén en el conjunto set2.

In [98]:
set1.difference(set2)

{0, 1}

 La función  **symmetric_difference( )** devuelve los elementos que están solo en un uno de los dos conjuntos.

In [99]:
set2.symmetric_difference(set1)

{0, 1, 4, 5}

Las funciones **issubset( ), isdisjoint( ), issuperset( )** permiten comprobar si s1 es un subconjunto, o un conjunto disjunto, o un superconjunto, de s2, respectivamente.

In [100]:
print(set1.issubset(set2))

s1 = set([1,2])
s2 = set(range(20))
print(s2)
s1.issubset(s2)

False
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}


True

In [101]:
set2.isdisjoint(set1)

False

In [102]:
set2.issuperset(set1)

False

**pop( )** elimina un elemento al azar del conjunto.

In [103]:
s2.pop()
print(s2)

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}


**remove( )** elimina el elemento indicado del conjunto.

In [104]:
set1.remove(2)
set1

{0, 1, 3}

**clear( )** elimina todos los elementos, y por tanto convierte cualquier conjunto en el conjunto vacío.

In [105]:
set1.clear()
set1

set()

**Ejercicio 9** ¿Qué mostrará el siguiente programa?

In [106]:

s1 = set([1,2,3,4,5])
s2 = s1
s1.pop()
print(s1,s2,s1.union(s2))

{2, 3, 4, 5} {2, 3, 4, 5} {2, 3, 4, 5}


Solo queríamos quitar un elemento de s1, ¿Cómo arreglarlo?

In [107]:
s1 = set([1,2,3,4,5])
s2 = s1.copy()
s1.pop()
print(s1,s2,s1.union(s2))

{2, 3, 4, 5} {1, 2, 3, 4, 5} {1, 2, 3, 4, 5}


<a name="Diccionarios"></a>
## Diccionarios

Los diccionarios son estructuras que asocian claves con valores. Podemos imaginarlos como un 'record' en otros lenguajes, que recoge varios valores en una estructura asociados a campos con nombre predeterminado.

Para crear un diccionario usamos la constructora { } o dict()

In [108]:
d0 = {}
d1 = dict()
print(type(d0), type(d1))

<class 'dict'> <class 'dict'>


Podemos añadir 'campos' de forma dinámica:

In [109]:
d0['nombre'] = 'bertoldo'
d0['edad'] = 23
print(d0)

{'nombre': 'bertoldo', 'edad': 23}


In [110]:
print(d0['edad'])

23


A valores índice de un diccionario, como 'edad' se les llama *claves*. 
Como cada clave tiene un valor asociado, a los diccionarios se les llama
a menudo *estructura clave-valor*.

Podemos combinar dos listas con la función zip para crear un diccionario

In [111]:
metal = ['Gold', 'Silver', 'Palladium', 'Platinum']
valor = [55.08, 0.6104, 67.46, 28.16]
parejas = zip(metal,valor)
dictparejas = dict(parejas)
print(dictparejas)


{'Gold': 55.08, 'Silver': 0.6104, 'Palladium': 67.46, 'Platinum': 28.16}


In [112]:
print(dictparejas)
print(dictparejas['Palladium'])

{'Gold': 55.08, 'Silver': 0.6104, 'Palladium': 67.46, 'Platinum': 28.16}
67.46


Se pueden obtener  todas las claves y los valores de un diccionario, 
usando las funciones **keys()** y **values()**

In [113]:
dictparejas.keys()

dict_keys(['Gold', 'Silver', 'Palladium', 'Platinum'])

Para convertir el diccionario en una lista de parejas, podemos usar **items()**

In [114]:
dictparejas.items()

dict_items([('Gold', 55.08), ('Silver', 0.6104), ('Palladium', 67.46), ('Platinum', 28.16)])

También podemos eliminar una clave, con **pop()**

In [None]:
dictparejas.pop('Silver')
dictparejas

In [None]:
print(dictparejas)

Finalmente, si se quieren borrar todos los elementos del diccionario, se puede usar **clear()**

In [None]:
dictparejas.clear()
print(dictparejas)