<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 4**

## **Contenido**
  
- <a href="#est"> Estructuras de datos</a><br>
  - <a href="#lis"> Listas</a><br>
    - <a href="#ind"> Indexación y segmentación</a><br>
    - <a href="#lpc"> Listas por comprensión</a><br>
  - <a href="#tup"> Tuplas</a><br>
  - <a href="#dic"> Diccionarios</a><br>






<p><a name="est"></a></p>

# **Estructuras de datos**


Hemos visto los tipos de variables simples de Python: `int`, `float` , `bool`, `str` y `None`. Adicionalmente, Python tiene varios tipos compuestos, que actúan como contenedores para otros tipos. Estos tipos compuestos son: Listas, tuplas y diccionarios. Vamos a estudiar cada una de estas estructuras:

<p><a name="lis"></a></p>

## **Listas**

Las listas son un tipo básico de colección de datos *ordenados* y *mutables* en Python. Cuando decimos que son ordenados queremos decir que para este objeto se tiene una noción de posición para sus elementos, que ya veremos en la sección de *indexación*. Como ya hemos mencionado, la *mutabilidad* hace referencia a que podemos modificar el objeto. 

Las listas se pueden definir con valores separados por comas entre corchetes

In [None]:
l1 = [1 , 5 , 2 , 3 , 4]
l2 = [6 , 7 , 8 , 9 , 0]
l3 = list()
#l3 = []

for j in range(5):
  l3.append(l1[j] + l2[j])
print(l3)

[7, 12, 10, 12, 4]


 



Podemos obtener la longitud o número de elementos de la lista con la función propia de Python `len`:

In [None]:
len(l3)

5

Podemos obtener la suma de los elementos, el valor máximo y mínimo de la lista con las funciones de agregación `sum`, `max` y `min`, respectivamente:

In [None]:
print(sum(l1), max(l1), min(l1))

15 5 1


Veamos algunos métodos asociados con este objeto.
En primera instancia tenemos el método `sort()`, este es un método IN PLACE

In [None]:
sorted(l1)

[1, 2, 3, 4, 5]

In [None]:
#l1 = sorted(l1)

[1, 5, 2, 3, 4]

In [None]:
l1.sort()
print(l1)

[1, 2, 3, 4, 5, 100]


Podemos pasarle como argumento al método `sort(reverse =True)` para obtener la lista ordenada de menor a mayor.

In [None]:
l1.sort(reverse= True)
print(l1)

[5, 4, 3, 2, 1]


Con el método `append()` podemos agregar un elemento al final de la lista

In [None]:
l1.append(100)

In [None]:
l1

[1, 2, 3, 4, 5, 100, 100, 1, 100]

O hacerlo en general con `insert()` pasándole un argumento para que lo inserte al inicio de la lista o si le paso dos argumentos, entonces el primero será la posición a insertar el elemento y el segudo será el elemento.

In [None]:
l1.insert(3,200)

In [None]:
print(l1)

[1, 2, 3, 200, 4, 5, 100]


`remove(x)` puede eliminar un elemento `x` de la lista.

In [None]:
l1.remove(200)

In [None]:
l1

[1, 2, 3, 4, 5, 100]

In [None]:
l1.remove(100)
print(l1)

[1, 2, 3, 4, 5, 100, 1, 100]


`index(x)` nos devuelve la posición de el elemento `x` en la lista

In [None]:
l1.index(100)

5

`count(x)` nos permite contar las veces que está el elemento `x` en la lista

In [None]:
l1.count(100)

2

O finalmente eliminar un elemento en la posición `i` con `pop(i)`

In [None]:
l1.pop(5)

100

In [None]:
l1

[1, 2, 3, 4, 5, 1, 100]

Adicionalmente, hay más métodos de lista incorporados; están bien cubiertos en la [documentación](https://docs.python.org/3/tutorial/datastructures.html) en línea de Python.

Una de las características de los objetos compuestos de Python es que pueden contener objetos de cualquier tipo, o incluso una combinación de tipos. Por ejemplo:

In [None]:
lista = [1 , 2 , 3, "Un string", [1.0 , 2.0, 3.0] , None]
lista

[1, 2, 3, 'Un string', [1.0, 2.0, 3.0], None]

In [None]:
len(lista)

6

In [None]:
type(lista)

list

Este tipo de flexibilidad es una pieza esencial de lo que hace que el código de Python sea relativamente rápido y fácil de escribir. Sin embargo, como veremos, esta flexibilidad tiene su "punto bajo": nos costará tiempo de cómputo.

<p><a name="ind"></a></p>

### **Indexación y segmentación**

Python nos proporciona acceso a los elementos de la lista a través de la indexación de elementos individuales y la segmentación de elementos múltiples. Como veremos, ambos están indicados por una sintaxis de corchetes. 

**Indexación:** 

Definamos una lista con los primeros cuatro números pares:





In [None]:
pares = [2 , 4 , 6 , 8]

cuyos índices se ilustran en la siguiente figura:

![](https://i.imgur.com/Bt04CcC.png)

Podemos acceder a un elemento de la lista indicando el índice correspondiente a este mediante corchetes:

In [None]:
print(pares[0])
print(pares[-1])
print(pares[-2])

2
8
6


In [None]:
pi = 3.14
pii = int(pi)
pii

3

In [None]:
print(pares[0])
print(pares[-4])

2
2


In [None]:
print(pares[-0])
print(pares[int(pi)])

2
8


Note que en Python, el primero elemento de la lista corresponde a la posición `0`, y no a la posición `1`, que corresponde al segundo elemento.

Alternativamente podemos acceder a los elementos de la lista en el orden opuesto con números negativos, comenzando desde `-1`:

**Nota**: *Este esquema de indexación aplica también a las cadenas de caracteres.*

In [None]:
cadena = 'Hola_mundo.'

print(cadena[-1])

.


**Segmentación**:

Si la indexación es un medio para obtener un único valor de la lista, la *segmentación* es un medio para acceder a múltiples valores de las listas (o cadenas). La sintáxis para la segmentación es de la forma

> 

    lista[inicio:final:paso]

en donde se extraen los elementos de la lista entre la posiciones `inicio` (se incluye) y `final` (no se incluye), con cierto `paso`:


In [None]:
pares[0:3]

[2, 4, 6]

Si omitimos el primer índice, Python lo toma como 0, por lo que podemos escribir de manera equivalente:


In [None]:
pares[:3]

[2, 4, 6]

De forma análoga, si no especificamos el final, Python realiza la segmentación hasta el último elemento de la lista:

In [None]:
print(pares[-3:])
print(pares[1:])

[4, 6, 8]
[4, 6, 8]


También es posible especificar un tercer número entero que represente el tamaño del paso:

In [None]:
pares[::2]

[2, 6]

In [None]:
pares[1::2]

[4, 8]

Ahora, si pasamos el paso como un número negativo, el inicio y el final de la segmentación se intercambian:

In [None]:
pares[::-1]

[8, 6, 4, 2]

In [None]:
pares[:-3:-1]

[8, 6]

Como mencionamos, las listas son objetos mutables. Podemos utilizar tanto la indexación como la segmentación para modificar elementos de una lista:


In [None]:
pares[0] = 100

In [None]:
pares

[100, 4, 6, 8]

In [None]:
l[1:4] = [200, 300, 400]

In [None]:
l

['Ana', 200, 300, 400]

**Ejercicio 1:** Cree una lista que contenga los números pares en el intervalo [1, 10]

In [None]:
lista = []

for i in range(1,11):
  if i % 2 == 0:
    lista.append(i)

print(lista)

[2, 4, 6, 8, 10]


In [None]:
lista2 = []

for i in range(2,11,2):
  lista2.append(i)

print(lista2)

[2, 4, 6, 8, 10]


Podemos modificar el rango de manera que solo se itere sobre números pares:

**Ejercicio 2:** Solicite al usuario una palabra e imprima si esta es un palíndromo o no. (Un palíndromo es una palabra o frase que se lee igual hacia adelante y hacia atrás)

In [None]:

palabra=input("Ingrese una palabra\n")

print(palabra[::-1])

if palabra==palabra[-1::-1]:
    
    print ("La palabra se lee igual al revez")
    
else:
    print ("la palabra no se lee igual al revez")

Ingrese una palabra
Reconocer
reconoceR
la palabra no se lee igual al revez


In [None]:
cadena = input("Ingrese una frase o palabra\n")

cadena2 = cadena.lower().replace(' ','')

if cadena2 == cadena2[::-1]:
    
    print ("La frase o palabra se lee igual al revez")
    
else:
    print ("la frase o palabra no se lee igual al revez")

Ingrese una frase o palabra
Anita lava la tina
La palabra se lee igual al revez


**Ejercicio 3:** Dado el siguiente listado de alumnos de una clase

> 
    alumnos = ['Ana', 'Luis', 'Pedro', 'Marta', 'Nerea', 'Pablo']

Crear dos listas: una que contenga la primera letra de cada nombre y otra que contenga la última letra

In [None]:
alumnos = ['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo']
primera = list()

for alumno in alumnos:
  primera.append(alumno[0].lower())

print(primera)

['a', 'l', 'p', 'm', 'c', 'p']


<p><a name="lpc"></a></p>

### **Listas por comprensión**

Las listas por comprensión son simplemente una forma de comprimir un ciclo de construcción de listas en una sola línea corta y legible. La sintáxis es de la forma

>  

    [expresion for var in secuencia if cond] 


donde *expresion* es cualquier expresión válida, *var* es la variable de iteración, *secuencia* es cualquier objeto de Python iterable, y *cond* es alguna condición que se imponga sobre la variable de iteración. Por ejemplo, para construir una lista con el cuadrado de los primeros 5 enteros podríamos escribir lo siguiente:

In [None]:
l = list()

for i in range(1,6):
  l.append(i)
print(l)

La lista por comprensión equivalente es la siguiente:

In [None]:
l2 = [i for i in range(1,6)]
print(l2)

[1, 2, 3, 4, 5]


In [None]:
l3 = [2*num for num in range(10)]
print(l3)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


In [None]:
l4 = [impar for impar in range(0,10) if impar % 2 != 0]
l4

[1, 3, 5, 7, 9]

Observe las equivalencias entre ambos bloques de código. Al igual que con muchas sentencias de Python, casi podemos leer el significado de esta sentencia: "construya una lista que consista en el cuadrado de `i` para cada `i` desde 1 hasta 5". 

A veces vamos a querer crear una lista no solo a partir de un valor, sino a partir de dos. Por ejemplo:


In [None]:
L = []

for i in range(2):
  for j in range(2):
    L.append((i , j))

print(L)

[(0, 0), (0, 1), (1, 0), (1, 1)]


Este tipo de ciclos aninados se pueden incluir en una lista por comprensión simplemente añadiendo otro ciclo `for`:

In [None]:
L2 = [(i, j ) for i in range(2) for j in range(2)]
print(L2)

[(0, 0), (0, 1), (1, 0), (1, 1)]


Podemos controlar aún más la iteración agregando un condicional al final de la expresión. Por ejemplo, podríamos escribir el ejemplo 1 con listas por comprensión de la siguiente manera:


In [None]:
l4 = [par for par in range(0,10) if par % 2 == 0]
l4

[0, 2, 4, 6, 8]

O alternativamente

In [None]:
l4 = [par for par in range(0,10,2)]
l4

[0, 2, 4, 6, 8]

Incluso podemos añadir las sentencias `if` y `else` para tener mayor control sobre los elementos de la lista. 

Por ejemplo, si quisieramos construir una lista con 10 elementos, tal que sus primeros cinco elementos sean los primeros cinco números enteros, y que el resto de elementos sean el cuadrado de los enteros 6,7,8,9 y 10, prodríamos escribir:

In [None]:
x = 5

y = 1 if x == 0 else 7
print(y)

7


In [None]:
lista = []

for i in range(1, 11):
  if i < 6:
    lista.append(i)
  else :
    lista.append(i**2)

print(lista) 

[1, 2, 3, 4, 5, 36, 49, 64, 81, 100]


In [None]:
[i if i < 6 else i**2 for i in range(1,11)]

[1, 2, 3, 4, 5, 36, 49, 64, 81, 100]

**Ejercicio 4:** Resuelva el ejercicio 3 utilizando listas por comprensión.

<p><a name="tup"></a></p>

# **Tuplas**

Las tuplas son en muchos aspectos similares a las listas, pero se definen entre paréntesis en lugar de corchetes, o separando los elementos por una coma:

In [None]:
tupla = 4 , 5 , 6 , 7 , 8
type(tupla)

tuple

O solo separando los elementos sin el paréntesis

In [None]:
tupla[1:4]

(5, 6, 7)

Vemos que en Python las tuplas son un objeto de tipo `tuple`. Al igual que las listas, las tuplas tienen una noción de longitud y de orden, por lo que podremos indexar y segmentar estos objetos:

In [None]:
#tupla[0] = 100 Esto no funciona

TypeError: ignored

La principal característica distintiva de las tuplas es que son estructuras de datos inmutables, lo cual significa que una vez que se crean, no es posible modificar su tamaño y contenido. Si intentamos modificar un elemento de la tupla obtendremos un error:

In [None]:
try: 
  tupla[0] = 100
except:
  print("No se pudo hacer lo que quería")

No se pudo hacer lo que quería


In [None]:
try: 
  tupla[0] = 100
except:
  None

In [None]:
try: 
  tupla[0] = 100
except Exception as e:
  print(e)

'tuple' object does not support item assignment


**Unpacking**

Las tuplas cumplen una función doble: pueden usarse como listas inmutables y también para almacenar información sin una etiqueta explícita. Por ejemplo, supongamos que queremos almacenar la informacion de un punto en el plano cartesiano $(x,y)$. Podríamos tener esta información en una tupla, donde se usará la posición dentro de la tupla para referenciar los puntos



In [None]:
coordenadas = (4,5)

x, y = coordenadas

print(x)

4


In [None]:
x = 10
print(x, coordenadas)

10 (4, 5)


In [None]:
coordenadas.sort()

AttributeError: ignored

Note que en esta expresión, ordenar la tupla destruiría la información ya que el significado de cada elemento está dado por su posición en la tupla. Esto funciona particularmente bien en las tuplas debido al mecanismo de *unpacking* de estos objetos. Veámoslo con un ejemplo: 


In [None]:
nombre, edad , ciudad = ("Carlos", 45, "Medellin")

print(nombre)

Carlos


Note que hemos asignado `("Carlos", 45, "Medellin")` a `nombre`, `edad` y `ciudad`, respectivamente, en una sola sentencia. A este tipo de procesos se hace referencia cuando se habla del mecanismo de *unpacking* de las tuplas. Por ejemplo, este es el mecanismo que nos permite definir múltiples variables en una sola sentencia


   

In [None]:
a , b = 1 , 2

print(f"a: {a}")
print(f"b: {b}")

a: 1
b: 2


La forma más usada del *unpacking* es la asignación paralela, es decir, la asignación de elementos de un objeto iterable a una tupla de variables:


In [None]:
x , y = (4235, 1968)

print(x, y)

4235 1968


Si, por ejemplo, solo queremos tomar una parte de la tupla, podemos utilizar una variable como `_` de la siguiente manera: 

In [None]:
x1 , _ = (4235, 1968)

print(x1)

4235


Este mecanismo también permite "desempaquetar" listas:

In [None]:
tupla5 = x1, x2, x3
type(tupla5)

tuple

In [None]:
x = [1 ,2 ,3]

x1, x2, x3 = x
x1 = 400
print(x1, x2, x)

400 2 [1, 2, 3]


Podemos bien pensar entonces en un conjunto de ordenadas de pais y código postal, si queremos obtener entonces los paises podemos iterar por ambos y extraer solo el pais

In [None]:
codigo_postal = [('USA',21315), ('COL',15648),('BRA',48915)]

for saip, _ in codigo_postal:
  print(saip) 

USA
COL
BRA


<p><a name="dic"></a></p>

# **Diccionarios**

Los diccionarios son mapeos extremadamente flexibles de claves a valores, y forman la base de gran parte de la implementación interna de Python. Se pueden crear mediante una lista separada por comas de pares `clave:valor` dentro de llaves:

In [None]:
diccio = {'uno': 1, 'dos': 2 , 'tres' : 3}

In [None]:
diccio

{'dos': 2, 'tres': 3, 'uno': 1}

In [None]:
type(diccio)

dict

a cada par `clave:valor` se le conoce como un *item*. 

Alternativamente, podemos crear un objeto tipo `dict` directamente con el constructor `dict`

In [None]:
diccio_2 = dict(un = 1,do = 2, tre = 3)
diccio_2

{'do': 2, 'tre': 3, 'un': 1}

Otra forma de construir diccionarios es pasarlo como una lista de tuplas ante el constructor 

```dict([(x,y),...,(a,b)])```

In [None]:
diccio_3 = dict([(1,1),(2,4),(3,9)])
diccio_3

{1: 1, 2: 4, 3: 9}

Supongamos que queremos construir un diccionario a partir de `codigo_postal`

In [None]:
codigo_postal

[('USA', 21315), ('COL', 15648), ('BRA', 48915)]

donde las claves sean el país y los valores los códigos asociados. Utilizando el constructor `dict` esto se puede realizar fácilmente:

In [None]:
dictio_CP = dict(codigo_postal)
print(dictio_CP)

{'USA': 21315, 'COL': 15648, 'BRA': 48915}


En el caso de la variable `codigos`

In [None]:
codigos = [(86, 'China'), (91, 'India'), (62, 'Indonesia')]
dict(codigos)

{62: 'Indonesia', 86: 'China', 91: 'India'}

esto no será posible debido a que que las posiciones de país y código están intercambiadas

In [None]:
{pais: codigo for codigo, pais in codigos}

{'China': 86, 'India': 91, 'Indonesia': 62}

Para construir el diccionario en la forma requerida, podemos construirlo como un "diccionario por comprensión" como `{i:j for i,j in expresion}`

In [None]:
{f"clave{i}" : i**3 for i in range(6)}

{'clave0': 0,
 'clave1': 1,
 'clave2': 8,
 'clave3': 27,
 'clave4': 64,
 'clave5': 125}

otro ejemplo, podemos construir las claves con cadenas f:

In [None]:
palabra

'Reconocer'

In [None]:
{f"clave{i}" : palabra[i] for i in range(len(palabra))}

{'clave0': 'R',
 'clave1': 'e',
 'clave2': 'c',
 'clave3': 'o',
 'clave4': 'n',
 'clave5': 'o',
 'clave6': 'c',
 'clave7': 'e',
 'clave8': 'r'}

A diferencia de los elementos dentro de una lista o tupla, los items del diccionario no tienen una noción de orden o posición. 


In [None]:
dictio_CP

{'BRA': 48915, 'COL': 15648, 'USA': 21315}

In [None]:
try:
  dictio_CP[0]
except :
  print("No se puede ordenar una tupla")


No se puede ordenar una tupla


Podemos acceder o definir un item del diccionario mediante la sintaxis de indexación utilizada para las listas y tuplas, excepto que el índice no es numérico sino una clave válida dentro del diccionario:

In [None]:
dictio_CP['BRA']

48915

Podemos incluso pasarle un nuevo `key` a nuestro diccionario, y asignarle un valo

In [None]:
dictio_CP['BRA'] = 7
print(dictio_CP)

{'USA': 21315, 'COL': 15648, 'BRA': 7}


Al igual que con las listas y tuplas, podemos crear diccionarios vacios para luego agregarles las tuplas `(clave:valor)`

In [None]:
len(alumnos)

6

In [None]:
diccio_n = dict()
print(diccio_n)
diccio_n['daniel'] = 21
print(diccio_n)

{}
{'daniel': 21}


In [None]:
diccio_n = {'Nombres': alumnos, 'edades':[12 , 16, 13, 18 ,15 , 11]}
diccio_n

{'Nombres': ['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo'],
 'edades': [12, 16, 13, 18, 15, 11]}

Tenga en cuenta que las claves son únicas dentro de un diccionario, mientras que los valores pueden no serlo. Los valores de un diccionario pueden ser de cualquier tipo, pero las claves deben ser de un tipo de dato inmutable, como cadenas, números o tuplas. De manera que podemos construir estructuras más complejas como la siguiente:

In [None]:
diccio_n.keys()

dict_keys(['Nombres', 'edades'])

En este caso vamos a acceder a los diferentes elementos del diccionario individualmente o al *item* completo si así lo necesitamos. Esto se puede realizar utilizando los métodos `keys`, `values` y `items`, respectivamente. 

In [None]:
diccio_n.values()

dict_values([['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo'], [12, 16, 13, 18, 15, 11]])

In [None]:
diccio_n.items()

dict_items([('Nombres', ['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo']), ('edades', [12, 16, 13, 18, 15, 11])])

Podemos utilizar estos métodos para iterar sobre alguno de los elementos

In [None]:
for i in diccio_n.keys():
  print(i)

Nombres
edades


Note que por defecto, si iteramos sobre el diccionario, estaremos iterando sobre las claves, por lo que en este caso no hay necesidad de utilizar el método `keys`

In [None]:
for i in diccio_n:
  print(i)

Nombres
edades


In [None]:
for i in diccio_n.values():
  print(i)

['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo']
[12, 16, 13, 18, 15, 11]


In [None]:
for clave, valor in diccio_n.items():
  print(clave, valor)

Nombres ['Ana', 'Luis', 'Pedro', 'Marta', 'Camila', 'Pablo']
edades [12, 16, 13, 18, 15, 11]


**Ejercicio 5:** Dado el diccionario

> 
    notas = {'Ana':9, 'Luis':7, 'Pedro':2, 'Marta':5, 'Nerea':4, 'Pablo':6}

  1) cree una lista que contenga notas mayores o iguales a 5.

  2) cree una lista que contenga los nombres de los estudiantes que contengan la letra "a".

  3) cree una lista que contenga los nombres de los estudiantes que aprobaron (nota >= 5) 

**Ejercicio 6:** Dada la siguiente lista, itere sobre ella y cuente la aparición de cada elemento y cree un diccionario para mostrar el recuento de cada elemento

> 
    Lista = [11, 45, 8, 11, 23, 45, 23, 45, 89]

[9, 7, 5, 6]
['Ana', 'Marta', 'Nerea', 'Pablo']
['Ana', 'Luis', 'Marta', 'Pablo']
{'11': 2, '45': 3, '8': 1, '23': 2, '89': 1}


Consultar ver variables