# **Estruturas de datos predefinidas**

Python tamén tén distintos tipos de estruturas de datos predefinidas, que fan de contenedores de outros tipos de datos.


<center>**Estruturas de datos**</center>

|Nome do Tipo| Exemplo                   |Descrición                               |
|------------|---------------------------|-----------------------------------------|
|  ``list``  | ``['Lisa', 24, '2X']``             | Conxunto ordenado                       |
|  ``tuple`` | ``('Lisa', 24, '2X')``             | Conxunto ordenado inmutable             |
|  ``dict``  | ``{'name':'Lisa', 'ID':24, 'Class':'2X'}`` | Asociación (clave,valor) non ordenada   |
|  ``set``   | ``{'Lisa', 'Ellie', 'Jon'}``             | Conxunto non ordenado de valores únicos |

Fíxate que os corchetes, parénteses e chaves teñen todos distintos significados.

## <u>Listas</u>
As listas son o tipo básico de conxunto de datos **ordenado** e **mutable** en Python.

In [None]:
a = []             # crea unha lista valeira
a = [2, 3, 5, 7]   # crea unha lista con enteiros

As listas teñen varias propiedades e métodos:

* Lonxitude dunha lista

In [None]:
len(a)

* Engadir (método) elementos ó final da lista

In [None]:
a.append(11)
a

* Suma para concatenar listas

In [None]:
a + [13, 17, 19]

* Ordenar (método) os elementos da lista
    * `.sort()` este método tamén se pode usar para ordenar por orden alfabético unha lista de cadeas de texto

In [None]:
a = [2, 5, 1, 6, 3, 4]
a.sort()
a

In [None]:
b = ['horse','llama','dog','cow']
b.sort()
b

Unha característica da potencia dos obxectos compostos de Python é que poden conter mesturas de obxectos de *todo* tipo.

In [None]:
a = [1, 'two', 3.14, [0, 3, 5], False]
a

Esta flexibilidade é consecuencia do tipado dinámico de Python.
Crear unha lista mixta nunha linguaxe de tipado estático como C sería ben máis difíci!
As listas poden incluso conter outras listas.
Esta flexibilidade é unha das pezas esenciais que fan de Python unha linguaxe relativamente fácil e rápida de aprender.


### 1. Exercicios: creación de listas

**Ex 1.1**: Crea e imprime unha lista con tódolos números enteiros entre 2015 e 2023.

In [None]:
# Crea lista

**Ex 1.2**: Crea unha lista cos nomes das provincias galegas

In [None]:
# Crea lista

**Ex 1.3**:
* Crea dúas listas separadas con datas formateadas como `[year, month, day]`
    * por exemplo, `[1789,7,14]` podería ser a primeira lista.
* Crea e imprime unha lista que conteña ás dúas listas anteriores (unha lista de listas!)

In [None]:
# Crea dúas listas separadas

In [None]:
# Crea unha lista coas dúas listas anteriores

## <u>Indexado e seccións de listas</u>
En python pódese acceder ós elementos dos tipos compostos (listas, por exemplo) por medio dos *índices* para elementos individuais ou *seccións (slices)* para conxuntos de elementos.

In [None]:
a = [1, 2, 3, 5, 7, 11, 14]

En Python os índices empezan en *cero*, así que para acceder ó primeiro e segundo elementos usaremos a seguinte sintaxe:

In [None]:
a[0]

In [None]:
a[1]

Os elementos ó final das listas pódense referenciar con números negativos, empezando por -1:

In [None]:
a[-1]

In [None]:
a[-2]

Este esquema de indexación pódese visualizar da seguinte maneira:

![list_indexing](list_indexing.png)

Nesta imaxe, os valores da lista están representados polos números grandes nos cadrados; os índices das listas son os números pequenos arriba e abaixo.
Neste caso, ``L[2]`` devolve ``5``, porque ese é o valor a continuación do índice ``2``.

Igual que o **indexado** é unha forma de obter un valor individual da lista, o **slicing** (corte, sección) é unha forma de acceder a múltiples valores, esto é, unha sublista.

Pra cortar unha parte da lista usamos os dous puntos ``:`` para indicar os índices de comenzo (incluído) e fin (non incluído) da sublista. Pódese pensar que os dous puntos como abreviatura de "todo o que quede no medio".

Por exemplo, pra extraer o terceiro e quinto elemento da lista `a`, faremos:
    
    a = [1, 2, 3, 5, 7, 11, 14]


In [None]:
a[2:5]

Se non poñemos o número da esquerda dos dous puntos significa que collemos dende o principio da lista:

In [None]:
a[:5]

Igualmente, se non poñemos o número á dereita dos dous puntos quere dicir que collemos ata o final da lista.
Entón, podemos acceder ós dous últimos elementos como segue:

In [None]:
a[5:]

Por último, é posible especificar un terceiro número enteiro que representa o paso. Por exemplo, para coller un elemento de cada dous, faríamos:

In [None]:
a[0:len(a):2]

O cal tamén se pode abreviar a:

In [None]:
a[::2]

Esto tén un caso particular moi interesante, que consiste en especificar un paso negativo. O que se consegue desta maneira é invertir a lista:

In [None]:
a[::-1]

Tanto o indexado coma o slicing pódense usar pra redefinir elementos da lista, igual que para lelos.
A sintaxe é tal como estás pensando:

In [None]:
a[0] = 100
print(a)

In [None]:
a[1:3] = [55, 56]
print(a)

Unha sintaxe moi parecida úsase tamén noutros tipos de contenedor de datos coma os **NumPy arrays**, como veremos máis adiante.

### 2. Exercicios: Indexado de listas

**Ex 2.1**: Usando a lista de valores de 2015 a 2022,

        years = [2015,2016,2017,2018,2019,2020,2021,2022]
        
       
* Imprime os dous primeiros valores na lista.
* Imprime os 11 anos da lista.
* Imprime os dous últimos valores da lista.

In [None]:
# Primeiros dous valores

In [None]:
# Anos pares

In [None]:
# Últimos dous valores

## <u>Métodos e Atributos da Clase Lista</u> 

Cada lista variable (é dicir, cada instancia da Clase Lista) tén atributos e métodos predefinidos.
Recorda que os dous son accesibles usando a notación do punto:
teclea o nome dunha lista que definíramos hoxe, pon un punto a continuación e presiona o tabulador pra mostrar as posibilidades.

`aminhalista.`(presiona Tab)

Nos seguintes exercicios usaras os métodos `.insert()`, `.append()` e `.remove()`.

### 3. Exercicios: Métodos e atributos da clase lista

**Ex 3.1**: 
* Copia e pega a seguinte lista na celda de máis abaixo:
        data = [10,12,13,18,'erro',22]
* Engádelle o número 24 á lista e imprímea.
* Inserta o número 15 na lista de xeito que os elementos queden ordenados ascendentemente e imprime a lista.
    * Pista: non esquezas que en Python os índices empezan en 0!
* Quita o a cadea `'erro'` da lista e imprime.

In [None]:
# Copia e pega os datos

In [None]:
# Engade 24 á lista

In [None]:
# Inserta 15 na lista

In [None]:
# Borra 'erro' da lista

**Ex 3.2**:
* Copia e pega a seguinte lista na celda máis abaixo:
        data = ['Portugal','France','Spain','England','Canada']
* Ordena a lista por orde alfabético e imprímea.
* Invirte a orde e volve a imprimir.

In [None]:
# Copia e pega os datos

In [None]:
# Ordea por orde alfabética

In [None]:
# Invirte a orde da lista

## <u>Traballando con listas: Listas por commprensión</u>

As **listas por comprensión** permiten realizar operacións en tódolos membros dun **iterable** e gardar os membros modificados nunha lista. Se se usa con xeito pode resultar nunha notación concisa e altamente lexible. En xeral é preferible este uso ó bucle for equivalente, xa que son máis concisas e computacionalmente máis rápidas de avaliar.

Sintaxe:

        nova_lista = [expresión for membro in iterable]
        
O bucle `for` equivalente sería:

        nova_lista = [] # inicializa nova_lista como lista valeira
        for membro in iterable: # loop en cada membro do iterable
            nova_lista.append(membro) # en cada iteración, engadir o membro a nova_lista

**expresión** - é un método, operación ou outra expresión válida que devolva un valor.

**membro** - é o obxecto ou valor na lista ou iterable.

**iterable** - é unha lista, set, tupla, generador, ou calquera outro obxeto que poida devolver os seus elementos un por un.

In [None]:
datas = ['2001-01-31','2002-02-28','2003-03-31','2004-04-30']
novasdatas = [date+' 00:00' for date in datas]
novasdatas

Que partes de  `novasdatas` son a expresión, o membro e o iterable?

In [None]:
meses = [data.split('-')[1] for data in datas]
meses

In [None]:
[int(mo) for mo in meses]

## <u>Listas por comprensión condicionais</u>

Dende python 3.8 existen as listas por comprensión **condicionais**:

        nova_lista = [expresión for membro in iterable (if condicional)]
        
O bucle `for` equivalente sería:

        nova_lista = [] # inicializa nova_lista como lista valeira
        for member in iterable: # loop through every member in iterable
            if condicional: # for each member, check if conditional is true
                nova_lista.append(member) # if conditional is true for member, append that member to new_list

No seguinte exemplo:

* `dataID` é a lista que contén identificadores únicos para cada fila dun dataset.

* Estes identificadores teñen un código de país (SP = Spain, US = United States, FR = France, MX = Mexico) e ano.

In [None]:
dataID = ['SP2012','US2014','FR2016','SP2013','FR2013','MX2019']

Queremos extraer os IDs correspondentes a España.

In [None]:
dataID_SP = [ID for ID in dataID if 'SP' in ID]
print(dataID_SP)

No exemplo seguinte:

* `T_F` é unha lista que contén datos de temperatura en graos Farenheit.

In [None]:
T_F = [81,86,76,'error',70,93,'error']

Queremos convertir esas temperaturas a graos Celsius, pero só para os datos que non son erros.

In [None]:
T_C = [(T-32)*(5/9) for T in T_F if not isinstance(T,(str))]
T_C

E se quixéramos conservar os erros?
* Teremos que empregar un `if-else` como parte da expresión. 
* Entón, temos que especificar o condicional **antes** do `for membro in iterable`. 

In [None]:
T_C = [(T-32)*(5/9) if not isinstance(T,(str)) else T for T in T_data]
T_C

### 4. Exercicios: Listas por comprensión

#### Ex 4.1: Conversión de unidades
* A seguinte lista contén datos de temperatura en graos Celsius: 
        T_C = [15,7,11,20,13,4]
* Copia e pega a liña anterior na celda inferior e convirte os datos da lista `T_C` en graos Kelvin.
    * Nota: $T_{Kelvin} = T_{Celsius} + 273.15$

In [1]:
T_C = [15,7,11,20,13,4]
T_K = [t + 273.15 for t in T_C ]
print(T_K)


[288.15, 280.15, 284.15, 293.15, 286.15, 277.15]


#### Ex 4.2: Selección de datos
* Usando a variable `dataID` de antes, extrae tódolos IDs do ano 2013 (copiamos outra vez a lista aquí para máis comodidade).  
        dataID = ['SP2012','US2014','FR2016','SP2013','FR2013','MX2019']

In [4]:
dataID = ['SP2012','US2014','FR2016','SP2013','FR2013','MX2019']

IDs2013 = [data     for data in dataID if "2013" in data ]
print(IDs2013)

['SP2013', 'FR2013']


#### Ex 4.3: Limpeza dos datos
* Usando a variable `T_C` do Ex 4.1 (copiado aquí para máior comodidade), extrae tódolos valores que superen os 10 graos.
        T_C = [15,7,11,20,13,4]

In [5]:
T_C = [15,7,11,20,13,4]
T_10 = [t for t in T_C if t >10 ]
print(T_10)

[15, 11, 20, 13]


## <u>Tuplas</u>
As tuplas son en moitos aspectos moi parecidas ás listas, só que se definen con parénteses en vez de corchetes.

A principal característica diferencial é que as tuplas son **immutables**:
* Unha vez que se crean, o seu tamaño e contido non se pode cambiar; nin tampouco a orde na que se dispoñen os elementos nela.

As tuplas úsanse con frecuencia en scripts de Pytnon, por exemplo unha función devolve múltiples parámetros.

In [None]:
t = (1, 2, 3)

Tamén se poden definir sen parénteses. Tén o mesmo efecto:

In [None]:
t = 1, 2, 3
print(t)

Igual que as listas, as tuplas teñen unha lonxitude, e pódense extraer os elementos individuais mediante o indexado con corchetes:

In [None]:
len(t)

In [None]:
t[0]

In [None]:
t[0] = 4

## <u>Diccionarios</u>
Os diccionarios expresan unha correspondencia entre **claves** e **valores**. Están en gran parte da implementación interna de Python. Tamén é común velos na especificación de configuracións de paquetes, como por exemplo Matplotlib.

Os diccionarios úsanse moito como diccionarios propiamente ditos!
* Un diccionario mapea una palabra (**clave** ca súa definición (**valor**).

Outra analoxía para un diccionario é unha guía telefónica:
* A guía telefónoca mapea cada persoa (**clave**) co seu número de teléfono (**valor**).

Igual que os diccionarios (os libros) ou a guía telefónoca, os diccionarios son útiles cando tés distintos items, cada un cun valor determinado que podes querer buscar.

Os diccionarios pódense crear por medio dunha lista de pares ``clave:valor``, encerrados entre **{chaves}**, ou usando a función `dict()`.

In [None]:
numbers = {'one':1, 'two':2, 'three':3}
# or
numbers = dict(one=1, two=2, three=2)
numbers

Para acceder ós valores dun diccionario úsase unha sintaxe parecida ás listas, só que en vez de usar o índice úsase a **clave** do elemento que se quere consultar.

In [None]:
# Access a value via the key
numbers['two']

Para engadir novos elementos ó diccionario podemos usar índices tamén!

In [None]:
# Set a new key:value pair
numbers['ninety'] = 90
print(numbers)

Tamén se poden gardar os datos por niveis, con **claves multinivel**. Para esto podemos facer que unha clave teña como valor outro diccionario. Deste xeito, aniñamos diccionarios.

In [None]:
phonebook = {'Alice': {'cell': {'US':1234567,
                               'UK':1122334}},
                      'home':7654321,
            'Matthew':{'cell':9876543,
                      'home':234567}}
phonebook

Para acceder a unha entrada específica utilizaríamos os índices correspondentes a cada entrada na orde na que foron aniñados:

In [None]:
print(phonebook['Alice'])
print(phonebook['Alice']['cell'])
print(phonebook['Alice']['cell']['US'])

Antes da versión 3.6, os diccionarios non mantiñan ningunha orde predefinida. [Despóis desa versión](https://docs.python.org/3/whatsnew/3.6.html#whatsnew36-compactdict) os diccionarios manteñen a orde de inserción por defecto.

### 5. Exercicios: Diccionarios

**Ex 5.1:**

* Crea un diccionario que almacene o nome científico das seguintes árbores:
  * Carballo: Quercus robur
  * Bidueiro: Betula alba
  * Salgueiro:  Salix atrocinerea
* Mostra o nome científico do bidueiro.

In [None]:
# Crea o diccionario

In [None]:
# Mostra a entrada

**Ex 5.2:**
* Crea un diccionario que conteña información da poboación das seguintes zonas de España e ons EEUU:
        España:
            Cataluña: 7.56E6
            Asturias: 1.022E6
            Andalucía: 8.49E6
        USA:
            California: 39.24E6
            Missouri: 6.17E6


* Mostra a poboación das tres zonas españolas.
* Mostra a poboación de Missouri.

In [None]:
# Crea o diccionario

In [None]:
# Mostra as zonas españolas

In [None]:
# Mostra Missouri

## <u>Test de lista valeira</u>

A forma recomendada de testear se unha sucesión (lista, tupla ou diccionario) está valeira é usando o seu "valor booleano implícito".

In [None]:
a = []
if not a:
  print("A lista está baleira:",a)

b={'one':1}
if b:
  print("O diccionario non está baleiro:",b)

## <u>Bola extra: Conxuntos</u>

O cuarto tipo de contenedor de datos básico é o `set` (conxunto), que contén coleccións non ordenadas de elementos **únicos**.
Definense case igual que as listas e as tuplas, so que con chaves.

Non poden ter datos duplicados. Esto significa que son moito máis rápidos que as listas.
http://stackoverflow.com/questions/2831212/python-sets-vs-lists 

In [None]:
primes = {2, 3, 5, 7}
odds = {1, 3, 5, 7, 9}

In [None]:
a = {1, 1, 2}

In [None]:
a

Se coñeces a matemática de conxuntos, resultaranche familiares as operación que se poden realizar con conxuntos, como unión, intersección, diferencia, diferencia simétrica e outras.
Os conxuntos en Python teñen métodos que implementan estas operacións.
Mostramos a continuación dúas maneiras de realizar estas operacións:

In [None]:
# unión: elementos que aparecen en algún dos dous conxuntos
primes | odds      # mediante un operador
primes.union(odds) # mediante un método

In [None]:
# intersección: elementos que aparecen nos dous conxuntos a un tempo
primes & odds             # mediante un operador
primes.intersection(odds) # mediante un método

In [None]:
# diferencia: elementos que aparecen en primes pero non en odds
primes - odds           # mediante un operador
primes.difference(odds) # mediante un método

In [None]:
# diferencia simétrica: elementos que aprarecen só nun dos conxuntos (en calquera)
primes ^ odds                     # mediante operador
primes.symmetric_difference(odds) # mediante un método

***

# <u>Solucións</u>

### 1. Solucións: creación de listas

**Ex 1.1**: Crea e imprime unha lista cos números enteiros entre 2015 e 2022.

In [None]:
years = [2015,2016,2017,2018,2019,2020,2021,2022]
years

**Ex 1.2**: Crea e imprime unha lista de nomes das provincias galegas.

In [None]:
provincias = ['A Coruña', 'Lugo','Ourense','Pontevedra']
provincias

**Ex 1.3**:
* Crea dúas listas que conteñan datas en formato ano, mes, día: por exemplo, 1789,7,14
* Crea e imprime unha lista que conteña ás dúas listas anteriores.

In [None]:
bastilla = [1789,7,14]
independencia = [1776,7,4]
datas = [bastilla, independencia]
datas

### 2. Solucións: indexado de listas

**Ex 2.1**: Usando a lista con valores de 2015 a 2022
* Imprime os dous primeiros valores da lista
* Imprime os valores pares da lista
* Imprime os dous últimos valores da lista

In [None]:
print(years[0:2])
print(years[1::2])
print(years[-2:])

### 3. Solucións: Métodos e atributos da clase lista

**Ex 3.1**: 
* Copia e pega a seguinte lista na celda de máis abaixo:
        data = [10,12,13,18,'erro',22]
* Engádelle o número 24 á lista e imprímea.
* Inserta o número 15 na lista de xeito que os elementos queden ordenados ascendentemente e imprime a lista.
    * Pista: non esquezas que en Python os índices empezan en 0!
* Quita o a cadea `'erro'` da lista e imprime.

In [None]:
data = [10,12,13,18,'error',22]
data.append(24)
print(data)
data.insert(3,15)
print(data)
data.remove('error')
data

**Ex 3.2**:
* Copia e pega a seguinte lista na celda máis abaixo:
        data = ['Portugal','France','Spain','England','Canada']
* Ordena a lista por orde alfabético e imprímea.
* Invirte a orde e volve a imprimir.

In [None]:
data = ['Portugal','France','Spain','England','Canada']
data.sort()
print(data)

# Method 1
print(data[::-1])

# Method 2
data.reverse()
print(data)

# Method 3
data.sort(reverse=True)
print(data)

### 4. Solucións: Listas  por comprensión

#### Ex 4.1: Conversión de unidades
* A seguinte lista contén datos de temperatura en graos Celsius: 
        T_C = [15,7,11,20,13,4]
* Copia e pega a liña anterior na celda inferior e convirte os datos da lista `T_C` en graos Kelvin.
    * Nota: $T_{Kelvin} = T_{Celsius} + 273.15$

In [None]:
T_C = [15,7,11,20,13,4]
T_K = [T+273.15 for T in T_C]
T_K

#### Ex 4.2: Selección de datos
* Usando a variable `dataID` de antes, extrae tódolos IDs do ano 2013 (copiamos outra vez a lista aquí para máis comodidade).
        dataID = ['SP2012','US2014','FR2016','SP2013','FR2013','MX2019']

In [None]:
[ID for ID in dataID if '2013' in ID]

#### Ex 4.3: Limpeza dos datos
* Usando a variable `T_C` do Ex 4.1 (copiado aquí para máior comodidade), extrae tódolos valores que superen os 10 graos.
        T_C = [15,7,11,20,13,4]

In [None]:
[T for T in T_C if T>10]

### 5. Solucións: Diccionarios

**Ex 5.1:**

* Crea un diccionario que almacene o nome científico das seguintes árbores:
        Carballo: Quercus Robur
        Bidueiro: Betula alba
        Salgueiro:  Salix atrocinerea
* Mostra o nome científico do bidueiro.

In [None]:
dict_arbores = {'Carballo': 'Quercus robur',
        'Bidueiro': 'Betula alba',
        'Salgueiro': 'Salix atrocinerea'}

In [None]:
dict_arbores['Bidueiro']

**Ex 5.2:**
* Crea un diccionario que conteña información da poboación das seguintes zonas de España e ons EEUU:
        España:
            Cataluña: 7.56E6
            Asturias: 1.022E6
            Andalucía: 8.49E6
        USA:
            California: 39.24E6
            Missouri: 6.17E6


* Mostra a poboación das tres zonas españolas.
* Mostra a poboación de Missouri.

In [None]:
pop_dict = {'Spain':
              {'Catalonia': 7.56E6,
              'Asturias': 1.022E6,
              'Andalusia': 8.49E6},
            'USA':
              {'California': 39.24E6,
              'Missouri': 6.17E6}}

In [None]:
pop_dict['Spain']

In [None]:
pop_dict['USA']['Missouri']

## References
* *A Whirlwind Tour of Python* by Jake VanderPlas (O’Reilly). Copyright 2016 O’Reilly Media, Inc., 978-1-491-96465-1
* The [python documentation](https://docs.python.org/3/library/stdtypes.html) of standard types