# 02 Estruturas de datos

## Contidos
-    Conceptos de mutabilidade e orde
    - Operadores de identidade: *is* e *not is*
-    Estruturas de datos
        - Listas
            - Creación dunha lista *[ , ]*
            - Función *list()*
            - Acceso ós elementos dunha lista
            - Troceado dunha lista, *slicing*
            - Funcións e métodos:
                - *len()*
                - *index()*
                - *insert()*
                - *append()*
                - *extend()*
                - *remove()*
                - *count()*
                - *reverse()*
                - *max()*
                - *min()*
                - *sort()*
                - *sorted()*
                - *pop()*
                - Operadores *in* e *not in*
                - *join()*
        - Tuplas
            - Creación dunha tupla *( , )* (empaquetado de tuplas)
            - Creación dunha tupla baleira e conversión de iterables a tuplas: *tuple()*
            - Desempaquetado de tuplas
            - Acceso ós elementos dunha tupla.
            - Funcións:
                - *len()*
                - *count()*
                - *index()*
        - Dicionarios
            - Creación dun dicionario *{ : }*
            - Acceso ós elementos dun dicionario *[ ]*
            - Engadido de novos elementos ó dicionario
            - Creación dun dicinario baleiro: *dict()*
            - Borrado de elementos dun dicionario: *del*
            - Funcións e métodos:
                - *list()*
                - *sorted()*
                - *get()*
                - Operadores *in* e *not in*
                - *keys()* e *values()*
                - *pop()* e *popitem()*
                - *clear()*
            - Estruturas complexas de dicionarios aniñados
        - Conxuntos
            - Creación de conxuntos *{ , }*
            - *set()*
            - Conxunto baleiro
            - Funcións e métodos:
                - *union()*
                - *intersection()*
                - *difference()*
                -  Operadores *in* e *not in*
                - *len()*
                - *add()*
                - *pop()*
                - *remove()*
                - *discard()*
                - *clear()*
  

---

## Conceptos de mutabilidade e orde

Antes de profundizar nos tipos e estruturas de datos, hai que aclarar dous conceptos básicos fundamentais en Python, o de **mutabilidade** e o de **orde**:

- **Inmutable**: non é posible modifica-lo contido dun tipo de dato inmutable, unha vez creado, aínda que como en calquera variable si é posible asignarlle un novo valor. Exemplos de obxectos inmutables son os números, strings e tuplas.

- **Mutable**: son todos aqueles obxectos ós que é posible modifica-lo seu contido. Os obxectos mutables más comúns son as listas, dicionarios e conxuntos, que serven para gardar coleccións de datos.


| Tipos de datos mutables | Tipos de datos inmutables |
| :--- | :--- |
| listas | cadeas de texto |
| dicionarios | tuplas |
| sets | frozenset  |
| bytearray | enteiros |
| memoryview | float |
| *clases definidas polo/a usuario/a* (arrays, pilas, colas,..) | complexos |
|  | booleanos |
|  | range |
|  | bytes |

In [92]:
lista = [1, 2, 3, 4, 5]  # unha lista é un obxecto mutable
lista[0] = 'un'  # pódese modifica-lo seu contido con posterioridade á súa creación
print(lista)

['un', 2, 3, 4, 5]


In [93]:
cadea_texto = "Ola, Mundo!"  # unha cadea de caracteres (string) é un obxecto inmutable
cadea_texto[0] = 'o'  # non é posible cambia-lo seu contido logo de ter sido creado

TypeError: 'str' object does not support item assignment

In [94]:
tupla = (1, 2, 3, 4, 5)  # unha tupla é un obxecto inmutable
tupla[0] = 0  # non é posible cambia-lo seu contido logo de ter sido creado
print(tupla)

TypeError: 'tuple' object does not support item assignment

As principais diferenzas entre tipos mutables e inmutables son as seguintes:

. Os **tipos inmutables son xeralmente máis rápidos de acceder** (se non se pensa modificar unha lista, é mellor usar unha tupla).

. Os **tipos mutables son os axeitados cando se quere cambia-lo seu contido varias veces**.

. Os tipos inmutables son caros de cambiar, xa que o que se fai en realidade é facer unha copia do seu contido nun novo obxecto coas modificacións.

Para comprendelo mellor axuda compara-los cos conceptos de **paso por valor** ou **paso por referencia** aplicados ós parámetros pasados como entrada ás funcións, usados noutras linguaxes como *Pascal* ou *C*:

. Os tipos **inmutables son pasados por valor**, por tanto dentro da función accédese a unha copia e non ó valor orixinal.

    Se se usa un parámetro pasado por valor, créase unha copia local da variable, o que implica que 
    calquera modificación sobre a mesma non terá efecto sobre a orixinal.

. Os tipos **mutables son pasados por referencia** ou como **punteiros**, como é o caso das listas e os dicionarios.

    Cunha variable pasada como referencia, actúase directamente sobre a variable pasada, polo que 
    as modificacións afectarán á variable orixinal.

A forma máis sinxela de ve-la diferente forma en que Python usa os tipos mutables e inmutables é comparando as listas (mutables) en oposición ás tuplas (inmutables).

Unha lista pode ser modificada unha vez creada:

In [16]:
lista = [1, 2, 3, 4, 5]
print(id(lista))  # id() devolve o identificador do obxecto
print(lista)
lista[0] = 0  # a asignación pódese realizar
print(id(lista))  # como o obxecto é mutable o identificador devolto do obxecto non cambiou pese a muda-lo seu contido
print(lista)

140373085396608
[1, 2, 3, 4, 5]
140373085396608
[0, 2, 3, 4, 5]


A función `id()` devolve un identificador único do obxecto e pódese observar que é o mesmo antes e despois de realiza-la modificación.


Pola contra, unha tupla é inmutable, polo que a seguinte asignación dará un erro:

In [8]:
tupla = (1, 2, 3, 4, 5)
tupla[0] = 0  # a asignación non se pode realizar

TypeError: 'tuple' object does not support item assignment

Os enteiros tamén son inmutables, pero mediante o seguinte exemplo queda máis claro que este tipo de datos non se pode modificar pese a que aparentemente nolo parecese:

. Temos unha variable *x* coa súa id e engadímoslle unha unidade. O resultado é que o identificador cambia, xa que Python non pode cambia-lo número *10* ó se-lo enteiro un tipo inmutable.

In [29]:
print('10 en ', id(10))  # 140373777259088 (o número 10 é inmutable e ten un identificador único)
x = 10
print('x en ', id(x)) # 140373777259088
print('x = ', x)
x = x + 1
print('x en ', id(x)) # 140373777259120 (o id cambiou, xa que en realidade creouse un novo obxecto)
print('x = ', x)
print('11 en ', id(11))  # 140373777259120 (o número 11 é inmutable e ten un identificador único)

10 en  140373777259088
x en  140373777259088
x =  10
x en  140373777259120
x =  11
11 en  140373777259120


E aínda podemos facer máis probas...

In [31]:
y = 10
print('y en ', id(y)) # 140373777259088 (o id da nova variable segue sendo o mesmo que tiña o obxecto 10)
print('y = ', y)
z = x
print('z en ', id(z)) # 140373777259088  (o id da nova variable segue sendo o mesmo que tiña o obxecto x, cando pasou a conte-lo número 11)
print('z = ', z)

y en  140373777259088
y =  10
z en  140373777259120
z =  11


Pola contra, se se usa unha lista, que é un tipo mutable, ó tentar modifica-la variable *x*, dita modificación pode ser realizada na mesma variable, polo que o `id()` é o mesmo:

In [51]:
x = [1, 2, 3, 4, 5]
print(x)
print(id(x)) # 4382432768
x.append(6)
print(x)
print(id(x)) # 4382432768 (Non cambia)

[1, 2, 3, 4, 5]
140373085508160
[1, 2, 3, 4, 5, 6]
140373085508160


### Operadores de identidade: *is* e *not is*

O operador de identidade `is` indica se dúas variables fan referencia ó mesmo obxecto. Isto implica que se dúas variables distintas teñen o mesmo `id()`, o resultado de aplica-lo operador `is` sobre elas será `True`.

| Operador | función |
| :--- | :--- |
| `is` | Devolve `True` se fan referencia ó mesmo obxecto |
| `is not` | Devolve `False` se non fai referencia ó mesmo obxecto |

No seguinte exemplo o valor *10* almacénase no mesmo obxecto para ambas variables, e usando a función `id()` pódese comprobar:

In [36]:
x = 10
y = 10
print(x is y)  # devolve True porque x e y refírense ó mesmo obxecto
print(id(x))  # devolve o mesmo obxecto para ambas variables 140373777259088
print(id(y))  # devolve o mesmo obxecto para ambas variables 140373777259088

True
140373777259088
140373777259088


**Non se deben confundir os operadores de identidade cos de igualdade!** Neste caso pódese ver como ambos valores son iguais co operador relacional `==`, pero nesta ocasión isto é unha simple coincidencia:
**Que dous variables teñan o mesmo contido, non implica necesariamente que fagan referencia ó mesmo obxecto**.

In [38]:
print(x == y) # devolve True xa que ambas variables teñen o mesmo valor (neste caso é lóxico xa que ambas apuntan ó mesmo obxecto)

True


No caso das listas, que é un tipo mutable, pódese comprobar que aínda que dúas listas poidan te-lo mismo valor, non son o mesmo obxecto:

In [52]:
# Python crea dous obxectos diferentes, un para cada lista: as listas son mutables.
l1 = [1, 2, 3, 4, 5]
l2 = [1, 2, 3, 4 ,5]

l3 = l1  # créase unha lista que se refire ó mesmo obxecto (en realidade, deste xeito créase un alias)

print(l1 == l2)  # devolve True xa que ambas listas teñen os mesmos elementos, son iguais
print(l1 is l2)  # devolve False xa que son 2 obxectos diferentes

print(l1 == l3)  # devolve True xa que ambas listas teñen os mesmos elementos, son iguais
print(l1 is l3)  # devolve True xa que son o mesmo obxecto

print(id(l1))  # devolve 140373085444544
print(id(l2))  # devolve un obxecto distinto: 140373085409472

print(id(l3))  # devolve o mesmo obxecto que l1: 140373085444544

True
False
True
True
140373086060992
140373085692480
140373086060992


In [None]:
O que si se pode e modifica-lo valor dunha tupla e comparar novamente a igualdade ou non:

In [55]:
l1[0] = 0
print(l1 is l2)  # devolve False xa que son 2 obxectos diferentes
print(l1 is l3)  # devolve True xa que son o mesmo obxecto

print(id(l1))  # devolve 140373085444544
print(id(l2))  # devolve un obxecto distinto: 140373085409472

print(id(l3))  # devolve o mesmo obxecto que l1: 140373085444544


False
True
140373086060992
140373085692480
140373086060992


E no caso da tuplas, que é un tipo inmutable, tamén é posible comprobar se son a mesma, pero non modifica-lo seu valor unha vez creadas:

In [50]:
# Python crea un único obxecto para ambas tuplas: as tuplas son inmutables.
t1 = (1, 2, 3, 4, 5)
t2 = (1, 2, 3, 4, 5)

t3 = t1  # créase unha tupla que se refire ó mesmo obxecto (en realidade, deste xeito créase un alias)


print(t1 != t2)  # devolve False xa que ambas tuplas teñen os mesmos elementos, son iguais
print(t1 is not t2) # devolve True xa que ambas tuplas son obxectos distintos

print(t1 != t3)  # devolve False xa que ambas tuplas teñen os mesmos elementos, son iguais
print(t1 is not t3) # devolve False xa que ambas tuplas son o mesmo obxecto

print(id(t1))  # devolve 140373085482736
print(id(t2))  # devolve un obxecto distinto: 140373085491584

print(id(t3))  # devolve o mesmo obxecto que t1: 140373085482736

False
True
False
False
140373085469568
140373085469008
140373085469568


In [54]:
t1.add(0)
print(t1 is t2) # devolve True xa que ambas tuplas son obxectos distintos
print(t1 is t3)  # devolve True xa que son o mesmo obxecto

print(id(t1))  # devolve 140373085482736
print(id(t2))  # devolve un obxecto distinto: 140373085491584

print(id(t3))  # devolve o mesmo obxecto que t1: 140373085482736

False


- **Ordeado**: refírese a se se pode utiliza-la posición dun elemento dun obxecto para acceder a el. As cadeas, tuplas e listas son tipos ordeados, polo que pódese usa-la orde, os índices, para acceder a partes dos obxectos, ó contrario dos dicionarios e conxuntos, que non son ordeados.


| Tipos de datos ordeados | Tipos de datos desordeados |
| :--- | :--- |
| listas | sets |
| cadeas de texto | frozenset |
| tuplas | enteiros |
| range | float |
| dicionarios (nas versións posteriores á Python 3.7) | dicionarios (nas versións anteriores á Python 3.7) |
|  | complexos |
|  | booleanos |
|  | bytes |

In [3]:
print(lista[0])  # as listas son obxectos ordeados, polo que permiten acceder ós seus elementos mediante a posición que ocupan neles
print(cadea_texto[0])  # as cadeas de texto tamén son obxectos ordeados

un
O


## Estruturas de datos
Ademais dos tipos de datos básicos (numéricos, de cadea de texto, booleanos e NoneType), Python proporciona outros tipos máis complexos de estruturas de datos, entre os que hai que destaca-los 4 seguintes tipos incorporados (*built-in*):

- listas
- tuplas
- dicionarios
- conxuntos

| Tipos de estruturas de datos | Ordeados | Mutables | Construtor | Exemplo |
| :--- | :--- | :--- | :--- | :--- |
| lista | Si | Si | `[ ]` ou `list()`| [45, 4, 'non', 4] |
| tupla | Si | Non | `( )` ou `tuple()` | (45, 4, 'non', 4) |
| conxunto | Non | Si | `{ }` ou `set()` | {45, 4, 'non'} |
| dicionario | Non | Non | `{}` ou `dict()` | {'luns' : 1, 'martes' : 2, 'mércores' : 3} |

*Ollo!*, pódense usa-las chaves `{ }` para definir un conxunto do seguinte xeito: *{1, 2, 3}*, sen embargo se o contido das chaves está baleiro, `{}`, o que se crea é un dicionario baleiro.

### Listas
As listas son as estruturas de datos máis utilizadas en Python. Unha lista é unha estrutura que nos permite ter unha **secuencia ordeada mutable de elementos**, un **conxunto de obxectos separados por comas**.

Unha lista está composta por 0 ou máis elementos.

Esta estrutura de datos é **mutable**, é dicir, podemos cambia-lo valor dunha lista que creamos, cambiando a orde dos elementos, engadindo, modificando e eliminando seus elementos.

Nunha lista poden existir elementos heteroxéneos, é dicir, **elementos con diferentes tipos de datos** ou, mesmo, diferentes estruturas de datos, o que as fai moi versátiles. Con todo, o normal é que todos os elementos dunha lista sexan do mesmo tipo.  

- Creación dunha lista

Para declarar unha lista, escribimos entre corchetes (`[]`) un conxunto de elementos separados por comas.


In [105]:
lista = ['Ola', 45, True]
lista  # devolve ['Ola', 45, True]

['Ola', 45, True]

In [109]:
type(lista)  # devolve list

list

- `list()` Pódese crear unha lista baleira usando unicamente os corchetes sen ningún valor dentro ou utilizando a función `list()`:

In [24]:
lista_baleira = []

In [25]:
type(lista_baleira)

list

In [125]:
lista_baleira = list()  # list() sen argumentos equivale a crear unha lista baleira

In [126]:
type(lista_baleira)

list

- Convertir ó tipo lista con `list()`

Pódense converter outros tipos de datos nunha lista usando a función `list()` sobre calquera tipo de datos que permita ser iterado.

In [21]:
list('Ola Mundo')  # converte unha cadea de texto nunha lista

['O', 'l', 'a', ' ', 'M', 'u', 'n', 'd', 'o']

In [14]:
# a función range() permite xerar números enteiros, por exemplo:
for i in range(5):  # imprime un rango de 5 números enteiros na mesma liña
    print(i, end=" ")

0 1 2 3 4 

In [15]:
list(range(10))  # converte un rango numérico nunha lista

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

- Acceso ós elementos dunha lista

Nunha lista pódense acceder ós distintos elementos da mesma de xeito idéntico ás cadeas de texto. Para iso, só temos que indica-la posición que ocupa o elemento
dentro da lista, é dicir, indica-lo **índice** do elemento. 

Hai que ter en conta que **o primeiro elemento da lista ocupa a posición 0**, e que se se indica un índice anterior ó primeiro, ou posterior ó final obterase un erro.

In [9]:
lista = ['Ola', 45, True]
lista[2]  # devolve o valor True
print(lista[len(lista) - 1])  # devolve o último valor: True

True


In [3]:
lista[25]  # devolve un erro de índice fóra de rango

IndexError: list index out of range

In [10]:
lista[len(lista)]  # devolve un erro de índice fóra de rango

IndexError: list index out of range

Permite usar índices negativos para conta-los elementos dende o final da lista

In [35]:
lista[-1] # devolve o último valor

True

Uns últimos exemplos:

In [16]:
meses = ['xaneiro', 'febreiro', 'marzo', 'abril', 'maio', 'xuño', 'xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']
print(meses[0])  # devolve xaneiro
print(meses[1])  # devolve febreiro
print(meses[10])  # devolve novembro
print(meses[-1])  # devolve decembro
print(meses[24])  # devolve IndexError: list index out of range


xaneiro
febreiro
novembro
decembro


IndexError: list index out of range

In [18]:
mes = 7  # mes de xullo
dias_do_mes = [31,28,31,30,31,30,31,31,30,31,30,31]

# usando os índices das listas para determina-lo número de días de cada mes
numero_dias = dias_do_mes[mes - 1]  # ollo con que o índice empeza en 0

print(numero_dias)  # devolve 31, que é o número de días do 7º mes, xullo 

31


- Troceado dunha lista

Tamén pódese acceder a un conxunto de elementos dunha lista usando o símbolo de dous puntos (`:`) dentro dos corchetes: a isto se lle chama un **rango de índices**.

Por exemplo, para obte-las x primeiras posicións dunha lista faríase o seguinte: `lista[:x]`

Cando se usan os rangos de **índices, existen uns valores por defecto cando non se indica o seu valor**. 

O **valor por defecto do primeiro índice é 0** e o **valor por defecto do último índice é a lonxitude da lista**.

Así para obte-los *n* primeiros valores dunha lista se indicaría *`[:n]`*

In [4]:
meses = ['xaneiro', 'febreiro', 'marzo', 'abril', 'maio', 'xuño', 'xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']
meses[:2]  # devolve os 2 primeiros elementos da lista: ['xaneiro', 'febreiro']

['xaneiro', 'febreiro']

E para obte-los últimos valores dunha lista, a partir do *n*, pero sen incluír a este, indicaríase *`[n:]`*

In [56]:
meses[6:]  # devolve os últimos elementos da lista, a partir do 6º -non incluído-: ['xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']

['xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']

In [57]:
meses[1:]  # devolve os elementos da lista, a partir do 1º: ['febreiro', 'marzo', 'abril', 'maio', 'xuño', 'xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']

['febreiro',
 'marzo',
 'abril',
 'maio',
 'xuño',
 'xullo',
 'agosto',
 'setembro',
 'outubro',
 'novembro',
 'decembro']

Cando se usa o rango de índices, ***slicing***, **o índice inicial está incluído pero o final queda excluído**; os dous puntos `:` indican que debemos ir dende o valor inicial da esquerda dos dous puntos ata, pero sen incluír, o elemento da dereita.

Así, por exemplo, para obte-los 3 meses do 2º trimestre:

In [54]:
meses[3:6]  # devolve os meses do segundo trimestre

['abril', 'maio', 'xuño']

Ademais, dentro dos índices das listas, xa sexa un só índice ou un rango, podemos usar **valores negativos**. Neses casos Python devolve os elementos contando a súa posición dende a dereita, é dicir contando dende o último cara ó primeiro.

In [21]:
meses[-1]  # devolve 'decembro'

'decembro'

In [32]:
meses[-2:]  # devolve ['novembro', 'decembro']

['novembro', 'decembro']

No troceado de listas, a diferencia do que ocurre ó obter elementos, non debemos preocuparnos por acceder a índices inválidos (fóra de rango) xa que Python os restrinxirá ós límites da lista.

In [33]:
meses[14:]  # non dá erro, só devolve unha lista baleira

[]

In [46]:
meses[-15:2]  # non dá erro, simplemente comeza a conta dende o primeiro valor existente

['xaneiro', 'febreiro']

In [53]:
meses[2:15]  # non dá erro, simplemente remata a conta no último valor existente

['marzo',
 'abril',
 'maio',
 'xuño',
 'xullo',
 'agosto',
 'setembro',
 'outubro',
 'novembro',
 'decembro']

Tamén é posible tomar valores "salteados" da lista, indicando un valor de *salto* co formato `lista(inicio:fin:salto)`; o terceiro argumento é o número de saltos que se avanza en cada corte.

**Ollo!**, entende-los parámetros desta función con *salto* dá para unha enciclopedia ;-D https://www.learnbyexample.org/python-list-slicing/


In [60]:
meses[0:12:2]  # devolve os datos que e atopan nas posicións impares

['xaneiro', 'marzo', 'maio', 'xullo', 'setembro', 'novembro']

In [62]:
meses[-1:-12:-2]  # devolve os datos que e atopan nas posicións impares, pero empezando a contar polo final

['decembro', 'outubro', 'agosto', 'xuño', 'abril', 'febreiro']

Pódese usa-lo troceado, slicing, para cambiar simultaneamente varios valores dunha lista:

In [28]:
meses[10:12] = ["San Martiño", "Nadal"]  # modifica os 2 últimos valores da lista dos meses
print(meses[10:12])  # devolve os nomes dos 2 últimos meses (ollo con que o índice comeza en 0!)
print(meses)

['San Martiño', 'Nadal']
['xaneiro', 'febreiro', 'marzo', 'abril', 'maio', 'xuño', 'xullo', 'agosto', 'setembro', 'outubro', 'San Martiño', 'Nadal']


Un último exemplo:

In [25]:
datas_eleccions_xerais = ['15, xuño, 1977', '01, marzo, 1979', '28, outubro, 1982', '22, xuño, 1986', '29, outubro, 1989',
                 '06, xuño, 1993', '03, marzo, 1996', '12, marzo, 2000', '14, marzo, 2004', '09, marzo, 2008',
                  '20, novembro, 2011', '20, decembro, 2015', '26, xuño, 2016', '28, abril, 2019', '10, novembro, 2019']
                 
print(datas_eleccions_xerais[-3:])  # devolve os 3 últimos elementos da lista

['26, xuño, 2016', '28, abril, 2019', '10, novembro, 2019']


#### Funcións aplicables ás listas

- `len()`: devolve a lonxitude dunha lista, é dicir, o número de elementos incluídos nunha lista.

In [63]:
len(meses) # devolve 3

12

- `index()`: devolve a posición que ocupa un elemento dentro dunha lista. En caso de que o elemento estea repetido, devolverá a primeira posición onde aparece o obxecto. Se non o atopase, daría un erro.

In [65]:
meses.index('xaneiro') # devolve 0

0

- `insert()`: insire un elemento dentro dunha lista na posición que lle indicamos.

In [79]:
lista = ['Ola', 45, True]
lista.insert(1, 'Adeus')
lista # amosa ['Ola', 'Adeus', 45, True]

['Ola', 'Adeus', 45, True]

- `append()`: insire un elemento ó final da lista. No caso de que poñamos unha lista de elementos, a función insireo como un elemento único.

In [83]:
lista = ['Ola', 45, True]
lista.append([30, 70])
lista # amosa ['Ola', 45, True, [30, 70]]

['Ola', 45, True, [30, 70]]

- `extend()`: permite agregar un conxunto de elementos nunha lista. A diferenza do
método anterior, se incluímos unha lista de elementos, agregaranse cada un dos
elementos á lista.

In [86]:
lista = ['Ola', 45, True]
lista.extend([30, 70])
lista # amosa ['Ola', 45, True, 30, 70]

['Ola', 45, True, 30, 70]

- `remove()`: elimina o elemento que pasamos como parámetro da lista. No caso de que este elemento estivese repetido, só se elimina a primeira copia.

In [88]:
lista = ['Ola', 45, True, 'Ola']
lista.remove('Ola')
lista # Mostraranos [45, True, 'Ola']

[45, True, 'Ola']

- `count()`: devolve o número de veces que se atopa un elemento nunha lista.

In [89]:
lista = ['Ola', 45, True, 'Ola']
lista.count('Ola') # devolve 2

2

- `reverse()`: este método inverte a posición de tódo-los elementos da lista.

In [91]:
lista = ['Ola', 45, True]
lista.reverse()
lista # amosa [True, 45, 'Ola']

[True, 45, 'Ola']

In [91]:
lista = ['Ola', 45, True]
lista.reverse()
lista # amosa [True, 45, 'Ola']

[True, 45, 'Ola']

- `max()`: devolve o maior elemento da lista. Como se determina o maior elemento depende do tipo de obxectos que estean na lista:
    - O elemento *max* nunha lista de números é o número máis grande
    - O elemento *max* dunha lista de cadeas é o elemento que aparecería en último lugar se a lista estivese ordeada alfabeticamente. 

Isto funciona porque a función `max()` está definida en termos do operador de comparación *maior que*, `>`. 

A función `max()` non está definida para listas que conteñen elementos de tipos diferentes e incomparables.

In [5]:
meses = ['xaneiro', 'febreiro', 'marzo', 'abril', 'maio', 'xuño', 'xullo', 'agosto', 'setembro', 'outubro', 'novembro', 'decembro']
max(meses)  # sobre unha lista de cadeas de texto devolve a que estaría en último lugar en orde alfabético: xuño

'xuño'

In [6]:
dias_do_mes = [31,28,31,30,31,30,31,31,30,31,30,31]
max(dias_do_mes)  # sobre unha lista de números devolve o valor máis grande: 31

31

In [7]:
lista = ['Ola', 45, True]
max(lista)  # sobre unha lista de tipos incomparables, por ser distintos, devolve un erro

TypeError: '>' not supported between instances of 'int' and 'str'

In [22]:
lista2 = [0.32, 45, 123e6]
max(lista2)  # sobre unha lista de tipos comparables, aínda que sexan de tipos distintos, devolve o maior valor: 123 * 10^6

123000000.0

- `min()` é a función contraria a `max()`, devolve o elemento menor da lista.

In [23]:
min(meses)  # sobre unha lista de cadeas de texto devolve a que estaría en primeiro lugar en orde alfabético: abril

'abril'

In [25]:
min(dias_do_mes)  # sobre unha lista de números devolve o valor máis pequeno: 28

28

In [27]:
min(lista2)  # sobre unha lista de tipos comparables, aínda que sexan de tipos distintos, devolve o menor valor: 0.32

0.32

- `sort()`: método que ordea os elementos dunha lista. Por defecto, este método ordénaos en orde crecente. Para ordealo de forma decrecente, hai que incluí-lo parámetro (`reverse=True`). Ollo!, a lista debe conter elementos do mesmo tipo.

In [57]:
lista = [16, 34, 3, 8, 1, 6, 2]

In [58]:
lista.sort()
lista # amosa [1, 2, 3, 6, 8, 16, 34]

[1, 2, 3, 6, 8, 16, 34]

In [59]:
lista.sort(reverse=True)
lista # amosa [34, 16, 8, 6, 3, 2, 1]

[34, 16, 8, 6, 3, 2, 1]

- `sorted()`: esta función tamén ordea a lista que se lle pasa como parámetro, sen embargo, a diferencia do anterior método, devolve os valores ordeados pero sen modifica-lo obxecto orixinal.

In [60]:
print(lista)  # devolve os valores da lista
print(sorted(lista))  # devolve os valores ordeados da lista, pero sen modifica-la lista orixinal
print(lista)  # devolve os valores da lista orixinal

[34, 16, 8, 6, 3, 2, 1]
[1, 2, 3, 6, 8, 16, 34]
[34, 16, 8, 6, 3, 2, 1]


- `pop()`: elimina e devolve o elemento que se atopa na posición que se pasa como parámetro. No caso de que non se pase ningún valor por parámetro, eliminará e devolverá o último elemento da lista.

In [71]:
lista = [16, 34, 3, 8, 1, 6, 2]
lista.pop(1) # devolve 34

34

In [72]:
lista # amosa [16, 3, 8, 1, 6, 2]

[16, 3, 8, 1, 6, 2]

- Os operadores `in` e `not in`: devolven un valor booleano indicando se un elemento se atopa ou non, respectivamente, nunha lista.

In [74]:
16 in lista

True

In [77]:
8 not in [16, 3, 8, 1, 6, 2]

False

- `join():` Este é un método de cadeas de caracteres que toma unha lista de cadeas como argumento e devolve unha cadea formada polos elementos da lista unidos por unha cadea separadora.

In [64]:
estacions = "-".join(["primavera", "verán", "outono", "inverno"])
print(estacions)
estacions_separadas_en_linhas = "\n".join(["primavera", "verán", "outono", "inverno"])
print(estacions_separadas_en_linhas)

primavera-verán-outono-inverno
primavera
verán
outono
inverno


Ollo!, a lista ten que ser só de cadeas, do contrario devolverá un erro.

In [67]:
estacions_con_e = " e ".join(["primavera", "verán", "outono", "inverno", 6])
print(estacions_con_e)

TypeError: sequence item 4: expected str instance, int found

Ollo!, as cadeas de texto da lista teñen que estar separadas con comas, xa que do contrario o resultado é inesperado.

In [68]:
estacions_con_e = " e ".join(["primavera" "verán" "outono" "inverno"])
print(estacions_con_e)

primaveraveránoutonoinverno


Uns últimos exemplos:

In [70]:
nomes = ["Juan", "Isaac", "Ricardo", "Cristina", "Sancho"]
print(" e ".join(sorted(nomes)))
print(nomes)

Cristina e Isaac e Juan e Ricardo e Sancho
['Juan', 'Isaac', 'Ricardo', 'Cristina', 'Sancho']


In [73]:
names = ["Juan", "Isaac", "Ricardo", "Cristina", "Sancho"]
names.append("Relevo")
print(names)
print(sorted(names))

['Juan', 'Isaac', 'Ricardo', 'Cristina', 'Sancho', 'Relevo']
['Cristina', 'Isaac', 'Juan', 'Relevo', 'Ricardo', 'Sancho']


As listas facilitan entender mellor a diferencia entre utiliza-los operadores de identidade `is` e `not is`, ou os operadores de igualdade `==` e `not =`.

No seguinte exemplo, a lista *lista_a* e a lista *lista_b* son iguais e idénticas. A lista *lista_c* é igual á *lista_a* (e á *lista_b*) xa que teñen o mesmo contido. Pero a *lista_a* e a *lista_c* (e de novo para este caso, a *lista_b*) **apuntan a dous obxectos diferentes, é dicir, non son obxectos idénticos. Esa é a diferenza entre comproba-la igualdade e a identidade**.


In [82]:
lista_a = [1, 2, 3]
lista_b = lista_a
lista_c = [1, 2, 3]

print(lista_a == lista_b)  # devolve True
print(lista_a is lista_b)  # devolve True
print(lista_a == lista_c)  # devolve True
print(lista_a is lista_c)  # devolve False
# devolve True

True
True
True
False


### Tuplas
As tuplas son similares ás listas xa que almacenan unha colección **ordenada** de obxectos separados por comas, á que se pode acceder mediante os seus índices; non obstante, a diferenza das listas, as tuplas son **inmutables**: non se poden engadir ou eliminar elementos das tuplas, nin ordealas, unha vez creadas.

Aínda que poidan parecer estruturas de datos moi similares, as tuplas, ó ser inmutables, carecen de certas operacións, especialmente as que teñen que ver coa modificación dos seus valores. Pero aínda que as listas son máis flexibles e potentes, as tuplas teñen tamén certas vantaxes fronte ás listas:

-- As tuplas ocupan menos espazo en memoria.

-- Nas tuplas existe protección fronte a cambios indesexados.

-- As tuplas pódense usar como chaves de dicionarios (son *hashables*).

-- As *namedtuples* son unha alternativa sinxela ós obxectos.

Unha tupla é un tipo de datos para **secuencias ordenadas de elementos inmutables**. Adoitan usarse para almacenar información relacionada.

- Creación dunha tupla (*empaquetado de tuplas*)

Unha tupla créase a partir dunha secuencia de valores separados por comas. 
O resultado é unha tupla que contén todos estes elementos.
A esta operación denomínaselle **empaquetado de tuplas**.

Os **parénteses son opcionais cando se definen tuplas**, e adoitan omitirse cando os parénteses non aclaran o código.

In [13]:
coordenadas_gps_grados_decimais = (42.25140716742148, -8.690057920707702)
print("Latitude:", localización[0])
print("Lonxitude:", localización[1])
print(coordenadas_gps_grados_decimais)

Latitude: 42.25140716742148
Lonxitude: -8.690057920707702
(42.25140716742148, -8.690057920707702)


As tuplas tamén se poden usar para asignar varias variables dun xeito compacto.
Na segunda liña do seguinte exemplo, asígnanse tres variables a partir do contido das dimensións da tupla; a isto chámaselle **desempaquetado de tuplas**. Pódese usa-lo desempaquetado de tuplas para asigna-la información dunha tupla a varias variables sen ter que acceder a elas unha por unha e facer varias instrucións de asignación.

In [14]:
dimensions = 100, 315, 410  # empaquetado de tupla
ancho, alto, fondo = dimensions  # desempaquetado de tupla
print("As dimensións da caixa do PC son de {} x {} x {}, para o Taller 7".format(ancho, alto, fondo))

As dimensións da caixa do PC son de 100 x 315 x 410, para o Taller 7


Se non se necesitase usar dimensións directamente, poderíanse acurtar esas dúas liñas de código nunha única liña que asigne tres variables dunha soa vez, a partir dunha tupla. **O que realmente constrúe unha tupla e a coma separando os seus elementos, non os parénteses** -que lembremos que son opcionais, excepto no caso da tupla baleira, ou cando se necesitan para evitar una ambigüidade sintáctica-.

In [15]:
ancho, alto, fondo = 100, 315, 410
print("As dimensións son {} x {} x {}".format(ancho, alto, fondo))

As dimensións son 100 x 315 x 410


Os elementos contidos nunha tupla non teñen porqué ser do mesmo tipo.

In [11]:
tupla = 'Ola', 4.5, True, 'Ola'
tupla # devolve ('Ola', 4.5, True, 'Ola')

('Ola', 4.5, True, 'Ola')

In [12]:
type(tupla) # devolve tuple

tuple

- `tuple()` Pódese crear unha tupla baleira usando unicamente os parénteses sen ningún valor dentro ou utilizando a función `tuple()`:

In [122]:
tupla_baleira = tuple() # tuple() sen argumentos equivale a crear unha tupla baleira

In [123]:
type(tupla_baleira)

tuple

In [124]:
tupla_baleira = ()
type(tupla_baleira)

tuple

Asemade, pódense converter a tipo tupla outros tipos de datos, sempre e cando eses datos sexan *iterables* (cadeas de caracteres, dicionarios, conxuntos,...), usando a función `tuple()`

In [135]:
lista = ['Ola', 45, True]
lista

['Ola', 45, True]

In [136]:
tupla = tuple(lista) # converte unha lista nunha tupla
tupla

('Ola', 45, True)

In [141]:
type(tupla)

tuple

In [142]:
tupla = tuple('Ola, Mundo!') # converte unha lista nunha tupla
tupla

('O', 'l', 'a', ',', ' ', 'M', 'u', 'n', 'd', 'o', '!')

In [143]:
type(tupla)

tuple

- Desempaquetado de tuplas

Tamén existe o método inverso ó empaquetado: se a unha tupla de lonxitud *n* lle asignamos *n* variables, cada unha das variables terá un dos compoñentes da tupla. A esta operación se lle chama **desempaquetado de tuplas**.

In [145]:
tupla = 'Ola', 4.5, True, 'Ola'
tupla # amosa que o contido da tupla é ('Ola', 4.5, True, 'Ola')

('Ola', 4.5, True, 'Ola')

In [146]:
w, x, y, z = tupla # devolve cada un dos valores da tupla a cadansúa variable: w = 'Ola', x = 4.5, y = True, z = 'Ola'

In [147]:
print (w, x, y, z)

Ola 4.5 True Ola


![tuple-unpacking.jpg](attachment:tuple-unpacking.jpg)

- Acceso ós elementos dunha tupla

Para acceder ós elementos dunha tupla, faise do mesmo xeito que coas listas.

In [150]:
tupla[1] # amosa 4.5

4.5

In [149]:
tupla[1:] # ammosa (4.5, True, 'Ola')

(4.5, True, 'Ola')

#### Funcións aplicables ás tuplas

- `len()`: método que devolve a lonxitude da tupla.

In [153]:
tupla = 'Ola', 4.5, True, 'Ola'
len(tupla) # devolve 4

4

- `count()`: número de veces que se atopa un elemento nunha tupla.

In [156]:
tupla.count('Ola') # devolve 2

2

- `index()`: devolve a posición que ocupa un elemento dentro dunha tupla. En caso de que o elemento estea repetido, devolverá a primeira posición onde aparece o obxecto. Se non o atopase, daría un erro.

In [164]:
tupla.index('Ola') # Devolverá 0

0

Un último exemplo con tuplas:

In [17]:
tupla_a = 1, 2
tupla_b = (1, 2)

print(tupla_a == tupla_b)  # devolve True porque as parénteses son opcionais ó defini-las tuplas
print(tupla_a[1])  # devolve 2, porque o índice empeza a contar dende o 0, polo tanto o 2º elemento da tupla ten o índice [1]

True
2


### Dicionarios

Un dicionario é un tipo de datos **mutable** que almacena asignacións de **chaves únicas** a valores.

Os dicionarios conforman unha estrutura que enlaza os elementos almacenados con chaves (*keys*) en vez de índices, como ocorría coas estruturas anteriores. É dicir, para acceder a un obxecto é necesario facelo a través da súa chave.

A mellor maneira de comprender un dicionario é velo como **un conxunto de pares (chave, valor), onde as chaves son únicas, é dicir, non están repetidas, e permítennos acceder ó obxecto almacenado**. 

Os dicionarios en Python teñen as seguintes características:

-- Manteñen a orde no que se insiren as chaves, pero **non é unha estrutura ordeada**.

-- Son ***mutables***, co que admiten engadir, borrar e modifica-los seus elementos.

-- As **chaves deben ser únicas**. A miúdo utilízanse as cadeas de texto como chaves, pero en realidade podería ser calquera tipo de datos inmutable, enteiros, flotantes, tuplas (entre outros), xa que esas chaves úsanse para indexa-los valores. 

-- Teñen un acceso moi rápido ós seus elementos, debido á forma na que están implementados internamente.


- Para crear un dicionario definiremos un conxunto de elementos *chave : valor* delimitados por chaves (`{ : }`).

In [80]:
dicionario = {
'chave1': 'O meu primeiro valor',
'chave3': 'O terceiro valor',
'chave2': 'Este é o meu segundo valor'
}
print(dicionario)
type(dicionario)

{'chave1': 'O meu primeiro valor', 'chave3': 'O terceiro valor', 'chave2': 'Este é o meu segundo valor'}


dict

- Para acceder a un dos seus valores, necesitamos coñece-la súa chave e a poremos entre corchetes (`[]`) (logo veremo-lo método `get()`)

In [54]:
dicionario['chave1']  # devolve 'O meu primeiro valor'

'O meu primeiro valor'

- Para crear novos elementos nos dicionarios, ou modifica-los valores de chaves xa existentes, úsase a mesma forma de acceso a un elemento, corchetes pechando a chave, pero asignando un novo valor:

In [55]:
dicionario['chave_nova'] = 'Novo valor'  # engade o novo par ó final do dicionario
dicionario['chave_nova']  # devolve 'Novo valor'
print(dicionario)

{'chave1': 'O meu primeiro valor', 'chave3': 'O terceiro valor', 'chave2': 'Este é o meu segundo valor', 'chave_nova': 'Novo valor'}


In [56]:
dicionario['chave_nova'] = 'Novísimo valor'  # se a chave xa existe, modifica o seu valor
print(dicionario)

{'chave1': 'O meu primeiro valor', 'chave3': 'O terceiro valor', 'chave2': 'Este é o meu segundo valor', 'chave_nova': 'Novísimo valor'}


- Podemos crear dicionarios baleiros usando as chaves, pero sen inserir ningún elemento, ou usando a función `dict()` :

In [57]:
dicionario2 = dict()  # crea o dicionario baleiro
type(dicionario2)

dict

In [58]:
dicionario3 = {}  # crea o dicionario baleiro
type(dicionario3)

dict

- Podemos eliminar un elemento do dicionario usando a instrución `del` e indicando que elemento do dicionario queremos eliminar.

In [59]:
del dicionario['chave1']  # elimina o elemento con chave 'chave1'
dicionario['chave1']  # devolve un erro ó xa non existir 'chave1'

KeyError: 'chave1'

- Os dicionarios poden ter chaves de calquera tipo inmutable, como enteiros ou tuplas, non só cadeas; nin sequera é necesario que cada chave teña o mesmo tipo!... sen embargo o normal é que os datos teñan coherencia de tipos.

No seguinte exemplo as chaves son de tipo `string` e os valores son de tipo `list`.

In [87]:
animais = {'cans': [50, 100, 36, 67, 2, 0], 
 'gatos': [5, 6, 3, 1, 9], 
 'ratos': [1, 2, 3, 4], 
 'carrachas': [0.6, 0.9, 0, 3, 2]}

print(animais['cans'])  # devolve [50, 100, 36, 67, 2, 0]
print(animais['cans'][2])  # devolve 36
print(animais['carrachas'])  # devolve [0.6, 0.9, 0, 3, 2]
print(animais[1])  # devolve un erro de execución


[50, 100, 36, 67, 2, 0]
36
[0.6, 0.9, 0, 3, 2]


KeyError: 1

#### Funcións aplicables a dicionarios

As funcións máis utilizadas nos dicionarios son as seguintes:

- `list()`: devolve unha lista de tóda-las chaves incluídas nun dicionario.

In [60]:
list(dicionario)  # devolve ['chave3', 'chave2', 'chave_nova']

['chave3', 'chave2', 'chave_nova']

 - `sorted()`: se se quere a lista ordeada, úsase a función `sorted()` en lugar de `list()`.

In [61]:
sorted(dicionario)  # devolve ['chave2', 'chave3', 'chave_nova']

['chave2', 'chave3', 'chave_nova']

- `get()`:  este método busca nas chaves nun dicionario, pero a diferenza dos corchetes, `get()` devolve `None` (ou un valor predeterminado que se indique) se non se atopa a chave, polo que é un xeito mellor de acceso ós valores evitando que o programa *rompa*, como sucedería no caso de usar simplemente o formato de chaves con índice `[ ]`.

In [81]:
print(dicionario['chave3'])  # devolve 'O terceiro valor'
print(dicionario.get('chave3'))  # devolve o valor correspondente á chave
print(dicionario.get('chaveN'))  # devolve None xa que non atopa a chave indicada
print(dicionario.get('chaveN', 'Non existe ese elemento'))   # devolve o valor indicado como por defecto xa que non atopa a chave indicada
print(dicionario['chaveN'])  # causa un erro que provoca a detención do programa

O terceiro valor
O terceiro valor
None
Non existe ese elemento


KeyError: 'chaveN'

Agora sería posible utiliza-los operadores de identidade `is` e `not is`, ou os operadores de igualdade `==` e `not =` para comprobar se un valor está no dicionario ou non.

In [64]:
elemento = dicionario.get('chave3')
valor_nulo = elemento is None
print(valor_nulo)
if not valor_nulo:
    print(elemento)

False
O terceiro valor


In [65]:
elemento = dicionario.get('chave4')
valor_nulo = elemento == None
print(valor_nulo)
if not valor_nulo:
    print(elemento)

True


- `in` e `not in`: comproba se unha chave se atopa, ou non, no dicionario.

In [66]:
'chave3' in dicionario  # devolve True

True

In [67]:
'chave1' in dicionario  # devolve False

False

- Existen outros dous métodos interesantes nos dicionarios: `keys()` que devolve as chaves dun dicionario, mentras que `values()` devolve os valores do dicionario.

In [68]:
dicionario.keys()

dict_keys(['chave3', 'chave2', 'chave_nova'])

In [69]:
dicionario.values()

dict_values(['O terceiro valor', 'Este é o meu segundo valor', 'Novísimo valor'])

- Para borrar elementos dun dicionario existen os métodos `pop()` e `popitem()`.

Con `pop()` indicando a chave do elemento que se quere eliminar devolverá o valor asociado a esa chave.

In [70]:
dicionario.pop('chave3')
print(dicionario)

{'chave2': 'Este é o meu segundo valor', 'chave_nova': 'Novísimo valor'}


No caso de tentar eliminar un elemento que non se atope no dicionario devolverá un erro, a menos que se indique un valor por defecto:

In [75]:
dicionario.pop('chave3')

KeyError: 'chave3'

In [76]:
dicionario.pop('chave3', 'erro')

'erro'

Co método `popitem()` quítase o último elemento que se atope no dicionario, devolvendo unha tupla que contén *chave valor*:

In [77]:
print(dicionario)
dicionario.popitem()
print(dicionario)

('chave_nova', 'Novísimo valor')

- `clear()`: este método borra tódolos elementos dun dicionario.

In [79]:
print(dicionario)  # devolve tódolos elementos do dicionario
dicionario.clear()  # borra o dicionario
print(dicionario)  # devolve un dicionario baleiro

{'chave2': 'Este é o meu segundo valor'}
{}


#### Estruturas complexas de dicionarios aniñados
Pódense incluír contedores noutros contedores para crear estruturas de datos compostos. 

Por exemplo, este dicionario asigna chaves a valores que tamén son dicionarios:

In [57]:
elementos = {"hidróxeno": {"número": 1,
                         "peso": 1.00794,
                         "símbolo": "H"},
              "helio": {"número": 2,
                         "peso": 4.002602,
                         "símbolo": "He"}}
print(elementos)

{'hidróxeno': {'número': 1, 'peso': 1.00794, 'símbolo': 'H'}, 'helio': {'número': 2, 'peso': 4.002602, 'símbolo': 'He'}}


Podemos acceder a elementos deste dicionario aniñado do seguinte xeito:

In [60]:
helio = elementos["helio"] # obtén o dicionario de helio
print(helio)
hidroxeno_peso = elementos["hidróxeno"]["peso"] # obtén o peso do hidróxeno
print(hidroxeno_peso)

{'número': 2, 'peso': 4.002602, 'símbolo': 'He'}
1.00794


Tamén pódese engadir unha nova chave ó dicionario de elementos.

In [63]:
osixeno = {"número":8,"peso":15.999,"símbolo":"O"} # crea un novo dicionario de osíxeno
elementos["osíxeno"] = osixeno # asigna 'osíxeno' como chave para o dicionario de elementos
print('elementos = ', elementos)

elementos =  {'hidróxeno': {'número': 1, 'peso': 1.00794, 'símbolo': 'H', 'é_gas_noble': False}, 'helio': {'número': 2, 'peso': 4.002602, 'símbolo': 'He', 'é_gas_noble': True}, 'osíxeno': {'número': 8, 'peso': 15.999, 'símbolo': 'O'}}


A saída é:

    elementos = {"hidróxeno": {"número": 1,
                          "peso": 1,00794,
                          "símbolo": 'H'},
               "helio": {"número": 2,
                          "peso": 4.002602,
                          "símbolo": "He"},
               "osíxeno": {"número": 8,
                          "peso": 15.999,
                          "símbolo": "O"}}

Naturalmente pódense engadir novos valores a tódalas chaves do dicionario:

In [64]:
elementos['osíxeno']['é_gas_noble'] = False
elementos['hidróxeno']['é_gas_noble'] = False
elementos['helio']['é_gas_noble'] = True
print('elementos = ', elementos)

elementos =  {'hidróxeno': {'número': 1, 'peso': 1.00794, 'símbolo': 'H', 'é_gas_noble': False}, 'helio': {'número': 2, 'peso': 4.002602, 'símbolo': 'He', 'é_gas_noble': True}, 'osíxeno': {'número': 8, 'peso': 15.999, 'símbolo': 'O', 'é_gas_noble': False}}


### Conxuntos
Os conxuntos son coleccións **non ordenadas** de elementos.
Os conxuntos son **mutables** e **non conteñen elementos repetidos**, é dicir, elimínanse tódo-los elementos duplicados. 

Dado que os conxuntos son un tipo de datos para **coleccións de elementos únicos mutables e sen orde**, unha aplicación típica deles é para eliminar duplicados dunha lista.

- Para crear un conxunto podemos indicar un conxunto de obxectos separados por comas e delimitados por chaves `{}`.

In [62]:
coches = {'audi', 'mercedes', 'seat', 'ferrari', 'ferrari', 'renault'} # os elementos repetidos elimínanse
coches # devolve o contido do conxunto {'audi', 'ferrari', 'mercedes', 'renault', 'seat'}

{'audi', 'ferrari', 'mercedes', 'renault', 'seat'}

In [63]:
numeros_con_repetidos = [1, 2, 6, 2, 8, 6, 8]  # lista con números repetidos
numeros_unicos = set(numeros_con_repetidos)  # ó pasar unha lista a un conxunto, elimínanse os elementos repetidos
print(numeros_unicos)  # devolve os números sen repetilos: {8, 1, 2, 6}

{8, 1, 2, 6}


- `set()`: tamén pódeselle pasar como argumento un obxecto iterable (como unha lista, unha tupla, unha cadea …)

In [64]:
conxunto = set('Adeus, Mundo cruel!') # crea un conxunto a través dun string
conxunto # devolve os caracteres ordeados e sen repeticións {' ', '!', ',', 'A', 'M', 'c', 'd', 'e', 'l', 'n', 'o', 'r', 's', 'u'}

{' ', '!', ',', 'A', 'M', 'c', 'd', 'e', 'l', 'n', 'o', 'r', 's', 'u'}

In [65]:
conxunto = set([3, 5, 6, 1, 5]) # crea un conxunto a partir dunha lista
conxunto  # devolve os caracteres ordeados e sen repeticións {1, 3, 5, 6}

{1, 3, 5, 6}

- Para crear un **conxunto baleiro** podemos crealo sen inserir ningún valor (ollo, con non usa-las chaves `{}`) ou utilizando a función `set()`.

In [66]:
conxunto = set() # crea un conxunto baleiro
conxunto # devolve set() para indicar que o conxunto está baleiro

set()

In [67]:
type(conxunto)

set

Ollo! `conxunto = {}` non crea un conxunto baleiro, senón un dicionario

In [68]:
dicionario = {} # crea un dicionario baleiro
dicionario # devolve {} para indicar que é un conxunto baleiro

{}

In [69]:
type(dicionario)

dict

 
Dado que os conxuntos son coleccións desordeadas, neles non se garda a posición na que son insertados os elementos como ocorre nos tipos *list* ou *tuple*; por elo non se pode acceder ós elementos a través dun índice e tentar facelo devolveranos un erro de tipo.

Sen embargo, si se pode acceder e/ou percorrer tódo-los elementos dun conxunto usando un bucle `for`.

In [70]:
conxunto = {"valor1", "valor2", "valor3"}
for elemento in conxunto:
    print(elemento)

valor1
valor2
valor3


#### Funcións aplicables a conxuntos
As principais operacións soportadas polos conxuntos de Python.

- `union()`: operación matemática para obte-la unión de dous conxuntos.

In [41]:
conxunto1 = {1, 2, 3}
conxunto2 = {3, 4, 5}
conxunto1.union(conxunto2) # devolve {1, 2, 3, 4, 5}

{1, 2, 3, 4, 5}

- `intersection()`: operación matemática para obte-la intersección de dous conxuntos.

In [42]:
conxunto1 = {1, 2, 3}
conxunto2 = {3, 4, 5}
conxunto1.intersection(conxunto2) # devolve {3}

{3}

- `difference()`: operación matemática para obte-la diferenza do conxunto orixinal con respecto ó conxunto que se pasa por parámetro, é dicir, os elementos do primeiro conxunto que non están no segundo.

In [44]:
conxunto1 = {1, 2, 3}
conxunto2 = {3, 4, 5}
conxunto1.difference(conxunto2) # devolve {1, 2}

{1, 2}

- Os operadores `in` e `not in` devolven un valor booleano indicando se un elemento se atopa ou non, respectivamente, dentro dun conxunto.

In [8]:
1 in conxunto1 # devolve True

True

In [4]:
0 not in conxunto1 # devolve True

True

- `len()`: devolve o número de elementos do conxunto.

In [10]:
len(conxunto1) # devolve 3

3

- `add()`: este método permite engadir un elemento ó conxunto.

In [59]:
conxunto_total = conxunto1.union(conxunto2) # crea un conxunto, sen repetidos, cos elementos de ambos subconxuntos
print(conxunto_total)
conxunto_total.add(10)  # engade un novo elemento ó conxunto, se este no existe xa nel
print(conxunto_total)
conxunto_total.add(1)  # engade un novo elemento ó conxunto, se este no existe xa nel
print(conxunto_total)

{1, 2, 3, 4, 5}
{1, 2, 3, 4, 5, 10}
{1, 2, 3, 4, 5, 10}


- `pop()`: este método devolve un elemento do conxunto que se retira del, pero non se pode escoller, polo que é retirado ó chou (lémbrese que o conxunto é unha colección desordeada, polo que non hai nin primer, nin último elemento). Que non nos despiste o feito de que `print()` devolva os elementos ordeados e que aparentemente os estea eliminando dende o principio, non hai orde tampouco para a eliminación!

Se se tenta eliminar un elemento dun conxunto baleiro, provócase un erro: *KeyError: 'pop from an empty set'*

In [60]:
print(conxunto_total)
conxunto_total.pop()  # quita un elemento ó chou do conxunto
print(conxunto_total)
print(conxunto_total.pop())  # quita un elemento ó chou do conxunto e o amosa
print(conxunto_total)

{1, 2, 3, 4, 5, 10}
{2, 3, 4, 5, 10}
2
{3, 4, 5, 10}


- `remove()`: elimina do conxunto o elemento especificado. Se o elemento non estivese incluído no conxunto  provócase un erro: *KeyError*

In [73]:
print(conxunto_total)
conxunto_total.remove(5)  # quita o elemento especificado do conxunto
print(conxunto_total)
conxunto_total.remove(5)  # se o elemento especificado non existe no conxunto provócase un erro

{3, 4, 10}


KeyError: 5

- `discard()`: elimina do conxunto o elemento especificado, pero a diferencia de `remove()`, se o elemento non estivese incluído no conxunto non devolve un erro. 

In [76]:
print(conxunto_total)
conxunto_total.discard(5)  # se o elemento especificado non existe no conxunto non se xera ningún erro

{3, 4, 10}


- `clear()`: borra tódolos elementos dun conxunto.

In [78]:
print(conxunto_total)
conxunto_total.clear()
print(conxunto_total)

{3, 4, 10}
set()


Un últimos exemplos con conxuntos.

In [84]:
# Nas tuplas pode haber elementos repetidos, pero non nos conxuntos 
paises_tupla = ('Abkhazia', 'Abkhazia', 'Acerbaixán', 'Afganistán', 'Akrotiri e Dhekelia', 'Albania', 'Alemaña', 'Alxeria', 'Andorra', 'Angola', 'Anguila', 'Antiga e Barbuda', 'Arabia Saudita', 'Armenia', 'Artsakh', 'Arxentina', 'Aruba', 'Australia', 'Austria', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarús', 'Bélxica', 'Belize', 'Benín', 'Bermudas', 'Bolivia', 'Bosnia e Hercegovina', 'Botswana', 'Brasil', 'Brunei', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Bután', 'Cabo Verde', 'Illas Caimán', 'Camboxa', 'Camerún', 'Canadá', 'Casaquistán', 'República Centroafricana', 'Chad', 'República Checa', 'Chile', 'China', 'Chipre', 'Chipre do Norte', 'Cimbabue', 'Illas Cocos', 'Colombia', 'Comores', 'República do Congo', 'R.D. do Congo', 'Illas Cook', 'Corea do Norte', 'Corea do Sur', 'Costa do Marfil', 'Costa Rica', 'Croacia', 'Cuba', 'Curaçao', 'Dinamarca', 'Djibuti', 'Dominica', 'República Dominicana', 'Ecuador', 'Exipto', 'O Salvador', 'Emiratos Árabes Unidos', 'Eritrea', 'Eslovaquia', 'Eslovenia', 'España', 'Estados Unidos', 'Estonia', 'Eswatini', 'Etiopía', 'Illas Feroe', 'Fidxi', 'Filipinas', 'Finlandia', 'Francia', 'Gabón', 'Gambia', 'Ghana', 'Granada', 'Grecia', 'Groenlandia', 'Guam', 'Guatemala', 'Guernsey', 'Guinea', 'Guinea-Bissau', 'Guinea Ecuatorial', 'Güiana', 'Haití', 'Honduras', 'Hong Kong', 'Hungría', 'Iemen', 'India', 'Indonesia', 'Iraq', 'Irán', 'Irlanda', 'Islandia', 'Israel', 'Italia', 'Illa de Jersey', 'Kenya', 'Kirguizistán', 'Kiribati', 'Kosovo', 'Kuwait', 'Laos', 'Lesoto', 'Letonia', 'Líbano', 'Liberia', 'Libia', 'Liechtenstein', 'Lituania', 'Luxemburgo', 'Macau', 'Macedonia do Norte', 'Madagascar', 'Malaisia', 'Malaui', 'Maldivas', 'Malí', 'Malta', 'Illas Malvinas', 'Illa de Man', 'Illas Marianas do Norte', 'Marrocos', 'Illas Marshall', 'Mauricio', 'Mauritania', 'México', 'Micronesia', 'Moldavia', 'Mónaco', 'Mongolia', 'Montenegro', 'Montserrat', 'Mozambique', 'Myanmar', 'Illa de Nadal', 'Namibia', 'Nauru', 'Nepal', 'Nicaragua', 'Níxer', 'Nixeria', 'Niue', 'Illa Norfolk', 'Noruega', 'Nova Caledonia', 'Nova Rusia', 'Nova Zelandia', 'Omán', 'Osetia do Sur', 'Países Baixos', 'Paquistán', 'Palau', 'Palestina', 'Panamá', 'Papúa Nova Guinea', 'Paraguai', 'Perú', 'Illas Pitcairn', 'Polinesia Francesa', 'Polonia', 'Portugal', 'Porto Rico', 'Qatar', 'Reino Unido', 'Ruanda', 'Romanía', 'Rusia', 'Sáhara Occidental', 'Illas Salomón', 'Samoa', 'Samoa Americana', 'Saint-Barthélemy', 'Saint Kitts e Nevis', 'San Marino', 'San Martiño', 'Sint Maarten', 'Saint-Pierre-et-Miquelon', 'San Vicente e as Granadinas', 'Santa Helena', 'Santa Lucía', 'San Tomé e Príncipe', 'Senegal', 'Serbia', 'Seychelles', 'Serra Leoa', 'Singapur', 'Siria', 'Somalia', 'Somalilandia', 'Sri Lanka', 'Suráfrica', 'Sudán', 'Sudán do Sur', 'Suecia', 'Suíza', 'Suriname', 'Svalbard', 'Tailandia', 'Taiwán', 'Tanzania', 'Taxiquistán', 'Timor Leste', 'Togo', 'Tokelau', 'Tonga', 'Transnistria', 'Trinidad e Tobago', 'Tunisia', 'Turks e Caicos', 'Turkmenistán', 'Turquía', 'Tuvalu', 'Ucraína', 'Uganda', 'Uruguai', 'Uzbekistán', 'Vanuatu', 'Cidade do Vaticano', 'Venezuela', 'Vietnam', 'Illas Virxes Británicas', 'Illas Virxes Estadounidenses', 'Wallis e Futuna', 'Xamaica', 'Xapón', 'Xeorxia', 'Xibraltar', 'Xordania', 'Zambia')
print(len(paises_tupla))  # nunha tupla pode haber elementos repetidos

paises_conxunto2 = set(paises_tupla)
print(len(paises_conxunto2))  # nun conxunto non pode haber elementos repetidos

paises_conxunto = {'Abkhazia', 'Abkhazia', 'Acerbaixán', 'Afganistán', 'Akrotiri e Dhekelia', 'Albania', 'Alemaña', 'Alxeria', 'Andorra', 'Angola', 'Anguila', 'Antiga e Barbuda', 'Arabia Saudita', 'Armenia', 'Artsakh', 'Arxentina', 'Aruba', 'Australia', 'Austria', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarús', 'Bélxica', 'Belize', 'Benín', 'Bermudas', 'Bolivia', 'Bosnia e Hercegovina', 'Botswana', 'Brasil', 'Brunei', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Bután', 'Cabo Verde', 'Illas Caimán', 'Camboxa', 'Camerún', 'Canadá', 'Casaquistán', 'República Centroafricana', 'Chad', 'República Checa', 'Chile', 'China', 'Chipre', 'Chipre do Norte', 'Cimbabue', 'Illas Cocos', 'Colombia', 'Comores', 'República do Congo', 'R.D. do Congo', 'Illas Cook', 'Corea do Norte', 'Corea do Sur', 'Costa do Marfil', 'Costa Rica', 'Croacia', 'Cuba', 'Curaçao', 'Dinamarca', 'Djibuti', 'Dominica', 'República Dominicana', 'Ecuador', 'Exipto', 'O Salvador', 'Emiratos Árabes Unidos', 'Eritrea', 'Eslovaquia', 'Eslovenia', 'España', 'Estados Unidos', 'Estonia', 'Eswatini', 'Etiopía', 'Illas Feroe', 'Fidxi', 'Filipinas', 'Finlandia', 'Francia', 'Gabón', 'Gambia', 'Ghana', 'Granada', 'Grecia', 'Groenlandia', 'Guam', 'Guatemala', 'Guernsey', 'Guinea', 'Guinea-Bissau', 'Guinea Ecuatorial', 'Güiana', 'Haití', 'Honduras', 'Hong Kong', 'Hungría', 'Iemen', 'India', 'Indonesia', 'Iraq', 'Irán', 'Irlanda', 'Islandia', 'Israel', 'Italia', 'Illa de Jersey', 'Kenya', 'Kirguizistán', 'Kiribati', 'Kosovo', 'Kuwait', 'Laos', 'Lesoto', 'Letonia', 'Líbano', 'Liberia', 'Libia', 'Liechtenstein', 'Lituania', 'Luxemburgo', 'Macau', 'Macedonia do Norte', 'Madagascar', 'Malaisia', 'Malaui', 'Maldivas', 'Malí', 'Malta', 'Illas Malvinas', 'Illa de Man', 'Illas Marianas do Norte', 'Marrocos', 'Illas Marshall', 'Mauricio', 'Mauritania', 'México', 'Micronesia', 'Moldavia', 'Mónaco', 'Mongolia', 'Montenegro', 'Montserrat', 'Mozambique', 'Myanmar', 'Illa de Nadal', 'Namibia', 'Nauru', 'Nepal', 'Nicaragua', 'Níxer', 'Nixeria', 'Niue', 'Illa Norfolk', 'Noruega', 'Nova Caledonia', 'Nova Rusia', 'Nova Zelandia', 'Omán', 'Osetia do Sur', 'Países Baixos', 'Paquistán', 'Palau', 'Palestina', 'Panamá', 'Papúa Nova Guinea', 'Paraguai', 'Perú', 'Illas Pitcairn', 'Polinesia Francesa', 'Polonia', 'Portugal', 'Porto Rico', 'Qatar', 'Reino Unido', 'Ruanda', 'Romanía', 'Rusia', 'Sáhara Occidental', 'Illas Salomón', 'Samoa', 'Samoa Americana', 'Saint-Barthélemy', 'Saint Kitts e Nevis', 'San Marino', 'San Martiño', 'Sint Maarten', 'Saint-Pierre-et-Miquelon', 'San Vicente e as Granadinas', 'Santa Helena', 'Santa Lucía', 'San Tomé e Príncipe', 'Senegal', 'Serbia', 'Seychelles', 'Serra Leoa', 'Singapur', 'Siria', 'Somalia', 'Somalilandia', 'Sri Lanka', 'Suráfrica', 'Sudán', 'Sudán do Sur', 'Suecia', 'Suíza', 'Suriname', 'Svalbard', 'Tailandia', 'Taiwán', 'Tanzania', 'Taxiquistán', 'Timor Leste', 'Togo', 'Tokelau', 'Tonga', 'Transnistria', 'Trinidad e Tobago', 'Tunisia', 'Turks e Caicos', 'Turkmenistán', 'Turquía', 'Tuvalu', 'Ucraína', 'Uganda', 'Uruguai', 'Uzbekistán', 'Vanuatu', 'Cidade do Vaticano', 'Venezuela', 'Vietnam', 'Illas Virxes Británicas', 'Illas Virxes Estadounidenses', 'Wallis e Futuna', 'Xamaica', 'Xapón', 'Xeorxia', 'Xibraltar', 'Xordania', 'Zambia'}
print(len(paises_conxunto))  # nun conxunto non pode haber elementos repetidos

245
244
244


In [91]:
# Nas listas pode haber elementos repetidos, pero non nos conxuntos 
lista_numeros = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
conxunto_numeros = set(lista_numeros)
print('A cantidade de números da lista orixinal é de: ', len(lista_numeros))   # nunha lista pode haber elementos repetidos
print('A cantidade de números distintos é de: ', len(conxunto_numeros))  # nun conxunto non pode haber elementos repetidos
print('A cantidade de repeticións de números é de: ', len(lista_numeros) - len(conxunto_numeros))

A cantidade de números da lista orixinal é de:  10
A cantidade de números distintos é de:  4
A cantidade de repeticións de números é de:  6


---

Para os seguintes exemplos usaremos un texto máis grande extraído do comezo da fermosa novela "Memorias dun Neno Labrego", de Xosé Neira Vilas, publicada no 1961 por Follas Novas en Arxentina (fonte: https://www.edu.xunta.gal/espazoAbalar/sites/espazoAbalar/files/datos/1390304363/contido/251_memorias_dun_neno_labrego.html):

Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.
No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.
No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.
¡Qué saben desto os nenos da vila!

In [66]:
texto = """Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.

No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.

No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.

¡Qué saben desto os nenos da vila!"""

print(texto, '\n')

Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.

No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.

No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.

¡Qué saben desto os nenos da vila! 



## Exercicio de exemplo de conta-lo número de palabras diferentes existentes nun texto
O seguinte código calcula o número de palabras distintas existentes no texto:

In [71]:
# troceado do texto nunha lista de palabras
lista_texto = texto.split()
print('Palabras separadas incluíndo as repeticións: \n', lista_texto, '\n')

# converte-la lista nunha estrutura de datos que só almacene elementos únicos
conxunto_texto = set(lista_texto)
print('Palabras sen repetilas: \n', conxunto_texto, '\n')

# amosa o número de palabras distintas existentes no texto
numero_palabras_distintas = len(conxunto_texto)
print('Número de palabras distintas: ', numero_palabras_distintas, '\n')

Palabras separadas incluíndo as repeticións: 
 ['Eu', 'son...', 'BALBINO.', 'Un', 'rapaz', 'da', 'aldea.', 'Coma', 'quen', 'dis,', 'un', 'ninguén.', 'E', 'ademáis,', 'probe.', 'Porque', 'da', 'aldea', 'tamén', 'é', 'Manolito,', 'e', 'non', 'hai', 'quen', 'lle', 'tusa,', 'a', 'pesares', 'do', 'que', 'lle', 'aconteceu', 'por', 'causa', 'miña.', 'No', 'vrao', 'ando', 'descalzo.', 'O', 'pó', 'quente', 'dos', 'camiños', 'faime', 'alancar.', 'Magóanme', 'as', 'areas', 'e', 'nunca', 'falta', 'algunha', 'brocha', 'pra', 'espetárseme', 'nos', 'pés.', 'Érgome', 'con', 'noite', 'pecha,', 'ás', 'dúas', 'ou', 'tres', 'da', 'mañán,', 'pra', 'ir', 'co', 'gando,', 'restrevar', 'ou', 'xuntar', 'monllos.', 'Cando', 'amañece', 'xa', 'me', 'doi', 'o', 'lombo', 'e', 'as', 'pernas.', 'Pero', 'o', 'día', 'comenza.', 'Sede,', 'sol,', 'moxardos.', 'No', 'inverno,', 'frío.', 'Ganas', 'de', 'estar', 'arreo', 'ó', 'pé', 'do', 'lume.', 'Muíños', 'apeados.', 'Faladurías', 'de', 'neves', 'e', 'lobos.', 'Os', 'brazos


## Exercicio de exemplo de conta-lo número de repeticións de cada palabra existente nun texto

O seguinte código crea un dicionario que contén a cantidade de veces que cada palabra aparece no texto: cada palabra será unha chave e o número de veces que aparecen no texto será o seu correspondente valor.

*Nota: neste exemplo básico engádese o eliminado dos signos de puntuación, pero non que non distinga que unha palabra en maiúsculas ou minúsculas sexa a mesma.*


In [83]:
import string  # para poder utiliza-los métodos maketrans e translate
print(string.punctuation)  # devolve os signos de puntuación a eliminar

signos_puntuacion = string.punctuation + '¿¡'  # engadimos un par de signos usados en España, que non estaban incluídos

# o método .maketrans() con 3 argumentos (os 2 primeiros son cadeas baleiras, e o 3º é a lista de signos de puntuación a borrar)
# crea unha táboa de tradución cos caracteres a modificar (neste caso os signos de puntuación a eliminar)
taboa_traducion = texto.maketrans('', '', signos_puntuacion)

# Utiliza-la táboa de tradución para elimina-los signos de puntuación da cadea de texto
texto_sen_signos = texto.translate(taboa_traducion)

print(texto_sen_signos, '\n')


# troceado do texto nunha lista de palabras
lista_texto = texto_sen_signos.split()
print('Palabras separadas incluíndo as repeticións: \n', lista_texto, '\n')

# creación dun dicionario para conta-las repeticións de cada palabra
contaxe_palabras = {}

# percorrido da lista de palabras aumentando o contador para cada palabra
for palabra in lista_texto:
    if palabra in contaxe_palabras:
        contaxe_palabras[palabra] = contaxe_palabras[palabra] + 1
    else:
        contaxe_palabras[palabra] = 1

# devolve-lo resultado
print(contaxe_palabras)


!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
Eu son BALBINO Un rapaz da aldea Coma quen dis un ninguén E ademáis probe Porque da aldea tamén é Manolito e non hai quen lle tusa a pesares do que lle aconteceu por causa miña

No vrao ando descalzo O pó quente dos camiños faime alancar Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés Érgome con noite pecha ás dúas ou tres da mañán pra ir co gando restrevar ou xuntar monllos Cando amañece xa me doi o lombo e as pernas Pero o día comenza Sede sol moxardos

No inverno frío Ganas de estar arreo ó pé do lume Muíños apeados Faladurías de neves e lobos Os brazos son como espeteiras pra colgar farrapos Murnas fridas dedos sin tentos

Qué saben desto os nenos da vila 

Palabras separadas incluíndo as repeticións: 
 ['Eu', 'son', 'BALBINO', 'Un', 'rapaz', 'da', 'aldea', 'Coma', 'quen', 'dis', 'un', 'ninguén', 'E', 'ademáis', 'probe', 'Porque', 'da', 'aldea', 'tamén', 'é', 'Manolito', 'e', 'non', 'hai', 'quen', 'lle', 'tusa', 'a', 'pesares'

Agora é posible responder facilmente a algunhas cuestións sobre as palabras do texto:

In [91]:
# Calcula-lo número de chaves únicas do dicionario
numero_chaves = len(contaxe_palabras.keys())
print(numero_chaves)

# Atopar se a palabra 'lobos' é unha das chaves do dicionario
conten_lobos = "lobos" in contaxe_palabras
print(conten_lobos)

# Se a palabra 'farrapos' é unha das chaves do dicionario devolve-lo seu número de repeticións no texto
conten_farrapo = contaxe_palabras.get('farrapos')
print(conten_farrapo)

# Crear e ordear unha lista de chaves do dicionario
chaves_ordeadas = sorted(contaxe_palabras.keys())
print(chaves_ordeadas)

# Obte-lo primeiro elemento da lista ordeada de chaves
print(chaves_ordeadas[0])

# Obte-lo último elemento da lista ordeada de chaves
print(chaves_ordeadas[-1])
 
# O último elemento da lista ordeada de chaves coincide co valor máximo
print(max(chaves_ordeadas)) 

114
True
1
['BALBINO', 'Cando', 'Coma', 'E', 'Eu', 'Faladurías', 'Ganas', 'Magóanme', 'Manolito', 'Murnas', 'Muíños', 'No', 'O', 'Os', 'Pero', 'Porque', 'Qué', 'Sede', 'Un', 'a', 'aconteceu', 'ademáis', 'alancar', 'aldea', 'algunha', 'amañece', 'ando', 'apeados', 'areas', 'arreo', 'as', 'brazos', 'brocha', 'camiños', 'causa', 'co', 'colgar', 'comenza', 'como', 'con', 'da', 'de', 'dedos', 'descalzo', 'desto', 'dis', 'do', 'doi', 'dos', 'día', 'dúas', 'e', 'espeteiras', 'espetárseme', 'estar', 'faime', 'falta', 'farrapos', 'fridas', 'frío', 'gando', 'hai', 'inverno', 'ir', 'lle', 'lobos', 'lombo', 'lume', 'mañán', 'me', 'miña', 'monllos', 'moxardos', 'nenos', 'neves', 'ninguén', 'noite', 'non', 'nos', 'nunca', 'o', 'os', 'ou', 'pecha', 'pernas', 'pesares', 'por', 'pra', 'probe', 'pé', 'pés', 'pó', 'que', 'quen', 'quente', 'rapaz', 'restrevar', 'saben', 'sin', 'sol', 'son', 'tamén', 'tentos', 'tres', 'tusa', 'un', 'vila', 'vrao', 'xa', 'xuntar', 'Érgome', 'ás', 'é', 'ó']
BALBINO
ó
ó
