## Chapter 3: Data Structures

El operador `_` se utiliza para variables no deseadas.

Es preferible usar `extend()` al crear una nueva lista (o si es muy grande).

Concatenación por adición.

In [1]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
everything = []

for chunk in list_of_lists:
    everything.extend(chunk)

everything

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [2]:
# la opción de arriba puede ser más rápida a esta
# alternativa concatenativa
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
everything = []

for chunk in list_of_lists:
    everything += chunk # puede ser más pythonico y más común

everything

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Clasificar una lista de palabras por su primera letra.

In [3]:
words = ["Apple", "Bat", "Bar", "Atom", "Book"]
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word] # creaa una clave y una lista con una palabra: w: [word]
    else:
        by_letter[letter].append(word) # hace un append de las demás palabras

by_letter

{'A': ['Apple', 'Atom'], 'B': ['Bat', 'Bar', 'Book']}

In [4]:
# se puede simplificar usando setdefault de dict
words = ["Apple", "Bat", "Bar", "Atom", "Book"]
by_letter = {}

for word in words:
    # letter = word[0]
    by_letter.setdefault(word[0], []).append(word)

by_letter

{'A': ['Apple', 'Atom'], 'B': ['Bat', 'Bar', 'Book']}

In [5]:
# usando defaultdict de collections
from collections import defaultdict

by_letter = defaultdict(list)

for word in words:
    by_letter[word[0]].append(word)

by_letter

defaultdict(list, {'A': ['Apple', 'Atom'], 'B': ['Bat', 'Bar', 'Book']})

Pasar todas las palabras de la lista a mayúsculas.

In [6]:
strings = ["a", "as", "bat", "car", "dove", "python"]

[x.upper() for x in strings]

['A', 'AS', 'BAT', 'CAR', 'DOVE', 'PYTHON']

In [7]:
# aplicar una condición a list comprehesion
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [8]:
# usar set para calcular el largo único de las palabras en strings
unique_lenghts = {len(x) for x in strings}
unique_lenghts

{1, 2, 3, 4, 6}

In [9]:
# proceso normal de la operación anterior
uniques = set()

for word in strings:
    uniques.add(len(word))

uniques

{1, 2, 3, 4, 6}

In [10]:
# la operación anterior usando defaultdict
from collections import defaultdict

uniques = defaultdict(list)

for word in strings:
    uniques[len(word)].append(word)

uniques

defaultdict(list,
            {1: ['a'],
             2: ['as'],
             3: ['bat', 'car'],
             4: ['dove'],
             6: ['python']})

In [11]:
# list comprehesion y defaultdict para realizar la operación anterior
uniques = defaultdict(list)

[uniques[len(word)].append(word) for word in strings]
uniques

defaultdict(list,
            {1: ['a'],
             2: ['as'],
             3: ['bat', 'car'],
             4: ['dove'],
             6: ['python']})

In [12]:
# eso mismo se puede realizar con map()
set(map(len, strings))

{1, 2, 3, 4, 6}

Usar `map()` junto a una función.

In [13]:
def mult(num):
    return num * 2


list(map(mult, [1, 2, 3, 4]))

[2, 4, 6, 8]

Crear un diccionario con la ubicación de las palabras en `strings`.

In [14]:
# el resultado es {"letra": ublicación de la palabra dentro de la lista}
loc_mapping = {value: index for index, value in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

Palabras con más de una "a".

In [15]:
all_data = [["John", "Michael", "Mary", "Steven", "Emily"],
           ["María", "Juan", "Javier", "Natalia", "Pilar"]]
names_of_interest = []

for names in all_data:
    enough_as = [name for name in names if name.count("a") > 1]
    # print(enough_as)
    names_of_interest.extend(enough_as)

names_of_interest

['María', 'Natalia']

In [16]:
# realizar la misma operación, pero usando list comprehesion
result = [name for names in all_data for name in names if name.count("a") > 1]
result

['María', 'Natalia']

Tuplas anidadas.

In [17]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

flattened = [x for tupe in some_tuples for x in tupe]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [18]:
# una list comprehesion anidada sería muy similar a un bucle
flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Crear una función de limpieza con `re`.

In [19]:
import re

states = ["    Alabama", "Georigia!", "Georgia", "south carolina##", "West Virginia?"]

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub("[!#?]", "", value)
        value = value.title()
        result.append(value)
    return result

clean_strings(states)

['Alabama', 'Georigia', 'Georgia', 'South Carolina', 'West Virginia']

In [20]:
# enoque altenativo
def remove_punct(value):
    return re.sub("[!#?]", "", value)


clean_ops = [str.strip, remove_punct, str.title]


def clean_strings(strings, ops):
    result = []
    for value in strings: # recorre los elementos de la lista
        for func in ops: # recorre cada opción de clean_ops
            value = func(value) # ejecuta cada acción de clean_ops
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama', 'Georigia', 'Georgia', 'South Carolina', 'West Virginia']

In [21]:
# usando map()
for x in map(remove_punct, states):
    print(x.strip())

Alabama
Georigia
Georgia
south carolina
West Virginia


`lambda` permite escribir funciones que consisten en una sola instrucción.

In [22]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

print(short_function(5))
print(equiv_anon(5))

10
10


`lambda`: a menudo es menos tipificador (y más claro) pasar una función lambda en lugar
de escribir una delcaración completa o incluso asignar la función `lambda` a una
variable local.

In [23]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]


inst = [4, 0, 1, 5, 6]

apply_to_list(inst, lambda x: x * 2)

[8, 0, 2, 10, 12]

In [24]:
# ordenar una colección de cadenas por el número de letras distintas en cada cadena
strings = ["foo", "card", "bar", "aaa", "abab"]

strings.sort(key=lambda x: len(set(x)))

strings

['aaa', 'foo', 'abab', 'bar', 'card']

In [25]:
# un bucle para tener un ejemplo visual de lo anterior
for a in strings:
    print(a, len(set(a)))

aaa 1
foo 2
abab 2
bar 3
card 4


### `itertools`
`grouopby` toma cualquier secuencia y una función, agrupando elementos consecutivos en
la secuencia por valor de retorno de la función.

In [26]:
import itertools


def first_letter(x):
    return x[0]


names = ["Alan", "Adam", "Wes", "Will", "Albert", "Steven"]

for letter, names in itertools.groupby(sorted(names), first_letter):
    print(letter, list(names))

A ['Adam', 'Alan', 'Albert']
S ['Steven']
W ['Wes', 'Will']


### Manejo de excepciones

In [27]:
# manejar una excepción con float
def attemp_float(x):
    try:
        return float(x) # intenta pasarlo a float
    except:
        return f"no es float: {x}" # si falla, retorna x

print(attemp_float(-10))
print(attemp_float("Python"))

-10.0
no es float: Python


In [28]:
# manejar ValueError
def attemp_float(x):
    try:
        return float(x)
    except ValueError:
        return f"No es float: {x}"
    
print(attemp_float(10))
print(attemp_float("Debian"))

10.0
No es float: Debian


In [29]:
# detectar múltiples excepciones con tuplas
def attemp_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return f"No es float: {x}"
    
print(attemp_float(100.12))
print(attemp_float("Linux"))

100.12
No es float: Linux


Es posible suprimir la excepción, pero ejecutar código independientemente de si el
código en `try` tiene éxito o no.

```py
f = open(path, mode="w")

try:
    write_to_file(f)
finally:
    f.close() # el objetivo de esta línea es siempre cerrar el archivo
```

Ejecutar un código solo si `try` tiene éxito.

```py
f = open(path, mode="w")

try:
    write_to_file(f)
except:
    print("Failed")
else:
    print("Suceeded")
finally:
    f.close()
```

### Archivos y el sistema operativo

In [30]:
path = r"segismundo.txt"
# de forma predeterminada, el archivo se abre en modo lectura
f = open(path, encoding="utf-8-sig")

for line in f:
    print(line)

Sueña el rico en su riqueza,

que más cuidados le ofrece;



sueña el pobre que padece

su miseria y su pobreza;



sueña el que a medrar empieza,

sueña el que afana y pretende,

sueña el que agravia y ofende,



y en el mundo, en conclusión,

todos sueñan lo que son,

aunque ninguno lo entiende.





In [31]:
# el archivo sale con los marcadores de fin de línea EOL
lines = [x.strip() for x in open(path, encoding="utf-8-sig") if len(x) > 2]
lines # lo imprime sin espacio y sin líneas vacías

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.']

In [32]:
# escribir un archivo sin líneas en blanco
with open("tmp.txt", "w") as handle:
    handle.writelines([x for x in open(path) if len(x) > 1])

In [33]:
# acceder al nuevo archivo generado
with open("tmp.txt", encoding="utf-8-sig") as f:
    lineas = f.readline()

lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.']

`write` escribe línea por línea sin añadir el salto de línea, mientras que `writelines`
escribe una lista de cadenas.