# Consejos para data wrangling con Python  


**Naomi Ceder, @naomiceder**

- **Ex-Presidenta de la Python Software Foundation**
- **La autora del Quick Python Book, 3rd ed**
- **Dick Blick Art Materials**

**Este Jupyter notebook está disponible en Github - https://github.com/nceder/workshops**

Hola, soy Naomi. He escribiendo Python desde hace 20 años cuando aprendí el lenguaje en un taller dado por Guido, el creador de Python. Soy la autora del Quick Python Book, y la ex-presidenta de la junta directiva de la Python Software Foundation.

Me da mucho orgullo y alegría estar en evento como este, en los inicios de una comunidad. Les espero todo éxito tanto con este evento como en el futuro. 

Por cierto esta cuaderno está disponible en Github en este enlace. 

## El enfoque de esta charla

* Consejos generales
* trabajar con varios ejemplos simples
* usar las herramientas más básicas
* compartir mi experiencia

No va a ser prescriptivo ni un "cookbook"


No tenemos suficiente tiempo hacer todo, pero espero que podamos hablar sobre algunos aspectos de la ingeniería de datos. 

Voy comenzar con un poco sobre los retos de manejar los datas y unos consejos generales y ejemplos de ellos.

## La explosión de datos

Durante los últimos dos décadas hemos vivido una explosión de datos (y los datos seguirán creciendo). 
* 2016 - 18 ZB
* 2021 - 79 ZB

![Amount of data stored](data_stored.png "Amount of data stored")

En 2016 tuvimos 18 ZB de datos guardados en el mundo... este año vamos guardar casi cien ZB de datos. Y los datos siguen creciendo... 

### Y de esos datos... 

* la mayoría (80-90%) no tiene ninguna estructura - texto, log files, streams, etc
* la mayoría (90%) no es "original" - copías, versiones modificadas, limpiadas, etc
* solo una parte muy pequeña  (0.5% en 2012) se ha analizado/usado 

Es interestante que no usamos ni un por ciento de este montón creciendo de datos sino sí los copíamos y creamos versiones modificadas. 

### El trabajo en la ciencia/ingeniería de datos es manejar estos datos: 
* transportarlos
* limpiarlos
* transformarlos

En inglés se llama este proceso muchas vezes "data wrangling".

La palabra "wranging" viene de los cowboys del oeste de los EE.UU. con el sentido de manejar, empujar, dirigir o llevar las vacas, los caballos, lo que sea.  

Yo crecí en un estado rural con mucho ganado y una tradición de cowboys y esto tiene sentido para mi. Con los wranglers del ganado muy pocos cowboys debían manejar muchas vacas y las vacas no querían cooperar. 


Entonces, el enfoque de esta charla es hablar un poco sobre un par de conceptos fundamentales para data wrangling. 

## Muchos datos pero recursos limitados



Tenemos que equilibrar nuestros recursos para manejar los datos que siguen creciendo

### Cuales son estos recursos?

### Velocidad/tiempo

* tiempo - con suficiente tiempo por supuesto podremos hacer cualquier cosa... pero casi nunca tenemos suficiente tiempo.

* potencia/velocidad de procesador/número de procesadores
    * con un procesador más rápido, necesitamos menos tiempo 
    * procesadores múltiples - muy comunes hoy en día, pero en Python... 

velocidad = número de ciclos del procedador por un período de tiempo

menos velocidad = más tiempo

### Almacenamiento - memoria/disco

* memoria (RAM)
  * más rápido que disco, pero limitada... los datos crecen más rápido que la memoria
  * no tendremos suficiente memoria... nunca.
* disco (y cloud storage)
  * sí es probable que tenemos suficiente disco, pero es muy lento. 
  * leer y escribir al disco es lo más lento que podemos hacer. 

Tanto memoria como disco son formas de almacenamiento, pero con un relación interesante - memoría siempre ha sido más rápido, pero más caro y escaso... mientras discos tienen espacio casi ilimitado pero son más lentos. 

Usualmente no podemos usar solo memoria... entonces tenemos que equilibrar los dos en la manera más eficiente.

## Entender/resolver los problemas
* herramientas de nivel bajo son más adecuadas 
  * cuando las cosas salen mal
  * para rendimiento y confiabilidad en los procesos de producción 
* herramientas de nivel alto son adecuadas para la exploración, y proof of concept


El segundo concepto es usar y entender el nivel adecuado de las herramientas 

Si una herramienta es conveniente y fácil de usar, existe un impulso de usarla para todo. Creo que eso es el caso con pandas. Por supuesto pandas es una excelente herramienta, pero no es adecuado para muchas situaciones. 


## Los consejos generales
* Ordena los datos antes de procesarlos
* Usa conjuntos (sets) 
    * uniqueness
    * membership - si un elemento está `in` una colección de datos
    * las `keys()` de un diccionario son un conjunto

Aquí estan algunos consejos generales

* muchas veces será más rápido ordenar los datos antes de procesarlos (si hay que buscar o tener elementos en orden

* Conjuntos (sets) son muy ütiles - son los más rápidos para determinar membresía con`in` y asegurar que los elementos son singulares (y las `keys()` de un diccionario tambien forman un conjunto.

## Los consejos generales, 2
* Usa diccionarios para relacionar elementos de archivos distintos
* Usa comprensiones de lista y diccionarios para rendimiento
* Usa expresiones generadores para ahorrar memoria
* Evite leer y escribir al disco
* Usa linux/unix herramientas- e.g. `sort`, `grep`

a continuación

* diccionarios son poderosos y super-útiles, e.g. para relacionar o combinar archivos (o datasets) con un campo común. 

* para filtrar datos comprensiones son eficientes y rápidas pero usan memoria... 

* pero la expresiones generadores hacen lo mismo, pero más despacio y con poca memoria. 

* si tenemos que usar un disco, leer y espcialmente escribir al disco es lo más lento. Es mejor usar un poco de memoria como caché y reducir el acceso al disco. 

* a veces herramientas unix pueden ser más eficientes que Python

### Usa conjuntos (sets)
* buscar en un conjunto requiere solo una operación
* es más rápido convertir una lista en un conjunto antes de buscar 
* (pero sí, eso usaría más memoria)

para buscar un elemento en una lista, hay que empezar al inicio y examinar todos los elementos en orden hasta que encuentres el elemento... o el fin de la lista. 

para buscar un elemento en un conjunto requiere solo una operación.

entonces es más rápido convertir una lista en un conjunto y buscar, (pero usaría más memoria)

In [38]:
# sets vs. lists

numbers = list(range(100000))
#numbers_set = set(numbers)


def find_list(target, numbers):
    return (
        target in numbers
        and target - 1 in numbers
        and target - 2 in numbers
        and target - 3 in numbers
    )

def find_set(target, numbers):
    # convert numbers to a set! 
    numbers_set = set(numbers)
    return (
        target in numbers_set
        and target - 1 in numbers_set
        and target - 2 in numbers_set
        and target - 3 in numbers_set
    )

A ver un ejemplo sobre lo de conjuntos... vamos a usar la magia timeit de jupyter para ver la manera mas rápida de buscar 4 números en una lista de 100,000 elementos.

In [44]:
%timeit find_list(99999, numbers)

%timeit find_set(99999, numbers)

3.49 ms ± 361 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.06 ms ± 91.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


No tenemos suficiente tiempo hacer todo, pero espero que podamos hablar sobre algunos aspectos de la ingeniería de datos. 

Voy comenzar con unos consejos generales y 

In [19]:
import random

descriptions = ["Super", "Premium", "Student", "Economy", "Budget", "Deluxe"]
item_names = ["Widget", "Gizmo", "Whatsit", "Device", "Gadget"]
sizes = ["Mini", "Micro", "Giant", "Extra Large", "Large"]
packs = ["single", "10-Pack", "1000-pack", "Dozen"]
colors = ["Red", "Green", "Yellow", "Blue", "Orange", "Purple", "White", "Black"]

"""item: sku, desc, category, info
attributes: sku, attr_id, attr_name, attr_value
accessories: sku, type, alt_sku
competitor: sku, competitor, competitor part number"""
sku_set = {}


def make_sku(comp=False):
    sku = ""
    if comp:
        sku += random.choice("ABCDEFGHJKLMPQRSTUVXYZ")
        sku += random.choice("ABCDEFGHJKLMPQRSTUVXYZ")
    for x in range(2):
        sku += str(random.randrange(10))
    if not comp:
        sku += random.choice("ABCDEFGHJKLMPQRSTUVXYZ")
    for x in range(2):
        sku += str(random.randrange(10))
    return sku

def make_data():
    sku = make_sku()
    description = f"{random.choice(descriptions)} {random.choice(item_names)}"
    cost = f"${round(random.random()*10000, 2):,}"
    size = random.choice(sizes) 
    pack = random.choice(packs)
    sku_list = [sku, description, cost]
    attrs = [[sku, 10001, "color", random.choice(colors)]]
    attrs += [[sku, 10002, "size", random.choice(sizes)]]
    attrs += [[sku, 10003, "package", random.choice(packs)]]
    accessory = [sku, random.choice(["Accessory", "Alternate Item"]), make_sku()]
    comp_data = [sku, f"Competitor-{random.choice('ABCDEF')}", make_sku(True)]
    return sku_list, attrs, accessory, comp_data


num_skus = 3
items = []
attributes = []
accessories = []
competitor = []


for x in range(num_skus):
    item, attribute, accessorie, comp = make_data()
    items.append(item)
    attributes.extend(attribute)
    accessories.append(accessorie)
    competitor.append(comp)
random.shuffle(attributes)
random.shuffle(accessories)
random.shuffle(competitor)

## Combinar archivos

Ejemplo de mi vida: usando un "feed" de productos -> MongoDB, hay que combinar 4 archivos
* 4 archivos delimitados con barras, no ordenados
  * items -  sku, description, cost
  * attributes - sku, attr_id, attr_name, attr_value
  * alternates/accessories - sku, type, alt_sku 
  * cross reference - sku, competitor, competitor part number


In [21]:
print("Items")
for x in items:
    print("|".join(x))
print()

print("Attributes")
for x in attributes:
    
    print("|".join([str(_) for _ in x]))
print()
print("Accessories")
for x in accessories:
    print("|".join(x))
print()

print("Competitor")
for x in competitor:
    print("|".join(x))


Items
07Q02|Premium Whatsit|$4,600.25
64K81|Super Widget|$2,066.81
24V80|Deluxe Widget|$2,704.29

Attributes
07Q02|10003|package|10-Pack
24V80|10003|package|1000-pack
24V80|10002|size|Extra Large
07Q02|10001|color|Black
64K81|10001|color|Yellow
24V80|10001|color|Yellow
07Q02|10002|size|Extra Large
64K81|10002|size|Large
64K81|10003|package|Dozen

Accessories
07Q02|Alternate Item|49Q55
64K81|Accessory|90R20
24V80|Accessory|87X49

Competitor
24V80|Competitor-B|RQ8799
64K81|Competitor-D|JJ5377
07Q02|Competitor-A|TP3303


In [39]:
pipes = """Items
07Q02|Premium Whatsit|$4,600.25
64K81|Super Widget|$2,066.81
24V80|Deluxe Widget|$2,704.29

Attributes
07Q02|10003|package|10-Pack
24V80|10003|package|1000-pack
24V80|10002|size|Extra Large
07Q02|10001|color|Black
64K81|10001|color|Yellow
24V80|10001|color|Yellow
07Q02|10002|size|Extra Large
64K81|10002|size|Large
64K81|10003|package|Dozen

Accessories
07Q02|Alternate Item|49Q55
64K81|Accessory|90R20
24V80|Accessory|87X49

Competitor
24V80|Competitor-B|RQ8799
64K81|Competitor-D|JJ5377
07Q02|Competitor-A|TP3303
"""


In [41]:
print(pipes)

Items
07Q02|Premium Whatsit|$4,600.25
64K81|Super Widget|$2,066.81
24V80|Deluxe Widget|$2,704.29

Attributes
07Q02|10003|package|10-Pack
24V80|10003|package|1000-pack
24V80|10002|size|Extra Large
07Q02|10001|color|Black
64K81|10001|color|Yellow
24V80|10001|color|Yellow
07Q02|10002|size|Extra Large
64K81|10002|size|Large
64K81|10003|package|Dozen

Accessories
07Q02|Alternate Item|49Q55
64K81|Accessory|90R20
24V80|Accessory|87X49

Competitor
24V80|Competitor-B|RQ8799
64K81|Competitor-D|JJ5377
07Q02|Competitor-A|TP3303



Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

In [23]:
print("Items")
for x in items:
    print(x)
print()

print("Attributes")
for x in attributes:
    print(x)
print()

print("Accessories")
for x in accessories:
    print(x)
print()

print("Competitor")
for x in competitor:
    print(x)


Items
['07Q02', 'Premium Whatsit', '$4,600.25']
['64K81', 'Super Widget', '$2,066.81']
['24V80', 'Deluxe Widget', '$2,704.29']

Attributes
['07Q02', 10003, 'package', '10-Pack']
['24V80', 10003, 'package', '1000-pack']
['24V80', 10002, 'size', 'Extra Large']
['07Q02', 10001, 'color', 'Black']
['64K81', 10001, 'color', 'Yellow']
['24V80', 10001, 'color', 'Yellow']
['07Q02', 10002, 'size', 'Extra Large']
['64K81', 10002, 'size', 'Large']
['64K81', 10003, 'package', 'Dozen']

Accessories
['07Q02', 'Alternate Item', '49Q55']
['64K81', 'Accessory', '90R20']
['24V80', 'Accessory', '87X49']

Competitor
['24V80', 'Competitor-B', 'RQ8799']
['64K81', 'Competitor-D', 'JJ5377']
['07Q02', 'Competitor-A', 'TP3303']


In [47]:
lists = """Items
['07Q02', 'Premium Whatsit', '$4,600.25']
['64K81', 'Super Widget', '$2,066.81']
['24V80', 'Deluxe Widget', '$2,704.29']

Attributes
['07Q02', 10003, 'package', '10-Pack']
['24V80', 10003, 'package', '1000-pack']
['24V80', 10002, 'size', 'Extra Large']
['07Q02', 10001, 'color', 'Black']
['64K81', 10001, 'color', 'Yellow']
['24V80', 10001, 'color', 'Yellow']
['07Q02', 10002, 'size', 'Extra Large']
['64K81', 10002, 'size', 'Large']
['64K81', 10003, 'package', 'Dozen']

Accessories
['07Q02', 'Alternate Item', '49Q55']
['64K81', 'Accessory', '90R20']
['24V80', 'Accessory', '87X49']

Competitor
['24V80', 'Competitor-B', 'RQ8799']
['64K81', 'Competitor-D', 'JJ5377']
['07Q02', 'Competitor-A', 'TP3303']"""

In [48]:
print(lists)

Items
['07Q02', 'Premium Whatsit', '$4,600.25']
['64K81', 'Super Widget', '$2,066.81']
['24V80', 'Deluxe Widget', '$2,704.29']

Attributes
['07Q02', 10003, 'package', '10-Pack']
['24V80', 10003, 'package', '1000-pack']
['24V80', 10002, 'size', 'Extra Large']
['07Q02', 10001, 'color', 'Black']
['64K81', 10001, 'color', 'Yellow']
['24V80', 10001, 'color', 'Yellow']
['07Q02', 10002, 'size', 'Extra Large']
['64K81', 10002, 'size', 'Large']
['64K81', 10003, 'package', 'Dozen']

Accessories
['07Q02', 'Alternate Item', '49Q55']
['64K81', 'Accessory', '90R20']
['24V80', 'Accessory', '87X49']

Competitor
['24V80', 'Competitor-B', 'RQ8799']
['64K81', 'Competitor-D', 'JJ5377']
['07Q02', 'Competitor-A', 'TP3303']


y Aquí está los mismos datos como listas en Python

In [28]:
from collections import defaultdict
combined_skus = defaultdict(dict)

for item in items:
    combined_skus[item[0]] = dict(zip(("sku", "description", "cost"),item))

combined_skus

defaultdict(dict,
            {'07Q02': {'sku': '07Q02',
              'description': 'Premium Whatsit',
              'cost': '$4,600.25'},
             '64K81': {'sku': '64K81',
              'description': 'Super Widget',
              'cost': '$2,066.81'},
             '24V80': {'sku': '24V80',
              'description': 'Deluxe Widget',
              'cost': '$2,704.29'}})

Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

In [29]:
for attr in attributes:
    if 'attributes' not in combined_skus[attr[0]]:
        combined_skus[attr[0]]['attributes'] = {}
    combined_skus[attr[0]]["attributes"][attr[2]] = attr[3]
        
combined_skus

defaultdict(dict,
            {'07Q02': {'sku': '07Q02',
              'description': 'Premium Whatsit',
              'cost': '$4,600.25',
              'attributes': {'package': '10-Pack',
               'color': 'Black',
               'size': 'Extra Large'}},
             '64K81': {'sku': '64K81',
              'description': 'Super Widget',
              'cost': '$2,066.81',
              'attributes': {'color': 'Yellow',
               'size': 'Large',
               'package': 'Dozen'}},
             '24V80': {'sku': '24V80',
              'description': 'Deluxe Widget',
              'cost': '$2,704.29',
              'attributes': {'package': '1000-pack',
               'size': 'Extra Large',
               'color': 'Yellow'}}})

Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

In [30]:
for accessory in accessories:
    combined_skus[accessory[0]][accessory[1]] = accessory[2]
        
combined_skus

defaultdict(dict,
            {'07Q02': {'sku': '07Q02',
              'description': 'Premium Whatsit',
              'cost': '$4,600.25',
              'attributes': {'package': '10-Pack',
               'color': 'Black',
               'size': 'Extra Large'},
              'Alternate Item': '49Q55'},
             '64K81': {'sku': '64K81',
              'description': 'Super Widget',
              'cost': '$2,066.81',
              'attributes': {'color': 'Yellow',
               'size': 'Large',
               'package': 'Dozen'},
              'Accessory': '90R20'},
             '24V80': {'sku': '24V80',
              'description': 'Deluxe Widget',
              'cost': '$2,704.29',
              'attributes': {'package': '1000-pack',
               'size': 'Extra Large',
               'color': 'Yellow'},
              'Accessory': '87X49'}})

Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

In [31]:
for comp in competitor:
    combined_skus[comp[0]]['competitor'] = comp[1:]
        
combined_skus

defaultdict(dict,
            {'07Q02': {'sku': '07Q02',
              'description': 'Premium Whatsit',
              'cost': '$4,600.25',
              'attributes': {'package': '10-Pack',
               'color': 'Black',
               'size': 'Extra Large'},
              'Alternate Item': '49Q55',
              'competitor': ['Competitor-A', 'TP3303']},
             '64K81': {'sku': '64K81',
              'description': 'Super Widget',
              'cost': '$2,066.81',
              'attributes': {'color': 'Yellow',
               'size': 'Large',
               'package': 'Dozen'},
              'Accessory': '90R20',
              'competitor': ['Competitor-D', 'JJ5377']},
             '24V80': {'sku': '24V80',
              'description': 'Deluxe Widget',
              'cost': '$2,704.29',
              'attributes': {'package': '1000-pack',
               'size': 'Extra Large',
               'color': 'Yellow'},
              'Accessory': '87X49',
              'competitor': [

In [32]:
combined_skus['24V80']

{'sku': '24V80',
 'description': 'Deluxe Widget',
 'cost': '$2,704.29',
 'attributes': {'package': '1000-pack',
  'size': 'Extra Large',
  'color': 'Yellow'},
 'Accessory': '87X49',
 'competitor': ['Competitor-B', 'RQ8799']}

Aquí está un ejempplo muy sencillo, con solo 3 SKU's y 4 archivos, delimitados por barras

## La realidad - archivos muy grandes

* items: 2 millones de líneas; con 15-20 elements - sku, descripción, categorías, dimensiones, cumplimiento, marca, MPN, etc.
* attributes: 20 millones de líneas, 10 por sku; sku, attr_id, attr_name, attr_value
* alternatives/accessories: 1 millón de líneas - sku, type, alt_sku 
* competitors:  1 millón de líneas - sku, competidor, número de pieza del competidor
* un nuevo feed cada noche a las dos de la mañana
* debía estar listo antes de las ocho - 6 horas al máximo 



No tenemos suficiente tiempo hacer todo, pero espero que podamos hablar sobre algunos aspectos de la ingeniería de datos. 

Voy comenzar con unos consejos generales y 

### La solución con el diccionario no funcionó
* OOM-killer

### OOMkiller

No tenemos suficiente tiempo hacer todo, pero espero que podamos hablar sobre algunos aspectos de la ingeniería de datos. 

Voy comenzar con unos consejos generales y 

```
naomi@naomi-NUC:~$ sudo dmesg

[11686.040460] flasherav invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0, oom_score_adj=0
[11686.040467] flasherav cpuset=/ mems_allowed=0
[11686.040472] Pid: 2859, comm: flasherav Not tainted 3.0.0-12-generic #20-Ubuntu
[11686.040476] Call Trace:
[11686.040488]  [<c10e1c15>] dump_header.isra.7+0x85/0xc0
[11686.040493]  [<c10e1e6c>] oom_kill_process+0x5c/0x80
[11686.040498]  [<c10e225f>] out_of_memory+0xbf/0x1d0
[11686.040503]  [<c10e6123>] __alloc_pages_nodemask+0x6c3/0x6e0
[11686.040509]  [<c10e78d3>] ? __do_page_cache_readahead+0xe3/0x170
[11686.040514]  [<c10e0fc8>] filemap_fault+0x218/0x390
[11686.040519]  [<c1001c24>] ? __switch_to+0x94/0x1a0
[11686.040525]  [<c10fb5ee>] __do_fault+0x3e/0x4b0
[11686.040530]  [<c1069971>] ? enqueue_hrtimer+0x21/0x80
[11686.040535]  [<c10fec2c>] handle_pte_fault+0xec/0x220
[11686.040540]  [<c10fee68>] handle_mm_fault+0x108/0x210
[11686.040546]  [<c152fa00>] ? vmalloc_fault+0xee/0xee
[11686.040551]  [<c152fb5b>] do_page_fault+0x15b/0x4a0
[11686.040555]  [<c1069a90>] ? update_rmtp+0x80/0x80
[11686.040560]  [<c106a7b6>] ? hrtimer_start_range_ns+0x26/0x30
[11686.040565]  [<c106aeaf>] ? sys_nanosleep+0x4f/0x60
[11686.040569]  [<c152fa00>] ? vmalloc_fault+0xee/0xee
[11686.040574]  [<c152cfcf>] error_code+0x67/0x6c
[11686.040580]  [<c1520000>] ? reserve_backup_gdb.isra.11+0x26d/0x2c0
[11686.040583] Mem-Info:
[11686.040585] DMA per-cpu:
[11686.040588] CPU    0: hi:    0, btch:   1 usd:   0
[11686.040592] CPU    1: hi:    0, btch:   1 usd:   0
[11686.040594] Normal per-cpu:
[11686.040597] CPU    0: hi:  186, btch:  31 usd:   5
[11686.040600] CPU    1: hi:  186, btch:  31 usd:  30
[11686.040603] HighMem per-cpu:
[11686.040605] CPU    0: hi:   42, btch:   7 usd:   7
[11686.040608] CPU    1: hi:   42, btch:   7 usd:  22
[11686.040613] active_anon:113150 inactive_anon:113378 isolated_anon:0
[11686.040615]  active_file:86 inactive_file:1964 isolated_file:0
[11686.040616]  unevictable:0 dirty:0 writeback:0 unstable:0
[11686.040618]  free:13274 slab_reclaimable:2239 slab_unreclaimable:2594
[11686.040619]  mapped:1387 shmem:4380 pagetables:1375 bounce:0
[11686.040627] DMA free:4776kB min:784kB low:980kB high:1176kB active_anon:5116kB inactive_anon:5472kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:15804kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:80kB slab_unreclaimable:168kB kernel_stack:96kB pagetables:64kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:6 all_unreclaimable? yes
[11686.040634] lowmem_reserve[]: 0 865 1000 1000
[11686.040644] Normal free:48212kB min:44012kB low:55012kB high:66016kB active_anon:383196kB inactive_anon:383704kB active_file:344kB inactive_file:7884kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:885944kB mlocked:0kB dirty:0kB writeback:0kB mapped:5548kB shmem:17520kB slab_reclaimable:8876kB slab_unreclaimable:10208kB kernel_stack:1960kB pagetables:3976kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:930 all_unreclaimable? yes
[11686.040652] lowmem_reserve[]: 0 0 1078 1078
[11686.040662] HighMem free:108kB min:132kB low:1844kB high:3560kB active_anon:64288kB inactive_anon:64336kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:138072kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:1460kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:61 all_unreclaimable? yes
[11686.040669] lowmem_reserve[]: 0 0 0 0
[11686.040675] DMA: 20*4kB 24*8kB 34*16kB 26*32kB 19*64kB 13*128kB 1*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 4784kB
[11686.040690] Normal: 819*4kB 607*8kB 357*16kB 176*32kB 99*64kB 49*128kB 23*256kB 4*512kB 0*1024kB 0*2048kB 2*4096kB = 48212kB
[11686.040704] HighMem: 16*4kB 0*8kB 1*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 80kB
[11686.040718] 14680 total pagecache pages
[11686.040721] 8202 pages in swap cache
[11686.040724] Swap cache stats: add 2191074, delete 2182872, find 1247325/1327415
[11686.040727] Free swap  = 0kB
[11686.040729] Total swap = 524284kB
[11686.043240] 262100 pages RAM
[11686.043244] 34790 pages HighMem
[11686.043246] 5610 pages reserved
[11686.043248] 2335 pages shared
[11686.043250] 240875 pages non-shared
[11686.043253] [ pid ]   uid  tgid total_vm      rss cpu oom_adj oom_score_adj name
[11686.043266] [ 1084]     0  1084      662        1   0       0             0 upstart-udev-br
[11686.043271] [ 1094]     0  1094      743       79   0     -17         -1000 udevd
[11686.043276] [ 1104]   101  1104     7232       42   0       0             0 rsyslogd
[11686.043281] [ 1149]   103  1149     1066      188   1       0             0 dbus-daemon
[11686.043286] [ 1165]     0  1165     1716       66   0       0             0 modem-manager
[11686.043291] [ 1220]   106  1220      861       42   0       0             0 avahi-daemon
[11686.043296] [ 1221]   106  1221      829        0   1       0             0 avahi-daemon
[11686.043301] [ 1255]     0  1255     6880      117   0       0             0 NetworkManager
[11686.043306] [ 1308]     0  1308     5988      144   0       0             0 polkitd
[11686.043311] [ 1334]     0  1334      723       85   0     -17         -1000 udevd
[11686.043316] [ 1335]     0  1335      730      108   0     -17         -1000 udevd
[11686.043320] [ 1375]     0  1375      663       37   0       0             0 upstart-socket-
[11686.043325] [ 1464]     0  1464     1333      120   1       0             0 login
[11686.043330] [ 1467]     0  1467     1333      135   1       0             0 login
[11686.043335] [ 1486]     0  1486     1333      135   1       0             0 login
[11686.043339] [ 1487]     0  1487     1333      136   1       0             0 login
[11686.043344] [ 1493]     0  1493     1333      134   1       0             0 login
[11686.043349] [ 1528]     0  1528      496       45   0       0             0 acpid
[11686.043354] [ 1529]     0  1529      607       46   1       0             0 cron
[11686.043359] [ 1549]     0  1549    10660      100   0       0             0 lightdm
[11686.043363] [ 1550]     0  1550      570       28   0       0             0 atd
[11686.043368] [ 1584]     0  1584      855       35   0       0             0 irqbalance
[11686.043373] [ 1703]     0  1703    17939     9653   0       0             0 Xorg
[11686.043378] [ 1874]     0  1874     7013      174   0       0             0 console-kit-dae
[11686.043382] [ 1958]     0  1958     1124       52   1       0             0 bluetoothd
[11686.043388] [ 2048]   999  2048     2435      641   1       0             0 bash
[11686.043392] [ 2049]   999  2049     2435      595   0       0             0 bash
[11686.043397] [ 2050]   999  2050     2435      587   1       0             0 bash
[11686.043402] [ 2051]   999  2051     2435      634   1       0             0 bash
[11686.043406] [ 2054]   999  2054     2435      569   0       0             0 bash
[11686.043411] [ 2155]     0  2155     1333      128   0       0             0 login
[11686.043416] [ 2222]     0  2222      684       67   1       0             0 dhclient
[11686.043420] [ 2240]   999  2240     2435      415   0       0             0 bash
[11686.043425] [ 2244]     0  2244     3631       58   0       0             0 accounts-daemon
[11686.043430] [ 2258]   999  2258    11683      277   0       0             0 gnome-session
[11686.043435] [ 2407]   999  2407      964       24   0       0             0 ssh-agent
[11686.043440] [ 2410]   999  2410      937       53   0       0             0 dbus-launch
[11686.043444] [ 2411]   999  2411     1319      300   1       0             0 dbus-daemon
[11686.043449] [ 2413]   999  2413     2287       88   0       0             0 gvfsd
[11686.043454] [ 2418]   999  2418     7867      123   1       0             0 gvfs-fuse-daemo
[11686.043459] [ 2427]   999  2427    32720      804   0       0             0 gnome-settings-
[11686.043463] [ 2437]   999  2437    10750      124   0       0             0 gnome-keyring-d
[11686.043468] [ 2442]   999  2442     2321      244   1       0             0 gconfd-2
[11686.043473] [ 2447]     0  2447     6490      156   0       0             0 upowerd
[11686.043478] [ 2467]   999  2467     7590       87   0       0             0 dconf-service
[11686.043482] [ 2529]   999  2529    11807      211   0       0             0 gsd-printer
[11686.043487] [ 2531]   999  2531    12162      587   0       0             0 metacity
[11686.043492] [ 2535]   999  2535    19175      960   0       0             0 unity-2d-panel
[11686.043496] [ 2536]   999  2536    19408     1012   0       0             0 unity-2d-launch
[11686.043502] [ 2539]   999  2539    16154     1120   1       0             0 nautilus
[11686.043506] [ 2540]   999  2540    17888      534   0       0             0 nm-applet
[11686.043511] [ 2541]   999  2541     7005      253   0       0             0 polkit-gnome-au
[11686.043516] [ 2544]   999  2544     8930      430   0       0             0 bamfdaemon
[11686.043521] [ 2545]   999  2545    11217      442   1       0             0 bluetooth-apple
[11686.043525] [ 2547]   999  2547      510       16   0       0             0 sh
[11686.043530] [ 2548]   999  2548    11205      301   1       0             0 gnome-fallback-
[11686.043535] [ 2565]   999  2565     6614      179   1       0             0 gvfs-gdu-volume
[11686.043539] [ 2567]     0  2567     5812      164   1       0             0 udisks-daemon
[11686.043544] [ 2571]     0  2571     1580       69   0       0             0 udisks-daemon
[11686.043549] [ 2579]   999  2579    16354     1035   0       0             0 unity-panel-ser
[11686.043554] [ 2602]     0  2602     1188       47   0       0             0 sudo
[11686.043559] [ 2603]     0  2603   374634   181503   0       0             0 flasherav
[11686.043564] [ 2607]   999  2607    12673      189   0       0             0 indicator-appli
[11686.043569] [ 2609]   999  2609    19313      311   1       0             0 indicator-datet
[11686.043573] [ 2611]   999  2611    15738      225   0       0             0 indicator-messa
[11686.043578] [ 2615]   999  2615    17433      237   1       0             0 indicator-sessi
[11686.043583] [ 2627]   999  2627     2393      132   0       0             0 gvfsd-trash
[11686.043588] [ 2640]   999  2640     1933       85   0       0             0 geoclue-master
[11686.043592] [ 2650]     0  2650     2498     1136   1       0             0 mount.ntfs
[11686.043598] [ 2657]   999  2657     6624      128   1       0             0 telepathy-indic
[11686.043602] [ 2659]   999  2659     2246      112   0       0             0 mission-control
[11686.043607] [ 2662]   999  2662     5431      346   1       0             0 gdu-notificatio
[11686.043612] [ 2664]     0  2664     3716     2392   0       0             0 mount.ntfs
[11686.043617] [ 2679]   999  2679    12453      197   1       0             0 zeitgeist-datah
[11686.043621] [ 2685]   999  2685     5196     1581   1       0             0 zeitgeist-daemo
[11686.043626] [ 2934]   999  2934    16305      710   0       0             0 gnome-terminal
[11686.043631] [ 2938]   999  2938      553        0   0       0             0 gnome-pty-helpe
[11686.043636] [ 2939]   999  2939     1814      406   0       0             0 bash
[11686.043641] Out of memory: Kill process 2603 (flasherav) score 761 or sacrifice child
[11686.043647] Killed process 2603 (flasherav) total-vm:1498536kB, anon-rss:721784kB, file-rss:4228kB
```

### Solución 2 con `shelve` - ? days... 
* `shelve` es un objeto Python que funciona como un diccionario, pero en disco, no solo en memoria
* luego cada cambio del objeto `shelve` necesitaría leer y escribir al disco
* con casi 25 millones de líneas, esta versión duró unos días

### Solución 3 con mongodb - 16 horas
1. leer una línea de un archivo 
2. obtener el registro de sku en mongodb
3. actualizar el registro en mongodb
3. repite hasta que todas los archivos habían sido leídos

Leer mongodb casi 25 millones de veces; escriber menos de 25 millones

### Solución 4  - < 2 horas
1. ordenar todos los archivos por SKU con Unix `sort` - pocos minutos
2. obtener el registro de sku en Mongo
3. leer todas las líneas (en todos los archivos) relatadas por SKU
4. actualizar el registro en memoria
5. guardar el registro en mongodb

Leer mongodb 2 millones de veces; escriber menos de 2 millones

## El consejo más importante

Entiende tus recursos y tus herramientas para buscar una combinación eficaz.

## !Gracias! 

### ¿Preguntas?


### La documentación en Python.org 

* Python Tutorial - https://docs.python.org/3/tutorial/index.html / (español) https://docs.python.org/es/3/tutorial/index.html 
* La biblioteca estándar - https://docs.python.org/3/library/index.html - (español) https://docs.python.org/es/3/library/index.html

### Libro recomendado

*Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools,* David Mertz (Packt - https://www.packtpub.com/catalogsearch/result/?q=David%20Mertz) 