# La Limpieza de datos con Python  


**Naomi Ceder, @naomiceder**

- **Presidenta Saliente de la Python Software Foundation**
- **La autora del Quick Python Book, 3rd ed**
- **Dick Blick Art Materials**

**Este cuaderno (pero no los archivos de datos) está disponible en Github - https://github.com/nceder/limpieza_de_datos**


## Agenda

### Sobre la Python Software Foundation
* La PSF
   * La misión de la Python Software Foundation
   * La situación de la PSF en el crisis actual

### Limpieza de datos

* Introdución
  * Las herriamientas
  * Cómo buscar ayuda

* Problema de muestra - contar las palabras en *Don Quijote*
  * Las técnicas
     * str.translate y métodos de cadenas
     * funciones
     * decorators
     * comprensiones como filtros
     * expresiones regulares
     * NLTK


### La PSF
   * La misión de la Python Software Foundation
   
   “La misión de la Python Software Foundation es promover, proteger y avanzar el lenguaje de programación de Python y apoyar y facilitar el crecimiento de una comunidad diversa e internacional de programadores de Python”

#### Proteger la propriedad intelectual

* registar las marcas y logos de Python, PyPI, PyCon, PyLadies en todo el mundo
    * si alguien va a usar (o cambiar) las marcas y logos, sería una buena idea que pedir permiso de psf-trademarks@python.org
* mantener los derechos del autor de todo el código de Python
   * para contribuir código a Python, debe sumitir una copia afirmada del contributor's agreement
   

#### Apoyar una comunidad diversa e internacional

* Apoyar las comunidades y sus eventos en todo el mundo (casi $350,000 en 2019)

    * se ponga en contacto con la PSF en psf@python.org
    * únete a nosotros en https://www.python.org/psf-landing/
       * miembro básico - gratis, solo se registre 
       * miembro de apoyo - $99 por año, puede votar en las elecciones en junio 
       * miembro contribuyente - 5 horas voluntarias por mes, también puede votar
      

* La situación de la PSF en el crisis actual
  * PyCon 2020 ha sido cancelado; las charlas y talleres se encuentran en https://us.pycon.org/2020/online/
  * Gracias a los patrocinadores y asistentes que no exigieron un reembolso, podemos cubrir los gastos, pero sin las ganancias de PyCon usaremos nuestras reservas durante el próximo año. 
  * Una pausa temporal de otorgar las becas y grants
  * PyCon 2021 presencial - ¿quién sabe?

### El enfoque de este taller

* trabajar con un ejemplo simple
* usar las herriemientas las más básicas posible 
* compartir mi experiencia

No va a ser prescriptivo ni un "cookbook"

## Philosofía del taller

“Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera.” - Tolstoy

“¿Qué podría salir mal?” - Naomi, and many others

“Si algo puede salir mal, lo hará” - Murphy

**o**

Si todo va bien, puede usar las herramientas de alto nivel, pero cuando las cosas salen mal, debe trabajar en un nivel inferior. Y muchas veces las cosas salen mal.



## Herriamientas

* Python 3.8+
* la librería estándar - `collections, sys, os, str, re` módulos
* `pip`
  * `conda` si usas una distribución de Anaconda
* los entornos virturales
  * virtualenv o conda-env
* NLTK


### ¿Es librería o biblioteca? #EsBibliotecaNoLibreria

 <img src="es_biblioteca.jpg">
 <img src="tipado_de_pato.png">

## Cómo buscar ayuda
* Python - docs.python.org y https://python-docs-es.readthedocs.io/es/3.8/
* la documentación de las ~~librerías~~ bibliotecas
* dir() y help() en una shell Python


### La documentación en Python.org 

* Python Tutorial - https://docs.python.org/3/tutorial/index.html / https://python-docs-es.readthedocs.io/es/3.8/tutorial/index.html
* La ~~librería~~biblioteca estándar - https://docs.python.org/3/library/index.html - (aún no se traduce) https://python-docs-es.readthedocs.io/es/3.8/library/index.html


## Texto plano

* el format de archivos más simple
* casi sin estructura
* muchas opciones y decisiones
* cómo procesar texto plano está controlada por el uso de los datos

### Problema - contar las palabras en Don Quijote

Cuáles son las palabras más frecuentes en *Don Quijote*

Requisitos:

1. no se cuentan otros cáracteres o símbolos
2. las variaciones de una palabra deben contarse como la misma palabra - "caballero" == "caballeros" == "CABALLERO" == "Caballero"

### En general, esto significa
* limpieza de los datos 
   * eliminar los carácteres no UTF8
   * eliminar los carácteres no alfanumericos - la punctuación y otros
* normalización - maiúsculos/minúsculos
* tokenization - ¿qué es una palabra?
   * partir las palabras usando carácteres especifícos (e.g., los espacios y/o la punctuación)
   * partir las palabras con regular expressions
   * "stemming" (NLTK tokens)

## Obtener el texto

* pip install requests
* descargar el texto

In [1]:
import requests

respuesta = requests.get(
    "http://www.gutenberg.org/cache/epub/2000/pg2000.txt"
)

texto = respuesta.text

with open("quijote.txt", "w") as archivo:
    archivo.write(texto)    

In [2]:
texto[:50]

'\ufeffThe Project Gutenberg EBook of Don Quijote, by Mi'

### Solución ingenua 
* cuenta de palabras simple
* no procesiamiento

In [4]:
# cuenta de palabras
from collections import Counter

cuenta_quijote = Counter()

def tokenize(línea):
    # partir con espacios en blanco
    return línea.split()
    
def limpiar(línea):
    # eliminar los espacios en blanco iniciales y finales
    return línea.strip()

def normalizar(línea):
    return línea

with open("quijote.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)
        

In [5]:
print(cuenta_quijote.most_common()[:100])

[('que', 19429), ('de', 17988), ('y', 15894), ('la', 10200), ('a', 9575), ('el', 7957), ('en', 7898), ('no', 5611), ('se', 4690), ('los', 4680), ('con', 4047), ('por', 3758), ('las', 3423), ('lo', 3387), ('le', 3382), ('su', 3319), ('don', 2533), ('del', 2464), ('me', 2344), ('como', 2226), ('es', 1990), ('un', 1927), ('más', 1823), ('si', 1779), ('yo', 1703), ('al', 1696), ('mi', 1684), ('para', 1419), ('ni', 1350), ('una', 1300), ('y,', 1250), ('tan', 1217), ('porque', 1189), ('o', 1159), ('sin', 1139), ('que,', 1069), ('sus', 1047), ('ha', 1038), ('él', 1034), ('había', 1006), ('ser', 997), ('todo', 963), ('Sancho', 950), ('Quijote', 894), ('-dijo', 873), ('bien', 862), ('-respondió', 813), ('vuestra', 792), ('señor', 732), ('te', 724), ('todos', 703), ('era', 700), ('ya', 689), ('sino', 687), ('merced', 678), ('cuando', 665), ('dos', 633), ('donde', 615), ('fue', 610), ('este', 609), ('quien', 605), ('Y', 595), ('esta', 585), ('pero', 577), ('qué', 551), ('cual', 534), ('Quijote,',

In [6]:
print(cuenta_quijote.most_common()[-200:])

[('hundreds', 1), ('walks', 1), ('life.', 1), ('Volunteers', 1), ('financial', 1), ('assistance', 1), ('need', 1), ('critical', 1), ('reaching', 1), ("Gutenberg-tm's", 1), ('goals', 1), ('ensuring', 1), ('remain', 1), ('available', 1), ('generations', 1), ('come.', 1), ('2001,', 1), ('was', 1), ('secure', 1), ('permanent', 1), ('generations.', 1), ('learn', 1), ('help,', 1), ('see', 1), ('Sections', 1), ('4', 1), ('http://www.pglaf.org.', 1), ('3.', 1), ('profit', 1), ('educational', 1), ('corporation', 1), ('organized', 1), ('Mississippi', 1), ('granted', 1), ('Internal', 1), ('Revenue', 1), ('Service.', 1), ('EIN', 1), ('identification', 1), ('64-6221541.', 1), ('letter', 1), ('http://pglaf.org/fundraising.', 1), ('Contributions', 1), ('deductible', 1), ('extent', 1), ("state's", 1), ('laws.', 1), ('4557', 1), ('Melan', 1), ('Fairbanks,', 1), ('AK,', 1), ('99712.,', 1), ('scattered', 1), ('throughout', 1), ('numerous', 1), ('locations.', 1), ('business', 1), ('809', 1), ('North', 1),

### Algunas mejoras
* editar el archivo para eliminar el texto extra
* cambiar todo a minúsculos - `lower()` método de las cadenas


In [8]:
# cuenta de palabras
from collections import Counter

cuenta_quijote = Counter()

def tokenize(línea):
    palabras = línea.split() 
    return palabras

def limpiar(línea):
    return línea.strip()

def normalizar(línea):
    return línea.lower()

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)

In [9]:
      
print(cuenta_quijote.most_common(100))

[('que', 19470), ('de', 18153), ('y', 16489), ('la', 10338), ('a', 9746), ('el', 8170), ('en', 8149), ('no', 5766), ('los', 4735), ('se', 4690), ('con', 4146), ('por', 3818), ('las', 3461), ('lo', 3442), ('le', 3383), ('su', 3350), ('don', 2638), ('del', 2487), ('me', 2344), ('como', 2234), ('es', 2000), ('un', 1935), ('si', 1876), ('más', 1827), ('yo', 1786), ('al', 1727), ('mi', 1693), ('y,', 1562), ('para', 1429), ('ni', 1359), ('una', 1304), ('porque', 1232), ('tan', 1219), ('o', 1163), ('sin', 1143), ('que,', 1075), ('él', 1055), ('sus', 1048), ('ha', 1040), ('todo', 1023), ('había', 1010), ('ser', 997), ('sancho', 953), ('quijote', 904), ('bien', 890), ('-dijo', 873), ('vuestra', 818), ('-respondió', 813), ('señor', 752), ('pero', 734), ('ya', 727), ('te', 724), ('todos', 720), ('era', 716), ('cuando', 703), ('sino', 687), ('merced', 678), ('donde', 662), ('dos', 641), ('este', 627), ('fue', 624), ('esta', 607), ('quien', 605), ('qué', 551), ('así', 540), ('cual', 535), ('esto', 

In [10]:
print(cuenta_quijote.most_common()[-200:])

[('-venid,', 1), ('mingo,', 1), ('desgreñada', 1), ('marido;', 1), ('despeado,', 1), ('-traed', 1), ('mayo;', 1), ('cinto,', 1), ('traspasarla', 1), ('átomo,', 1), ('ejercitándose', 1), ('impedidos', 1), ('importantes,', 1), ('compraría', 1), ('vendrían', 1), ('quijotiz;', 1), ('curambro;', 1), ('pancino.', 1), ('concedieron', 1), ('aprobaron', 1), ('ofreciéndosele', 1), ('celebérrimo', 1), ('compondré', 1), ('entretengamos', 1), ('andar;', 1), ('retule', 1), ('grabe', 1), ('hipérbole', 1), ('buscaremos', 1), ('mañeruelas,', 1), ('cuadraren,', 1), ('esquinen.', 1), ('carrasco:', 1), ('faltaren,', 1), ('darémosles', 1), ('estampadas', 1), ('impresas,', 1), ('fílidas,', 1), ('amarilis,', 1), ('fléridas,', 1), ('galateas', 1), ('belisardas;', 1), ('venden', 1), ('llamare', 1), ('ana,', 1), ('celebraré', 1), ('anarda;', 1), ('francisca,', 1), ('llamaré', 1), ('francenia;', 1), ('lucía,', 1), ('lucinda,', 1), ('allá;', 1), ('cofadría,', 1), ('teresaina.', 1), ('aplicación', 1), ('vacase', 1

### Trucos de limpieza - funciones y decorators
* si el código se usa mucho, debe convertirse a una función - hecho
* si una función se usa mucho con otras funciones, puede convertirse a un decorator


In [11]:
def normalizar(func):
    def wrapper(línea):
        línea = línea.lower()
        return func(línea)
    return wrapper

#def normalizar(línea):
#    return línea.lower()


In [14]:
# cuenta de palabras
from collections import Counter

cuenta_quijote = Counter()

def tokenize(línea):
    palabras = línea.split() 
    return palabras

@normalizar
def limpiar(línea):
    return línea.strip()

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        #línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)
        

In [15]:
print(cuenta_quijote.most_common(100))

[('que', 19470), ('de', 18153), ('y', 16489), ('la', 10338), ('a', 9746), ('el', 8170), ('en', 8149), ('no', 5766), ('los', 4735), ('se', 4690), ('con', 4146), ('por', 3818), ('las', 3461), ('lo', 3442), ('le', 3383), ('su', 3350), ('don', 2638), ('del', 2487), ('me', 2344), ('como', 2234), ('es', 2000), ('un', 1935), ('si', 1876), ('más', 1827), ('yo', 1786), ('al', 1727), ('mi', 1693), ('y,', 1562), ('para', 1429), ('ni', 1359), ('una', 1304), ('porque', 1232), ('tan', 1219), ('o', 1163), ('sin', 1143), ('que,', 1075), ('él', 1055), ('sus', 1048), ('ha', 1040), ('todo', 1023), ('había', 1010), ('ser', 997), ('sancho', 953), ('quijote', 904), ('bien', 890), ('-dijo', 873), ('vuestra', 818), ('-respondió', 813), ('señor', 752), ('pero', 734), ('ya', 727), ('te', 724), ('todos', 720), ('era', 716), ('cuando', 703), ('sino', 687), ('merced', 678), ('donde', 662), ('dos', 641), ('este', 627), ('fue', 624), ('esta', 607), ('quien', 605), ('qué', 551), ('así', 540), ('cual', 535), ('esto', 

### Otras mejoras
* eliminar la punctuación, etc
   * `str.translate()` & `str.maketrans()`
* filtrar las palabras "stop words" o palabras vacías 
   * usar una comprensión de listas como un filtro
   * usar un conjunto o `set` para una tabla de palabras vacías


In [16]:
# cuenta de palabras
from collections import Counter
cuenta_quijote = Counter()
punct_table = str.maketrans(".,\"-:;?¿!¡‹›«»", "              ")

def tokenize(línea):
    palabras = línea.split() 
    return palabras

@normalizar
def limpiar(línea):
    línea =  línea.strip()
    return línea.translate(punct_table)

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)

In [17]:
print(cuenta_quijote.most_common(100))

[('que', 20609), ('de', 18210), ('y', 18175), ('la', 10361), ('a', 9821), ('en', 8237), ('el', 8210), ('no', 6320), ('los', 4748), ('se', 4691), ('con', 4201), ('por', 3935), ('las', 3467), ('lo', 3457), ('le', 3398), ('su', 3352), ('don', 2647), ('del', 2491), ('me', 2345), ('como', 2262), ('quijote', 2175), ('sancho', 2147), ('es', 2141), ('yo', 2069), ('más', 2044), ('si', 1961), ('un', 1938), ('dijo', 1808), ('al', 1736), ('mi', 1702), ('para', 1462), ('porque', 1387), ('ni', 1375), ('una', 1329), ('él', 1276), ('tan', 1241), ('o', 1213), ('todo', 1176), ('sin', 1154), ('respondió', 1063), ('así', 1062), ('señor', 1060), ('ser', 1055), ('ha', 1052), ('sus', 1049), ('bien', 1048), ('había', 1034), ('pero', 1013), ('merced', 898), ('esto', 886), ('pues', 861), ('vuestra', 851), ('qué', 849), ('todos', 817), ('ya', 782), ('cuando', 757), ('era', 754), ('te', 726), ('cual', 704), ('sino', 694), ('dos', 684), ('donde', 674), ('caballero', 661), ('fue', 651), ('este', 641), ('esta', 624)

In [18]:
print(cuenta_quijote.most_common()[-200:])

[('ajustan', 1), ('amenos', 1), ('vacías', 1), ('flexible', 1), ('aguarden', 1), ('apresurarte', 1), ('dieres', 1), ('favorézcate', 1), ('consistir', 1), ('desnudóse', 1), ('arrebatando', 1), ('desmayes', 1), ('imprudencia', 1), ('zamora', 1), ('sobrecarga', 1), ('quebrados', 1), ('apártese', 1), ('levadas', 1), ('sobrará', 1), ('pégate', 1), ('contendré', 1), ('cobres', 1), ('ferreruelo', 1), ('resfriarme', 1), ('abrigó', 1), ('reconoció', 1), ('rastrillos', 1), ('vencieron', 1), ('alojáronle', 1), ('guadameciles', 1), ('menalao', 1), ('fragata', 1), ('verter', 1), ('desdichadísimas', 1), ('encontrara', 1), ('destruida', 1), ('paris', 1), ('escusaran', 1), ('bodegón', 1), ('pintasen', 1), ('zorra', 1), ('mauleón', 1), ('deum', 1), ("''dé", 1), ("diere''", 1), ('llegaremos', 1), ('enmendaré', 1), ('lxxii', 1), ('hojeé', 1), ('preguntaremos', 1), ('enjaezada', 1), ('importar', 1), ('palmease', 1), ('frión', 1), ('llovidas', 1), ('tutor', 1), ('burlería', 1), ('perseguirme', 1), ('nuncio

### Cómo crear una tabla de palabras vacías
* Hay listas que puede descargarse
* Mira las palabras más comunes y elimine las que no están vacías
* Usa conjuntos (set) para el mejor rendimiento


In [19]:
vacías_lista = [f"{x[0]}" for x in cuenta_quijote.most_common(200)]
vacías_lista

['que',
 'de',
 'y',
 'la',
 'a',
 'en',
 'el',
 'no',
 'los',
 'se',
 'con',
 'por',
 'las',
 'lo',
 'le',
 'su',
 'don',
 'del',
 'me',
 'como',
 'quijote',
 'sancho',
 'es',
 'yo',
 'más',
 'si',
 'un',
 'dijo',
 'al',
 'mi',
 'para',
 'porque',
 'ni',
 'una',
 'él',
 'tan',
 'o',
 'todo',
 'sin',
 'respondió',
 'así',
 'señor',
 'ser',
 'ha',
 'sus',
 'bien',
 'había',
 'pero',
 'merced',
 'esto',
 'pues',
 'vuestra',
 'qué',
 'todos',
 'ya',
 'cuando',
 'era',
 'te',
 'cual',
 'sino',
 'dos',
 'donde',
 'caballero',
 'fue',
 'este',
 'esta',
 'quien',
 'ella',
 'decir',
 'he',
 'muy',
 'hacer',
 'aunque',
 'dios',
 'otra',
 'aquí',
 'señora',
 'otro',
 'mí',
 'aquel',
 'son',
 'estaba',
 'hay',
 'os',
 'mal',
 'sobre',
 'nos',
 'cosa',
 'buen',
 'está',
 'verdad',
 'tal',
 'allí',
 'tanto',
 'ver',
 'tengo',
 'luego',
 'tiene',
 'mundo',
 'sé',
 'mis',
 'hasta',
 'alguna',
 'poco',
 'entre',
 'dicho',
 'todas',
 'dar',
 'ahora',
 'buena',
 'parte',
 'vida',
 'uno',
 'tenía',
 'han

In [22]:
palabras_vacías = {'que', 'de', 'y', 'la', 'a', 'el', 'en', 'no',
                 'se', 'los', 'con', 'por', 'las', 'lo', 'le', 'su', 
                 'del', 'me', 'como', 'es', 'un', 'más', 'si', 'yo', 
                 'al', 'mi', 'para', 'ni', 'una', 'y,', 'tan', 'porque', 
                 'o', 'sin', 'sus', 'ha', 'él', 'había', 'ser', 
                 'todo', 'te', 'era', 'ya', 'sino', 'cuando', 'dos', 
                 'donde', 'fue', 'este', 'quien', 'esta', 'pero',
                 'qué', 'cual', 'muy', 'he', 'aunque', 'esto', 'así',
                 'aquel', 'hacer', 'os', 'son', 'nos', 'sobre', 'hay', 
                 'ella', 'está', 'pues', 'mal', 'así,', 'mí', 'otro', 'mis',
                 'hasta', 'tal', 'estaba', 'ver', 'allí', 'sé', 'entre', 
                 'dar', 'han', 'tanto', 'les', 'tengo', 'todas', 'tu', 
                 'esto,', 'aquella', 'uno', 'tenía', 'luego', 'algún', 
                 'soy', 'fuera', 'ahora', 'haber', 'otras',  
                 'habían', 'aun', 'mucho', 'tener', 'estas', 'antes', 
                 'sea', 'ellos', 'cuanto', 'cada', 
                 'otros', 'tres', 'será', 'estos', 'hizo', 'también', 
                 'mesmo', 'hecho', 'sí', 'tú', 'podía', 'nuestro',
                 'debe', 'mucha', 'cómo', 'sólo', 'eran', 'después'}

In [23]:
from collections import Counter
cuenta_quijote = Counter()
punct_table = str.maketrans(".,\"-:;?¿!¡‹›«»", "              ")

def tokenize(línea):
    palabras = [palabra.strip() for palabra in línea.split() 
             if palabra.strip() not in palabras_vacías]
    return palabras

@normalizar
def limpiar(línea):
    línea =  línea.strip()
    return línea.translate(punct_table)

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)

In [24]:
print(cuenta_quijote.most_common(100))

[('don', 2647), ('quijote', 2175), ('sancho', 2147), ('dijo', 1808), ('respondió', 1063), ('señor', 1060), ('bien', 1048), ('merced', 898), ('vuestra', 851), ('todos', 817), ('caballero', 661), ('decir', 578), ('dios', 529), ('otra', 517), ('aquí', 515), ('señora', 514), ('cosa', 447), ('buen', 442), ('verdad', 431), ('tiene', 389), ('mundo', 389), ('alguna', 385), ('poco', 380), ('dicho', 373), ('buena', 363), ('parte', 362), ('vida', 353), ('menos', 347), ('cosas', 347), ('lugar', 345), ('gran', 340), ('eso', 334), ('casa', 332), ('panza', 329), ('manera', 328), ('tiempo', 327), ('digo', 322), ('toda', 320), ('cura', 312), ('puesto', 307), ('mano', 304), ('amo', 297), ('dio', 294), ('mejor', 293), ('caballeros', 293), ('visto', 285), ('puede', 285), ('ojos', 284), ('dulcinea', 282), ('día', 274), ('tierra', 273), ('quién', 270), ('hombre', 259), ('padre', 258), ('quiero', 258), ('cielo', 251), ('historia', 249), ('amigo', 249), ('vio', 248), ('saber', 247), ('camino', 245), ('parece'

In [25]:
print(cuenta_quijote.most_common()[-200:])

[('ajustan', 1), ('amenos', 1), ('vacías', 1), ('flexible', 1), ('aguarden', 1), ('apresurarte', 1), ('dieres', 1), ('favorézcate', 1), ('consistir', 1), ('desnudóse', 1), ('arrebatando', 1), ('desmayes', 1), ('imprudencia', 1), ('zamora', 1), ('sobrecarga', 1), ('quebrados', 1), ('apártese', 1), ('levadas', 1), ('sobrará', 1), ('pégate', 1), ('contendré', 1), ('cobres', 1), ('ferreruelo', 1), ('resfriarme', 1), ('abrigó', 1), ('reconoció', 1), ('rastrillos', 1), ('vencieron', 1), ('alojáronle', 1), ('guadameciles', 1), ('menalao', 1), ('fragata', 1), ('verter', 1), ('desdichadísimas', 1), ('encontrara', 1), ('destruida', 1), ('paris', 1), ('escusaran', 1), ('bodegón', 1), ('pintasen', 1), ('zorra', 1), ('mauleón', 1), ('deum', 1), ("''dé", 1), ("diere''", 1), ('llegaremos', 1), ('enmendaré', 1), ('lxxii', 1), ('hojeé', 1), ('preguntaremos', 1), ('enjaezada', 1), ('importar', 1), ('palmease', 1), ('frión', 1), ('llovidas', 1), ('tutor', 1), ('burlería', 1), ('perseguirme', 1), ('nuncio

## La limpieza de texto con las expresiones regulares 

   ‘Some people, when confronted with a problem, think "I know, I'll use regular expressions." Now they have two problems’ - Jamie Zawiski
   
   *Algunos, cuanto enfrentan un problema, piensan, "lo tengo - voy a usar expresiones regulares." Y ahora tienen dos problemas...*
   
* regular expressions - https://docs.python.org/3/howto/regex.html


In [27]:
import re

cuenta_quijote = Counter()
re_palabra = re.compile("\w+|\w+-\w+")

def tokenize(línea):
    palabras = [
        palabra
        for palabra in re_palabra.findall(línea)
        if palabra not in palabras_vacías
    ]
    return palabras

@normalizar
def limpiar(línea):
    línea = línea.strip()
    return línea

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)

In [28]:
print(cuenta_quijote.most_common(100))

[('don', 2647), ('quijote', 2175), ('sancho', 2148), ('dijo', 1808), ('señor', 1063), ('respondió', 1063), ('bien', 1050), ('merced', 900), ('vuestra', 852), ('todos', 817), ('caballero', 661), ('decir', 578), ('dios', 531), ('otra', 517), ('aquí', 516), ('señora', 516), ('cosa', 447), ('buen', 442), ('verdad', 432), ('mundo', 394), ('tiene', 389), ('alguna', 385), ('poco', 380), ('dicho', 373), ('parte', 363), ('buena', 363), ('vida', 356), ('menos', 347), ('cosas', 347), ('lugar', 345), ('gran', 340), ('eso', 335), ('casa', 334), ('panza', 329), ('manera', 328), ('tiempo', 327), ('digo', 323), ('toda', 320), ('cura', 313), ('puesto', 307), ('mano', 304), ('amo', 297), ('dio', 294), ('mejor', 293), ('caballeros', 293), ('visto', 285), ('ojos', 285), ('puede', 285), ('dulcinea', 282), ('día', 274), ('tierra', 274), ('quién', 270), ('quiero', 261), ('padre', 259), ('hombre', 259), ('cielo', 252), ('historia', 249), ('amigo', 249), ('vio', 248), ('saber', 247), ('camino', 245), ('parece'

In [29]:
print(cuenta_quijote.most_common()[-200:])

[('abrevies', 1), ('abriré', 1), ('esperada', 1), ('ajustan', 1), ('amenos', 1), ('vacías', 1), ('flexible', 1), ('aguarden', 1), ('apresurarte', 1), ('dieres', 1), ('favorézcate', 1), ('consistir', 1), ('desnudóse', 1), ('arrebatando', 1), ('desmayes', 1), ('imprudencia', 1), ('zamora', 1), ('sobrecarga', 1), ('quebrados', 1), ('apártese', 1), ('levadas', 1), ('sobrará', 1), ('pégate', 1), ('contendré', 1), ('cobres', 1), ('ferreruelo', 1), ('resfriarme', 1), ('abrigó', 1), ('reconoció', 1), ('rastrillos', 1), ('vencieron', 1), ('alojáronle', 1), ('guadameciles', 1), ('menalao', 1), ('fragata', 1), ('verter', 1), ('desdichadísimas', 1), ('encontrara', 1), ('destruida', 1), ('paris', 1), ('escusaran', 1), ('bodegón', 1), ('pintasen', 1), ('zorra', 1), ('mauleón', 1), ('deum', 1), ('llegaremos', 1), ('enmendaré', 1), ('lxxii', 1), ('hojeé', 1), ('preguntaremos', 1), ('enjaezada', 1), ('importar', 1), ('palmease', 1), ('frión', 1), ('llovidas', 1), ('tutor', 1), ('burlería', 1), ('perseg

## Expresiones regulares precompiladas

Las expresiones precompiladas son (más o menos) 10% más rápidas... 


In [33]:
re_palabra = re.compile("\w+|\w+-\w+")
def tokenize(línea):    
    palabras = [palabra for palabra in re_palabra.findall(línea) 
             if palabra not in palabras_vacías]
    return palabras

def tokenize2(línea):
    palabras = [palabra for palabra in re.findall("\w+|\w+-\w+", línea)
             if palabra not in palabras_vacías]
    return palabras

def test_tokenize():
    with open("quijote_texto.txt") as quijote:
        for línea in quijote:
            tokens = tokenize(línea)
            
def test_tokenize2():
    with open("quijote_texto.txt") as quijote:
        for línea in quijote:
            tokens = tokenize2(línea)

%timeit test_tokenize()
%timeit test_tokenize2()

350 ms ± 31.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
403 ms ± 26.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


### Nivel más alto - NLP (TALN)
* NLTK (Natural Language Toolkit)
* tokenize - devolver las palabras
* stemming - devolver las raíces de las palabras 

In [34]:
from collections import Counter
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
cuenta_quijote = Counter()
stemmer_español = SnowballStemmer("spanish")

def tokenize(línea):
    palabras = [
        palabra
        for palabra in word_tokenize(línea, language="spanish")
        if palabra not in palabras_vacías
    ]
    palabras = [stemmer_español.stem(palabra) for palabra in palabras]
    return palabras

@normalizar
def limpiar(línea):
    línea = línea.strip()
    return línea.translate(punct_table)

with open("quijote_texto.txt") as quijote:
    for línea in quijote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quijote.update(tokens)

In [35]:
print(cuenta_quijote.most_common(100))

[('don', 2656), ('quijot', 2180), ('sanch', 2158), ('dij', 1882), ('señor', 1812), ('respond', 1277), ('vuestr', 1141), ('tod', 1137), ('buen', 1115), ('bien', 1069), ('dec', 967), ('caballer', 955), ('merc', 900), ('parec', 833), ('cos', 805), ('pas', 748), ('dej', 747), ('algun', 735), ('dic', 675), ('lleg', 646), ('sab', 638), ('hac', 623), ('cas', 615), ('qued', 601), ('tien', 596), ('pued', 592), ('part', 579), ('man', 561), ('dest', 550), ('quier', 543), ('dios', 539), ('llev', 523), ('sal', 519), ('otra', 517), ('aqu', 516), ('verd', 508), ('poc', 506), ('hall', 499), ('volv', 499), ('ven', 470), ('mir', 460), ('llam', 458), ('caball', 445), ('much', 442), ('tom', 431), ('dig', 429), ('dich', 428), ('vist', 422), ('aquell', 409), ('puest', 409), ('hombr', 403), ('mund', 398), ('camin', 395), ('razon', 388), ('hab', 379), ('libr', 379), ('vid', 373), ('cur', 373), ('tiemp', 370), ('cuent', 366), ('tant', 364), ('men', 364), ('pon', 363), ('sol', 359), ('andant', 359), ('gran', 35

In [36]:
print(cuenta_quijote.most_common()[-200:])

[('desalforj', 1), ('panecill', 1), ('lxvii', 1), ('quisom', 1), ('maldijom', 1), ('vituperom', 1), ('azotart', 1), ('gusan', 1), ('unta', 1), ('darann', 1), ('sansonin', 1), ('micul', 1), ('boscan', 1), ('nemor', 1), ('deriv', 1), ('tereson', 1), ('churumbel', 1), ('almohaz', 1), ('alhucem', 1), ('zaquizam', 1), ('alfaqu', 1), ('han', 1), ('collar', 1), ('copler', 1), ('ojinegr', 1), ('ensartal', 1), ('traesl', 1), ('retirarons', 1), ('lxviii', 1), ('cerdos', 1), ('desviat', 1), ('tenebr', 1), ('sper', 1), ('lucem', 1), ('buf', 1), ('ensordec', 1), ('gruñidor', 1), ('adiv', 1), ('avisp', 1), ('tornemon', 1), ('desfog', 1), ('madrigalet', 1), ('cople', 1), ('acurruc', 1), ('disting', 1), ('esperezos', 1), ('troglodit', 1), ('antropofag', 1), ('scit', 1), ('abrais', 1), ('polif', 1), ('tortolit', 1), ('estropaj', 1), ('perrit', 1), ('parv', 1), ('ojal', 1), ('valem', 1), ('vieronl', 1), ('lxix', 1), ('blandon', 1), ('odorifer', 1), ('penitenci', 1), ('volviosel', 1), ('estigi', 1), ('ce

In [37]:
with open("quijote_texto.txt") as quijote:
    for número, línea in enumerate(quijote):
        if not línea.strip():
            continue
        print(línea.strip())
        línea = limpiar(línea)
        print(línea)
        print(f"{tokenize(línea)}\n")
        if número > 20:
            break


El ingenioso hidalgo don Quijote de la Mancha
el ingenioso hidalgo don quijote de la mancha
['ingeni', 'hidalg', 'don', 'quijot', 'manch']

TASA
tasa
['tas']

Yo, Juan Gallo de Andrada, escribano de Cámara del Rey nuestro señor, de
yo  juan gallo de andrada  escribano de cámara del rey nuestro señor  de
['juan', 'gall', 'andrad', 'escriban', 'cam', 'rey', 'señor']

los que residen en su Consejo, certifico y doy fe que, habiendo visto por
los que residen en su consejo  certifico y doy fe que  habiendo visto por
['resid', 'consej', 'certif', 'doy', 'fe', 'hab', 'vist']

los señores dél un libro intitulado El ingenioso hidalgo de la Mancha,
los señores dél un libro intitulado el ingenioso hidalgo de la mancha 
['señor', 'del', 'libr', 'intitul', 'ingeni', 'hidalg', 'manch']

compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho
compuesto por miguel de cervantes saavedra  tasaron cada pliego del dicho
['compuest', 'miguel', 'cervant', 'saavedr', 'tas', 'plieg', 'dich']


## Las técnicas básicas

* Usa los métodos de cadenas - str.translate, lower(), etc
* Usa las comprensiones de listas para filtrar
* Los conjuntos (sets) - son los más rápidos con `in`
* Usa funciones - códico comun debe ponerse en funciones
* Los decorators - útil para funciones que apoyan a otras funciones
* Las expresiones regulares - más potentes, pero más lentas, deberían compilarse


## Los aprendizajes

* Empieza con lo simple
* Toma en cuenta el propósito
* Haz las comprobaciones de sanidad frecuentes
* Limpiar los datos es destruir información, hazlo con cuidado


## ¡Gracias!

### ¿Preguntas?

* **@naomiceder** - Twitter
* **https://naomiceder.tech**  
* **https://github.com/nceder/limpieza_de_datos** - este cuaderno
* **https://twitch.tv/nceder** - Exploring Python, el viernes 2:00 PM CDT (19:00 UTC)
* **https://us.pycon.org/2020/online/** - PyCon 2020 Online, Charlas, Talks, Tutorials
