# La Limpieza de datos con Python  


**Naomi Ceder, @naomiceder**

- **(Outgoing) Chair, Python Software Foundation**
- **La autora del Quick Python Book, 3rd ed**
- **Dick Blick Art Materials**

**Este cuaderno (pero no los archivos de datos) está disponible en Github - https://github.com/nceder/limpieza_de_datos**


## Agenda

### Sobre la Python Software Foundation
* La PSF
   * La misión de la Python Software Foundation
   * La situación de la PSF en el crisis actual

### Limpieza de datos

* Introdución
  * Herriamientas
  * Buscando ayuda

* Problema de muestra - contar palabras en *Don Quixote*
  * técnicas
     * str.translate y métodos de cadenas
     * funciones
     * decorators
     * comprensiones como filtros
     * expresiones regulares
     * NLTK


### La PSF
   * La misión de la Python Software Foundation
   
   “La misión de la Python Software Foundation es promover, proteger y avanzar el lenguaje de programación de Python y apoyar y facilitar el crecimiento de una comunidad diversa e internacional de programadores de Python”

#### Proteger la propriedad intelectual

* registar las marcas y logos de Python, PyPI, PyCon, PyLadies en todo el mundo
    * si alguien va a usar (o cambiar) las marcas y logos, sería una buena idea que pedir permiso de psf-trademarks@python.org
* mantener los derechos del autor de todo el código de Python
   * para contribuir código a Python, debe sumitir una copia afirmada del contributor's agreement
   

#### Apoyar una comunidad diversa e internacional

* Apoyar las comunidades y sus eventos en todo el mundo (casi $350,000 en 2019)

    * se ponga en contacto con la PSF en psf@python.org
    * únete a nosotros en https://www.python.org/psf-landing/
       * miembro básico - gratis, solo se registre 
       * miembro de apoyo - $99 por año, se puede votar en las elecciones en junio 
       * miembro contribuyente - 5 horas voluntarias por mes, también se puede votar
       
 

* La situación de la PSF en el crisis actual
  * PyCon 2020 ha sido cancelado; las charlas y talleres se encuentran en https://us.pycon.org/2020/online/
  * Gracias a los patrocinadores y asistentes que no exigieron un reembolso, podemos cubrir los gastos, pero sin las ganancias de PyCon usaremos reservas el próximo año. 
  * Una pausa temporal de dar las becas y grants
  * PyCon 2021 - ¿quién sabe?

### El enfoque de este taller

* trabajar con varios ejemplos
* usar las herriemientas las más básicas posible 
* ganar experiencia



## Philosofía del taller

“Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera.” - Tolstoy

“¿Qué podría salir mal?” - Naomi, and many others

“Si algo puede salir mal, lo hará” - Murphy

**o**

Si todo va bien, puede usar las herramientas de alto nivel, pero cuando las cosas salen mal, debe trabajar en un nivel inferior. Y muchas veces las cosas salen mal.



## Herriamientas

* Python 3.8+
* la librería estándar - `CSV, JSON, sys, os, str, re` módulos
* `pip`
  * `conda` si usas una distribución de Anaconda
* los entornos virturales
  * virtualenv o conda-env
* NLTK


### ¿es librería o biblioteca? #EsBibliotecaNoLibreria

 <img src="es_biblioteca.jpg">
 <img src="tipado_de_pato.png">

## Buscando ayuda
* Python - docs.python.org y https://python-docs-es.readthedocs.io/es/3.8/
* la documentación de las ~~librerías~~ bibliotecas
* dir() y help() en una shell Python


### La documentación en Python.org 

* Python Tutorial - https://docs.python.org/3/tutorial/index.html / https://python-docs-es.readthedocs.io/es/3.8/tutorial/index.html
* La ~~librería~~biblioteca estándar - https://docs.python.org/3/library/index.html - (aún no se traduce) https://python-docs-es.readthedocs.io/es/3.8/library/index.html


## Texto plano

* el format de archivos el más simple
* lo menor de estructura
* lo más de opciones y decisiones
* cómo procesar texto plano está controlada por el uso de los datos

### Problema - contar las palabras en Don Quixote

Cuáles son las palabras más frecuentes en *Don Quixote*

Requirements:

1. texto de la novela como una serie de palabras
2. no se cuentan otros cáracteres o símbolos
3. las variaciones de una palabra deben contarse como la misma palabra - "caballero" == "caballeros" == "CABALLERO" == "Caballero"

### En general, esto significa
* limpieza de los datos 
   * eliminar los carácteres no UTF8
   * eliminar los carácteres no alfanumericos - la punctuación y otros
* normalización - maiúsculos/minúsculos
* tokenization - ¿qué es una palabra?
   * partir las palabras usando carácteres especifícos (e.g., los espacios y/o la punctuación)
   * partir las palabras con regular expressions
   * stemming/lemmatization (NLTK tokens)

## Obtener el texto

* pip install requests
* descargar el texto

In [None]:
import requests

respuesta = requests.get(
    "http://www.gutenberg.org/cache/epub/2000/pg2000.txt"
)

texto = respuesta.text


with open("quixote.txt", "w") as archivo:
    archivo.write(texto)   
    

In [None]:
texto[:100]

### Solución ingenua 
* cuenta de palabras simple
* no procesiamiento

In [None]:
# cuenta de palabras

from collections import Counter

cuenta_quixote = Counter()

def tokenize(línea):
    # partir con espacios en blanco
    return línea.split()
    
def limpiar(línea):
    # eliminar espacios en blanco iniciales y finales
    return línea.strip()

def normalizar(línea):
    return línea

with open("quixote.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)
        

In [None]:
print(cuenta_quixote.most_common()[:100])

In [None]:
print(cuenta_quixote.most_common()[-200:])

### Mejoras
* editar el archivo para eliminar el texto extra
* todo en minúsculos
* métodos de las cadenas - upper(), lower(), replace(), find(), index(), in, startswith(), endswith(), etc


In [None]:
# cuenta de palabras
from collections import Counter

cuenta_quixote = Counter()

def tokenize(línea):
    palabras = línea.split() 
    return palabras


def limpiar(línea):
    return línea.strip()


def normalizar(línea):
    return línea.lower()


with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)

In [None]:
      
print(cuenta_quixote.most_common(100))

In [None]:
print(cuenta_quixote.most_common()[-200:])

### Trucos de limpieza - funciones y decorators
* si el código se usa mucho, debe convertirse a una función - hecho
* si una función se usa mucho con otras funciones, puede convertirse a un decorator


In [None]:
def normalizar(func):
    def wrapper(línea):
        línea = línea.lower()
        return func(línea)
    return wrapper

#def normalizar(línea):
#    return línea.lower()




In [None]:
# cuenta de palabras
from collections import Counter

cuenta_quixote = Counter()

def tokenize(línea):
    palabras = línea.split() 
    return palabras

@normalizar
def limpiar(línea):
    return línea.strip()


with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        #línea = normalizar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)
        

In [None]:
      
print(cuenta_quixote.most_common(100))

### Otras mejoras
* eliminar la punctuación, etc
* `str.translate()` & `str.maketrans()`
* filtrar las palabras "stop words" - usar una comprensión de listas como un filtro


In [None]:
# cuenta de palabras
from collections import Counter
cuenta_quixote = Counter()
punct_table = str.maketrans(".,\"-:;?¿!¡‹›«»", "              ")

def tokenize(línea):
    palabras = línea.split() 
    return palabras

@normalizar
def limpiar(línea):
    línea =  línea.strip()
    return línea.translate(punct_table)

with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)

In [None]:
      
print(cuenta_quixote.most_common(100))

In [None]:
print(cuenta_quixote.most_common()[-200:])

### Cómo crear una tabla de palabras vacías
* Hay listas que puede descargarse
* Mira las palabras más comunes y elimine las que no están vacías
* Usa conjuntos (set) para el mejor rendimiento


In [None]:
vacías_set = [f"{x[0]}" for x in cuenta_quixote.most_common(200)]
vacías_set

In [None]:
palabras_vacías = {'que', 'de', 'y', 'la', 'a', 'el', 'en', 'no',
                 'se', 'los', 'con', 'por', 'las', 'lo', 'le', 'su', 
                 'del', 'me', 'como', 'es', 'un', 'más', 'si', 'yo', 
                 'al', 'mi', 'para', 'ni', 'una', 'y,', 'tan', 'porque', 
                 'o', 'sin', 'sus', 'ha', 'él', 'había', 'ser', 
                 'todo', 'te', 'era', 'ya', 'sino', 'cuando', 'dos', 
                 'donde', 'fue', 'este', 'quien', 'esta', 'pero',
                 'qué', 'cual', 'muy', 'he', 'aunque', 'esto', 'así',
                 'aquel', 'hacer', 'os', 'son', 'nos', 'sobre', 'hay', 
                 'ella', 'está', 'pues', 'mal', 'así,', 'mí', 'otro', 'mis',
                 'hasta', 'tal', 'estaba', 'ver', 'allí', 'sé', 'entre', 
                 'dar', 'han', 'tanto', 'les', 'tengo', 'todas', 'tu', 
                 'esto,', 'aquella', 'uno', 'tenía', 'luego', 'algún', 
                 'soy', 'fuera', 'ahora', 'haber', 'otras',  
                 'habían', 'aun', 'mucho', 'tener', 'estas', 'antes', 
                 'sea', 'ellos', 'cuanto', 'cada', 
                 'otros', 'tres', 'será', 'estos', 'hizo', 'también', 
                 'mesmo', 'hecho', 'sí', 'tú', 'podía', 'nuestro',
                 'debe', 'mucha', 'cómo', 'sólo', 'eran', 'después'}

In [None]:
from collections import Counter
cuenta_quixote = Counter()
punct_table = str.maketrans(".,\"-:;?¿!¡‹›«»", "              ")

def tokenize(línea):
    palabras = [palabra.strip() for palabra in línea.split() 
             if palabra.strip() not in palabras_vacías]
    return palabras

@normalizar
def limpiar(línea):
    línea =  línea.strip()
    return línea.translate(punct_table)


with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)

In [None]:
print(cuenta_quixote.most_common(100))

In [None]:
print(cuenta_quixote.most_common()[-200:])

## La limpieza de texto con las expresiones regulares 

   ‘Some people, when confronted with a problem, think "I know, I'll use regular expressions." Now they have two problems’ - Jamie Zawiski
   
   *Algunos, cuanto enfrentan un problema, piensan, "lo tengo - voy a usar expresiones regulares." Y ahora tienen dos problemas...*
   
* regular expressions - https://docs.python.org/3/howto/regex.html


In [None]:
import re

cuenta_quixote = Counter()
re_palabra = re.compile("\w+|\w+-\w+")


def tokenize(línea):

    palabras = [
        palabra
        for palabra in re_palabra.findall(línea)
        if palabra not in palabras_vacías
    ]
    return palabras


@normalizar
def limpiar(línea):
    línea = línea.strip()
    # return línea.translate(punct_table)
    return línea


with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)

In [None]:
print(cuenta_quixote.most_common(100))

In [None]:
print(cuenta_quixote.most_common()[-200:])

## Expresiones regulares precompiladas

Las expresiones precompiladas son (más o menos) 10% más rápidas... 


In [None]:
re_palabra = re.compile("\w+|\w+-\w+")

def tokenize(línea):
    
    palabras = [palabra for palabra in re_palabra.findall(línea) 
             if palabra not in palabras_vacías]
    return palabras


def tokenize2(línea):
    
    palabras = [palabra for palabra in re.findall("\w+|\w+-\w+", línea) 
             if palabra not in stop_word_set]
    return palabras


def test_tokenize():
    with open("quixote_texto.txt") as quixote:
        for línea in quixote:
            tokens = tokenize(línea)
            
def test_tokenize2():
    with open("quixote_texto.txt") as quixote:
        for línea in quixote:
            tokens = tokenize2(línea)
        
%timeit test_tokenize()
%timeit test_tokenize2()

### Nivel más alto - NLP (TALN)
* NLTK (Natural Language Toolkit)
* tokenize
* stemming - devolver la raíz de la palabra 

In [None]:
from collections import Counter
cuenta_quixote = Counter()

from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

stemmer_spanish = SnowballStemmer('spanish')

def tokenize(línea):
    palabras = [palabra for palabra in word_tokenize(línea, language='spanish') if palabra not in palabras_vacías]
    palabras = [stemmer_spanish.stem(palabra) for palabra in palabras]
    return palabras

@normalizar
def limpiar(línea):
    línea = línea.strip()
    línea = línea.translate(punct_table)
    return línea

with open("quixote_texto.txt") as quixote:
    for línea in quixote:
        línea = limpiar(línea)
        tokens = tokenize(línea)
        cuenta_quixote.update(tokens)


In [None]:
with open("quixote_texto.txt") as quixote:
    counter = 0
    for línea in quixote:
        línea = limpiar(línea)
        print(línea)
        print(tokenize(línea))
        counter += 1
        if counter > 20:
            break


In [None]:
print(cuenta_quixote.most_common(100))

In [None]:
print(cuenta_quixote.most_common()[-200:])

## Las técnicas

* Usa los métodos de cadenas - str.translate, lower(), etc
* Los conjuntos (sets) - son los más rápidos con `in`
* Usa funciones - códico comun debe ponerse en funciones
* Los decorators - útil para funciones que apoyan a otras funciones
* Usa las comprensiones para filtrar
* Las expresiones regulares - más potentes, pero más lentas


## Los aprendizajes

* Empieza con lo simple
* Toma en cuenta el propósito
* Haz las comprobaciones de sanidad frecuentes
* Limpiar los datos es destruir información, hazlo con cuidado
