Mariana Esther Martínez-Sánchez
Un problema común es comparar secuencias de texto que pueden tener pequeñas diferencias, ya sea por la forma de captura o por errores de ortografía. En este taller veremos tres estrategias de limpieza y análisis de datos:
- Comparación de strings: usar operaciones de strings, expresiones regulares básicas y unidecode para manejar carácteres especiales
- Estandarizar con catálogo: usar Fuzzywuzzy, una herramienta para determinar cuán similares son dos secuencias de texto usando la distancia de Levenshtein, para estandarizar datos a un catálogo predefinido
- Stemming: un método para reducir una palabra a su raíz o stem usando NLTK y Snowball.
Requisitos: Computadora con anaconda instalado e instalar los paquetes de requierements.txt.
Impartido: Marzo 2, 2020. Pyladies. WIDS-Mexico
- Descarga e instala anaconda usando las instrucciones
- Descarga este tutorial con el boton de Download o con
git clone https://github.com/mar-esther23/CursoTexto.git
- Abre anaconda y su terminal.
- En la terminal crea un nuevo entorno (por ejemplo CursoTexto), instala los paquetes necesarios y activalo usando:
conda create -y --name CursoTexto
conda activate CursoTexto
conda install -c conda-forge --file requirements.txt
- Usando anaconda abre el jupyter notebook StringMatching.ipynb
jupyter notebook
- Al acabar puedes desactivar el environment con:
conda deactivate