Skip to content

Tutoria de limpieza y análisis de datos usando tres estrategias: comparación de strings, estandarizar con catálogo(fuzzywuzzy) y stemming (NLTK + snowball).

License

Notifications You must be signed in to change notification settings

mar-esther23/CursoTexto

Repository files navigation

No es lo mismo que lo mesmo

Mariana Esther Martínez-Sánchez

Un problema común es comparar secuencias de texto que pueden tener pequeñas diferencias, ya sea por la forma de captura o por errores de ortografía. En este taller veremos tres estrategias de limpieza y análisis de datos:

Requisitos: Computadora con anaconda instalado e instalar los paquetes de requierements.txt.

Impartido: Marzo 2, 2020. Pyladies. WIDS-Mexico

Como usar este tutorial

  1. Descarga e instala anaconda usando las instrucciones
  2. Descarga este tutorial con el boton de Download o con git clone https://github.com/mar-esther23/CursoTexto.git
  3. Abre anaconda y su terminal.
  4. En la terminal crea un nuevo entorno (por ejemplo CursoTexto), instala los paquetes necesarios y activalo usando:
conda create -y --name CursoTexto
conda activate CursoTexto
conda install -c conda-forge --file requirements.txt
  1. Usando anaconda abre el jupyter notebook StringMatching.ipynb jupyter notebook
  2. Al acabar puedes desactivar el environment con: conda deactivate

About

Tutoria de limpieza y análisis de datos usando tres estrategias: comparación de strings, estandarizar con catálogo(fuzzywuzzy) y stemming (NLTK + snowball).

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published