No es lo mismo que lo mesmo

Un problema común es comparar secuencias de texto que pueden tener pequeñas diferencias, ya sea por la forma de captura o por errores de ortografía. En este taller veremos tres estrategias de limpieza y análisis de datos:

Comparación de strings: usar operaciones de strings, expresiones regulares básicas y unidecode para manejar carácteres especiales
Estandarizar con catálogo: usar Fuzzywuzzy, una herramienta para determinar cuán similares son dos secuencias de texto usando la distancia de Levenshtein, para estandarizar datos a un catálogo predefinido
Stemming: un método para reducir una palabra a su raíz o stem usando NLTK y Snowball.

Requisitos: Computadora con anaconda instalado e instalar los paquetes de requierements.txt.

Impartido: Marzo 2, 2020. Pyladies. WIDS-Mexico

Como usar este tutorial

Descarga e instala anaconda usando las instrucciones
Descarga este tutorial con el boton de Download o con git clone https://github.com/mar-esther23/CursoTexto.git
Abre anaconda y su terminal.
En la terminal crea un nuevo entorno (por ejemplo CursoTexto), instala los paquetes necesarios y activalo usando:

conda create -y --name CursoTexto
conda activate CursoTexto
conda install -c conda-forge --file requirements.txt

Usando anaconda abre el jupyter notebook StringMatching.ipynb jupyter notebook
Al acabar puedes desactivar el environment con: conda deactivate

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
DesaparecidosGuerraSucia.csv		DesaparecidosGuerraSucia.csv
LICENSE		LICENSE
README.md		README.md
StringMatching.ipynb		StringMatching.ipynb
Yankelevich2020-FEMOSPP.txt		Yankelevich2020-FEMOSPP.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

No es lo mismo que lo mesmo

Como usar este tutorial

About

Releases

Packages

Languages

License

mar-esther23/CursoTexto

Folders and files

Latest commit

History

Repository files navigation

No es lo mismo que lo mesmo

Como usar este tutorial

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages