Senado Mexicano

Web scrapping de la página del senado | Limpieza y almacenamiento en MongoDB | Extracción y traducción a pandas | Gráficas descriptivas con Seaborn

About

Este proyecto recaba información de la página del Senado mexicano de cada Senador. Utilizando Scrapy se recaba información detallada de su semblanza, intervenciones, votaciones, información personal y asistencias. Esta data se guarda en un NoSQL utilizando PyMongo para después extraerse y obtener información descriptiva de la data.

Requirements

Este proyecto utiliza Python. También se requiere bajar MongoDB para generar las bases de datos.

Vas a necesitar descargar las siguientes herramientas

Python (3.7.8 recommended)
MongoDB Community Edition (4.2 recommended)
Git (obviously)

Para el Web Scrapping utilizaremos Scrappy. Aquí les dejo la instalación para Windows que es un poco más compleja que en UNIX (que solo es pip install scrapy)

Vamos a Python Binaries para Windows en #twisted
Descarga la versión adecuada a tu versión de Python y versión de Windows
Abre la terminal en donde descargaste el file y dale pip install "nombre del archivo que descargaste"

Las librerias que se deben descargar

pip install pandas
pip install numpy
pip install matplotlib
pip install seaborn
pip install pymongo
pip install scrapy

Usage

El código comienza en la página de senadores para el start_urls donde se encuentran los senadores hombres divididos por partido político Se recorre cada perfil y se guardan en una DB de MongoDB. Después se debe repetir el código cambiando start_urls para las senadoras

Roadmap

Tengo la idea de después eficientizar este código y, además, agregar información de las interacciones en redes sociales de los senadores utilizando la API de Twitter. Creo que esto puede ayudar mucho a explicar el comportamiento de los senadores.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
descriptive_senadores.py		descriptive_senadores.py
info_senadores.py		info_senadores.py
pymongo_to_pandas.py		pymongo_to_pandas.py
senadores_clean.csv		senadores_clean.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Senado Mexicano

About

Requirements

Usage

Roadmap

About

Releases

Packages

Languages

robertoyamanaka/SenadoMexicano

Folders and files

Latest commit

History

Repository files navigation

Senado Mexicano

About

Requirements

Usage

Roadmap

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages