Taller introductorio al análisis de datos con Python, presentado en la PyconAR 2016.
Switch branches/tags
Nothing to show
Clone or download

README.md

taller-analisis-datos-101

Una introducción al análisis de datos con Python - PyconAR 2016.

Para seguir el taller te recomendamos que sigas las instrucciones de instalación, clones el repositorio y sigas los jupyters de ejemplo, ejecutando celda por celda.

Setting up!

Si estás dispuesto a cambiar tu instalación de python (o todavía no tenés una!) te recomendamos que instales la distro Anaconda. Ofrece un entorno preparado para hacer análisis de datos con python y ya viene con dependencias pre-instaladas para un montón de paquetes.

Si no tenés Anaconda y usás Ubuntu:

sudo apt-get install libblas-dev liblapack-dev libatlas-base-dev gfortran libgeos-dev ffmpeg

Después clonate el repo e instalá las dependencias:

git clone https://github.com/datosgobar/taller-analisis-datos-101.git
pip install -r requirements.txt

Outline

  1. Instalación de recursos (10')
  2. Presentación (20/30')
  3. Introducción a Jupyter ("hola mundo") (20')
  4. Introducción a pandas + numpy + matplotlib (10')
  5. Ejemplo: Análisis de datos agrícolas (50')

Bonus track: En Precios internacionales de cultivos (COMTRADE vs. WB) podés ver cómo comparar el precio de un cultivo calculado con datos de COMTRADE y los precios de una base del Banco Mundial, usando sus APIs.

Otros recursos

APIs de datos

  • COMTRADE: API con datos de comercio exterior, mantenida por Naciones Unidas.
  • Banco Mundial: API con indicadores de desarrollo de todo el mundo mantenida por el Banco Mundial.
  • FRED: API con series de tiempo estadísticas y económicas principalmente de Estados Unidos pero también del mundo, mantenida por la Reserva Federal de Estados Unidos.
  • Quandl: API que da acceso a una lista de bases de datos de series de tiempo, principalmente económicas. Algunas son gratuitas y otras pagas.
  • OECD Data: API de las bases de datos de la Organización para la Cooperación y el Desarrollo Económico.

Portales de Datos

Argentina: nivel nacional

Argentina: nivel provincial

Argentina: nivel municipal

Resto del mundo

Librerías

  • pandas: Estructuras y herramientas para análisis de datos en Python.
  • geopandas: Extiende pandas con funcionalidades geoespaciales.
  • numpy: Objetos y estructuras para computación científica en Python.
  • scipy: Herramientas de computación científica en Python.
  • matplotlib: Gráficos en Python.
  • scikit-learn: Machine learning en Python.
  • seaborn: Estadística y visualización en Python.
  • statsmodels: Modelos y tests estadísticos en Python.

Datos usados en el taller

Herramientas usadas en el taller

  • Anaconda - Nuestra distro de python para análisis de datos.
  • Jupyter - El notebook para ejecutar código dinámicamente.
  • DocToc - Para la tabla de contenidos

Duración recomendada

2 horas (modo expositivo) / 3 horas (modo taller)