Material del Taller Data Science / Instituto Data Science / Universidad del Desarrollo
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
clases
documentos
ejercicios
notebooks
.gitignore
README.md

README.md

Taller Data Science

Sobre el Curso

Este curso práctico tiene como finalidad que les alumnes sean capaces de utilizar herramientas tecnológicas para trabajar con datos, elaborar y corroborar hipótesis, explorar espacios de información, y apoyar la toma de decisiones. Particularmente, el curso se enfoca en tres unidades: análisis y exploración de datos, visualización de información y ciencia de redes.

La intención de la primera unidad, análisis y exploración de datos, es que les estudiantes puedan utilizar herramientas de procesamiento de datos y entornos de programación para poder cargar, limpiar, evaluar, cruzar y explorar datasets en un área aplicada específica, como transporte, redes sociales, o colecciones de documentos.

La segunda unidad, visualización de información, busca que les estudiantes puedan comunicar de manera gráfica los análisis realizados, las propiedades de los datos, las hipótesis de trabajo que guiaron la exploración, así como fomentar el espíritu crítico, para que les estudiantes aprendan a interpretar gráficos y cuestionar decisiones estadísticas y gráficas.

La tercera unidad, ciencia de redes, se enfoca en el análisis y construcción de redes, donde las entidades que están presentes en un dataset no solamente existen individualmente, sino que también presentan relaciones entre ellas. El análisis de redes permite encontrar elementos importantes dentro de ellas (centralidad), determinar conjuntos de elementos que compartan propiedades (clustering) o que separan la red en sub-redes (detección de comunidades), o bien encontrar caminos (shortest path) entre elementos de una red, algo común en transportes y comunicaciones.

Profesores

Diego Caro y Eduardo Graells-Garrido del Instituto de Data Science, Ingeniería UDD.

Nuestros correos son dcaro y egraells en udd.cl.

Estructura de Clase

Cada clase realizaremos las siguientes actividades:

  • Discusión de lectura obligatoria (uno de los artículos académicos indicados más abajo).
  • Seguimiento del estado de los proyectos de cada grupo/alumne.
  • Revisiones de tareas entregadas en la clase anterior.
  • Enseñaremos contenido teórico.
  • Nos enfocaremos en el código necesario para implementar, entender y experimentar con el contenido teórico.

Horario

Versión 2018.1. Jueves, 14:30 a 17:20. Sala Computación 033, Campus RESB, Universidad del Desarrollo.

Requisitos

Debes tener conocimientos sólidos de estadística y básicos de programación. Utilizaremos el lenguaje Python en sus versiones 3.5 o 3.6.

Recursos

Herramientas:

  • Anaconda, distribución de Python con todo el entorno científico necesario para el curso, incluyendo las bibliotecas que usaremos: pandas, geopandas, seaborn, statsmodels, networkx, scikit-learn, entre otras.
  • Jupyter, entorno de computación científica y desarrollo, enfocado en ciencia de datos. Funciona principalmente con Python pero también tiene interoperabilidad con otros lenguajes usados en el área, como R. Aquí se puede probar en línea.
  • Google Colab, un Jupyter notebook colaborativo desarrollado por Google. La ventaja es que dos o más personas pueden editar el notebook, tal como funciona Google Docs.

Tutoriales, contenido: