Skip to content

Fundamentos de Ciência de Dados - Introdução a reprodutibilidade em pesquisa, proveniência de dados e gestão de grandes volumes de dados científicos. Coleta e preparação de dados. Algoritmos de exploração e análise de dados. Métodos de modelagem fluxo de dados. Elaboração de relatórios de resultados através de documentos com código Python inclui…

Notifications You must be signed in to change notification settings

silasplfilho/Fundamentos_DS

 
 

Repository files navigation

PPGI_UFRJ

Fundamentos de Ciência de Dados

Professores:

Sergio Serra Jorge Zavaleta
serra Zavaleta
serra@pet-si.ufrrj.br zavaleta@pet-si.ufrrj.br

Ementa:

Introdução a reprodutibilidade em pesquisa, proveniência de dados e gestão de grandes volumes de dados científicos. Coleta e preparação de dados. Algoritmos de exploração e análise de dados. Métodos de modelagem fluxo de dados. Elaboração de relatórios de resultados através de documentos com código Python incluindo gráficos e tabelas.

Módulo 1:

Temas Jupyter Notebook PDF
Reprodutibilidade em Pesquisa Computacional Reprodutibilidade pdf
Introdução a Proveniência de Dados Proveniência pdf pdf
Gestão de Grandes Volumes de Dados de Pesquisa Gestão pdf
Ambiente de Programação: python 3, jupyter notebook, JupyterLab, Google Colab, DeepNote, pacotes e github Instalação Anaconda, Jupyter Notebook, Jupyterlab pdf
Python I: tipos de dados, sequências e operações, estruturas de controle e repetição Tipos de dados. Estruturas de Controle Exercícios em Jupyter/Colab/Deepnote
Prática dos conteúdos estudados: construindo e operando listas e strings Exercícios Jupyter/ Colab/Deepnote

Módulo 2:

Temas Jupyter Notebook PDF
Técnicas de coleta e preparação de dados pdf
Numpy I: array, slicing, fancy index, copy and view Numpy pdf
Pandas I: dataframes, series, index, Pandas I/O (csv, json, excel) pdf
Prática dos conteúdos estudados: Processando e extraindo informações de arquivos csv, Jason, rdf pdf

Módulo 3:

Temas Jupyter Notebook PDF
Técnicas de análise de dados pdf
Numpy II e Matplotlib: operações com array, broadcasting, construção de gráficos usuais pdf
Pandas II: estatísticas básicas pdf
Prática dos conteúdos estudados: manipulando dados de saúde, ambiente, agricultura, cidades inteligentes pdf

Módulo 4:

Temas Jupyter Notebook PDF
Introdução a técnicas de modelagem de fluxo de dados pdf
Algoritmos e técnicas de extração inteligente de conhecimento pdf
Scikitlearn: introdução a mecanismos de regressão, classificação, clustering e PCA pdf
Prática dos conteúdos estudados: clusterização e predição pdf

Módulo 5:

Temas Jupyter Notebook PDF
Seminários sobre Ciência de Dados aplicados domínio específicos (e.g. Saúde, Educação, Sustentabilidade, Agricultura, Cidades Inteligentes, covid-19, entre outros) pdf
Apresentação de trabalhos – proposta de artigos pdf

Material Adicional:

  1. Re-run, Repeat, Reproduce, Reuse, Replicate: Transforming Code into Scientific Contributions Fabien C. Y. Benureau and Nicolas P. Rougier. pdf
  2. Provenance and the Different Flavors of Computational Reproducibility J. Freire and F. Chirigati In IEEE Data Engineering Bulletin, 41(1), pp. 15-26, 201. pdf
  3. Web Semãntica: Uma introdução. pdf

FORMA DE AVALIAÇÃO

Critérios de aprovação são os do PPGI/UFRJ. A avaliação consiste em participação em sala de aula (P); exercícios e/ou protótipos desenvolvidos (E); apresentações/ /escritas de artigos (A).

BIBLIOGRAFIA

Básica

  1. National Academies of Sciences, Engineering, andMedicine. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 1st Edition, 2019.
  2. Victoria Stodden, Friedrich Leisch, Roger D. Peng, Implementing Reproducible Research, CRC Press, 1st Edition, 2014.
  3. Kleppmann, M., Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, O’Reilly, 2017.
  4. Taylor, E. Deelman, D.B. Gannon, M. Shields (Eds.), Workflows for e-Science: Scientific Workflows for Grids, Springer, 2006.
  5. Wes McKinny, Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2nd edition O'Reilly Media, 2017
  6. Mark Lutz, Learning Python, 5th Edition, O'Reilly Media, 2013
  7. Jonh Hearty, Advanced Machine Learning with Python. Packt Publishing, 2016.
  8. Andreas C. Mueller and Sarah Guido, Machine Learning with Python. O'Reilly Media, 2016.
  9. John D. Kelleher, Brian Mac Namee, and Aoife DArcy. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. MIT, 2015.
  10. Artigos Selecionados

Complementar

  1. Christopher Gandrud, Reproducible Research with R and R Studio (Chapman & Hall/CRC The R Series) 1st Edition
  2. Garret Christense, Jeremy Freese, Edward Miguel, Transparent and Reproducible Social Science Research, University of Californy Press, 1st edition, 2019
  3. Justin Kitzes (Editor), Daniel Turek (Editor), Fatma Deniz (Editor), The Practice of Reproducible Research Case Studies and Lessons from the Data-Intensive Sciences, University of Californy Press, 1st edition, 2017
  4. Aurélien Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2017.
  5. Aurélio Géron, Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2019.
  6. Manohar Swamynathan, Mastering Machine Learning with Python in Six Steps. Apress, 2017.
  7. Michel Bowles, Machine Learning in Python®: Essential Techniques for Predictive Analysis. John Wiley & Sons, Inc. 2015.

RECURSOS EDUCACIONAIS ADICIONAIS

  1. The Open Science Training - Handbook https://book.fosteropenscience.eu/en/01Introduction/
  2. Recursos indicados em sala de aula

About

Fundamentos de Ciência de Dados - Introdução a reprodutibilidade em pesquisa, proveniência de dados e gestão de grandes volumes de dados científicos. Coleta e preparação de dados. Algoritmos de exploração e análise de dados. Métodos de modelagem fluxo de dados. Elaboração de relatórios de resultados através de documentos com código Python inclui…

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages

  • Jupyter Notebook 100.0%