40ª Jornada de Atualização em Informática – JAI 2021
👨💻 Slides do curso
⏰ Horário
📅 20 de Julho
🕘 09:00 - 12:00 | 🕟 16:30 - 19:00
Ciência de Dados tornou-se um tópico de pesquisa emergente na Ciência da Computação devido ao crescente interesse em extrair conhecimento de diferentes fontes de dados. Nesse contexto, o Jupyter Notebook vem se consolidando como uma das principais ferramentas utilizadas por cientistas de dados para realizar análises exploratórias de dados de forma rápida e direta, com alto potencial de reprodução de código. Dessa forma, o objetivo deste capítulo é apresentar o Jupyter com reprodutibilidade para a realização de projetos em Ciência de Dados. O conteúdo é organizado para estudantes e profissionais com alguma experiência em programação. Em particular, primeiro apresentamos o Jupyter e seu uso geral para desenvolver soluções para Ciência de Dados. Em seguida, apresentamos tópicos avançados do Jupyter e abordamos maneiras de promover a ciência aberta. Para concluir, este JAI apresenta uma visão geral de Ciência de Dados com Jupyter Notebooks combinando conceitos e fundamentos teóricos com exemplos práticos e dados do mundo real.
- Introdução
- Jupyter Básico
- Preparação de Dados para Ciência
- Integração, Transformação, Redução
- Ciência de Dados
- Jupyter Avançado
- Ciência Aberta
O conjunto de dados utilizado refere-se a sucesso na indústria da música, uma das mais dinâmicas e importantes no cenário do entretenimento mundial. Especificamente, utilizamos dados provenientes do Spotify, o serviço de streaming de áudio mais popular do mundo, que reúne mais de 345 milhões de usuários em 178 países e territórios.
- Charts: Paradas musicais semanais do Spotify em 2020. (756 KB)
- Hits: Features das músicas que entraram nas paradas de sucesso. (266 KB)
- Artists: Features dos artistas que entraram nas paradas de sucesso. (95.4 KB)
- Artists (edited): Features dos artistas que entraram nas paradas de sucesso (modificadas para fins didáticos). (96.3 KB)
- João Felipe Pimentel - Universidade Federal Fluminense (UFF)
- Gabriel P. Oliveira - Universidade Federal de Minas Gerais (UFMG)
- Mariana O. Silva - Universidade Federal de Minas Gerais (UFMG)
- Danilo B. Seufitelli - Universidade Federal de Minas Gerais (UFMG)
- Mirella M. Moro - Universidade Federal de Minas Gerais (UFMG)
@incollection{jai/PimentelOSSM21,
title = {Ciência de Dados com Reprodutibilidade usando Jupyter},
author = {João Felipe Pimentel and
Gabriel P. Oliveira and
Mariana O. Silva and
Danilo B. Seufitelli and
Mirella M. Moro},
booktitle = {Jornada de Atualização em Informática 2021},
pages = {11--59},
doi = {10.5753/sbc.6757.3.1},
url = {https://doi.org/10.5753/sbc.6757.3.1},
publisher = {SBC},
year = {2021}
}
Este trabalho foi parcialmente financiado por Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq, Fundação de Amparo à Pesquisa do Estado de Minas Gerais - FAPEMIG e Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES.