Olá! 👋
Aqui neste repositório você irá encontrar, separados por módulos, os notebooks e arquivos utilizados e produzidos durante o Bootcamp Data Science Aplicada da Alura, a maior plataforma brasileira de cursos de tecnologia.
Um curso prático de 12 semanas com projetos e conteúdo relevantes à área de Data Science dividido nos seguintes módulos:
- Módulo 01: Python e Pandas para Análise de Dados Reais;
- Módulo 02: Visualização de Dados com Seaborn e Matplotlib;
- Módulo 03: Análise de Séries Temporais;
- Módulo 04: Tratamento, Análise e Machine Learning Aplicado;
- Módulo 05: Modelos, Métricas e Validações em Machine Learning;
- Módulo 06: Módulo Extra de Data Science Aplicada à Finanças.
Para os arquivos de acompanhamento das aulas e desafios foram utilizados majoritariamente o Jupyter Notebook e o Jupyter Lab.
Para cada módulo existe uma pasta que contém seus arquivos, ou seja, para o Módulo 01 temos a pasta modulo1
. Dentro de cada pasta pode ser encontrado um ou mais arquivos no formato .ipynb. Esses são os notebooks com os códigos de acompanhamento de cada aula e a resolução dos desafios propostos. Caso necessário, outros arquivos também serão disponibilizados em cada pasta.
Além disso, existe uma pasta data
que guarda os datasets utilizados ao longo de todo o bootcamp.
Com isso em mente, vejamos cada módulo em mais detalhe.
Neste módulo vamos aprender como utilizar Python, Pandas e Matplotlib para explorar os dados financeiros do SUS, mais precisamente os gastos por Unidade Federativa ao longo dos anos. Os desafios se iniciam na aquisição dos dados em uma plataforma do governo e seus possíveis problemas, passando pelo leitura destes dados com o Pandas até a criação de hipóteses na área da saúde, que sempre devem ser cuidadosas, simulando os desafios diários de uma pessoa cientista de dados.
Data de Início: 18/05/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Aquisição e Leitura de Dados Reais |
02 | Primeiras Visualizações de Dados |
03 | Manipulação de Dados |
04 | Análise de Gráficos e Criação de Hipóteses |
05 | Manipulação e Interpretação de Gráficos |
Notebook: Desafios Módulo 01
Projeto Módulo 01: Sistema Único de Saúde (SUS) - Uma Análise de Dados de Internações
Data de Envio: 30/05/2021
Neste módulo seguiremos nas análises dos dados financeiros do SUS. Vamos mais fundo no tratamento e manipulação dos dados para análises mais complexas, utilizando recursos mais avançados do Pandas e da Linguagem Python como um todo.
Fontes de dados externas serão utilizadas para enriquecer a análise exploratória e realizar comparações mais precisas entre os diferentes estados. Além disso, discutiremos mais sobre boas práticas de visualização, interpretação de gráficos e sua construção com o Seaborn.
Data de Início: 31/05/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Fontes Externas, Limpeza e Manipulação de Dados |
02 | Proporcionalidades e Seaborn |
03 | Ticks, Escalas e Formatação de Imagens |
04 | Trabalhando com DateTime e Melt |
05 | Manipulando Datas e Gerando Novas Análises |
06 | Agrupando Dados e Analisando por Categoria |
Notebook: Desafios Módulo 02
Projeto Módulo 02: Vacinação no Brasil: O que Aprendemos com o Surto de Sarampo em 2014
Data de Envio: 13/06/2021
Este módulo tem foco na análise e previsões de séries temporais. Vamos aplicar todo conhecimento adquirido para trabalhar com esse tipo de dados cheio de particularidades, além de estudar ferramentas específicas, como Prophet, desenvolvida pelo Facebook.
Data de Início: 14/06/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Entendendo a Série Temporal |
02 | Primeiras Previsões |
03 | Mudança de Tendência |
04 | Feriados e Sazonalidade |
05 | Outliers e Validação |
Notebook: Desafios Módulo 03
Projeto Módulo 03: Séries Temporais - Covid-19
Data de Envio: 04/07/2021
Estamos chegando na reta final, e este módulo dará início ao desenvolvimento de um projeto prático que passará por todo o workflow em Data Science, do entendimento do problema, tratamento e análise dos dados até a proposta de solução utilizando Machine Learning. Vamos trabalhar com dados da COVID-19 do hospital Sírio Libanês, focando este módulo no tratamento e análise de dados para entender profundamente o problema que estamos lidando e propor possíveis soluções.
Data de Início: 05/07/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Machine Learning e Saúde |
02 | Desenvolvimento no Kaggle |
03 | Modelos de Machine Learning |
04 | Métricas e Avaliações |
05 | Compreendendo o Problema Real |
Notebook: Desafios Módulo 04
Projeto Módulo 04: ---
Data de Envio: ---
No último módulo aplicamos todo nosso conhecimento para analisar dados da COVID-19, entender alguns dos desafios dos hospitais em época de pandemia e propor soluções a partir das análises de dados. Nossa proposta de solução foi utilizar modelos de Machine Learning, mas para tornar isso possível precisamos aprofundar nossos conhecimentos nesta área, testando modelos mais avançados, utilizando métricas adequadas ao problema e validando de forma correta. Neste módulo vamos trabalhar todas estas frentes para tornar nossa solução uma proposta viável.
Data de Início: 19/07/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Wokflow de Machine Learning |
02 | Métricas de Avaliaçào |
03 | Aleatoriedade de Modelos |
04 | Validação Cruzada |
05 | Desafios em Machine Learning |
06 | Finalizando a Validação |
Notebook: Desafios Módulo 05
Projeto Módulo 05: Covid-19 ICU Prediction
Data de Envio: 08/08/2021
Agora chegou o momento de consolidar seu conhecimento em uma nova área. Vamos sair do assunto saúde e desenvolver um projeto completo de Data Science aplicado a finanças. Será mais um projeto incrível para complementar seu portfólio e principalmente para te ensinar assuntos específicos desta área tão relevante.
Data de Início: 11/08/2021
Status: Completo 🟢
Aula | Título |
---|---|
01 | Contextualização do Mercado Financeiro |
02 | Analisando a Base de Cadastro de Clientes |
03 | Definindo a Classificação de Clientes |
04 | Machine Learning |
05 | Criando a Aplicação (em Streamlit) |
Notebook: Desafios Módulo 06
Projeto Módulo 06: Credit Scoring in Streamlit
Dúvidas, dicas e sugestões são sempre bem-vindas!