Período das aulas 19/10/2020 à 23/10/2020
Material:
- Google Colab
- Python 3
- Base de dados do ENEM 2019
Aula 1: Primeira análise em dados da Educação
Nessa aula tivemos nosso primeiro contato com Python e o famoso Pandas, que é a biblioteca que possui diversas funcionalidades para explorar os dados da educação. Na análise dos dados foi possível descobrir curiosidades sobre inscritos no ENEM 2019, formular hipóteses e gráficos de distribuição Box-plot para entender melhor alguns aspectos da educação brasileira.
Aula 2: Análise exploratória de dados
Nessa aula avançamos com as análises e discussões sobre a visualização de dados, desde boas práticas até a utilização de uma nova ferramenta para gerar gráficos mais estilizados (seaborn).
Aula 3: Distribuições e correlações entre notas
A aula conteve várias discusões interessantes sobre os dados investigados. Foi analisado as distribuições de notas, suas relações usando gráficos de dispersão e foi discutido a sua correlação e causalidade.
Aula 4: Prevendo notas com Machine Learning
Nessa aula foi criado um primeiro modelo de Machine Learning, tentando entender a diferença entre problemas de regressão e classificação e como avaliar o modelo proposto utilizando a biblioteca Scikit-Learning.
Aula 5: Validação de modelo e Overfit
Mergulhamos mais fundo no mundo do machine learning, discutindo técnicas como cross-validation, que ajudam a aumentar nossa confiança nos resultados dos modelos de machine learning e foi mostrado o tão temido overfit acontecendo.