To be published!
Projeto Final da disciplina de Ciência de Dados - UFC 2021.1, em sua maioria feito no Google Colab. Colocamos em um repositório para facilitar o acesso e a correção.
- Desenvolver um projeto inédito de Ciência de Dados o mais próximo possível de um projeto real, a fim de demonstrar os conhecimentos adquiridos ao longo da disciplina.
- Comparar os algoritmos escolhidos com conjuntos de dados reais utilizando métricas de avaliação vistas ou não na disciplina.
A definir
Task | Dataset | Sample | Stratified Split | F1 LSTM | F1 BERT |
---|---|---|---|---|---|
Tocixity, Multi-label | Wikipedia Toxic Comments | Undersampling (~20k) | Yes | 0.67 | 0.68 |
Gender Bias, Multiclass | MDGender | ~2k | Yes | 0.75 | 0.88 |
Gender Bias, Multiclass | ConvAI2 | 50k | Yes | 0.69 | 0.81 |
Gender Bias, Multiclass | LIGHT | 50k | Yes | 0.73 | 0.83 |
Use o virtualenv
para criar um ambiente Python.
virtualenv venv --python=python3
source venv/bin/activate
Use o package manager pip
para instalar os pacotes necessários através do comando abaixo.
pip install -r requirements.txt
Depois, basta executar:
jupyter notebook
Fornecemos abaixo os passos a serem seguidos para entendimento do projeto em forma de checkpoints.
- Checkpoint 1 - Project Canvas
- Checkpoint 2 - Exploratory Data Analysis (EDA)
- Checkpoint 3 - Data Preprocessing
- Checkpoint 4 - Models Training
- Checkpoint 5 - Models Evaluation
- Final Checkpoint - Slide Presentation
Na verdade, ao longo do desenvolvimento do trabalho, tivemos de entregar 3 checkpoints. Dos listados acima, os checkpoints oficiais são os 1 e 2, e os restantes dizem respeito mais a nossa organização interna. Nos avise se algo não estiver claro.
Você pode enviar suas perguntas ou comentários para Bárbara, Lucas, Samir e Vinicius :)