Projeto feito para conclusão do módulo de Machine Learning 2, do Santander Coders 2023.2 | Ada Professor: Jorge Chamby-Diaz
O projeto foi desenvolvido utilizando o ambiente base do Anaconda. Sendo necessário apenas um ambiente como o conda
ou Miniconda
.
Alternativamente, é possível utilizar um ambiente virtual com venv
. As bibliotecas necessárias estão no arquivo requirements.txt
. Basta seguir o seguinte passo a passo:
-
No
powershell
,bash
oucmd
, navegue até o diretório raiz do projeto. -
Crie um ambiente virtual com o comando
python -m venv .venv
- Ative o ambiente virtual. O comando pode diferir a depender do seu sistema operacional.
O exemplo abaixo é para ativação via
CMD
.venv\Scripts\activate.bat
- Instale as dependências com
pip
pip install -r .\requirements.txt
Foram utilizadas algumas das base de dados disponibilizadas em Covid 19 BR, lida diretamente do github
do projeto. Utilizando pandas
, pode ser feito da seguinte forma:
pd.read_csv('https://raw.githubusercontent.com/wcota/covid19br/master/cases-brazil-states.csv')
O notebook que contem as atividades necessárias ao projeto encontra-se na raiz deste diretório, e pode ser acessado aqui: Projeto
- Apresentação da Análise:
- Storytelling;
- Insights (Padrões que descrevam os elementos da base);
- Descrição do problema;
- Proposta de solução;
- Entregáveis:
- Relatório com análise exploratória de dados;
- Descrição das variáveis (dados faltantes, tipos de dados, informações relacionadas e fontes);
- Limpeza da base;
- Análise Univariada e Multivariada:
- Medidas estatísticas;
- Comparações;
- Tendências de crescimento ou queda;
- Gráficos;
- Segmentação dos dados (agrupamentos em relação a variáveis de interesse);
- Análise Preditiva (utilzação de modelos para predizer variáveis de interesse dos problemas levantados)
- Relatório com análise exploratória de dados;