# Documentação - ModCovid Module

## Organização das pastas do repositório

As pastas e arquivos foram reorganizados, o que eu me referir como pasta raíz é a pasta principal que você clonou em seu computador. Dentro da pasta raíz temos todos os arquivos do repositório, que agora estão divididos nas pastas:

- dados: TODOS os dados utilizados em modelos e visualização estarão centralizados aqui
    - BR: Dados relativos ao Brasil como um todo
     - RJ: Dados relativos ao RJ
        - estado_rj: Dados relativos aos municipios do estado do rio de janeiro
        - cidade_rj: Dados relativos à cidade do Rio de Janeiro
            - dados_covid: Dados relativos à doença
                - warehouse: Pasta para armazenar arquivos de dados antigos
            - dados_estatisticos: Dados de estatistica de populações e informações em geral
            - dados_geo: Dados geolocalizados para criação de visualização
- modelos:
    - BR: Modelos relativos ao Brasil
    - Factory: Modelos com populações ficticias
    - RJ: Modelos relativos ao RJ
        - agent_based: Modelos de individuos
        - compartmental: Modelos compartimentais (esta pasta ainda necessita ser organizada, é a antiga JIA)
    
- playground: Pasta relativa a outros assuntos que cercam a modelagem do covid

- modcovid: Módulo de scripts, configurações e modelagem do Covid
    - compartmental: Aqui ficariam os modelos compartimentais, como o jia.py
    - scripts.py: Arquivo de scripts e snippets usados para, entre outras coisas, tratar dados (antigo get_data)
    - settings.py: Arquivo com variaveis globais de configuração e localização de arquivos
    - config.yml: Arquivo YAML de configuração a serem utilizadas em scripts.py


## Como trabalhar com caminhos de arquivos

Há uma maneira de padronizar os caminhos dos arquivos no computador de qualquer usuário, para isso usamos o pequeno código abaixo, é necessário instalar o pacote `pygit`

In [1]:
import git
import sys

root_dir = git.Repo('.', search_parent_directories=True).working_tree_dir
sys.path.insert(1, root_dir)

Assim a variavel root_dir irá apontar para a pasta raíz, e podemos acessar um arquivo de dados do municipio do rio

In [2]:
root_dir

'C:\\Users\\miran\\Documents\\repos\\covid19\\covid19'

In [3]:
import pandas as pd

In [4]:
dados_csv = '/dados/RJ/cidade_rj/dados_covid/Dados_indiv_MRJ_covid19.csv'
df = pd.read_csv(root_dir + dados_csv, encoding = 'iso-8859-1', delimiter = ';')

In [5]:
df

Unnamed: 0,classificação_final,dt_notific,dt_inicio_sintomas,bairro_resid__estadia,ap_residencia_estadia,sexo,faixa_etária,evolução,Data_atualização
0,CONFIRMADO,10/03/2020,08/03/2020,FORA DO MUNICÍPIO,N/D,M,De 30 a 39,recuperado,03/05/2020
1,CONFIRMADO,20/03/2020,14/03/2020,COPACABANA,2.1,F,N/D,recuperado,03/05/2020
2,CONFIRMADO,15/03/2020,12/03/2020,COPACABANA,2.1,F,De 50 a 59,recuperado,03/05/2020
3,CONFIRMADO,24/03/2020,,SAO CONRADO,2.1,M,N/D,recuperado,03/05/2020
4,CONFIRMADO,20/03/2020,,JARDIM BOTANICO,2.1,M,De 60 a 69,recuperado,03/05/2020
...,...,...,...,...,...,...,...,...,...
6745,CONFIRMADO,02/05/2020,,CAMPO GRANDE,5.2,F,De 40 a 49,ativo,03/05/2020
6746,CONFIRMADO,02/05/2020,,INDEFINIDO,N/D,M,De 30 a 39,ativo,03/05/2020
6747,CONFIRMADO,02/05/2020,,CAMPO GRANDE,5.2,F,De 30 a 39,ativo,03/05/2020
6748,CONFIRMADO,02/05/2020,,INDEFINIDO,N/D,F,De 40 a 49,ativo,03/05/2020


## O Módulo ModCovid

Os scripts para trabalhar com dados estão encapsulados em uma biblioteca Python, chamada `modcovid`

In [6]:
import modcovid as mc
from modcovid import scripts, settings

Podemos utilizar agora as funções criadas em `scripts.py`, como por exemplo `set_df`, e comparar com o dataframe acima, que simplesmente carrega o arquivo CSV cru. (uma pequena documentação pode ser vista no proprio arquivo)

In [14]:
df2, [df2_atv, df2_rec, df2_obt], dt_att = mc.scripts.set_df('prefeitura_rj', {'df_break': True})

In [15]:
df2

Unnamed: 0,Classificacao,Data,DataSintomas,Bairro,AP,Sexo,FaixaEtaria,Evolucao
0,CONFIRMADO,10/03/2020,08/03/2020,FORA DO MUNICÍPIO,N/D,M,De 30 a 39,recuperado
1,CONFIRMADO,20/03/2020,14/03/2020,COPACABANA,2.1,F,N/D,recuperado
2,CONFIRMADO,15/03/2020,12/03/2020,COPACABANA,2.1,F,De 50 a 59,recuperado
3,CONFIRMADO,24/03/2020,,SAO CONRADO,2.1,M,N/D,recuperado
4,CONFIRMADO,20/03/2020,,JARDIM BOTANICO,2.1,M,De 60 a 69,recuperado
...,...,...,...,...,...,...,...,...
6745,CONFIRMADO,02/05/2020,,CAMPO GRANDE,5.2,F,De 40 a 49,ativo
6746,CONFIRMADO,02/05/2020,,INDEFINIDO,N/D,M,De 30 a 39,ativo
6747,CONFIRMADO,02/05/2020,,CAMPO GRANDE,5.2,F,De 30 a 39,ativo
6748,CONFIRMADO,02/05/2020,,INDEFINIDO,N/D,F,De 40 a 49,ativo


In [12]:
dt_att

'03/05/2020'

In [13]:
df2_obt

Unnamed: 0,Classificacao,Data,DataSintomas,Bairro,AP,Sexo,FaixaEtaria,Evolucao
150,CONFIRMADO,19/03/2020,12/03/2020,GAVEA,2.1,M,De 70 a 79,óbito
151,CONFIRMADO,19/03/2020,15/03/2020,LAGOA,2.1,M,De 80 a 89,óbito
219,CONFIRMADO,20/03/2020,16/03/2020,PIEDADE,3.2,F,De 80 a 89,óbito
228,CONFIRMADO,17/03/2020,11/03/2020,IPANEMA,2.1,F,De 70 a 79,óbito
232,CONFIRMADO,23/03/2020,17/03/2020,TIJUCA,2.2,F,N/D,óbito
...,...,...,...,...,...,...,...,...
6494,CONFIRMADO,06/04/2020,29/03/2020,CAMPO GRANDE,5.2,M,De 70 a 79,óbito
6495,CONFIRMADO,16/04/2020,12/04/2020,LEBLON,2.1,M,De 70 a 79,óbito
6496,CONFIRMADO,30/03/2020,25/03/2020,TIJUCA,2.2,M,De 70 a 79,óbito
6497,CONFIRMADO,20/04/2020,18/04/2020,REALENGO,5.1,M,De 40 a 49,óbito


## To-Do

* Reorganizar os caminhos de arquivos de todos os Notebooks que estão em produção, para funcionarem com o novo padrão
* Terminar de organizar os arquivos dentro das pastas, deletando Notebooks Desnecessários e criando um padrão de nomenclatura para os Notebooks que ficam
* Documentar a função `set_df`
* Finalizar a função `set_df` para pegar dados do estado