# Documentação - ModCovid Module

## Organização das pastas do repositório

As pastas e arquivos foram reorganizados, o que eu me referir como pasta raíz é a pasta principal que você clonou em seu computador. Dentro da pasta raíz temos todos os arquivos do repositório, que agora estão divididos nas pastas:

- dados: TODOS os dados utilizados em modelos e visualização estarão centralizados aqui
    - BR: Dados relativos ao Brasil como um todo
     - RJ: Dados relativos ao RJ
        - estado_rj: Dados relativos aos municipios do estado do rio de janeiro
        - cidade_rj: Dados relativos à cidade do Rio de Janeiro
            - dados_covid: Dados relativos à doença
                - warehouse: Pasta para armazenar arquivos de dados antigos
            - dados_estatisticos: Dados de estatistica de populações e informações em geral
            - dados_geo: Dados geolocalizados para criação de visualização
- modelos:
    - BR: Modelos relativos ao Brasil
    - Factory: Modelos com populações ficticias
    - RJ: Modelos relativos ao RJ
        - agent_based: Modelos de individuos
        - compartmental: Modelos compartimentais (esta pasta ainda necessita ser organizada, é a antiga JIA)
    
- playground: Pasta relativa a outros assuntos que cercam a modelagem do covid

- modcovid: Módulo de scripts, configurações e modelagem do Covid
    - compartmental: Aqui ficariam os modelos compartimentais, como o jia.py
    - scripts.py: Arquivo de scripts e snippets usados para, entre outras coisas, tratar dados (antigo get_data)
    - settings.py: Arquivo com variaveis globais de configuração e localização de arquivos
    - config.yml: Arquivo YAML de configuração a serem utilizadas em scripts.py


## Como trabalhar com caminhos de arquivos

Há uma maneira de padronizar os caminhos dos arquivos no computador de qualquer usuário, para isso usamos o pequeno código abaixo, é necessário instalar o pacote `pygit`

In [1]:
import git
import sys

root_dir = git.Repo('.', search_parent_directories=True).working_tree_dir
sys.path.insert(1, root_dir)

Assim a variavel root_dir irá apontar para a pasta raíz, e podemos acessar um arquivo de dados do municipio do rio

In [2]:
root_dir

'/home/gil/repos/covid19'

In [3]:
import pandas as pd

In [4]:
dados_csv = '/dados/RJ/cidade_rj/dados_covid/Dados_indiv_MRJ_covid19.csv'
df = pd.read_csv(root_dir + dados_csv, encoding = 'utf-8', delimiter = ';')

In [5]:
df

Unnamed: 0,classificação_final,dt_notific,dt_inicio_sintomas,bairro_resid__estadia,ap_residencia_estadia,sexo,faixa_etária,evolução,Data_atualização
0,CONFIRMADO,15/04/2020,,BARRA DA TIJUCA,4.0,M,ffDe 50 a 59,recuperado,11/05/2020
1,CONFIRMADO,24/03/2020,,LAGOA,2.1,M,hhDe 70 a 79,recuperado,11/05/2020
2,CONFIRMADO,01/05/2020,,SANTA CRUZ,5.3,M,iiDe 80 a 89,ativo,11/05/2020
3,CONFIRMADO,27/04/2020,05/04/2020,TANQUE,4.0,F,ggDe 60 a 69,recuperado,11/05/2020
4,CONFIRMADO,,,CATETE,2.1,M,ggDe 60 a 69,ativo,11/05/2020
...,...,...,...,...,...,...,...,...,...
10515,CONFIRMADO,28/04/2020,20/04/2020,CAMPO GRANDE,5.2,F,ggDe 60 a 69,recuperado,11/05/2020
10516,CONFIRMADO,21/04/2020,14/04/2020,COPACABANA,2.1,F,ffDe 50 a 59,recuperado,11/05/2020
10517,CONFIRMADO,20/04/2020,17/04/2020,COPACABANA,2.1,F,ggDe 60 a 69,recuperado,11/05/2020
10518,CONFIRMADO,26/03/2020,19/03/2020,RIACHUELO,3.2,F,ggDe 60 a 69,recuperado,11/05/2020


## O Módulo ModCovid

Os scripts para trabalhar com dados estão encapsulados em uma biblioteca Python, chamada `modcovid`

In [6]:
df.columns

Index(['classificação_final', 'dt_notific', 'dt_inicio_sintomas',
       'bairro_resid__estadia', 'ap_residencia_estadia', 'sexo',
       'faixa_etária', 'evolução', 'Data_atualização'],
      dtype='object')

In [7]:
dt_att = df['Data_atualização'].values[0]

In [8]:
dt_att

'11/05/2020'

In [9]:
import modcovid as mc
from modcovid import scripts, settings

Podemos utilizar agora as funções criadas em `scripts.py`, como por exemplo `set_df`, e comparar com o dataframe acima, que simplesmente carrega o arquivo CSV cru. (uma pequena documentação pode ser vista no proprio arquivo)

In [10]:
df2, [df2_atv, df2_rec, df2_obt], dt_att = mc.scripts.set_df('prefeitura_rj', {'df_break': True})

In [11]:
df2

Unnamed: 0,Data,DataSintomas,Bairro,AP,Sexo,FaixaEtaria,Evolucao
0,15/04/2020,,BARRA DA TIJUCA,4.0,M,De 50 a 59,Recuperado
1,24/03/2020,,LAGOA,2.1,M,De 70 a 79,Recuperado
2,01/05/2020,,SANTA CRUZ,5.3,M,De 80 a 89,Ativo
3,27/04/2020,05/04/2020,TANQUE,4.0,F,De 60 a 69,Recuperado
4,,,CATETE,2.1,M,De 60 a 69,Ativo
...,...,...,...,...,...,...,...
10515,28/04/2020,20/04/2020,CAMPO GRANDE,5.2,F,De 60 a 69,Recuperado
10516,21/04/2020,14/04/2020,COPACABANA,2.1,F,De 50 a 59,Recuperado
10517,20/04/2020,17/04/2020,COPACABANA,2.1,F,De 60 a 69,Recuperado
10518,26/03/2020,19/03/2020,RIACHUELO,3.2,F,De 60 a 69,Recuperado


In [12]:
dt_att

'11/05/2020'

In [13]:
df2_rec

Unnamed: 0,Data,DataSintomas,Bairro,AP,Sexo,FaixaEtaria,Evolucao
0,15/04/2020,,BARRA DA TIJUCA,4.0,M,De 50 a 59,Recuperado
1,24/03/2020,,LAGOA,2.1,M,De 70 a 79,Recuperado
3,27/04/2020,05/04/2020,TANQUE,4.0,F,De 60 a 69,Recuperado
5,06/04/2020,,VAZ LOBO,3.3,N/D,De 40 a 49,Recuperado
6,14/04/2020,,IRAJA,3.3,M,De 40 a 49,Recuperado
...,...,...,...,...,...,...,...
10515,28/04/2020,20/04/2020,CAMPO GRANDE,5.2,F,De 60 a 69,Recuperado
10516,21/04/2020,14/04/2020,COPACABANA,2.1,F,De 50 a 59,Recuperado
10517,20/04/2020,17/04/2020,COPACABANA,2.1,F,De 60 a 69,Recuperado
10518,26/03/2020,19/03/2020,RIACHUELO,3.2,F,De 60 a 69,Recuperado


## To-Do

* Reorganizar os caminhos de arquivos de todos os Notebooks que estão em produção, para funcionarem com o novo padrão
* Terminar de organizar os arquivos dentro das pastas, deletando Notebooks Desnecessários e criando um padrão de nomenclatura para os Notebooks que ficam
* Documentar a função `set_df`
* Finalizar a função `set_df` para pegar dados do estado

In [25]:
import datetime as dt
import matplotlib.dates as mdates

In [28]:
start = dt.datetime.strptime('20-03-2020', "%d-%m-%Y")
then = dt.datetime.strptime('11-05-2020', "%d-%m-%Y")
days = mdates.drange(start,then,dt.timedelta(days=1))
dias = [str(mdates.num2date(v)).split(' ')[0] for v in days]

In [75]:
teste = df2.groupby(['Data', 'Bairro']).count()

In [78]:
teste

Unnamed: 0_level_0,Unnamed: 1_level_0,DataSintomas,AP,Sexo,FaixaEtaria,Evolucao
Data,Bairro,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
01/04/2020,BANGU,1,1,1,1,1
01/04/2020,BENTO RIBEIRO,0,2,2,2,2
01/04/2020,BONSUCESSO,0,1,1,1,1
01/04/2020,BOTAFOGO,0,2,2,2,2
01/04/2020,BRAS DE PINA,0,1,1,1,1
...,...,...,...,...,...,...
31/03/2020,TIJUCA,1,2,2,2,2
31/03/2020,URCA,1,1,1,1,1
31/03/2020,VARGEM PEQUENA,0,1,1,1,1
31/03/2020,VICENTE DE CARVALHO,1,1,1,1,1


In [77]:
teste.to_frame()

AttributeError: 'DataFrame' object has no attribute 'to_frame'

In [42]:
df2

Unnamed: 0,Data,DataSintomas,Bairro,AP,Sexo,FaixaEtaria,Evolucao
0,15/04/2020,,BARRA DA TIJUCA,4.0,M,De 50 a 59,Recuperado
1,24/03/2020,,LAGOA,2.1,M,De 70 a 79,Recuperado
2,01/05/2020,,SANTA CRUZ,5.3,M,De 80 a 89,Ativo
3,27/04/2020,05/04/2020,TANQUE,4.0,F,De 60 a 69,Recuperado
4,,,CATETE,2.1,M,De 60 a 69,Ativo
...,...,...,...,...,...,...,...
10515,28/04/2020,20/04/2020,CAMPO GRANDE,5.2,F,De 60 a 69,Recuperado
10516,21/04/2020,14/04/2020,COPACABANA,2.1,F,De 50 a 59,Recuperado
10517,20/04/2020,17/04/2020,COPACABANA,2.1,F,De 60 a 69,Recuperado
10518,26/03/2020,19/03/2020,RIACHUELO,3.2,F,De 60 a 69,Recuperado
