<a href="https://colab.research.google.com/github/FranciscoFoz/Projeto_Modulo3_Bootcamp_Data_Science_Alura_2021/blob/main/Previsao_casos_COVID_19_Parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color= MediumSpringGreen		size = 6> Projeto Módulo 3 
 Previsão dos casos de COVID-19 no Brasil: </font>
# <font color= MediumSpringGreen		size = 5> 
 Uma análise no estado/município com maior índice por habitante </font>


---




# <font color= MediumSpringGreen		size = 4> Parte 1 - Manipulação </font> 


Elaborado por [Francisco Foz](https://www.linkedin.com/in/francisco-tadeu-foz/)

Data: 19/12/2021

Durante o terceiro módulo do bootcamp Data Science 2021 da Alura, podemos estudar séries temporais e conhecer a biblioteca [Facebook Prophet](https://facebook.github.io/prophet/). 

Neste projeto utilizarei das técnicas estudadas para análisar os dados dos boletins epidemiológicos da COVID-19 no Brasil extraídos do [Brasil.io](https://brasil.io/dataset/covid19/) (última atualização: 17 de dezembro de 2021, acesso em 18 de dezembro de 2021).



---




## Projeto

Esta análise pretende explorar os dados dos casos de COVID-19 dos estados e municípios no Brasil, no período de entre 2020-2021.

Para se delimitar o estudo, buscarei entender qual foi o **estado com maior quantidade de casos por habitante** e dentre este estado qual foi o **município com maior quantidade de casos por habitante**.

A partir deste cenário realizarei os estudos de previsão no município utilizando o **Facebook Prophet**.


Responderei os seguintes questionamentos:

*    Qual foi o estado com maior índice de casos de COVID-19 por habitante?
*    Qual foi o município com maior índice de casos de COVID-19 por habitante?
*    Dentre o estado encontrado, qual foi o município com maior índice de casos de COVID-19 por habitante? 
*    Quais são os números previstos para os próximos 30 dias no município selecionado? 


O projeto foi dividido em três notebooks: 
*    Parte 1: Manipulação de dados
*    [Parte 2: Previsão de dados]()
*    [Parte 3: Visualização de dados]()




### <font color= MediumSpringGreen> Bibliotecas utilizadas 

*   Pandas
*   Zipfile




In [None]:
import pandas as pd
import zipfile

### <font color= MediumSpringGreen> Importando arquivos

In [None]:
with zipfile.ZipFile('/content/drive/MyDrive/Bootcamp_Data_Science/Modulo_3/caso_full.zip') as z:     #Acessando zip
  with z.open('caso_full.csv') as f:                                                                  #Descompactando zip
    casos_covid = pd.read_csv(f)                                                                      #Criando DataFrame

### <font color= MediumSpringGreen> 1. Estados: casos por habitante

Irei manipular os dados para encontrar qual foi o estado com maior número de casos por habitante até o momento.

In [84]:
#Criar DF com colunas necessárias e filtrar por estados e última data disponível
estados_dez_2021 = casos_covid[['date','state','place_type','last_available_confirmed_per_100k_inhabitants']].query('place_type == "state" and date == "2021-12-17"')     

In [85]:
estados_dez_2021.drop(columns=['place_type'],inplace=True)                      #Remover coluna de tipo de local

In [86]:
estados_dez_2021.columns = ['data','estado', 'casos_confirmados_acumulados_por_100k_habitantes']  #Renomear colunas

In [87]:
estados_dez_2021.sort_values(by='casos_confirmados_acumulados_por_100k_habitantes',ascending=True,inplace = True) #Ordenar DF pela coluna de casos/habitante

In [100]:
estados_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'] = estados_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'].round(0).astype(int)   #Arredondar números

In [101]:
estados_dez_2021['data'] = pd.to_datetime(estados_dez_2021['data'],format='%Y-%m-%d')   #Alterando o tipo da coluna data

In [102]:
estados_dez_2021_5_primeiros = estados_dez_2021.tail(5)                         #Selecionando apenas os maiores valores

In [103]:
estados_dez_2021_5_primeiros.set_index('data',inplace=True)                     #Selecionando a data como índice

In [104]:
estados_dez_2021_5_primeiros

Unnamed: 0_level_0,estado,casos_confirmados_acumulados_por_100k_habitantes
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-12-17,RO,15708
2021-12-17,MT,15750
2021-12-17,DF,16974
2021-12-17,SC,17075
2021-12-17,RR,20403


O estado que teve o maior número de casos por habitante foi o de Roraima com 20403 casos para cada 100 mil habitantes.

### <font color= MediumSpringGreen> 2. Municípios: casos por habitante

Irei manipular os dados para encontrar qual foi o município com maior número de casos por habitante até o momento.

E qual município dentre o estado de Roraima teve o maior número de casos por habitante até o momento.

#### <font color= MediumSpringGreen> 2.1 Municípios do Brasil: casos por habitante




In [171]:
#Criar DF com colunas necessárias e filtrar por estados e última data disponível
municipios_dez_2021 = casos_covid[['date','state','city','place_type','last_available_confirmed_per_100k_inhabitants']].query('place_type == "city" and date == "2021-12-17"')     

In [172]:
municipios_dez_2021.drop(columns=['place_type'],inplace=True)                      #Remover coluna de tipo de local

In [173]:
municipios_dez_2021.columns = ['data','estado','municipio', 'casos_confirmados_acumulados_por_100k_habitantes']  #Renomear colunas

In [174]:
municipios_dez_2021.sort_values(by='casos_confirmados_acumulados_por_100k_habitantes',ascending=True,inplace = True) #Ordenar DF pela coluna de casos/habitante

In [175]:
municipios_dez_2021.dropna(subset=['casos_confirmados_acumulados_por_100k_habitantes'],inplace=True)             #Excluir valores nulos

In [176]:
municipios_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'] = municipios_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'].round(0).astype(int)   #Arredondar números

In [177]:
municipios_dez_2021['data'] = pd.to_datetime(municipios_dez_2021['data'],format='%Y-%m-%d')   #Alterando o tipo da coluna data

In [178]:
municipio_dez_2021_10_primeiros = municipios_dez_2021.tail(10)                         #Selecionando apenas os maiores valores

In [179]:
municipio_dez_2021_10_primeiros.set_index('data',inplace=True)                     #Selecionando a data como índice

In [180]:
municipio_dez_2021_10_primeiros

Unnamed: 0_level_0,estado,municipio,casos_confirmados_acumulados_por_100k_habitantes
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-12-17,GO,Campos Verdes,30820
2021-12-17,RN,Viçosa,30957
2021-12-17,SC,Presidente Castello Branco,31416
2021-12-17,PR,Kaloré,32197
2021-12-17,AM,Itapiranga,33554
2021-12-17,RS,Santa Cecília do Sul,34578
2021-12-17,PA,Jacareacanga,35586
2021-12-17,RN,Severiano Melo,38649
2021-12-17,AM,Japurá,46690
2021-12-17,GO,Porteirão,50878


Dentre os 10 municípios que tiveram o maior número de casos por habitante nenhum deles é do estado de Roraima. 

#### <font color= MediumSpringGreen> 2.2 Municípios de Roraima: casos por habitante


In [181]:
#Criar DF com colunas necessárias e filtrar por estados e municípios e última data disponível
municipios_RR_dez_2021 = casos_covid[['date','state','city','place_type','last_available_confirmed_per_100k_inhabitants']].query('place_type == "city" and state== "RR" and date == "2021-12-17"')    

In [183]:
municipios_RR_dez_2021.drop(columns=['place_type','state'],inplace=True)                      #Remover coluna de tipo de local

In [185]:
municipios_RR_dez_2021.columns = ['data','municipio', 'casos_confirmados_acumulados_por_100k_habitantes']  #Renomear colunas

In [187]:
municipios_RR_dez_2021.sort_values(by='casos_confirmados_acumulados_por_100k_habitantes',ascending=True,inplace = True) #Ordenar DF pela coluna de casos/habitante

In [188]:
municipios_RR_dez_2021.dropna(subset=['casos_confirmados_acumulados_por_100k_habitantes'],inplace=True)             #Excluir valores nulos

In [189]:
municipios_RR_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'] = municipios_RR_dez_2021['casos_confirmados_acumulados_por_100k_habitantes'].round(0).astype(int)   #Arredondar números

In [190]:
municipios_RR_dez_2021['data'] = pd.to_datetime(municipios_RR_dez_2021['data'],format='%Y-%m-%d')   #Alterando o tipo da coluna data

In [194]:
municipio_RR_dez_2021_5_primeiros = municipios_RR_dez_2021.tail(5)                         #Selecionando apenas os maiores valores

In [195]:
municipio_RR_dez_2021_5_primeiros.set_index('data',inplace=True)                     #Selecionando a data como índice

In [196]:
municipio_RR_dez_2021_5_primeiros

Unnamed: 0_level_0,municipio,casos_confirmados_acumulados_por_100k_habitantes
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-12-17,Cantá,13533
2021-12-17,Caroebe,19542
2021-12-17,São João da Baliza,19969
2021-12-17,Bonfim,20236
2021-12-17,Boa Vista,23370


Boa Vista é o município com o maior número de casos acumulados por habitante no estado de Roraima.

### <font color= MediumSpringGreen> 3. Histórico de casos no município de Boa Vista - RR

Manipularei dois DataFrames para que eles sejam utilizados para entender a tendência e ser utilizado pelo Prophet.

In [205]:
#Criar DF com colunas necessárias e filtrar pelo município de Boa Vista
casos_covid_BoaVista = casos_covid[['date','city','new_confirmed']].query('city== "Boa Vista"')    

In [None]:
casos_covid_BoaVista.drop(columns=['city'], inplace=True)                       #Escluir coluna de cidade

DF para o Prophet

In [221]:
casos_covid_BoaVista.columns = ['df','y']                                       #Renomeando coluna para o Prophet

In [222]:
casos_covid_BoaVista['df'] = pd.to_datetime(casos_covid_BoaVista['df'],format='%Y-%m-%d')   #Alterando o tipo da coluna data

In [223]:
casos_covid_BoaVista

Unnamed: 0,df,y
1514792,2020-05-16,1
1514928,2020-05-17,0
1515066,2020-05-18,0
1515209,2020-05-19,0
1515359,2020-05-20,0
...,...,...
2319885,2021-12-13,0
2319902,2021-12-14,0
2319919,2021-12-15,0
2319936,2021-12-16,0


Df para análise de tendência

In [225]:
casos_BoaVista = casos_covid_BoaVista.copy()                                    #Criando cópia do DF  

In [227]:
casos_BoaVista.columns = ['data','casos_novos']                                 #Renomeando coluna

In [228]:
casos_BoaVista

Unnamed: 0,data,casos_novos
1514792,2020-05-16,1
1514928,2020-05-17,0
1515066,2020-05-18,0
1515209,2020-05-19,0
1515359,2020-05-20,0
...,...,...
2319885,2021-12-13,0
2319902,2021-12-14,0
2319919,2021-12-15,0
2319936,2021-12-16,0


In [229]:
casos_BoaVista['taxa_de_crescimento_casos'] = casos_BoaVista.loc[:,'casos_novos'].diff()    #Criar coluna com taxa de crescimento


In [235]:
casos_BoaVista['media_movel_casos'] = casos_BoaVista['casos_novos'].rolling(window=7,center=False).mean()

In [243]:
casos_BoaVista

Unnamed: 0,data,casos_novos,taxa_de_crescimento_casos,media_movel_casos
1514792,2020-05-16,1,,
1514928,2020-05-17,0,-1.00,
1515066,2020-05-18,0,0.00,
1515209,2020-05-19,0,0.00,
1515359,2020-05-20,0,0.00,
...,...,...,...,...
2319885,2021-12-13,0,0.00,0.00
2319902,2021-12-14,0,0.00,0.00
2319919,2021-12-15,0,0.00,0.00
2319936,2021-12-16,0,0.00,0.00
