<a href="https://colab.research.google.com/github/LuFeMa33/Courses-Codes/blob/main/Dengue_Brasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisando base de dados do DataSUS sobre a Dengue no Brasil

In [3]:
# manipulação de dados
import pandas as pd
import numpy as np

# visualização de dados
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [4]:
# criação da variável que chama a base de dados
df_dengue = pd.read_excel('Base de Dados Dengue.xlsx')

In [8]:
# cinco primeiros registros
df_dengue.head()

Unnamed: 0,municipio,uf,data_infeccoes,qtd_infeccoes
0,ALTA FLORESTA D'OESTE,RO,2013-01-01,34
1,ALTA FLORESTA D'OESTE,RO,2013-02-01,44
2,ALTA FLORESTA D'OESTE,RO,2013-03-01,15
3,ALTA FLORESTA D'OESTE,RO,2013-04-01,4
4,ALTA FLORESTA D'OESTE,RO,2013-05-01,3


In [9]:
# cinco ultimos registros
df_dengue.tail()

Unnamed: 0,municipio,uf,data_infeccoes,qtd_infeccoes
728767,BRASILIA,DF,2023-08-01,939
728768,BRASILIA,DF,2023-09-01,843
728769,BRASILIA,DF,2023-10-01,686
728770,BRASILIA,DF,2023-11-01,1300
728771,BRASILIA,DF,2023-12-01,5603


## Explorando o dataset

In [11]:
# quantidade de linhas (728772 linhas) e colunas (4 colunas)
df_dengue.shape

(728772, 4)

In [13]:
# criando visual da informação do shape
print(f'Tamanho do nosso Dataset: {df_dengue.shape}')

Tamanho do nosso Dataset: (728772, 4)


In [15]:
# verificando o tipo de objeto pandas
type(df_dengue)

In [17]:
# verificando o tipo de dados presente em cada coluna
df_dengue.dtypes

Unnamed: 0,0
municipio,object
uf,object
data_infeccoes,datetime64[ns]
qtd_infeccoes,int64


In [29]:
# verificando se há valores nulos em cada coluna
df_dengue.isnull()

Unnamed: 0,municipio,uf,data_infeccoes,qtd_infeccoes
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
728767,False,False,False,False
728768,False,False,False,False
728769,False,False,False,False
728770,False,False,False,False


In [27]:
# verificando se existem valores nulos e se tiver, fará a soma dos valores ausentes
print(f'Quantidade de dados nulos: {df_dengue.isnull().sum().sum()}')

Quantidade de dados nulos: 0


In [31]:
# verificando o tipo de cada coluna e se tem valores nulos
df_dengue.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 728772 entries, 0 to 728771
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   municipio       728772 non-null  object        
 1   uf              728772 non-null  object        
 2   data_infeccoes  728772 non-null  datetime64[ns]
 3   qtd_infeccoes   728772 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 22.2+ MB


In [33]:
# verificando os valores únicos
df_dengue.nunique()

Unnamed: 0,0
municipio,5243
uf,27
data_infeccoes,132
qtd_infeccoes,1157


In [36]:
# Calculando a quantidade de pessoas que pegaram dengue por município por ano
# criar coluna de ano
# na primeira parte 'df_dengue = ['ano']' estamos criando uma coluna nova à partir da função de data da coluna 'data_infeccoes'. 'dt' é a chamada da função de ano do Pandas e após chamar, dizemos o que queremos ver da função data 'dt', que, neste caso é ano.

df_dengue ['ano'] = df_dengue['data_infeccoes'].dt.year

In [38]:
# verificando a nova coluna criada no passo acima
df_dengue.head()

Unnamed: 0,municipio,uf,data_infeccoes,qtd_infeccoes,ano
0,ALTA FLORESTA D'OESTE,RO,2013-01-01,34,2013
1,ALTA FLORESTA D'OESTE,RO,2013-02-01,44,2013
2,ALTA FLORESTA D'OESTE,RO,2013-03-01,15,2013
3,ALTA FLORESTA D'OESTE,RO,2013-04-01,4,2013
4,ALTA FLORESTA D'OESTE,RO,2013-05-01,3,2013


In [40]:
# criando um novo dataset agrupando por ano, município e uf realizando uma contagem por quantidade de infecções e resetando o índice
infeccoes_municipio = df_dengue.groupby(['ano', 'municipio', 'uf'])['qtd_infeccoes'].sum().reset_index()

In [42]:
# exibindo o agrupamento
infeccoes_municipio.head()

Unnamed: 0,ano,municipio,uf,qtd_infeccoes
0,2013,ABADIA DE GOIAS,GO,52
1,2013,ABADIA DOS DOURADOS,MG,0
2,2013,ABADIANIA,GO,37
3,2013,ABAETE,MG,486
4,2013,ABAETETUBA,PA,15


In [44]:
# exibindo informações do novo dataset após agrupamento
infeccoes_municipio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60731 entries, 0 to 60730
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ano            60731 non-null  int32 
 1   municipio      60731 non-null  object
 2   uf             60731 non-null  object
 3   qtd_infeccoes  60731 non-null  int64 
dtypes: int32(1), int64(1), object(2)
memory usage: 1.6+ MB


In [45]:
infeccoes_estado = df_dengue.groupby(['ano', 'uf'])['qtd_infeccoes'].sum().reset_index()

In [47]:
# exibindo as informações truncadas, sem head()
infeccoes_estado

Unnamed: 0,ano,uf,qtd_infeccoes
0,2013,AC,1663
1,2013,AL,704
2,2013,AM,4327
3,2013,AP,546
4,2013,BA,13417
...,...,...,...
292,2023,RS,27389
293,2023,SC,77954
294,2023,SE,1749
295,2023,SP,198774
