# Análise de Dados da COVID 19 no estado de São Paulo

Este projeto analisa os dados dos casos de covid 19 no estado de São Paulo do período de fevereiro de 2020 à setembro de 2021

Os dados esão disponíveis nos sites:

- https://www.seade.gov.br/coronavirus/#
- https://github.com/seade-R/dados-covid-sp
- https://www.seade.gov.br

In [2]:
import numpy as np
import pandas as pd

In [3]:
covid = pd.read_csv("../dados_covid_sp.csv", sep=";", encoding="utf-8")

In [4]:
covid.head()

Unnamed: 0,nome_munic,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9
3,Águas da Prata,3500402,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,7797,1729,14267,0,8.0,-219319,-467176,9
4,Águas de Lindóia,3500501,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Campinas,3,18374,3275,6013,0,8.0,-224733,-466314,9


In [5]:
covid.shape

(374034, 26)

In [6]:
covid = covid.rename(columns={"nome_munic": "municipio", "datahora": "data"})
covid.area = covid.area / 100

In [7]:
# Análise dos atributos
covid.dtypes

municipio         object
codigo_ibge        int64
dia                int64
mes                int64
data              object
casos              int64
casos_novos        int64
casos_pc          object
casos_mm7d        object
obitos             int64
obitos_novos       int64
obitos_pc         object
obitos_mm7d       object
letalidade        object
nome_ra           object
cod_ra             int64
nome_drs          object
cod_drs            int64
pop                int64
pop_60             int64
area             float64
map_leg           object
map_leg_s        float64
latitude          object
longitude         object
semana_epidem      int64
dtype: object

### Filtrando duas cidade: Campinas e Guarulhos

In [8]:
covid_campinas = covid.loc[covid.municipio == "Campinas"]
covid_campinas.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
108,Campinas,3509502,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Campinas,3,1175501,192796,794.57,0,8.0,-229053,-470659,9
753,Campinas,3509502,26,2,2020-02-26,0,0,"0,00000000000000e+00",0,0,...,Campinas,3,1175501,192796,794.57,0,8.0,-229053,-470659,9
1398,Campinas,3509502,27,2,2020-02-27,0,0,"0,00000000000000e+00",0,0,...,Campinas,3,1175501,192796,794.57,0,8.0,-229053,-470659,9


In [None]:
# Criação de uma coluna com a porcentagem de idosos
covid_campinas["porcentagem_idosos"] = 100 * covid_campinas["pop_60"] / covid_campinas["pop"]
covid_campinas.head(3)

In [10]:
covid_guarulhos = covid.loc[covid.municipio == "Guarulhos"]
covid_guarulhos.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
212,Guarulhos,3518800,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Grande São Paulo,10,1351275,162662,318.68,0,8.0,-234538,-465333,9
857,Guarulhos,3518800,26,2,2020-02-26,0,0,"0,00000000000000e+00",0,0,...,Grande São Paulo,10,1351275,162662,318.68,0,8.0,-234538,-465333,9
1502,Guarulhos,3518800,27,2,2020-02-27,0,0,"0,00000000000000e+00",0,0,...,Grande São Paulo,10,1351275,162662,318.68,0,8.0,-234538,-465333,9


In [None]:
# Criação de uma coluna com a porcentagem de idosos
covid_guarulhos["porcentagem_idosos"] = 100 * covid_guarulhos["pop_60"] / covid_guarulhos["pop"]
covid_guarulhos.head(3)

### Medidas de Centralidade

#### Média

##### Campinas

In [12]:
# ".mean()" trará a média
covid_campinas["obitos_novos"].mean()

7.721934369602764

In [13]:
covid_campinas.casos_novos.mean()

194.88946459412782

##### Guarulhos

In [14]:
covid_guarulhos["obitos_novos"].mean()

8.404145077720207

In [15]:
covid_guarulhos.casos_novos.mean()

109.49568221070811

#### Mediana

##### Campinas

In [16]:
covid_campinas["obitos_novos"].median()

5.0

In [17]:
covid_campinas.casos_novos.median()

148.0

##### Guarulhos

In [18]:
covid_guarulhos["obitos_novos"].median()

4.0

In [19]:
covid_guarulhos.casos_novos.median()

87.0

#### Moda

##### Campinas

In [20]:
covid_campinas["obitos_novos"].mode()

0    0
Name: obitos_novos, dtype: int64

In [25]:
covid_campinas["dia"].mode()

0    25
Name: dia, dtype: int64

##### Guarulhos

In [22]:
covid_guarulhos["obitos_novos"].mode()

0    0
Name: obitos_novos, dtype: int64

In [24]:
covid_guarulhos["dia"].mode()

0    25
Name: dia, dtype: int64

#### Descrição geral

In [26]:
covid_campinas.describe()

Unnamed: 0,codigo_ibge,dia,mes,casos,casos_novos,obitos,obitos_novos,cod_ra,cod_drs,pop,pop_60,area,map_leg_s,semana_epidem,porcentagem_idosos
count,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0,579.0
mean,3509502.0,15.737478,6.26943,46549.331606,194.889465,1763.333333,7.721934,4.0,3.0,1175501.0,192796.0,794.57,1.787565,25.792746,16.40118
std,0.0,8.803909,3.024688,36212.354082,173.933661,1427.149566,8.957631,0.0,0.0,0.0,0.0,5.803042e-12,1.882753,13.389761,8.533886e-14
min,3509502.0,1.0,1.0,0.0,0.0,0.0,0.0,4.0,3.0,1175501.0,192796.0,794.57,1.0,1.0,16.40118
25%,3509502.0,8.0,4.0,12926.0,39.0,540.5,1.0,4.0,3.0,1175501.0,192796.0,794.57,1.0,15.0,16.40118
50%,3509502.0,16.0,6.0,39112.0,148.0,1407.0,5.0,4.0,3.0,1175501.0,192796.0,794.57,1.0,25.0,16.40118
75%,3509502.0,23.0,9.0,77445.5,326.0,3048.5,12.0,4.0,3.0,1175501.0,192796.0,794.57,1.0,36.0,16.40118
max,3509502.0,31.0,12.0,112841.0,1080.0,4471.0,67.0,4.0,3.0,1175501.0,192796.0,794.57,8.0,53.0,16.40118


In [27]:
covid_guarulhos["casos_novos"].describe()

count    579.000000
mean     109.495682
std      100.261861
min        0.000000
25%       27.500000
50%       87.000000
75%      161.000000
max      698.000000
Name: casos_novos, dtype: float64

#### Distribuição de Frequências: Histograma

In [44]:
covid_campinas2021 = covid_campinas.loc[covid_campinas.data > "2020-12-31"]
covid_guarulhos2021 = covid_guarulhos.loc[covid_guarulhos.data > "2020-12-31"]

In [34]:
covid_campinas2021.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem,porcentagem_idosos
200703,Campinas,3509502,1,1,2021-01-01,43502,92,"3,70071994834543e+03",205285714285714278,1474,...,3,1175501,192796,794.57,>5000,1.0,-229053,-470659,53,16.401177
201348,Campinas,3509502,2,1,2021-01-02,43508,6,"3,70123036900862e+03",203857142857142861,1475,...,3,1175501,192796,794.57,>5000,1.0,-229053,-470659,53,16.401177
201993,Campinas,3509502,3,1,2021-01-03,43561,53,"3,70573908486679e+03",207428571428571416,1476,...,3,1175501,192796,794.57,>5000,1.0,-229053,-470659,1,16.401177


In [37]:
# Média de obitos de todo o período na cidade de Campinas
covid_campinas["obitos_novos"].mean()

7.721934369602764

In [36]:
# Média de obitos no ano de 2021 na cidade de Campinas
covid_campinas2021["obitos_novos"].mean()

11.182835820895523

In [38]:
import plotly.express as px

In [46]:
# "x" Representa o eixo X do gráfico, recebe a variável que será analisada
# "nbins" É a largura das faixas de distribuição de frequência
grafico = px.histogram(covid_campinas2021, x="obitos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text="Óbitos novos em Campinas em 2021")
grafico.show()

In [47]:
grafico = px.histogram(covid_guarulhos2021, x="obitos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text="Óbitos novos em Guarulhos em 2021")
grafico.show()

### Medidas de Posição

In [64]:
# Mínimo de casos
print("Mínimo de casos em Campinas:  " + str(covid_campinas["casos_novos"].min()))
print("Mínimo de casos em Guarulhos:  " + str(covid_guarulhos["casos_novos"].min()))

Mínimo de casos em Campinas:  0
Mínimo de casos em Guarulhos:  0


In [65]:
# Máximo de casos
print("Máximo de casos em Campinas:  " + str(covid_campinas["casos_novos"].max()))
print("Máximo de casos em Guarulhos:  " + str(covid_guarulhos["casos_novos"].max()))

Máximo de casos em Campinas:  1080
Máximo de casos em Guarulhos:  698


In [62]:
# Mínimo de óbitos
print("Mínimo de óbitos em Campinas:  " + str(covid_campinas["obitos_novos"].min()))
print("Mínimo de óbitos em Guarulhos:  " + str(covid_guarulhos["obitos_novos"].min()))

Mínimo de óbitos em Campinas:  0
Mínimo de óbitos em Guarulhos:  0


In [63]:
# Máximo de óbitos
print("Máximo de óbitos em Campinas:  " + str(covid_campinas["obitos_novos"].max()))
print("Máximo de óbitos em Guarulhos:  " + str(covid_guarulhos["obitos_novos"].max()))

Máximo de óbitos em Campinas:  67
Máximo de óbitos em Guarulhos:  77


In [66]:
# Primeiro quartil
covid_campinas["casos_novos"].quantile(q=0.25)

39.0

In [67]:
covid_campinas["casos_novos"].quantile(q=0.5)

148.0

In [68]:
covid_campinas["casos_novos"].quantile(q=0.75)

326.0

In [70]:
round(covid_campinas["casos_novos"].quantile(q=0.99),2)

625.98

### Gráfico BoxPlot e Outliers

In [71]:
import plotly.express as px

##### Campinas

In [73]:
# "y" Vai representar uma variável
grafico = px.box(covid_campinas, y="casos_novos")
grafico.show()

In [76]:
outlier_sup = covid_campinas.casos_novos.quantile(q=0.75) + 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_sup

756.5

In [78]:
outlier_inf = covid_campinas.casos_novos.quantile(q=0.25) - 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_inf

-391.5

In [82]:
sem_outliers = covid_campinas.loc[covid_campinas.casos_novos <= outlier_sup]
sem_outliers.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem,porcentagem_idosos
108,Campinas,3509502,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,3,1175501,192796,794.57,0,8.0,-229053,-470659,9,16.401177
753,Campinas,3509502,26,2,2020-02-26,0,0,"0,00000000000000e+00",0,0,...,3,1175501,192796,794.57,0,8.0,-229053,-470659,9,16.401177
1398,Campinas,3509502,27,2,2020-02-27,0,0,"0,00000000000000e+00",0,0,...,3,1175501,192796,794.57,0,8.0,-229053,-470659,9,16.401177


In [83]:
grafico = px.box(sem_outliers, y="casos_novos")
grafico.show()

### Medidas de Dispersão

In [90]:
# Variância de óbitos novos
var_gr = round(covid_guarulhos["obitos_novos"].var(), 2)
var_camp = round(covid_campinas["obitos_novos"].var(), 2)
f"Guarulhos:  {var_gr}",f"Campinas:  {var_camp}"

('Guarulhos:  132.51', 'Campinas:  80.24')

In [95]:
# Desvio padrão de óbitos novos
dsv_gr = round(covid_guarulhos["obitos_novos"].std(), 2)
dsv_camp = round(covid_campinas["obitos_novos"].std(), 2)
f"Guarulhos:  {dsv_gr}", f"Campinas:  {dsv_camp}"

('Guarulhos:  11.51', 'Campinas:  8.96')

In [96]:
# Variância de casos novos
var_gr_casos = round(covid_guarulhos["casos_novos"].var(), 2)
var_camp_casos = round(covid_campinas["casos_novos"].var(), 2)
f"Guarulhos:  {var_gr_casos}",f"Campinas:  {var_camp_casos}"

('Guarulhos:  10052.44', 'Campinas:  30252.92')

In [None]:
# Desvio padrão de casos novos
dsv_gr_casos = round(covid_guarulhos["casos_novos"].std(), 2)
dsv_camp_casos = round(covid_campinas["casos_novos"].std(), 2)
f"Guarulhos:  {dsv_gr_casos}", f"Campinas:  {dsv_camp_casos}"