# 📊 Análise de Dados do COVID-19 - 2ª Prova de Data Science (1º Semestre) - FIAP  

Este projeto de análise de dados sobre o COVID-19 utiliza Python para explorar padrões e tendências com abordagens estatísticas e machine learning.  

## 📝 Sobre o projeto  
O projeto utiliza bibliotecas como **Pandas, Matplotlib e Seaborn** para manipulação e visualização de dados. Além disso, emprega técnicas de *machine learning* para prever tendências futuras.  

## 🗂 Dicionário de variáveis  

| **Variável**  | **Descrição** |
|--------------|--------------|
| **province** | Nome da província ou estado onde os dados foram coletados. |
| **country**  | Nome do país correspondente à província. |
| **Lat**      | Latitude da localização onde os dados foram registrados. |
| **Long**     | Longitude da localização onde os dados foram registrados. |
| **date**     | Data do registro dos casos. |
| **infected** | Número de casos confirmados de COVID-19 no local e data específicos. |
| **dead**     | Número de óbitos registrados devido à COVID-19. |

## 🔧 Tecnologias utilizadas  
- **Python** 3.0
- **Pandas** – manipulação de dados  
- **Matplotlib & Seaborn** – visualização de dados  
- **Scikit-learn** *(caso aplicável)* – modelos preditivos  



## Carregar módulos

In [94]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

## Carregar dados

In [95]:
path = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'
path_dead =  'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv'

In [96]:
dados_paises_covid = pd.read_csv(path)
dados_paises_covid_dead = pd.read_csv(path_dead)

In [97]:
dados_paises_covid

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,,West Bank and Gaza,31.952200,35.233200,0,0,0,0,0,0,...,703228,703228,703228,703228,703228,703228,703228,703228,703228,703228
285,,Winter Olympics 2022,39.904200,116.407400,0,0,0,0,0,0,...,535,535,535,535,535,535,535,535,535,535
286,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,11945,11945,11945,11945,11945,11945,11945,11945,11945,11945
287,,Zambia,-13.133897,27.849332,0,0,0,0,0,0,...,343012,343012,343079,343079,343079,343135,343135,343135,343135,343135


## Ajustes



- Nomes das colunas

In [98]:
dados_paises_covid.rename(columns={"Province/State": "province",
                                   "Country/Region": "country"},
                          inplace=True)

In [99]:
dados_paises_covid_dead.rename(columns={"Province/State": "province",
                                        "Country/Region": "country"},
                               inplace=True)

In [100]:
dados_paises_covid_dead.columns

Index(['province', 'country', 'Lat', 'Long', '1/22/20', '1/23/20', '1/24/20',
       '1/25/20', '1/26/20', '1/27/20',
       ...
       '2/28/23', '3/1/23', '3/2/23', '3/3/23', '3/4/23', '3/5/23', '3/6/23',
       '3/7/23', '3/8/23', '3/9/23'],
      dtype='object', length=1147)

- Reajustar dados

In [101]:
dados_paises_covid = dados_paises_covid.melt(id_vars=['province', 'country', 'Lat', 'Long'],
                                             var_name = 'date',
                                             value_name = 'infected')

In [102]:
dados_paises_covid_dead = dados_paises_covid_dead.melt(id_vars=['province', 'country', 'Lat', 'Long'],
                                                       var_name = 'date',
                                                       value_name = 'dead')

In [103]:
dados_paises_covid_dead.tail()

Unnamed: 0,province,country,Lat,Long,date,dead
330322,,West Bank and Gaza,31.9522,35.2332,3/9/23,5708
330323,,Winter Olympics 2022,39.9042,116.4074,3/9/23,0
330324,,Yemen,15.552727,48.516388,3/9/23,2159
330325,,Zambia,-13.133897,27.849332,3/9/23,4057
330326,,Zimbabwe,-19.015438,29.154857,3/9/23,5671


In [104]:
dados_paises_covid_dead.dtypes

Unnamed: 0,0
province,object
country,object
Lat,float64
Long,float64
date,object
dead,int64


- Ajustar datas

In [105]:
dados_paises_covid['date'] = pd.to_datetime(dados_paises_covid['date'])


  dados_paises_covid['date'] = pd.to_datetime(dados_paises_covid['date'])


In [106]:
dados_paises_covid_dead['date'] = pd.to_datetime(dados_paises_covid_dead['date'])


  dados_paises_covid_dead['date'] = pd.to_datetime(dados_paises_covid_dead['date'])


In [107]:
dados_paises_covid.tail()

Unnamed: 0,province,country,Lat,Long,date,infected
330322,,West Bank and Gaza,31.9522,35.2332,2023-03-09,703228
330323,,Winter Olympics 2022,39.9042,116.4074,2023-03-09,535
330324,,Yemen,15.552727,48.516388,2023-03-09,11945
330325,,Zambia,-13.133897,27.849332,2023-03-09,343135
330326,,Zimbabwe,-19.015438,29.154857,2023-03-09,264276


In [108]:
dados_paises_covid_dead.dtypes

Unnamed: 0,0
province,object
country,object
Lat,float64
Long,float64
date,datetime64[ns]
dead,int64


- Combinar os datasets

In [109]:
dados_paises_covid.shape

(330327, 6)

In [110]:
dados_paises_covid_dead.shape

(330327, 6)

In [111]:
dados_covid = pd.merge(dados_paises_covid, dados_paises_covid_dead,
                       on = ['province', 'country',	'Lat',	'Long',	'date'],
                       how = 'inner')

In [112]:
dados_covid.tail()

Unnamed: 0,province,country,Lat,Long,date,infected,dead
330322,,West Bank and Gaza,31.9522,35.2332,2023-03-09,703228,5708
330323,,Winter Olympics 2022,39.9042,116.4074,2023-03-09,535,0
330324,,Yemen,15.552727,48.516388,2023-03-09,11945,2159
330325,,Zambia,-13.133897,27.849332,2023-03-09,343135,4057
330326,,Zimbabwe,-19.015438,29.154857,2023-03-09,264276,5671


In [113]:
dados_covid.shape

(330327, 7)

### Exemplo de Probabilidades (Memórias de Cálculo)



- **Probabilidade de estar infectado com COVID**  
  - Para obter essa probabilidade, basta dividir o número total de pessoas infectadas pela soma das populações dos quatro países considerados.

- **Probabilidade de estar infectado com COVID e ser brasileiro**  
  - Nesse caso, é necessário calcular a proporção entre o número de pessoas infectadas no Brasil e o total de habitantes dos quatro países analisados.

- **Probabilidade de estar infectado com COVID considerando apenas brasileiros**  
  - O cálculo desse caso envolve dois passos. Primeiro, determina-se quantos brasileiros foram infectados em relação ao total populacional dos quatro países. Depois, essa probabilidade é ajustada conforme a fração da população brasileira dentro desse total. No final, esse valor corresponde à relação entre o número de infectados no Brasil e a quantidade total de habitantes brasileiros.


In [114]:
from datetime import datetime, timedelta

In [115]:
data_final = dados_covid['date'].max()
data_final

Timestamp('2023-03-09 00:00:00')

1 - Filtrar a data mais recente (realizar o processo para buscar a última data de forma
automatizada) e os países Brasil, Itália, E.U.A e Canadá.


In [116]:
paises_desejados = ['Brazil', 'US', 'Italy','Canada']
data_final = dados_covid['date'].max()
filtro = dados_covid[
    (dados_covid['country'].isin(paises_desejados)) & (dados_covid['date'] == data_final)
]
total_casos_paises = filtro.groupby('country')[['infected', 'dead']].sum()


print(total_casos_paises)

          infected     dead
country                    
Brazil    37076053   699276
Canada     4617095    51720
Italy     25603510   188322
US       103802702  1123836


2- Pesquisar populações de Brasil, Itália, E.U.A. e Canadá. Depois, adicionar estas populações
como uma coluna no dataset.



In [117]:
populacoes = {
    'Brazil': 203_000_000,
    'Canada': 37_000_000,
    'Italy': 60_000_000,
    'US': 346_000_000
}

dados_covid['population'] = dados_covid['country'].map(populacoes)

dados_covid

Unnamed: 0,province,country,Lat,Long,date,infected,dead,population
0,,Afghanistan,33.939110,67.709953,2020-01-22,0,0,
1,,Albania,41.153300,20.168300,2020-01-22,0,0,
2,,Algeria,28.033900,1.659600,2020-01-22,0,0,
3,,Andorra,42.506300,1.521800,2020-01-22,0,0,
4,,Angola,-11.202700,17.873900,2020-01-22,0,0,
...,...,...,...,...,...,...,...,...
330322,,West Bank and Gaza,31.952200,35.233200,2023-03-09,703228,5708,
330323,,Winter Olympics 2022,39.904200,116.407400,2023-03-09,535,0,
330324,,Yemen,15.552727,48.516388,2023-03-09,11945,2159,
330325,,Zambia,-13.133897,27.849332,2023-03-09,343135,4057,


3 – Considerando somente os dados dos países apresentados, encontre as seguintes
probabilidades, baseando-se na coluna de infectados:
*No próprio arquivo “.ipynb” é apresentado um exemplo.

a) P(infectado covid):


In [118]:
dados = {
    'country': ['Brazil', 'Canada', 'Italy', 'US'],
    'infected': [37076053, 4617095, 25603510, 103802702],
    'dead': [699276, 51720, 188322, 1123836]
}

total_infectados = sum(dados['infected'])
print(f"O total de infectados nos 4 países é: {total_infectados}")


O total de infectados nos 4 países é: 171099360


In [119]:
#Somando o total da população dos 4 paises para calculos de probabilidade
populacoes = {
    'Brazil': 203_000_000,
    'Canada': 37_000_000,
    'Italy': 60_000_000,
    'US': 346_000_000
}
total_populacao = sum(populacoes.values())
print(total_populacao)

646000000


b) P(infectado covid e ser Brasileiro)

In [120]:
total_br_infectados = 37076053 #valores do total infectado br
total_populacao = 646_000_000  #valores do total da poupulcao dos 4 paises solicitados
soma_total = (total_br_infectados / total_populacao) * 100
print(f"A probabilidade de ser brasileiro e ter COVID é {soma_total:.2f}%")


A probabilidade de ser brasileiro e ter COVID é 5.74%


c) P(infectado covid | ser Brasileiro)

In [121]:
total_br_pop = 203_000_000 #valor do total da populacao brasileira
probabilidade_condicional_br = (total_br_infectados/ total_populacao) / (total_br_pop / total_populacao)
resultado_condicional = probabilidade_condicional_br * 100
print(f"P(Infectado COVID | Ser Brasileiro): {resultado_condicional:.2f} %")


P(Infectado COVID | Ser Brasileiro): 18.26 %


d) Compare estes resultados com o mesmo período do ano passado.

In [122]:
# Filtrar dados de 2022 para o Brasil
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "Brazil")
]

# Filtrar dados de 2023 para o Brasil
dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "Brazil")
]

# Calcular os totais
total_2022 = dados_2022["infected"].sum()
total_2023 = dados_2023["infected"].sum()

# Exibir os resultados
print("Total de infectados no Brasil em 2022:", total_2022)
print("Total de infectados no Brasil em 2023:", total_2023)



Total de infectados no Brasil em 2022: 11578450312
Total de infectados no Brasil em 2023: 2503483962


e) P(infectado covid e ser USA)

In [123]:
total_us_infectados = 103802702 #valor total de  infectados nos EUA

total_populacao = 646_000_000 #valores do total da poupulcao dos 4 paises solicitados

# Cálculo da probabilidade
soma_total = (total_us_infectados / total_populacao) * 100

print(f"A probabilidade de ser americano e ter COVID é de {soma_total:.2f}%")


A probabilidade de ser americano e ter COVID é de 16.07%


f) P(infectado covid | ser USA)

In [124]:
total_us_pop = 346_000_000 #valores da populacao total dos EUA

probabilidade_condicional_us = (total_us_infectados/ total_populacao) / (total_us_pop / total_populacao)
resultado_condicional = probabilidade_condicional_us * 100 #calculo condicao
print(f"P(Infectado COVID | Ser USA): {resultado_condicional:.2f} %")

P(Infectado COVID | Ser USA): 30.00 %


g) Compare estes resultados com o mesmo período do ano passado.


In [125]:
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "US")
]

dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "US")
]

total_2022 = dados_2022["infected"].sum()
total_2023 = dados_2023["infected"].sum()

print("Total de infectados no US em 2022:", total_2022)
print("Total de infectados no US em 2023:", total_2023)


Total de infectados no US em 2022: 31846720598
Total de infectados no US em 2023: 6969148046


h) P(infectado covid e ser Italiano)


In [126]:
total_italy_infectados = 25603510 #valor total de infectados na italia
#calcula da probabilidade
soma_italia = (total_italy_infectados / total_populacao) * 100
print(f"A probabilidade de ser italiano e ter COVID é {soma_italia:.2f}%")


A probabilidade de ser italiano e ter COVID é 3.96%


i) P(infectado covid | ser Italiano)

In [127]:
total_italia_pop = 60_000_000 #valor total da poulacao da italia
probabilidade_condicional_italia = (total_italy_infectados/ total_populacao) / (total_italia_pop / total_populacao)
resultado_condicional = probabilidade_condicional_italia * 100
print(f"P(Infectado COVID | Ser Italiano): {resultado_condicional:.2f} %")

P(Infectado COVID | Ser Italiano): 42.67 %


j) Compare estes resultados com o mesmo período do ano passado.

In [128]:
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "Italy")
]


dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "Italy")
]


total_2022 = dados_2022["infected"].sum()
total_2023 = dados_2023["infected"].sum()

# Exibir os resultados
print("Total de infectados na Itália em 2022:", total_2022)
print("Total de infectados na Itália em 2023:", total_2023)

Total de infectados na Itália em 2022: 6711344253
Total de infectados na Itália em 2023: 1730453489


4 – Encontre as seguintes probabilidades, baseando-se na coluna de mortos:

a) P(morte covid):

In [129]:
#Somando os dados de dead para calculo
dados = {
    'country': ['Brazil', 'Canada', 'Italy', 'US'],
    'infected': [37076053, 4617095, 25603510, 103802702],
    'dead': [699276, 51720, 188322, 1123836]
}

total_infectados = sum(dados['dead'])
print(f"O total de mortos nos 4 países é: {total_infectados}")


O total de mortos nos 4 países é: 2063154


b) P(morte e ser Brasileiro)

In [130]:
total_mortos_br = 699276 # Total de mortos no Brasil
total_mortos_pop = 2063154 # Total de mortos nos 4 paises

# Cálculo da probabilidade
soma_total = (total_mortos_br / total_mortos_pop) * 100
print(f"A probabilidade de ter covid e falecer é {soma_total:.2f}%")



A probabilidade de ter covid e falecer é 33.89%


c) P(morte covid | ser Brasileiro)



In [131]:
total_br_pop = 22063154  #Total da pop do Brasil
#calculo da condicao
probabilidade_cond_br = (total_mortos_br / total_mortos_pop) / (total_br_pop / total_mortos_pop)
resultado_condicional = probabilidade_cond_br * 100
print(f"P(Morte COVID | Ser Brasileiro): {resultado_condicional:.2f} %")

P(Morte COVID | Ser Brasileiro): 3.17 %


d) Compare estes resultados com o mesmo período do ano passado.

In [132]:
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "Brazil")
]


dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "Brazil")
]


total_2022 = dados_2022["dead"].sum()
total_2023 = dados_2023["dead"].sum()

# Exibir os resultados
print("Total de infectados na Itália em 2022:", total_2022)
print("Total de infectados na Itália em 2023:", total_2023)

Total de infectados na Itália em 2022: 244098007
Total de infectados na Itália em 2023: 47398933


e)morte covid e ser USA)

In [133]:
total_eua_mortos = 1123836 # Total de mortos nos EUA
soma_eua = (total_eua_mortos / total_populacao) * 100 #calculo da probabilidade
print(f"A probabilidade de ser americano e morrer de COVID é {soma_eua:.2f}%")


A probabilidade de ser americano e morrer de COVID é 0.17%


P(morte covid | ser USA)

In [134]:
total_us_pop = 346_000_000 # Total da populacao  EUA

#calculo condicao
probabilidade_condicional_us = (total_eua_mortos/ total_populacao) / (total_us_pop / total_populacao)
resultado_condicional = probabilidade_condicional_us * 100
print(f"P(Infectado COVID | Ser USA): {resultado_condicional:.2f} %")

P(Infectado COVID | Ser USA): 0.32 %


Compare estes resultados com o mesmo período do ano passado.

In [135]:
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "US")
]
dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "US")
]


total_2022 = dados_2022["dead"].sum()
total_2023 = dados_2023["dead"].sum()


print("Total de mortos nos EUA em 2022:", total_2022)
print("Total de mortos nos EUA em 2023:", total_2023)

Total de mortos nos EUA em 2022: 368125532
Total de mortos nos EUA em 2023: 75471019


H)
P(morte covid e ser Italiano)

In [136]:
total_italy_mortos = 188322 #total de mortos na italia
#calculo probabilidade
soma_italia = (total_italy_mortos/ total_populacao) * 100
print(f"A probabilidade de ser italiano e ter COVID é {soma_italia:.2f}%")

A probabilidade de ser italiano e ter COVID é 0.03%


P(morte covid | ser Italiano)

In [137]:
total_italia_pop = 60_000_000 #total da populacao italiana
#calculo condicao
probabilidade_condicional_italia = (total_italy_mortos/ total_populacao) / (total_italia_pop / total_populacao)
resultado_condicional = probabilidade_condicional_italia * 100
print(f"P(Infectado COVID | Ser Italiano): {resultado_condicional:.2f} %")

P(Infectado COVID | Ser Italiano): 0.31 %


j) Compare estes resultados com o mesmo período do ano passado.

In [138]:
dados_2022 = dados_covid[
    (dados_covid["date"].dt.year == 2022) &
    (dados_covid["country"] == "Italy")
]


dados_2023 = dados_covid[
    (dados_covid["date"].dt.year == 2023) &
    (dados_covid["country"] == "Italy")
]

# Calcular os totais
total_2022 = dados_2022["dead"].sum()
total_2023 = dados_2023["dead"].sum()

# Exibir os resultados
print("Total de mortos na Italia em 2022:", total_2022)
print("Total de mortos nos Italia em 2023:", total_2023)

Total de mortos na Italia em 2022: 61048721
Total de mortos nos Italia em 2023: 12709950
