#### Vacina Covid
Coleta de Dados

In [63]:
# importando bibliotecas necessárias
import pandas as pd
import os

In [64]:
# importando dados do arquivo
dataframe = pd.read_csv('country_vaccinations.csv', sep=',', encoding='latin-1')
dataframe.head()

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
0,Afghanistan,AFG,2021-02-22,0.0,0.0,,,,0.0,0.0,,,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
1,Afghanistan,AFG,2021-02-23,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
2,Afghanistan,AFG,2021-02-24,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
3,Afghanistan,AFG,2021-02-25,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
4,Afghanistan,AFG,2021-02-26,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/


#### Analisando o dataset
Este dataset utilizado é referente a estastística do número de vacinados da Covid-19 em todos os países do mundo.

Vamos responder as perguntas:
1. Quais são os países com maior número de pessoas imunizadas?
2. Qual a vacina mais utilizada no mundo?
3. Qual o país possui o maior número de vacinados por dia?
4. Qual a média de vacinação por país?

In [65]:
# verificando dados referente ao Brasil por dia
dataframe.query('country == "Brazil"').sort_values('date', ascending=False)[0:5]

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
11085,Brazil,BRA,2022-03-29,413559595.0,181078067.0,160272858.0,1382570.0,656803.0,193.26,84.62,74.9,3069.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
11084,Brazil,BRA,2022-03-28,412177025.0,180881628.0,160008924.0,628823.0,546999.0,192.61,84.53,74.77,2556.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
11083,Brazil,BRA,2022-03-27,411548202.0,180800024.0,159842858.0,432005.0,587488.0,192.32,84.49,74.7,2745.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
11082,Brazil,BRA,2022-03-26,411116197.0,180757995.0,159756178.0,255556.0,548819.0,192.12,84.47,74.65,2565.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
11081,Brazil,BRA,2022-03-25,410860641.0,180726798.0,159673499.0,684805.0,596456.0,192.0,84.45,74.62,2787.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io


In [66]:
# verificando o número de países distintos da base
dataframe['country'].nunique()

223

1. Quais são os países com maior número de pessoas imunizadas?

In [67]:
# identificando a data mais recente da coleta
ultima_data = dataframe['date'].max()
ultima_data

'2022-03-29'

In [68]:
# filtrando a ultima data
ultima_data = dataframe[dataframe.date == ultima_data]

In [69]:
# verificando quantas linhas e colunas dentro do dataframe
ultima_data.shape

(54, 15)

#### Atenção
Isso não está certo, pois verificamos que temos **223** países no dataset original.

Para corrigir isso vamos fazer um agrupamento por país e selecionar a última data de atualização que foi realizada.

In [70]:
dataframe.groupby('country')['date'].max().sort_values(ascending=False)

country
Lebanon                            2022-03-29
Lithuania                          2022-03-29
Kosovo                             2022-03-29
Kazakhstan                         2022-03-29
Japan                              2022-03-29
                                      ...    
Pitcairn                           2021-09-07
Turkmenistan                       2021-09-05
Bonaire Sint Eustatius and Saba    2021-09-01
Saint Helena                       2021-05-05
Falkland Islands                   2021-04-14
Name: date, Length: 223, dtype: object

Agora vimos países que de fato não possuem última data de atualização. Vamos procurar de outra maneira para obter esses dados. A variável total_vaccinations contém o total de vacinas naquele país, podemos utilizar como parâmetro para última data de coleta. Vamos agrupar por país e pegar o valor maáximo obtido dessa variável.

In [71]:
dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)

country
China               3.263129e+09
India               1.834501e+09
United States       5.601818e+08
Brazil              4.135596e+08
Indonesia           3.771089e+08
                        ...     
Falkland Islands    4.407000e+03
Montserrat          4.211000e+03
Niue                4.161000e+03
Tokelau             1.936000e+03
Pitcairn            9.400000e+01
Name: total_vaccinations, Length: 223, dtype: float64

#### Vamos então criar uma lista com **TOP 10 Países**.

In [72]:
imunizados_por_pais = dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)
imunizados_por_pais.head(10)

country
China            3.263129e+09
India            1.834501e+09
United States    5.601818e+08
Brazil           4.135596e+08
Indonesia        3.771089e+08
Japan            2.543456e+08
Bangladesh       2.436427e+08
Pakistan         2.193686e+08
Vietnam          2.031444e+08
Mexico           1.919079e+08
Name: total_vaccinations, dtype: float64

In [73]:
type(imunizados_por_pais)

pandas.core.series.Series

In [74]:
imunizados = imunizados_por_pais.to_frame().reset_index()
imunizados

Unnamed: 0,country,total_vaccinations
0,China,3.263129e+09
1,India,1.834501e+09
2,United States,5.601818e+08
3,Brazil,4.135596e+08
4,Indonesia,3.771089e+08
...,...,...
218,Falkland Islands,4.407000e+03
219,Montserrat,4.211000e+03
220,Niue,4.161000e+03
221,Tokelau,1.936000e+03


In [75]:
imunizados.sort_values('total_vaccinations', ascending=False).head(3)

Unnamed: 0,country,total_vaccinations
0,China,3263129000.0
1,India,1834501000.0
2,United States,560181800.0


2. Qual a vacina mais utilizada no mundo?

Vamos criar um dataframe contendo as vacinas utilizadas por país em uma determinada data.

In [76]:
# selecionando colunas para nosso dataframe
vacinas_por_pais = dataframe[['country', 'date', 'vaccines']]
vacinas_por_pais

Unnamed: 0,country,date,vaccines
0,Afghanistan,2021-02-22,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
1,Afghanistan,2021-02-23,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
2,Afghanistan,2021-02-24,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
3,Afghanistan,2021-02-25,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
4,Afghanistan,2021-02-26,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
...,...,...,...
86507,Zimbabwe,2022-03-25,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86508,Zimbabwe,2022-03-26,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86509,Zimbabwe,2022-03-27,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86510,Zimbabwe,2022-03-28,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."


In [77]:
vacinas_por_pais.groupby('vaccines')['country'].nunique().sort_values(ascending=False)

vaccines
Oxford/AstraZeneca                                                                                    20
Johnson&Johnson, Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                         17
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                                          15
Oxford/AstraZeneca, Pfizer/BioNTech                                                                   11
Johnson&Johnson, Moderna, Novavax, Oxford/AstraZeneca, Pfizer/BioNTech                                 8
                                                                                                      ..
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinopharm/Beijing, Sinovac                               1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik Light, Sputnik V, ZF2001                1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik V                                       1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, 

In [78]:
vacinas_pais = dataframe.groupby('country')['vaccines'].unique()
vacinas_pais = vacinas_pais.to_frame().reset_index()
vacinas_pais.head(5)

Unnamed: 0,country,vaccines
0,Afghanistan,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
1,Albania,"[Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac,..."
2,Algeria,"[Oxford/AstraZeneca, Sinopharm/Beijing, Sinova..."
3,Andorra,"[Moderna, Oxford/AstraZeneca, Pfizer/BioNTech]"
4,Angola,[Oxford/AstraZeneca]


3. Qual o país possui o maior número de vacinados por dia?


In [79]:
dataframe.groupby('country')['daily_vaccinations'].max().sort_values(ascending=False)

country
China            22424286.0
India            10037995.0
Bangladesh        3758404.0
United States     3506960.0
Pakistan          2175773.0
                    ...    
Saint Helena          165.0
Niue                   87.0
Montserrat             53.0
Tokelau                23.0
Pitcairn                1.0
Name: daily_vaccinations, Length: 223, dtype: float64

4. Qual a média de vacinação por país?

In [80]:
media_pais = dataframe.groupby('country')['daily_vaccinations'].mean().sort_values(ascending=False)
media_pais = media_pais.to_frame().reset_index()
media_pais.head(4)

Unnamed: 0,country,daily_vaccinations
0,China,6930368.0
1,India,4175994.0
2,United States,1191727.0
3,Brazil,943528.7


Agora vamos criar uma nova base utilizando os dados que tratamos anteriormente

1. imunizados
2. vacinas_por_pais
3. media_pais

In [81]:
# renomeando colunas
media_pais = media_pais.rename(columns={'country' : 'País', 'daily_vaccinations': 'Média Vacinação'})
media_pais

Unnamed: 0,País,Média Vacinação
0,China,6.930368e+06
1,India,4.175994e+06
2,United States,1.191727e+06
3,Brazil,9.435287e+05
4,Indonesia,8.462893e+05
...,...,...
218,Wallis and Futuna,3.388649e+01
219,Tokelau,1.739823e+01
220,Niue,1.631698e+01
221,Montserrat,1.053659e+01


In [82]:
vacinas_pais = vacinas_pais.rename(columns={'country':'País', 'vaccines':'Vacina Utilizada'})
vacinas_pais[0:5]

Unnamed: 0,País,Vacina Utilizada
0,Afghanistan,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
1,Albania,"[Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac,..."
2,Algeria,"[Oxford/AstraZeneca, Sinopharm/Beijing, Sinova..."
3,Andorra,"[Moderna, Oxford/AstraZeneca, Pfizer/BioNTech]"
4,Angola,[Oxford/AstraZeneca]


In [83]:
imunizados = imunizados.rename(columns={'country':'País', 'total_vaccinations':'Imunizados'})
imunizados[0:5]

Unnamed: 0,País,Imunizados
0,China,3263129000.0
1,India,1834501000.0
2,United States,560181800.0
3,Brazil,413559600.0
4,Indonesia,377108900.0


### Criando um novo dataset

In [84]:
dados_tratados = pd.merge(imunizados, media_pais, how='inner')

In [85]:
dados_tratados = pd.merge(dados_tratados, vacinas_pais, how='inner')
dados_tratados

Unnamed: 0,País,Imunizados,Média Vacinação,Vacina Utilizada
0,China,3.263129e+09,6.930368e+06,"[CanSino, Sinopharm/Beijing, Sinopharm/Wuhan, ..."
1,India,1.834501e+09,4.175994e+06,"[Covaxin, Oxford/AstraZeneca, Sputnik V]"
2,United States,5.601818e+08,1.191727e+06,"[Johnson&Johnson, Moderna, Pfizer/BioNTech]"
3,Brazil,4.135596e+08,9.435287e+05,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
4,Indonesia,3.771089e+08,8.462893e+05,"[Johnson&Johnson, Moderna, Novavax, Oxford/Ast..."
...,...,...,...,...
218,Falkland Islands,4.407000e+03,7.474242e+01,[Oxford/AstraZeneca]
219,Montserrat,4.211000e+03,1.053659e+01,[Oxford/AstraZeneca]
220,Niue,4.161000e+03,1.631698e+01,[Pfizer/BioNTech]
221,Tokelau,1.936000e+03,1.739823e+01,[Pfizer/BioNTech]


### Exportando dados tratados

In [86]:
dados_tratados.to_csv('Estatísticas_país', index=True, sep=';')