<a href="https://colab.research.google.com/github/oldairjsilva/IGTI/blob/main/coleta_dados(2).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta de dados estruturados

In [None]:
import pandas as pd
import os

# Importando dados do arquivo
O primeiro passo é encontrar o local onde o arquivo a ser trabalhado vai estar armazenado. Após isso, vamos abrí-lo e em seguida vamos adicioná-lo dentro de um dataframe do pandas.

In [None]:
DIRETORIO = 'C:\\Projetos\\base_dados\\'
arquivo = 'country_vaccinations.csv'
dados = os.path.join(DIRETORIO, arquivo)

In [None]:
dados

'C:\\Projetos\\base_dados\\country_vaccinations.csv'

In [None]:
dataframe = pd.read_csv(dados, sep = ',', encoding = 'latin-1')

In [None]:
# Exibe os 5 primeiros registros da tabela
dataframe.head(5)

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
0,Afghanistan,AFG,2021-02-22,0.0,0.0,,,,0.0,0.0,,,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
1,Afghanistan,AFG,2021-02-23,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
2,Afghanistan,AFG,2021-02-24,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
3,Afghanistan,AFG,2021-02-25,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
4,Afghanistan,AFG,2021-02-26,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/


# Analisando os dados
## Sobre o datase
O dataset utilizado é referente a estatística do número da COVID-19 em todos os países do mundo

In [None]:
# Verificando dados referente ao Brasil por dia.
dataframe.query('country == "Brazil" ').sort_values('date', ascending = False)[:2]

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
10510,Brazil,BRA,2022-03-07,396537303.0,178366451.0,155930535.0,878331.0,539096.0,185.3,83.35,72.87,2519.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
10509,Brazil,BRA,2022-03-06,395658972.0,178245534.0,155740455.0,194146.0,526934.0,184.89,83.29,72.78,2462.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io


In [None]:
# verificando o número de países distintos na base
dataframe['country'].nunique()

223

# 1. Qual o país com maior número de pessoas imunizadas?
Para que a análise seja realizada de forma correta é necessário analisar profundamente os dados. Nessa etapa, precisamos fazer vários testes afim de conhecer melhor os dados. Perceba que o dataset traz informações por data de coleta. Dessa forma, temos que filtrar o último registro baseado na data.

Será que essa análise é correta?

Vamos analisar!

In [None]:
# identificando a data mais recente da coleta
ultima_data = dataframe['date'].max()
ultima_data

'2022-03-07'

In [None]:
# filtrando a ultima data
ultima_data = dataframe[dataframe.date == ultima_data]

In [None]:
# o comando shape mostra a quantidade de linhas e colunas de um dataset
ultima_data.shape

(62, 15)

# Atenção
Perceba que o dataset filtrado pela última data retornou(62,15) ou seja 62 linhas e 15 colunas. Isso não esta certo! Pois verificamos que temos 223 países no dataset original.

In [None]:
dataframe.groupby('country')['date'].max().sort_values(ascending=False)

country
Lebanon                            2022-03-07
Indonesia                          2022-03-07
Laos                               2022-03-07
Kyrgyzstan                         2022-03-07
Kosovo                             2022-03-07
                                      ...    
Pitcairn                           2021-09-07
Bonaire Sint Eustatius and Saba    2021-09-01
Turkmenistan                       2021-08-29
Saint Helena                       2021-05-05
Falkland Islands                   2021-04-14
Name: date, Length: 223, dtype: object

In [None]:
dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)

country
China               3.165486e+09
India               1.789317e+09
United States       5.553323e+08
Brazil              3.965373e+08
Indonesia           3.536987e+08
                        ...     
Falkland Islands    4.407000e+03
Montserrat          4.089000e+03
Niue                2.628000e+03
Tokelau             1.936000e+03
Pitcairn            9.400000e+01
Name: total_vaccinations, Length: 223, dtype: float64

In [None]:
imunizados_por_pais = dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)
imunizados_por_pais

country
China               3.165486e+09
India               1.789317e+09
United States       5.553323e+08
Brazil              3.965373e+08
Indonesia           3.536987e+08
                        ...     
Falkland Islands    4.407000e+03
Montserrat          4.089000e+03
Niue                2.628000e+03
Tokelau             1.936000e+03
Pitcairn            9.400000e+01
Name: total_vaccinations, Length: 223, dtype: float64

In [None]:
type(imunizados_por_pais)

pandas.core.series.Series

In [None]:
imunizados = imunizados_por_pais.to_frame().reset_index()
imunizados

Unnamed: 0,country,total_vaccinations
0,China,3.165486e+09
1,India,1.789317e+09
2,United States,5.553323e+08
3,Brazil,3.965373e+08
4,Indonesia,3.536987e+08
...,...,...
218,Falkland Islands,4.407000e+03
219,Montserrat,4.089000e+03
220,Niue,2.628000e+03
221,Tokelau,1.936000e+03


In [None]:
imunizados.sort_values('total_vaccinations', ascending=False).head(10)

Unnamed: 0,country,total_vaccinations
0,China,3165486000.0
1,India,1789317000.0
2,United States,555332300.0
3,Brazil,396537300.0
4,Indonesia,353698700.0
5,Japan,234925600.0
6,Pakistan,217444600.0
7,Bangladesh,217266600.0
8,Vietnam,197910400.0
9,Mexico,183509800.0


# 2. Qual vacina é a mais utilizada no mundo?

In [None]:
vacina_por_pais = dataframe[['country', 'date', 'vaccines']]
vacina_por_pais

Unnamed: 0,country,date,vaccines
0,Afghanistan,2021-02-22,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
1,Afghanistan,2021-02-23,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
2,Afghanistan,2021-02-24,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
3,Afghanistan,2021-02-25,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
4,Afghanistan,2021-02-26,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
...,...,...,...
81971,Zimbabwe,2022-03-03,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
81972,Zimbabwe,2022-03-04,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
81973,Zimbabwe,2022-03-05,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
81974,Zimbabwe,2022-03-06,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."


Ótimo! Agora vamos agrupar as vacinas e contar o país apenas uma vez. Se no dataset tiver um país utilizando duas vacinas, ele vai ser contado duas vezes

In [None]:
vacina_por_pais.groupby('vaccines')['country'].nunique().sort_values(ascending=False)

vaccines
Oxford/AstraZeneca                                                                         20
Johnson&Johnson, Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                              18
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                               16
Oxford/AstraZeneca, Pfizer/BioNTech                                                        11
Moderna, Pfizer/BioNTech                                                                    8
                                                                                           ..
Johnson&Johnson, Pfizer/BioNTech, Sinopharm/Beijing                                         1
Medigen, Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                       1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinopharm/Beijing, Sputnik V                  1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik Light, Sputnik V, ZF2001     1
Sputnik V                                          

In [None]:
vacinas_pais = dataframe.groupby('country')['vaccines'].unique()
vacinas_pais = vacinas_pais.to_frame().reset_index()

Temos a relação entre as vacinas mais utilizadas no mundo. Percebam que a vacina Pfizer/BioNTech contém 26 paises fazendo o seu uso.

# 3. Qual o país possui o maior número de vacinados por dia?

Para obter essa resposta temos que analisar a variável daily_vaccinations

In [None]:
dataframe.groupby('country')['daily_vaccinations'].max().sort_values(ascending=False)

country
China            22424286.0
India            10037995.0
Bangladesh        3758404.0
United States     3503102.0
Pakistan          2175773.0
                    ...    
Saint Helena          165.0
Niue                   87.0
Montserrat             53.0
Tokelau                23.0
Pitcairn                1.0
Name: daily_vaccinations, Length: 223, dtype: float64

# 4. Qual a média de vacinação por país?

In [None]:
media_pais = dataframe.groupby('country')['daily_vaccinations'].mean().sort_values(ascending=False)
media_pais = media_pais.to_frame().reset_index()
media_pais

Unnamed: 0,country,daily_vaccinations
0,China,7.047940e+06
1,India,4.288387e+06
2,United States,1.236654e+06
3,Brazil,9.536354e+05
4,Indonesia,8.356795e+05
...,...,...
218,Wallis and Futuna,3.606433e+01
219,Niue,1.816026e+01
220,Tokelau,1.739823e+01
221,Montserrat,1.099215e+01


Pronto. Todas as perguntas respondidas

Um dos trabalhos de um cientista de dados é extrair, limpar e tratar e gerar novos dados.

Geramos alguns dataframes das perguntas que criamos

1. Imunizados
2. vacinas_por_pais
3. media_pais

Agora vamos criar uma nova base de dados utilizando os dados que tratamos anteriormente

In [None]:
# Renomeando novas colunas das datas
# Vamos iniciar alterando o nome de algumas colunas

media_pais = media_pais.rename(columns={'country': 'pais', 'daily_vaccinations': 'media_vacinacao'})

In [None]:
media_pais

Unnamed: 0,pais,media_vacinacao
0,China,7.047940e+06
1,India,4.288387e+06
2,United States,1.236654e+06
3,Brazil,9.536354e+05
4,Indonesia,8.356795e+05
...,...,...
218,Wallis and Futuna,3.606433e+01
219,Niue,1.816026e+01
220,Tokelau,1.739823e+01
221,Montserrat,1.099215e+01


In [None]:
vacinas_pais = vacinas_pais.rename(columns={'country': 'pais', 'vaccines': 'vacina_utilizada'})
vacinas_pais[:5]

Unnamed: 0,pais,vacina_utilizada
0,Afghanistan,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
1,Albania,"[Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac,..."
2,Algeria,"[Oxford/AstraZeneca, Sinopharm/Beijing, Sinova..."
3,Andorra,"[Moderna, Oxford/AstraZeneca, Pfizer/BioNTech]"
4,Angola,[Oxford/AstraZeneca]


In [None]:
imunizados = imunizados.rename(columns={'country': 'pais', 'total_vaccinations': 'Imunizados'})
imunizados[:5]

Unnamed: 0,pais,Imunizados
0,China,3165486000.0
1,India,1789317000.0
2,United States,555332300.0
3,Brazil,396537300.0
4,Indonesia,353698700.0


# Criando um novo dataset
Para criar um novo dataset (conjunto de dados), vamos utilizar a função merge. Essa função vai comparar os campos das tabelas que são chaves iguais, como o nome do país e realizar uma junção entre as tabelas. Assim vamos ter todos os dados tratados em uma única tabela.

In [None]:
dados_tratados = pd.merge(imunizados, media_pais, how = 'inner')

In [None]:
dados_tratados = pd.merge(dados_tratados, vacinas_pais)
dados_tratados

Unnamed: 0,pais,Imunizados,media_vacinacao,vacina_utilizada
0,China,3.165486e+09,7.047940e+06,"[CanSino, Sinopharm/Beijing, Sinopharm/Wuhan, ..."
1,India,1.789317e+09,4.288387e+06,"[Covaxin, Oxford/AstraZeneca, Sputnik V]"
2,United States,5.553323e+08,1.236654e+06,"[Johnson&Johnson, Moderna, Pfizer/BioNTech]"
3,Brazil,3.965373e+08,9.536354e+05,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
4,Indonesia,3.536987e+08,8.356795e+05,"[Johnson&Johnson, Moderna, Novavax, Oxford/Ast..."
...,...,...,...,...
218,Falkland Islands,4.407000e+03,7.474242e+01,[Oxford/AstraZeneca]
219,Montserrat,4.089000e+03,1.099215e+01,[Oxford/AstraZeneca]
220,Niue,2.628000e+03,1.816026e+01,[Pfizer/BioNTech]
221,Tokelau,1.936000e+03,1.739823e+01,[Pfizer/BioNTech]


Podemos também realizar de forma direta conforme o script abaixo, veja que temos que fazer cada junção de forma separada. Sempre de dentro para fora.

In [None]:
pd.merge(pd.merge(imunizados, media_pais), vacinas_pais)

Unnamed: 0,pais,Imunizados,media_vacinacao,vacina_utilizada
0,China,3.165486e+09,7.047940e+06,"[CanSino, Sinopharm/Beijing, Sinopharm/Wuhan, ..."
1,India,1.789317e+09,4.288387e+06,"[Covaxin, Oxford/AstraZeneca, Sputnik V]"
2,United States,5.553323e+08,1.236654e+06,"[Johnson&Johnson, Moderna, Pfizer/BioNTech]"
3,Brazil,3.965373e+08,9.536354e+05,"[Johnson&Johnson, Oxford/AstraZeneca, Pfizer/B..."
4,Indonesia,3.536987e+08,8.356795e+05,"[Johnson&Johnson, Moderna, Novavax, Oxford/Ast..."
...,...,...,...,...
218,Falkland Islands,4.407000e+03,7.474242e+01,[Oxford/AstraZeneca]
219,Montserrat,4.089000e+03,1.099215e+01,[Oxford/AstraZeneca]
220,Niue,2.628000e+03,1.816026e+01,[Pfizer/BioNTech]
221,Tokelau,1.936000e+03,1.739823e+01,[Pfizer/BioNTech]


# Exportando dados tratados
Pronto! Agora criamos o nosso dataset vamos exportar ele para um arquivo txt.

In [None]:
dados_tratados.to_csv('estatistica_pais.csv', index = True, sep = ';')

In [None]:
dados_tratados.to_json('estatistica.json', orient = 'records')