# Coleta de dados estruturados
Os dados estruturados são provenientes de estruturas definidas, inflexível, pensadas antes mesmo da própria criação dos dados. Exemplo de dados estruturados: Tabelas de bancos de dados, planilhas eletrônicas, arquivos de textos como txt e csv.

Nesse exercício vamos iniciar a coleta de dados proveniente de arquivos de texto disponibilizado no site do Kaggle.

A base de dados está disponível no seguinte link: https://www.kaggle.com/datasets/gpreda/covid-world-vaccination-progress

In [1]:
# Antes de iniciar a coleta dos dados vamos importar as bibliotecas necessárias.
import pandas as pd
import os

# Importando dados do arquivo

O primeiro passo é encontrar o local aonde o arquivo a ser trabalhado vai estar armazenado. Após isso, vamos abrir-lo e em seguida vamos adiciona-lo dentro de um dataframe do pandas.

In [2]:
DIRETORIO = 'C:\\workspace\\workspace-xpe\\Projetos\\coleta_dados_estruturados\\datasets'
arquivo = 'country_vaccinations.csv'
dados = os.path.join(DIRETORIO, arquivo)

Verifica o caminho do diretorio que o arquivo esta salvo

In [3]:
dados

'C:\\workspace\\workspace-xpe\\Projetos\\coleta_dados_estruturados\\datasets\\country_vaccinations.csv'

Agora vamos criar um data frame no pandas e ler o arquivo na pasta de origem. Para abrir o arquivo vamos utilizar o comando read_csv e utilizar o separados ',' de acordo com o dado fornecido. Além disso, temos que utilizar o encoding informando a codificação do arquivo.

In [4]:
dataframe = pd.read_csv(dados, sep = ',', encoding = 'latin-1')

In [5]:
# Exibe os 5 primeiros registros da tabela
dataframe.head(5)

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
0,Afghanistan,AFG,2021-02-22,0.0,0.0,,,,0.0,0.0,,,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
1,Afghanistan,AFG,2021-02-23,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
2,Afghanistan,AFG,2021-02-24,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
3,Afghanistan,AFG,2021-02-25,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/
4,Afghanistan,AFG,2021-02-26,,,,,1367.0,,,,34.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",World Health Organization,https://covid19.who.int/


# Analisando os dados 

## Sobre o dataset

O dataset utilizado é referente a estatistica do número de vacinados da COVID-19 em todos os paises do mundo.

Para esse estudo vamos utilizar as variáveis: country = pais; date = data; total_vaccinations = Número total de vacinações (Número absoluto de imunizações totais no país); daily_vaccinations = Número de vacinados por dia; Vaccines = Vacinas utilizadas no país;

Vamos responder as perguntas:

1. Quais são os países com maior número de pessoas imunizadas ?
2. Qual é a vacina mais utilizada no mundo ? ** Existem diferentes tipos de vacinas disponível no mundo.
3. Qual país possui o maior número de vacinados por dia ?
4. Qual a média de vacinação por país ?

Após responder as perguntas vamos exportar as respostas obtidas.





In [6]:
# Verificando dados referentes ao brasil por dia.
dataframe.query('country == "Brazil" ').sort_values('date', ascending=False)[:2]

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
11085,Brazil,BRA,2022-03-29,413559595.0,181078067.0,160272858.0,1382570.0,656803.0,193.26,84.62,74.9,3069.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io
11084,Brazil,BRA,2022-03-28,412177025.0,180881628.0,160008924.0,628823.0,546999.0,192.61,84.53,74.77,2556.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi...",State governments via coronavirusbra1.github.io,https://coronavirusbra1.github.io


In [7]:
# Verificando o número de países distintos na base
dataframe['country'].nunique()

223

*Temos 223 registros de países no nosso dataset*

# 1. Qual o país com maior número de pessoas imunizadas ?

Para que a análise seja realizada de forma correta é necessário analisar profundamente os dados. Nessa etapa, precisamos fazer vários testes afim de conhecer melhor os dados. Perceba que o dataset traz informação por data de coleta. Dessa forma, temos que filtrar o último registro baseado na data.

Será que a análise é correta ?

In [9]:
# Identificando a data mais recente da coleta
ultima_data = dataframe['date'].max()
ultima_data

'2022-03-29'

In [10]:
# Filtrando a ultima data
ultima_data = dataframe[dataframe.date == ultima_data]

In [11]:
# O comando shape mostra a quantidade de linhas e colunas dentro de um dataset
ultima_data.shape

(54, 15)

# Atenção!

Perceba que o dataset filtrado pela última data retornou (54, 15) ou seja 54 linhas e 15 colunas. Isso não está certo ! Pois verificamos que temos 223 países no dataset original.

Dessa forma, ao filtrar pela última data estamos excluindo registros de outros paises que não foram ainda computados na última coleta.
Para resolver esse problema, temos que selecionar o último registro de data de cada pais. Assim não vamos deixar nenhum país de fora.

Vamos fazer um agrupamento do pais e selecionar a última data de atualização que foi realizada.

In [12]:
dataframe.groupby('country')['date'].max().sort_values(ascending=False)

country
Lebanon                            2022-03-29
Lithuania                          2022-03-29
Kosovo                             2022-03-29
Kazakhstan                         2022-03-29
Japan                              2022-03-29
                                      ...    
Pitcairn                           2021-09-07
Turkmenistan                       2021-09-05
Bonaire Sint Eustatius and Saba    2021-09-01
Saint Helena                       2021-05-05
Falkland Islands                   2021-04-14
Name: date, Length: 223, dtype: object

**Agora vimos que existem de fato países que não possuem a atualização da última data da coleta. Dessa forma, temos que procurar uma outra maneira para obter esses dados. A variável total_vaccinations contém o total de vacinações naquele país. Ou seja, podemos utilizar ele como parâmetro para buscar a última data de coleta. Desta forma, vamos agrupar por país e pegar o valor máximo obtido nessa variável.**

In [13]:
dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)

country
China               3.263129e+09
India               1.834501e+09
United States       5.601818e+08
Brazil              4.135596e+08
Indonesia           3.771089e+08
                        ...     
Falkland Islands    4.407000e+03
Montserrat          4.211000e+03
Niue                4.161000e+03
Tokelau             1.936000e+03
Pitcairn            9.400000e+01
Name: total_vaccinations, Length: 223, dtype: float64

Vamos então criar a lista com os TOP 10 países

In [14]:
imunizados_por_pais = dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)
imunizados_por_pais

country
China               3.263129e+09
India               1.834501e+09
United States       5.601818e+08
Brazil              4.135596e+08
Indonesia           3.771089e+08
                        ...     
Falkland Islands    4.407000e+03
Montserrat          4.211000e+03
Niue                4.161000e+03
Tokelau             1.936000e+03
Pitcairn            9.400000e+01
Name: total_vaccinations, Length: 223, dtype: float64

In [15]:
type(imunizados_por_pais)

pandas.core.series.Series

Percebam que efetuar uma operação, o seu resultado se transforma em uma série pandas.
Uma série pandas se caracteriza por um array unidimensional capaz de armazenar qualquer tipo de dados com rótulos ou índice de eixo. Um exemplo de objeto Series é uma coluna de um DataFrame.

Para transformar novamente em um dataframe temos que usar o comando to_frame() e resetar o index.


In [17]:
imunizados = imunizados_por_pais.to_frame().reset_index()
imunizados

Unnamed: 0,country,total_vaccinations
0,China,3.263129e+09
1,India,1.834501e+09
2,United States,5.601818e+08
3,Brazil,4.135596e+08
4,Indonesia,3.771089e+08
...,...,...
218,Falkland Islands,4.407000e+03
219,Montserrat,4.211000e+03
220,Niue,4.161000e+03
221,Tokelau,1.936000e+03


Pronto! Agora temos a relação do número total de imunizados por país.

Vamos utilizar o método sort_values na variável total_vaccinations para ordenar e o parâmetro ascending como False para ordenar do maior para o menor.
Além disso. Vamos selecionar os 10 primeiros países.

In [19]:
imunizados.sort_values('total_vaccinations', ascending=False).head(10)

Unnamed: 0,country,total_vaccinations
0,China,3263129000.0
1,India,1834501000.0
2,United States,560181800.0
3,Brazil,413559600.0
4,Indonesia,377108900.0
5,Japan,254345600.0
6,Bangladesh,243642700.0
7,Pakistan,219368600.0
8,Vietnam,203144400.0
9,Mexico,191907900.0


# 2. Qual vacina é mais utilizada no mundo ?

Para descobrir qual vacina mais utilizada no mundo devemos criar um dataframe contendo as vacinas utilizadas por pais. Com isso, vamos ter uma relação com todas as vacinas por pais em uma determinada data.

In [20]:
vacinas_por_pais = dataframe[['country', 'date', 'vaccines']]
vacinas_por_pais

Unnamed: 0,country,date,vaccines
0,Afghanistan,2021-02-22,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
1,Afghanistan,2021-02-23,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
2,Afghanistan,2021-02-24,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
3,Afghanistan,2021-02-25,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
4,Afghanistan,2021-02-26,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
...,...,...,...
86507,Zimbabwe,2022-03-25,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86508,Zimbabwe,2022-03-26,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86509,Zimbabwe,2022-03-27,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."
86510,Zimbabwe,2022-03-28,"Oxford/AstraZeneca, Sinopharm/Beijing, Sinovac..."


Ótimo! Agora vamos agrupar as vacinas e contar os paises apenas uma vez. Se no dataset tiver um pais utilizando duas vacinas, ele vai ser contado duas vezes.

In [21]:
vacinas_por_pais.groupby('vaccines')['country'].nunique().sort_values(ascending=False)

vaccines
Oxford/AstraZeneca                                                                                    20
Johnson&Johnson, Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                         17
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                                          15
Oxford/AstraZeneca, Pfizer/BioNTech                                                                   11
Johnson&Johnson, Moderna, Novavax, Oxford/AstraZeneca, Pfizer/BioNTech                                 8
                                                                                                      ..
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinopharm/Beijing, Sinovac                               1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik Light, Sputnik V, ZF2001                1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik V                                       1
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech, 

In [22]:
vacinas_pais = dataframe.groupby('country')['vaccines'].nunique()
vacinas_pais = vacinas_pais.to_frame().reset_index()

Temos a relação entre as vacinas mais utilizadas no mundo. Percebam que a vacina Pfizer/BioNTech contém 17 paises fazendo o seu uso.

# 3. Qual o país possui o maior número de vacinados por dia ?
Para obter essa resposta temos que analisar a variável daily_vaccinations

In [23]:
dataframe.groupby('country')['daily_vaccinations'].max().sort_values(ascending=False)

country
China            22424286.0
India            10037995.0
Bangladesh        3758404.0
United States     3506960.0
Pakistan          2175773.0
                    ...    
Saint Helena          165.0
Niue                   87.0
Montserrat             53.0
Tokelau                23.0
Pitcairn                1.0
Name: daily_vaccinations, Length: 223, dtype: float64

# 4. Qual a média de vacinação diária por país ?

In [25]:
media_pais = dataframe.groupby('country')['daily_vaccinations'].mean().sort_values(ascending=False)
media_pais = media_pais.to_frame().reset_index()
media_pais

Unnamed: 0,country,daily_vaccinations
0,China,6.930368e+06
1,India,4.175994e+06
2,United States,1.191727e+06
3,Brazil,9.435287e+05
4,Indonesia,8.462893e+05
...,...,...
218,Wallis and Futuna,3.388649e+01
219,Tokelau,1.739823e+01
220,Niue,1.631698e+01
221,Montserrat,1.053659e+01


Pronto! Todas as perguntas respondidas.

Um dos trabalhos de um cientista de dados é extrair, limpar, tratar e gerar novos dados.

Geramos alguns dataframes das perguntas que criamos:

1. imunizados
2. vacinas_por_pais
3. media_pais

Agora vamos criar uma nova base de dados utilizando os dados que tratamos anteriormente.


In [27]:
# Renomeando novas colunas de datas
# vamos iniciar alterando o nome de algumas colunas

media_pais = media_pais.rename(columns={'country': 'pais', 'daily_vaccinations': 'media_vacinacao'})
media_pais

Unnamed: 0,pais,media_vacinacao
0,China,6.930368e+06
1,India,4.175994e+06
2,United States,1.191727e+06
3,Brazil,9.435287e+05
4,Indonesia,8.462893e+05
...,...,...
218,Wallis and Futuna,3.388649e+01
219,Tokelau,1.739823e+01
220,Niue,1.631698e+01
221,Montserrat,1.053659e+01


In [29]:
vacinas_pais = vacinas_pais.rename(columns={'country': 'pais', 'vaccines': 'vacinas_utilizadas'})
vacinas_pais[:5]

Unnamed: 0,pais,vacinas_utilizadas
0,Afghanistan,1
1,Albania,1
2,Algeria,1
3,Andorra,1
4,Angola,1


In [31]:
imunizados = imunizados.rename(columns={'country': 'pais', 'total_vaccinations': 'Imunizados'})
imunizados[:5]

Unnamed: 0,pais,Imunizados
0,China,3263129000.0
1,India,1834501000.0
2,United States,560181800.0
3,Brazil,413559600.0
4,Indonesia,377108900.0


# Criando um novo dataset

Para criar um novo dataset (Conjunto de dados) vamos utilizar a função merge. Essa função vai comparar os campos das tabelas que são chaves iguais.
Como o nome do pais e realizar a junção entre as tabelas. Assim vamos ter todos os dados tratados em uma única tabela.

In [32]:
dados_tratados = pd.merge(imunizados, media_pais, how='inner')

In [33]:
dados_tratados = pd.merge(dados_tratados, vacinas_pais)
dados_tratados

Unnamed: 0,pais,Imunizados,media_vacinacao,vacinas_utilizadas
0,China,3.263129e+09,6.930368e+06,1
1,India,1.834501e+09,4.175994e+06,1
2,United States,5.601818e+08,1.191727e+06,1
3,Brazil,4.135596e+08,9.435287e+05,1
4,Indonesia,3.771089e+08,8.462893e+05,1
...,...,...,...,...
218,Falkland Islands,4.407000e+03,7.474242e+01,1
219,Montserrat,4.211000e+03,1.053659e+01,1
220,Niue,4.161000e+03,1.631698e+01,1
221,Tokelau,1.936000e+03,1.739823e+01,1


Podemos também realizar de forma direta conforme o script abaixo: Veja que temos que fazer cada junção de forma separada. Sempre de dentro para fora.

In [34]:
pd.merge(pd.merge(imunizados, media_pais), vacinas_pais)

Unnamed: 0,pais,Imunizados,media_vacinacao,vacinas_utilizadas
0,China,3.263129e+09,6.930368e+06,1
1,India,1.834501e+09,4.175994e+06,1
2,United States,5.601818e+08,1.191727e+06,1
3,Brazil,4.135596e+08,9.435287e+05,1
4,Indonesia,3.771089e+08,8.462893e+05,1
...,...,...,...,...
218,Falkland Islands,4.407000e+03,7.474242e+01,1
219,Montserrat,4.211000e+03,1.053659e+01,1
220,Niue,4.161000e+03,1.631698e+01,1
221,Tokelau,1.936000e+03,1.739823e+01,1


# Exportando dados tratados

In [37]:
# Exportação de dados em CSV
dados_tratados.to_csv('estatisticas_pais.csv', index=True, sep=';')

In [38]:
# Exportação de dados em JSON
dados_tratados.to_json('estatistica.json', orient = 'records')