# Coleta de dados estruturados

Os dados estruturados são provenientes de estruturas definidas, inflexível, pensadas antes mesmo da própria criação dos dados. Exemplo de dados estruturados: Tabelas de banco de dados, planilhas eletrônicas, arquivos de textos como txt e csv.

Nesse exercício vamos inicíar a coleta de dados proveniente de arquivos de texto disponibilizado no site do Kaggle.

A base de dados está disponível no seguinte link: https://www.kaggle.com/gpreda/covid-world-vaccination-progress

**Informação importante:**
Esse dataset é atualizado diariamente. Desta forma, para que os resultados sejam iguais esse exercicio, temos que utilizar o mesmo dataset. O dataset pode ser obtido no arquivo disponbilizado da plataforma do canvas do IGTI ou no github https://github.com/ProfLeandroLessa

O dataset utilizado nesse estudo foi coletado no dia 26/02/2021 às 17:50


In [28]:
# Antes de iniciar a coleta dos dados vamos importar as bibliotecas necessárias.
import pandas as pd
import os 

# Importando dados do arquivo
O primeiro passo é encontrar o local aonde o arquivo a ser trabalho vai estar armazenado. 
Após isso, vamos abrir-lo e em seguida vamos adiciona-lo dentro de um dataframe do pandas.

In [29]:
DIRETORIO = 'C:\\Projetos\\coleta_dados_estruturados\\datasets\\'
arquivo = 'country_vaccinations.csv'
dados = os.path.join(DIRETORIO, arquivo) # busca caminho do arquivo ja com suas conversões


Verifica o caminho do diretorio que o arquivo esta salvo

In [30]:
dados

'C:\\Projetos\\coleta_dados_estruturados\\datasets\\country_vaccinations.csv'

Agora vamos criar um data frame no pandas e ler o arquivo na pasta de origem. 
Para abir o arquivo vamos utilizar o comando read_csv e utiliar o separador ';' de acordo com o dado fornecido. Além disso, temos que utilizar o encoding informando a codigicação do arquivo.

In [31]:
dataframe = pd.read_csv(dados, sep=',', encoding='latin-1')

In [34]:
# Exibe os 5 primeiros regirstros da tabela
dataframe.head(5)

Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
0,Albania,ALB,2021-01-10,0.0,0.0,,,,0.0,0.0,,,Pfizer/BioNTech,Ministry of Health,https://shendetesia.gov.al/covid19-ministria-e...
1,Albania,ALB,2021-01-11,,,,,64.0,,,,22.0,Pfizer/BioNTech,Ministry of Health,https://shendetesia.gov.al/covid19-ministria-e...
2,Albania,ALB,2021-01-12,128.0,128.0,,,64.0,0.0,0.0,,22.0,Pfizer/BioNTech,Ministry of Health,https://shendetesia.gov.al/covid19-ministria-e...
3,Albania,ALB,2021-01-13,188.0,188.0,,60.0,63.0,0.01,0.01,,22.0,Pfizer/BioNTech,Ministry of Health,https://shendetesia.gov.al/covid19-ministria-e...
4,Albania,ALB,2021-01-14,266.0,266.0,,78.0,66.0,0.01,0.01,,23.0,Pfizer/BioNTech,Ministry of Health,https://shendetesia.gov.al/covid19-ministria-e...


# Analisando os dados


## Sobre o dataset

O dataset utilizado é referente a estatistica do número de vacinados da COVID-19 em todos os países do mundo.

Para esse estudo vamos utilizar as váriaveis: 
*county = pais;
date = data;
total_vaccinations = Número total de vacinações ( número absoluto de imunizações totais no país);
daily_vaccinations = Número de vacinados por dia;
Vaccines = vacinas utilizadas no país;
;*


Vamos responder as perguntas:

1. Quais são os países com maior número de pessoas imunizadas?
2. Qual vacina é a mais utilizada no mundo? ** Existem diferentes tipos de vacinas disponível no mundo
3. Qual a país possui o maior número de vacinados por dia?
4. Qual a média de vacinação de vacinação por pais?

Após responder as perguntas vamos exportar as respostas obtidas.


In [36]:
# Verificando dados referênte ao brasil por dia.
dataframe.query('country == "Brazil" ').sort_values('date', ascending=False)[:5]


Unnamed: 0,country,iso_code,date,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million,vaccines,source_name,source_website
573,Brazil,BRA,2021-02-26,8101787.0,6346769.0,1755018.0,302787.0,223804.0,3.81,2.99,0.83,1053.0,"Oxford/AstraZeneca, Sinovac",Regional governments via Coronavirus Brasil,https://coronavirusbra1.github.io/
572,Brazil,BRA,2021-02-25,7799000.0,6202055.0,1596945.0,247324.0,227474.0,3.67,2.92,0.75,1070.0,"Oxford/AstraZeneca, Sinovac",Regional governments via Coronavirus Brasil,https://coronavirusbra1.github.io/
571,Brazil,BRA,2021-02-24,7551676.0,6116082.0,1435594.0,254615.0,238305.0,3.55,2.88,0.68,1121.0,"Oxford/AstraZeneca, Sinovac",Regional governments via Coronavirus Brasil,https://coronavirusbra1.github.io/
570,Brazil,BRA,2021-02-23,7297061.0,6002873.0,1294188.0,268705.0,241018.0,3.43,2.82,0.61,1134.0,"Oxford/AstraZeneca, Sinovac",Regional governments via Coronavirus Brasil,https://coronavirusbra1.github.io/
569,Brazil,BRA,2021-02-22,7028356.0,5857080.0,1171276.0,77554.0,247768.0,3.31,2.76,0.55,1166.0,"Oxford/AstraZeneca, Sinovac",Regional governments via Coronavirus Brasil,https://coronavirusbra1.github.io/


In [37]:
# verificando o número de países distintos na base
dataframe['country'].nunique()

112

**Observem que temos 112 registros de países no nosso dataset**


## 1. Qual o pais com maior número de pessoas imunizadas?

Para que a análise seja realizada de forma correta é necessário analisar profundamente os dados. 
Nessa etapa, precisamos fazer vários testes afim de conhecer melhor os dados.
Perceba que o dataset traz infomação por data de coleta. Dessa forma, temos que filtrar o ultimo registro baseado na data.

Será que essa análise é correta?

Vamos analisar!


In [38]:
#identificando a data mais recente da coleta
ultima_data = dataframe['date'].max()
ultima_data

'2021-02-26'

In [39]:
# filtrando a ultima data
ultima_data = dataframe[dataframe.date == ultima_data]

In [40]:
# O comando shape mostra a quantidade de linhas e colunas dentro de um dataset
ultima_data.shape

(43, 15)

# Atenção!
Perceba que o dataset filtrado pela ultima data retornou (43,15) ou seja 43 linhas e 15 colunas. Isso não esta certo! Pois verificamos que temos 112 países no dataset original. 

Dessa forma, ao filtrar pela última data estamos excluindo registros de outros países que não foram ainda computados na última coleta. 

Para resolver esse problema, temos que selecionar o último registro de data cada país. Assim não vamos deixar nenhum país de fora. 

Vamos fazer um agrupamento do pais e selecionar a última data de atualização que foi realizada

In [41]:
dataframe.groupby('country')['date'].max().sort_values(ascending=False)

country
Zimbabwe           2021-02-26
Hungary            2021-02-26
Lebanon            2021-02-26
Romania            2021-02-26
Portugal           2021-02-26
                      ...    
Myanmar            2021-02-02
Egypt              2021-01-30
Greenland          2021-01-27
Northern Cyprus    2021-01-22
Monaco             2021-01-18
Name: date, Length: 112, dtype: object

Agora vimos que existem de fato países que não possuem a atualização da ultima data da coleta.
Dessa forma, temos que procurar uma outra maneira para obter esses dados.
A variável total_vaccinations contém o total de vacinações naquele país. Ou seja, podemos utilizar ele como parâmetro  para buscar a última data de coleta. 
Desta forma, vamos agrupar por país e pegar o valor máximo obtido nessa variável.


In [42]:
dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)

country
United States          70454064.0
China                  40520000.0
United Kingdom         19913592.0
England                16785841.0
India                  13756940.0
                          ...    
Paraguay                   1000.0
New Zealand                1000.0
Trinidad and Tobago         440.0
Venezuela                   157.0
Saint Helena                107.0
Name: total_vaccinations, Length: 112, dtype: float64

Vamos então criar a lista com os TOP 10 países

In [43]:
imunizados_por_pais = dataframe.groupby('country')['total_vaccinations'].max().sort_values(ascending=False)
imunizados_por_pais

country
United States          70454064.0
China                  40520000.0
United Kingdom         19913592.0
England                16785841.0
India                  13756940.0
                          ...    
Paraguay                   1000.0
New Zealand                1000.0
Trinidad and Tobago         440.0
Venezuela                   157.0
Saint Helena                107.0
Name: total_vaccinations, Length: 112, dtype: float64

In [44]:
type(imunizados_por_pais)

pandas.core.series.Series

Percebam que efetuar uma operação, o seu resultado se transforma em uma série pandas. 

Uma Série Pandas se caracterizada por um array unidimensional capaz de armazenar qualquer tipo de dados com rótulos ou índice de eixo. Um exemplo de um objeto Series é uma coluna de um DataFrame.

Para transformar novamente em um dataframe temos que usar o comando to_frame() e resetar o index.

In [45]:
imunizados = imunizados_por_pais.to_frame().reset_index()
imunizados

Unnamed: 0,country,total_vaccinations
0,United States,70454064.0
1,China,40520000.0
2,United Kingdom,19913592.0
3,England,16785841.0
4,India,13756940.0
...,...,...
107,Paraguay,1000.0
108,New Zealand,1000.0
109,Trinidad and Tobago,440.0
110,Venezuela,157.0


Pronto! Agora temos a relação do número total de imunizados por pais.

Vamos utilizar o metodo sort_values na variável total_vaccinations para ordenar e o parâmetro ascending como False para ordenar do maior para o menor. Além disso, vamos selecionar os 10 primeiros países

In [48]:
imunizados.sort_values('total_vaccinations',ascending=False).head(3)

Unnamed: 0,country,total_vaccinations
0,United States,70454064.0
1,China,40520000.0
2,United Kingdom,19913592.0


## 2. Qual vacina é a mais utilizada no mundo? 

Para descobrir qual vacina mais utilizada no mundo devemos criar um dataframe contendo as vacinas utilizadas por pais. Com isso, vamos ter uma relação com todas as vacinas por pais em uma determinada data.

In [49]:
vacinas_por_pais = dataframe[['country', 'date', 'vaccines']]
vacinas_por_pais


Unnamed: 0,country,date,vaccines
0,Albania,2021-01-10,Pfizer/BioNTech
1,Albania,2021-01-11,Pfizer/BioNTech
2,Albania,2021-01-12,Pfizer/BioNTech
3,Albania,2021-01-13,Pfizer/BioNTech
4,Albania,2021-01-14,Pfizer/BioNTech
...,...,...,...
4375,Zimbabwe,2021-02-22,Sinopharm/Beijing
4376,Zimbabwe,2021-02-23,Sinopharm/Beijing
4377,Zimbabwe,2021-02-24,Sinopharm/Beijing
4378,Zimbabwe,2021-02-25,Sinopharm/Beijing


Ótimo! Agora vamos agrupar as vacinas e contar os pais apenas uma vez. Se no datasert tiver um país utilizando duas vacinas, ele vai ser contato duas vezes.

In [50]:
vacinas_por_pais.groupby('vaccines')['country'].nunique().sort_values(ascending=False)

vaccines
Pfizer/BioNTech                                                                       26
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                                          20
Oxford/AstraZeneca                                                                    15
Sputnik V                                                                             11
Oxford/AstraZeneca, Pfizer/BioNTech                                                   10
Moderna, Pfizer/BioNTech                                                               7
Sinopharm/Beijing                                                                      6
Sinovac                                                                                2
Oxford/AstraZeneca, Sinopharm/Beijing                                                  2
Pfizer/BioNTech, Sinovac                                                               2
Pfizer/BioNTech, Sinopharm/Beijing, Sputnik V                                          2
Sinopharm/Be

In [51]:
vacinas_pais = dataframe.groupby('country')['vaccines'].unique()
vacinas_pais = vacinas_pais.to_frame().reset_index()

Temos a relação entre as vacinas mais utilizadas no mundo. Percebam que a vacina Pfizer/BioNTech contém 26 paises fazendo o seu uso.

## 3. Qual o país possui o maior número de vacinados por dia?

Para obter essa resposta temos que analisar a variável *daily_vaccinations*. 

In [52]:
dataframe.groupby('country')['daily_vaccinations'].max().sort_values(ascending=False)

country
China                  1916190.0
United States          1716311.0
India                   472428.0
United Kingdom          445204.0
Turkey                  435596.0
                         ...    
Andorra                    100.0
Trinidad and Tobago         63.0
Venezuela                   31.0
Greenland                    NaN
Saint Helena                 NaN
Name: daily_vaccinations, Length: 112, dtype: float64

## 4. Qual a média de vacinação de vacinação por pais?

In [53]:
media_pais = dataframe.groupby('country')['daily_vaccinations'].mean().sort_values(ascending=False)
media_pais = media_pais.to_frame().reset_index()
media_pais

Unnamed: 0,country,daily_vaccinations
0,United States,961578.338235
1,China,623616.000000
2,India,298508.476190
3,United Kingdom,255473.256757
4,England,215682.081081
...,...,...
107,Andorra,62.000000
108,Liechtenstein,52.619048
109,Venezuela,31.000000
110,Greenland,


Pronto! Todas as perguntas respondidadas. 

Um dos trabalhos de um cientista de dados é extrair, limpar, tratar e gerar novos dados. 

Geramos alguns dataframes das perguntas que criamos.
1. imunizados
2. vacinas_por_pais
3. media_pais

Agora vamos criar uma nova base de dados utilizando os dados que tratamos anteriormente.

In [54]:
# Renomeando novas colunas dos datas
#Vamos iniciar alterando o nome de algumas colunas

media_pais = media_pais.rename(columns={'country': 'pais','daily_vaccinations': 'media_vacinacao'})

In [55]:
media_pais

Unnamed: 0,pais,media_vacinacao
0,United States,961578.338235
1,China,623616.000000
2,India,298508.476190
3,United Kingdom,255473.256757
4,England,215682.081081
...,...,...
107,Andorra,62.000000
108,Liechtenstein,52.619048
109,Venezuela,31.000000
110,Greenland,


In [56]:
vacinas_pais = vacinas_pais.rename(columns={'country': 'pais', 'vaccines': 'vacina_utilizada'})
vacinas_pais[:5]

Unnamed: 0,pais,vacina_utilizada
0,Albania,[Pfizer/BioNTech]
1,Algeria,[Sputnik V]
2,Andorra,[Pfizer/BioNTech]
3,Anguilla,[Oxford/AstraZeneca]
4,Argentina,[Sputnik V]


In [58]:
imunizados = imunizados.rename(columns={'country': 'pais', 'total_vaccinations': 'Imunizados'})
imunizados[:5]

Unnamed: 0,pais,Imunizados
0,United States,70454064.0
1,China,40520000.0
2,United Kingdom,19913592.0
3,England,16785841.0
4,India,13756940.0


# Criando um novo dataset

Para criar um novo dateset (conjunto de dados), vamos utilizar a função merge. Essa função vai comparar os campos das tabelas que são chaves iguais, como o nome do pais e realizar uma junção entre as tabelas. Assim vamos ter todos os dados tratados em uma única tabela. 

In [60]:
dados_tratados = pd.merge(imunizados, media_pais, how='inner')

In [61]:
dados_tratados = pd.merge(dados_tratados, vacinas_pais)
dados_tratados

Unnamed: 0,pais,Imunizados,media_vacinacao,vacina_utilizada
0,United States,70454064.0,961578.338235,"[Moderna, Pfizer/BioNTech]"
1,China,40520000.0,623616.000000,"[Sinopharm/Beijing, Sinopharm/Wuhan, Sinovac]"
2,United Kingdom,19913592.0,255473.256757,"[Oxford/AstraZeneca, Pfizer/BioNTech]"
3,England,16785841.0,215682.081081,"[Oxford/AstraZeneca, Pfizer/BioNTech]"
4,India,13756940.0,298508.476190,"[Covaxin, Oxford/AstraZeneca]"
...,...,...,...,...
107,Paraguay,1000.0,250.000000,[Sputnik V]
108,New Zealand,1000.0,108.000000,[Pfizer/BioNTech]
109,Trinidad and Tobago,440.0,63.000000,[Oxford/AstraZeneca]
110,Venezuela,157.0,31.000000,[Sputnik V]


Podemos também realizar de forma direta conforme o script abaixo. veja que temos que fazer cada junção de forma separada. Sempre de dentro para fora. 

In [62]:
pd.merge(pd.merge(imunizados, media_pais), vacinas_pais)

Unnamed: 0,pais,Imunizados,media_vacinacao,vacina_utilizada
0,United States,70454064.0,961578.338235,"[Moderna, Pfizer/BioNTech]"
1,China,40520000.0,623616.000000,"[Sinopharm/Beijing, Sinopharm/Wuhan, Sinovac]"
2,United Kingdom,19913592.0,255473.256757,"[Oxford/AstraZeneca, Pfizer/BioNTech]"
3,England,16785841.0,215682.081081,"[Oxford/AstraZeneca, Pfizer/BioNTech]"
4,India,13756940.0,298508.476190,"[Covaxin, Oxford/AstraZeneca]"
...,...,...,...,...
107,Paraguay,1000.0,250.000000,[Sputnik V]
108,New Zealand,1000.0,108.000000,[Pfizer/BioNTech]
109,Trinidad and Tobago,440.0,63.000000,[Oxford/AstraZeneca]
110,Venezuela,157.0,31.000000,[Sputnik V]


# Exportando dados tratados
Pronto! Agora que criamos o nosso dataset vamos exportar ele para um arquivo txt.



In [63]:
dados_tratados.to_csv('estatistica_pais.csv', index= True, sep = ';')

In [None]:
dados_tratados.to_json('estatistica.json', orient = 'records')