<a id='importar-dataset'></a>
# <font color="#0080ff"> Análise exploratória de dados reais do Covid-19 com SQL </font>
<hr color="#F5F5F5" size="1">

<strong>Utilizando o MySQL Workbench</strong>

Este projeto foi desenvolvido durante o curso de SQL da Data Science Academy **[DSA](https://www.datascienceacademy.com.br/)**

**Por: [Rodrigo Xavier dos Santos](https://www.linkedin.com/in/rodrigo-xavier-dos-santos-75174110a/)**

![title](corona.jpg)

<div style="display:inline-block;vertical-align:top;">
<h2>Sumário:</h2>
<ul>
    <li><a href="#contexto-projeto">Sobre o Contexto do Projeto </a></li>
    <li><a href="#carregando-dados">Carregando os dados</a></li>
     <li><a href="#reconhecimento-dados">Reconhecimento e alteração dos dados</a></li>
    <li><a href="#analise">Análise exploratória</a></li>
     <li><a href="#entrega">Entrega dos resultados</a></li>
</ul>
</div>

<a id='contexto-projeto'></a>
## <font color="#0080ff"> Sobre o contexto do projeto</font>
<hr color="#F5F5F5" size="1">

A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de doença por coronavírus 2019 <strong>(COVID-19)</strong>, uma doença respiratória causada pelo coronavírus da síndrome respiratória aguda grave 2 <strong>(SARS-CoV-2)</strong>. O vírus tem origem zoonótica e o primeiro caso conhecido da doença remonta a dezembro de 2019 em Wuhan, na China.Em 20 de janeiro de 2020, a Organização Mundial da Saúde (OMS) classificou o surto como Emergência de Saúde Pública de Âmbito Internacional e, em 11 de março de 2020, como pandemia. Em 31 de agosto de 2022, 602 232 199 casos foram confirmados em 192 países e territórios, com 6 490 723 mortes atribuídas à doença, tornando-se uma das pandemias mais mortais da história.

<div class="alert alert-info"> 
<strong><div style="color: rgb(0, 0, 0);">📌 Os principais objetivos na aprendizagem deste projeto: </div></strong> <br>
<div style="color: rgb(0, 0, 0);">→ Realizar a exploração e alteração dos dados; </div>
<div style="color: rgb(0, 0, 0);">→ Responder a perguntas de negócios; e</div>
<div style="color: rgb(0, 0, 0);">→ Criar consultas no SGBD para os stakeholders.</div>
</div>

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">A fonte de dados:</div></strong> <br>
    <div style="color: rgb(0, 0, 0);"> → A fonte de dados contém vários arquivos, com dados reais de diversos países. Para este estudo de caso, iremos utilizar só dois arquivos, com um período reduzido entre as datas. De <strong>01/01/2020 à 29/06/2021</strong>.

A fonte de dados completa e seu dicionário de dados pode ser baixado em **[Our World in Data](https://ourworldindata.org/covid-deaths)**
</div>

<a id='carregando-dados'></a>
## <font color="#0080ff"> 1 - Carregando os dados</font>
<hr color="#F5F5F5" size="1">

<a id='detectar-nulo'></a>
### <font color="#0080ff"> 1.1 Carregando os dados via linha de comando no Prompt </font>
<hr color="#F5F5F5" size="1">

In [None]:
# Conectando no MySQL via linha de comando

# LINUX ou MacOS
/usr/local/mysql/bin/mysql --local-infile=1 -u root -p

# Windows
mysql --local-infile=1 -u root -p

# Criando o schema
CREATE SCHEMA `cap07` DEFAULT CHARACTER SET utf8 ;

# Definindo o previlégio necessário para a carga de dados via linha de comando
SET GLOBAL local_infile = true;

# Criando a primeira tabela
CREATE TABLE cap07.covid_mortes (
  `iso_code` text,
  `continent` text,
  `location` text,
  `date` text,
  `population` text,
  `total_cases` text,
  `new_cases` text,
  `new_cases_smoothed` text,
  `total_deaths` text,
  `new_deaths` text,
  `new_deaths_smoothed` text,
  `total_cases_per_million` text,
  `new_cases_per_million` text,
  `new_cases_smoothed_per_million` text,
  `total_deaths_per_million` text,
  `new_deaths_per_million` text,
  `new_deaths_smoothed_per_million` text,
  `reproduction_rate` text,
  `icu_patients` text,
  `icu_patients_per_million` text,
  `hosp_patients` text,
  `hosp_patients_per_million` text,
  `weekly_icu_admissions` text,
  `weekly_icu_admissions_per_million` text,
  `weekly_hosp_admissions` text,
  `weekly_hosp_admissions_per_million` text
);

# Criando a segunda tabela
CREATE TABLE cap07.covid_vacinacao (
  `iso_code` text,
  `continent` text,
  `location` text,
  `date` text,
  `new_tests` text,
  `total_tests` text,
  `total_tests_per_thousand` text,
  `new_tests_per_thousand` text,
  `new_tests_smoothed` text,
  `new_tests_smoothed_per_thousand` text,
  `positive_rate` text,
  `tests_per_case` text,
  `tests_units` text,
  `total_vaccinations` text,
  `people_vaccinated` text,
  `people_fully_vaccinated` text,
  `new_vaccinations` text,
  `new_vaccinations_smoothed` text,
  `total_vaccinations_per_hundred` text,
  `people_vaccinated_per_hundred` text,
  `people_fully_vaccinated_per_hundred` text,
  `new_vaccinations_smoothed_per_million` text,
  `stringency_index` text,
  `population_density` text,
  `median_age` text,
  `aged_65_older` text,
  `aged_70_older` text,
  `gdp_per_capita` text,
  `extreme_poverty` text,
  `cardiovasc_death_rate` text,
  `diabetes_prevalence` text,
  `female_smokers` text,
  `male_smokers` text,
  `handwashing_facilities` text,
  `hospital_beds_per_thousand` text,
  `life_expectancy` text,
  `human_development_index` text,
  `excess_mortality` text
);

# Carrega os dados
LOAD DATA LOCAL INFILE 'C:\AnaliseDados\SQL\cap07\EstudoCaso1\covid_mortes.csv' INTO TABLE `cap07`.`covid_mortes` CHARACTER SET UTF8
FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY '\r\n' IGNORE 1 LINES;

LOAD DATA LOCAL INFILE 'C:\AnaliseDados\SQL\cap07\EstudoCaso1\covid_vacinacao.csv' INTO TABLE `cap07`.`covid_vacinacao` CHARACTER SET UTF8
FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY '\r\n' IGNORE 1 LINES;

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Importante:</div></strong> <br>
    <div style="color: rgb(0, 0, 0);">Todas as colunas das tabelas foram criadas com o tipo texto, para evitar erros no Workbench. Porém iremos identificar, e alterar os tipos conforme o dado de cada coluna. </div>
</div>

<a id='reconhecimento-dados'></a>
## <font color="#0080ff"> 2 - Reconhecimento e alteração dos dados</font>
<hr color="#F5F5F5" size="1">

<a id='detectar-nulo'></a>
### <font color="#0080ff"> 2.1 Reconhecimento dos dados </font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Importante:</div></strong> <br>
    <div style="color: rgb(0, 0, 0);">Os dados em branco na tabela se referem ao período sem registro de morte, comparado ao início da pandemia, ou seja, em cada país, o primeiro registro de morte foi registrado em períodos diferente, conforme o COVID-19 se espalhava pelo mundo. Da mesma forma, os registros referente a vacinação, seguem a mesma lógica. Sendo assim, não foi necessário tratar os registros ausentes.</div>
</div>

<strong>Consultando a tabela de mortes</strong>

SELECT * FROM cap07.covid_mortes;

![title](3.png)

<strong>Consultando a tabela de vacinação</strong>

SELECT * FROM cap07.covid_vacinacao;

![title](2.png)

<strong>Total de registros</strong>

SELECT COUNT(*) FROM cap07.covid_mortes;

![title](1_1.png)

In [None]:
SELECT COUNT(*) FROM cap07.covid_vacinacao;

![title](1_1.png)

<a id='detectar-nulo'></a>
### <font color="#0080ff"> 2.2 Alteração dos dados </font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Importante:</div></strong> <br>
    <div style="color: rgb(0, 0, 0);">Como todas as colunas estão no formato texto, necessitamos alterar as colunas de data para o formato correto. Para isso, necessitamos primeiro habilitar a permissão no SGBD e depois alterar com UPDATE.</div>
</div>

In [None]:
# Vamos habilitar a permissão no SGBD
SET SQL_SAFE_UPDATES = 0;

# Vamos alterar a data para o formato adequado na tabela covid_mortes
UPDATE cap07.covid_mortes 
SET date = str_to_date(date,'%d/%m/%y');

# Vamos alterar a data para o formato adequado na tabela covid_vacinacao
UPDATE cap07.covid_vacinacao 
SET date = str_to_date(date,'%d/%m/%y');

# Vamos desabilitar a permissão no SGBD
SET SQL_SAFE_UPDATES = 1;

<a id='analise'></a>
## <font color="#0080ff"> 3 - Análise exploratória</font>
<hr color="#F5F5F5" size="1">

<a id='detectar-nulo'></a>
### <font color="#0080ff"> 3.1 Retornando as variáveis mais relevantes para a análise </font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT date,
       location,
       total_cases,
       new_cases,
       total_deaths,
       population 
FROM cap07.covid_mortes 
ORDER BY 2,1;

![title](4.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Descrição das Variáveis mais relevantes</font>
<hr color="#F5F5F5" size="1">

| Variável | Descrição |
| --- | --- |
| **Date** | Data do registro. |
| **Location** | O país no qual se refere o registro dos dados. |
| **Total_cases** | Número total de casos. |
| **New_cases** | Número total de novos casos. |
| **Total_deaths** | Número total de mortos. |
| **Population** | A população do país |

<a id='detectar-nulo'></a>
### <font color="#0080ff"> 3.2 Explorando e respondendo perguntas </font>
<hr color="#F5F5F5" size="1">

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual a média de mortos e de novos casos por país?</font>
<hr color="#F5F5F5" size="1">

In [None]:
# Análise univariada, analisando uma variável de forma independente

SELECT location,
       AVG(total_deaths) AS MediaMortos,
       AVG(new_cases) AS MediaNovosCasos
FROM cap07.covid_mortes 
GROUP BY location
ORDER BY MediaMortos DESC;

![title](6.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual a proporção de mortes em relação ao total de casos no Brasil?</font>
<hr color="#F5F5F5" size="1">

In [None]:
# Análise Mutivariada, analisando uma variável em relação a outra

SELECT date,
       location, 
       total_cases,
       total_deaths,
       (total_deaths / total_cases) * 100 AS PercentualMortes
FROM cap07.covid_mortes  
WHERE location = "Brazil" 
ORDER BY 2,1;

![title](7.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual a proporção média entre o total de casos e a população de cada localidade?</font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT location,
       AVG((total_cases / population) * 100) AS PercentualPopulacao
FROM cap07.covid_mortes  
GROUP BY location
ORDER BY PercentualPopulacao DESC;

![title](8.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Considerando o maior valor do total de casos, quais os países com a maior taxa de infecção em relação à população?</font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT location, 
       MAX(total_cases) AS MaiorContagemInfec,
       MAX((total_cases / population)) * 100 AS PercentualPopulacao
FROM cap07.covid_mortes 
WHERE continent IS NOT NULL 
GROUP BY location, population 
ORDER BY PercentualPopulacao DESC;

![title](9.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Quais os países com o maior número de mortes?</font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT location, 
       MAX(total_cases) AS MaiorContagemInfec,
       MAX((total_cases / population)) * 100 AS PercentualPopulacao
FROM cap07.covid_mortes 
WHERE continent IS NOT NULL 
GROUP BY location, population 
ORDER BY PercentualPopulacao DESC;

![title](10.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual o percentual de mortes por dia?</font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT date,
       SUM(new_cases) as total_cases, 
       SUM(CAST(new_deaths AS UNSIGNED)) as total_deaths, 
       COALESCE((SUM(CAST(new_deaths AS UNSIGNED)) / SUM(new_cases)) * 100, 'NA') as PercentMortes
FROM cap07.covid_mortes 
WHERE continent IS NOT NULL 
GROUP BY date 
ORDER BY 1,2;

![title](11.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual o número de novos vacinados e a média móvel de novos vacinados ao longo do tempo por localidade?</font>
<hr color="#F5F5F5" size="1">

In [None]:
# Considerando apenas os dados da América do Sul

SELECT mortos.continent,
       mortos.location,
       mortos.date,
       vacinados.new_vaccinations,
       AVG(CAST(vacinados.new_vaccinations AS UNSIGNED)) OVER (PARTITION BY mortos.location ORDER BY mortos.date) as MediaMovelVacinados
FROM cap07.covid_mortes mortos 
JOIN cap07.covid_vacinacao vacinados
ON mortos.location = vacinados.location 
AND mortos.date = vacinados.date
WHERE mortos.continent = 'South America'
ORDER BY 2,3;

![title](12.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Qual o percentual da população com pelo menos 1 dose da vacina ao longo do tempo?</font>
<hr color="#F5F5F5" size="1">

In [None]:
# Considerando apenas os dados do Brasil
# Usando Common Table Expressions (CTE) 

WITH PopvsVac (continent,location, date, population, new_vaccinations, TotalMovelVacinacao) AS
(
SELECT mortos.continent,
       mortos.location,
       mortos.date,
       mortos.population,
       vacinados.new_vaccinations,
       SUM(CAST(vacinados.new_vaccinations AS UNSIGNED)) OVER (PARTITION BY mortos.location ORDER BY mortos.date) AS TotalMovelVacinacao
FROM cap07.covid_mortes mortos 
JOIN cap07.covid_vacinacao vacinados 
ON mortos.location = vacinados.location 
AND mortos.date = vacinados.date
WHERE mortos.location = 'Brazil'
)
SELECT *, (TotalMovelVacinacao / population) * 100 AS Percentual_1_Dose FROM PopvsVac;

![title](13.png)

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Durante o mês de Maio/2021 o percentual de vacinados com pelo menos uma dose aumentou ou diminuiu no Brasil?</font>
<hr color="#F5F5F5" size="1">

In [None]:
WITH PopvsVac (continent, location, date, population, new_vaccinations, TotalMovelVacinacao) AS
(
SELECT mortos.continent,
       mortos.location,
       mortos.date,
       mortos.population,
       vacinados.new_vaccinations,
       SUM(CAST(vacinados.new_vaccinations AS UNSIGNED)) OVER (PARTITION BY mortos.location ORDER BY mortos.date) AS TotalMovelVacinacao
FROM cap07.covid_mortes mortos 
JOIN cap07.covid_vacinacao vacinados 
ON mortos.location = vacinados.location 
AND mortos.date = vacinados.date
WHERE mortos.location = 'Brazil'
)
SELECT *, (TotalMovelVacinacao / population) * 100 AS Percentual_1_Dose 
FROM PopvsVac
WHERE DATE_FORMAT(date, "%M/%Y") = 'May/2021'
AND location = 'Brazil';

![title](14.png)

<a id='entrega'></a>
## <font color="#0080ff"> 4 - Entregando o resultado da análise</font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-success"> 
    <strong><div style="color: rgb(0, 0, 0);"><strong>Importante:</strong></div></strong> <br>
     <div style="color: rgb(0, 0, 0);">→ Para entregar o resultado das análises, iremos criar no SGBD algumas VIEWs das consultas que fizemos na análise exploratória. Assim com uma única linha de código será possível fazer algumas consultas mais complexas.
    </div>
</div>

In [None]:
CREATE OR REPLACE VIEW cap07.PercentualPopVac AS 
WITH PopvsVac (continent, location, date, population, new_vaccinations, TotalMovelVacinacao) AS
(
SELECT mortos.continent,
       mortos.location,
       mortos.date,
       mortos.population,
       vacinados.new_vaccinations,
       SUM(CAST(vacinados.new_vaccinations AS UNSIGNED)) OVER (PARTITION BY mortos.location ORDER BY mortos.date) AS TotalMovelVacinacao
FROM cap07.covid_mortes mortos 
JOIN cap07.covid_vacinacao vacinados 
ON mortos.location = vacinados.location 
AND mortos.date = vacinados.date
WHERE mortos.location = 'Brazil'
)
SELECT *, (TotalMovelVacinacao / population) * 100 AS Percentual_1_Dose 
FROM PopvsVac
WHERE location = 'Brazil';

<a id='descricao-variaveis'></a>
#### <font color="#000000"> Consultando com apenas uma linha de código, após a criação da VIEW</font>
<hr color="#F5F5F5" size="1">

In [None]:
SELECT * FROM cap07.percentualpopvac;

![title](15.png)

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 Idéia</div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Após a criação das consultas no banco de dados, fica fácil a utilização dos dados em ferramentas como Power BI e semelhantes.</div>         
</div>