## 10 Exercícios de SQL para Praticar (Base de Dados COVID-19 Limpa)

Utilize a tabela `covid_data_limpo` (criada no passo anterior) para responder aos seguintes exercícios de consulta SQL no Jupyter Notebook com Pandas.

**Conecte-se ao banco de dados (se ainda não estiver conectado) e carregue a tabela:**

In [None]:
import sqlite3
import pandas as pd

DATABASE_NAME = '../output/covid_data_limpo.db'
conn = sqlite3.connect(DATABASE_NAME)

df_limpo = pd.read_sql_query("SELECT * FROM covid_data_limpo", conn)

# Para executar as queries diretamente no banco de dados:
def execute_query(query):
    return pd.read_sql_query(query, conn)


**Exercícios:**


- [ ] 1.  **Seleção Básica:** Liste as colunas `date`, `confirmed` e `deaths` da tabela.


In [None]:
# Exercício 1
query_1 = """
SELECT date, confirmed, deaths FROM covid_data_limpo
"""
df_ex1 = execute_query(query_1)
print("Exercício 1:")
print(df_ex1)

Exercício 1:
            date  confirmed  deaths
0     2020-02-25          1       0
1     2020-02-26          1       0
2     2020-02-27          1       0
3     2020-02-28          2       0
4     2020-02-29          2       0
...          ...        ...     ...
1118  2023-03-19    6469442  179039
1119  2023-03-20    6469442  179039
1120  2023-03-21    6469442  179039
1121  2023-03-22    6469442  179039
1122  2023-03-23    6469442  179039

[1123 rows x 3 columns]


- [ ] 2.  **Filtragem (WHERE):** Liste todas as linhas onde o número de mortes (`deaths`) foi maior que 10000.


In [None]:
# Exercício 2
query_2 = """
SELECT 
    date,
    deaths
FROM 
    covid_data_limpo 
WHERE 
    deaths > 10000
"""
df_ex2 = execute_query(query_2)
print("\nExercício 2:")
print(df_ex2.head())


Exercício 2:
         date  deaths
0  2020-06-11   10145
1  2020-06-12   10368
2  2020-06-13   10581
3  2020-06-14   10694
4  2020-06-15   10767


- [ ] 3.  **Ordenação (ORDER BY):** Liste as datas e o número de casos confirmados, ordenando os resultados pela data em ordem crescente.


In [None]:
# Exercício 3
query_3 = """
SELECT 
    date,
    confirmed 
FROM 
    covid_data_limpo 
ORDER BY 
    date
"""
df_ex3 = execute_query(query_3)
print("\nExercício 3:")
print(df_ex3.head())


Exercício 3:
         date  confirmed
0  2020-02-25          1
1  2020-02-26          1
2  2020-02-27          1
3  2020-02-28          2
4  2020-02-29          2


- [ ] 4.  **Limitar Resultados (LIMIT):** Liste as 10 primeiras linhas da tabela, mostrando as colunas `date` e `confirmed`.


In [9]:
# Exercício 4
query_4 = """
SELECT 
    date,
    confirmed 
FROM 
    covid_data_limpo 
LIMIT 
    10
"""
df_ex4 = execute_query(query_4)
print("\nExercício 4:")
print(df_ex4)


Exercício 4:
         date  confirmed
0  2020-02-25          1
1  2020-02-26          1
2  2020-02-27          1
3  2020-02-28          2
4  2020-02-29          2
5  2020-03-01          2
6  2020-03-02          2
7  2020-03-03          2
8  2020-03-04          3
9  2020-03-05          6


- [ ] 5.  **Valores Distintos (DISTINCT):** Liste todos os valores distintos da coluna `school_closing`.


In [10]:
# Exercício 5
query_5 = """
SELECT 
    DISTINCT(school_closing)
FROM 
    covid_data_limpo 
"""
df_ex5 = execute_query(query_5)
print("\nExercício 5:")
print(df_ex5.head())


Exercício 5:
   school_closing
0               0
1              -2
2               2
3               3
4              -3


- [ ] 6.  **Funções de Agregação (COUNT, MAX, MIN, AVG):**
    * a. Conte o número total de registros na tabela.
    * b. Encontre o número máximo de casos confirmados (`confirmed`).
    * c. Encontre o número mínimo de mortes (`deaths`).
    * d. Calcule a média do número de testes realizados (`tests`).


In [None]:
# Exercício 6a
query_6a = """
SELECT 
    COUNT(*) 
FROM 
    covid_data_limpo
"""
df_ex6a = execute_query(query_6a)
print("\nExercício 6a:")
print(df_ex6a)


Exercício 6a:
   COUNT(*)
0      1123


In [12]:
# Exercício 6b
query_6b = """
SELECT 
    MAX(confirmed)
FROM 
    covid_data_limpo
"""
df_ex6b = execute_query(query_6b)
print("\nExercício 6b:")
print(df_ex6b)


Exercício 6b:
   MAX(confirmed)
0         6469442


In [14]:
# Exercício 6c
query_6c = """
SELECT 
    MIN(deaths)
FROM 
    covid_data_limpo
"""
df_ex6c = execute_query(query_6c)
print("\nExercício 6c:")
print(df_ex6c)


Exercício 6c:
   MIN(deaths)
0            0


In [15]:
# Exercício 6d
query_6d = """
SELECT 
    AVG(tests) 
FROM 
    covid_data_limpo
"""
df_ex6d = execute_query(query_6d)
print("\nExercício 6d:")
print(df_ex6d)


Exercício 6d:
     AVG(tests)
0  1.288891e+07


- [ ] 7.  **Agrupamento (GROUP BY):** Conte o número de registros para cada valor distinto da coluna `school_closing`.


In [19]:
# Exercício 7
query_7 = """
SELECT
    DISTINCT(school_closing),
    COUNT(school_closing)
FROM 
    covid_data_limpo
GROUP BY 
    school_closing
"""
df_ex7 = execute_query(query_7)
print("\nExercício 7:")
print(df_ex7)


Exercício 7:
   school_closing  COUNT(school_closing)
0              -3                     11
1              -2                     76
2              -1                     62
3               0                    223
4               1                    298
5               2                    160
6               3                    293


- [ ] 8.  **Filtragem em Grupos (HAVING):** Liste os valores de `school_closing` que têm mais de 50 registros associados.


In [28]:
# Exercício 8
query_8 = """
SELECT
    DISTINCT(school_closing),
    COUNT(school_closing)
FROM 
    covid_data_limpo
GROUP BY 
    school_closing
HAVING 
    COUNT(school_closing) > 50
"""
df_ex8 = execute_query(query_8)
print("\nExercício 8:")
print(df_ex8)


Exercício 8:
   school_closing  COUNT(school_closing)
0              -2                     76
1              -1                     62
2               0                    223
3               1                    298
4               2                    160
5               3                    293


- [ ] 9.  **Subquery:** Liste as datas onde o número de casos confirmados foi superior à média de todos os casos confirmados.


In [34]:
# Exercício 9
query_9 = """
SELECT
    date
FROM 
    covid_data_limpo
WHERE
    confirmed > (SELECT AVG(confirmed) FROM covid_data_limpo)
"""
df_ex9 = execute_query(query_9)
print("\nExercício 9:")
print(df_ex9)


Exercício 9:
           date
0    2021-06-19
1    2021-06-20
2    2021-06-21
3    2021-06-22
4    2021-06-23
..          ...
638  2023-03-19
639  2023-03-20
640  2023-03-21
641  2023-03-22
642  2023-03-23

[643 rows x 1 columns]


- [ ] 10. **Cálculos:** Crie uma nova coluna chamada `case_fatality_rate` (taxa de letalidade) calculada como (`deaths` / `confirmed`) * 100. Liste as colunas `date`, `confirmed`, `deaths` e a nova coluna `case_fatality_rate`.

In [None]:
# Exercício 10
query_10 = """
SELECT
    date,
    confirmed,
    deaths,
    (CAST(deaths AS REAL)/confirmed)*100 AS case_fatality_rate
FROM 
    covid_data_limpo
"""
df_ex10 = execute_query(query_10)
print("\nExercício 10:")
print(df_ex10)


Exercício 10:
            date  confirmed  deaths  case_fatality_rate
0     2020-02-25          1       0            0.000000
1     2020-02-26          1       0            0.000000
2     2020-02-27          1       0            0.000000
3     2020-02-28          2       0            0.000000
4     2020-02-29          2       0            0.000000
...          ...        ...     ...                 ...
1118  2023-03-19    6469442  179039            2.767457
1119  2023-03-20    6469442  179039            2.767457
1120  2023-03-21    6469442  179039            2.767457
1121  2023-03-22    6469442  179039            2.767457
1122  2023-03-23    6469442  179039            2.767457

[1123 rows x 4 columns]


In [48]:
conn.close()