# Práctica 6
#### Consultas SQL sobre casos de Dengue y Zika

Dataset usado: [Vigilancia de Dengue y Zika](http://datos.salud.gob.ar/dataset/vigilancia-de-dengue-y-zika) (en realidad, las tablas están basadas en este dataset)

-------

In [1]:
# Importamos bibliotecas
import pandas as pd
from inline_sql import sql, sql_val

carpeta = "Materiales/"

# Tablas a importar
casos        = pd.read_csv(carpeta+"casos.csv")
departamento = pd.read_csv(carpeta+"departamento.csv")
grupoetario  = pd.read_csv(carpeta+"grupoetario.csv")
provincia    = pd.read_csv(carpeta+"provincia.csv")
tipoevento   = pd.read_csv(carpeta+"tipoevento.csv")

-----------------
## Ejercicio A - Consultas sobre una tabla

In [2]:
# a.- Listar sólo los nombres de todos los departamentos que hay en la tabla departamento (dejando los registros repetidos).

consultaSQL = """
               SELECT descripcion
               FROM departamento
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion
0,COMUNA 1
1,COMUNA 2
2,COMUNA 3
3,COMUNA 4
4,COMUNA 10
...,...
328,Copo
329,Chicligasta
330,Trancas
331,Quebrachos


In [3]:
# b.- Listar sólo los nombres de todos los departamentos que hay en la tabla departamento (eliminando los registros repetidos).

consultaSQL = """
               SELECT DISTINCT descripcion
               FROM departamento
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion
0,COMUNA 2
1,Berisso
2,General Rodríguez
3,José C. Paz
4,Junín
...,...
286,COMUNA 5
287,COMUNA 6
288,Famatina
289,Bariloche


In [4]:
# c.- Listar sólo los códigos de departamento y sus nombres, de todos los departamentos que hay en la tabla departamento

consultaSQL = """
               SELECT id, descripcion
               FROM departamento
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,2001,COMUNA 1
1,2002,COMUNA 2
2,2003,COMUNA 3
3,2004,COMUNA 4
4,2010,COMUNA 10
...,...,...
328,86056,Copo
329,90021,Chicligasta
330,90112,Trancas
331,86140,Quebrachos


In [5]:
# d.- Listar todas las columnas de la tabla departamento

consultaSQL = """
               SELECT *
               FROM departamento
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion,id_provincia
0,2001,COMUNA 1,2
1,2002,COMUNA 2,2
2,2003,COMUNA 3,2
3,2004,COMUNA 4,2
4,2010,COMUNA 10,2
...,...,...,...
328,86056,Copo,86
329,90021,Chicligasta,90
330,90112,Trancas,90
331,86140,Quebrachos,86


In [6]:
# e.- Listar los códigos de departamento y nombres de todos los departamentos que hay en la tabla departamento. Utilizar los siguientes alias para las columnas: codigo_depto y nombre_depto, respectivamente

consultaSQL = """
               SELECT id AS codigo_depto, descripcion AS nombre_depto
               FROM departamento
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,codigo_depto,nombre_depto
0,2001,COMUNA 1
1,2002,COMUNA 2
2,2003,COMUNA 3
3,2004,COMUNA 4
4,2010,COMUNA 10
...,...,...
328,86056,Copo
329,90021,Chicligasta
330,90112,Trancas
331,86140,Quebrachos


In [7]:
# f.- Listar los registros de la tabla departamento cuyo código de provincia es igual a 54

consultaSQL = """
               SELECT id AS codigo_depto, descripcion AS nombre_depto
               FROM departamento
               WHERE id_provincia = 54
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,codigo_depto,nombre_depto
0,54014,Cainguás
1,54021,Candelaria
2,54063,Iguazú
3,54070,Leandro N. Alem
4,54077,Libertador Grl. San Martín
5,54091,Oberá
6,54105,San Javier
7,54112,San Pedro
8,54119,25 de Mayo
9,54042,Eldorado


In [8]:
# g.- Listar los registros de la tabla departamento cuyo código de provincia es igual a 22, 78 u 86

consultaSQL = """
               SELECT id AS codigo_depto, descripcion AS nombre_depto
               FROM departamento
               WHERE id_provincia IN (22, 78, 86)
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado.head(5)

Unnamed: 0,codigo_depto,nombre_depto
0,22007,Almirante Brown
1,22014,Bermejo
2,22021,Comandante Fernández
3,22039,2 de Abril
4,22043,Fray Justo Santa María de Oro


In [9]:
# h.- Listar los registros de la tabla departamento cuyos códigos de provincia se encuentren entre el 50 y el 59 (ambos valores inclusive)

consultaSQL = """
               SELECT id AS codigo_depto, descripcion AS nombre_depto
               FROM departamento
               WHERE id_provincia >= 50 AND id_provincia <= 59
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado.head(5)

Unnamed: 0,codigo_depto,nombre_depto
0,50007,Capital
1,50021,Godoy Cruz
2,50063,Luján de Cuyo
3,50070,Maipú
4,50077,Malargüe


-------------
## Ejercicio B - Consultas multitable (INNER JOIN)

In [10]:
# a.- Devolver una lista con los códigos y nombres de departamentos, asociados al nombre de la provincia al que pertenecen

consultaSQL = """
               SELECT D.id AS codigo_depto, D.descripcion AS nombre_depto, P.descripcion
               FROM departamento D
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,codigo_depto,nombre_depto,descripcion
0,2001,COMUNA 1,CABA
1,2002,COMUNA 2,CABA
2,2003,COMUNA 3,CABA
3,2004,COMUNA 4,CABA
4,2010,COMUNA 10,CABA
...,...,...,...
328,86056,Copo,Santiago del Estero
329,90021,Chicligasta,Tucumán
330,90112,Trancas,Tucumán
331,86140,Quebrachos,Santiago del Estero


In [11]:
# b.- Devolver una lista con los código y nombres de departamentos, asociados al nombre de la provincia al que pertenecen
# Es lo mismo que el anterior? Error

# consultaSQL = """
#                SELECT D.id AS codigo_depto, D.descripcion AS nombre_depto, P.descripcion
#                FROM departamento D
#                INNER JOIN provincia P
#                    ON D.id_provincia = P.id
#               """

# dataframeResultado = sql^ consultaSQL
# dataframeResultado

In [12]:
# c.- Devolver los casos registrados en la provincia de "Chaco"

consultaSQL = """
               SELECT C.id, C.anio, C.semana_epidemiologica, C.cantidad, 
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               WHERE P.descripcion = 'Chaco'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,anio,semana_epidemiologica,cantidad
0,902,2020,7,1.0
1,903,2020,8,8.0
2,904,2020,9,8.0
3,905,2020,10,4.0
4,906,2020,11,5.0
...,...,...,...,...
1146,11972,2020,19,5.0
1147,11979,2020,17,1.0
1148,12007,2020,19,1.0
1149,12011,2020,33,1.0


In [13]:
# d.- Devolver aquellos casos de la provincia de “Buenos Aires” cuyo campo cantidad supere los 10 casos

consultaSQL = """
               SELECT C.id, C.anio, C.semana_epidemiologica, C.cantidad
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               WHERE P.descripcion = 'Buenos Aires' AND C.cantidad > 10
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,anio,semana_epidemiologica,cantidad
0,269,2020,11,15.0
1,365,2020,11,15.0
2,366,2020,11,23.0
3,367,2020,11,39.0
4,368,2020,12,27.0
...,...,...,...,...
104,10614,2020,15,13.0
105,10656,2020,11,23.0
106,10836,2020,13,12.0
107,10999,2020,13,17.0


-------------
## Ejercicio C - Consultas multitabla (OUTER JOIN)

In [14]:
# a.- Devolver un listado con los nombres de los departamentos que no tienen ningún caso asociado

consultaSQL = """
               SELECT DISTINCT D.descripcion
               FROM casos C
               LEFT OUTER JOIN departamento D
                   ON C.id_depto = D.id
               WHERE D.descripcion IS NOT NULL
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion
0,COMUNA 2
1,Berisso
2,José C. Paz
3,Junín
4,General Rodríguez
...,...
286,Luján de Cuyo
287,Olavarría
288,Atamisqui
289,Hucal


In [15]:
# b.- Devolver un listado con los tipos de evento que no tienen ningún caso asociado

# Forma con RIGHT OUTER JOIN
consultaSQL = """
               SELECT DISTINCT T.descripcion
               FROM casos C
               RIGHT OUTER JOIN tipoevento T
                   ON C.id_tipoevento = T.id
               WHERE C.id_tipoevento IS NULL
              """

# Forma con NOT IN
consultaSQL = """
               SELECT DISTINCT T.descripcion
               FROM tipoevento T
               WHERE T.id NOT IN (
                   SELECT id_tipoevento
                   FROM casos
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion
0,Zika
1,Chikungunya


-------------
## Ejercicio D - Consultas resumen

In [16]:
# a.- Calcular la cantidad total de casos que hay en la tabla casos.

consultaSQL = """
               SELECT SUM(cantidad) AS total_de_casos
               FROM casos
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,total_de_casos
0,61444.0


In [17]:
# b.- Calcular la cantidad total de casos que hay en la tabla casos para cada año y cada tipo de caso. Presentar la información de la siguiente manera: descripción del tipo de caso, año y cantidad. Ordenarlo por tipo de caso (ascendente) y año (ascendente)

consultaSQL = """
               SELECT T.descripcion, C.anio, SUM(C.cantidad)
               FROM casos C
               INNER JOIN tipoevento T
                   ON C.id_tipoevento = T.id
               GROUP BY T.descripcion, C.anio
               ORDER BY T.descripcion, C.anio
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion,anio,sum(C.cantidad)
0,Dengue,2019,2753.0
1,Dengue,2020,58691.0


In [18]:
# c.- Misma consulta que el ítem anterior, pero sólo para el año 2019

consultaSQL = """
               SELECT T.descripcion, C.anio, SUM(cantidad)
               FROM casos C
               INNER JOIN tipoevento T
                   ON C.id_tipoevento = T.id
               WHERE C.anio = 2019
               GROUP BY T.descripcion, C.anio
               ORDER BY T.descripcion, C.anio
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion,anio,sum(cantidad)
0,Dengue,2019,2753.0


In [19]:
# d.- Calcular la cantidad total de departamentos que hay por provincia. Presentar la información ordenada por código de provincia

consultaSQL = """
               SELECT P.id AS id_provincia, COUNT(D.id) AS cantidad_departamentos
               FROM provincia P
               INNER JOIN departamento D
                   ON P.id = D.id_provincia
               GROUP BY P.id
               ORDER BY P.id
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado.head()

Unnamed: 0,id_provincia,cantidad_departamentos
0,2,15
1,6,74
2,10,14
3,14,23
4,18,21


In [20]:
# e.- Listar los departamentos con menos cantidad de casos en el año 2019
# Qué sería esto? Con cantidad mínima? O listar todos de menor a mayor así luego uno puede elegir qué tan menor...

# Listar todos de menor a mayor
consultaSQL = """
               SELECT D.id AS id_depto, COALESCE(SUM(C.cantidad), 0) AS cantidad_total
               FROM departamento D
               LEFT OUTER JOIN casos C
                   ON D.id = C.id_depto
               WHERE C.anio = 2019
               GROUP BY D.id
               ORDER BY cantidad_total
              """

# Listar solo los departamentos que tienen el número mínimo de casos de entre todos los departamentos en 2019
tempSQL = """
           SELECT D.id AS id_depto, COALESCE(SUM(C.cantidad), 0) AS cantidad_total
           FROM departamento D
           LEFT OUTER JOIN casos C
               ON D.id = C.id_depto
           WHERE C.anio = 2019
           GROUP BY D.id
           ORDER BY cantidad_total
          """

tempRes = sql^ tempSQL

consultaSQL = """
                SELECT *
                FROM tempRes T
                WHERE cantidad_total = (
                    SELECT MIN(T2.cantidad_total)
                    FROM tempRes T2
                )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id_depto,cantidad_total
0,2015,1.0
1,38042,1.0
2,6091,1.0
3,22039,1.0
4,6532,1.0
5,14014,1.0
6,34007,1.0
7,22084,1.0
8,6760,1.0
9,22154,1.0


In [21]:
# f.- Listar los departamentos con más cantidad de casos en el año 2020

tempSQL = """
           SELECT D.id AS id_depto, COALESCE(SUM(C.cantidad), 0) AS cantidad_total
           FROM departamento D
           LEFT OUTER JOIN casos C
               ON D.id = C.id_depto
           WHERE C.anio = 2019
           GROUP BY D.id
           ORDER BY cantidad_total
          """

tempRes = sql^ tempSQL

consultaSQL = """
                SELECT *
                FROM tempRes T
                WHERE cantidad_total = (
                    SELECT MAX(T2.cantidad_total)
                    FROM tempRes T2
                )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id_depto,cantidad_total
0,38035,536.0


In [22]:
# g.- Listar el promedio de cantidad de casos por provincia y año

consultaSQL = """
               SELECT P.id, C.anio, AVG(C.cantidad)
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               GROUP BY P.id, C.anio
               ORDER BY P.id, C.anio
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,anio,avg(C.cantidad)
0,2,2019,1.090909
1,2,2020,6.448308
2,6,2019,1.204082
3,6,2020,3.296296
4,10,2020,1.963855
5,14,2019,1.0
6,14,2020,6.608456
7,18,2020,5.318565
8,22,2019,1.764706
9,22,2020,3.140351


In [23]:
# h.- Listar, para cada provincia y año, cuáles fueron los departamentos que más cantidad de casos tuvieron
# HINT: https://stackoverflow.com/questions/7745609/sql-select-only-rows-with-max-value-on-a-column

tempQuery = """
               SELECT P.id AS id_provincia, D.id AS id_depto, C.anio AS anio, SUM(C.cantidad) AS total_casos
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               GROUP BY P.id, D.id, C.anio
            """

temp = sql^ tempQuery

consultaSQL = """
                SELECT T1.id_provincia, T1.anio, id_depto, total_casos
                FROM temp T1
                INNER JOIN (
                    SELECT id_provincia, anio, MAX(total_casos) as max_total_casos FROM temp
                    GROUP BY id_provincia, anio
                ) AS T2
                    ON T1.id_provincia = T2.id_provincia AND T1.anio = T2.anio AND T1.total_casos = T2.max_total_casos
                ORDER BY T1.id_provincia, T1.anio
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id_provincia,anio,id_depto,total_casos
0,2,2019,2009,9.0
1,2,2020,2001,3621.0
2,6,2019,6410,32.0
3,6,2020,6427,1198.0
4,10,2020,10049,219.0
5,14,2019,14021,2.0
6,14,2020,14014,2181.0
7,18,2020,18021,2073.0
8,22,2019,22063,97.0
9,22,2020,22140,774.0


In [24]:
# i.- Mostrar la cantidad de casos total, máxima, mínima y promedio que tuvo la provincia de Buenos Aires en el año 2019

consultaSQL = """
               SELECT ANY_VALUE(P.descripcion) as provincia, SUM(C.cantidad) AS total, MAX(C.cantidad) AS maxima, MIN(C.cantidad) AS minima, AVG(C.cantidad) AS promedio
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               WHERE P.descripcion = 'Buenos Aires' AND C.anio = 2019
               GROUP BY P.id
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,provincia,total,maxima,minima,promedio
0,Buenos Aires,59.0,3.0,1.0,1.204082


In [25]:
# j.- Misma consulta que el ítem anterior, pero sólo para aquellos casos en que la cantidad total es mayor a 1000 casos

consultaSQL = """
               SELECT ANY_VALUE(P.descripcion) as provincia, SUM(C.cantidad) AS total, MAX(C.cantidad) AS maxima, MIN(C.cantidad) AS minima, AVG(C.cantidad) AS promedio
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               WHERE P.descripcion = 'Buenos Aires' AND C.anio = 2019
               GROUP BY P.id
               HAVING total > 1000
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,provincia,total,maxima,minima,promedio


In [26]:
# k.- Listar los nombres de departamento (y nombre de provincia) que tienen mediciones tanto para el año 2019 como para el año 2020. Para cada uno de ellos devolver la cantidad de casos promedio. Ordenar por nombre de provincia (ascendente) y luego por nombre de departamento (ascendente)

consultaSQL = """
               SELECT P.descripcion AS provincia, D.descripcion AS departamento, AVG(C1.cantidad) AS promedio
               FROM departamento D
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               INNER JOIN casos C1
                   ON D.id = C1.id_depto
               WHERE EXISTS (SELECT C2.id_depto FROM casos C2 WHERE D.id = C2.id_depto AND C2.anio = 2019) 
                   AND EXISTS (SELECT C2.id_depto FROM casos C2 WHERE D.id = C2.id_depto AND C2.anio = 2020)
               GROUP BY P.descripcion, D.descripcion
               ORDER BY P.descripcion ASC, D.descripcion ASC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,provincia,departamento,promedio
0,Buenos Aires,Berazategui,3.388235
1,Buenos Aires,Exaltación de la Cruz,1.000000
2,Buenos Aires,Florencio Varela,2.162162
3,Buenos Aires,General Pueyrredón,1.000000
4,Buenos Aires,Ituzaingó,1.471429
...,...,...,...
66,Santa Fe,Garay,1.000000
67,Santa Fe,General Obligado,10.834532
68,Santa Fe,La Capital,2.899083
69,Santa Fe,Las Colónias,1.000000


In [27]:
# l.- Devolver una tabla que tenga los siguientes campos: descripción de tipo de evento, id_depto, nombre de departamento, id_provincia, nombre de provincia, total de casos 2019, total de casos 2020

consultaSQL = """
               SELECT ANY_VALUE(T.descripcion) AS evento, D.id AS id_depto, ANY_VALUE(D.descripcion) AS depto, P.id AS id_provincia, ANY_VALUE(P.descripcion) AS provincia,
                   SUM(CASE WHEN C.anio = 2019 THEN C.cantidad ELSE 0 END) AS casos_2019,
                   SUM(CASE WHEN C.anio = 2020 THEN C.cantidad ELSE 0 END) AS casos_2020
               FROM casos C
               INNER JOIN tipoevento T
                   ON C.id_tipoevento = T.id
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               GROUP BY C.id_tipoevento, D.id, P.id
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,evento,id_depto,depto,id_provincia,provincia,casos_2019,casos_2020
0,Dengue,2002,COMUNA 2,2,CABA,0.0,26.0
1,Dengue,2007,COMUNA 7,2,CABA,0.0,953.0
2,Dengue,2014,COMUNA 14,2,CABA,5.0,50.0
3,Dengue,6560,Moreno,6,Buenos Aires,0.0,103.0
4,Dengue,6630,Pila,6,Buenos Aires,0.0,1.0
...,...,...,...,...,...,...,...
328,Dengue,14063,Marcos Juárez,14,Córdoba,0.0,2.0
329,Dengue,38182,Coronel de Marina L. Rosales,38,Jujuy,0.0,2.0
330,Dengue,66042,Chicoana,66,Salta,0.0,1.0
331,Dengue,6210,Chacabuco,6,Buenos Aires,0.0,2.0


-------------
## Ejercicio E - Subconsultas (ALL, ANY)

In [28]:
# a.- Devolver el departamento que tuvo la mayor cantidad de casos sin hacer uso de MAX, ORDER BY ni LIMIT
# Asumo que es el registro con mayor cantidad (no el máximo de sumas por depto)

consultaSQL = """
                SELECT D.id, D.descripcion, C.cantidad
                FROM casos C
                INNER JOIN departamento D
                    ON C.id_depto = D.id
                WHERE C.cantidad >= ALL (
                    SELECT C2.cantidad
                    FROM casos C2
                )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion,cantidad
0,90084,Capital,259.0


In [29]:
# b.- Devolver los tipo de evento que tienen casos asociados. (Utilizando ALL o ANY)

consultaSQL = """
               SELECT T.id, T.descripcion
               FROM tipoevento T
               WHERE T.id = ANY (
                   SELECT C.id_tipoevento
                   FROM casos C
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,1,Dengue


-------------
## Ejercicio F - Subconsultas (IN, NOT IN)

In [30]:
# a.- Devolver los tipo de evento que tienen casos asociados (Utilizando IN, NOT IN)

consultaSQL = """
               SELECT T.id, T.descripcion
               FROM tipoevento T
               WHERE T.id IN (
                   SELECT DISTINCT C.id_tipoevento
                   FROM casos C
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,1,Dengue


In [31]:
# b.- Devolver los tipo de evento que NO tienen casos asociados (Utilizando IN, NOT IN)

consultaSQL = """
               SELECT T.id, T.descripcion
               FROM tipoevento T
               WHERE T.id NOT IN (
                   SELECT DISTINCT C.id_tipoevento
                   FROM casos C
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,2,Zika
1,3,Chikungunya


-------------
## Ejercicio G - Subconsultas (EXISTS, NOT EXISTS)

In [32]:
# a.- Devolver los tipo de evento que tienen casos asociados (Utilizando EXISTS, NOT EXISTS)

consultaSQL = """
               SELECT T.id, T.descripcion
               FROM tipoevento T
               WHERE EXISTS (
                   SELECT C.id
                   FROM casos C
                   WHERE T.id = C.id_tipoevento
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,1,Dengue


In [33]:
# b.- Devolver los tipo de evento que NO tienen casos asociados (Utilizando IN, NOT IN)

consultaSQL = """
               SELECT T.id, T.descripcion
               FROM tipoevento T
               WHERE NOT EXISTS (
                   SELECT C.id
                   FROM casos C
                   WHERE T.id = C.id_tipoevento
               )
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,2,Zika
1,3,Chikungunya


-------------
## Ejercicio H - Subconsultas correlacionadas

In [34]:
# a.- Listar las provincias que tienen una cantidad total de casos mayor al promedio de casos del país. Hacer el listado agrupado por año
# Asumo que el promedio de casos del país = promedio por provincia (es necesario dividir por la cantidad de provincias) 

consultaSQL = """
               SELECT C.anio AS anio, ANY_VALUE(P.descripcion) AS provincia, SUM(C.cantidad) total_casos
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               GROUP BY C.anio, P.id
               HAVING total_casos > (
                   SELECT SUM(C2.cantidad) / 24
                   FROM casos C2
                   INNER JOIN departamento D2
                       ON C2.id_depto = D2.id
                   WHERE C2.anio = C.anio
                   LIMIT 1
               )
               ORDER BY anio, provincia
              """

# El promedio aprox da 114, así que todas las provincias indicadas cumplieron ser mayores a eso

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,anio,provincia,total_casos
0,2019,Chaco,120.0
1,2019,Jujuy,553.0
2,2019,Misiones,571.0
3,2019,Salta,941.0
4,2019,Santa Fe,468.0
5,2020,Buenos Aires,6230.0
6,2020,CABA,6861.0
7,2020,Chaco,3401.0
8,2020,Corrientes,2521.0
9,2020,Córdoba,3595.0


In [35]:
# b.- Por cada año, listar las provincias que tuvieron una cantidad total de casos mayor a la cantidad total de casos que la provincia de Corrientes

consultaSQL = """
               SELECT C.anio AS anio, ANY_VALUE(P.descripcion) AS provincia, SUM(C.cantidad) AS total_casos
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               GROUP BY C.anio, P.id
               HAVING total_casos > (
                   SELECT SUM(C2.cantidad)
                   FROM casos C2
                   INNER JOIN departamento D2
                       ON C2.id_depto = D2.id
                   INNER JOIN provincia P2
                       ON D2.id_provincia = P2.id
                   WHERE C2.anio = C.anio AND P2.descripcion = 'Corrientes'
                   GROUP BY P2.id
               )
               ORDER BY anio, provincia
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,anio,provincia,total_casos
0,2020,Buenos Aires,6230.0
1,2020,CABA,6861.0
2,2020,Chaco,3401.0
3,2020,Córdoba,3595.0
4,2020,Formosa,3092.0
5,2020,Jujuy,5230.0
6,2020,Misiones,5428.0
7,2020,Salta,7540.0
8,2020,Santa Fe,4670.0
9,2020,Tucumán,7966.0


-------------
## Ejercicio I - Más consultas sobre una tabla

In [36]:
# a.- Listar los códigos de departamento y sus nombres, ordenados por estos últimos (sus nombres) de manera descendentes (de la Z a la A). En caso de empate, desempatar por código de departamento de manera ascendente

consultaSQL = """
               SELECT id, descripcion
               FROM departamento D
               ORDER BY descripcion, id
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,22036,12 de Octubre
1,22126,1º de Mayo
2,22039,2 de Abril
3,22168,25 de Mayo
4,54119,25 de Mayo
...,...,...
328,30105,Victoria
329,30113,Villaguay
330,46098,Vinchina
331,90119,Yerba Buena


In [37]:
# b.- Listar los registros de la tabla provincia cuyos nombres comiencen con la letra M

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE descripcion LIKE 'M%'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,50,Mendoza
1,54,Misiones


In [38]:
# c.- Listar los registros de la tabla provincia cuyos nombres comiencen con la letra S y su quinta letra sea una letra A

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE descripcion LIKE 'S___a' OR descripcion LIKE 'S___A'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,66,Salta


In [39]:
# d.- Listar los registros de la tabla provincia cuyos nombres terminan con la letra A

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE descripcion LIKE '%A'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,2,CABA


In [40]:
# e.- Listar los registros de la tabla provincia cuyos nombres tengan exactamente 5 letras

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE descripcion LIKE '_____'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,22,Chaco
1,38,Jujuy
2,66,Salta


In [41]:
# f.- Listar los registros de la tabla provincia cuyos nombres tengan ”do” en alguna parte de su nombre

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE descripcion LIKE '%do%'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,14,Córdoba
1,50,Mendoza


In [42]:
# g.- Listar los registros de la tabla provincia cuyos nombres tengan ”do” en alguna parte de su nombre y su código sea menor a 30

consultaSQL = """
               SELECT *
               FROM provincia
               WHERE id < 30 AND descripcion LIKE '%do%'
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,14,Córdoba


In [43]:
# h.- Listar los registros de la tabla departamento cuyos nombres tengan ”san” en alguna parte de su nombre. Listar sólo id y descripcion. Utilizar los siguientes alias para las columnas: codigo_depto y nombre_depto, respectivamente. El resultado debe estar ordenado por sus nombres de manera descendentes (de la Z a la A).

consultaSQL = """
               SELECT id as codigo_depto, descripcion AS nombre_depto
               FROM provincia
               WHERE LOWER(descripcion) LIKE '%san%'
               ORDER BY descripcion DESC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,codigo_depto,nombre_depto
0,86,Santiago del Estero
1,82,Santa Fe
2,78,Santa Cruz
3,74,San Luis
4,70,San Juan


In [44]:
# i.- Devolver aquellos casos de las provincias cuyo nombre terminen con la letra a y el campo cantidad supere 10. Mostrar: nombre de provincia, nombre de departamento, año, semana epidemiológica, descripción de grupo etario y cantidad. Ordenar el resultado por la cantidad (descendente), luego por el nombre de la provincia (ascendente), nombre del departamento (ascendente), año (ascendente) y la descripción del grupo etario (ascendente)

consultaSQL = """
               SELECT P.descripcion, D.descripcion, C.anio, C.semana_epidemiologica, G.descripcion, C.cantidad
               FROM casos C
               INNER JOIN departamento D
                   ON C.id_depto = D.id
               INNER JOIN provincia P
                   ON D.id_provincia = P.id
               INNER JOIN grupoetario G
                   ON C.id_grupoetario = G.id
               WHERE LOWER(P.descripcion) LIKE '%a' AND C.cantidad > 10
               ORDER BY C.cantidad DESC, P.descripcion ASC, D.descripcion ASC, C.anio ASC, G.descripcion ASC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,descripcion,descripcion_1,anio,semana_epidemiologica,descripcion_2,cantidad
0,Salta,Orán,2020,14,Sin Especificar,168.0
1,CABA,COMUNA 1,2020,14,De 45 a 65 anos,141.0
2,CABA,COMUNA 1,2020,15,De 45 a 65 anos,139.0
3,CABA,COMUNA 1,2020,14,De 25 a 34 anos,111.0
4,Salta,Orán,2020,19,Sin Especificar,110.0
...,...,...,...,...,...,...
537,Salta,Grl. José de San Martín,2020,19,De 5 a 9 anos,11.0
538,Salta,Grl. José de San Martín,2020,18,De 5 a 9 anos,11.0
539,Salta,Orán,2020,13,De 25 a 34 anos,11.0
540,Salta,Orán,2020,17,De 5 a 9 anos,11.0


In [45]:
# j.- Ídem anterior, pero devolver sólo aquellas tuplas que tienen el máximo en el campo cantidad

tempSQL = """
           SELECT P.descripcion AS provincia, D.descripcion AS departamento, C.anio AS anio, C.semana_epidemiologica AS semanaepidemiologica, G.descripcion AS grupoetario, C.cantidad AS cantidad
           FROM casos C
           INNER JOIN departamento D
               ON C.id_depto = D.id
           INNER JOIN provincia P
               ON D.id_provincia = P.id
           INNER JOIN grupoetario G
               ON C.id_grupoetario = G.id
           WHERE LOWER(P.descripcion) LIKE '%a' AND C.cantidad > 10
          """

tempRes = sql^ tempSQL

consultaSQL = """
               SELECT *
               FROM tempRes T
               WHERE T.cantidad = (
                   SELECT MAX(T2.cantidad)
                   FROM tempRes T2
               )
               ORDER BY cantidad DESC, provincia ASC, departamento ASC, anio ASC, grupoetario ASC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,provincia,departamento,anio,semanaepidemiologica,grupoetario,cantidad
0,Salta,Orán,2020,14,Sin Especificar,168.0


-------------
## Ejercicio J - Reemplazos

In [46]:
# a.- Listar los id y descripción de los departamentos. Estos últimos sin tildes y en orden alfabético

consultaSQL = """
               SELECT id, REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(descripcion, 'á', 'a'), 'é', 'e'), 'í', 'i'), 'ó', 'o'), 'ú', 'u') AS descripcion
               FROM departamento
               ORDER BY descripcion ASC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,22036,12 de Octubre
1,22126,1º de Mayo
2,22039,2 de Abril
3,70126,25 de Mayo
4,54119,25 de Mayo
...,...,...
328,30105,Victoria
329,30113,Villaguay
330,46098,Vinchina
331,90119,Yerba Buena


In [47]:
# b.- Listar los nombres de provincia en mayúscula, sin tildes y en orden alfabético

consultaSQL = """
               SELECT id, UPPER(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(descripcion, 'á', 'a'), 'é', 'e'), 'í', 'i'), 'ó', 'o'), 'ú', 'u')) AS descripcion
               FROM provincia
               ORDER BY descripcion ASC
              """

dataframeResultado = sql^ consultaSQL
dataframeResultado

Unnamed: 0,id,descripcion
0,6,BUENOS AIRES
1,2,CABA
2,10,CATAMARCA
3,22,CHACO
4,26,CHUBUT
5,14,CORDOBA
6,18,CORRIENTES
7,30,ENTRE RIOS
8,34,FORMOSA
9,38,JUJUY
