# <b>Union, Intersect, Except.</b>

<ul>
<li>Para realizar operaciones entre conjuntos usando dos conjuntos de datos (data set), es importantes considerar que:</li>
<ul>
<li>Ambos data sets deben tener el mismo número de columnas.</li>
<li>El tipo de datos de cada columna de ambos data set debe ser el mismo.</li>
</ul>
</ul>

#<b>El operador UNION.</b>
<center><img src="https://drive.google.com/uc?id=1bPo6CXztDG450IQXQyOQd-oT-eB8-LjL"></center>
<ul>
<li>Combina filas desde dos o más consultas eliminando registros duplicados: <br>
consulta1 <br>
<b>UNION [ALL]</b><br>
consulta2 <br>
<b>UNION [ALL]</b><br>
consulta3<br>
. . . . ;
</li>
<li> El operador <b>UNION ALL</b> no elimina los registros duplicados.</li>
<center><img src="https://drive.google.com/uc?id=1E71MG68-k0aqd1My36DQBkKdRzc193nv"></center>
<li>Los nombres de las columnas de la primera consulta se ocuparán en el data set resultante.</li>
<li>En caso de ser utilizadas, <b>GROUP BY</b> y <b>HAVING</b> son aplicadas sobre cada consulta y no sobre el resultado del operador <b>UNION [ALL]</b>.</li>
<li>En el caso de <b>ORDER BY</b>, se aplicará sobre el data set resultante.</li>
<li> <b>UNION</b> vs <b>JOIN</b>:</li>
<center><img src="https://drive.google.com/uc?id=1Lc1oJrkEKvE9BFlA2gXXekg5-TjhoRFK"></center>
</ul>



#**Veremos algunos ejemplos usando la BD Chinook.**

<center><img src="https://drive.google.com/uc?id=1fKhtlmyFD2Vryk3ubFX4g6FsS0PNLNaZ" alt="drawing" width=800px/></center>

In [None]:
# prompt: genera el código para conectar con drive

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [None]:
import sqlite3     #importamos sqlite3
import pandas as pd   #importamos pandas
conn = sqlite3.connect("/content/drive/MyDrive/SQL/Chinook_Sqlite.sqlite")     #generamos la coneccion con sqlite3
cursor = conn.cursor()    # agregamos el cursos para obtener los datos

In [None]:
pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';",conn)

Unnamed: 0,name
0,Album
1,Artist
2,Customer
3,Employee
4,Genre
5,Invoice
6,InvoiceLine
7,MediaType
8,Playlist
9,PlaylistTrack


##**Nombre y apellido de empleados y clientes**:

In [None]:
sql_query=""" SELECT FirstName, LastName
              FROM Employee
              UNION
              SELECT FirstName, LastName
              FROM Customer;"""
pd.read_sql(sql_query,conn)

Unnamed: 0,FirstName,LastName
0,Aaron,Mitchell
1,Alexandre,Rocha
2,Andrew,Adams
3,Astrid,Gruber
4,Bjørn,Hansen
...,...,...
62,Steve,Murray
63,Terhi,Hämäläinen
64,Tim,Goyer
65,Victor,Stevens


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Podemos agregar un atributo que indique desde cual tabla proviene cada registro:

In [None]:
sql_query=""" SELECT FirstName, LastName, 'Employee' AS Type
              FROM Employee
              UNION ALL
              SELECT FirstName, LastName, 'Customer'
              FROM Customer;"""
pd.read_sql(sql_query,conn)

Unnamed: 0,FirstName,LastName,Type
0,Andrew,Adams,Employee
1,Nancy,Edwards,Employee
2,Jane,Peacock,Employee
3,Margaret,Park,Employee
4,Steve,Johnson,Employee
...,...,...,...
62,Mark,Taylor,Customer
63,Diego,Gutiérrez,Customer
64,Luis,Rojas,Customer
65,Manoj,Pareek,Customer


Vamos a verificar que la cantidad de registros reportados (67) es consistente con la cantidad de registros de las tablas `Employee` + `Customer`:

In [None]:
pd.read_sql("""
              SELECT COUNT(*)
              FROM Employee
            """,conn)

Unnamed: 0,COUNT(*)
0,8


In [None]:
pd.read_sql("""
              SELECT COUNT(*)
              FROM Customer
            """,conn)

Unnamed: 0,COUNT(*)
0,59


Agregamos el atributo `Country` a la consulta y lo usamos para agrupar:

In [None]:
sql_query="""
            SELECT FirstName, LastName, Country
            FROM Employee
            UNION
            SELECT FirstName, LastName, Country
            FROM Customer
            ORDER By Country;"""
pd.read_sql(sql_query,conn)

Unnamed: 0,FirstName,LastName,Country
0,Diego,Gutiérrez,Argentina
1,Mark,Taylor,Australia
2,Astrid,Gruber,Austria
3,Daan,Peeters,Belgium
4,Alexandre,Rocha,Brazil
...,...,...,...
62,Tim,Goyer,USA
63,Victor,Stevens,USA
64,Emma,Jones,United Kingdom
65,Phil,Hughes,United Kingdom


#<b>El operador INTERSECT.</b>
<center><img src="https://drive.google.com/uc?id=19yXXZX8mRpDMqNmxOWkQ3tkIRaxw0XRE"></center>
<ul>
<li>Toma el resultado de dos consultas y retorna sin repetición los registros que son comunes a ambas:<br>
<b>SELECT</b> select_list1 <br>
<b>FROM</b> table1 <br>
<b>INTERSECT</b><br>
<b>SELECT</b> select_list2<br>
<b>FROM</b> table2<br>
</li>
</ul>

##**Todos los clientes que tienen una factura**:

In [None]:
sql_query_intersect="""SELECT CustomerId
                       FROM customer
                       INTERSECT
                       SELECT CustomerId
                       FROM invoice
                       ORDER BY CustomerId;"""
pd.read_sql(sql_query_intersect,conn)

Unnamed: 0,CustomerId
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


Una alternativa para obtener el mismo resultado:

In [None]:
sql_otra_query= """
              SELECT DISTINCT Customerid
              FROM Invoice;
              """
pd.read_sql(sql_otra_query,conn)

Unnamed: 0,CustomerId
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [None]:
pd.read_sql("""
              SELECT DISTINCT C.CustomerId, C.FirstName, C.LastName
              FROM Customer C
              INNER JOIN Invoice I ON C.CustomerId = I.CustomerId
            """,conn)

Unnamed: 0,CustomerId,FirstName,LastName
0,1,Luís,Gonçalves
1,2,Leonie,Köhler
2,3,François,Tremblay
3,4,Bjørn,Hansen
4,5,František,Wichterlová
5,6,Helena,Holý
6,7,Astrid,Gruber
7,8,Daan,Peeters
8,9,Kara,Nielsen
9,10,Eduardo,Martins


#<b>El operador EXCEPT.</b>
<center><img src="https://drive.google.com/uc?id=1_H_bPFkEg8XJtOgkjqRf35vsnd32XVsj"></center>
<ul>
<li>Compara el resultado de dos consultas y retorna los registros de la primera consulta que no son parte de los resultados de la segunda consulta.</li>
</ul>



###**Los artistas que no tienen un álbum:**

In [None]:
sql_query_except="""SELECT ArtistId
                    FROM artist
                    EXCEPT
                    SELECT ArtistId
                    FROM album;"""
pd.read_sql(sql_query_except,conn)

Unnamed: 0,ArtistId
0,25
1,26
2,28
3,29
4,30
...,...
66,192
67,193
68,194
69,195


Utilizando el comando `EXPLAIN` podemos saber cuales son las operaciones que se realizan para obtener un resultado:

In [None]:
sql_query_except="""EXPLAIN query plan SELECT ArtistId
                    FROM artist
                    EXCEPT
                    SELECT ArtistId
                    FROM album;"""
pd.read_sql(sql_query_except,conn)

Unnamed: 0,id,parent,notused,detail
0,1,0,0,COMPOUND QUERY
1,2,1,0,LEFT-MOST SUBQUERY
2,5,2,0,SCAN artist USING COVERING INDEX IPK_Artist
3,11,1,0,EXCEPT USING TEMP B-TREE
4,13,11,0,SCAN album USING COVERING INDEX IFK_AlbumArtistId


##**Los temas que no pertenecen a un playlist:**

In [None]:
sql_query_except="""SELECT trackid
                    FROM track
                    EXCEPT
                    SELECT trackid
                    FROM PlaylistTrack;"""
pd.read_sql(sql_query_except,conn)

Unnamed: 0,TrackId


#<b>Actividad 1</b>
<ul>
<li> Proponga 3 consultas adicionales (UNION | INTERSECT | EXCEPT) sobre la BD Chinook.</li>
<li> Para la consulta "Los artistas que no tienen un álbum" es posible escribir una consulta equivalente sin usar el operador EXCEPT? </li>

##**Consulta 1**

In [None]:
# Su código aquí
sql_query_union2="""SELECT City
                    FROM Employee
                    UNION
                    SELECT City
                    FROM Customer;"""
pd.read_sql(sql_query_union2,conn)

Unnamed: 0,City
0,Amsterdam
1,Bangalore
2,Berlin
3,Bordeaux
4,Boston
5,Brasília
6,Brussels
7,Budapest
8,Buenos Aires
9,Calgary


##**Consulta 2**

In [None]:
# Su código aquí
sql_query_intersect2="""SELECT GenreId
                    FROM Genre
                    INTERSECT
                    SELECT GenreId
                    FROM Track;"""
pd.read_sql(sql_query_intersect2,conn)

Unnamed: 0,GenreId
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


##**Consulta 3**

In [None]:
# Su código aquí
sql_query_except2="""SELECT CustomerId
                        FROM Customer
                        EXCEPT
                        SELECT CustomerId
                        FROM Invoice;"""
pd.read_sql(sql_query_except2,conn)

Unnamed: 0,CustomerId


## <font color='purple'> __EXPERIMENTO__: </font>
### consultaremos nuevamente, pero esta vez no usaremos except, sino LEFT JOIN y, posteriormente, corroboraremos.

Según esta última consulta, podemos ver que no hay clientes sin compras, aún cuando esto para este caso parece algo obvio, en algún caso podríamos necesitar corroborar que esto efectivamente sea de esta manera, vamos a ver:

In [None]:
sql_query_except3="""SELECT c.CustomerId
                     FROM Customer c
                     LEFT JOIN Invoice i ON c.CustomerId = i.CustomerId
                     WHERE i.CustomerId IS NULL;"""
pd.read_sql(sql_query_except3,conn)

Unnamed: 0,CustomerId


nuevamente el mismo, resultado, así que al parecer todos los que estan en clientes están en compras, vamos a corroborar identificando el número de cada sección

In [None]:
# Consulta individual para contar clientes en Customer
sql_query_1 = "SELECT COUNT(*) AS total_customers FROM Customer;"
df1 = pd.read_sql(sql_query_1, conn)
print(df1)

# Consulta individual para contar CustomerId únicos en Invoice
sql_query_2 = "SELECT COUNT(DISTINCT CustomerId) AS unique_customers_in_invoice FROM Invoice;"
df2 = pd.read_sql(sql_query_2, conn)
print(df2)

   total_customers
0               59
   unique_customers_in_invoice
0                           59


Efectivamente, como habíamos intuído, la totalidad de clientes en customers estan en invoice

### <font color='purple'>Fin experimento </font>

##**Consulta 4**: Los artistas que no tiene álbum.

Esto funciona porque LEFT JOIN conserva todos los artistas y solo aquellos que no tienen álbum tendrán NULL en la tabla Album.

In [None]:
# Su código aquí
sql_query_except2="""SELECT Artist.ArtistId
                      FROM Artist
                      LEFT JOIN Album ON Artist.ArtistId = Album.ArtistId
                      WHERE Album.ArtistId IS NULL;"""
pd.read_sql(sql_query_except2,conn)

Unnamed: 0,ArtistId
0,25
1,26
2,28
3,29
4,30
...,...
66,192
67,193
68,194
69,195


# <b>Fin Actividad 1.</b>

#**Actividad 2**

# <b>La BD northwind</b>
<ul>
<li>La BD <a href="https://github.com/jpwhite3/northwind-SQLite3">northwind</a> es una BD de ejemplo utilizada en MS-ACCESS que ha sido portada a SQLite.</li>
<li>En el link anterior encontrarán una gráfica del modelo relacional y los scripts necesarios para la creación de tablas e inserción de registros.</li>
<li>Realice consultas (3+) para explorar los datos.</li>
<li>Proponga consultas (3+) poniendo en práctica lo visto en esta sesión.</li>
</ul>

In [None]:
# Su código aquí
conn2 = sqlite3.connect("/content/drive/MyDrive/SQL/northwind.db")
sqlScript = open("/content/drive/MyDrive/SQL/northwind.sql").read()
cursor2 = conn2.cursor()
cursor2.executescript(sqlScript)

<sqlite3.Cursor at 0x7a5beec9ddc0>

In [None]:
conn2.commit()

##**Consulta 1: Explorar datos**

In [None]:
# Su código aquí
pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';",conn2)

Unnamed: 0,name
0,sqlite_sequence
1,Categories
2,CustomerCustomerDemo
3,CustomerDemographics
4,Customers
5,Employees
6,EmployeeTerritories
7,Order Details
8,Orders
9,Products


##**Consulta 2: Explorar datos**

In [None]:
# Su código aquí (ver primeros registros de la tabla)

sql_query_exp2=""" SELECT *
                        FROM Customers LIMIT 5;"""
pd.read_sql(sql_query_exp2,conn2)

Unnamed: 0,CustomerID,CompanyName,ContactName,ContactTitle,Address,City,Region,PostalCode,Country,Phone,Fax
0,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,,12209,Germany,030-0074321,030-0076545
1,ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,Owner,Avda. de la Constituci�n 2222,M�xico D.F.,,05021,Mexico,(5) 555-4729,(5) 555-3745
2,ANTON,Antonio Moreno Taquer�a,Antonio Moreno,Owner,Mataderos 2312,M�xico D.F.,,05023,Mexico,(5) 555-3932,
3,AROUT,Around the Horn,Thomas Hardy,Sales Representative,120 Hanover Sq.,London,,WA1 1DP,UK,(171) 555-7788,(171) 555-6750
4,BERGS,Berglunds snabbk�p,Christina Berglund,Order Administrator,Berguvsv�gen 8,Lule�,,S-958 22,Sweden,0921-12 34 65,0921-12 34 67


##**Consulta 3: Explorar datos**

In [None]:
# Su código aquí
sql_query_exp3=""" SELECT COUNT(*)
                  AS total_orders
                  FROM Orders;"""
pd.read_sql(sql_query_exp3,conn2)

Unnamed: 0,total_orders
0,830


##**Consulta 4: UNION**

In [None]:
# Su código aquí
sql_query_int1=""" SELECT Country
                  FROM Customers
                  UNION
                  SELECT Country
                  FROM Suppliers;"""
pd.read_sql(sql_query_int1,conn2)

Unnamed: 0,Country
0,
1,Argentina
2,Australia
3,Austria
4,Belgium
5,Brazil
6,Canada
7,Denmark
8,Finland
9,France


##**Consulta 5: INTERSECT**

In [None]:
# Su código aquí
sql_query_un2=""" SELECT ProductID
                  FROM Products
                  INTERSECT
                  SELECT ProductID
                  FROM "Order Details";"""
pd.read_sql(sql_query_un2,conn2)

Unnamed: 0,ProductID
0,1
1,2
2,3
3,4
4,5
...,...
72,73
73,74
74,75
75,76


##**Consulta 6: EXCEPT**

In [None]:
# Su código aquí
sql_query_exc3=""" SELECT EmployeeID
                  FROM Employees
                  EXCEPT
                  SELECT EmployeeID
                  FROM Orders;"""
pd.read_sql(sql_query_exc3,conn2)

Unnamed: 0,EmployeeID


# <b>Fin Actividad 2.</b>

#**Más sobre UNION, INTERSECT y EXCEPT**
[UNION](https://www.sqlitetutorial.net/sqlite-union/)

[INTERSECT](https://www.sqlitetutorial.net/sqlite-intersect/)

[EXCEPT](https://www.sqlitetutorial.net/sqlite-except/)

# <font color='red'>__LINK DE INTERÉS__: Tutorial para reforzar lo aprendido sobre  UNION, INTERSECT y EXCEPT</font>

El siguiente link aborda el uso de UNION, INTERSECT y EXCEPT, para visualizarlo, hacer click [aquí](https://www.youtube.com/watch?v=krnAfIHqGzI).