# Pandas y SQL

## Los Datos

Cargamos los datos de la clase "Introducción a Pandas"

In [155]:
# Librerias Necesarias
import pandas as pd
import numpy as np

# Importamos los Datos
df4 = pd.read_csv(
    'data/auto.csv', 
    index_col=0         # que col es el índice
)

### Pandas - Seleccionar / SQL SELECT (PL/PgSQL)

**Primeras filas:**

In [156]:
df4.head() #Si head no recibe un número como argumento por defecto devuelve los primeros 5 valores.

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic


SQL:

~~~~sql
SELECT *
FROM auto
ORDER BY make
LIMIT 5;

/* 
Nota: El dataframe importado no está ordenado por el índice (make). 
Para tener exactamente el mismo output que en SQL, en Pandas habría 
ordenarlo de la siguiente manera.
*/

In [157]:
df4.sort_values(by=['make']).head()

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Audi 5000,9690,17,5.0,3.0,15,2830,189,37,131,3.2,Foreign
Audi Fox,6295,23,3.0,2.5,11,2070,174,36,97,3.7,Foreign


sort_values: Nos permite ordenar nuestro dataframe por una o más columnas.

Sintaxis: 
    
- Orden ascendente:
        df.sort_values(by=["columna_1","columna_2"])
    
    
- Orden descendente:
        df.sort_values(by=["columna_1","columna_2"], ascending=False)
    
- Orden especificando posición de los valores NaN:
    - Al principio:
        df.sort_values(by=["columna_1","columna_2"], ascending=False, na_position="first")
            
    - Al final (opción default):
        df.sort_values(by=["columna_1","columna_2"], ascending=False, na_position="last")

**Últimas filas:**

In [158]:
df4.tail() #Si tail no recibe un número como argumento por defecto devuelve los últimos 5 valores.

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign
Volvo 260,11995,17,5.0,2.5,14,3170,193,37,163,2.98,Foreign


SQL:
~~~~sql
SELECT *
FROM auto
ORDER BY make desc
LIMIT 5;

/*
Nota: El dataframe importado no está ordenado por el índice (make). Para tener exactamente el mismo output que en SQL, en Pandas habría ordenarlo de la siguiente manera.
*/

In [159]:
df4.sort_values(by=['make'],ascending=False).head()

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Volvo 260,11995,17,5.0,2.5,14,3170,193,37,163,2.98,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign


**Seleccionar columnas:**

* Una sola columna: Pandas devolvera una serie porque es un objeto más eficiente. En este ejemplo, la dimensión de la serie es "price" y "make" es su índice.

In [160]:
df4["price"]

make
AMC Concord       4099
AMC Pacer         4749
AMC Spirit        3799
Buick Century     4816
Buick Electra     7827
                 ...  
VW Dasher         7140
VW Diesel         5397
VW Rabbit         4697
VW Scirocco       6850
Volvo 260        11995
Name: price, Length: 74, dtype: int64

Si quisiera un dataframe debería hacer lo siguiente:

In [161]:
df4["price"].to_frame()

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


La opción que vimos más arriba no es la más recomendable porque es poco intuitiva, vamos a preferir esta alternativa... que es seleccionar price dentro de una lista anidada, lo que nos ahorra el paso de convertirlo en DataFrame.

In [162]:
df4[["price"]]

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


SQL:
~~~~sql
SELECT
	make,
	price
FROM auto;

Elegimos esta opción porque nos va a permitir seleccionar varias columnas...

* Varias columnas:

In [163]:
df4[["price","weight"]]

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
AMC Concord,4099,2930
AMC Pacer,4749,3350
AMC Spirit,3799,2640
Buick Century,4816,3250
Buick Electra,7827,4080
...,...,...
VW Dasher,7140,2160
VW Diesel,5397,2040
VW Rabbit,4697,1930
VW Scirocco,6850,1990


SQL:

~~~~sql
SELECT
	make,
	price,
    weight
FROM auto;

También podemos selecccionar las columnas por su posición.

* Una sola columna:

In [164]:
df4.columns

Index(['price', 'mpg', 'rep78', 'headroom', 'trunk', 'weight', 'length',
       'turn', 'displacement', 'gear_ratio', 'foreig'],
      dtype='object')

In [165]:
df4.columns[0]

'price'

Como serie...

In [166]:
df4[df4.columns[0]]

make
AMC Concord       4099
AMC Pacer         4749
AMC Spirit        3799
Buick Century     4816
Buick Electra     7827
                 ...  
VW Dasher         7140
VW Diesel         5397
VW Rabbit         4697
VW Scirocco       6850
Volvo 260        11995
Name: price, Length: 74, dtype: int64

Como dataframe...

In [167]:
df4[[df4.columns[0]]]

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


* Varias columnas:

In [168]:
df4[df4.columns[[0, 5]]] #Primera y sexta columna

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
AMC Concord,4099,2930
AMC Pacer,4749,3350
AMC Spirit,3799,2640
Buick Century,4816,3250
Buick Electra,7827,4080
...,...,...
VW Dasher,7140,2160
VW Diesel,5397,2040
VW Rabbit,4697,1930
VW Scirocco,6850,1990


En SQL puede ser bastante complicado seleccionar las columnas por su posición, pero si solo se quiere obtener los nombres de las columnas de la tabla (df4.columns):

SQL:
~~~~sql
SELECT *
  FROM information_schema.columns
  WHERE table_schema = 'public'
  	AND table_name = 'auto'

/*
Consulta escrita para Postgres SQL (P-SQL), esto puede variar en otras implementaciones como SQL Server (T-SQL).
*/

**Selección de filas por rango:**

Sintaxis:
df[desde:hasta] (Recordar que el hasta es exclusive).

In [169]:
#Seleccionamos desde la 6 fila hasta la 24.
df4[5:25]

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
Buick Regal,5189,20,3.0,2.0,16,3280,200,42,196,2.93,Domestic
Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic
Cad. Deville,11385,14,3.0,4.0,20,4330,221,44,425,2.28,Domestic
Cad. Eldorado,14500,14,2.0,3.5,16,3900,204,43,350,2.19,Domestic
Cad. Seville,15906,21,3.0,3.0,13,4290,204,45,350,2.24,Domestic
Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic
Chev. Impala,5705,16,4.0,4.0,20,3690,212,43,250,2.56,Domestic


SQL:

Para seleccionar por un rango en SQL necesito que el índice sea numérico.
Como actualmente make es el índice lo tengo que modificar con:

~~~~sql
ALTER TABLE <table_name> DROP CONSTRAINT <table_name>_pkey; --Dropeo make como primary key.
ALTER TABLE <table_name> ADD COLUMN <id_column_name> SERIAL PRIMARY KEY;  --Agrego una columna id

ALTER TABLE auto DROP CONSTRAINT auto_pkey;
ALTER TABLE auto ADD COLUMN id SERIAL PRIMARY KEY;
~~~~

Después de eso puedo hacer la consulta:

~~~~sql
SELECT *
FROM auto
WHERE id >=6 AND id <=25
~~~~

Otra manera:

~~~~sql
SELECT *
FROM auto
WHERE id BETWEEN 6 AND 25
~~~~

**Selección por label indexing (.loc)**:

El método .loc nos permite seleccionar elementos a partir de etiquetas.

Las sintaxis admitidas son las siguientes:

* df.loc[valor_buscado,"nombre_columna"]
* df.loc[["valor_buscado_1","valor_buscado_2"] , ["nombre_columna_1","nombre_columna_2"]]
* df.loc["valor_buscado_desde":"valor_buscado_hasta" , "nombre_columna_desde":"nombre_columna_hasta"]

Probemos cada una:

In [170]:
#Buscamos el precio del Buick Century
#df.loc[valor_buscado,"nombre_columna"]
df4.loc["Buick Century","price"]

4816

SQL:
~~~~sql
SELECT price
FROM auto
WHERE
    make = 'Buick Century'
~~~~

In [171]:
#Buscamos el precio y el peso del Buick Century y del VW Dasher
#df.loc[["valor_buscado_1","valor_buscado_2"] , ["nombre_columna_1","nombre_columna_2"]]
df4.loc[["Buick Century","VW Dasher"],["price","weight"]] #Notar la lista anidada

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
Buick Century,4816,3250
VW Dasher,7140,2160


SQL:

~~~~sql
SELECT make,
       price,
	   weight
FROM auto
WHERE
	make = 'Buick Century' OR make = 'VW Dasher' 
~~~~

In [172]:
#Buscamos todas las columnas desde millas por galón (mpg) hasta capacidad del baúl (trunk)
#en los autos que van desde el AMC Spirit hasta el Buick Electra.

#df.loc["valor_buscado_desde":"valor_buscado_hasta" , "nombre_columna_desde":"nombre_columna_hasta"]
df4.loc["AMC Spirit":"Buick Electra", "mpg":"trunk"]

#Una curiosidad de .loc respecto a Python en general es que incluye el último elemento de un rango.

Unnamed: 0_level_0,mpg,rep78,headroom,trunk
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AMC Spirit,22,,3.0,12
Buick Century,20,3.0,4.5,16
Buick Electra,15,4.0,4.0,20


Esta consulta en SQL es más complicada, tenemos que hacer una subconsulta...

Empecemos por la subconsulta...

Vamos a buscar el id mínimo y máximo de los autos que buscamos.

El mínimo va a ser "AMC Spirit" porque es desde donde partimos nuestra búsqueda
y el máximo "Buick Electra" porque es hasta dónde buscamos.

~~~~sql

SELECT
    min(id),
    max(id)
FROM
    auto
WHERE
    make IN ('AMC Spirit','Buick Electra')
~~~~

![](files/min_max.png)

Venimos bien en esta pequeña tabla, llamémosla "B", tenemos el id mínimo y el máximo, nos falta lo que está en el medio. Ahora pasemos a la consulta general que vamos a llamar tabla "A".

~~~~sql
SELECT
	make,            
	mpg,
	rep78,
	headroom,
	trunk                
FROM
  auto
  

![](files/query.png)

El problema de esta consulta es que contiene todas las observaciones, es decir que contiene el id mínimo, el máximo y lo que está en el medio, pero todo lo demás sobra. Lo que vamos a tener que hacer es unir esta gran consulta (Tabla A) con la subconsulta (Tabla B), conservando SOLAMENTE las observaciones que son mayores o iguales al id mínimo y las que son menores o iguales al id máximo.

~~~~sql

SELECT
   A.make,                   ---Variables que queremos ver
   A.mpg,
	A.rep78,
	A.headroom,
	A.trunk              ---Hasta acá las variables
FROM
  auto AS A
INNER JOIN                   ---JOIN (VER SU CONDICIÓN)
   (  SELECT                 ---Acá empieza la subconsulta
		   min(id),
		   max(id)
      FROM
         auto
      WHERE
	      make IN ('AMC Spirit','Buick Electra')
   ) AS B --Acá termina 
ON 
   A.id >= B.min AND     ---CONDICIÓN DEL JOIN
   A.id <= B.max 

![](files/query_con_min_max.png)

**Selección por integer indexing (.iloc)**:

El método .iloc nos permite seleccionar utilizando las posiciones, los números de índice de nuestras filas y columnas.

Las sintaxis admitidas son las siguientes:

* df.iloc[índice_fila_buscada_1,índice_columna_buscada_1]
* df.iloc[[índice_fila_buscada_1,índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
* df.iloc[[índice_fila_buscada_1, índice_fila_buscad_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]

Probemos cada una:

In [173]:
#Buscamos el valor de la columna con índice 7 en la fila con índice 4.
#df.iloc[índice_fila_buscada_1,índice_columna_buscada_1]
df4.iloc[4,7]

43

SQL:
~~~~SQL
SELECT
	turn
FROM auto
WHERE id = 5

In [174]:
#Buscamos los valores de las columnas con índice 1 y 7 en las filas con índice 4 y 12.
#df.iloc[[índice_fila_buscada_1,índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
df4.iloc[[4,12],[1,7]]

Unnamed: 0_level_0,mpg,turn
make,Unnamed: 1_level_1,Unnamed: 2_level_1
Buick Electra,15,43
Cad. Seville,21,45


SQL:
~~~~SQL

SELECT
	make,
	mpg,
	turn
FROM auto
WHERE
	id = 5 OR id = 13	    

In [175]:
#Buscamos los valores de las 4 últimas columnas en las filas con índice 3 a 8.
#df.iloc[[índice_fila_buscada_1, índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
df4.iloc[3:8,-4:]

Unnamed: 0_level_0,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Buick Century,40,196,2.93,Domestic
Buick Electra,43,350,2.41,Domestic
Buick LeSabre,43,231,2.73,Domestic
Buick Opel,34,304,2.87,Domestic
Buick Regal,42,196,2.93,Domestic


SQL:
~~~~SQL
SELECT
    make,
	turn,
	displacement,
	gear_ratio,
	foreig
FROM auto
WHERE
id BETWEEN 4 AND 8

Recuerden que si nos resulta más cómodo o necesitamos usar make como una columna podemos resetear el índice para obtener uno numérico como hicimos con las series al principio de la clase.

In [176]:
df4.reset_index(inplace=True)
df4

#Ahora make es una columna más...

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...,...
69,VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
70,VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
71,VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
72,VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


**Selección en base a operaciones lógicas (WHERE - CASE):**

Al igual que NumPy, Pandas también puede realizar operaciones lógicas, recordemos sus operadores lógicos.

| Operador Python     | Operador NumPy/Pandas     |
|-----------------|:---------------------:|
| or     | <code>&#124;</code>     | 
| and     | &     |
| not     | ~     |  


Busquemos los autos que puedan recorrer 12 millas por galón de combustible (mpg):

In [177]:
df4["mpg"]==12

0     False
1     False
2     False
3     False
4     False
      ...  
69    False
70    False
71    False
72    False
73    False
Name: mpg, Length: 74, dtype: bool

SQL:
~~~~SQL
/*Con CASE marcamos con 1 a los que cumplen la condición (True) y con 0 a lo que no (False) */

SELECT
	mpg, --Borrar "mpg," para tener un output igual a de Pandas
CASE
	WHEN (mpg = 12) THEN 1
	ELSE 0
END AS booleano
FROM auto;

¿Qué pasó? El output no fue el esperado... Pero Pandas está funcionando bien, lo que pasa es que con el código que escribimos nosotros preguntamos **SI** hay autos que cumplan esa condición pero no **CUÁLES**, por eso retorna una serie con booleanos según si la fila cumple o no la condición. 

Para hacer eso, tenemos que indicarle que seleccione del dataframe los autos que cumplan con esa condición:

In [178]:
df4[df4["mpg"]==12] #Ahora sí!

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
25,Linc. Continental,11497,12,3.0,3.5,22,4840,233,51,400,2.47,Domestic
26,Linc. Mark V,13594,12,3.0,2.5,18,4720,230,48,400,2.47,Domestic


SQL:
~~~~SQL
SELECT *
FROM auto
WHERE mpg = 12;

In [179]:
#Nombre de los autos y su precio (price), de aquellos que pesan más de 3000 libras y son de origen extranjero

#Usamos .loc [Filas que cumplen la condición, etiqueta de columna]
df4.loc[(df4["weight"] > 3000) & (df4["foreig"] == "Foreign"),["make","price"]]

Unnamed: 0,make,price
63,Peugeot 604,12990
73,Volvo 260,11995


SQL:
~~~~SQL
SELECT
	make,
	price
FROM auto
WHERE weight > 3000 AND foreig = 'Foreign'

In [180]:
#Nombre de los autos, capacidad del baúl (trunk) y millas por galón (mpg)
#de aquellos con capacidad de baúl igual a 18 o que millas por galón sea mayor
#a 40

#[Filas que cumplen la condición, etiquetas de columna]
df4.loc[(df4["trunk"] == 18) | (df4["mpg"] >= 40),["make","trunk","mpg"]]

Unnamed: 0,make,trunk,mpg
26,Linc. Mark V,18,12
70,VW Diesel,15,41


SQL:
~~~~SQL

SELECT
    make,
    trunk,
    mpg
FROM auto
WHERE trunk = 18 OR mpg >=40

In [181]:
#Marca, precio y origen del los 10 primeros autos 10 autos que
#no sean de origen extranjero usando operador not.
df4.loc[~(df4["foreig"] == "Foreign"),["make","price","foreig"]].head(10)

Unnamed: 0,make,price,foreig
0,AMC Concord,4099,Domestic
1,AMC Pacer,4749,Domestic
2,AMC Spirit,3799,Domestic
3,Buick Century,4816,Domestic
4,Buick Electra,7827,Domestic
5,Buick LeSabre,5788,Domestic
6,Buick Opel,4453,Domestic
7,Buick Regal,5189,Domestic
8,Buick Riviera,10372,Domestic
9,Buick Skylark,4082,Domestic


SQL:
~~~~SQL

SELECT
    make,
    price,
    foreig
FROM auto
WHERE NOT foreig = 'Foreign'
LIMIT 10

El método **isin** es un **or** múltiple de igualdad y nos puede ahorrar escribir mucho código.

Escribir esto puede ser bastante insufrible.

In [182]:
#Selecciono marca y millas por galón (mpg) de autos cuyo mpg sea 14, 20, 28, 34 ó 41.
df4.loc[(df4["mpg"] == 14) |
        (df4["mpg"] == 20) |
        (df4["mpg"] == 28) |
        (df4["mpg"] == 34) |
        (df4["mpg"] == 41)
        ,["make","mpg"]]

Unnamed: 0,make,mpg
3,Buick Century,20
7,Buick Regal,20
10,Cad. Deville,14
11,Cad. Eldorado,14
23,Ford Fiesta,28
27,Linc. Versailles,14
29,Merc. Cougar,14
32,Merc. XR-7,14
33,Merc. Zephyr,20
41,Plym. Arrow,28


Entonces usamos **isin** para consultar si hay autos que ese encuentra en una lista de valores de mpg.

In [183]:
#Selecciono marca y millas por galón (mpg) de autos cuyo mpg sea 14, 20, 28, 34 ó 41.
df4.loc[df4["mpg"].isin([14,20,28,34,41]),["make","mpg"]]

Unnamed: 0,make,mpg
3,Buick Century,20
7,Buick Regal,20
10,Cad. Deville,14
11,Cad. Eldorado,14
23,Ford Fiesta,28
27,Linc. Versailles,14
29,Merc. Cougar,14
32,Merc. XR-7,14
33,Merc. Zephyr,20
41,Plym. Arrow,28


SQL:
~~~~SQL
SELECT
	make,
	mpg
FROM auto
WHERE
	mpg IN(14,20,28,34,41)

Las operaciones lógicas que vimos hasta ahora también nos permiten hacer comparaciones entre columnas.

In [184]:
#Seleccionamos las filas en que la cilindrada (displacement) sea mayor que
#la longitud del auto (length)
df4[df4["displacement"] > df4["length"]]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
5,Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
8,Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
9,Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic
10,Cad. Deville,11385,14,3.0,4.0,20,4330,221,44,425,2.28,Domestic
11,Cad. Eldorado,14500,14,2.0,3.5,16,3900,204,43,350,2.19,Domestic
12,Cad. Seville,15906,21,3.0,3.0,13,4290,204,45,350,2.24,Domestic
13,Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic


SQL:
~~~~SQL
SELECT
    make,
    mpg
FROM auto
WHERE
    displacement > length

**Obtener estadísticos**

.describe() permite obtener rápidamente los estadísticos de todas las columnas numéricas, cabe aclarar que no incluye a los valores nan.

In [185]:
df4.describe()

Unnamed: 0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio
count,74.0,74.0,69.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0
mean,6165.256757,21.297297,3.405797,2.993243,13.756757,3019.459459,187.932432,39.648649,197.297297,3.014865
std,2949.495885,5.785503,0.989932,0.845995,4.277404,777.193567,22.26634,4.399354,91.837219,0.456287
min,3291.0,12.0,1.0,1.5,5.0,1760.0,142.0,31.0,79.0,2.19
25%,4220.25,18.0,3.0,2.5,10.25,2250.0,170.0,36.0,119.0,2.73
50%,5006.5,20.0,3.0,3.0,14.0,3190.0,192.5,40.0,196.0,2.955
75%,6332.25,24.75,4.0,3.5,16.75,3600.0,203.75,43.0,245.25,3.3525
max,15906.0,41.0,5.0,5.0,23.0,4840.0,233.0,51.0,425.0,3.89


**Agrupar por (Group By):**

Con Pandas podemos agrupar los datos a partir de los valores de las columnas. 

Por ejemplo, intentemos obtener la cantidad de datos según el origen (foreig) y la cantidad de reparaciones efectuadas en 1978 (rep78).

In [186]:
(df4.groupby(["foreig","rep78"])
    .size()
    .to_frame(name="count") #Para que devuelva un df en lugar de una serie así es más legible
)

Unnamed: 0_level_0,Unnamed: 1_level_0,count
foreig,rep78,Unnamed: 2_level_1
Domestic,1.0,2
Domestic,2.0,8
Domestic,3.0,27
Domestic,4.0,9
Domestic,5.0,2
Foreign,3.0,3
Foreign,4.0,9
Foreign,5.0,9


SQL:
~~~~SQL

SELECT
	foreig,
	rep78,
	COUNT(*)
FROM auto
WHERE
	foreig IS NOT null
	AND
	rep78 IS NOT null	
GROUP BY
	foreig,
	rep78
ORDER BY
	foreig,
	rep78

Tenemos varias funciones de agregación que podemos aplicar a nuestros datos, algunas de ellas son:

 |    Agregación   |      Descripción                 |
 |-----------------|:--------------------------------:|
 | count()         | Contar el número de casos        |
 | first(), last() | Primer y último item             |
 | mean(), median()| Media, Mediana                   |
 | min(), max()    | Mínimo y Máximo                  |
 | std(), var()    | Varianza y desvio                |
 | mad()           | Desviación absoluta de la mediana|
 | prod()          | Producto de los items            |
 | sum()           | Suma de los Casos                |
 
Tengamos en cuenta que el comportamiento de Pandas por default es ignorar los NaN (skipna=True). Este comportamiento es opuesto al de Numpy, recordemos que para calcular el promedio en un array con algún valor NaN teníamos que usar la función nanmean para este no nos devolviese un promedio con valor NaN. Si el resultado de una agrupación es NaN es porque toda nuestra columna asumía valores NaN.

In [187]:
#Media de precio, rep78 y mpg según origen.
df4.groupby(["foreig"])[["price","rep78","mpg"]].mean()

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,6072.423077,3.020833,19.826923
Foreign,6384.681818,4.285714,24.772727


SQL:
~~~~SQL

SELECT 
	foreig,
	round(avg(price),6),
	round(avg(rep78)::numeric,6),
	round(avg(mpg),6)
FROM
	auto
group by
	foreig

Pero atención, rep78 tiene valores nan:

In [188]:
df4["rep78"][df4["rep78"].isnull()==True]

2    NaN
6    NaN
44   NaN
50   NaN
63   NaN
Name: rep78, dtype: float64

SQL:
~~~~SQL

SELECT
	id,
	rep78
FROM
	auto
WHERE
	rep78 IS NULL

Otras formas de seleccionar filas con valores NaN...

https://datatofish.com/rows-with-nan-pandas-dataframe/

In [189]:
df4_nan= df4[df4.isnull().any(axis=1)]
df4_nan

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic
50,Pont. Phoenix,4424,19,,3.5,13,3420,203,43,231,3.08,Domestic
63,Peugeot 604,12990,14,,3.5,14,3420,192,38,163,3.58,Foreign


~~~~SQL

SELECT
	make, price, mpg, rep78, headroom, trunk, weight,
	length, turn, displacement, gear_ratio, foreig
FROM (
    SELECT * FROM auto WHERE make IS NULL
    UNION
    SELECT * FROM auto WHERE price IS NULL
    UNION
    SELECT * FROM auto WHERE mpg IS NULL
    UNION
    SELECT * FROM auto WHERE rep78 IS NULL
    UNION
    SELECT * FROM auto WHERE headroom IS NULL
    UNION
    SELECT * FROM auto WHERE trunk IS NULL
    UNION
    SELECT * FROM auto WHERE weight IS NULL
    UNION
    SELECT * FROM auto WHERE length IS NULL
    UNION
    SELECT * FROM auto WHERE turn IS NULL
    UNION
    SELECT * FROM auto WHERE displacement IS NULL
    UNION
    SELECT * FROM auto WHERE gear_ratio IS NULL
    UNION
    SELECT * FROM auto WHERE foreig IS NULL
    ORDER BY
        id
) AS nulos

![](files/subset_null_sql.png)

Siguiendo con el tema de agrupación, este es el funcionamiento interno de Pandas al calcular una suma por grupo:

![](files/groupby-example.png)

**Calcular medidas resúmenes por grupo:**

.aggregate() o su alias .agg() nos permite obtener distintas medidas pasándo la medida solicitada como un string. 

In [190]:
#Obtener mínimo, máximo, media y desvío estándar por origen

(df4[["price","foreig"]]
    .groupby(["foreig"])
    .agg(["min","max","mean","std"])
)

Unnamed: 0_level_0,price,price,price,price
Unnamed: 0_level_1,min,max,mean,std
foreig,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Domestic,3291,15906,6072.423077,3097.104279
Foreign,3748,12990,6384.681818,2621.915083


SQL:
~~~~SQL

SELECT
	foreig,
	min(price), 
	max(price), 
	round(avg(price),6) AS mean, 
	round(stddev(price),6) AS std 
FROM
	auto
GROUP BY
	foreig

Si utilizamos el método select_dtypes seleccionar columnas por su tipo. Probemos eligiendo todas las columnas int64. 
* Podemos usar el tipo de dato específico (float64, int64, object, category, etc.)
* Podemos seleccionar todas las numéricas con: numeric
* Se recomienda leer la documentación para más alternativas:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html

In [191]:
df4.select_dtypes(include=["int64"])

Unnamed: 0,price,mpg,trunk,weight,length,turn,displacement
0,4099,22,11,2930,186,40,121
1,4749,17,11,3350,173,40,258
2,3799,22,12,2640,168,35,121
3,4816,20,16,3250,196,40,196
4,7827,15,20,4080,222,43,350
...,...,...,...,...,...,...,...
69,7140,23,12,2160,172,36,97
70,5397,41,15,2040,155,35,90
71,4697,25,15,1930,155,35,89
72,6850,25,16,1990,156,36,97


Sin embargo, con select_dtypes puede ser un poco rebuscado usar group by y tener un buen output.

In [192]:
(df4.select_dtypes(include=['int64'])   #Selecciono solo las int64
    .join(df4["foreig"])                #Recupero la columna string "foreig"
    .groupby(["foreig"])                #Agrupo
    .agg(["min","max","mean","std"])
    .stack()                            #El resultado es una base muy ancha, le cambio la forma.
)

Unnamed: 0_level_0,Unnamed: 1_level_0,price,mpg,trunk,weight,length,turn,displacement
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Domestic,min,3291.0,12.0,7.0,1800.0,147.0,31.0,86.0
Domestic,max,15906.0,34.0,23.0,4840.0,233.0,51.0,425.0
Domestic,mean,6072.423077,19.826923,14.75,3317.115385,196.134615,41.442308,233.711538
Domestic,std,3097.104279,4.743297,4.306288,695.36374,20.046054,3.967582,85.262993
Foreign,min,3748.0,14.0,5.0,1760.0,142.0,32.0,79.0
Foreign,max,12990.0,41.0,16.0,3420.0,193.0,38.0,163.0
Foreign,mean,6384.681818,24.772727,11.409091,2315.909091,168.545455,35.409091,111.227273
Foreign,std,2621.915083,6.611187,3.216906,433.003454,13.682548,1.501082,24.880537


**Calcular diferentes medidas resúmenes para distintas variables**

Hay varias sintaxis admitidas para hacer esto, algunas devolverán outputs idénticos o similares. Es importante leer la documentación para usar la forma que mejor se adapte a nuestras necesidades.

* Creando explícitamente la columna con su respectiva medida con el nombre de la columna y la medida como tupla:

    **Sintaxis:**
    
    (df
        .groupby(["variables","de","agrupación"])
            .agg(nueva_columna=("variable",("medida_resumen")
            )
     )

In [193]:
#Obtener mínimo y máximo del precio y la media y el desvío estándar de mpg por origen.
(df4.groupby(["foreig"])
     .agg(
            min_price=("price", "min"),
            max_price=("price", "max"),
            mean_mpg=("mpg", 'mean'),
            std_mpg=("mpg", "std")
        )
)

Unnamed: 0_level_0,min_price,max_price,mean_mpg,std_mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Domestic,3291,15906,19.826923,4.743297
Foreign,3748,12990,24.772727,6.611187


* Creando columnas a partir de un diccionario donde su clave sea la variable elegida y su valor sea la medida resumen o una lista de medidas resúmen:

    **Sintaxis:**
~~~~Python
     (df
        .groupby(["variables","de","agrupación"])
            .agg({
                "variable_1": ["medida_resumen_1", "medida_resumen_2"],
                "variable_2":["medida_resumen_3", "medida_resumen_4"]
            })
    )

In [194]:
#Obtener mínimo y máximo del precio y la media y el desvío estándar de mpg por origen.
(df4.groupby(["foreig"])
    .agg({
        "price": ["min", "max"],
        "mpg":["mean", "std"]
    })
)

Unnamed: 0_level_0,price,price,mpg,mpg
Unnamed: 0_level_1,min,max,mean,std
foreig,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Domestic,3291,15906,19.826923,4.743297
Foreign,3748,12990,24.772727,6.611187


Esta última sintaxis puede ser muy cómoda a la hora de solicitar varias medidas resumen pero tiene como resultado un output un poco incómodo si después tenemos que seguir manipulando el dataframe. Por eso siempre tenemos que tener en nuestra cabeza el output que esperamos y trabajar en consecuencia.

In [195]:
(df4
    .groupby(["foreig"])
    .agg({
        "price": ["min", "max"],
        "mpg":["mean", "std"]
        })
).columns

MultiIndex([('price',  'min'),
            ('price',  'max'),
            (  'mpg', 'mean'),
            (  'mpg',  'std')],
           )

SQL:
~~~~SQL

SELECT
	foreig,
	round(min(price),6) AS price_min,
	round(max(price),6) AS price_max,
	round(avg(mpg),6) AS mpg_mean,
	round(stddev(mpg),6) AS mpg_std
FROM
	auto
GROUP BY
	foreig

**Filtrando el output (HAVING)**

En el apartado "*Selección en base a operaciones lógicas (WHERE - CASE)*" vimos que podíamos establecer ciertas condiciones al momento seleccionar datos de nuestro dataframe.

Es decir que nosotros filtrábamos los datos **ANTES** de aplicar cualquier agrupamiento (DE ENTRADA) ¿Pero qué pasa si queremos filtrar **DESPUÉS** de agrupar? (A LA SALIDA, ANTES DE OBTENER NUESTRA TABLA FINAL)

En SQL esta diferencia se ve muy claro, supongamos el siguiente ejemplo:

Queremos contar la cantidad de reparaciones por origen, pero solo nos interesa aquellos casos que tienen más 5 reparaciones. Entonces con lo que hasta ahora sabemos de SQL haríamos lo siguiente:

SQL:
~~~~SQL
SELECT
	foreig,
	rep78,
	count(*)
FROM
	auto
WHERE 
	count >5
GROUP BY
	foreig,
	rep78
ORDER BY
	foreig,
	rep78

Pero no, esto está mal y vamos a recibir el siguiente error.

Sucede que la columna count no existe dentro de la tabla auto, es una columna virtual, se calcula en la consulta "on the fly", en el momento que ejecutamos la consulta. Necesitamos usar la cláusula HAVING, la cual va precedida por el groupby.

SQL:
~~~~SQL
SELECT
	foreig,
	rep78,
	COUNT(*)
FROM
	auto
GROUP BY
	foreig,
	rep78
HAVING
	COUNT(*)>5
ORDER BY
	foreig,
	rep78

¡Ahora sí!

<div> <img src="files/having.png" width="300"/> </div>

Una forma equivalente de hacer esto en Pandas en 2 pasos podría ser:

    1) Agrupamos:

In [196]:
df5 = (df4[['foreig','rep78']]               #Selecciono foreig y rep78
        .reset_index()                       #Reseteo índice para aplicar groupby
        .groupby(['foreig','rep78'])         #Agrupo
        .count()                             #Cuento
        .rename(columns={"index":"count"})   #Renombro
        .reset_index()                       #Reseteo índice
      )                      
df5

Unnamed: 0,foreig,rep78,count
0,Domestic,1.0,2
1,Domestic,2.0,8
2,Domestic,3.0,27
3,Domestic,4.0,9
4,Domestic,5.0,2
5,Foreign,3.0,3
6,Foreign,4.0,9
7,Foreign,5.0,9


    2) Filtramos la salida:

In [197]:
df5.loc[(df5["count"] > 5)] #Filtro los que son menores que 5

Unnamed: 0,foreig,rep78,count
1,Domestic,2.0,8
2,Domestic,3.0,27
3,Domestic,4.0,9
6,Foreign,4.0,9
7,Foreign,5.0,9


Con un poco de práctica también podemos hacerlo en un solo paso.

In [198]:
(df4[['foreig','rep78']]               #Selecciono foreig y rep78
    .reset_index()                     #Reseteo índice para aplicar groupby
    .groupby(['foreig','rep78'])       #Agrupo
    .count()                           #Cuento
    .rename(columns={"index":"count"}) #Renombro
    .loc[lambda x: x["count"] > 5]     #Filtro los que son menores que 5
    .reset_index()                     #Reseteo índice
)

Unnamed: 0,foreig,rep78,count
0,Domestic,2.0,8
1,Domestic,3.0,27
2,Domestic,4.0,9
3,Foreign,4.0,9
4,Foreign,5.0,9


**Índices múltiples (multi index)**:

Las columnas por las que agrupemos serán nuestro nuevo índice. En este caso foreig, headroom y rep78 son los índices.

In [199]:
(df4
    .groupby(["foreig","headroom","rep78"])
        [["price","mpg","weight"]]
        .mean()
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,price,mpg,weight
foreig,headroom,rep78,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,1.5,1.0,4934.0,18.0,3470.0
Domestic,1.5,4.0,4389.0,28.0,1800.0
Domestic,2.0,1.0,4195.0,24.0,2730.0
Domestic,2.0,2.0,4314.333333,23.333333,2886.666667
Domestic,2.0,3.0,4883.4,21.4,3142.0
Domestic,2.0,5.0,3984.0,30.0,2120.0
Domestic,2.5,3.0,6997.333333,21.0,3253.333333
Domestic,2.5,5.0,4425.0,34.0,1800.0
Domestic,3.0,3.0,8390.333333,18.666667,3670.0
Domestic,3.0,4.0,5066.0,18.0,3355.0


Podemos verificarlo así:

In [200]:
(df4.groupby(["foreig","headroom","rep78"])[["price","mpg","weight"]]
     .mean()
     .index)

MultiIndex([('Domestic', 1.5, 1.0),
            ('Domestic', 1.5, 4.0),
            ('Domestic', 2.0, 1.0),
            ('Domestic', 2.0, 2.0),
            ('Domestic', 2.0, 3.0),
            ('Domestic', 2.0, 5.0),
            ('Domestic', 2.5, 3.0),
            ('Domestic', 2.5, 5.0),
            ('Domestic', 3.0, 3.0),
            ('Domestic', 3.0, 4.0),
            ('Domestic', 3.5, 2.0),
            ('Domestic', 3.5, 3.0),
            ('Domestic', 3.5, 4.0),
            ('Domestic', 4.0, 2.0),
            ('Domestic', 4.0, 3.0),
            ('Domestic', 4.0, 4.0),
            ('Domestic', 4.5, 2.0),
            ('Domestic', 4.5, 3.0),
            ('Domestic', 5.0, 2.0),
            ( 'Foreign', 1.5, 4.0),
            ( 'Foreign', 2.0, 4.0),
            ( 'Foreign', 2.0, 5.0),
            ( 'Foreign', 2.5, 3.0),
            ( 'Foreign', 2.5, 4.0),
            ( 'Foreign', 2.5, 5.0),
            ( 'Foreign', 3.0, 3.0),
            ( 'Foreign', 3.0, 4.0),
            ( 'Foreign', 3.0

### Combinar tablas

#### Pandas merge / SQL Join (PL/PgSQL)

Merge o Join (SQL) nos permite combinar registros de varias tablas en una sola. En Pandas hay 4 tipos de join (merge):

* Inner
* Left
* Right
* Outer

**Sintaxis:**
* pd.merge(df1, df2, on=["key_1","key_2","key_n"], how= ("inner"/"left"/"right"/"outer")

* df1.merge(df2, how=("inner"/"left"/"right"/"outer"), on=["key_1","key_2,key_n"])

on = columnas o columas que las tablas tienen en común.
how = tipo de join. Si no se especifica por default es un inner.


Para explicar cada join vamos a trabajar con dos tablas que contienen datos de bebidas gaseosas, la primera de ellas contiene su aporte energético (kcal) y la segunda detalla sus macronutrientes (macro).

In [201]:
kcal= {"Marca":["Coca", "Coca Zero", "Pepsi", "Manaos"],
       "Kcal":[37, 0.1, 31, 45]
    }

kcal= pd.DataFrame(kcal).sort_values(by="Marca").reset_index(drop=True)
kcal

Unnamed: 0,Marca,Kcal
0,Coca,37.0
1,Coca Zero,0.1
2,Manaos,45.0
3,Pepsi,31.0


In [202]:
macro= {"Marca":["Coca", "Pepsi", "Cunnington", "Manaos", "Sprite"],
        "Azucares":[9, 7.5, 10, 11,10],
        "Proteinas": [0.1, 0, 0.2, 0.1,0],
        "Grasas": [0, 0, 0, 0,0] 
    }

macro= pd.DataFrame(macro).sort_values(by="Marca").reset_index(drop=True)
macro

Unnamed: 0,Marca,Azucares,Proteinas,Grasas
0,Coca,9.0,0.1,0
1,Cunnington,10.0,0.2,0
2,Manaos,11.0,0.1,0
3,Pepsi,7.5,0.0,0
4,Sprite,10.0,0.0,0


##### Inner join

Esta cláusula busca coincidencias entre 2 tablas, en función a una columna que tienen en común. De tal modo que sólo la intersección se mostrará en los resultados.

![](files/INNER_JOIN.webp)

![](files/join-inner_2.png)

In [203]:
gaseosas_inner = pd.merge(kcal, macro, on="Marca", how="inner")
gaseosas_inner

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0
1,Manaos,45.0,11.0,0.1,0
2,Pepsi,31.0,7.5,0.0,0


In [204]:
#Con el parámetro indicator podemos saber de qué tabla/s proviene nuestra fila
gaseosas_inner = pd.merge(kcal, macro, on="Marca", how="inner",indicator=True)
gaseosas_inner

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0,both
1,Manaos,45.0,11.0,0.1,0,both
2,Pepsi,31.0,7.5,0.0,0,both


SQL:
~~~~SQL

SELECT
	m.marca AS marca,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
INNER JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca
ORDER BY
	k.marca ASC

![](files/inner_sql.png)

##### Left join
A diferencia de un INNER JOIN, donde se busca una intersección entre ambas tablas, con LEFT JOIN damos prioridad a la tabla de la izquierda, y buscamos en la tabla derecha. Si no existiese ninguna coincidencia se mostrarán todos los resultados de la primera tabla.

![](files/LEFT_JOIN.webp)

![](files/left_joint.png)

In [205]:
gaseosas_left = pd.merge(kcal, macro, on="Marca", how="left")
gaseosas_left

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0.0
1,Coca Zero,0.1,,,
2,Manaos,45.0,11.0,0.1,0.0
3,Pepsi,31.0,7.5,0.0,0.0


In [206]:
gaseosas_left = pd.merge(kcal, macro, on="Marca", how="left", indicator=True)
gaseosas_left

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0.0,both
1,Coca Zero,0.1,,,,left_only
2,Manaos,45.0,11.0,0.1,0.0,both
3,Pepsi,31.0,7.5,0.0,0.0,both


SQL:
~~~~SQL
--Left join
SELECT
	m.marca,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
LEFT JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca

![](files/left_sql_1.png)

Observemos que el output de SQL es distinto al de Pandas. Donde debiera decir "Coca Zero" tenemos un valor null, esto sucede porque en SQL debemos indicar de qué tabla queremos cada columna. Nosotros solicitamos de la tabla macronutrientes la columna marca pero "Coca Zero" no existe en macronutrientes (tabla derecha), existe en calorías (tabla izquierda), por eso no la encuentra.

Solicitemos la columna marca de ambas tablas para que sea más claro (SELECT k.kcal, m.marca, m.azucares...)

![](files/left_sql_2.png)

Entonces, para que nuestra consulta tenga el output correcto, debemos solicitar marca de la tabla de calorías.

SQL:
~~~~SQL

--Left join
SELECT
	k.marca,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
LEFT JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca

![](files/left_sql_3.png)

##### Right join

En el caso de RIGHT JOIN la situación es muy similar, pero aquí se da prioridad a la tabla de la derecha y buscará en la tabla izquierda las coincidencias.

![](files/RIGHT_JOIN.webp)

![](files/right_join.png)

In [207]:
gaseosas_right = pd.merge(kcal, macro, on="Marca", how="right")
gaseosas_right

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0
1,Cunnington,,10.0,0.2,0
2,Manaos,45.0,11.0,0.1,0
3,Pepsi,31.0,7.5,0.0,0
4,Sprite,,10.0,0.0,0


In [208]:
gaseosas_right = pd.merge(kcal, macro, on="Marca", how="right", indicator=True)
gaseosas_right

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0,both
1,Cunnington,,10.0,0.2,0,right_only
2,Manaos,45.0,11.0,0.1,0,both
3,Pepsi,31.0,7.5,0.0,0,both
4,Sprite,,10.0,0.0,0,right_only


SQL:
~~~~SQL

--Right join
SELECT
	m.marca,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
RIGHT JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca
ORDER BY
	m.marca ASC

Recordemos seleccionar la tabla correcta:

![](files/right_sql.png)

##### Outer join

Mientras que LEFT JOIN muestra todas las filas de la tabla izquierda, y RIGHT JOIN muestra todas las correspondientes a la tabla derecha, OUTER JOIN (o sus sinónimos FULL JOIN o FULL OUTER JOIN) se encarga de mostrar todas las filas de ambas tablas, sin importar que no existan coincidencias. En los casos en que no haya coincidencia mostrará NaN/null por defecto.

![](files/OUTER_JOIN.webp)

![](files/outer_joint.png)

In [209]:
gaseosas_outer = pd.merge(kcal, macro, on="Marca", how="outer")
gaseosas_outer

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0.0
1,Coca Zero,0.1,,,
2,Manaos,45.0,11.0,0.1,0.0
3,Pepsi,31.0,7.5,0.0,0.0
4,Cunnington,,10.0,0.2,0.0
5,Sprite,,10.0,0.0,0.0


In [210]:
gaseosas_outer = pd.merge(kcal, macro, on="Marca", how="outer", indicator=True)
gaseosas_outer

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0.0,both
1,Coca Zero,0.1,,,,left_only
2,Manaos,45.0,11.0,0.1,0.0,both
3,Pepsi,31.0,7.5,0.0,0.0,both
4,Cunnington,,10.0,0.2,0.0,right_only
5,Sprite,,10.0,0.0,0.0,right_only


Pero en SQL no es tan fácil, revisemos la columna marca de cada tabla...

SQL:
~~~~SQL

--Full Outer Join
SELECT
	k.marca AS marca_kcal,
	m.marca AS marca_macronutrientes,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
FULL OUTER JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca
ORDER BY
	k.marca ASC

Acá podemos ver que no hay una sola columna correcta de marca para elegir. Coca Zero no existe en la tabla de macronutrientes, Cunnington y Sprite no existen en la tabla de calorías. Pandas esto lo resolvía por nosotros pero en SQL debemos dar una vuelta más...

![](files/outer_sql_1.png)

Entonces, vamos a usar la función COALESCE, la cual es propia de PL/PgSQL. Cada implementación de SQL puede tener una función equivalente o de similar funcionamiento.

Veamos la sintaxis de COALESCE:

COALESCE(tablaA.columna_n,tablaB.columna_n) AS nombre_de_columna.

COALESCE va a preguntarse si un registro es nulo en la columna_n de la tabla y si es nulo va a utilizar la columna_n de la tablaB.

En nuestro ejemplo funciona de esta manera:

*COALESCE: ¿Es nula la columna marca en la marca de la tabla macronutrientes?*
   * **No:** Todo OK, usa el registro de la tabla macronutrientes.
   * **Sí:** Va a buscar el registro en la tabla kcal y lo completa en nuestro output.
   
En el caso del left y right join podríamos habernos ahorrado de pensar cuál es la tabla correcta y directamente haber usado COALESCE, pero sabiendo la teoría y conociendo nuestros datos, podemos evitarle al servidor computar innecesariamente una función.

SQL:
~~~~SQL
--Full Outer Join
SELECT
	COALESCE(m.marca,k.marca) AS marca,
	k.kcal,
	m.azucares,
	m.proteinas,
	m.grasas
FROM bebidas.kcals AS k
FULL OUTER JOIN bebidas.macronutrientes AS m
	ON k.marca = m.marca
ORDER BY
	marca ASC

![](files/outer_sql_2.png)

###### Uso de joins en el mundo de la vida


<div> <img src="files/1632174980836.jpg" width="400"/> </div>

##### Cross join

El cross join es un tipo de join que nos devuelve el producto cartesiano entre las tablas (todas las combinaciones posibles). No lo hemos incluído en la lista anterior porque originalmente no era un tipo de join admitido por Pandas, por lo que debíamos programarlo a mano alzada. Lo bueno es que es muy fácil de hacer.

![](files/cross_join.png)

Para generar un cross join vamos a crear dos dataframes, uno de platos y otras guarniciones.

In [211]:
platos= {'Plato': ["Milanesa","Suprema de pollo","Milanesa de soja"]}
platos= pd.DataFrame(platos).reset_index(drop=True)
platos

Unnamed: 0,Plato
0,Milanesa
1,Suprema de pollo
2,Milanesa de soja


In [212]:
guarniciones= {"Guarnicion":["Puré de papa","Puré de calabaza",
                             "Ensalada mixta", "Ensalada completa",
                             "Papas fritas"]}

guarniciones= pd.DataFrame(guarniciones).reset_index(drop=True)
guarniciones

Unnamed: 0,Guarnicion
0,Puré de papa
1,Puré de calabaza
2,Ensalada mixta
3,Ensalada completa
4,Papas fritas


Después lo que vamos a hacer es crear en cada dataframe una columna que asuma un único valor, 1 en nuestro caso. Esta columna es fundamental porque haremos nuestro join a partir de ella.

In [213]:
platos["key"] = 1
platos

Unnamed: 0,Plato,key
0,Milanesa,1
1,Suprema de pollo,1
2,Milanesa de soja,1


In [214]:
guarniciones["key"] = 1
guarniciones

Unnamed: 0,Guarnicion,key
0,Puré de papa,1
1,Puré de calabaza,1
2,Ensalada mixta,1
3,Ensalada completa,1
4,Papas fritas,1


La columna key al asumir el mismo valor en cada tabla nos permitirá hacer el join con todas las combinaciones posibles.

In [215]:
plato_guarnicion = pd.merge(platos, guarniciones, on ="key").drop(columns="key")
plato_guarnicion

Unnamed: 0,Plato,Guarnicion
0,Milanesa,Puré de papa
1,Milanesa,Puré de calabaza
2,Milanesa,Ensalada mixta
3,Milanesa,Ensalada completa
4,Milanesa,Papas fritas
5,Suprema de pollo,Puré de papa
6,Suprema de pollo,Puré de calabaza
7,Suprema de pollo,Ensalada mixta
8,Suprema de pollo,Ensalada completa
9,Suprema de pollo,Papas fritas


SQL:
~~~~SQL

SELECT
	plato,
	g.guarnicion
FROM platos
CROSS JOIN guarniciones AS g

![](files/cross_join_Sql.png)

Algunas aclaraciones finales sobre Pandas merge:

No es necesario que las columnas que serán nuestra key tengan el mismo nombre en ambas tablas, podemos utilizar los parámetros left_on y right_on.

Tampoco, es necesario combinar todas las columnas de ambas tablas, por ejemplo:

In [216]:
gaseosas_inner_2 = pd.merge(kcal, macro[["Marca","Azucares"]], on="Marca", how="inner")
gaseosas_inner_2

Unnamed: 0,Marca,Kcal,Azucares
0,Coca,37.0,9.0
1,Manaos,45.0,11.0
2,Pepsi,31.0,7.5


Merge no es el único método para hacer joins similares a SQL, con el método join podemos obtener los mismos resultados. Nosotros nos hemos concentramos en merge porque es más versátil y tiene una sintaxis un poco más legible que join pero ambos métodos son bienvenidos y quedan invitados a investigar sus diferencias y revisar su documentación.

* https://www.geeksforgeeks.org/what-is-the-difference-between-join-and-merge-in-pandas/

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join



#### Pandas concat / SQL Union ALL y UNION (PL/PgSQL)¶

Pandas, UNION ALL y UNION (SQL) nos permiten apilar nuestras tablas/consultas.

**Sintaxis:**

    pd.concat([tabla_a, tabla_b, tabla_c], ignore_index=True)

El parámetro ignore_index nos permite crear un nuevo índice para nuestra tabla apilada de modo que no herede los índices de las tablas originales.

Vamos a crear tres dataframes para ponerlo a prueba:

In [217]:
finanzas = {"Nombre": ["Juan Pérez", "María Gómez","Juan Pérez"], "Area": ["Finanzas", "Finanzas","Finanzas"]}
finanzas = pd.DataFrame.from_dict(finanzas)
finanzas

Unnamed: 0,Nombre,Area
0,Juan Pérez,Finanzas
1,María Gómez,Finanzas
2,Juan Pérez,Finanzas


In [218]:
rrhh = {"Nombre": ["Ana Estévez", "Diego Hernández","Marcela Pérez García"], "Area": ["RRHH", "RRHH","RRHH"]}
rrhh = pd.DataFrame.from_dict(rrhh)
rrhh

Unnamed: 0,Nombre,Area
0,Ana Estévez,RRHH
1,Diego Hernández,RRHH
2,Marcela Pérez García,RRHH


In [219]:
ventas= {"Nombre": ["Matías Rodríguez", "Silvia García"], "Area": ["Ventas", "Ventas"],"Antiguedad_Anios": [3, 6.9]}
ventas= pd.DataFrame.from_dict(ventas)
ventas

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Matías Rodríguez,Ventas,3.0
1,Silvia García,Ventas,6.9


##### UNION ALL

En SQL podemos distinguir UNION ALL de UNION, el primero ignora los duplicados, el segundo los elimina.

Cabe destacar que nuestro ejemplo es trivial, las tablas de SQL no deberían contener registros duplicados porque ello supondría una violación a la integridad referencial.

In [220]:
empleados_union_all = pd.concat([finanzas, rrhh, ventas],ignore_index=True)
empleados_union_all 

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Juan Pérez,Finanzas,
1,María Gómez,Finanzas,
2,Juan Pérez,Finanzas,
3,Ana Estévez,RRHH,
4,Diego Hernández,RRHH,
5,Marcela Pérez García,RRHH,
6,Matías Rodríguez,Ventas,3.0
7,Silvia García,Ventas,6.9


SQL:
~~~~SQL

SELECT 
	nombre,
	area, 
	null::double precision AS antiguedad_anios 
    --Especificamos double precision porque en la tabla en 
	--   que no tiene valores null (ventas) es de ese tipo
FROM finanzas
UNION ALL
SELECT 
	nombre,
	area,
	null::double precision AS antiguedad_anios FROM rrhh
UNION ALL
SELECT nombre,
	area,
	antiguedad_anios AS antiguedad_anios FROM ventas;

![](files/union_all.png)

##### UNION

In [221]:
empleados_union = pd.concat([finanzas, rrhh, ventas]).drop_duplicates().reset_index(drop=True)
empleados_union

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Juan Pérez,Finanzas,
1,María Gómez,Finanzas,
2,Ana Estévez,RRHH,
3,Diego Hernández,RRHH,
4,Marcela Pérez García,RRHH,
5,Matías Rodríguez,Ventas,3.0
6,Silvia García,Ventas,6.9


SQL:
~~~~SQL

SELECT 
	nombre,
	area, 
	null::double precision AS antiguedad_anios 
FROM finanzas
UNION
SELECT 
	nombre,
	area,
	null::double precision AS antiguedad_anios FROM rrhh
UNION
SELECT nombre,
	area,
	antiguedad_anios AS antiguedad_anios FROM ventas
ORDER BY
	area ASC,
	nombre ASC,
	antiguedad_anios ASC

![](files/union.png)

### Tipos de relaciones

##### Uno a uno: 
En este tipo de relación, cuando en una tabla con registros únicos se asocian a un único registro de otra tabla.

In [222]:
promedios= {
    "ALUMNO": ["Juan", "Ana", "María"],
    "PROMEDIO_CARRERA": [7.75, 6.82, 8.45]
}
promedios = pd.DataFrame.from_dict(promedios)
promedios

Unnamed: 0,ALUMNO,PROMEDIO_CARRERA
0,Juan,7.75
1,Ana,6.82
2,María,8.45


In [223]:
edades= {
    "ALUMNO": ["Juan", "Ana", "María"],
    "EDAD_AL_RECIBIRSE": [26, 24, 31]
}
edades = pd.DataFrame.from_dict(edades)
edades

Unnamed: 0,ALUMNO,EDAD_AL_RECIBIRSE
0,Juan,26
1,Ana,24
2,María,31


In [224]:
pd.merge(promedios, edades, on="ALUMNO", how="inner")

Unnamed: 0,ALUMNO,PROMEDIO_CARRERA,EDAD_AL_RECIBIRSE
0,Juan,7.75,26
1,Ana,6.82,24
2,María,8.45,31


##### Uno a muchos (o muchos a uno)
Estamos ante este tipo de relación cuando un registro de una tabla con registros únicos se asocia a más de un registro de otra tabla.

In [225]:
domicilios= {
    "CLIENTE": ["Héctor", "Estela", "Karina", "Esteban"],
    "DOMICILIO": ["Mitre 1201","Sarmiento 2804","Avellaneda 2127","Roca 3412"]}
domicilios= pd.DataFrame.from_dict(domicilios)
domicilios

Unnamed: 0,CLIENTE,DOMICILIO
0,Héctor,Mitre 1201
1,Estela,Sarmiento 2804
2,Karina,Avellaneda 2127
3,Esteban,Roca 3412


In [226]:
pedidos= {
    "CLIENTE": ["Héctor", "Estela", "Karina","Esteban","Esteban"],
    "PEDIDO": [1, 1, 1, 1,2],
    "MONTO": [12000,8400,13340,9127,14315]
}
pedidos= pd.DataFrame.from_dict(pedidos)
pedidos

Unnamed: 0,CLIENTE,PEDIDO,MONTO
0,Héctor,1,12000
1,Estela,1,8400
2,Karina,1,13340
3,Esteban,1,9127
4,Esteban,2,14315


In [227]:
pd.merge(pedidos,domicilios, on="CLIENTE", how="inner")

Unnamed: 0,CLIENTE,PEDIDO,MONTO,DOMICILIO
0,Héctor,1,12000,Mitre 1201
1,Estela,1,8400,Sarmiento 2804
2,Karina,1,13340,Avellaneda 2127
3,Esteban,1,9127,Roca 3412
4,Esteban,2,14315,Roca 3412


Esquema:

![](files/join-one-to-many_5.png)

![](notas_files/join-one-to-many_5.png)

##### Muchos a muchos
Tiene lugar este tipo de relación cuando varios registros de una tabla pueden asociarse a varios registros de otra tabla.

In [228]:
ventas= {
        "PROVINCIA": ["San Luis","Santa Fe", "Santa Fe", "Mendoza"],
        "CANAL_VENTA": ["Local", "Web", "Local", "Local"],
        "MONTO_VENTAS": [3200000,4003000,5700000,6420000]
}

ventas= pd.DataFrame.from_dict(ventas)
ventas

Unnamed: 0,PROVINCIA,CANAL_VENTA,MONTO_VENTAS
0,San Luis,Local,3200000
1,Santa Fe,Web,4003000
2,Santa Fe,Local,5700000
3,Mendoza,Local,6420000


In [229]:
prov= {
    "PROVINCIA": ["San Luis","Santa Fe", "Santa Fe", "Mendoza"],
    "DEPARTAMENTO": ["Juan Martín de Pueyrredón","Rosario", "La Capital", "Guaymallén"],
    "HABITANTES_2010": [204512,1193605,525093,283803]
}
prov= pd.DataFrame.from_dict(prov)
prov

Unnamed: 0,PROVINCIA,DEPARTAMENTO,HABITANTES_2010
0,San Luis,Juan Martín de Pueyrredón,204512
1,Santa Fe,Rosario,1193605
2,Santa Fe,La Capital,525093
3,Mendoza,Guaymallén,283803


In [230]:
ventas_prov= pd.merge(ventas, prov, on="PROVINCIA", how="left")    
ventas_prov

Unnamed: 0,PROVINCIA,CANAL_VENTA,MONTO_VENTAS,DEPARTAMENTO,HABITANTES_2010
0,San Luis,Local,3200000,Juan Martín de Pueyrredón,204512
1,Santa Fe,Web,4003000,Rosario,1193605
2,Santa Fe,Web,4003000,La Capital,525093
3,Santa Fe,Local,5700000,Rosario,1193605
4,Santa Fe,Local,5700000,La Capital,525093
5,Mendoza,Local,6420000,Guaymallén,283803


Esquema:
    
![](files/join-many-to-many_6.png)

Cuando estamos ante este tipo de relación tenemos que ser muy cuidadosos porque si de esta tabla quisiéramos obtener las ventas o los habitantes por provincia, en Santa Fe estaríamos duplicando resultados.

In [231]:
ventas_prov.groupby(["PROVINCIA"])[["HABITANTES_2010"]].sum()

Unnamed: 0_level_0,HABITANTES_2010
PROVINCIA,Unnamed: 1_level_1
Mendoza,283803
San Luis,204512
Santa Fe,3437396


Resolvamos esto...

In [232]:
(ventas_prov
    .drop_duplicates(subset=["PROVINCIA","HABITANTES_2010"]) #Eliminamos duplicados en términos de provincia y habitantes
    .groupby(["PROVINCIA"])[["HABITANTES_2010"]].sum() #Agrupamos
)

Unnamed: 0_level_0,HABITANTES_2010
PROVINCIA,Unnamed: 1_level_1
Mendoza,283803
San Luis,204512
Santa Fe,1718698


Merge nos permite validar la relación entre las tablas a combinar con el parámetro validate. Debemos declararle el tipo de relación que pensamos que hay entre nuestras tablas, si este tipo es incorrecto nos devolverá un error.

Usemos las tablas que ya sabemos que de antemano que se relacionan de muchos a muchos y validemos si las relación es de uno a muchos.  

In [233]:
from pandas.errors import MergeError

try:
    pd.merge(ventas, prov, on="PROVINCIA", how="left",validate="1:m")
except MergeError as err:
    print(err)

Merge keys are not unique in left dataset; not a one-to-many merge


Para más información de este parámetro consultar la documentación:
* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

### Funciones anónimas (lambda)

Pandas nos permite utilizar funciones anónimas junto a funciones de agrupación, vamos poner esto a prueba creando un dataframe de resultados electorales.

Vamos a calcular:

* Porcentaje de votos por distrito.
* Porcentaje de votos sobre el total.


In [234]:
resultados= {
        "distrito": [1,2,1,2,1,2,1,2],
        "candidato": ["A","A","B","B","C","C","D","D"],
        "votos": [np.nan,3432,1234,6789,2346,9654,3121,5210]
        }

resultados= pd.DataFrame.from_dict(resultados).sort_values("distrito").reset_index(drop=True)
resultados

Unnamed: 0,distrito,candidato,votos
0,1,A,
1,1,B,1234.0
2,1,C,2346.0
3,1,D,3121.0
4,2,A,3432.0
5,2,B,6789.0
6,2,C,9654.0
7,2,D,5210.0


* Porcentaje de votos por distrito:

En primer lugar lo que vamos a hacer es establecer como índice a las columnas distrito y candidato, más adelante veremos la razón de esto, por ahora será una cuestión de fe.


In [235]:
votos_agrup_distrito= resultados.set_index(["distrito","candidato"])
votos_agrup_distrito

Unnamed: 0_level_0,Unnamed: 1_level_0,votos
distrito,candidato,Unnamed: 2_level_1
1,A,
1,B,1234.0
1,C,2346.0
1,D,3121.0
2,A,3432.0
2,B,6789.0
2,C,9654.0
2,D,5210.0


Una vez que hicimos esto observemos la siguiente línea en el bloque de código siguiente. 

El método apply se utiliza en Pandas para aplicar una función anónima, por default se ejecuta sobre las columnas (axis=0).
~~~~Python
.apply(lambda x: x / float(x.sum())*100)
~~~~
Entonces la operación que realizará apply será la siguiente
~~~~Python
lambda columna_1: columna_1 / float(columna_1.sum())*100)

lambda columna_2: columna_1 / float(columna_2.sum())*100)

lambda columna_n: columna_1 / float(columna_n.sum())*100)
~~~~
Ahora que sabemos cómo funciona apply revisemos nuestra función...

Cada fila de la columna será dividida por el total de la columna (respetando el group by) que hayamos definido, es decir...
~~~~Python
columna_1_fila_1 / suma(columna_1_según_group_by)
columna_1_fila_2 / suma(columna_1_según_group_by)
columna_1_fila_3 / suma(columna_1_según_group_by)
~~~~
y así sucesivamente...

Después, a cada resultado lo va a multiplicar por 100 para obtener el porcentaje.

También podemos observar que usamos la función float, esto lo hacemos porque la suma de los votos nos podría devolver una columna de tipo int, nosotros forzamos que sea float para poder expresar el resultado en números decimales. En nuestro caso al tener una fila con valor NaN, nuestra columna no será una columna int, pero decidimos mantener el uso de esta función, asumiendo que en un caso real podríamos no haber inspeccionado a priori el dataframe.

In [236]:
pct_candidato_distrito= (
    votos_agrup_distrito.groupby(["distrito"])
        .apply(lambda x: x / float(x.sum())*100)   #<-----------
        .round(4)
        .sort_values("distrito")
        .reset_index()
        .merge(resultados,on=["candidato","distrito"], how="inner")   
        .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
        .reindex(columns=["distrito","candidato","votos","pct_votos"])
)

pct_candidato_distrito

To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)
  .apply(lambda x: x / float(x.sum())*100)   #<-----------


Unnamed: 0,distrito,candidato,votos,pct_votos
0,1,A,,
1,1,B,1234.0,18.4152
2,1,C,2346.0,35.0097
3,1,D,3121.0,46.5751
4,2,A,3432.0,13.6815
5,2,B,6789.0,27.064
6,2,C,9654.0,38.4852
7,2,D,5210.0,20.7694


Ya sabemos como funciona apply y las funciones lambda, nos queda pendiente entender el set_index que hicimos al principio. Creamos una función que calcula un porcentaje y gracias a apply nuestra función se aplicará en cada columna. Pero... si no estamos atentos vamos a recibir un mensaje de error porque candidato es string, por eso lo que hacemos es elevarla a índice junto a distrito, de esta manera apply no "pasará" por el nombre del candidato y nuestra función correrá sin problemas.

Ahora estamos en condiciones de resolver esto en un solo bloque de código...

In [237]:
pct_candidato_distrito= (
    resultados
        .set_index(["distrito","candidato"]) #<----------- Agregamos este paso
        .groupby(["distrito"])
        .apply(lambda x: x / float(x.sum())*100) 
        .round(4)
        .sort_values("distrito")
        .reset_index()
        .merge(resultados,on=["candidato","distrito"], how="inner")   
        .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
        .reindex(columns=["distrito","candidato","votos","pct_votos"])
        .fillna({"pct_votos":0})       
)

pct_candidato_distrito

To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)
  .apply(lambda x: x / float(x.sum())*100)


Unnamed: 0,distrito,candidato,votos,pct_votos
0,1,A,,0.0
1,1,B,1234.0,18.4152
2,1,C,2346.0,35.0097
3,1,D,3121.0,46.5751
4,2,A,3432.0,13.6815
5,2,B,6789.0,27.064
6,2,C,9654.0,38.4852
7,2,D,5210.0,20.7694


SQL:
~~~~SQL

SELECT
	resultados.distrito,
	candidato,
	resultados.votos AS votos,
	COALESCE(ROUND((resultados.votos/votos_distrito.votos::numeric)*100,4),0) AS pct_votos
FROM
	resultados
INNER JOIN
	(SELECT
		distrito,
		SUM(votos) AS votos
	FROM
		resultados
	GROUP BY
		distrito
	ORDER BY
		distrito ASC) AS votos_distrito
ON resultados.distrito = votos_distrito.distrito
ORDER BY
	distrito ASC,
	candidato ASC

![](files/votos_dist_sql.png)

* Porcentaje de votos sobre el total

Como empezamos por el caso más difícil este caso nos va resultar muy sencillo, primero empezamos calculando el total de votos por candidato. Recordemos que groupby convierte en índice a las columnas de agrupación así que no tendremos que usar set_index antes de calcular el porcentaje.

In [238]:
votos_agrup_candidato= (
                        resultados.groupby(["candidato"])
                            .agg({'votos': 'sum'})
)

votos_agrup_candidato

Unnamed: 0_level_0,votos
candidato,Unnamed: 1_level_1
A,3432.0
B,8023.0
C,12000.0
D,8331.0


In [239]:
pct_candidato= (
                votos_agrup_candidato
                .apply(lambda x: x / float(x.sum())*100) 
                .round(4)
                .reset_index()
                .sort_values("candidato")
                .reset_index(drop=True)
                .merge(votos_agrup_candidato[["votos"]],on="candidato", how="inner")   
                .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
                .reindex(columns=["candidato","votos","pct_votos"])
                .astype({'votos': 'int32'})
)

pct_candidato

Unnamed: 0,candidato,votos,pct_votos
0,A,3432,10.7972
1,B,8023,25.2407
2,C,12000,37.7525
3,D,8331,26.2097


Y ahora lo hacemos en un solo paso...

In [240]:
pct_candidato= (
                resultados
                .groupby(["candidato"])
                    .agg({'votos': 'sum'})
                .apply(lambda x: x / float(x.sum())*100) 
                .round(4)
                .reset_index()
                .sort_values("candidato")
                .reset_index(drop=True)
                .merge(votos_agrup_candidato[["votos"]],on="candidato", how="inner")   
                .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
                .reindex(columns=["candidato","votos","pct_votos"])
                .astype({'votos': 'int32'})
)

pct_candidato

Unnamed: 0,candidato,votos,pct_votos
0,A,3432,10.7972
1,B,8023,25.2407
2,C,12000,37.7525
3,D,8331,26.2097


SQL:
~~~~SQL
SELECT
	candidato,
	SUM(votos) as votos,
	ROUND(
		SUM(votos) / 
			(SELECT SUM(votos) FROM resultados)::numeric*100
		,4
	) AS pct_votos
FROM resultados
GROUP BY 
	candidato
ORDER BY candidato

![](files/votos_sql.png)

Una de las curiosidades de las funciones anónimas es que nos permite alterar el funcionamiento natural de Pandas. Recordemos que Pandas en las funciones de agregación por default omite los valores NaN:

In [241]:
(df4.groupby(["foreig"])
        .agg({
            "price": "max",
            "rep78": "mean",
            "mpg":"std"
        })
)

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,15906,3.020833,4.743297
Foreign,12990,4.285714,6.611187


Recordemos en nuestro dataframe teníamos en rep78 varios valores NaN.

In [242]:
df4_nan

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic
50,Pont. Phoenix,4424,19,,3.5,13,3420,203,43,231,3.08,Domestic
63,Peugeot 604,12990,14,,3.5,14,3420,192,38,163,3.58,Foreign


Para evitar que Pandas omita los valores NaN vamos a usar skipna, parámetro que por default no funciona dentro de un groupby.

En su documentación podemos ver todos los parámetros válidos:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

In [243]:
df4.groupby(["foreig"])[["price","rep78","mpg"]].agg({
         #Notar que como explicitamos las columnas en un diccionario no usamos apply.
        'price': lambda x: x.max(skipna=False), 
        'rep78': lambda x: x.mean(skipna=False),
        'mpg': lambda x: x.std(skipna=False) 
         }
)

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,15906,,4.743297
Foreign,12990,,6.611187


### Consultar nuestro dataframe en base a métodos de string

In [244]:
#Busco los registros que empiecen con AMC en make
df4[df4["make"].str.startswith("AMC")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic


SQL:
~~~~SQL
SELECT *
FROM auto
WHERE make LIKE 'AMC%'

In [245]:
#Busco los registros que terminen con 10 en make
df4[df4["make"].str.endswith("10")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
56,Datsun 210,4589,35,5.0,2.0,8,2020,165,32,85,3.7,Foreign
57,Datsun 510,5079,24,4.0,2.5,8,2280,170,34,119,3.54,Foreign
58,Datsun 810,8129,21,4.0,2.5,8,2750,184,38,146,3.55,Foreign


SQL:
~~~~SQL
SELECT *
FROM auto
WHERE make LIKE '%10'

In [246]:
#Busco los registros que contengan "yo" en make
df4[df4["make"].str.contains("yo")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
66,Toyota Celica,5899,18,5.0,2.5,14,2410,174,36,134,3.06,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign
68,Toyota Corona,5719,18,5.0,2.0,11,2670,175,36,134,3.05,Foreign


SQL:
~~~~SQL
SELECT *
FROM auto
WHERE make LIKE '%yo%'