## ¿Qué es Pandas?

Pandas es una de librería de Python para la manipulación y el análisis de datos basada en NumPy.

![](files/320px-Pandas_logo.png)



In [1]:
import pandas as pd
import numpy as np

### Series
La Serie es el componente básico de Pandas. Una serie es una estructura de datos unidimensional indexada basada en el array de NumPy.

La ventaja de las Series son:
- Posibilidad de asignarle un nombre.
- Mayor flexibilidad en los índices.

El constructor pd.Series() se utiliza para construir una serie a partir de distintos elemendos tales como valores escalares, listas, tuplas, diccionarios, arrays, etc.

Probemos definir una serie a partir de una lista:

In [2]:
s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
s1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Las series se crean con un índice automático que empieza en cero y termina en seis (recordar que Python empieza a contar desde cero y se refiere al último elemento de un rango de forma EXclusive. 

In [3]:
s1.index

RangeIndex(start=0, stop=6, step=1)

En este caso el valor de stop coincide con la cantidad de elementos de nuestro índice, pero atención que esto solo sucede porque nuestro índice va uno en uno (step). Si nuestra intención es conocer cuántos elementos tiene nuestro índice, es más apropiado usar el método size.

In [4]:
s1.size

6

Nosotros podemos redefinir nuestro índice, probemos con un índice que empiece en 5 y se incremente de 5 en 5.

In [5]:
s1.index = pd.RangeIndex(start=5, stop=35, step=5)
s1

5     1.0
10    3.0
15    5.0
20    NaN
25    6.0
30    8.0
dtype: float64

Los índice también pueden ser del tipo string, ello lo podemos lograr pasándole una lista con strings en el argumento **index**:

In [6]:
s2 = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

Como habíamos dicho, también podemos podemos crear series a partir de otros elementos, por ejemplo un diccionario.

**Recordemos que los diccionarios se definen de la siguiente manera:**
diccionario = {clave_1: valor_1, clave_2: valor_2, clave_n: valor_n}

Cuando convertimos un diccionario en una Serie, las claves de este pasarán a ser el índice. 


In [7]:
notas_parcial = {"Ana": 8, "Pedro": 7, "Laura": 9, "Martín": 8.5}
s3 = pd.Series(notas_parcial, name="Nota")
s3

Ana       8.0
Pedro     7.0
Laura     9.0
Martín    8.5
Name: Nota, dtype: float64

Además, aprovechamos y le agregamos un nombre a nuestra Serie con el argumento **name**, este nombre va ser el nombre de la columna en caso de convertir la Serie en una "tabla" o DataFrame (spoiler alert!).

In [8]:
df = pd.DataFrame(s3)
df

Unnamed: 0,Nota
Ana,8.0
Pedro,7.0
Laura,9.0
Martín,8.5


Antes de pasar a los dataframes, veámos algunos conceptos restantes de las series que también aplican a los dataframes. Recordemos a la que le habíamos cambiado el índice para que se incremente de 5 en 5.

#### reset_index

In [9]:
s1

5     1.0
10    3.0
15    5.0
20    NaN
25    6.0
30    8.0
dtype: float64

Si nosotros quisiéramos volver al índice original, deberíamos usar reset_index()

In [10]:
s1.reset_index()

Unnamed: 0,index,0
0,5,1.0
1,10,3.0
2,15,5.0
3,20,
4,25,6.0
5,30,8.0


In [11]:
type(s1.reset_index())

pandas.core.frame.DataFrame

¿Por qué Pandas convirtió nuestra serie en un dataframe? Recordemos que las series son unidimensionales, por lo tanto solo pueden tener una sola columna. Pandas creó un nuevo índice pero a nuestro viejo índice lo convirtió en la columna "index" y esto es importante porque Pandas evitó que perdiéramos datos. En este ejemplo resulta abstracto, pero en el caso de las Notas (s3), si Pandas no preservara el índice original, hubiéramos perdido el nombre de los alumnos.

Si no nos interesa conservar el índice anterior o queremos evitar que Pandas convierta la serie en un dataframe utilizamos el argumento drop en True. 

In [12]:
#Notas
s3.reset_index(drop=True)

0    8.0
1    7.0
2    9.0
3    8.5
Name: Nota, dtype: float64

#### Inplace

Nosotros podemos resetear el índice de dos maneras:

1. **Redefiniendo el objeto:** "pisándolo" con uno nuevo.
2. **Sobre el mismo objeto:** (inplace=True).

Veamos cómo hacerlo de las dos formas.

In [13]:
#1) Redefiniendo el objeto
#Creamos una serie para resetearle el índice
s4 = pd.Series([100,110,120,110], index=[1001,1002,1003,1004])
s4

1001    100
1002    110
1003    120
1004    110
dtype: int64

In [14]:
#Reseteamos el índice descartando el índice anterior (drop=True)
s4= s4.reset_index(drop=True)
s4

0    100
1    110
2    120
3    110
dtype: int64

**Lo que hicimos fue redefinir el objeto s4 indicándole que será igual al objeto s4 pero con el índice reseteado.**

Ahora probemos hacerlo de la segunda manera:

In [15]:
#2) Sobre el mismo objeto:

#Creamos una serie para resetearle el índice
s5 = pd.Series([100,110,120,110,np.nan], index=[1001,1002,1003,1004,1005])
s5

1001    100.0
1002    110.0
1003    120.0
1004    110.0
1005      NaN
dtype: float64

In [16]:
#Reseteamos el índice sin guardar el índice anterior (drop=True)
s5.reset_index(inplace= True, drop=True)
s5

0    100.0
1    110.0
2    120.0
3    110.0
4      NaN
dtype: float64

**En este caso, al utilizar el argumento inplace en True, no tuvimos necesidad de definir nuevamente el objeto (s5 = ...)**

#### value_counts
Con el método value_counts() podemos obtener la distribución de frecuencias de una serie, por defecto omite los valores nan.

* **ascending= True:** Ordena de menor a mayor.
* **normalize= True:** Expresa los resultados al tanto por uno.
* **dropna= True:** Omite los nan.

In [17]:
s5.value_counts()

110.0    2
120.0    1
100.0    1
dtype: int64

In [18]:
s5.value_counts(ascending=True, normalize=True, dropna=False)

100.0    0.2
120.0    0.2
NaN      0.2
110.0    0.4
dtype: float64

### DataFrames

Un DataFrame es una estructura de datos indexada bidimensional con columnas de tipos potencialmente diferentes. Puede pensarse como una tabla en un hoja de cálculo, una tabla de una base de datos SQL, o un diccionario de objetos.

Podemos construir dataframes a partir de listas anidadas, tuplas anidadas, arrays, diccionarios, series o a través de la lectura de archivos.

Cada columna del dataframe puede ser te un tipo distinto, más adelante veremos esto.

* **Desde listas anidadas:**

Cada una de las listas anidadas, será una fila de nuestro dataframe. La cantidad de elementos que contengan nuestras listas determinará la cantidad de columnas. En nuestro caso, nuestra primera lista anidada tiene solo tres elementos, pero las restantes contienen cuatro, por ello la primer fila se completa automáticamente con un valor NaN.

In [19]:
Lista_anidada = [[0,1,2] , [3,4,5,6] , [7,8,9,np.nan]]
Lista_anidada

[[0, 1, 2], [3, 4, 5, 6], [7, 8, 9, nan]]

In [20]:
pd.DataFrame(Lista_anidada)

Unnamed: 0,0,1,2,3
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


Pero nuestro dataframe todavía es muy poco legible, si no asignamos un nombre a priori, los nombres de las columnas estarán dados por números que, como todo en Python empiezan en cero. Empecemos bien y creemos un dataframe con nombres claros.

In [21]:
df1 = pd.DataFrame(Lista_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"])
df1

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


Al igual que en las series, también podemos personalizar los índices al crear el dataframe pasando los nombres de las columnas como una lista.

In [22]:
df1 = pd.DataFrame(Lista_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"],
                  index= ["ID_1","ID_2","ID_3"])
df1

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
ID_1,0,1,2,
ID_2,3,4,5,6.0
ID_3,7,8,9,


* **Desde tuplas anidadas:**

In [23]:
Tupla_anidada = ((0,1,2),(3,4,5,6),(7,8,9,np.nan))
Tupla_anidada

((0, 1, 2), (3, 4, 5, 6), (7, 8, 9, nan))

In [24]:
df2 = pd.DataFrame(Tupla_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"],
                  index= ["ID_1","ID_2","ID_3"])
df2

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
ID_1,0,1,2,
ID_2,3,4,5,6.0
ID_3,7,8,9,


El ejemplo anterior es bastante trivial, por eso utilizamos tuplas anidades en tuplas, lo más probable es que si nos encontramos con un script que convierte tuplas anidadas en un dataframe, estas estén anidadas en una lista ***[(x1,y1,z1),(x2,y2,z2)]*** en lugar de una tupla ya que las tuplas son elementos inmutables.

* **Desde diccionario:** 

En este caso, en cada clave definimos las columnas y en sus valores se encontrarán dentro de listas.

Diccionario = {"Clave: valor}

DataFrame desde diccionario = {"Columna": [cada,valor,de,la,columna]}

**Tener en cuenta que cuando creamos un dataframe desde un diccionario, cada lista que contenga los elementos debe tener la misma longitud.**

In [25]:
pd.DataFrame({"Columna_A": [0,3,7],
             "Columna_B": [1,4,8],
             "Columna_C": [2,5,9],
             "Columna_D": [np.nan,6,np.nan]
             })

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


In [26]:
array = np.array([[0,1,2,np.nan],[3,4,5,6],[7,8,9,np.nan]])
pd.DataFrame(array, columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"])

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0.0,1.0,2.0,
1,3.0,4.0,5.0,6.0
2,7.0,8.0,9.0,


#### Tipos de datos


| Pandas dtype     | Python type     | NumPy type     | Usage|
|-----------------|:---------------------:|:---------------------:|:---------------------:|
| object     | str     | string_, unicode_     | Text|
| int64     | int     | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64     | Integer numbers|
| float64     | float     | float_, float16, float32, float64     | Floating point numbers|
| bool     | bool     | bool_     | True/False values|
| datetime64     | NA     | datetime64[ns]     | Date and time values|
| timedelta[ns]     | NA     | NA     | Differences between two datetimes|
| category     | NA     | NA     | Finite list of text values |

**Recuerden que cada columna de puede contener datos de distinto tipo.**

Por ejemplo:

In [27]:
df3 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20210810'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo',
    'G': [1,2,1,2]
})
df3

Unnamed: 0,A,B,C,D,E,F,G
0,1.0,2021-08-10,1.0,3,test,foo,1
1,1.0,2021-08-10,1.0,3,train,foo,2
2,1.0,2021-08-10,1.0,3,test,foo,1
3,1.0,2021-08-10,1.0,3,train,foo,2


Inspeccionemos los tipos de nuestras columnas:

In [28]:
df3.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
G             int64
dtype: object

En nuestro ejemplo, tenemos números fraccionarios y enteros con distinto nivel de precisión, fechas, una variable ordinal (category) y una de tipo object que contiene solo datos de tipo string. 

* **Importar datos desde archivos:**

En nuestro caso vamos a estudiar cómo importar archivos con extensión .csv pero también es posible convertir a dataframe archivos .txt, .json, .xlsx, xls, etc. Invitamos a leer la documentación de Pandas para ampliar este tema.

**¿Qué es un archivo .csv?**

Los archivos con extensión .csv (*comma-separated values*) son archivos de texto plano cuyos valores se encuentran separados por un delimitador, por lo general una ",".

Si abrimos un archivo csv en un bloc de notas veremos algo así:

*make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
AMC Concord,4099,22,3,2.5,11,2930,186,40,121,3.5799999,Domestic
AMC Pacer,4749,17,3,3,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3,12,2640,168,35,121,3.0799999,Domestic
Buick Century,4816,20,3,4.5,16,3250,196,40,196,2.9300001,Domestic*

La primera fila representa el nombre de nuestras columnas (el header) y las restantes son las filas de nuestro dataframe. 

In [29]:
df4 = pd.read_csv(
    'data/auto.csv',     # file path
    delimiter=',',       # delimitador ',',';','|','\t'
    header=0,            # número de fila como nombre de columna
    names=None,          # nombre de las columnas (ojo con header)
    index_col=0,         # que col es el índice
    usecols=None,        # que col usar. Ej: [0, 1, 2], ['foo', 'bar', 'baz']
    dtype=None,          # Tipo de col {'a': np.int32, 'b': str} 
    skiprows=None,       # saltear filas al inicio
    skipfooter=0,        # saltear filas al final
    nrows=None,          # n de filas a leer
    decimal='.',         # separador de decimal. Ej: ',' para EU dat
    quotechar='"',       # char para reconocer str
    #encoding=None,      # archivos con tilde y ñ por lo general utilizan "utf-8" etc 
)

df4

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


Si quisiésemos hacer el camino inverso y guardar el dataframe en csv...

In [30]:
df4.to_csv("data/df4_a_csv.csv",
           index=False,       #Index false para que no guarde el índice como una columna
          encoding= "utf-8")  #No es el caso pero si estuvíeramos usando un df en español

Ahora revisemos un poco nuestro dataframe...

**Descripción del índice:**

In [31]:
df4.index

Index(['AMC Concord', 'AMC Pacer', 'AMC Spirit', 'Buick Century',
       'Buick Electra', 'Buick LeSabre', 'Buick Opel', 'Buick Regal',
       'Buick Riviera', 'Buick Skylark', 'Cad. Deville', 'Cad. Eldorado',
       'Cad. Seville', 'Chev. Chevette', 'Chev. Impala', 'Chev. Malibu',
       'Chev. Monte Carlo', 'Chev. Monza', 'Chev. Nova', 'Dodge Colt',
       'Dodge Diplomat', 'Dodge Magnum', 'Dodge St. Regis', 'Ford Fiesta',
       'Ford Mustang', 'Linc. Continental', 'Linc. Mark V', 'Linc. Versailles',
       'Merc. Bobcat', 'Merc. Cougar', 'Merc. Marquis', 'Merc. Monarch',
       'Merc. XR-7', 'Merc. Zephyr', 'Olds 98', 'Olds Cutl Supr',
       'Olds Cutlass', 'Olds Delta 88', 'Olds Omega', 'Olds Starfire',
       'Olds Toronado', 'Plym. Arrow', 'Plym. Champ', 'Plym. Horizon',
       'Plym. Sapporo', 'Plym. Volare', 'Pont. Catalina', 'Pont. Firebird',
       'Pont. Grand Prix', 'Pont. Le Mans', 'Pont. Phoenix', 'Pont. Sunbird',
       'Audi 5000', 'Audi Fox', 'BMW 320i', 'Datsun 200'

**Nombres de las columnas:**

Columns devuelve un array con los nombres de las columnas. Tenemos que tener en cuenta que el índice no es una columna, es una etiqueta para nuestras filas.

In [32]:
df4.columns

Index(['price', 'mpg', 'rep78', 'headroom', 'trunk', 'weight', 'length',
       'turn', 'displacement', 'gear_ratio', 'foreig'],
      dtype='object')

**Tipos de datos:**

dtypes devuelve una serie con el tipo de de cada columna.

In [33]:
df4.dtypes

price             int64
mpg               int64
rep78           float64
headroom        float64
trunk             int64
weight            int64
length            int64
turn              int64
displacement      int64
gear_ratio      float64
foreig           object
dtype: object

**Forma del dataframe:**

Shape devuelve una tupla con la cantidad de filas y de columnas (filas, columnas).

In [34]:
df4.shape

(74, 11)

También podemos descomponer la tupla para obtener la cantidad de filas o columnas individualmente:

In [35]:
df4.shape[0] #Filas

74

In [36]:
df4.shape[1] #Columnas

11

Contar solo las filas:

In [37]:
len(df4)

74

Contar solo las columnas.

In [38]:
len(df4.columns)

11

**Ver dataframe como un array de Numpy:**

In [39]:
df4.values[:5] #Utilizamos "[:5]" para ver lo que serían las primeras 5 filas y el output no sea eterno.

array([[4099, 22, 3.0, 2.5, 11, 2930, 186, 40, 121, 3.5799999,
        'Domestic'],
       [4749, 17, 3.0, 3.0, 11, 3350, 173, 40, 258, 2.53, 'Domestic'],
       [3799, 22, nan, 3.0, 12, 2640, 168, 35, 121, 3.0799999,
        'Domestic'],
       [4816, 20, 3.0, 4.5, 16, 3250, 196, 40, 196, 2.9300001,
        'Domestic'],
       [7827, 15, 4.0, 4.0, 20, 4080, 222, 43, 350, 2.4100001,
        'Domestic']], dtype=object)

In [40]:
type(df4.values)

numpy.ndarray

**Uso de memoria:**

memory_usage() nos devuelve una serie con la cantidad de memoria ram en bytes que ocupa cada columna del dataframe. Se recomienda utilizar el argumento deep para tener una respuesta de mayor precisión.

In [41]:
df4.memory_usage(deep=True) 

Index           5089
price            592
mpg              592
rep78            592
headroom         592
trunk            592
weight           592
length           592
turn             592
displacement     592
gear_ratio       592
foreig          4788
dtype: int64

Para ver el total de memoria utilzada por el dataframe:

In [42]:
df4.memory_usage(deep=True).sum()

15797

Expresado en megabytes:

In [43]:
df4.memory_usage(deep=True).sum()/(1024**2)

0.015065193176269531

1 kilobyte = 1024 bytes

1 megabyte = 1024 kilobytes

1 gigabyte = 1024 megabytes

1 terabyte = 1024 gigabytes
  
y así sucesivamente...

**Contar valores no NaN:**

In [44]:
df4.count()

price           74
mpg             74
rep78           69
headroom        74
trunk           74
weight          74
length          74
turn            74
displacement    74
gear_ratio      74
foreig          74
dtype: int64

**Resumen general:**

Devuelve gran parte de lo solicitado individualmente hasta ahora. Tener en cuenta que al solicitar todo lo anterior a la vez, en grandes dataframes esto puede demorar un poco.

Nota: El uso de memoria lo devuelve con el argumento deep en False.

In [45]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 74 entries, AMC Concord to Volvo 260
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         74 non-null     int64  
 1   mpg           74 non-null     int64  
 2   rep78         69 non-null     float64
 3   headroom      74 non-null     float64
 4   trunk         74 non-null     int64  
 5   weight        74 non-null     int64  
 6   length        74 non-null     int64  
 7   turn          74 non-null     int64  
 8   displacement  74 non-null     int64  
 9   gear_ratio    74 non-null     float64
 10  foreig        74 non-null     object 
dtypes: float64(3), int64(7), object(1)
memory usage: 6.9+ KB


**Contar valores NaN:**

In [46]:
df4.isnull().sum()

price           0
mpg             0
rep78           5
headroom        0
trunk           0
weight          0
length          0
turn            0
displacement    0
gear_ratio      0
foreig          0
dtype: int64

**Obtener valores únicos de una columna:**

In [47]:
df4['foreig'].unique()

array(['Domestic', 'Foreign'], dtype=object)

### Pandas - Seleccionar / SQL SELECT (PL/PgSQL)

**Primeras filas:**

In [48]:
df4.head() #Si head no recibe un número como argumento por defecto devuelve los primeros 5 valores.

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic


In [49]:
df4.sort_values(by=['make']).head()

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Audi 5000,9690,17,5.0,3.0,15,2830,189,37,131,3.2,Foreign
Audi Fox,6295,23,3.0,2.5,11,2070,174,36,97,3.7,Foreign


sort_values: Nos permite ordenar nuestro dataframe por una o más columnas.

Sintaxis: 
    
- Orden ascendente:
        df.sort_values(by=["columna_1","columna_2"])
    
    
- Orden descendente:
        df.sort_values(by=["columna_1","columna_2"], ascending=False)
    
- Orden especificando posición de los valores NaN:
    - Al principio:
        df.sort_values(by=["columna_1","columna_2"], ascending=False, na_position="first")
            
    - Al final (opción default):
        df.sort_values(by=["columna_1","columna_2"], ascending=False, na_position="last")

**Últimas filas:**

In [50]:
df4.tail() #Si tail no recibe un número como argumento por defecto devuelve los últimos 5 valores.

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign
Volvo 260,11995,17,5.0,2.5,14,3170,193,37,163,2.98,Foreign


In [51]:
df4.sort_values(by=['make'],ascending=False).head()

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Volvo 260,11995,17,5.0,2.5,14,3170,193,37,163,2.98,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign


**Seleccionar columnas:**

* Una sola columna: Pandas devolvera una serie porque es un objeto más eficiente. En este ejemplo, la dimensión de la serie es "price" y "make" es su índice.

In [52]:
df4["price"]

make
AMC Concord       4099
AMC Pacer         4749
AMC Spirit        3799
Buick Century     4816
Buick Electra     7827
                 ...  
VW Dasher         7140
VW Diesel         5397
VW Rabbit         4697
VW Scirocco       6850
Volvo 260        11995
Name: price, Length: 74, dtype: int64

Si quisiera un dataframe debería hacer lo siguiente:

In [53]:
df4["price"].to_frame()

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


La opción que vimos más arriba no es la más recomendable porque es poco intuitiva, vamos a preferir esta alternativa... que es seleccionar price dentro de una lista anidada, lo que nos ahorra el paso de convertirlo en DataFrame.

In [54]:
df4[["price"]]

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


Elegimos esta opción porque nos va a permitir seleccionar varias columnas...

* Varias columnas:

In [55]:
df4[["price","weight"]]

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
AMC Concord,4099,2930
AMC Pacer,4749,3350
AMC Spirit,3799,2640
Buick Century,4816,3250
Buick Electra,7827,4080
...,...,...
VW Dasher,7140,2160
VW Diesel,5397,2040
VW Rabbit,4697,1930
VW Scirocco,6850,1990


También podemos selecccionar las columnas por su posición.

* Una sola columna:

In [56]:
df4.columns

Index(['price', 'mpg', 'rep78', 'headroom', 'trunk', 'weight', 'length',
       'turn', 'displacement', 'gear_ratio', 'foreig'],
      dtype='object')

In [57]:
df4.columns[0]

'price'

Como serie...

In [58]:
df4[df4.columns[0]]

make
AMC Concord       4099
AMC Pacer         4749
AMC Spirit        3799
Buick Century     4816
Buick Electra     7827
                 ...  
VW Dasher         7140
VW Diesel         5397
VW Rabbit         4697
VW Scirocco       6850
Volvo 260        11995
Name: price, Length: 74, dtype: int64

Como dataframe...

In [59]:
df4[[df4.columns[0]]]

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
AMC Concord,4099
AMC Pacer,4749
AMC Spirit,3799
Buick Century,4816
Buick Electra,7827
...,...
VW Dasher,7140
VW Diesel,5397
VW Rabbit,4697
VW Scirocco,6850


* Varias columnas:

In [60]:
df4[df4.columns[[0, 5]]] #Primera y sexta columna

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
AMC Concord,4099,2930
AMC Pacer,4749,3350
AMC Spirit,3799,2640
Buick Century,4816,3250
Buick Electra,7827,4080
...,...,...
VW Dasher,7140,2160
VW Diesel,5397,2040
VW Rabbit,4697,1930
VW Scirocco,6850,1990


En SQL puede ser bastante complicado seleccionar las columnas por su posición, pero si solo se quiere obtener los nombres de las columnas de la tabla (df4.columns):

**Selección de filas por rango:**

Sintaxis:
df[desde:hasta] (Recordar que el hasta es exclusive).

In [61]:
#Seleccionamos desde la 6 fila hasta la 24.
df4[5:25]

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
Buick Regal,5189,20,3.0,2.0,16,3280,200,42,196,2.93,Domestic
Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic
Cad. Deville,11385,14,3.0,4.0,20,4330,221,44,425,2.28,Domestic
Cad. Eldorado,14500,14,2.0,3.5,16,3900,204,43,350,2.19,Domestic
Cad. Seville,15906,21,3.0,3.0,13,4290,204,45,350,2.24,Domestic
Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic
Chev. Impala,5705,16,4.0,4.0,20,3690,212,43,250,2.56,Domestic


**Selección por label indexing (.loc)**:

El método .loc nos permite seleccionar elementos a partir de etiquetas.

Las sintaxis admitidas son las siguientes:

* df.loc[valor_buscado,"nombre_columna"]
* df.loc[["valor_buscado_1","valor_buscado_2"] , ["nombre_columna_1","nombre_columna_2"]]
* df.loc["valor_buscado_desde":"valor_buscado_hasta" , "nombre_columna_desde":"nombre_columna_hasta"]

Probemos cada una:

In [62]:
#Buscamos el precio del Buick Century
#df.loc[valor_buscado,"nombre_columna"]
df4.loc["Buick Century","price"]

4816

In [63]:
#Buscamos el precio y el peso del Buick Century y del VW Dasher
#df.loc[["valor_buscado_1","valor_buscado_2"] , ["nombre_columna_1","nombre_columna_2"]]
df4.loc[["Buick Century","VW Dasher"],["price","weight"]] #Notar la lista anidada

Unnamed: 0_level_0,price,weight
make,Unnamed: 1_level_1,Unnamed: 2_level_1
Buick Century,4816,3250
VW Dasher,7140,2160


In [64]:
#Buscamos todas las columnas desde millas por galón (mpg) hasta capacidad del baúl (trunk)
#en los autos que van desde el AMC Spirit hasta el Buick Electra.

#df.loc["valor_buscado_desde":"valor_buscado_hasta" , "nombre_columna_desde":"nombre_columna_hasta"]
df4.loc["AMC Spirit":"Buick Electra", "mpg":"trunk"]

#Una curiosidad de .loc respecto a Python en general es que incluye el último elemento de un rango.

Unnamed: 0_level_0,mpg,rep78,headroom,trunk
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AMC Spirit,22,,3.0,12
Buick Century,20,3.0,4.5,16
Buick Electra,15,4.0,4.0,20


Esta consulta en SQL es más complicada, tenemos que hacer una subconsulta...

Empecemos por la subconsulta...

Vamos a buscar el id mínimo y máximo de los autos que buscamos.

El mínimo va a ser "AMC Spirit" porque es desde donde partimos nuestra búsqueda
y el máximo "Buick Electra" porque es hasta dónde buscamos.

![](files/min_max.png)

Venimos bien en esta pequeña tabla, llamémosla "B", tenemos el id mínimo y el máximo, nos falta lo que está en el medio. Ahora pasemos a la consulta general que vamos a llamar tabla "A".

![](files/query.png)

El problema de esta consulta es que contiene todas las observaciones, es decir que contiene el id mínimo, el máximo y lo que está en el medio, pero todo lo demás sobra. Lo que vamos a tener que hacer es unir esta gran consulta (Tabla A) con la subconsulta (Tabla B), conservando SOLAMENTE las observaciones que son mayores o iguales al id mínimo y las que son menores o iguales al id máximo.

![](files/query_con_min_max.png)

**Selección por integer indexing (.iloc)**:

El método .iloc nos permite seleccionar utilizando las posiciones, los números de índice de nuestras filas y columnas.

Las sintaxis admitidas son las siguientes:

* df.iloc[índice_fila_buscada_1,índice_columna_buscada_1]
* df.iloc[[índice_fila_buscada_1,índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
* df.iloc[[índice_fila_buscada_1, índice_fila_buscad_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]

Probemos cada una:

In [65]:
#Buscamos el valor de la columna con índice 7 en la fila con índice 4.
#df.iloc[índice_fila_buscada_1,índice_columna_buscada_1]
df4.iloc[4,7]

43

In [66]:
#Buscamos los valores de las columnas con índice 1 y 7 en las filas con índice 4 y 12.
#df.iloc[[índice_fila_buscada_1,índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
df4.iloc[[4,12],[1,7]]

Unnamed: 0_level_0,mpg,turn
make,Unnamed: 1_level_1,Unnamed: 2_level_1
Buick Electra,15,43
Cad. Seville,21,45


In [67]:
#Buscamos los valores de las 4 últimas columnas en las filas con índice 3 a 8.
#df.iloc[[índice_fila_buscada_1, índice_fila_buscada_2] , [índice_columna_buscada_1,índice_columna_buscada_2]]
df4.iloc[3:8,-4:]

Unnamed: 0_level_0,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Buick Century,40,196,2.93,Domestic
Buick Electra,43,350,2.41,Domestic
Buick LeSabre,43,231,2.73,Domestic
Buick Opel,34,304,2.87,Domestic
Buick Regal,42,196,2.93,Domestic


Recuerden que si nos resulta más cómodo o necesitamos usar make como una columna podemos resetear el índice para obtener uno numérico como hicimos con las series al principio de la clase.

In [68]:
df4.reset_index(inplace=True)
df4

#Ahora make es una columna más...

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...,...
69,VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
70,VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
71,VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
72,VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


**Selección en base a operaciones lógicas (WHERE - CASE):**

Al igual que NumPy, Pandas también puede realizar operaciones lógicas, recordemos sus operadores lógicos.

| Operador Python     | Operador NumPy/Pandas     |
|-----------------|:---------------------:|
| or     | <code>&#124;</code>     | 
| and     | &     |
| not     | ~     |  


Busquemos los autos que puedan recorrer 12 millas por galón de combustible (mpg):

In [69]:
df4["mpg"]==12

0     False
1     False
2     False
3     False
4     False
      ...  
69    False
70    False
71    False
72    False
73    False
Name: mpg, Length: 74, dtype: bool

¿Qué pasó? El output no fue el esperado... Pero Pandas está funcionando bien, lo que pasa es que con el código que escribimos nosotros preguntamos **SI** hay autos que cumplan esa condición pero no **CUÁLES**, por eso retorna una serie con booleanos según si la fila cumple o no la condición. 

Para hacer eso, tenemos que indicarle que seleccione del dataframe los autos que cumplan con esa condición:

In [70]:
df4[df4["mpg"]==12] #Ahora sí!

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
25,Linc. Continental,11497,12,3.0,3.5,22,4840,233,51,400,2.47,Domestic
26,Linc. Mark V,13594,12,3.0,2.5,18,4720,230,48,400,2.47,Domestic


In [71]:
#Nombre de los autos y su precio (price), de aquellos que pesan más de 3000 libras y son de origen extranjero

#Usamos .loc [Filas que cumplen la condición, etiqueta de columna]
df4.loc[(df4["weight"] > 3000) & (df4["foreig"] == "Foreign"),["make","price"]]

Unnamed: 0,make,price
63,Peugeot 604,12990
73,Volvo 260,11995


In [72]:
#Nombre de los autos, capacidad del baúl (trunk) y millas por galón (mpg)
#de aquellos con capacidad de baúl igual a 18 o que millas por galón sea mayor
#a 40

#[Filas que cumplen la condición, etiquetas de columna]
df4.loc[(df4["trunk"] == 18) | (df4["mpg"] >= 40),["make","trunk","mpg"]]

Unnamed: 0,make,trunk,mpg
26,Linc. Mark V,18,12
70,VW Diesel,15,41


In [73]:
#Marca, precio y origen del los 10 primeros autos 10 autos que
#no sean de origen extranjero usando operador not.
df4.loc[~(df4["foreig"] == "Foreign"),["make","price","foreig"]].head(10)

Unnamed: 0,make,price,foreig
0,AMC Concord,4099,Domestic
1,AMC Pacer,4749,Domestic
2,AMC Spirit,3799,Domestic
3,Buick Century,4816,Domestic
4,Buick Electra,7827,Domestic
5,Buick LeSabre,5788,Domestic
6,Buick Opel,4453,Domestic
7,Buick Regal,5189,Domestic
8,Buick Riviera,10372,Domestic
9,Buick Skylark,4082,Domestic


El método **isin** es un **or** múltiple de igualdad y nos puede ahorrar escribir mucho código.

Escribir esto puede ser bastante insufrible.

In [74]:
#Selecciono marca y millas por galón (mpg) de autos cuyo mpg sea 14, 20, 28, 34 ó 41.
df4.loc[(df4["mpg"] == 14) |
        (df4["mpg"] == 20) |
        (df4["mpg"] == 28) |
        (df4["mpg"] == 34) |
        (df4["mpg"] == 41)
        ,["make","mpg"]]

Unnamed: 0,make,mpg
3,Buick Century,20
7,Buick Regal,20
10,Cad. Deville,14
11,Cad. Eldorado,14
23,Ford Fiesta,28
27,Linc. Versailles,14
29,Merc. Cougar,14
32,Merc. XR-7,14
33,Merc. Zephyr,20
41,Plym. Arrow,28


Entonces usamos **isin** para consultar si hay autos que ese encuentra en una lista de valores de mpg.

In [75]:
#Selecciono marca y millas por galón (mpg) de autos cuyo mpg sea 14, 20, 28, 34 ó 41.
df4.loc[df4["mpg"].isin([14,20,28,34,41]),["make","mpg"]]

Unnamed: 0,make,mpg
3,Buick Century,20
7,Buick Regal,20
10,Cad. Deville,14
11,Cad. Eldorado,14
23,Ford Fiesta,28
27,Linc. Versailles,14
29,Merc. Cougar,14
32,Merc. XR-7,14
33,Merc. Zephyr,20
41,Plym. Arrow,28


Las operaciones lógicas que vimos hasta ahora también nos permiten hacer comparaciones entre columnas.

In [76]:
#Seleccionamos las filas en que la cilindrada (displacement) sea mayor que
#la longitud del auto (length)
df4[df4["displacement"] > df4["length"]]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
5,Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
8,Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
9,Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic
10,Cad. Deville,11385,14,3.0,4.0,20,4330,221,44,425,2.28,Domestic
11,Cad. Eldorado,14500,14,2.0,3.5,16,3900,204,43,350,2.19,Domestic
12,Cad. Seville,15906,21,3.0,3.0,13,4290,204,45,350,2.24,Domestic
13,Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic


**Obtener estadísticos**

.describe() permite obtener rápidamente los estadísticos de todas las columnas numéricas, cabe aclarar que no incluye a los valores nan.

In [77]:
df4.describe()

Unnamed: 0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio
count,74.0,74.0,69.0,74.0,74.0,74.0,74.0,74.0,74.0,74.0
mean,6165.256757,21.297297,3.405797,2.993243,13.756757,3019.459459,187.932432,39.648649,197.297297,3.014865
std,2949.495885,5.785503,0.989932,0.845995,4.277404,777.193567,22.26634,4.399354,91.837219,0.456287
min,3291.0,12.0,1.0,1.5,5.0,1760.0,142.0,31.0,79.0,2.19
25%,4220.25,18.0,3.0,2.5,10.25,2250.0,170.0,36.0,119.0,2.73
50%,5006.5,20.0,3.0,3.0,14.0,3190.0,192.5,40.0,196.0,2.955
75%,6332.25,24.75,4.0,3.5,16.75,3600.0,203.75,43.0,245.25,3.3525
max,15906.0,41.0,5.0,5.0,23.0,4840.0,233.0,51.0,425.0,3.89


**Agrupar por (Group By):**

Con Pandas podemos agrupar los datos a partir de los valores de las columnas. 

Por ejemplo, intentemos obtener la cantidad de datos según el origen (foreig) y la cantidad de reparaciones efectuadas en 1978 (rep78).

In [78]:
(df4.groupby(["foreig","rep78"])
    .size()
    .to_frame(name="count") #Para que devuelva un df en lugar de una serie así es más legible
)

Unnamed: 0_level_0,Unnamed: 1_level_0,count
foreig,rep78,Unnamed: 2_level_1
Domestic,1.0,2
Domestic,2.0,8
Domestic,3.0,27
Domestic,4.0,9
Domestic,5.0,2
Foreign,3.0,3
Foreign,4.0,9
Foreign,5.0,9


Tenemos varias funciones de agregación que podemos aplicar a nuestros datos, algunas de ellas son:

 |    Agregación   |      Descripción                 |
 |-----------------|:--------------------------------:|
 | count()         | Contar el número de casos        |
 | first(), last() | Primer y último item             |
 | mean(), median()| Media, Mediana                   |
 | min(), max()    | Mínimo y Máximo                  |
 | std(), var()    | Varianza y desvio                |
 | mad()           | Desviación absoluta de la mediana|
 | prod()          | Producto de los items            |
 | sum()           | Suma de los Casos                |
 
Tengamos en cuenta que el comportamiento de Pandas por default es ignorar los NaN (skipna=True). Este comportamiento es opuesto al de Numpy, recordemos que para calcular el promedio en un array con algún valor NaN teníamos que usar la función nanmean para este no nos devolviese un promedio con valor NaN. Si el resultado de una agrupación es NaN es porque toda nuestra columna asumía valores NaN.

In [79]:
#Media de precio, rep78 y mpg según origen.
df4.groupby(["foreig"])[["price","rep78","mpg"]].mean()

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,6072.423077,3.020833,19.826923
Foreign,6384.681818,4.285714,24.772727


Pero atención, rep78 tiene valores nan:

In [80]:
df4["rep78"][df4["rep78"].isnull()==True]

2    NaN
6    NaN
44   NaN
50   NaN
63   NaN
Name: rep78, dtype: float64

Otras formas de seleccionar filas con valores NaN...

https://datatofish.com/rows-with-nan-pandas-dataframe/

In [81]:
df4_nan= df4[df4.isnull().any(axis=1)]
df4_nan

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic
50,Pont. Phoenix,4424,19,,3.5,13,3420,203,43,231,3.08,Domestic
63,Peugeot 604,12990,14,,3.5,14,3420,192,38,163,3.58,Foreign


![](files/subset_null_sql.png)

Siguiendo con el tema de agrupación, este es el funcionamiento interno de Pandas al calcular una suma por grupo:

![](files/groupby-example.png)

**Calcular medidas resúmenes por grupo:**

.aggregate() o su alias .agg() nos permite obtener distintas medidas pasándo la medida solicitada como un string. 

In [82]:
#Obtener mínimo, máximo, media y desvío estándar por origen

(df4[["price","foreig"]]
    .groupby(["foreig"])
    .agg(["min","max","mean","std"])
)

Unnamed: 0_level_0,price,price,price,price
Unnamed: 0_level_1,min,max,mean,std
foreig,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Domestic,3291,15906,6072.423077,3097.104279
Foreign,3748,12990,6384.681818,2621.915083


Si utilizamos el método select_dtypes seleccionar columnas por su tipo. Probemos eligiendo todas las columnas int64. 
* Podemos usar el tipo de dato específico (float64, int64, object, category, etc.)
* Podemos seleccionar todas las numéricas con: numeric
* Se recomienda leer la documentación para más alternativas:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html

In [83]:
df4.select_dtypes(include=["int64"])

Unnamed: 0,price,mpg,trunk,weight,length,turn,displacement
0,4099,22,11,2930,186,40,121
1,4749,17,11,3350,173,40,258
2,3799,22,12,2640,168,35,121
3,4816,20,16,3250,196,40,196
4,7827,15,20,4080,222,43,350
...,...,...,...,...,...,...,...
69,7140,23,12,2160,172,36,97
70,5397,41,15,2040,155,35,90
71,4697,25,15,1930,155,35,89
72,6850,25,16,1990,156,36,97


Sin embargo, con select_dtypes puede ser un poco rebuscado usar group by y tener un buen output.

In [84]:
(df4.select_dtypes(include=['int64'])   #Selecciono solo las int64
    .join(df4["foreig"])                #Recupero la columna string "foreig"
    .groupby(["foreig"])                #Agrupo
    .agg(["min","max","mean","std"])
    .stack()                            #El resultado es una base muy ancha, le cambio la forma.
)

Unnamed: 0_level_0,Unnamed: 1_level_0,price,mpg,trunk,weight,length,turn,displacement
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Domestic,min,3291.0,12.0,7.0,1800.0,147.0,31.0,86.0
Domestic,max,15906.0,34.0,23.0,4840.0,233.0,51.0,425.0
Domestic,mean,6072.423077,19.826923,14.75,3317.115385,196.134615,41.442308,233.711538
Domestic,std,3097.104279,4.743297,4.306288,695.36374,20.046054,3.967582,85.262993
Foreign,min,3748.0,14.0,5.0,1760.0,142.0,32.0,79.0
Foreign,max,12990.0,41.0,16.0,3420.0,193.0,38.0,163.0
Foreign,mean,6384.681818,24.772727,11.409091,2315.909091,168.545455,35.409091,111.227273
Foreign,std,2621.915083,6.611187,3.216906,433.003454,13.682548,1.501082,24.880537


**Calcular diferentes medidas resúmenes para distintas variables**

Hay varias sintaxis admitidas para hacer esto, algunas devolverán outputs idénticos o similares. Es importante leer la documentación para usar la forma que mejor se adapte a nuestras necesidades.

* Creando explícitamente la columna con su respectiva medida con el nombre de la columna y la medida como tupla:

    **Sintaxis:**
    
    (df
        .groupby(["variables","de","agrupación"])
            .agg(nueva_columna=("variable",("medida_resumen")
            )
     )

In [85]:
#Obtener mínimo y máximo del precio y la media y el desvío estándar de mpg por origen.
(df4.groupby(["foreig"])
     .agg(
            min_price=("price", "min"),
            max_price=("price", "max"),
            mean_mpg=("mpg", 'mean'),
            std_mpg=("mpg", "std")
        )
)

Unnamed: 0_level_0,min_price,max_price,mean_mpg,std_mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Domestic,3291,15906,19.826923,4.743297
Foreign,3748,12990,24.772727,6.611187


* Creando columnas a partir de un diccionario donde su clave sea la variable elegida y su valor sea la medida resumen o una lista de medidas resúmen:

    **Sintaxis:**

     (df
        .groupby(["variables","de","agrupación"])
            .agg({
                "variable_1": ["medida_resumen_1", "medida_resumen_2"],
                "variable_2":["medida_resumen_3", "medida_resumen_4"]
            })
    )

In [86]:
#Obtener mínimo y máximo del precio y la media y el desvío estándar de mpg por origen.
(df4.groupby(["foreig"])
    .agg({
        "price": ["min", "max"],
        "mpg":["mean", "std"]
    })
)

Unnamed: 0_level_0,price,price,mpg,mpg
Unnamed: 0_level_1,min,max,mean,std
foreig,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Domestic,3291,15906,19.826923,4.743297
Foreign,3748,12990,24.772727,6.611187


Esta última sintaxis puede ser muy cómoda a la hora de solicitar varias medidas resumen pero tiene como resultado un output un poco incómodo si después tenemos que seguir manipulando el dataframe. Por eso siempre tenemos que tener en nuestra cabeza el output que esperamos y trabajar en consecuencia.

In [87]:
(df4
    .groupby(["foreig"])
    .agg({
        "price": ["min", "max"],
        "mpg":["mean", "std"]
        })
).columns

MultiIndex([('price',  'min'),
            ('price',  'max'),
            (  'mpg', 'mean'),
            (  'mpg',  'std')],
           )

**Filtrando el output (HAVING)**

En el apartado "*Selección en base a operaciones lógicas (WHERE - CASE)*" vimos que podíamos establecer ciertas condiciones al momento seleccionar datos de nuestro dataframe.

Es decir que nosotros filtrábamos los datos **ANTES** de aplicar cualquier agrupamiento (DE ENTRADA) ¿Pero qué pasa si queremos filtrar **DESPUÉS** de agrupar? (A LA SALIDA, ANTES DE OBTENER NUESTRA TABLA FINAL)

En SQL esta diferencia se ve muy claro, supongamos el siguiente ejemplo:

Queremos contar la cantidad de reparaciones por origen, pero solo nos interesa aquellos casos que tienen más 5 reparaciones. Entonces con lo que hasta ahora sabemos de SQL haríamos lo siguiente:

Pero no, esto está mal y vamos a recibir el siguiente error.

Sucede que la columna count no existe dentro de la tabla auto, es una columna virtual, se calcula en la consulta "on the fly", en el momento que ejecutamos la consulta. Necesitamos usar la cláusula HAVING, la cual va precedida por el groupby.

¡Ahora sí!

<div> <img src="files/having.png" width="300"/> </div>

Una forma equivalente de hacer esto en Pandas en 2 pasos podría ser:

    1) Agrupamos:

In [88]:
df5 = (df4[['foreig','rep78']]               #Selecciono foreig y rep78
        .reset_index()                       #Reseteo índice para aplicar groupby
        .groupby(['foreig','rep78'])         #Agrupo
        .count()                             #Cuento
        .rename(columns={"index":"count"})   #Renombro
        .reset_index()                       #Reseteo índice
      )                      
df5

Unnamed: 0,foreig,rep78,count
0,Domestic,1.0,2
1,Domestic,2.0,8
2,Domestic,3.0,27
3,Domestic,4.0,9
4,Domestic,5.0,2
5,Foreign,3.0,3
6,Foreign,4.0,9
7,Foreign,5.0,9


    2) Filtramos la salida:

In [89]:
df5.loc[(df5["count"] > 5)] #Filtro los que son menores que 5

Unnamed: 0,foreig,rep78,count
1,Domestic,2.0,8
2,Domestic,3.0,27
3,Domestic,4.0,9
6,Foreign,4.0,9
7,Foreign,5.0,9


Con un poco de práctica también podemos hacerlo en un solo paso.

In [90]:
(df4[['foreig','rep78']]               #Selecciono foreig y rep78
    .reset_index()                     #Reseteo índice para aplicar groupby
    .groupby(['foreig','rep78'])       #Agrupo
    .count()                           #Cuento
    .rename(columns={"index":"count"}) #Renombro
    .loc[lambda x: x["count"] > 5]     #Filtro los que son menores que 5
    .reset_index()                     #Reseteo índice
)

Unnamed: 0,foreig,rep78,count
0,Domestic,2.0,8
1,Domestic,3.0,27
2,Domestic,4.0,9
3,Foreign,4.0,9
4,Foreign,5.0,9


**Índices múltiples (multi index)**:

Las columnas por las que agrupemos serán nuestro nuevo índice. En este caso foreig, headroom y rep78 son los índices.

In [91]:
(df4
    .groupby(["foreig","headroom","rep78"])
        [["price","mpg","weight"]]
        .mean()
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,price,mpg,weight
foreig,headroom,rep78,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,1.5,1.0,4934.0,18.0,3470.0
Domestic,1.5,4.0,4389.0,28.0,1800.0
Domestic,2.0,1.0,4195.0,24.0,2730.0
Domestic,2.0,2.0,4314.333333,23.333333,2886.666667
Domestic,2.0,3.0,4883.4,21.4,3142.0
Domestic,2.0,5.0,3984.0,30.0,2120.0
Domestic,2.5,3.0,6997.333333,21.0,3253.333333
Domestic,2.5,5.0,4425.0,34.0,1800.0
Domestic,3.0,3.0,8390.333333,18.666667,3670.0
Domestic,3.0,4.0,5066.0,18.0,3355.0


Podemos verificarlo así:

In [92]:
(df4.groupby(["foreig","headroom","rep78"])[["price","mpg","weight"]]
     .mean()
     .index)

MultiIndex([('Domestic', 1.5, 1.0),
            ('Domestic', 1.5, 4.0),
            ('Domestic', 2.0, 1.0),
            ('Domestic', 2.0, 2.0),
            ('Domestic', 2.0, 3.0),
            ('Domestic', 2.0, 5.0),
            ('Domestic', 2.5, 3.0),
            ('Domestic', 2.5, 5.0),
            ('Domestic', 3.0, 3.0),
            ('Domestic', 3.0, 4.0),
            ('Domestic', 3.5, 2.0),
            ('Domestic', 3.5, 3.0),
            ('Domestic', 3.5, 4.0),
            ('Domestic', 4.0, 2.0),
            ('Domestic', 4.0, 3.0),
            ('Domestic', 4.0, 4.0),
            ('Domestic', 4.5, 2.0),
            ('Domestic', 4.5, 3.0),
            ('Domestic', 5.0, 2.0),
            ( 'Foreign', 1.5, 4.0),
            ( 'Foreign', 2.0, 4.0),
            ( 'Foreign', 2.0, 5.0),
            ( 'Foreign', 2.5, 3.0),
            ( 'Foreign', 2.5, 4.0),
            ( 'Foreign', 2.5, 5.0),
            ( 'Foreign', 3.0, 3.0),
            ( 'Foreign', 3.0, 4.0),
            ( 'Foreign', 3.0

**Cambiando la estructura del dataframe (reshaping):**

Pandas ofrece varios métodos cambiar las estructura de un dataframe, nosotros veremos pivot, stack y unstack.

***1. Pivot:***

Cambia la estructura de nuestro dataframe eligiendo qué columnas serán índice, columnas simples y cuáles serán los valores a expresar.

Esquema:

<div> <img src="files/pivot-table-datasheet.png" width="600"/> </div>


In [93]:
#Creamos und df con una selección de variables a pivotar
df6 = df4[["make","rep78","foreig","price"]]
df6

Unnamed: 0,make,rep78,foreig,price
0,AMC Concord,3.0,Domestic,4099
1,AMC Pacer,3.0,Domestic,4749
2,AMC Spirit,,Domestic,3799
3,Buick Century,3.0,Domestic,4816
4,Buick Electra,4.0,Domestic,7827
...,...,...,...,...
69,VW Dasher,4.0,Foreign,7140
70,VW Diesel,5.0,Foreign,5397
71,VW Rabbit,4.0,Foreign,4697
72,VW Scirocco,4.0,Foreign,6850


In [94]:
(df6.pivot(index=["make","foreig"],
           columns=["rep78"],
           values=["price"])
)

Unnamed: 0_level_0,Unnamed: 1_level_0,price,price,price,price,price,price
Unnamed: 0_level_1,rep78,NaN,1.0,2.0,3.0,4.0,5.0
make,foreig,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
AMC Concord,Domestic,,,,4099.0,,
AMC Pacer,Domestic,,,,4749.0,,
AMC Spirit,Domestic,3799.0,,,,,
Audi 5000,Foreign,,,,,,9690.0
Audi Fox,Foreign,,,,6295.0,,
...,...,...,...,...,...,...,...
VW Dasher,Foreign,,,,,7140.0,
VW Diesel,Foreign,,,,,,5397.0
VW Rabbit,Foreign,,,,,4697.0,
VW Scirocco,Foreign,,,,,6850.0,


<div> <img src="files/pivot.jpg" width="400"/> </div>

https://www.youtube.com/watch?v=8w3wmQAMoxQ

***2. Stack:***
    
Nos permite cambiar la forma de nuestro dataframe pasando las columnas (que no son índice) a filas. Nos va a devolver una Serie, nosotros la vamos a convertir en un dataframe para mejorar el output.

Este es el esquema de la operación que realiza stack:

<div> <img src="files/reshaping_stack.png" width="500"/> </div>

In [95]:
#Creamos un dataframe para probar stack
df7 = df4.groupby(["foreig","headroom","rep78"])[["price","mpg","weight"]].mean()
df7

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,price,mpg,weight
foreig,headroom,rep78,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,1.5,1.0,4934.0,18.0,3470.0
Domestic,1.5,4.0,4389.0,28.0,1800.0
Domestic,2.0,1.0,4195.0,24.0,2730.0
Domestic,2.0,2.0,4314.333333,23.333333,2886.666667
Domestic,2.0,3.0,4883.4,21.4,3142.0
Domestic,2.0,5.0,3984.0,30.0,2120.0
Domestic,2.5,3.0,6997.333333,21.0,3253.333333
Domestic,2.5,5.0,4425.0,34.0,1800.0
Domestic,3.0,3.0,8390.333333,18.666667,3670.0
Domestic,3.0,4.0,5066.0,18.0,3355.0


In [96]:
df7 = df7.stack().to_frame(name="Valor") #Cambio el nombre de la columna 0
df7

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Valor
foreig,headroom,rep78,Unnamed: 3_level_1,Unnamed: 4_level_1
Domestic,1.5,1.0,price,4934.0
Domestic,1.5,1.0,mpg,18.0
Domestic,1.5,1.0,weight,3470.0
Domestic,1.5,4.0,price,4389.0
Domestic,1.5,4.0,mpg,28.0
...,...,...,...,...
Foreign,3.0,5.0,mpg,28.5
Foreign,3.0,5.0,weight,2327.5
Foreign,3.5,4.0,price,3995.0
Foreign,3.5,4.0,mpg,30.0


***3. Unstack:***

Si quisiéramos desarmar estos índices para cambiar la forma de nuestro dataframe podríamos hacerlo con unstack(). Este método por defecto elimina el último índice de las filas (-1) y pasa a ser el índice de las columnas.

<div> <img src="files/reshaping_unstack.png" width="500"/> </div>

In [97]:
#Creamos un dataframe para probar unstack
df8 = df4.groupby(["foreig","headroom","rep78"])[["price","mpg","weight"]].mean() 
df8

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,price,mpg,weight
foreig,headroom,rep78,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,1.5,1.0,4934.0,18.0,3470.0
Domestic,1.5,4.0,4389.0,28.0,1800.0
Domestic,2.0,1.0,4195.0,24.0,2730.0
Domestic,2.0,2.0,4314.333333,23.333333,2886.666667
Domestic,2.0,3.0,4883.4,21.4,3142.0
Domestic,2.0,5.0,3984.0,30.0,2120.0
Domestic,2.5,3.0,6997.333333,21.0,3253.333333
Domestic,2.5,5.0,4425.0,34.0,1800.0
Domestic,3.0,3.0,8390.333333,18.666667,3670.0
Domestic,3.0,4.0,5066.0,18.0,3355.0


In [98]:
df8 = df8.unstack()
df8

Unnamed: 0_level_0,Unnamed: 1_level_0,price,price,price,price,price,mpg,mpg,mpg,mpg,mpg,weight,weight,weight,weight,weight
Unnamed: 0_level_1,rep78,1.0,2.0,3.0,4.0,5.0,1.0,2.0,3.0,4.0,5.0,1.0,2.0,3.0,4.0,5.0
foreig,headroom,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Domestic,1.5,4934.0,,,4389.0,,18.0,,,28.0,,3470.0,,,1800.0,
Domestic,2.0,4195.0,4314.333333,4883.4,,3984.0,24.0,23.333333,21.4,,30.0,2730.0,2886.666667,3142.0,,2120.0
Domestic,2.5,,,6997.333333,,4425.0,,,21.0,,34.0,,,3253.333333,,1800.0
Domestic,3.0,,,8390.333333,5066.0,,,,18.666667,18.0,,,,3670.0,3355.0,
Domestic,3.5,,14500.0,7242.6,5379.0,,,14.0,17.2,14.0,,,3900.0,3634.0,4060.0,
Domestic,4.0,,4948.0,7218.333333,6606.8,,,17.0,19.0,17.6,,,3600.0,3400.0,3844.0,
Domestic,4.5,,6342.0,4576.666667,,,,17.0,19.333333,,,,3740.0,3306.666667,,
Domestic,5.0,,4060.0,,,,,18.0,,,,,3330.0,,,
Foreign,1.5,,,,6229.0,,,,,23.0,,,,,2370.0,
Foreign,2.0,,,,6850.0,5154.0,,,,25.0,26.5,,,,1990.0,2345.0


In [99]:
#rep78 ya no es más índice de filas:
df8.index

MultiIndex([('Domestic', 1.5),
            ('Domestic', 2.0),
            ('Domestic', 2.5),
            ('Domestic', 3.0),
            ('Domestic', 3.5),
            ('Domestic', 4.0),
            ('Domestic', 4.5),
            ('Domestic', 5.0),
            ( 'Foreign', 1.5),
            ( 'Foreign', 2.0),
            ( 'Foreign', 2.5),
            ( 'Foreign', 3.0),
            ( 'Foreign', 3.5)],
           names=['foreig', 'headroom'])

In [100]:
#y pasa a indexar las columnas.
df8.columns

MultiIndex([( 'price', 1.0),
            ( 'price', 2.0),
            ( 'price', 3.0),
            ( 'price', 4.0),
            ( 'price', 5.0),
            (   'mpg', 1.0),
            (   'mpg', 2.0),
            (   'mpg', 3.0),
            (   'mpg', 4.0),
            (   'mpg', 5.0),
            ('weight', 1.0),
            ('weight', 2.0),
            ('weight', 3.0),
            ('weight', 4.0),
            ('weight', 5.0)],
           names=[None, 'rep78'])

In [101]:
#Esta vez probamos quitando foreig como índice de filas
df9 = df4.groupby(["foreig","rep78"])[["price","mpg","weight"]].mean()
df9

Unnamed: 0_level_0,Unnamed: 1_level_0,price,mpg,weight
foreig,rep78,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Domestic,1.0,4564.5,21.0,3100.0
Domestic,2.0,5967.625,19.125,3353.75
Domestic,3.0,6607.074074,19.0,3442.222222
Domestic,4.0,5881.555556,18.444444,3532.222222
Domestic,5.0,4204.5,32.0,1960.0
Foreign,3.0,4828.666667,23.333333,2010.0
Foreign,4.0,6261.444444,24.888889,2207.777778
Foreign,5.0,6292.666667,26.333333,2403.333333


In [102]:
df9 = df9.unstack(0)
df9

Unnamed: 0_level_0,price,price,mpg,mpg,weight,weight
foreig,Domestic,Foreign,Domestic,Foreign,Domestic,Foreign
rep78,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1.0,4564.5,,21.0,,3100.0,
2.0,5967.625,,19.125,,3353.75,
3.0,6607.074074,4828.666667,19.0,23.333333,3442.222222,2010.0
4.0,5881.555556,6261.444444,18.444444,24.888889,3532.222222,2207.777778
5.0,4204.5,6292.666667,32.0,26.333333,1960.0,2403.333333


In [103]:
#Foreig ya no indexa la filas
df9.index

Float64Index([1.0, 2.0, 3.0, 4.0, 5.0], dtype='float64', name='rep78')

In [104]:
#y pasa a indexar columnas
df9.columns

MultiIndex([( 'price', 'Domestic'),
            ( 'price',  'Foreign'),
            (   'mpg', 'Domestic'),
            (   'mpg',  'Foreign'),
            ('weight', 'Domestic'),
            ('weight',  'Foreign')],
           names=[None, 'foreig'])

Este es el esquema de la operación que realiza unstack (0):
<div> <img src="files/reshaping_unstack_0.png" width="500"/> </div>

**Análisis cruzado de variables (crosstab):**

Con crosstab podemos cruzar nuestras variables ya sea de forma simple, utilizando funciones de agregado o para calcular porcentajes.


In [105]:
#Cantidad de reparaciones en 1978 según origen.
df10= pd.crosstab(df4.foreig,df4.rep78)
df10

rep78,1.0,2.0,3.0,4.0,5.0
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,2,8,27,9,2
Foreign,0,0,3,9,9


In [106]:
#Cantidad de reparaciones con totales y nombres según origen
df11= pd.crosstab(df4.foreig,df4.rep78,
                  colnames= ["Candidad de reparaciones"],
                  rownames= ["Origen"],
                  margins= True,
                  margins_name="Total"
                  
)
df11

Candidad de reparaciones,1.0,2.0,3.0,4.0,5.0,Total
Origen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Domestic,2,8,27,9,2,48
Foreign,0,0,3,9,9,21
Total,2,8,30,18,11,69


In [107]:
#Cantidad de reparaciones expresadas al tanto por uno, según origen, con totales y nombres
df11= pd.crosstab(df4.foreig,df4.rep78,
                  colnames= ["Candidad de reparaciones"],
                  rownames= ["Origen"],
                  margins= True,
                  margins_name="Total",
                  normalize=True
                  
)
df11

Candidad de reparaciones,1.0,2.0,3.0,4.0,5.0,Total
Origen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Domestic,0.028986,0.115942,0.391304,0.130435,0.028986,0.695652
Foreign,0.0,0.0,0.043478,0.130435,0.130435,0.304348
Total,0.028986,0.115942,0.434783,0.26087,0.15942,1.0


In [108]:
#Cantidad de reparaciones expresadas en porcentaje, según origen, con totales y nombres
df11= pd.crosstab(df4.foreig,df4.rep78,
                  colnames= ["Candidad de reparaciones"],
                  rownames= ["Origen"],
                  margins= True,
                  margins_name="Total",
                  normalize=True
                  
).apply(lambda r: round(r*100,2))
df11

Candidad de reparaciones,1.0,2.0,3.0,4.0,5.0,Total
Origen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Domestic,2.9,11.59,39.13,13.04,2.9,69.57
Foreign,0.0,0.0,4.35,13.04,13.04,30.43
Total,2.9,11.59,43.48,26.09,15.94,100.0


In [109]:
#Precio promedio según origen y cantidad de reparaciones
df12 = pd.crosstab(
        index=df4["foreig"],
        columns=df4["rep78"],
        values=df4["price"],
        colnames= ["Candidad de reparaciones"], 
        rownames= ["Origen"],
        aggfunc="mean"   
)
df12

Candidad de reparaciones,1.0,2.0,3.0,4.0,5.0
Origen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Domestic,4564.5,5967.625,6607.074074,5881.555556,4204.5
Foreign,,,4828.666667,6261.444444,6292.666667


Esquema de funcionamiento de crosstab:

<div> <img src="files/crosstab_cheatsheet.png" width="1000"/> </div>

### Combinar tablas

#### Pandas merge / SQL Join (PL/PgSQL)

Merge o Join (SQL) nos permite combinar registros de varias tablas en una sola. En Pandas hay 4 tipos de join (merge):

* Inner
* Left
* Right
* Outer

**Sintaxis:**
* pd.merge(df1, df2, on=["key_1","key_2","key_n"], how= ("inner"/"left"/"right"/"outer")

* df1.merge(df2, how=("inner"/"left"/"right"/"outer"), on=["key_1","key_2,key_n"])

on = columnas o columas que las tablas tienen en común.
how = tipo de join. Si no se especifica por default es un inner.


Para explicar cada join vamos a trabajar con dos tablas que contienen datos de bebidas gaseosas, la primera de ellas contiene su aporte energético (kcal) y la segunda detalla sus macronutrientes (macro).

In [110]:
kcal= {"Marca":["Coca", "Coca Zero", "Pepsi", "Manaos"],
       "Kcal":[37, 0.1, 31, 45]
    }

kcal= pd.DataFrame(kcal).sort_values(by="Marca").reset_index(drop=True)
kcal

Unnamed: 0,Marca,Kcal
0,Coca,37.0
1,Coca Zero,0.1
2,Manaos,45.0
3,Pepsi,31.0


In [111]:
macro= {"Marca":["Coca", "Pepsi", "Cunnington", "Manaos", "Sprite"],
        "Azucares":[9, 7.5, 10, 11,10],
        "Proteinas": [0.1, 0, 0.2, 0.1,0],
        "Grasas": [0, 0, 0, 0,0] 
    }

macro= pd.DataFrame(macro).sort_values(by="Marca").reset_index(drop=True)
macro

Unnamed: 0,Marca,Azucares,Proteinas,Grasas
0,Coca,9.0,0.1,0
1,Cunnington,10.0,0.2,0
2,Manaos,11.0,0.1,0
3,Pepsi,7.5,0.0,0
4,Sprite,10.0,0.0,0


##### Inner join

Esta cláusula busca coincidencias entre 2 tablas, en función a una columna que tienen en común. De tal modo que sólo la intersección se mostrará en los resultados.

![](files/INNER_JOIN.webp)

![](files/join-inner_2.png)

In [112]:
gaseosas_inner = pd.merge(kcal, macro, on="Marca", how="inner")
gaseosas_inner

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0
1,Manaos,45.0,11.0,0.1,0
2,Pepsi,31.0,7.5,0.0,0


In [113]:
#Con el parámetro indicator podemos saber de qué tabla/s proviene nuestra fila
gaseosas_inner = pd.merge(kcal, macro, on="Marca", how="inner",indicator=True)
gaseosas_inner

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0,both
1,Manaos,45.0,11.0,0.1,0,both
2,Pepsi,31.0,7.5,0.0,0,both


![](files/inner_sql.png)

##### Left join
A diferencia de un INNER JOIN, donde se busca una intersección entre ambas tablas, con LEFT JOIN damos prioridad a la tabla de la izquierda, y buscamos en la tabla derecha. Si no existiese ninguna coincidencia se mostrarán todos los resultados de la primera tabla.

![](files/LEFT_JOIN.webp)

![](files/left_joint.png)

In [114]:
gaseosas_left = pd.merge(kcal, macro, on="Marca", how="left")
gaseosas_left

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0.0
1,Coca Zero,0.1,,,
2,Manaos,45.0,11.0,0.1,0.0
3,Pepsi,31.0,7.5,0.0,0.0


In [115]:
gaseosas_left = pd.merge(kcal, macro, on="Marca", how="left", indicator=True)
gaseosas_left

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0.0,both
1,Coca Zero,0.1,,,,left_only
2,Manaos,45.0,11.0,0.1,0.0,both
3,Pepsi,31.0,7.5,0.0,0.0,both


![](files/left_sql_1.png)

Observemos que el output de SQL es distinto al de Pandas. Donde debiera decir "Coca Zero" tenemos un valor null, esto sucede porque en SQL debemos indicar de qué tabla queremos cada columna. Nosotros solicitamos de la tabla macronutrientes la columna marca pero "Coca Zero" no existe en macronutrientes (tabla derecha), existe en calorías (tabla izquierda), por eso no la encuentra.

Solicitemos la columna marca de ambas tablas para que sea más claro (SELECT k.kcal, m.marca, m.azucares...)

![](files/left_sql_2.png)

Entonces, para que nuestra consulta tenga el output correcto, debemos solicitar marca de la tabla de calorías.

![](files/left_sql_3.png)

##### Right join

En el caso de RIGHT JOIN la situación es muy similar, pero aquí se da prioridad a la tabla de la derecha y buscará en la tabla izquierda las coincidencias.

![](files/RIGHT_JOIN.webp)

![](files/right_join.png)

In [116]:
gaseosas_right = pd.merge(kcal, macro, on="Marca", how="right")
gaseosas_right

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0
1,Cunnington,,10.0,0.2,0
2,Manaos,45.0,11.0,0.1,0
3,Pepsi,31.0,7.5,0.0,0
4,Sprite,,10.0,0.0,0


In [117]:
gaseosas_right = pd.merge(kcal, macro, on="Marca", how="right", indicator=True)
gaseosas_right

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0,both
1,Cunnington,,10.0,0.2,0,right_only
2,Manaos,45.0,11.0,0.1,0,both
3,Pepsi,31.0,7.5,0.0,0,both
4,Sprite,,10.0,0.0,0,right_only


Recordemos seleccionar la tabla correcta:

![](files/right_sql.png)

##### Outer join

Mientras que LEFT JOIN muestra todas las filas de la tabla izquierda, y RIGHT JOIN muestra todas las correspondientes a la tabla derecha, OUTER JOIN (o sus sinónimos FULL JOIN o FULL OUTER JOIN) se encarga de mostrar todas las filas de ambas tablas, sin importar que no existan coincidencias. En los casos en que no haya coincidencia mostrará NaN/null por defecto.

![](files/OUTER_JOIN.webp)

![](files/outer_joint.png)

In [118]:
gaseosas_outer = pd.merge(kcal, macro, on="Marca", how="outer")
gaseosas_outer

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas
0,Coca,37.0,9.0,0.1,0.0
1,Coca Zero,0.1,,,
2,Manaos,45.0,11.0,0.1,0.0
3,Pepsi,31.0,7.5,0.0,0.0
4,Cunnington,,10.0,0.2,0.0
5,Sprite,,10.0,0.0,0.0


In [119]:
gaseosas_outer = pd.merge(kcal, macro, on="Marca", how="outer", indicator=True)
gaseosas_outer

Unnamed: 0,Marca,Kcal,Azucares,Proteinas,Grasas,_merge
0,Coca,37.0,9.0,0.1,0.0,both
1,Coca Zero,0.1,,,,left_only
2,Manaos,45.0,11.0,0.1,0.0,both
3,Pepsi,31.0,7.5,0.0,0.0,both
4,Cunnington,,10.0,0.2,0.0,right_only
5,Sprite,,10.0,0.0,0.0,right_only


Pero en SQL no es tan fácil, revisemos la columna marca de cada tabla...

Acá podemos ver que no hay una sola columna correcta de marca para elegir. Coca Zero no existe en la tabla de macronutrientes, Cunnington y Sprite no existen en la tabla de calorías. Pandas esto lo resolvía por nosotros pero en SQL debemos dar una vuelta más...

![](files/outer_sql_1.png)

Entonces, vamos a usar la función COALESCE, la cual es propia de PL/PgSQL. Cada implementación de SQL puede tener una función equivalente o de similar funcionamiento.

Veamos la sintaxis de COALESCE:

COALESCE(tablaA.columna_n,tablaB.columna_n) AS nombre_de_columna.

COALESCE va a preguntarse si un registro es nulo en la columna_n de la tabla y si es nulo va a utilizar la columna_n de la tablaB.

En nuestro ejemplo funciona de esta manera:

*COALESCE: ¿Es nula la columna marca en la marca de la tabla macronutrientes?*
   * **No:** Todo OK, usa el registro de la tabla macronutrientes.
   * **Sí:** Va a buscar el registro en la tabla kcal y lo completa en nuestro output.
   
En el caso del left y right join podríamos habernos ahorrado de pensar cuál es la tabla correcta y directamente haber usado COALESCE, pero sabiendo la teoría y conociendo nuestros datos, podemos evitarle al servidor computar innecesariamente una función.

![](files/outer_sql_2.png)

###### Uso de joins en el mundo de la vida


<div> <img src="files/1632174980836.jpg" width="400"/> </div>

##### Cross join

El cross join es un tipo de join que nos devuelve el producto cartesiano entre las tablas (todas las combinaciones posibles). No lo hemos incluído en la lista anterior porque originalmente no era un tipo de join admitido por Pandas, por lo que debíamos programarlo a mano alzada. Lo bueno es que es muy fácil de hacer.

![](files/cross_join.png)

Para generar un cross join vamos a crear dos dataframes, uno de platos y otras guarniciones.

In [120]:
platos= {'Plato': ["Milanesa","Suprema de pollo","Milanesa de soja"]}
platos= pd.DataFrame(platos).reset_index(drop=True)
platos

Unnamed: 0,Plato
0,Milanesa
1,Suprema de pollo
2,Milanesa de soja


In [121]:
guarniciones= {"Guarnicion":["Puré de papa","Puré de calabaza",
                             "Ensalada mixta", "Ensalada completa",
                             "Papas fritas"]}

guarniciones= pd.DataFrame(guarniciones).reset_index(drop=True)
guarniciones

Unnamed: 0,Guarnicion
0,Puré de papa
1,Puré de calabaza
2,Ensalada mixta
3,Ensalada completa
4,Papas fritas


Después lo que vamos a hacer es crear en cada dataframe una columna que asuma un único valor, 1 en nuestro caso. Esta columna es fundamental porque haremos nuestro join a partir de ella.

In [122]:
platos["key"] = 1
platos

Unnamed: 0,Plato,key
0,Milanesa,1
1,Suprema de pollo,1
2,Milanesa de soja,1


In [123]:
guarniciones["key"] = 1
guarniciones

Unnamed: 0,Guarnicion,key
0,Puré de papa,1
1,Puré de calabaza,1
2,Ensalada mixta,1
3,Ensalada completa,1
4,Papas fritas,1


La columna key al asumir el mismo valor en cada tabla nos permitirá hacer el join con todas las combinaciones posibles.

In [124]:
plato_guarnicion = pd.merge(platos, guarniciones, on ="key").drop(columns="key")
plato_guarnicion

Unnamed: 0,Plato,Guarnicion
0,Milanesa,Puré de papa
1,Milanesa,Puré de calabaza
2,Milanesa,Ensalada mixta
3,Milanesa,Ensalada completa
4,Milanesa,Papas fritas
5,Suprema de pollo,Puré de papa
6,Suprema de pollo,Puré de calabaza
7,Suprema de pollo,Ensalada mixta
8,Suprema de pollo,Ensalada completa
9,Suprema de pollo,Papas fritas


![](files/cross_join_Sql.png)

Algunas aclaraciones finales sobre Pandas merge:

No es necesario que las columnas que serán nuestra key tengan el mismo nombre en ambas tablas, podemos utilizar los parámetros left_on y right_on.

Tampoco, es necesario combinar todas las columnas de ambas tablas, por ejemplo:

In [125]:
gaseosas_inner_2 = pd.merge(kcal, macro[["Marca","Azucares"]], on="Marca", how="inner")
gaseosas_inner_2

Unnamed: 0,Marca,Kcal,Azucares
0,Coca,37.0,9.0
1,Manaos,45.0,11.0
2,Pepsi,31.0,7.5


Merge no es el único método para hacer joins similares a SQL, con el método join podemos obtener los mismos resultados. Nosotros nos hemos concentramos en merge porque es más versátil y tiene una sintaxis un poco más legible que join pero ambos métodos son bienvenidos y quedan invitados a investigar sus diferencias y revisar su documentación.

* https://www.geeksforgeeks.org/what-is-the-difference-between-join-and-merge-in-pandas/

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join



#### Pandas concat / SQL Union ALL y UNION (PL/PgSQL)¶

Pandas, UNION ALL y UNION (SQL) nos permiten apilar nuestras tablas/consultas.

**Sintaxis:**

    pd.concat([tabla_a, tabla_b, tabla_c], ignore_index=True)

El parámetro ignore_index nos permite crear un nuevo índice para nuestra tabla apilada de modo que no herede los índices de las tablas originales.

Vamos a crear tres dataframes para ponerlo a prueba:

In [126]:
finanzas = {"Nombre": ["Juan Pérez", "María Gómez","Juan Pérez"], "Area": ["Finanzas", "Finanzas","Finanzas"]}
finanzas = pd.DataFrame.from_dict(finanzas)
finanzas

Unnamed: 0,Nombre,Area
0,Juan Pérez,Finanzas
1,María Gómez,Finanzas
2,Juan Pérez,Finanzas


In [127]:
rrhh = {"Nombre": ["Ana Estévez", "Diego Hernández","Marcela Pérez García"], "Area": ["RRHH", "RRHH","RRHH"]}
rrhh = pd.DataFrame.from_dict(rrhh)
rrhh

Unnamed: 0,Nombre,Area
0,Ana Estévez,RRHH
1,Diego Hernández,RRHH
2,Marcela Pérez García,RRHH


In [128]:
ventas= {"Nombre": ["Matías Rodríguez", "Silvia García"], "Area": ["Ventas", "Ventas"],"Antiguedad_Anios": [3, 6.9]}
ventas= pd.DataFrame.from_dict(ventas)
ventas

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Matías Rodríguez,Ventas,3.0
1,Silvia García,Ventas,6.9


##### UNION ALL

En SQL podemos distinguir UNION ALL de UNION, el primero ignora los duplicados, el segundo los elimina.

Cabe destacar que nuestro ejemplo es trivial, las tablas de SQL no deberían contener registros duplicados porque ello supondría una violación a la integridad referencial.

In [129]:
empleados_union_all = pd.concat([finanzas, rrhh, ventas],ignore_index=True)
empleados_union_all 

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Juan Pérez,Finanzas,
1,María Gómez,Finanzas,
2,Juan Pérez,Finanzas,
3,Ana Estévez,RRHH,
4,Diego Hernández,RRHH,
5,Marcela Pérez García,RRHH,
6,Matías Rodríguez,Ventas,3.0
7,Silvia García,Ventas,6.9


![](files/union_all.png)

##### UNION

In [130]:
empleados_union = pd.concat([finanzas, rrhh, ventas]).drop_duplicates().reset_index(drop=True)
empleados_union

Unnamed: 0,Nombre,Area,Antiguedad_Anios
0,Juan Pérez,Finanzas,
1,María Gómez,Finanzas,
2,Ana Estévez,RRHH,
3,Diego Hernández,RRHH,
4,Marcela Pérez García,RRHH,
5,Matías Rodríguez,Ventas,3.0
6,Silvia García,Ventas,6.9


![](files/union.png)

### Tipos de relaciones

##### Uno a uno: 
En este tipo de relación, cuando en una tabla con registros únicos se asocian a un único registro de otra tabla.

In [131]:
promedios= {
    "ALUMNO": ["Juan", "Ana", "María"],
    "PROMEDIO_CARRERA": [7.75, 6.82, 8.45]
}
promedios = pd.DataFrame.from_dict(promedios)
promedios

Unnamed: 0,ALUMNO,PROMEDIO_CARRERA
0,Juan,7.75
1,Ana,6.82
2,María,8.45


In [132]:
edades= {
    "ALUMNO": ["Juan", "Ana", "María"],
    "EDAD_AL_RECIBIRSE": [26, 24, 31]
}
edades = pd.DataFrame.from_dict(edades)
edades

Unnamed: 0,ALUMNO,EDAD_AL_RECIBIRSE
0,Juan,26
1,Ana,24
2,María,31


In [133]:
pd.merge(promedios, edades, on="ALUMNO", how="inner")

Unnamed: 0,ALUMNO,PROMEDIO_CARRERA,EDAD_AL_RECIBIRSE
0,Juan,7.75,26
1,Ana,6.82,24
2,María,8.45,31


##### Uno a muchos (o muchos a uno)
Estamos ante este tipo de relación cuando un registro de una tabla con registros únicos se asocia a más de un registro de otra tabla.

In [134]:
domicilios= {
    "CLIENTE": ["Héctor", "Estela", "Karina", "Esteban"],
    "DOMICILIO": ["Mitre 1201","Sarmiento 2804","Avellaneda 2127","Roca 3412"]}
domicilios= pd.DataFrame.from_dict(domicilios)
domicilios

Unnamed: 0,CLIENTE,DOMICILIO
0,Héctor,Mitre 1201
1,Estela,Sarmiento 2804
2,Karina,Avellaneda 2127
3,Esteban,Roca 3412


In [135]:
pedidos= {
    "CLIENTE": ["Héctor", "Estela", "Karina","Esteban","Esteban"],
    "PEDIDO": [1, 1, 1, 1,2],
    "MONTO": [12000,8400,13340,9127,14315]
}
pedidos= pd.DataFrame.from_dict(pedidos)
pedidos

Unnamed: 0,CLIENTE,PEDIDO,MONTO
0,Héctor,1,12000
1,Estela,1,8400
2,Karina,1,13340
3,Esteban,1,9127
4,Esteban,2,14315


In [136]:
pd.merge(pedidos,domicilios, on="CLIENTE", how="inner")

Unnamed: 0,CLIENTE,PEDIDO,MONTO,DOMICILIO
0,Héctor,1,12000,Mitre 1201
1,Estela,1,8400,Sarmiento 2804
2,Karina,1,13340,Avellaneda 2127
3,Esteban,1,9127,Roca 3412
4,Esteban,2,14315,Roca 3412


Esquema:

![](files/join-one-to-many_5.png)

![](notas_files/join-one-to-many_5.png)

##### Muchos a muchos
Tiene lugar este tipo de relación cuando varios registros de una tabla pueden asociarse a varios registros de otra tabla.

In [137]:
ventas= {
        "PROVINCIA": ["San Luis","Santa Fe", "Santa Fe", "Mendoza"],
        "CANAL_VENTA": ["Local", "Web", "Local", "Local"],
        "MONTO_VENTAS": [3200000,4003000,5700000,6420000]
}

ventas= pd.DataFrame.from_dict(ventas)
ventas

Unnamed: 0,PROVINCIA,CANAL_VENTA,MONTO_VENTAS
0,San Luis,Local,3200000
1,Santa Fe,Web,4003000
2,Santa Fe,Local,5700000
3,Mendoza,Local,6420000


In [138]:
prov= {
    "PROVINCIA": ["San Luis","Santa Fe", "Santa Fe", "Mendoza"],
    "DEPARTAMENTO": ["Juan Martín de Pueyrredón","Rosario", "La Capital", "Guaymallén"],
    "HABITANTES_2010": [204512,1193605,525093,283803]
}
prov= pd.DataFrame.from_dict(prov)
prov

Unnamed: 0,PROVINCIA,DEPARTAMENTO,HABITANTES_2010
0,San Luis,Juan Martín de Pueyrredón,204512
1,Santa Fe,Rosario,1193605
2,Santa Fe,La Capital,525093
3,Mendoza,Guaymallén,283803


In [139]:
ventas_prov= pd.merge(ventas, prov, on="PROVINCIA", how="left")    
ventas_prov

Unnamed: 0,PROVINCIA,CANAL_VENTA,MONTO_VENTAS,DEPARTAMENTO,HABITANTES_2010
0,San Luis,Local,3200000,Juan Martín de Pueyrredón,204512
1,Santa Fe,Web,4003000,Rosario,1193605
2,Santa Fe,Web,4003000,La Capital,525093
3,Santa Fe,Local,5700000,Rosario,1193605
4,Santa Fe,Local,5700000,La Capital,525093
5,Mendoza,Local,6420000,Guaymallén,283803


Esquema:
    
![](files/join-many-to-many_6.png)

Cuando estamos ante este tipo de relación tenemos que ser muy cuidadosos porque si de esta tabla quisiéramos obtener las ventas o los habitantes por provincia, en Santa Fe estaríamos duplicando resultados.

In [140]:
ventas_prov.groupby(["PROVINCIA"])[["HABITANTES_2010"]].sum()

Unnamed: 0_level_0,HABITANTES_2010
PROVINCIA,Unnamed: 1_level_1
Mendoza,283803
San Luis,204512
Santa Fe,3437396


Resolvamos esto...

In [141]:
(ventas_prov
    .drop_duplicates(subset=["PROVINCIA","HABITANTES_2010"]) #Eliminamos duplicados en términos de provincia y habitantes
    .groupby(["PROVINCIA"])[["HABITANTES_2010"]].sum() #Agrupamos
)

Unnamed: 0_level_0,HABITANTES_2010
PROVINCIA,Unnamed: 1_level_1
Mendoza,283803
San Luis,204512
Santa Fe,1718698


Merge nos permite validar la relación entre las tablas a combinar con el parámetro validate. Debemos declararle el tipo de relación que pensamos que hay entre nuestras tablas, si este tipo es incorrecto nos devolverá un error.

Usemos las tablas que ya sabemos que de antemano que se relacionan de muchos a muchos y validemos si las relación es de uno a muchos.  

In [142]:
from pandas.errors import MergeError

try:
    pd.merge(ventas, prov, on="PROVINCIA", how="left",validate="1:m")
except MergeError as err:
    print(err)

Merge keys are not unique in left dataset; not a one-to-many merge


Para más información de este parámetro consultar la documentación:
* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

### Funciones anónimas (lambda)

Pandas nos permite utilizar funciones anónimas junto a funciones de agrupación, vamos poner esto a prueba creando un dataframe de resultados electorales.

Vamos a calcular:

* Porcentaje de votos por distrito.
* Porcentaje de votos sobre el total.


In [143]:
resultados= {
        "distrito": [1,2,1,2,1,2,1,2],
        "candidato": ["A","A","B","B","C","C","D","D"],
        "votos": [np.nan,3432,1234,6789,2346,9654,3121,5210]
        }

resultados= pd.DataFrame.from_dict(resultados).sort_values("distrito").reset_index(drop=True)
resultados

Unnamed: 0,distrito,candidato,votos
0,1,A,
1,1,B,1234.0
2,1,C,2346.0
3,1,D,3121.0
4,2,A,3432.0
5,2,B,6789.0
6,2,C,9654.0
7,2,D,5210.0


* Porcentaje de votos por distrito:

En primer lugar lo que vamos a hacer es establecer como índice a las columnas distrito y candidato, más adelante veremos la razón de esto, por ahora será una cuestión de fe.


In [144]:
votos_agrup_distrito= resultados.set_index(["distrito","candidato"])
votos_agrup_distrito

Unnamed: 0_level_0,Unnamed: 1_level_0,votos
distrito,candidato,Unnamed: 2_level_1
1,A,
1,B,1234.0
1,C,2346.0
1,D,3121.0
2,A,3432.0
2,B,6789.0
2,C,9654.0
2,D,5210.0


Una vez que hicimos esto observemos la siguiente línea en el bloque de código siguiente. 

El método apply se utiliza en Pandas para aplicar una función anónima, por default se ejecuta sobre las columnas (axis=0).

**.apply(lambda x: x / float(x.sum())*100)**

Entonces la operación que realizará apply será la siguiente

* lambda columna_1: columna_1 / float(columna_1.sum())*100)

* lambda columna_2: columna_1 / float(columna_2.sum())*100)

* lambda columna_n: columna_1 / float(columna_n.sum())*100)

Ahora que sabemos cómo funciona apply revisemos nuestra función...

Cada fila de la columna será dividida por el total de la columna (respetando el group by) que hayamos definido, es decir...

* columna_1_fila_1 / suma(columna_1_según_group_by)
* columna_1_fila_2 / suma(columna_1_según_group_by)
* columna_1_fila_3 / suma(columna_1_según_group_by)

y así sucesivamente...

Después, a cada resultado lo va a multiplicar por 100 para obtener el porcentaje.

También podemos observar que usamos la función float, esto lo hacemos porque la suma de los votos nos podría devolver una columna de tipo int, nosotros forzamos que sea float para poder expresar el resultado en números decimales. En nuestro caso al tener una fila con valor NaN, nuestra columna no será una columna int, pero decidimos mantener el uso de esta función, asumiendo que en un caso real podríamos no haber inspeccionado a priori el dataframe.

In [145]:
pct_candidato_distrito= (
    votos_agrup_distrito.groupby(["distrito"])
        .apply(lambda x: x / float(x.sum())*100)   #<-----------
        .round(4)
        .sort_values("distrito")
        .reset_index()
        .merge(resultados,on=["candidato","distrito"], how="inner")   
        .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
        .reindex(columns=["distrito","candidato","votos","pct_votos"])
)

pct_candidato_distrito

Unnamed: 0,distrito,candidato,votos,pct_votos
0,1,A,,
1,1,B,1234.0,18.4152
2,1,C,2346.0,35.0097
3,1,D,3121.0,46.5751
4,2,A,3432.0,13.6815
5,2,B,6789.0,27.064
6,2,C,9654.0,38.4852
7,2,D,5210.0,20.7694


Ya sabemos como funciona apply y las funciones lambda, nos queda pendiente entender el set_index que hicimos al principio. Creamos una función que calcula un porcentaje y gracias a apply nuestra función se aplicará en cada columna. Pero... si no estamos atentos vamos a recibir un mensaje de error porque candidato es string, por eso lo que hacemos es elevarla a índice junto a distrito, de esta manera apply no "pasará" por el nombre del candidato y nuestra función correrá sin problemas.

Ahora estamos en condiciones de resolver esto en un solo bloque de código...

In [146]:
pct_candidato_distrito= (
    resultados
        .set_index(["distrito","candidato"]) #<----------- Agregamos este paso
        .groupby(["distrito"])
        .apply(lambda x: x / float(x.sum())*100) 
        .round(4)
        .sort_values("distrito")
        .reset_index()
        .merge(resultados,on=["candidato","distrito"], how="inner")   
        .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
        .reindex(columns=["distrito","candidato","votos","pct_votos"])
        .fillna({"pct_votos":0})       
)

pct_candidato_distrito

Unnamed: 0,distrito,candidato,votos,pct_votos
0,1,A,,0.0
1,1,B,1234.0,18.4152
2,1,C,2346.0,35.0097
3,1,D,3121.0,46.5751
4,2,A,3432.0,13.6815
5,2,B,6789.0,27.064
6,2,C,9654.0,38.4852
7,2,D,5210.0,20.7694


![](files/votos_dist_sql.png)

* Porcentaje de votos sobre el total

Como empezamos por el caso más difícil este caso nos va resultar muy sencillo, primero empezamos calculando el total de votos por candidato. Recordemos que groupby convierte en índice a las columnas de agrupación así que no tendremos que usar set_index antes de calcular el porcentaje.

In [147]:
votos_agrup_candidato= (
                        resultados.groupby(["candidato"])
                            .agg({'votos': 'sum'})
)

votos_agrup_candidato

Unnamed: 0_level_0,votos
candidato,Unnamed: 1_level_1
A,3432.0
B,8023.0
C,12000.0
D,8331.0


In [148]:
pct_candidato= (
                votos_agrup_candidato
                .apply(lambda x: x / float(x.sum())*100) 
                .round(4)
                .reset_index()
                .sort_values("candidato")
                .reset_index(drop=True)
                .merge(votos_agrup_candidato[["votos"]],on="candidato", how="inner")   
                .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
                .reindex(columns=["candidato","votos","pct_votos"])
                .astype({'votos': 'int32'})
)

pct_candidato

Unnamed: 0,candidato,votos,pct_votos
0,A,3432,10.7972
1,B,8023,25.2407
2,C,12000,37.7525
3,D,8331,26.2097


Y ahora lo hacemos en un solo paso...

In [149]:
pct_candidato= (
                resultados
                .groupby(["candidato"])
                    .agg({'votos': 'sum'})
                .apply(lambda x: x / float(x.sum())*100) 
                .round(4)
                .reset_index()
                .sort_values("candidato")
                .reset_index(drop=True)
                .merge(votos_agrup_candidato[["votos"]],on="candidato", how="inner")   
                .rename(columns = {"votos_x":"pct_votos","votos_y":"votos"})
                .reindex(columns=["candidato","votos","pct_votos"])
                .astype({'votos': 'int32'})
)

pct_candidato

Unnamed: 0,candidato,votos,pct_votos
0,A,3432,10.7972
1,B,8023,25.2407
2,C,12000,37.7525
3,D,8331,26.2097


![](files/votos_sql.png)

Una de las curiosidades de las funciones anónimas es que nos permite alterar el funcionamiento natural de Pandas. Recordemos que Pandas en las funciones de agregación por default omite los valores NaN:

In [150]:
(df4.groupby(["foreig"])
        .agg({
            "price": "max",
            "rep78": "mean",
            "mpg":"std"
        })
)

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,15906,3.020833,4.743297
Foreign,12990,4.285714,6.611187


Recordemos en nuestro dataframe teníamos en rep78 varios valores NaN.

In [151]:
df4_nan

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic
50,Pont. Phoenix,4424,19,,3.5,13,3420,203,43,231,3.08,Domestic
63,Peugeot 604,12990,14,,3.5,14,3420,192,38,163,3.58,Foreign


Para evitar que Pandas omita los valores NaN vamos a usar skipna, parámetro que por default no funciona dentro de un groupby.

En su documentación podemos ver todos los parámetros válidos:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

In [152]:
df4.groupby(["foreig"])[["price","rep78","mpg"]].agg({
         #Notar que como explicitamos las columnas en un diccionario no usamos apply.
        'price': lambda x: x.max(skipna=False), 
        'rep78': lambda x: x.mean(skipna=False),
        'mpg': lambda x: x.std(skipna=False) 
         }
)

Unnamed: 0_level_0,price,rep78,mpg
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Domestic,15906,,4.743297
Foreign,12990,,6.611187


### Estilos

Pandas permite personalizar nuestros dataframes para mejorar su output, nosotros apenas lo mencionaremos, quedan invitados a consultar la documentación respectiva en: 

* https://pandas.pydata.org/pandas-docs/version/1.1.5/user_guide/style.html

In [153]:
#Formato porcentaje
formato_pct_candidato = pct_candidato.copy()
formato_pct_candidato["pct_votos"]= formato_pct_candidato["pct_votos"]/100
formato_pct_candidato.style.format({"pct_votos": "{:.2%}"})

Unnamed: 0,candidato,votos,pct_votos
0,A,3432,10.80%
1,B,8023,25.24%
2,C,12000,37.75%
3,D,8331,26.21%


In [154]:
#Formato 2 decimales promedio y desvío con 2 decimales y ±
(df4.groupby(["foreig"])
     .agg(
        promedio_price=("price", "mean"),
        desvio_price=("price", "std")
     ).style.format({"promedio_price": "{:.2f}", "desvio_price": "± {:.2f}"}))

Unnamed: 0_level_0,promedio_price,desvio_price
foreig,Unnamed: 1_level_1,Unnamed: 2_level_1
Domestic,6072.42,± 3097.10
Foreign,6384.68,± 2621.92


In [155]:
#Mapa de calor primeros 10 casos
df4.head(10).style.background_gradient(cmap="viridis")

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
5,Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
7,Buick Regal,5189,20,3.0,2.0,16,3280,200,42,196,2.93,Domestic
8,Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
9,Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic


In [156]:
#Grafico de barras en price, weight y length
df4.head(10).style.bar(subset=["price","weight","length"], color="#d65f5f")

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
5,Buick LeSabre,5788,18,3.0,4.0,21,3670,218,43,231,2.73,Domestic
6,Buick Opel,4453,26,,3.0,10,2230,170,34,304,2.87,Domestic
7,Buick Regal,5189,20,3.0,2.0,16,3280,200,42,196,2.93,Domestic
8,Buick Riviera,10372,16,3.0,3.5,17,3880,207,43,231,2.93,Domestic
9,Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic


### Strings
Pandas incluye varios métodos de strings para facilitar el data wrangling y realizar consultas.

In [157]:
#Todo a mayúscula
df4['make'].str.upper()

0       AMC CONCORD
1         AMC PACER
2        AMC SPIRIT
3     BUICK CENTURY
4     BUICK ELECTRA
          ...      
69        VW DASHER
70        VW DIESEL
71        VW RABBIT
72      VW SCIROCCO
73        VOLVO 260
Name: make, Length: 74, dtype: object

In [158]:
#Todo a minúscula
df4['make'].str.lower()

0       amc concord
1         amc pacer
2        amc spirit
3     buick century
4     buick electra
          ...      
69        vw dasher
70        vw diesel
71        vw rabbit
72      vw scirocco
73        volvo 260
Name: make, Length: 74, dtype: object

In [159]:
#Mayúscula primera palabra
df4['make'].str.capitalize()

0       Amc concord
1         Amc pacer
2        Amc spirit
3     Buick century
4     Buick electra
          ...      
69        Vw dasher
70        Vw diesel
71        Vw rabbit
72      Vw scirocco
73        Volvo 260
Name: make, Length: 74, dtype: object

In [160]:
#Mayúscula cada palabra
df4['make'].str.title()

0       Amc Concord
1         Amc Pacer
2        Amc Spirit
3     Buick Century
4     Buick Electra
          ...      
69        Vw Dasher
70        Vw Diesel
71        Vw Rabbit
72      Vw Scirocco
73        Volvo 260
Name: make, Length: 74, dtype: object

In [161]:
#Cambia mayúsculas por minúsculas y viceversa
df4['make'].str.swapcase()

0       amc cONCORD
1         amc pACER
2        amc sPIRIT
3     bUICK cENTURY
4     bUICK eLECTRA
          ...      
69        vw dASHER
70        vw dIESEL
71        vw rABBIT
72      vw sCIROCCO
73        vOLVO 260
Name: make, Length: 74, dtype: object

In [162]:
#Substring primeros 3 caracteres
df4["make"].str[:3]

0     AMC
1     AMC
2     AMC
3     Bui
4     Bui
     ... 
69    VW 
70    VW 
71    VW 
72    VW 
73    Vol
Name: make, Length: 74, dtype: object

In [163]:
#Substring últimos 5 caracteres
df4["make"].str[-5:]

0     ncord
1     Pacer
2     pirit
3     ntury
4     ectra
      ...  
69    asher
70    iesel
71    abbit
72    rocco
73    o 260
Name: make, Length: 74, dtype: object

In [164]:
#Substring del 4to al 6to caracter
df4["make"].str[3:6]

0      Co
1      Pa
2      Sp
3     ck 
4     ck 
     ... 
69    Das
70    Die
71    Rab
72    Sci
73    vo 
Name: make, Length: 74, dtype: object

In [165]:
#Remover blancos extra (en este caso no hay)
#lstrip() remuevo blancos a la izquierda
#rstrip() remuevo blancos a la derecha

df4["make"].str.strip()

0       AMC Concord
1         AMC Pacer
2        AMC Spirit
3     Buick Century
4     Buick Electra
          ...      
69        VW Dasher
70        VW Diesel
71        VW Rabbit
72      VW Scirocco
73        Volvo 260
Name: make, Length: 74, dtype: object

In [166]:
#Remover los blancos intermedios cuando no sobran
df4["make"].str.replace(" ","")

0       AMCConcord
1         AMCPacer
2        AMCSpirit
3     BuickCentury
4     BuickElectra
          ...     
69        VWDasher
70        VWDiesel
71        VWRabbit
72      VWScirocco
73        Volvo260
Name: make, Length: 74, dtype: object

In [167]:
#Reemplazo AMC por ABC
df4["make"].str.replace("AMC","ABC")

0       ABC Concord
1         ABC Pacer
2        ABC Spirit
3     Buick Century
4     Buick Electra
          ...      
69        VW Dasher
70        VW Diesel
71        VW Rabbit
72      VW Scirocco
73        Volvo 260
Name: make, Length: 74, dtype: object

* Zerofill:
Rellenar con ceros a la izquierda para que todos los registros tengan la misma longitud.

In [168]:
#Genero dataframe
zfill = pd.DataFrame([2,20,200,2000,20000], columns=["CODIGO_PRODUCTO"])
zfill

Unnamed: 0,CODIGO_PRODUCTO
0,2
1,20
2,200
3,2000
4,20000


In [169]:
#Convierto en string
zfill["CODIGO_PRODUCTO"]= zfill["CODIGO_PRODUCTO"].astype(str)
zfill.dtypes

CODIGO_PRODUCTO    object
dtype: object

In [170]:
#Relleno
zfill["CODIGO_PRODUCTO"]= zfill["CODIGO_PRODUCTO"].str.zfill(5)
zfill

Unnamed: 0,CODIGO_PRODUCTO
0,2
1,20
2,200
3,2000
4,20000


* Pad:
Rellenar con caracteres hasta alcanzar cierta longitud. Puede entenderse como una versión más versátil de zerofill.

In [171]:
#Genero dataframe
padding= pd.DataFrame([2,20,200,2000,20000], columns=["CODIGO_PRODUCTO"])
padding["CODIGO_PRODUCTO"]= padding["CODIGO_PRODUCTO"].astype(str)
padding

Unnamed: 0,CODIGO_PRODUCTO
0,2
1,20
2,200
3,2000
4,20000


In [172]:
#side: permite elegir a la izquierda(left), derecha(right) y ambos lados(both)
padding["CODIGO_PRODUCTO"]= padding["CODIGO_PRODUCTO"].str.pad(width=10, side="both", fillchar="-")
padding

Unnamed: 0,CODIGO_PRODUCTO
0,----2-----
1,----20----
2,---200----
3,---2000---
4,--20000---


* Consultar nuestro dataframe en base a métodos de string

In [173]:
#Busco los registros que empiecen con AMC en make
df4[df4["make"].str.startswith("AMC")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic


In [174]:
#Busco los registros que terminen con 10 en make
df4[df4["make"].str.endswith("10")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
56,Datsun 210,4589,35,5.0,2.0,8,2020,165,32,85,3.7,Foreign
57,Datsun 510,5079,24,4.0,2.5,8,2280,170,34,119,3.54,Foreign
58,Datsun 810,8129,21,4.0,2.5,8,2750,184,38,146,3.55,Foreign


In [175]:
#Busco los registros que contengan "yo" en make
df4[df4["make"].str.contains("yo")]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
66,Toyota Celica,5899,18,5.0,2.5,14,2410,174,36,134,3.06,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign
68,Toyota Corona,5719,18,5.0,2.0,11,2670,175,36,134,3.05,Foreign


### JSON

JSON (JavaScript Object Notation) es un formato texto plano utilizado para almacenar datos, si bien surgió en JavaScript, al ser independiente de este lenguaje pudo lograr gran popularidad para el intercambio de datos.

Los archivos JSON dieron lugar a los formatos GeoJSON y TopoJSON que permiten almacenar datos espaciales. Una de las ventajas de estos últimos frente otros formatos de almacenamiento de datos espaciales, es que todos los datos se guardan en un único archivo, mientras que los tradicionales archivos shape se guardan en por lo menos en tres archivos distintos dependiendo  (.shp, .shx y .dbf) de los datos almacenados.

Probemos ahora guardar nuestro DataFrame de autos en JSON.

In [176]:
df4.to_json("data/auto.json")

Para leer un JSON y guardar un DataFrame como archivo JSON, Pandas ofrece varios parámetros, para profundizar en ellos consultar:

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html

* https://pandas.pydata.org/docs/reference/api/pandas.io.json.read_json.html

Ahora abramos nuestro archivo auto.json

In [177]:
pd.read_json("data/auto.json")

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...,...
69,VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
70,VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
71,VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
72,VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


In [178]:
import json
auto_json = open("data/auto.json")
auto_json = json.load(auto_json)

Como podemos ver, los archivos json se guardan por default con una estructura de diccionario anidado.

In [179]:
type(auto_json)

dict

In [180]:
auto_json

{'make': {'0': 'AMC Concord',
  '1': 'AMC Pacer',
  '2': 'AMC Spirit',
  '3': 'Buick Century',
  '4': 'Buick Electra',
  '5': 'Buick LeSabre',
  '6': 'Buick Opel',
  '7': 'Buick Regal',
  '8': 'Buick Riviera',
  '9': 'Buick Skylark',
  '10': 'Cad. Deville',
  '11': 'Cad. Eldorado',
  '12': 'Cad. Seville',
  '13': 'Chev. Chevette',
  '14': 'Chev. Impala',
  '15': 'Chev. Malibu',
  '16': 'Chev. Monte Carlo',
  '17': 'Chev. Monza',
  '18': 'Chev. Nova',
  '19': 'Dodge Colt',
  '20': 'Dodge Diplomat',
  '21': 'Dodge Magnum',
  '22': 'Dodge St. Regis',
  '23': 'Ford Fiesta',
  '24': 'Ford Mustang',
  '25': 'Linc. Continental',
  '26': 'Linc. Mark V',
  '27': 'Linc. Versailles',
  '28': 'Merc. Bobcat',
  '29': 'Merc. Cougar',
  '30': 'Merc. Marquis',
  '31': 'Merc. Monarch',
  '32': 'Merc. XR-7',
  '33': 'Merc. Zephyr',
  '34': 'Olds 98',
  '35': 'Olds Cutl Supr',
  '36': 'Olds Cutlass',
  '37': 'Olds Delta 88',
  '38': 'Olds Omega',
  '39': 'Olds Starfire',
  '40': 'Olds Toronado',
  '41': 

No es la intención de este apartado profundizar en los archivos JSON, pero sí debemos familiarizarnos con ellos, ya que a partir de sus variantes que soportan datos geográficos, aprenderemos un poco de análisis espacial.

### Bibliografía

https://pandas.pydata.org/docs/index.html