## Pandas

### Agrupamiento, agregación y pivote


Preparación de datos.

In [16]:
## import la librería
import pandas 
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [18]:
## lee el archivo del disco.
x = pandas.read_csv('Tablas/iris.csv',
                   sep = ',',
                   thousands = None,
                   decimal = '.')

## Agrupamiento
Los dataframes de Pandas pueden ser intepretados en ocasiones como tablas de SQL en donde es posible realizar agregaciones y operaciones simples sobre los campos.

In [19]:
# Se agrupa el set de datos por una columna dada
x.sort_index(1, ascending = False).head()

  variety  sepal.width  sepal.length  petal.width  petal.length
0  Setosa          3.5           5.1          0.2           1.4
1  Setosa          3.0           4.9          0.2           1.4
2  Setosa          3.2           4.7          0.2           1.3
3  Setosa          3.1           4.6          0.2           1.5
4  Setosa          3.6           5.0          0.2           1.4

In [29]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
x.sort_values(by = ['sepal.width', 'sepal.length']).head(10)

     sepal.length  sepal.width  petal.length  petal.width     variety
60            5.0          2.0           3.5          1.0  Versicolor
62            6.0          2.2           4.0          1.0  Versicolor
119           6.0          2.2           5.0          1.5   Virginica
68            6.2          2.2           4.5          1.5  Versicolor
41            4.5          2.3           1.3          0.3      Setosa
93            5.0          2.3           3.3          1.0  Versicolor
53            5.5          2.3           4.0          1.3  Versicolor
87            6.3          2.3           4.4          1.3  Versicolor
57            4.9          2.4           3.3          1.0  Versicolor
80            5.5          2.4           3.8          1.1  Versicolor

La función groupby agrega los datos de una o varias columnas en valores únicos de dicho campo, generando subgrupos dentro de cada clase.

In [32]:
## partición por los valores de la columna 'species'
y = x.groupby('variety')
y.groups.keys()

dict_keys(['Setosa', 'Versicolor', 'Virginica'])

In [33]:
## cantidad de grupos. Este comando funciona como un select distintc en sql
len(y.groups)

3

In [35]:
## cantidad de grupos. Funciona como agrupamiento y conteo por la columna 
## a variety en sql.
y.size()

variety
Setosa        50
Versicolor    50
Virginica     50
dtype: int64

In [37]:
# Elementos de un subgrupo agregado.
x.loc[y.groups['Setosa']].head()

   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa

In [38]:
x.loc[y.groups['Virginica']].head()

     sepal.length  sepal.width  petal.length  petal.width    variety
100           6.3          3.3           6.0          2.5  Virginica
101           5.8          2.7           5.1          1.9  Virginica
102           7.1          3.0           5.9          2.1  Virginica
103           6.3          2.9           5.6          1.8  Virginica
104           6.5          3.0           5.8          2.2  Virginica

## Agregación
Es posible realizar operaciones simples sobre las columnas o filas de un dataframe de Pandas. A continuación algunas de ellas:

       _______________________________________________________________
        |      Funciones que pueden ser aplicadas a un DataFrame      |
        ---------------------------------------------------------------
        |abs        all       any       clip    clip_lower  clip_upper|
        |corr       corrwith  count     cov     cummax      cummin    |
        |cumprod    cumsum    describe  diff    eval        kurt      |
        |mad        max       mean      median  min         mode      |
        |ct_change  prod      quantile  rank    round       sem       |
        |skew  sum  std       var`                                    |
        ---------------------------------------------------------------

In [39]:
## se aplica la suma de cada columna para cada especie. 
##La salida es un nuevo fataFrame.
x.groupby('variety').sum()

            sepal.length  sepal.width  petal.length  petal.width
variety                                                         
Setosa             250.3        171.4          73.1         12.3
Versicolor         296.8        138.5         213.0         66.3
Virginica          329.4        148.7         277.6        101.3

In [40]:
## Se seleccionan solo para la medida Sepal_Length
(x.groupby('variety').sum())["sepal.length"]

variety
Setosa        250.3
Versicolor    296.8
Virginica     329.4
Name: sepal.length, dtype: float64

In [41]:
## Conteo de caos.
## número de casos por 'variety'
x['variety'].value_counts()

Versicolor    50
Setosa        50
Virginica     50
Name: variety, dtype: int64

In [42]:
## conteo de casos por 'Sepal.Length'
x['sepal.length'].value_counts()

5.0    10
6.3     9
5.1     9
6.7     8
5.7     8
5.5     7
5.8     7
6.4     7
6.0     6
4.9     6
6.1     6
5.4     6
5.6     6
6.5     5
4.8     5
7.7     4
6.9     4
5.2     4
6.2     4
4.6     4
7.2     3
6.8     3
4.4     3
5.9     3
6.6     2
4.7     2
7.6     1
7.4     1
4.3     1
7.9     1
7.3     1
7.0     1
4.5     1
5.3     1
7.1     1
Name: sepal.length, dtype: int64

In [43]:
## aplicacion de una funcion a columnas especificas
## de un data.Frame
import numpy as np
x[['sepal.length','sepal.width']].apply(np.mean)

sepal.length    5.843333
sepal.width     3.057333
dtype: float64

In [44]:
## aplica la funcion a la columna especificada por grupos
(x.groupby('variety').mean())['sepal.length']

variety
Setosa        5.006
Versicolor    5.936
Virginica     6.588
Name: sepal.length, dtype: float64

In [46]:
## aplica la funcion a la columna especificada por grupos
(x.groupby('variety').mean())[['sepal.length',
                              'sepal.width',
                              'petal.length',
                              'petal.width']]

            sepal.length  sepal.width  petal.length  petal.width
variety                                                         
Setosa             5.006        3.428         1.462        0.246
Versicolor         5.936        2.770         4.260        1.326
Virginica          6.588        2.974         5.552        2.026

In [52]:
## UNION
z = pandas.concat([x.iloc[y.groups['Setosa']],
                  x.iloc[y.groups['Virginica']],
                  x.iloc[y.groups['Versicolor']]])

z['variety'].value_counts()

Versicolor    50
Setosa        50
Virginica     50
Name: variety, dtype: int64

## Pivotes
Los pivotes consisten en obtener varias columnas como index y operar a partir de las que permanecen dinámicas para apilarlas.

In [65]:
## agrega una clave para identificar cada caso, es decir, cada registro 
x['key'] = list(range(150))
x.head()

   sepal.length  sepal.width  petal.length  petal.width variety  key
0           5.1          3.5           1.4          0.2  Setosa    0
1           4.9          3.0           1.4          0.2  Setosa    1
2           4.7          3.2           1.3          0.2  Setosa    2
3           4.6          3.1           1.5          0.2  Setosa    3
4           5.0          3.6           1.4          0.2  Setosa    4

In [66]:
z = pandas.melt(x,       ## Data-Frame
               id_vars = ['key','variety'],  ##Columnas que no se apilan
               var_name = 'variables', ## nombre de la columna que contiene las columnas apiladas
               value_name = 'Valores') ## nombre de la columna que contiene los valores

In [61]:
z.head()

   key variety     variables  Valores
0    0  Setosa  sepal.length      5.1
1    1  Setosa  sepal.length      4.9
2    2  Setosa  sepal.length      4.7
3    3  Setosa  sepal.length      4.6
4    4  Setosa  sepal.length      5.0

In [67]:
del x['key']

# Transformaciones
Preparación de datos.

In [69]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html',False)

In [72]:
## lee el archivo del disco
x = pandas.read_csv('Tablas/iris.csv',
                   sep = ',',
                   thousands = None,
                   decimal = '.')

# Stack & unstack
La función stack permite reunir el dataframe con varias columnas de index mientras unstack expande desagrupa los index y agrega mayor número de columnas que de pivotes. 

In [73]:
x.stack().head(20)

0  sepal.length       5.1
   sepal.width        3.5
   petal.length       1.4
   petal.width        0.2
   variety         Setosa
1  sepal.length       4.9
   sepal.width          3
   petal.length       1.4
   petal.width        0.2
   variety         Setosa
2  sepal.length       4.7
   sepal.width        3.2
   petal.length       1.3
   petal.width        0.2
   variety         Setosa
3  sepal.length       4.6
   sepal.width        3.1
   petal.length       1.5
   petal.width        0.2
   variety         Setosa
dtype: object

In [74]:
(x.stack()).unstack().head(4)

  sepal.length sepal.width petal.length petal.width variety
0          5.1         3.5          1.4         0.2  Setosa
1          4.9           3          1.4         0.2  Setosa
2          4.7         3.2          1.3         0.2  Setosa
3          4.6         3.1          1.5         0.2  Setosa

# Tablas dinámicas
Así como se crean algunas columnas pivote, es posible asimilar las agrupaciones a las tablas dinámicas de Excel a través de una tabla pivote.

In [77]:
m = pandas.DataFrame({'key1' : ['a','a','b','b','c','c'],
                    'key2' : ['A','B','A','B','A','B'],
                    'values1' : [1, 2, 3, 4, 5, 6],
                    'values2' : [7, 8, 9, 10, 11, 12,]})
print(m)

  key1 key2  values1  values2
0    a    A        1        7
1    a    B        2        8
2    b    A        3        9
3    b    B        4       10
4    c    A        5       11
5    c    B        6       12


In [78]:
## Se crea el pivote 
z = pandas.pivot_table(m,
                      index = ['key1','key2'],
                      values = ['values1','values2'])
print(z)

           values1  values2
key1 key2                  
a    A           1        7
     B           2        8
b    A           3        9
     B           4       10
c    A           5       11
     B           6       12


# Unión
La unión de dos dataframe de Pandas es posible realizarlo a través de la función merge, la cual funciona cuando una de las dos tablas tiene un número de filas múltiplo del otro.

In [80]:
d1 = pandas.DataFrame({ 'x' : list(range(1,5)),
                        'y' : list(range(6,10))})
d2 = pandas.DataFrame({ 'x' : [1, 2, 3, 4, 5, 1, 2, 3, 4, 5],
                        'w' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]})
pandas.merge(d1, d2)

   x  y   w
0  1  6  10
1  1  6  60
2  2  7  20
3  2  7  70
4  3  8  30
5  3  8  80
6  4  9  40
7  4  9  90

# Variables dummy

In [None]:
# Se genera variables dummies para variables categ