Transformación de datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPy-for-data-science/blob/master/IPy-04-transformacion.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPy-for-data-science/blob/master/IPy-04-transformacion.ipynb) para ver la última versión online en `nbviewer`. 

---

#### Contenido

> * [Indexación y selección](#Indexación-y-selección)
   * [Indexación por nombres de filas y columnas](#Indexación-por-nombres-de-filas-y-columnas)
   * [Indexación numérica](#Indexación-numérica)
   * [Indexación booleana](#Indexación-booleana)
* [Agrupamiento, agregación y pivote](#Agrupamiento,-agregación-y-pivote)
   * [Agrupamiento](#Agrupamiento)
   * [Agregación](#Agregación)
   * [Pivotes](#Pivotes)
* [Transformaciones](#Transformaciones)
   * [Stack & unstack](#Stack-&-unstack)
   * [Tablas dinámicas](#Tablas-dinámicas)
   * [Unión](#Unión)
   * [Variables dummy](#Variables-dummy)
* [Inserción, borrado, casos duplicados y datos faltantes](#Inserción,-borrado,-casos-duplicados-y-datos-faltantes)
   * [Inserción de Columnas](#Inserción-de-columnas)
   * [Inserción de filas](#Inserción-de-filas)
   * [Casos duplicados y datos faltantes](#Casos-duplicados-y-datos-faltantes)
   * [Estadísticos descriptivos](#Estadísticos-descriptivos)
   * [Paneles de DataFrames](#Paneles-de-DataFrames)

**Bibliografía**.

> [pandas 0.18.1 documentation](http://pandas.pydata.org/pandas-docs/stable/index.html)  
[10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html) 

**Preparación de datos**

Muchos de los ejemplos anteriores pueden ser aplicados directamente a las columnas de un dataframe.

In [1]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [2]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')
x.describe()

       Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000

# Indexación y selección

[Contenido](#Contenido)

In [3]:
## número de filas del dataframe
len(x)

150

In [4]:
## número de columnas del dataframe
len(list(x.axes[1]))

5

In [5]:
## total de datos
x.size

750

In [6]:
## transpuesta
print(x.T.head())

                 0       1       2       3       4       5       6       7    \
Sepal_Length     5.1     4.9     4.7     4.6       5     5.4     4.6       5   
Sepal_Width      3.5       3     3.2     3.1     3.6     3.9     3.4     3.4   
Petal_Length     1.4     1.4     1.3     1.5     1.4     1.7     1.4     1.5   
Petal_Width      0.2     0.2     0.2     0.2     0.2     0.4     0.3     0.2   
Species       setosa  setosa  setosa  setosa  setosa  setosa  setosa  setosa   

                 8       9      ...            140        141        142  \
Sepal_Length     4.4     4.9    ...            6.7        6.9        5.8   
Sepal_Width      2.9     3.1    ...            3.1        3.1        2.7   
Petal_Length     1.4     1.5    ...            5.6        5.1        5.1   
Petal_Width      0.2     0.1    ...            2.4        2.3        1.9   
Species       setosa  setosa    ...      virginica  virginica  virginica   

                    143        144        145        146      

## Indexación por nombres de filas y columnas

[Contenido](#Contenido)

In [7]:
## parte inicial del dataframe
print(x.head())

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [8]:
## parte inicial del dataframe
print(x.head(3))

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa


In [9]:
## parte final del dataframe
print(x.tail())

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [10]:
## parte final del dataframe
print(x.tail(3))

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [11]:
## nombres de las columnas
list(x.axes[1])

['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']

In [12]:
## nombres de las columnas
x.columns

Index(['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width',
       'Species'],
      dtype='object')

In [13]:
## nombres de las filas
x.index

RangeIndex(start=0, stop=150, step=1)

In [14]:
## nombres de las filas
print(list(x.index))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149]


In [15]:
## todas las filas y la columna Species
#-R-#  print(head(x[,'Species'], 10))
x['Species'].head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: Species, dtype: object

In [16]:
## varias columnas
x[['Species', 'Sepal_Length']].head()

  Species  Sepal_Length
0  setosa           5.1
1  setosa           4.9
2  setosa           4.7
3  setosa           4.6
4  setosa           5.0

In [17]:
## otra forma de obtener una columna
x.get('Species').head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: Species, dtype: object

In [18]:
## acceso con el operador '.'
x.Species.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: Species, dtype: object

In [19]:
x.loc[:,['Species']].head()

  Species
0  setosa
1  setosa
2  setosa
3  setosa
4  setosa

In [20]:
## forma alternativa para acceder a un elemento
x.loc[2]

Sepal_Length       4.7
Sepal_Width        3.2
Petal_Length       1.3
Petal_Width        0.2
Species         setosa
Name: 2, dtype: object

In [21]:
## valor para una fila y columna particular
x.ix[2, 'Sepal_Length']

4.7000000000000002

In [22]:
x.loc[2].Sepal_Length

4.7000000000000002

In [23]:
x.loc[2]['Sepal_Length']

4.7000000000000002

In [24]:
## valor para una fila y columna particular
x.loc[2, ['Species', 'Sepal_Length']]

Species         setosa
Sepal_Length       4.7
Name: 2, dtype: object

In [25]:
## nombres de las filas. los nombres deben ser únicos
key = ['case_{}'.format(n) for n in range(150)]
key[0:5]

['case_0', 'case_1', 'case_2', 'case_3', 'case_4']

In [26]:
## cambia los nombres de las filas 
x.index = key
x.head()

        Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
case_0           5.1          3.5           1.4          0.2  setosa
case_1           4.9          3.0           1.4          0.2  setosa
case_2           4.7          3.2           1.3          0.2  setosa
case_3           4.6          3.1           1.5          0.2  setosa
case_4           5.0          3.6           1.4          0.2  setosa

In [27]:
## selección por nombre de la fila
x.loc['case_2']

Sepal_Length       4.7
Sepal_Width        3.2
Petal_Length       1.3
Petal_Width        0.2
Species         setosa
Name: case_2, dtype: object

In [28]:
## selección por nombre de la fila
x.loc[['case_2', 'case_4']]

        Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
case_2           4.7          3.2           1.3          0.2  setosa
case_4           5.0          3.6           1.4          0.2  setosa

In [29]:
## selección por nombres de fila y columna
x.loc[['case_2'], ['Sepal_Length']]

        Sepal_Length
case_2           4.7

In [30]:
x.loc['case_2', 'Sepal_Length']

4.7000000000000002

In [31]:
## selección por nombres de fila y columna
x.loc[['case_2', 'case_4'], ['Sepal_Length', 'Sepal_Width']]

        Sepal_Length  Sepal_Width
case_2           4.7          3.2
case_4           5.0          3.6

In [32]:
## selección por nombre de la fila y número de las columnas
x.loc[['case_2', 'case_4']][[2, 3, 4]]

        Petal_Length  Petal_Width Species
case_2           1.3          0.2  setosa
case_4           1.4          0.2  setosa

In [33]:
## selección por número de fila y nombre de columnas
x.ix[0:3, ['Sepal_Length', 'Sepal_Width']]

        Sepal_Length  Sepal_Width
case_0           5.1          3.5
case_1           4.9          3.0
case_2           4.7          3.2

In [34]:
## vuelve al indice por defecto
## convierte el indice en una columna
x = x.reset_index()
x.head()

    index  Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0  case_0           5.1          3.5           1.4          0.2  setosa
1  case_1           4.9          3.0           1.4          0.2  setosa
2  case_2           4.7          3.2           1.3          0.2  setosa
3  case_3           4.6          3.1           1.5          0.2  setosa
4  case_4           5.0          3.6           1.4          0.2  setosa

In [35]:
del x['index']
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

## Indexación numérica

[Contenido](#Contenido)

In [36]:
## selección de las primeras tres columnas
x[[0, 1, 2]].head()

   Sepal_Length  Sepal_Width  Petal_Length
0           5.1          3.5           1.4
1           4.9          3.0           1.4
2           4.7          3.2           1.3
3           4.6          3.1           1.5
4           5.0          3.6           1.4

In [37]:
## selección de las primeras tres columnas
x[list(range(0, 3))].head()

   Sepal_Length  Sepal_Width  Petal_Length
0           5.1          3.5           1.4
1           4.9          3.0           1.4
2           4.7          3.2           1.3
3           4.6          3.1           1.5
4           5.0          3.6           1.4

In [38]:
## selección de las últimas tres columnas
n = len(list(x.axes[1]))
x[list(range(n-3, n))].head()

   Petal_Length  Petal_Width Species
0           1.4          0.2  setosa
1           1.4          0.2  setosa
2           1.3          0.2  setosa
3           1.5          0.2  setosa
4           1.4          0.2  setosa

In [39]:
## selección de algunas columnas
x[[0,4]].head()

   Sepal_Length Species
0           5.1  setosa
1           4.9  setosa
2           4.7  setosa
3           4.6  setosa
4           5.0  setosa

In [40]:
## selección de las primeras 3 filas
x[:3]

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa

In [41]:
## desde la tercera hasta la última fila
x[3:].head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
5           5.4          3.9           1.7          0.4  setosa
6           4.6          3.4           1.4          0.3  setosa
7           5.0          3.4           1.5          0.2  setosa

In [42]:
## selección por intervalos
print( x[::15] )

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
0             5.1          3.5           1.4          0.2      setosa
15            5.7          4.4           1.5          0.4      setosa
30            4.8          3.1           1.6          0.2      setosa
45            4.8          3.0           1.4          0.3      setosa
60            5.0          2.0           3.5          1.0  versicolor
75            6.6          3.0           4.4          1.4  versicolor
90            5.5          2.6           4.4          1.2  versicolor
105           7.6          3.0           6.6          2.1   virginica
120           6.9          3.2           5.7          2.3   virginica
135           7.7          3.0           6.1          2.3   virginica


In [43]:
## orden inverso
print( x[::-1].head() )

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
149           5.9          3.0           5.1          1.8  virginica
148           6.2          3.4           5.4          2.3  virginica
147           6.5          3.0           5.2          2.0  virginica
146           6.3          2.5           5.0          1.9  virginica
145           6.7          3.0           5.2          2.3  virginica


In [44]:
## todas las filas excepto la última
x[:-1].tail()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
144           6.7          3.3           5.7          2.5  virginica
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica

In [45]:
## valores para una fila particular
x.loc[1]

Sepal_Length       4.9
Sepal_Width          3
Petal_Length       1.4
Petal_Width        0.2
Species         setosa
Name: 1, dtype: object

In [46]:
x.iloc[2]

Sepal_Length       4.7
Sepal_Width        3.2
Petal_Length       1.3
Petal_Width        0.2
Species         setosa
Name: 2, dtype: object

In [47]:
x.iloc[2, 3]

0.20000000000000001

In [48]:
## valores para una fila particular
x.loc[[2]]

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
2           4.7          3.2           1.3          0.2  setosa

In [49]:
## indices como vector
x.iloc[[1, 3, 5]]

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
1           4.9          3.0           1.4          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
5           5.4          3.9           1.7          0.4  setosa

In [50]:
## indices como vector
x.iloc[[1, 3, 5],[0, 4]]

   Sepal_Length Species
1           4.9  setosa
3           4.6  setosa
5           5.4  setosa

In [51]:
## acceso rapido a un elemento
x.at[0, 'Sepal_Length']

5.0999999999999996

## Indexación booleana

[Contenido](#Contenido)

In [52]:
## selección condicional
(x['Species'] == 'virginica').head()

0    False
1    False
2    False
3    False
4    False
Name: Species, dtype: bool

In [53]:
## selección condicional
x.loc[x['Species'] == 'virginica'].head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
100           6.3          3.3           6.0          2.5  virginica
101           5.8          2.7           5.1          1.9  virginica
102           7.1          3.0           5.9          2.1  virginica
103           6.3          2.9           5.6          1.8  virginica
104           6.5          3.0           5.8          2.2  virginica

In [54]:
## metodo `isin()`
w = x['Species'].isin(['virginica'])
w.head()

0    False
1    False
2    False
3    False
4    False
Name: Species, dtype: bool

In [55]:
x[w].head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
100           6.3          3.3           6.0          2.5  virginica
101           5.8          2.7           5.1          1.9  virginica
102           7.1          3.0           5.9          2.1  virginica
103           6.3          2.9           5.6          1.8  virginica
104           6.5          3.0           5.8          2.2  virginica

In [56]:
## selección condicional
x.loc[x['Petal_Length'] > 3.2].head()

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
50           7.0          3.2           4.7          1.4  versicolor
51           6.4          3.2           4.5          1.5  versicolor
52           6.9          3.1           4.9          1.5  versicolor
53           5.5          2.3           4.0          1.3  versicolor
54           6.5          2.8           4.6          1.5  versicolor

In [57]:
## conteo de casos
x['Species'].value_counts()

virginica     50
versicolor    50
setosa        50
Name: Species, dtype: int64

# Agrupamiento, agregación y pivote

[Contenido](#Contenido)

**Preparación de datos.**

In [58]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [59]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

## Agrupamiento

[Contenido](#Contenido)

In [60]:
## ordenacion por un eje
x.sort_index(1, ascending = False).head()

  Species  Sepal_Width  Sepal_Length  Petal_Width  Petal_Length
0  setosa          3.5           5.1          0.2           1.4
1  setosa          3.0           4.9          0.2           1.4
2  setosa          3.2           4.7          0.2           1.3
3  setosa          3.1           4.6          0.2           1.5
4  setosa          3.6           5.0          0.2           1.4

In [61]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
x.sort_values(by = ['Sepal_Width', 'Sepal_Length']).head(10)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
60            5.0          2.0           3.5          1.0  versicolor
62            6.0          2.2           4.0          1.0  versicolor
119           6.0          2.2           5.0          1.5   virginica
68            6.2          2.2           4.5          1.5  versicolor
41            4.5          2.3           1.3          0.3      setosa
93            5.0          2.3           3.3          1.0  versicolor
53            5.5          2.3           4.0          1.3  versicolor
87            6.3          2.3           4.4          1.3  versicolor
57            4.9          2.4           3.3          1.0  versicolor
80            5.5          2.4           3.8          1.1  versicolor

In [62]:
## selecciona un subconjunto de los datos.
x[x['Species'] == 'virginica'].head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
100           6.3          3.3           6.0          2.5  virginica
101           5.8          2.7           5.1          1.9  virginica
102           7.1          3.0           5.9          2.1  virginica
103           6.3          2.9           5.6          1.8  virginica
104           6.5          3.0           5.8          2.2  virginica

In [63]:
## partición por los valores de la columna `Species`
y = x.groupby('Species')
y.groups.keys()

dict_keys(['setosa', 'virginica', 'versicolor'])

In [64]:
## cantidad de grupos
len(y.groups)

3

In [65]:
## cantidad de grupos
y.size()

Species
setosa        50
versicolor    50
virginica     50
dtype: int64

In [66]:
## elementos de un subgrupo
x.loc[y.groups['setosa']].head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [67]:
## elementos de otro subgrupo
x.loc[y.groups['virginica']].head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
100           6.3          3.3           6.0          2.5  virginica
101           5.8          2.7           5.1          1.9  virginica
102           7.1          3.0           5.9          2.1  virginica
103           6.3          2.9           5.6          1.8  virginica
104           6.5          3.0           5.8          2.2  virginica

## Agregación

[Contenido](#Contenido)

In [68]:
## funciones que pueden ser aplicadas a un DataFrame:
##
##    abs        all       any       clip    clip_lower  clip_upper
##    corr       corrwith  count     cov     cummax      cummin
##    cumprod    cumsum    describe  diff    eval        kurt
##    mad        max       mean      median  min         mode
##    ct_change  prod      quantile  rank    round       sem
##    skew  sum  std       var
##
## se genera un nuevo DataFrame
x.groupby('Species').sum()

            Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
Species                                                         
setosa             250.3        171.4          73.1         12.3
versicolor         296.8        138.5         213.0         66.3
virginica          329.4        148.7         277.6        101.3

In [69]:
(x.groupby('Species').sum())["Sepal_Length"]

Species
setosa        250.3
versicolor    296.8
virginica     329.4
Name: Sepal_Length, dtype: float64

In [70]:
## unión
z = pandas.concat( [x.iloc[y.groups['setosa']],
                    x.iloc[y.groups['virginica']],
                    x.iloc[y.groups['versicolor']]])

z['Species'].value_counts()

virginica     50
versicolor    50
setosa        50
Name: Species, dtype: int64

In [71]:
## conteo de casos.
## número de casos por `Species`
x['Species'].value_counts()

virginica     50
versicolor    50
setosa        50
Name: Species, dtype: int64

In [72]:
## conteo de casos por `Sepal.Length`
x['Sepal_Length'].value_counts()

5.0    10
5.1     9
6.3     9
5.7     8
6.7     8
5.8     7
6.4     7
5.5     7
4.9     6
5.4     6
5.6     6
6.0     6
6.1     6
6.5     5
4.8     5
7.7     4
4.6     4
6.9     4
5.2     4
6.2     4
7.2     3
6.8     3
4.4     3
5.9     3
4.7     2
6.6     2
7.1     1
7.6     1
7.3     1
4.5     1
5.3     1
7.9     1
7.0     1
7.4     1
4.3     1
Name: Sepal_Length, dtype: int64

In [73]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
import numpy as np
x[['Sepal_Length', 'Sepal_Width']].apply(np.mean)

Sepal_Length    5.843333
Sepal_Width     3.057333
dtype: float64

In [74]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())["Sepal_Length"]

Species
setosa        5.006
versicolor    5.936
virginica     6.588
Name: Sepal_Length, dtype: float64

In [75]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())[["Sepal_Length", 
                               "Sepal_Width",
                               "Petal_Length",
                               "Petal_Width"]]

            Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
Species                                                         
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026

## Pivotes

[Contenido](#Contenido)

In [76]:
## agrega una clave para identificar cada caso
x['key'] = list(range(150))
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  key
0           5.1          3.5           1.4          0.2  setosa    0
1           4.9          3.0           1.4          0.2  setosa    1
2           4.7          3.2           1.3          0.2  setosa    2
3           4.6          3.1           1.5          0.2  setosa    3
4           5.0          3.6           1.4          0.2  setosa    4

In [77]:
z = pandas.melt(x,                            # DataFrame
                id_vars = ['key', 'Species'], # columnas que no se apilan
                var_name = 'Variables',       # nombre de la columna que contiene las columnas apiladas 
                value_name = 'Valores')       # nombre de la columna que contiene los valores




In [78]:
z.head()

   key Species     Variables  Valores
0    0  setosa  Sepal_Length      5.1
1    1  setosa  Sepal_Length      4.9
2    2  setosa  Sepal_Length      4.7
3    3  setosa  Sepal_Length      4.6
4    4  setosa  Sepal_Length      5.0

In [79]:
del x['key']

# Transformaciones

[Contenido](#Contenido)

**Preparación de datos.**

In [80]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [81]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

## Stack & unstack

[Contenido](#Contenido)

In [82]:
x.stack().head(20)

0  Sepal_Length       5.1
   Sepal_Width        3.5
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
1  Sepal_Length       4.9
   Sepal_Width          3
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
2  Sepal_Length       4.7
   Sepal_Width        3.2
   Petal_Length       1.3
   Petal_Width        0.2
   Species         setosa
3  Sepal_Length       4.6
   Sepal_Width        3.1
   Petal_Length       1.5
   Petal_Width        0.2
   Species         setosa
dtype: object

In [83]:
(x.stack()).unstack().head(4)

  Sepal_Length Sepal_Width Petal_Length Petal_Width Species
0          5.1         3.5          1.4         0.2  setosa
1          4.9           3          1.4         0.2  setosa
2          4.7         3.2          1.3         0.2  setosa
3          4.6         3.1          1.5         0.2  setosa

## Tablas dinámicas

[Contenido](#Contenido)

In [84]:
m = pandas.DataFrame( {'key1'    : ['a', 'a', 'b', 'b', 'c', 'c'],
                       'key2'    : ['A', 'B', 'A', 'B', 'A', 'B'],
                       'values1' : [ 1,   2,   3,   4,   5,   6 ],
                       'values2' : [ 7,   8,   9,  10,  11,  12]})
print(m)

  key1 key2  values1  values2
0    a    A        1        7
1    a    B        2        8
2    b    A        3        9
3    b    B        4       10
4    c    A        5       11
5    c    B        6       12


In [85]:
z = pandas.pivot_table(m, 
                       index = ['key1', 'key2'],
                       values = ['values1', 'values2'])

print(z)

           values1  values2
key1 key2                  
a    A           1        7
     B           2        8
b    A           3        9
     B           4       10
c    A           5       11
     B           6       12


In [86]:
z = pandas.pivot_table(m, 
                       index = ['key2', 'key1'],
                       values = ['values1', 'values2'])

print(z)

           values1  values2
key2 key1                  
A    a           1        7
     b           3        9
     c           5       11
B    a           2        8
     b           4       10
     c           6       12


## Unión

[Contenido](#Contenido)

In [87]:
## no es una unión estrictamente.
## solo funciona cuando un dataframe tiene un número de
## filas múltiplo del otro.
d1 = pandas.DataFrame({ 'x' : list(range(1,5)),
                        'y' : list(range(6,10))})

d2 = pandas.DataFrame({ 'x' : [ 1,  2,  3,  4,  5,  1,  2,  3,  4,   5],
                        'w' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]})

pandas.merge(d1, d2)


   x  y   w
0  1  6  10
1  1  6  60
2  2  7  20
3  2  7  70
4  3  8  30
5  3  8  80
6  4  9  40
7  4  9  90

## Variables dummy

[Contenido](#Contenido)

In [88]:
## genera variables dummies para variables categóricas.
pandas.get_dummies(x.Species)

     setosa  versicolor  virginica
0       1.0         0.0        0.0
1       1.0         0.0        0.0
2       1.0         0.0        0.0
3       1.0         0.0        0.0
4       1.0         0.0        0.0
5       1.0         0.0        0.0
6       1.0         0.0        0.0
7       1.0         0.0        0.0
8       1.0         0.0        0.0
9       1.0         0.0        0.0
10      1.0         0.0        0.0
11      1.0         0.0        0.0
12      1.0         0.0        0.0
13      1.0         0.0        0.0
14      1.0         0.0        0.0
15      1.0         0.0        0.0
16      1.0         0.0        0.0
17      1.0         0.0        0.0
18      1.0         0.0        0.0
19      1.0         0.0        0.0
20      1.0         0.0        0.0
21      1.0         0.0        0.0
22      1.0         0.0        0.0
23      1.0         0.0        0.0
24      1.0         0.0        0.0
25      1.0         0.0        0.0
26      1.0         0.0        0.0
27      1.0         

# Inserción, borrado, casos duplicados y datos faltantes

[Contenido](#Contenido)

**Preparación de datos**

In [89]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [90]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

## Inserción de columnas

[Contenido](#Contenido)

In [91]:
## creación de una nueva columna
x['n'] = 1 
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  n
0           5.1          3.5           1.4          0.2  setosa  1
1           4.9          3.0           1.4          0.2  setosa  1
2           4.7          3.2           1.3          0.2  setosa  1
3           4.6          3.1           1.5          0.2  setosa  1
4           5.0          3.6           1.4          0.2  setosa  1

In [92]:
## modificación de un valor particular
x.iat[0,5] = 10
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species   n
0           5.1          3.5           1.4          0.2  setosa  10
1           4.9          3.0           1.4          0.2  setosa   1
2           4.7          3.2           1.3          0.2  setosa   1
3           4.6          3.1           1.5          0.2  setosa   1
4           5.0          3.6           1.4          0.2  setosa   1

In [93]:
## modificación de una columna
x['n'] = list(range(150))
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  n
0           5.1          3.5           1.4          0.2  setosa  0
1           4.9          3.0           1.4          0.2  setosa  1
2           4.7          3.2           1.3          0.2  setosa  2
3           4.6          3.1           1.5          0.2  setosa  3
4           5.0          3.6           1.4          0.2  setosa  4

In [94]:
## borrado de la columna
del x['n']
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [95]:
## los DataFrames son diccionarios y pueden manipularse como tal
## se indica en que posicion se inserta la columna con valores 
## lógicos
x.insert(2, 'logical_value', x['Sepal_Length'] > 4)
x.head()

   Sepal_Length  Sepal_Width logical_value  Petal_Length  Petal_Width Species
0           5.1          3.5          True           1.4          0.2  setosa
1           4.9          3.0          True           1.4          0.2  setosa
2           4.7          3.2          True           1.3          0.2  setosa
3           4.6          3.1          True           1.5          0.2  setosa
4           5.0          3.6          True           1.4          0.2  setosa

In [96]:
del x['logical_value']
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [97]:
## alineación
## suma las columnas colB
a = pandas.DataFrame({'colA': [1, 2],
                      'colB': [3, 4]})

b = pandas.DataFrame({'colB': [5, 6],
                      'colC': [7, 8]})

print(a)
print('')
print(b)
print('')
print(a + b)

   colA  colB
0     1     3
1     2     4

   colB  colC
0     5     7
1     6     8

   colA  colB  colC
0   NaN     8   NaN
1   NaN    10   NaN


In [98]:
## se pueden aplicar todas las operaciones matemáticas 
## existentes en numpy
np.sqrt(a)

       colA      colB
0  1.000000  1.732051
1  1.414214  2.000000

## Inserción de filas

[Contenido](#Contenido)

In [99]:
## adición de una fila (al final)
u = pandas.DataFrame({'Sepal_Length' : [1], 
                      'Sepal_Width' : [1], 
                      'Petal_Length' : [1], 
                      'Petal_Width' : [1], 
                      'Species' : ['setosa']})

x.append(u, ignore_index = True).tail()

     Petal_Length  Petal_Width  Sepal_Length  Sepal_Width    Species
146           5.0          1.9           6.3          2.5  virginica
147           5.2          2.0           6.5          3.0  virginica
148           5.4          2.3           6.2          3.4  virginica
149           5.1          1.8           5.9          3.0  virginica
150           1.0          1.0           1.0          1.0     setosa

## Casos duplicados y datos faltantes

[Contenido](#Contenido)

In [100]:
## se crea un vector aleatorio de indices
u = np.random.choice(range(150), 
                     size=20, 
                     replace=False)
u

array([120, 134,  50,  97,  32, 125,  11,  39,  15, 133,  93,  99,  14,
         5,   6, 142,   2,  54,  25,  49])

In [101]:
## submuestra de data.frame original `x`
y = x.loc[u].copy()
y.head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
120           6.9          3.2           5.7          2.3   virginica
134           6.1          2.6           5.6          1.4   virginica
50            7.0          3.2           4.7          1.4  versicolor
97            6.2          2.9           4.3          1.3  versicolor
32            5.2          4.1           1.5          0.1      setosa

In [102]:
## cambia los nombres de las filas 
y.index = list(range(20))
y

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
0            6.9          3.2           5.7          2.3   virginica
1            6.1          2.6           5.6          1.4   virginica
2            7.0          3.2           4.7          1.4  versicolor
3            6.2          2.9           4.3          1.3  versicolor
4            5.2          4.1           1.5          0.1      setosa
5            7.2          3.2           6.0          1.8   virginica
6            4.8          3.4           1.6          0.2      setosa
7            5.1          3.4           1.5          0.2      setosa
8            5.7          4.4           1.5          0.4      setosa
9            6.3          2.8           5.1          1.5   virginica
10           5.0          2.3           3.3          1.0  versicolor
11           5.7          2.8           4.1          1.3  versicolor
12           5.8          4.0           1.2          0.2      setosa
13           5.4          3.9     

In [103]:
## de la submuestra `y` se hacen varios registros incompletos
## cambiando varios valores en la columna `Sepal.Length` por NA
u = np.random.choice(range(20), size=10, replace=False)
u

array([ 2, 16, 18,  8, 10, 19, 15,  5, 11, 14])

In [104]:
y.iloc[u]

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
2            7.0          3.2           4.7          1.4  versicolor
16           4.7          3.2           1.3          0.2      setosa
18           5.0          3.0           1.6          0.2      setosa
8            5.7          4.4           1.5          0.4      setosa
10           5.0          2.3           3.3          1.0  versicolor
19           5.0          3.3           1.4          0.2      setosa
15           5.8          2.7           5.1          1.9   virginica
5            7.2          3.2           6.0          1.8   virginica
11           5.7          2.8           4.1          1.3  versicolor
14           4.6          3.4           1.4          0.3      setosa

In [105]:
## casos con datos faltantes 
y.loc[u, 'Sepal_Length'] = np.nan
y

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
0            6.9          3.2           5.7          2.3   virginica
1            6.1          2.6           5.6          1.4   virginica
2            NaN          3.2           4.7          1.4  versicolor
3            6.2          2.9           4.3          1.3  versicolor
4            5.2          4.1           1.5          0.1      setosa
5            NaN          3.2           6.0          1.8   virginica
6            4.8          3.4           1.6          0.2      setosa
7            5.1          3.4           1.5          0.2      setosa
8            NaN          4.4           1.5          0.4      setosa
9            6.3          2.8           5.1          1.5   virginica
10           NaN          2.3           3.3          1.0  versicolor
11           NaN          2.8           4.1          1.3  versicolor
12           5.8          4.0           1.2          0.2      setosa
13           5.4          3.9     

In [106]:
## apilado de dataframes 
## los casos 151 a 170 contienen casos duplicados o
## casos con datos faltantes
w = pandas.concat([x, y])
w.index = list(range(170))
w.tail(25)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
150           6.9          3.2           5.7          2.3   virginica
151           6.1          2.6           5.6          1.4   virginica
152           NaN          3.2           4.7          1.4  versicolor
153           6.2          2.9           4.3          1.3  versicolor
154           5.2          4.1           1.5          0.1      setosa
155           NaN          3.2           6.0          1.8   virginica
156           4.8          3.4           1.6          0.2      setosa
157           5.1          3.4           1.5          0.2      setosa
158           NaN   

In [107]:
## casos duplicados
## note que el caso 142 aparece duplicado
w[w.duplicated()]

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
142           5.8          2.7           5.1          1.9   virginica
150           6.9          3.2           5.7          2.3   virginica
151           6.1          2.6           5.6          1.4   virginica
153           6.2          2.9           4.3          1.3  versicolor
154           5.2          4.1           1.5          0.1      setosa
156           4.8          3.4           1.6          0.2      setosa
157           5.1          3.4           1.5          0.2      setosa
159           6.3          2.8           5.1          1.5   virginica
162           5.8          4.0           1.2          0.2      setosa
163           5.4          3.9           1.7          0.4      setosa
167           6.5          2.8           4.6          1.5  versicolor

In [108]:
## casos únicos o no duplicados 
## incluye los casos con valores NA como únicos
## note que se eliminaron varios casos entre el 151 y el 170
w.drop_duplicates().tail(20)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
139           6.9          3.1           5.4          2.1   virginica
140           6.7          3.1           5.6          2.4   virginica
141           6.9          3.1           5.1          2.3   virginica
143           6.8          3.2           5.9          2.3   virginica
144           6.7          3.3           5.7          2.5   virginica
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
152           NaN          3.2           4.7          1.4  versicolor
155           NaN          3.2           6.0          1.8   virginica
158           NaN          4.4           1.5          0.4      setosa
160           NaN   

In [109]:
## casos nulos
w['Sepal_Length'].isnull().tail(10)

160     True
161     True
162    False
163    False
164     True
165     True
166     True
167    False
168     True
169     True
Name: Sepal_Length, dtype: bool

In [110]:
## hay que usar operadore lógicos para considerar más columnas
w[w['Sepal_Length'].isnull()]

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
152           NaN          3.2           4.7          1.4  versicolor
155           NaN          3.2           6.0          1.8   virginica
158           NaN          4.4           1.5          0.4      setosa
160           NaN          2.3           3.3          1.0  versicolor
161           NaN          2.8           4.1          1.3  versicolor
164           NaN          3.4           1.4          0.3      setosa
165           NaN          2.7           5.1          1.9   virginica
166           NaN          3.2           1.3          0.2      setosa
168           NaN          3.0           1.6          0.2      setosa
169           NaN          3.3           1.4          0.2      setosa

In [111]:
## casos completos (sin faltantes)
w.dropna().tail(20)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
140           6.7          3.1           5.6          2.4   virginica
141           6.9          3.1           5.1          2.3   virginica
142           5.8          2.7           5.1          1.9   virginica
143           6.8          3.2           5.9          2.3   virginica
144           6.7          3.3           5.7          2.5   virginica
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
150           6.9          3.2           5.7          2.3   virginica
151           6.1          2.6           5.6          1.4   virginica
153           6.2          2.9           4.3          1.3  versicolor
154           5.2   

## Estadísticos descriptivos

[Contenido](#Contenido)

In [112]:
## resumen de estadísticos descriptivos
print(x.describe())

       Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000


In [113]:
x.mean()

Sepal_Length    5.843333
Sepal_Width     3.057333
Petal_Length    3.758000
Petal_Width     1.199333
dtype: float64

In [114]:
x.mean(1).head()

0    2.550
1    2.375
2    2.350
3    2.350
4    2.550
dtype: float64

## Paneles de DataFrames

[Contenido](#Contenido)

In [115]:
## se crean los DataFrames
df1 = pandas.DataFrame({'colA': [1, 2],
                        'colB': [3, 4]})

df2 = pandas.DataFrame({'colB': [5, 6],
                      '  colC': [7, 8]})

df3 = pandas.DataFrame({'colC': [9, 0],
                      '  colD': [1, 2]})

In [116]:
## creación del panel como un diccionario
pdPanel = { 'df1': df1,
            'df2': df2,
            'df3': df3}
print(pdPanel)

{'df2':      colC  colB
0       7     5
1       8     6, 'df3':      colD  colC
0       1     9
1       2     0, 'df1':    colA  colB
0     1     3
1     2     4}


---

[Contenido](#Contenido)

---

Transformación de datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPy-for-data-science/blob/master/IPy-04-transformacion.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPy-for-data-science/blob/master/IPy-04-transformacion.ipynb) para ver la última versión online en `nbviewer`. 

---