Pandas
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/Python-for-ETL-processes/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/Python-for-ETL-processes/tree/master/) para explorar el repositorio usando `nbviewer`. 

---

**Bibliografía**.

> [pandas 0.18.1 documentation](http://pandas.pydata.org/pandas-docs/stable/index.html)  
[10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html) 

# Agrupamiento, agregación y pivote

**Preparación de datos.**

In [1]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [2]:
## Lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

### Agrupamiento
Los dataframes de Pandas pueden ser intepretados en ocasiones como tablas de SQL en donde es posible realizar agregaciones y operaciones simples sobre los campos.

In [3]:
## Se agrupa el set de datos por una columna dada
x.sort_index(1, ascending = False).head()

  Species  Sepal_Width  Sepal_Length  Petal_Width  Petal_Length
0  setosa          3.5           5.1          0.2           1.4
1  setosa          3.0           4.9          0.2           1.4
2  setosa          3.2           4.7          0.2           1.3
3  setosa          3.1           4.6          0.2           1.5
4  setosa          3.6           5.0          0.2           1.4

In [4]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
x.sort_values(by = ['Sepal_Width', 'Sepal_Length']).head(10)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
60            5.0          2.0           3.5          1.0  versicolor
62            6.0          2.2           4.0          1.0  versicolor
119           6.0          2.2           5.0          1.5   virginica
68            6.2          2.2           4.5          1.5  versicolor
41            4.5          2.3           1.3          0.3      setosa
93            5.0          2.3           3.3          1.0  versicolor
53            5.5          2.3           4.0          1.3  versicolor
87            6.3          2.3           4.4          1.3  versicolor
57            4.9          2.4           3.3          1.0  versicolor
80            5.5          2.4           3.8          1.1  versicolor

La función `groupby` agrega los datos de una o varias columnas en valores únicos de dicho campo, generando subgrupos dentro de cada clase.

In [5]:
## partición por los valores de la columna `Species`
y = x.groupby('Species')
y.groups.keys()

dict_keys(['setosa', 'versicolor', 'virginica'])

In [6]:
## Cantidad de grupos. Este comando funciona como un select distintc en SQL
len(y.groups)

3

In [7]:
## Cantidad de grupos. Funciona como un agrupamiento y conteo por la columna Species en SQL.
y.size()

Species
setosa        50
versicolor    50
virginica     50
dtype: int64

In [8]:
## Elementos de un subgrupo agregado.
x.loc[y.groups['setosa']].head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [9]:
## Elementos de otro subgrupo
x.loc[y.groups['virginica']].head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
100           6.3          3.3           6.0          2.5  virginica
101           5.8          2.7           5.1          1.9  virginica
102           7.1          3.0           5.9          2.1  virginica
103           6.3          2.9           5.6          1.8  virginica
104           6.5          3.0           5.8          2.2  virginica

### Agregación

Es posible realizar operaciones simples sobre las columnas o filas de un dataframe de Pandas. A continuación algunas de ellas:

            _______________________________________________________________
            |      Funciones que pueden ser aplicadas a un DataFrame      |
            ---------------------------------------------------------------
            |abs        all       any       clip    clip_lower  clip_upper|
            |corr       corrwith  count     cov     cummax      cummin    |
            |cumprod    cumsum    describe  diff    eval        kurt      |
            |mad        max       mean      median  min         mode      |
            |ct_change  prod      quantile  rank    round       sem       |
            |skew  sum  std       var`                                    |
            ---------------------------------------------------------------

In [10]:
## Se aplica la suma de cada columna para cada especie. La salida es un nuevo dataframe.
x.groupby('Species').sum()

            Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
Species                                                         
setosa             250.3        171.4          73.1         12.3
versicolor         296.8        138.5         213.0         66.3
virginica          329.4        148.7         277.6        101.3

In [11]:
## Se seleccionan solo para la medida Sepal_Length
(x.groupby('Species').sum())["Sepal_Length"]

Species
setosa        250.3
versicolor    296.8
virginica     329.4
Name: Sepal_Length, dtype: float64

In [12]:
## conteo de casos.
## número de casos por `Species`
x['Species'].value_counts()

versicolor    50
setosa        50
virginica     50
Name: Species, dtype: int64

In [13]:
## conteo de casos por `Sepal.Length`
x['Sepal_Length'].value_counts()

5.0    10
6.3     9
5.1     9
6.7     8
5.7     8
5.5     7
5.8     7
6.4     7
6.0     6
4.9     6
6.1     6
5.4     6
5.6     6
6.5     5
4.8     5
7.7     4
6.9     4
5.2     4
6.2     4
4.6     4
7.2     3
6.8     3
4.4     3
5.9     3
6.6     2
4.7     2
7.6     1
7.4     1
4.3     1
7.9     1
7.3     1
7.0     1
4.5     1
5.3     1
7.1     1
Name: Sepal_Length, dtype: int64

In [14]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
import numpy as np
x[['Sepal_Length', 'Sepal_Width']].apply(np.mean)

Sepal_Length    5.843333
Sepal_Width     3.057333
dtype: float64

In [15]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())["Sepal_Length"]

Species
setosa        5.006
versicolor    5.936
virginica     6.588
Name: Sepal_Length, dtype: float64

In [16]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())[["Sepal_Length", 
                               "Sepal_Width",
                               "Petal_Length",
                               "Petal_Width"]]

            Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
Species                                                         
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026

In [17]:
## UNION
z = pandas.concat( [x.iloc[y.groups['setosa']],
                    x.iloc[y.groups['virginica']],
                    x.iloc[y.groups['versicolor']]])

z['Species'].value_counts()

versicolor    50
setosa        50
virginica     50
Name: Species, dtype: int64

### Pivotes
Los pivotes consisten en obtener varias columnas como index y operar a partir de las que permanecen dinámicas para apilarlas.

In [18]:
## Agrega una clave para identificar cada caso, es decir, cada registro
x['key'] = list(range(150))
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  key
0           5.1          3.5           1.4          0.2  setosa    0
1           4.9          3.0           1.4          0.2  setosa    1
2           4.7          3.2           1.3          0.2  setosa    2
3           4.6          3.1           1.5          0.2  setosa    3
4           5.0          3.6           1.4          0.2  setosa    4

In [19]:
z = pandas.melt(x,                            # DataFrame
                id_vars = ['key', 'Species'], # columnas que no se apilan
                var_name = 'Variables',       # nombre de la columna que contiene las columnas apiladas 
                value_name = 'Valores')       # nombre de la columna que contiene los valores

In [20]:
z.head()

   key Species     Variables  Valores
0    0  setosa  Sepal_Length      5.1
1    1  setosa  Sepal_Length      4.9
2    2  setosa  Sepal_Length      4.7
3    3  setosa  Sepal_Length      4.6
4    4  setosa  Sepal_Length      5.0

In [21]:
del x['key']

# Transformaciones

**Preparación de datos.**

In [22]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [23]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

### Stack & unstack
La función `stack` permite reunir el dataframe con varias columnas de index mientras `unstack` expande desagrupa los index y agrega mayor número de columnas que de pivotes.

In [24]:
x.stack().head(20)

0  Sepal_Length       5.1
   Sepal_Width        3.5
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
1  Sepal_Length       4.9
   Sepal_Width          3
   Petal_Length       1.4
   Petal_Width        0.2
   Species         setosa
2  Sepal_Length       4.7
   Sepal_Width        3.2
   Petal_Length       1.3
   Petal_Width        0.2
   Species         setosa
3  Sepal_Length       4.6
   Sepal_Width        3.1
   Petal_Length       1.5
   Petal_Width        0.2
   Species         setosa
dtype: object

In [25]:
(x.stack()).unstack().head(4)

  Sepal_Length Sepal_Width Petal_Length Petal_Width Species
0          5.1         3.5          1.4         0.2  setosa
1          4.9           3          1.4         0.2  setosa
2          4.7         3.2          1.3         0.2  setosa
3          4.6         3.1          1.5         0.2  setosa

### Tablas dinámicas
Así como se crean algunas columnas pivote, es posible asimilar las agrupaciones a las tablas dinámicas de Excel a través de una tabla pivote.

In [26]:
m = pandas.DataFrame( {'key1'    : ['a', 'a', 'b', 'b', 'c', 'c'],
                       'key2'    : ['A', 'B', 'A', 'B', 'A', 'B'],
                       'values1' : [ 1,   2,   3,   4,   5,   6 ],
                       'values2' : [ 7,   8,   9,  10,  11,  12]})
print(m)

  key1 key2  values1  values2
0    a    A        1        7
1    a    B        2        8
2    b    A        3        9
3    b    B        4       10
4    c    A        5       11
5    c    B        6       12


In [27]:
## Se crea el pivote
z = pandas.pivot_table(m, 
                       index = ['key1', 'key2'],
                       values = ['values1', 'values2'])

print(z)

           values1  values2
key1 key2                  
a    A           1        7
     B           2        8
b    A           3        9
     B           4       10
c    A           5       11
     B           6       12


### Unión
La unión de dos dataframe de Pandas es posible realizarlo a través de la función `merge`, la cual funciona cuando una de las dos tablas tiene un número de filas múltiplo del otro.

In [28]:
d1 = pandas.DataFrame({ 'x' : list(range(1,5)),
                        'y' : list(range(6,10))})

d2 = pandas.DataFrame({ 'x' : [ 1,  2,  3,  4,  5,  1,  2,  3,  4,   5],
                        'w' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]})

pandas.merge(d1, d2)

   x  y   w
0  1  6  10
1  1  6  60
2  2  7  20
3  2  7  70
4  3  8  30
5  3  8  80
6  4  9  40
7  4  9  90

### Variables dummy

In [29]:
## Se genera variables dummies para variables categóricas.
pandas.get_dummies(x.Species)

     setosa  versicolor  virginica
0         1           0          0
1         1           0          0
2         1           0          0
3         1           0          0
4         1           0          0
5         1           0          0
6         1           0          0
7         1           0          0
8         1           0          0
9         1           0          0
10        1           0          0
11        1           0          0
12        1           0          0
13        1           0          0
14        1           0          0
15        1           0          0
16        1           0          0
17        1           0          0
18        1           0          0
19        1           0          0
20        1           0          0
21        1           0          0
22        1           0          0
23        1           0          0
24        1           0          0
25        1           0          0
26        1           0          0
27        1         

# Inserción, borrado, casos duplicados y datos faltantes

**Preparación de datos**

In [30]:
## importa la librería
import pandas
import numpy as np

pandas.set_option('display.notebook_repr_html', False)

In [31]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

### Inserción de columnas
Para modificar o generar valores nuevos a una columna, se debe indexar.

In [32]:
## creación de una nueva columna
x['n'] = 1 
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  n
0           5.1          3.5           1.4          0.2  setosa  1
1           4.9          3.0           1.4          0.2  setosa  1
2           4.7          3.2           1.3          0.2  setosa  1
3           4.6          3.1           1.5          0.2  setosa  1
4           5.0          3.6           1.4          0.2  setosa  1

In [33]:
## Modificación de un valor particular
x.iat[0,5] = 10
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species   n
0           5.1          3.5           1.4          0.2  setosa  10
1           4.9          3.0           1.4          0.2  setosa   1
2           4.7          3.2           1.3          0.2  setosa   1
3           4.6          3.1           1.5          0.2  setosa   1
4           5.0          3.6           1.4          0.2  setosa   1

In [34]:
## Modificación de una columna
x['n'] = list(range(150))
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species  n
0           5.1          3.5           1.4          0.2  setosa  0
1           4.9          3.0           1.4          0.2  setosa  1
2           4.7          3.2           1.3          0.2  setosa  2
3           4.6          3.1           1.5          0.2  setosa  3
4           5.0          3.6           1.4          0.2  setosa  4

In [35]:
## Borrado de la columna
del x['n']
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [36]:
## los DataFrames son diccionarios y pueden manipularse como tal
## se indica en que posicion se inserta la columna con valores 
## lógicos
x.insert(2, 'logical_value', x['Sepal_Length'] > 4)
x.head()

   Sepal_Length  Sepal_Width  logical_value  Petal_Length  Petal_Width Species
0           5.1          3.5           True           1.4          0.2  setosa
1           4.9          3.0           True           1.4          0.2  setosa
2           4.7          3.2           True           1.3          0.2  setosa
3           4.6          3.1           True           1.5          0.2  setosa
4           5.0          3.6           True           1.4          0.2  setosa

In [37]:
del x['logical_value']
x.head()

   Sepal_Length  Sepal_Width  Petal_Length  Petal_Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

In [38]:
## Alineación
## Suma las columnas colB
a = pandas.DataFrame({'colA': [1, 2],
                      'colB': [3, 4]})

b = pandas.DataFrame({'colB': [5, 6],
                      'colC': [7, 8]})

print(a)
print('')
print(b)
print('')
print(a + b)

   colA  colB
0     1     3
1     2     4

   colB  colC
0     5     7
1     6     8

   colA  colB  colC
0   NaN     8   NaN
1   NaN    10   NaN


In [39]:
## se pueden aplicar todas las operaciones matemáticas 
## existentes en numpy
np.sqrt(a)

       colA      colB
0  1.000000  1.732051
1  1.414214  2.000000

### Inserción de filas

In [40]:
## Adición de una fila (al final)
u = pandas.DataFrame({'Sepal_Length' : [1], 
                      'Sepal_Width' : [1], 
                      'Petal_Length' : [1], 
                      'Petal_Width' : [1], 
                      'Species' : ['setosa']})

x.append(u, ignore_index = True).tail()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width    Species
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica
150           1.0          1.0           1.0          1.0     setosa

### Casos duplicados y datos faltantes

In [41]:
## Se crea un vector aleatorio de indices
u = np.random.choice(range(150), 
                     size=20, 
                     replace=False)
u

array([140,  93,  26,  30, 103,   9,  68,  18, 149,  89,   5,   1,  31,
        94,  74,  87,  90, 124,  63,  28])

In [42]:
## Submuestra de data.frame original `x`
y = x.loc[u].copy()
y.head()

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
140           6.7          3.1           5.6          2.4   virginica
93            5.0          2.3           3.3          1.0  versicolor
26            5.0          3.4           1.6          0.4      setosa
30            4.8          3.1           1.6          0.2      setosa
103           6.3          2.9           5.6          1.8   virginica

In [43]:
## Se cambian los nombres de las filas 
y.index = list(range(20))
y

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
0            6.7          3.1           5.6          2.4   virginica
1            5.0          2.3           3.3          1.0  versicolor
2            5.0          3.4           1.6          0.4      setosa
3            4.8          3.1           1.6          0.2      setosa
4            6.3          2.9           5.6          1.8   virginica
5            4.9          3.1           1.5          0.1      setosa
6            6.2          2.2           4.5          1.5  versicolor
7            5.7          3.8           1.7          0.3      setosa
8            5.9          3.0           5.1          1.8   virginica
9            5.5          2.5           4.0          1.3  versicolor
10           5.4          3.9           1.7          0.4      setosa
11           4.9          3.0           1.4          0.2      setosa
12           5.4          3.4           1.5          0.4      setosa
13           5.6          2.7     

In [44]:
## De la submuestra `y` se hacen varios registros incompletos
## cambiando varios valores en la columna `Sepal.Length` por NA
u = np.random.choice(range(20), size=10, replace=False)
u

array([11,  6,  0, 16, 18,  2,  3, 13,  4, 15])

In [45]:
y.iloc[u]

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
11           4.9          3.0           1.4          0.2      setosa
6            6.2          2.2           4.5          1.5  versicolor
0            6.7          3.1           5.6          2.4   virginica
16           5.5          2.6           4.4          1.2  versicolor
18           6.1          2.9           4.7          1.4  versicolor
2            5.0          3.4           1.6          0.4      setosa
3            4.8          3.1           1.6          0.2      setosa
13           5.6          2.7           4.2          1.3  versicolor
4            6.3          2.9           5.6          1.8   virginica
15           6.3          2.3           4.4          1.3  versicolor

In [46]:
## Casos con datos faltantes 
y.loc[u, 'Sepal_Length'] = np.nan
y

    Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
0            NaN          3.1           5.6          2.4   virginica
1            5.0          2.3           3.3          1.0  versicolor
2            NaN          3.4           1.6          0.4      setosa
3            NaN          3.1           1.6          0.2      setosa
4            NaN          2.9           5.6          1.8   virginica
5            4.9          3.1           1.5          0.1      setosa
6            NaN          2.2           4.5          1.5  versicolor
7            5.7          3.8           1.7          0.3      setosa
8            5.9          3.0           5.1          1.8   virginica
9            5.5          2.5           4.0          1.3  versicolor
10           5.4          3.9           1.7          0.4      setosa
11           NaN          3.0           1.4          0.2      setosa
12           5.4          3.4           1.5          0.4      setosa
13           NaN          2.7     

In [47]:
## apilado de dataframes 
## los casos 151 a 170 contienen casos duplicados o
## casos con datos faltantes
w = pandas.concat([x, y])
w.index = list(range(170))
w.tail(25)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
150           NaN          3.1           5.6          2.4   virginica
151           5.0          2.3           3.3          1.0  versicolor
152           NaN          3.4           1.6          0.4      setosa
153           NaN          3.1           1.6          0.2      setosa
154           NaN          2.9           5.6          1.8   virginica
155           4.9          3.1           1.5          0.1      setosa
156           NaN          2.2           4.5          1.5  versicolor
157           5.7          3.8           1.7          0.3      setosa
158           5.9   

In [48]:
## casos duplicados
## note que el caso 142 aparece duplicado
w[w.duplicated()]

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
142           5.8          2.7           5.1          1.9   virginica
151           5.0          2.3           3.3          1.0  versicolor
155           4.9          3.1           1.5          0.1      setosa
157           5.7          3.8           1.7          0.3      setosa
158           5.9          3.0           5.1          1.8   virginica
159           5.5          2.5           4.0          1.3  versicolor
160           5.4          3.9           1.7          0.4      setosa
162           5.4          3.4           1.5          0.4      setosa
164           6.4          2.9           4.3          1.3  versicolor
167           6.7          3.3           5.7          2.1   virginica
169           5.2          3.4           1.4          0.2      setosa

In [49]:
## Se eliminan los datos duplicados
## note que se eliminaron varios casos entre el 151 y el 170
w.drop_duplicates().tail(20)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
139           6.9          3.1           5.4          2.1   virginica
140           6.7          3.1           5.6          2.4   virginica
141           6.9          3.1           5.1          2.3   virginica
143           6.8          3.2           5.9          2.3   virginica
144           6.7          3.3           5.7          2.5   virginica
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
150           NaN          3.1           5.6          2.4   virginica
152           NaN          3.4           1.6          0.4      setosa
153           NaN          3.1           1.6          0.2      setosa
154           NaN   

In [50]:
## Se detectan los datos nulos 
w['Sepal_Length'].isnull().tail(10)

160    False
161     True
162    False
163     True
164    False
165     True
166     True
167    False
168     True
169    False
Name: Sepal_Length, dtype: bool

In [51]:
## se deben utilizar operadoreslógicos para considerar más columnas
w[w['Sepal_Length'].isnull()]

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
150           NaN          3.1           5.6          2.4   virginica
152           NaN          3.4           1.6          0.4      setosa
153           NaN          3.1           1.6          0.2      setosa
154           NaN          2.9           5.6          1.8   virginica
156           NaN          2.2           4.5          1.5  versicolor
161           NaN          3.0           1.4          0.2      setosa
163           NaN          2.7           4.2          1.3  versicolor
165           NaN          2.3           4.4          1.3  versicolor
166           NaN          2.6           4.4          1.2  versicolor
168           NaN          2.9           4.7          1.4  versicolor

In [52]:
## Se eleminan los casos con datos nulos. 
w.dropna().tail(20)

     Sepal_Length  Sepal_Width  Petal_Length  Petal_Width     Species
140           6.7          3.1           5.6          2.4   virginica
141           6.9          3.1           5.1          2.3   virginica
142           5.8          2.7           5.1          1.9   virginica
143           6.8          3.2           5.9          2.3   virginica
144           6.7          3.3           5.7          2.5   virginica
145           6.7          3.0           5.2          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
147           6.5          3.0           5.2          2.0   virginica
148           6.2          3.4           5.4          2.3   virginica
149           5.9          3.0           5.1          1.8   virginica
151           5.0          2.3           3.3          1.0  versicolor
155           4.9          3.1           1.5          0.1      setosa
157           5.7          3.8           1.7          0.3      setosa
158           5.9   

# Estadísticos descriptivos

In [53]:
## resumen de estadísticos descriptivos
print(x.describe())

       Sepal_Length  Sepal_Width  Petal_Length  Petal_Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000


In [54]:
## Se halla la media
x.mean()

Sepal_Length    5.843333
Sepal_Width     3.057333
Petal_Length    3.758000
Petal_Width     1.199333
dtype: float64

In [55]:
x.mean(1).head()

0    2.550
1    2.375
2    2.350
3    2.350
4    2.550
dtype: float64

# Paneles de DataFrames

In [56]:
## se crean los DataFrames
df1 = pandas.DataFrame({'colA': [1, 2],
                        'colB': [3, 4]})

df2 = pandas.DataFrame({'colB': [5, 6],
                      '  colC': [7, 8]})

df3 = pandas.DataFrame({'colC': [9, 0],
                      '  colD': [1, 2]})

In [57]:
## creación del panel como un diccionario
pdPanel = { 'df1': df1,
            'df2': df2,
            'df3': df3}
print(pdPanel)

{'df1':    colA  colB
0     1     3
1     2     4, 'df2':    colB    colC
0     5       7
1     6       8, 'df3':    colC    colD
0     9       1
1     0       2}


---

Pandas
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/Python-for-ETL-processes/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/Python-for-ETL-processes/tree/master/) para explorar el repositorio usando `nbviewer`. 