# Sumarios, estadísticos descriptivos

Descriptores, definiciones:

- `count` - Número de valores no faltantes.
- `describe` - Calcula un conjunto de estadísticos para un DataFrame o Series.
- `min, max` - Calcula el máximo ó el mínimo.
- `argmin, argmax` - Calcula las posiciones del índice (**números enteros**) donde se alcanza el máximo ó el mínimo. **Exclusivo para Series**.
- `idxmin, idxmax` - Calcula las posiciones del índice (**busca en `index`**) donde se alcanza el máximo ó el mínimo.
- `quantile` - Calcula los cuantiles de la muestra entre 0 y 1 estipulados.
- `sum` - Suma de valores.
- `mean` - Media de valores.
- `median` - Mediana aritmética (cuantil 0.5) de la muestra.
- `mad` - Desviación absoluta media de la media de la muestra.
- `var` - Varianza muestral.
- `std` - Desviación típica muestral.
- `skew` - Sesgo de la muestra.
- `kurt` - Curtosis de la muestra.
- `cumsum` - Suma acumulativa de valores.
- `cummin, cummax`- Mínimo ó máximo acumulativo de los valores.
- `cumprod` - Producto acumulativo de los valores.
- `diff` -  Calcula la primera diferencia de una Series, es útil para las series temporales.
- `pct_change` - Calcula el porcentaje de cambios

***

Opciones para aplicar los descriptores:
- `axis` - Eje para hacer la reducción. **0 - filas** y **1 - columnas**, filas por defecto
- `skipna` - Excluir los valores faltantes, valor booleano , cierto por defecto.
- `level` - Reducir agurpadamente por nivel si el eje está indexado jerárquicamente.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
              index=list('abcd'),columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [3]:
df.sum() #suma filas

one    9.25
two   -5.80
dtype: float64

In [4]:
df.sum(axis=1) #suma columnas

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [5]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [6]:
df.idxmax()

one    b
two    d
dtype: object

In [7]:
df.idxmin(axis=1)

a    one
b    two
c    NaN
d    two
dtype: object

In [8]:
df.one.argmax(), df.one.argmin()

('b', 'd')

In [9]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [10]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [11]:
df.cumsum(skipna=False)

Unnamed: 0,one,two
a,1.4,
b,8.5,
c,,
d,,


In [12]:
df.cummax()

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,7.1,-1.3


In [13]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [14]:
df.diff(axis=0)

Unnamed: 0,one,two
a,,
b,5.7,
c,,
d,,


In [15]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


# Valores únicos, contar valores y pertenencia.

- `. unique` - proporciona una lista con el conjunto de valoresñ únicos que toma la Series ó DataFrame.
- `. value_counts` - cuenta el número de veces que aparece cada valor único.
- `.isin` - da una lista con booleanos que indican si cada elemento de la Series ó DataFrame está en el conjunto proporcionado. Se puede usar como índice de array booleano para el objeto.


In [16]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [17]:
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [18]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [19]:
obj.isin(['b', 'c'])

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [20]:
obj[obj.isin(['b', 'c'])]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [21]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],'Qu2': [2, 3, 1, 2, 2],'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,2,4


In [22]:
#observa que cuando se repite un valor en la columna la primera vez aparece NaN y la última vez se da el 
#valor acumulado
faltantes=data.apply(pd.value_counts,axis=1) 
faltantes

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,1.0,,2.0,


La anterior tabla nos dice el número de columnas en el que cada elemento se ha repetido en cada columna.

# Valores faltantes

- `dropna` - Filtra respecto a un eje índices que contengan valores faltantes (los elimina). Se pueden establecer umbrales de valores faltantes a partir de los cuales se elimina el índice. 
- `fillna` - Rellena los valores faltantes con un valor dado ó uno de los métodos `{'backfill', 'bfill', 'pad', 'ffill', None}`.

- `isnull` - Devuelve un array booleano indicando si cada posición del objeto es un valor faltante.
- `notnull` - Negación de `isnull` .

**Se interpretan como `NaN` los `numpy.nan` y `None`.**

In [23]:
?data.fillna

In [24]:
obj=pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
obj

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [25]:
obj.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [26]:
obj.fillna(method='ffill') #propaga hacia delante

0     aardvark
1    artichoke
2    artichoke
3      avocado
dtype: object

In [27]:
obj.fillna(method='bfill') #propaga hacia detrás

0     aardvark
1    artichoke
2      avocado
3      avocado
dtype: object

In [28]:
obj.isnull().sum() #cuenta valores faltnates

1

In [29]:
obj[obj.notnull()]

0     aardvark
1    artichoke
3      avocado
dtype: object

In [30]:
faltantes

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,1.0,,2.0,


In [31]:
faltantes.dropna(axis=0)

Unnamed: 0,1,2,3,4,5


In [32]:
#tira las filas que tienen más de la mitad de valores faltantes
faltantes.dropna(axis=0,thresh=faltantes.shape[0]*0.5) 

Unnamed: 0,1,2,3,4,5
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,


In [33]:
#tira las columnasilas que tienen más de la mitad de valores faltantes
faltantes.dropna(axis=1,thresh=faltantes.shape[0]*0.5) 

Unnamed: 0,2,4
0,1.0,
1,,
2,1.0,1.0
3,1.0,1.0
4,1.0,2.0


In [34]:
faltantes[faltantes.notnull()]

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,1.0,,2.0,


Se puede aportar un diccionario en el método `fillna`que rellene cada columna con unos valores distintos.

In [35]:
faltantes.fillna({1:5,2:6,3:10,4:20,5:100})

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,10.0,20.0,100.0
1,5.0,6.0,2.0,20.0,1.0
2,1.0,1.0,10.0,1.0,100.0
3,5.0,1.0,1.0,1.0,100.0
4,5.0,1.0,10.0,2.0,100.0


In [36]:
#modificación inplace
faltantes.fillna({1:5,2:6,3:10,4:20,5:100},inplace=True)

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,10.0,20.0,100.0
1,5.0,6.0,2.0,20.0,1.0
2,1.0,1.0,10.0,1.0,100.0
3,5.0,1.0,1.0,1.0,100.0
4,5.0,1.0,10.0,2.0,100.0


Podemos establecer un nombre personalizado para los valores faltantes con el comando:

In [37]:
from numpy import nan as NA

In [38]:
NA

nan

In [39]:
df = pd.DataFrame(np.random.randn(6, 3))
df

Unnamed: 0,0,1,2
0,-0.070037,-1.247044,1.181674
1,0.785432,0.652841,-1.357436
2,-1.691518,0.68414,-0.088005
3,0.697504,1.107669,0.74577
4,0.4282,-0.196991,-1.430911
5,-0.185074,-0.503457,-0.367399


In [40]:
df.ix[2:, 1] = NA; df.ix[4:, 2] = NA #introducimos valores faltantes
df

Unnamed: 0,0,1,2
0,-0.070037,-1.247044,1.181674
1,0.785432,0.652841,-1.357436
2,-1.691518,,-0.088005
3,0.697504,,0.74577
4,0.4282,,
5,-0.185074,,


In [41]:
#podemos limitar la cantidad de propagación que los métodos de rellenado bfill y ffill hacen.
#en este caso rellena propagando por filas
df.fillna(axis=1,method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-0.070037,-1.247044,1.181674
1,0.785432,0.652841,-1.357436
2,-1.691518,-1.691518,-0.088005
3,0.697504,0.697504,0.74577
4,0.4282,0.4282,0.4282
5,-0.185074,-0.185074,-0.185074


In [42]:
df.fillna(df.median()) #se puede rellenar usando la mediana

Unnamed: 0,0,1,2
0,-0.070037,-1.247044,1.181674
1,0.785432,0.652841,-1.357436
2,-1.691518,-0.297102,-0.088005
3,0.697504,-0.297102,0.74577
4,0.4282,-0.297102,0.328883
5,-0.185074,-0.297102,0.328883


# Indexado jerárquico

El *indexado jerárquico* permite tener varios niveles de indexación en uno de los ejes. Es un modo de tener datos de **dimensiones superiores visualizados en una tabla 2D**

Simplemente pasamos como índice varias listas, que se superpondrán y cuya jerarquización será tomada en cuenta según el orden de aparaición de la lista.


In [43]:
data = pd.Series(np.linspace(0,10,10),index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                                          [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1     0.000000
   2     1.111111
   3     2.222222
b  1     3.333333
   2     4.444444
   3     5.555556
c  1     6.666667
   2     7.777778
d  2     8.888889
   3    10.000000
dtype: float64

In [44]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [45]:
data['a']

1    0.000000
2    1.111111
3    2.222222
dtype: float64

In [46]:
data['b':'c']

b  1    3.333333
   2    4.444444
   3    5.555556
c  1    6.666667
   2    7.777778
dtype: float64

In [47]:
data.ix[['b', 'd']]

b  1     3.333333
   2     4.444444
   3     5.555556
d  2     8.888889
   3    10.000000
dtype: float64

In [48]:
data

a  1     0.000000
   2     1.111111
   3     2.222222
b  1     3.333333
   2     4.444444
   3     5.555556
c  1     6.666667
   2     7.777778
d  2     8.888889
   3    10.000000
dtype: float64

In [49]:
data['b',3]

5.5555555555555554

In [50]:
data[:, 2] #seleccionamos los valores 2, dando todos los valores del primer índice

a    1.111111
b    4.444444
c    7.777778
d    8.888889
dtype: float64

El método `unstack` transforma multiíndices en una Series en un DataFrame, llevando el segundo nivel a columnas:

In [51]:
data.unstack()

Unnamed: 0,1,2,3
a,0.0,1.111111,2.222222
b,3.333333,4.444444,5.555556
c,6.666667,7.777778,
d,,8.888889,10.0


Su inverso es `stack`:

In [52]:
data.unstack().stack()

a  1     0.000000
   2     1.111111
   3     2.222222
b  1     3.333333
   2     4.444444
   3     5.555556
c  1     6.666667
   2     7.777778
d  2     8.888889
   3    10.000000
dtype: float64

En los DataFrame se pueden tener varios niveles de índice tanto en filas como en columnas:

In [53]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


Se puede poner nombres a los diferentes niveles para tener mayor claridad en el etiquetado

In [54]:
frame.columns.names=['Estado','Color']

In [55]:
frame.index.names=['Tipo','Número']

In [56]:
frame

Unnamed: 0_level_0,Estado,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Color,Green,Red,Green
Tipo,Número,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


El primer nivel se denomina `levels` y el segundo nivel `labels` en cada caso:

In [57]:
frame.index

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['Tipo', 'Número'])

In [58]:
frame.columns

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           labels=[[1, 1, 0], [0, 1, 0]],
           names=['Estado', 'Color'])

In [59]:
frame.ix['a',1]

Estado    Color
Ohio      Green    0
          Red      1
Colorado  Green    2
Name: (a, 1), dtype: int64

In [60]:
frame['Ohio']

Unnamed: 0_level_0,Color,Green,Red
Tipo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [61]:
frame['Ohio']['Green']

Tipo  Número
a     1         0
      2         3
b     1         6
      2         9
Name: Green, dtype: int64

 El comando unstack pasa subniveles de la indexación por filas a columnas, así, ahora Número es un nivel más en la indexación de columnas y filas tiene un nivel menos

In [62]:
frame.unstack()

Estado,Ohio,Ohio,Ohio,Ohio,Colorado,Colorado
Color,Green,Green,Red,Red,Green,Green
Número,1,2,1,2,1,2
Tipo,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
a,0,3,1,4,2,5
b,6,9,7,10,8,11


In [63]:
frame.unstack().columns

MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red'], [1, 2]],
           labels=[[1, 1, 1, 1, 0, 0], [0, 0, 1, 1, 0, 0], [0, 1, 0, 1, 0, 1]],
           names=['Estado', 'Color', 'Número'])

In [64]:
frame.unstack().index

Index(['a', 'b'], dtype='object', name='Tipo')

In [65]:
frame.stack() #como hemos mencionado, stack tiene el efecto contrario de pasar columnas a filas

Unnamed: 0_level_0,Unnamed: 1_level_0,Estado,Colorado,Ohio
Tipo,Número,Color,Unnamed: 3_level_1,Unnamed: 4_level_1
a,1,Green,2.0,0
a,1,Red,,1
a,2,Green,5.0,3
a,2,Red,,4
b,1,Green,8.0,6
b,1,Red,,7
b,2,Green,11.0,9
b,2,Red,,10


Se pueden crear multiíndices de varias maneras:

In [66]:
#de arrays
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [67]:
#de tuplas
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [68]:
#producto cartesiano de dos listas
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [69]:
#directamente dando los levels y labels
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [70]:
#al pasar diccionarios en una serie con una tupla de key se genera una indexación jerárquica
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pop=pd.Series(data)
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

**Se pueden reestructurar los niveles de un DataFrame**

In [71]:
frame.swaplevel('Tipo','Número')

Unnamed: 0_level_0,Estado,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Color,Green,Red,Green
Número,Tipo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [72]:
frame.swaplevel('Estado','Color',axis=1)

Unnamed: 0_level_0,Color,Green,Red,Green
Unnamed: 0_level_1,Estado,Ohio,Ohio,Colorado
Tipo,Número,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [73]:
frame.sortlevel(level='Tipo')

Unnamed: 0_level_0,Estado,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Color,Green,Red,Green
Tipo,Número,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [74]:
frame.sortlevel(level='Número',ascending=False)

Unnamed: 0_level_0,Estado,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Color,Green,Red,Green
Tipo,Número,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
b,2,9,10,11
a,2,3,4,5
b,1,6,7,8
a,1,0,1,2


In [75]:
frame.sortlevel(level='Color',axis=1)

Unnamed: 0_level_0,Estado,Colorado,Ohio,Ohio
Unnamed: 0_level_1,Color,Green,Green,Red
Tipo,Número,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


Recordad que el ordenamiento de strings es lexicográfico.

**Se pueden calcular sumarios por nivel:**

In [76]:
frame.median(level='Número')

Estado,Ohio,Ohio,Colorado
Color,Green,Red,Green
Número,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,3,4,5
2,6,7,8


In [77]:
frame.sum(level='Color', axis=1)

Unnamed: 0_level_0,Color,Green,Red
Tipo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


** Se pueden usar una o más columnas del DataFrame como índices con el método `set_index`:**

In [78]:
frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [79]:
frame.set_index(['b','c']).sortlevel('b')

Unnamed: 0_level_0,Unnamed: 1_level_0,a,d
b,c,Unnamed: 2_level_1,Unnamed: 3_level_1
1,two,6,3
2,two,5,2
3,two,4,1
4,two,3,0
5,one,2,2
6,one,1,1
7,one,0,0


Con la opción `drop` se puede decidir si queremos que la columna se quede ó se elimine. Por defecto es eliminada para evitar duplicidad en los datos: 

In [80]:
frame.set_index(['b','c'],drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
b,c,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
7,one,0,7,one,0
6,one,1,6,one,1
5,one,2,5,one,2
4,two,3,4,two,0
3,two,4,3,two,1
2,two,5,2,two,2
1,two,6,1,two,3


In [81]:
#transformamos en lugar y revertimos cambios:
frame.set_index(['b','c'],inplace=True)
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,a,d
b,c,Unnamed: 2_level_1,Unnamed: 3_level_1
7,one,0,0
6,one,1,1
5,one,2,2
4,two,3,0
3,two,4,1
2,two,5,2
1,two,6,3


El método `reset_index` pasa todos los índices de filas a columnas

In [82]:
frame.reset_index() 

Unnamed: 0,b,c,a,d
0,7,one,0,0
1,6,one,1,1
2,5,one,2,2
3,4,two,3,0
4,3,two,4,1
5,2,two,5,2
6,1,two,6,3


In [83]:
frame.reset_index('c')  #también podemos pasar sólo una selección

Unnamed: 0_level_0,c,a,d
b,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7,one,0,0
6,one,1,1
5,one,2,2
4,two,3,0
3,two,4,1
2,two,5,2
1,two,6,3


###  Más opciones de subindexación en Series


In [84]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [85]:
pop['California', 2000]

33871648

In [86]:
#sacar uno de los índices devuelve la series con ese índice fijado
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [87]:
pop[:,2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [88]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [89]:
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [90]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [91]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

###  Más opciones de subindexación en DataFrame

In [92]:
#indexación jerárquica en filas y columnas
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# generamos datos
np.random.seed(0)
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# creamos el dataframe
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,55.0,37.4,47.0,39.2,56.0,36.0
2013,2,47.0,36.8,36.0,37.4,38.0,38.5
2014,1,45.0,37.1,41.0,37.3,52.0,36.8
2014,2,40.0,36.1,11.0,37.7,46.0,36.3


In [103]:
health_data.loc(axis=0)[:,2] # las segundas visitas

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,2,47.0,36.8,36.0,37.4,38.0,38.5
2014,2,40.0,36.1,11.0,37.7,46.0,36.3


In [104]:
health_data.loc(axis=1)[:,'Temp'] # las temperaturas de cada paciente

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,Temp,Temp,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,37.4,39.2,36.0
2013,2,36.8,37.4,38.5
2014,1,37.1,37.3,36.8
2014,2,36.1,37.7,36.3


In [93]:
#vemos la inforamción de un paciente
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,47.0,39.2
2013,2,36.0,37.4
2014,1,41.0,37.3
2014,2,11.0,37.7


In [94]:
health_data['Guido', 'HR']

year  visit
2013  1        47.0
      2        36.0
2014  1        41.0
      2        11.0
Name: (Guido, HR), dtype: float64

In [95]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,55.0,37.4
2013,2,47.0,36.8


In [96]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        55.0
      2        47.0
2014  1        45.0
      2        40.0
Name: (Bob, HR), dtype: float64

Para hacer slices con los índices (tomar rangos completos de valores), Pandas incorpora el método específico `IndexSlice`:

In [97]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,55.0,37.4,47.0,39.2,56.0,36.0
2013,2,47.0,36.8,36.0,37.4,38.0,38.5
2014,1,45.0,37.1,41.0,37.3,52.0,36.8
2014,2,40.0,36.1,11.0,37.7,46.0,36.3


In [98]:
idx = pd.IndexSlice
idx[:,3]

(slice(None, None, None), 3)

In [99]:
#idx[:,1] selecciona de todos los años la primera visita en índice de filas
#idx[:,'HR'] selecciona de todos los sujetos el segundo índice HR 
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,55.0,47.0,56.0
2014,1,45.0,41.0,52.0


In [100]:
health_data.loc[idx[2013, :], idx['Sue', :]]

Unnamed: 0_level_0,subject,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,56.0,36.0
2013,2,38.0,38.5


In [101]:
health_data.loc[idx[2013, 2], idx['Sue', :]]

subject  type
Sue      HR      38.0
         Temp    38.5
Name: (2013, 2), dtype: float64