# Series

### Si creamos un objeto `Series` de una lista ó array sin especificar índice automáticamente establecerá una indexación y el tipo de datos más razonable:

In [1]:
import pandas as pd
import numpy as np

pd.Series([4, 7, -5, 3])

0    4
1    7
2   -5
3    3
dtype: int64

In [2]:
pd.Series([4.2, 7, -5, 3])

0    4.2
1    7.0
2   -5.0
3    3.0
dtype: float64

In [3]:
pd.Series(['ab', 7, -5, 3])

0    ab
1     7
2    -5
3     3
dtype: object

In [213]:
obj = pd.Series([4, 7, -5, 3],['r1','r2','r3','r4'])
obj

r1    4
r2    7
r3   -5
r4    3
dtype: int64

### Podemos acceder a los índices y a los valores

In [214]:
obj.index

Index(['r1', 'r2', 'r3', 'r4'], dtype='object')

In [215]:
obj.values

array([ 4,  7, -5,  3])

In [216]:
obj.shape #dimensiones

(4,)

### Se pueden realizar las mismas operaciones que en los arrays `numpy`

In [7]:
obj['r1'],obj['r4']

(4, 3)

In [8]:
obj[['r1','r4']]

r1    4
r4    3
dtype: int64

In [9]:
obj[obj > 0]

r1    4
r2    7
r4    3
dtype: int64

In [10]:
obj * 2

r1     8
r2    14
r3   -10
r4     6
dtype: int64

In [11]:
np.cos(obj)

r1   -0.653644
r2    0.753902
r3    0.283662
r4   -0.989992
dtype: float64

In [12]:
'b' not in obj, 'r1' in obj

(True, True)

In [219]:
obj.shift() #desplaza un elemento adelante

r1    NaN
r2    4.0
r3    7.0
r4   -5.0
dtype: float64

### Creamos una serie a partir de un diccionario ó de una lista:

In [13]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000,'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

Si hacemos una selección de índices de una serie actual se eligen los estipulados, si falta alguno se introduce `NaN`

In [14]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Detectamos valores faltantes

In [15]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [16]:
obj3.isnull()

Ohio      False
Oregon    False
Texas     False
Utah      False
dtype: bool

Sumamos ambas series, observamos que los índices en los que alguna falta se declaran faltantes

In [17]:
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Modificamos índices, introducimos nombre de la serie y de los índices

In [18]:
obj4.index = ['Bob', 'Steve', 'Jeff', 'Ryan'] 
obj4.name = 'population' 
obj4.index.name = 'state'
obj4

state
Bob          NaN
Steve    35000.0
Jeff     16000.0
Ryan     71000.0
Name: population, dtype: float64

# DataFrames

Creamos estas estructuras y observamos propiedades básicas.

Recordamos que es una estructura bidimensional que se indexa por filas y columnas, ambos, tanto los índices (filas) como los nombres de las columnas (columnas), son secuencias **ordenadas**.

Creamos un DataFrame a partir de un diccionario:

In [205]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


Se pueden crear en un orden determinado desde el diccionario dando la secuencia de columnas

In [206]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


Si introducimos valores que no están definidos en una nueva columna aparecerá como `NaN`

In [207]:
frame2 = pd.DataFrame(data,
                      columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [208]:
frame2.columns #las columnas

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [209]:
frame2.index #los índices

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [210]:
frame2.values #devuelve los valores del DataFrame en un array numpy

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan]], dtype=object)

In [211]:
frame2.shape #devuelve la dimensión del DataFrame en una tupla

(5, 4)

In [212]:
frame2.head(2) #visualiza sólo las dos primeras filas

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,


In [221]:
frame2.tail(2) #visualiza sólo las dos últimas filas

Unnamed: 0,year,state,pop,debt
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


Se puede saber el tipo de datos que tienen las columnas:

In [25]:
frame2.dtypes

year       int64
state     object
pop      float64
debt      object
dtype: object

Hay dos modos de acceder a las columnas, en notación de dicionario ó de Series. Para el acceso en formato Series es importante que los nombres de las columnas no tengan números,espacios ó símbolos. En ese caso no será posible acceder

In [26]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [27]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

Accedemos a una fila con la partícula `.ix`

In [28]:
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Se pueden realizar asignaciones. Asignamos a la columna vacía `debt`

In [29]:
frame2['debt']=7
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,7
two,2001,Ohio,1.7,7
three,2002,Ohio,3.6,7
four,2001,Nevada,2.4,7
five,2002,Nevada,2.9,7


In [30]:
frame2.debt=np.arange(5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


Se pueden redefinir usando booleanos basados en valores de otras columnas

In [31]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,0,True
two,2001,Ohio,1.7,1,True
three,2002,Ohio,3.6,2,True
four,2001,Nevada,2.4,3,False
five,2002,Nevada,2.9,4,False


Eliminamos una columna

In [32]:
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


Si disponemos de diccionarios anillados generaremos DataFrames también, los niveles superiores son columnas y los inferiores índices

In [33]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


Si damos explícitament el índice esto machaca los valores aportados por el diccionario

In [34]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Transponemos la tabla

In [35]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


En general, a un DataFrame se le pueden pasar los siguientes tipos de datos para crearlos a partir de ellos:
- Numpy arrays 2D
- Diccionarios de arrays, listas ó tuplas
- Diccionarios de Series
- Diccionarios de diccionarios
- Listas de diccionarios ó Series
- Listas de listas ó tuplas
- Otros DataFrame

# Métodos sobre índices

Los objetos de tipo ı́ndice en Pandas se usan para  tratar las etiquetas de los ejes, nombres de los ejes, etc. 

Todo array o etiquetas usadas cuando se construye un objeto Series o DataFrame es convertido a un ı́ndice.

Existen los siguientes tipos de índices en Pandas:

- `Index` Es el más genérico, se representan las etiquetas de los índices en un array numpy.
- `Int64Index` Índice especializado en valores enteros.
- `MultiIndex` Índice jerárquico que representa múltiples niveles de indexación para un único eje. Se puede entender como un array de tuplas.
- `DatetimeIndex` Instantes hasta los nanosegundos registrados en formato de numpy `datetime64`.
- `PeriodIndex` Índice especializado para datos periódicos.

Operaciones sobre los índices:

- `append`: Concatena nuevos elementos ı́ndices produciendo unnuevo ı́ndice
- `diff`: Calcula la diferencia de conjuntos como un ı́ndice intersection: Calcula la intersección de conjuntos de ı́ndices.
- `union`: Calcula la unión de conjuntos
- `isin`: Devuelve un array booleano indicando si cada elemento está contenido en la colección pasada como argumento
- `delete`: Calcula un nuevo ı́ndice con el elemento en la posición k eliminado
- `drop`: Calcula un nuevo ı́ndice eliminando los valores pasados
- `insert`: Calcula un nuevo ı́ndice insertando el elemento en la posición k
- `is monotonic`: Devuelve True si cada elemento es mayor o igual al elemento previo
- `is unique`: Devuelve True si el ı́ndice no tiene elementos duplicados
- `unique`: Calcula el array the elementos únicos incluidos en el ı́ndice


### Reindexación sobre Series

In [36]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index[1:]

Index(['b', 'c'], dtype='object')

Los objetos índice son inmutables:

In [37]:
# index[1]='a'

In [38]:
index=index.append(index)
index

Index(['a', 'b', 'c', 'a', 'b', 'c'], dtype='object')

In [39]:
index.unique()

Index(['a', 'b', 'c'], dtype='object')

In [40]:
index.isin(['a'])

array([ True, False, False,  True, False, False], dtype=bool)

In [41]:
index.union(index)

Index(['a', 'b', 'c', 'a', 'b', 'c'], dtype='object')

En una Series se puede reindexar rellenando valores faltantes

In [42]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [43]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value='relleno')

a       -5.3
b        7.2
c        3.6
d        4.5
e    relleno
dtype: object

In [44]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [45]:
obj3.reindex(range(6), method='ffill') #rellena con la opción forwardfill, que completa propagando adelante

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [46]:
obj3.reindex(range(6), method='bfill') #rellena con la opción forwardfill, que completa propagando hacia atrás

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

### Hacemos reindexación de DataFrame:

In [47]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


Por defecto la reindexación se aplica  a los índices de filas

In [48]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [49]:
frame3 = frame.reindex(columns=['Texas', 'Utah', 'California'])
frame3

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Reindexamos simultáneamente filas y columnas con rellenado en propagación.

In [50]:
frame4=frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill',columns=['Texas', 'Utah', 'California'])
frame4

Unnamed: 0,Texas,Utah,California
a,1,,2
b,1,,2
c,4,,5
d,7,,8


In [51]:
?frame.reindex

# Subindexación


Vemos técnicas de selección de subconjuntos de indexación en Series:

- `obj[val]` Selecciona una columna ó una lista de columnas. Si es un array booleano filtra filas. Si es un subconjunto numérico como `:2`también selecciona filas. Si es un condicional selecciona qué posiciones lo verifican. 
- `obj.ix[val]` Selecciona una fila ó varias filas si se proporciona una lista.
- `obj.ix[:, val]` Selecciona una columna ó un subconjunto de columnas.
- `obj.ix[val1, val2]` Selecciona fila y columna.
- `obj.loc[cond1,cond2]` Selecciona las filas y columnas que verifican las propiedades condiciones .
- `obj.iloc[i,j]` Selecciona fila y columna basándose en las posiciones del array interno (ignora los índices).


In [52]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [53]:
obj['b']

1.0

In [54]:
obj[1]

1.0

In [55]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [56]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [57]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [58]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [59]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [60]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

Algunas técnicas de indexación en DataFrames:

In [61]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio','Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [62]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [63]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [64]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [65]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [66]:
data[data < 5]

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,,,
Utah,,,,
New York,,,,


En método  `.ix` se puede también seleccionar las columnas:

In [67]:
data.ix['Colorado', ['two', 'three']] 

two      5
three    6
Name: Colorado, dtype: int64

In [68]:
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [69]:
data.ix[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [70]:
data.ix[data.three > 5, :3]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


El método `.loc` sirve para localizar posiciones donde se verifican condiciones

In [71]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [72]:
data.loc[data.one>5]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [73]:
data.loc[(data.one>5) & (data.four<12)] #se verifican ambas posiciones para ambas columnas

Unnamed: 0,one,two,three,four
Utah,8,9,10,11


In [74]:
data.loc[(data.one>5) | (data.four<12)] #se verifica alguna de las dos condiciones

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data.index

Index(['Ohio', 'Colorado', 'Utah', 'New York'], dtype='object')

In [76]:
data.loc[data.index.isin(['Ohio','New York'])]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
New York,12,13,14,15


Si se añaden dos posiciones en loc, se buscan las condiciones en las filas y en las columnas:

In [77]:
data.loc[data.index.isin(['Ohio','New York']) , data.columns.isin(['one','four'])]

Unnamed: 0,one,four
Ohio,0,3
New York,12,15


El método `.iloc` sirve para localizar posiciones basándonos en las posiciones del array interno que posee el dataframe en vez de en sus valores de índice:

In [78]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [79]:
data.iloc[2,3]

11

In [80]:
data.iloc[1:3,0:2]

Unnamed: 0,one,two
Colorado,4,5
Utah,8,9


In [81]:
data.iloc[[0,3],[1,3]]

Unnamed: 0,two,four
Ohio,1,3
New York,13,15


In [82]:
data.get_value('Ohio','two') #otro modo de acceder a una posición

1

# Añadir y eliminar posiciones, filas ó columnas

Añadir:
- Para añadir columnas hemos visto que basta crearlas con el nombre que queramos igual a `None`
- `.append` es el método que usaremos para añadir filas.



Eliminar:

- `del df['columna']`
- `.drop(índice,eje,inplace=True)` para eliminar el índice indicado en el eje

In [83]:
df = pd.DataFrame([[1, 2, 3, 4]], columns=['one','two','three','four'],index=['Arizona'])
data.append(df) #hay que añadir un dataframe con las mismas columnas, si se añade sin valores índice crea nuevos

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15
Arizona,1,2,3,4


In [84]:
data['five']=None
data

Unnamed: 0,one,two,three,four,five
Ohio,0,1,2,3,
Colorado,4,5,6,7,
Utah,8,9,10,11,
New York,12,13,14,15,


In [85]:
del data['five']
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [86]:
data['five']=None

data.drop('five',axis=1,inplace=True)
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [87]:
data.drop(['Colorado','Ohio']) #elimina dos filas pero no sustituye pues inplace=False por defecto

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [88]:
data.drop(data.index[0])

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [89]:
data.drop(data.columns[:2],axis=1)

Unnamed: 0,three,four
Ohio,2,3
Colorado,6,7
Utah,10,11
New York,14,15


# Aritmética y alineación

In [90]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [91]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [92]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [93]:
s1+s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [94]:
s1*s2

a   -15.33
c    -9.00
d      NaN
e    -2.25
f      NaN
g      NaN
dtype: float64

In [95]:
s1/s2

a   -3.476190
c   -0.694444
d         NaN
e   -1.000000
f         NaN
g         NaN
dtype: float64

Observamos arimética de dataframes

In [96]:
list('abc')

['a', 'b', 'c']

In [97]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [98]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [99]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [100]:
df1+df2 #la suma introduce valores faltantes ahí donde no tiene valores alguno de los dos dataframes

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Si se quieren rellenar las operaciones no conocidas con un determinado valor se usan los métodos
- `.add` suma
- `.sub` resta
- `.div` división
- `.mul` multiplicación

In [101]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [102]:
#sólo rellena las posiciones que tiene uno sin tener otro, no las que no tiene ninguno
df1.add(df2,fill_value=7) 

Unnamed: 0,b,c,d,e
Colorado,13.0,14.0,15.0,
Ohio,3.0,8.0,6.0,12.0
Oregon,16.0,,17.0,18.0
Texas,9.0,11.0,12.0,15.0
Utah,7.0,,8.0,9.0



### Operaciones entre DataFrames y Series

Tiene la misma base de *broadcasting* que la vista en `numpy`

In [103]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [104]:
serie=frame.ix[0]
serie

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [105]:
frame-serie #resta a cada fila la serie que tiene la misma longitud que las filas

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [106]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

Si sumamos pero no se encuentran índices en común, se reindexa para formar una combinación:

In [107]:
frame+series2 

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Sumamos sobre columnas

In [108]:
serie=frame['b']

In [109]:
frame.add(serie) #suma filas por defecto, no coincide ninguna en índice por eso es todo NaN

Unnamed: 0,Ohio,Oregon,Texas,Utah,b,d,e
Utah,,,,,,,
Ohio,,,,,,,
Texas,,,,,,,
Oregon,,,,,,,


In [110]:
frame.sub(serie,axis=0) #resta por columnas

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,0.0,1.0,2.0
Texas,0.0,1.0,2.0
Oregon,0.0,1.0,2.0


# Aplicando funciones a los DataFrame

Se puede aplicar cualquier función que funcione con `numpy` broadcast. Los métodos esenciales son:
- `apply` - Aplica por vectores una función, ya sea horizontal ó vertical.
- `applymap` - Aplica elemento por elemento una función para un DataFrame
- `map` - Aplica elemento por elemento una función a una Series

In [111]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [112]:
frame.apply(np.mean)

b    4.5
d    5.5
e    6.5
dtype: float64

In [113]:
frame.apply(np.mean,axis=1)

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
dtype: float64

In [114]:
frame.b

Utah      0.0
Ohio      3.0
Texas     6.0
Oregon    9.0
Name: b, dtype: float64

In [115]:
frame['b'].apply(np.cos) #a una serie también se le puede aplicar pero lo está haciendo pointwise

Utah      1.000000
Ohio     -0.989992
Texas     0.960170
Oregon   -0.911130
Name: b, dtype: float64

In [116]:
frame.b.map(np.exp)

Utah         1.000000
Ohio        20.085537
Texas      403.428793
Oregon    8103.083928
Name: b, dtype: float64

In [117]:
f=lambda x:x.sum()-x.min()

In [118]:
frame.apply(f)

b    18.0
d    21.0
e    24.0
dtype: float64

In [119]:
frame.apply(f,axis=1)

Utah       3.0
Ohio       9.0
Texas     15.0
Oregon    21.0
dtype: float64

In [120]:
format = lambda x: '%.2f' % x

In [121]:
format(3)

'3.00'

In [122]:
g = lambda x: pd.Series([x.max(), x.min()], index=['max', 'min'])

In [123]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [124]:
frame.apply(g) 

Unnamed: 0,b,d,e
max,9.0,10.0,11.0
min,0.0,1.0,2.0


# Orden  y ranking

Damos varias funciones para ordenar:
- `.sort_index` - Ordena respecto a un índice. El orden se toma numérico y/o lexicográfico.
- `.sort_values` - Ordena una  respecto a los valores de una fila ó columna.
- `.sortlevel`- Sirve para hacer ordenamientos sobre multiíndices.

In [188]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [127]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [128]:
obj.sort_index(ascending=False)

d    0
c    3
b    2
a    1
dtype: int64

In [133]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [131]:
frame.sort_index() #ordena respecto a índices de columnas

Unnamed: 0,b,d,e
Ohio,3.0,4.0,5.0
Oregon,9.0,10.0,11.0
Texas,6.0,7.0,8.0
Utah,0.0,1.0,2.0


In [137]:
frame.sort_index(axis=1,ascending=False) #ordena respecto a las columnas decreciente

Unnamed: 0,e,d,b
Utah,2.0,1.0,0.0
Ohio,5.0,4.0,3.0
Texas,8.0,7.0,6.0
Oregon,11.0,10.0,9.0


In [141]:
obj.sort_values(ascending=False)

c    3
b    2
a    1
d    0
dtype: int64

In [142]:
frame.sort_values(by='e') #ordena respecto a una columna

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [147]:
frame.sort_values(axis=1,by='Oregon',ascending=False) #ordena respecto a una fila

Unnamed: 0,e,d,b
Utah,2.0,1.0,0.0
Ohio,5.0,4.0,3.0
Texas,8.0,7.0,6.0
Oregon,11.0,10.0,9.0


In [149]:
aux=frame+obj
aux

Unnamed: 0,a,b,c,d,e
Utah,,2.0,,1.0,
Ohio,,5.0,,4.0,
Texas,,8.0,,7.0,
Oregon,,11.0,,10.0,


In [153]:
aux.sort_values(by='Oregon',axis=1,na_position='first')

Unnamed: 0,a,c,e,d,b
Utah,,,,1.0,2.0
Ohio,,,,4.0,5.0
Texas,,,,7.0,8.0
Oregon,,,,10.0,11.0


In [159]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [166]:
frame.ix['Ohio','b']=200
frame.ix['Oregon','b']=200
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,200.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,200.0,10.0,11.0


Si ordenas por varias columnas ó filas, se produce un ordenamiento jerarquizado, en el que en caso de empate al ordenar acorde a un elemento de la lista proporcionada se recurre al orden en el siguiente para desempatar.

In [167]:
frame.sort_values(by=['b','d'])

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Texas,6.0,7.0,8.0
Ohio,200.0,4.0,5.0
Oregon,200.0,10.0,11.0


Creamos un ejemplo para aplicar `.sortlevel`

In [176]:
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
tuples = list(zip(*arrays))
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [177]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

In [178]:
s = pd.Series(np.random.randn(8), index=index)
s

first  second
bar    one      -0.841626
       two      -0.834224
baz    one       0.064269
       two      -0.724547
foo    one       0.420692
       two      -1.193631
qux    one       2.796514
       two       0.880798
dtype: float64

In [183]:
s.sortlevel(0,ascending=False)

first  second
qux    two       0.880798
       one       2.796514
foo    two      -1.193631
       one       0.420692
baz    two      -0.724547
       one       0.064269
bar    two      -0.834224
       one      -0.841626
dtype: float64

In [182]:
s.sortlevel('second')

first  second
bar    one      -0.841626
baz    one       0.064269
foo    one       0.420692
qux    one       2.796514
bar    two      -0.834224
baz    two      -0.724547
foo    two      -1.193631
qux    two       0.880798
dtype: float64

Crear un ranking es equivalente a la función `argsort`en `numpy`. La diferencia es que si varios elementos tienen el mismo ranking, adjudica los valores según los criterios:

- `'average'` -  Asigna a todos los elementos empatados la media de los rangos que corresponderían entre el primer elemento y el último. 
- `'min'`- Asigna el rango mínimo del grupo de empate. 
- `'max'`  - Asigna el rango mínimo del grupo de empate.  
- `'first'` -  Asigna el primer rango que aparece en los datos.

In [189]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [192]:
?obj.rank

In [190]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [196]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [193]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,200.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,200.0,10.0,11.0


In [194]:
frame.rank()

Unnamed: 0,b,d,e
Utah,1.0,1.0,1.0
Ohio,3.5,2.0,2.0
Texas,2.0,3.0,3.0
Oregon,3.5,4.0,4.0


In [195]:
frame.rank(axis=1,method='min')

Unnamed: 0,b,d,e
Utah,1.0,2.0,3.0
Ohio,3.0,1.0,2.0
Texas,1.0,2.0,3.0
Oregon,3.0,1.0,2.0


# Duplicidad en índices

In [224]:
obj = pd.Series(range(5), index=list('aabbc'))
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [225]:
obj.index.is_unique # indica si los valores de los índices son únicos

False

In [227]:
obj['a'] #devuelve todos los elementos con el mismo índice

a    0
a    1
dtype: int64

A los DataFrame se le aplica el mismo criterio