In [4]:
import numpy as np
import pandas as pd

# Arange

In [9]:
# Return evenly spaced values within a given interval
# Es como el range()
# El valor del parametro ha de ser igual a la longitud del indice
# El 5. significa que lo ponga con decimal, si lo quitas sale normal

obj = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [10]:
# Eliminar una fila a traves de su indice

new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [11]:
# Eliminacion datios de indices de filas y columnas con DataFrame

data = pd.DataFrame(np.arange(16). reshape((4, 4)),
                   index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [13]:
# Eliminacion de indices de columna

data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [14]:
# Eliminacion de indices de columna

data.drop('two', axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [16]:
data.drop(['two', 'four'], axis = 'columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


# Seleccion

In [19]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [21]:
# Selección por etiqueta

obj['b']

1.0

In [22]:
# Selección por índice

obj[1]

1.0

In [24]:
# Selección por rango de índices

obj[2:4]

c    2.0
d    3.0
dtype: float64

In [25]:
# Sin embargo, cuando seleccionamos a través de etiquetas, 
# se comporta de manera diferente. El rango es inclusivo. 
# Ambos extremos del rango son recuperados.

obj['b':'c']

b    1.0
c    2.0
dtype: float64

# Seleccion y filtrado

In [30]:
# Selecionamos elementos menores que 2

obj[obj < 2]

a    0.0
b    1.0
dtype: float64

# Metodos loc e iloc

In [31]:
# Estos dos métodos son de mucha utilidad, puesto que permiten 
# articular reglas de selección complejas. 
# Permiten realizar selección a través de etiquetas (loc) y 
# selección mediante enteros(iloc)

In [33]:
# Seleccion de multiples filas y multiples columnas a traves de sus etiquetas

data = pd.DataFrame(np.arange(16). reshape((4, 4)),
                   index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [34]:
# Una fila, dos columnas

data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [35]:
# Tercera fila, tres columnas

data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [36]:
# Tercera fila

data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [37]:
# Filas 2 y 3, tres columnas

data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


# Creacion de secciones de datos

In [38]:
# Esta consulta seria: filas desde el principio de la tabla hasta 'Utah'
# y la columna 'two'

data.loc[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [40]:
# En este caso, la primera parte es igual que antes
# En los segundos [] estamos diciendo que nos enseñe los valores
# de la columna 'three' que sean mayores que 5

data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


# Mapping

In [42]:
# Aplicacion de funcione a datos de una serie o dataframe
# random pone numeros aleatorios y randn creo que s como reshape
frame = pd.DataFrame(np.random.randn(4, 3), columns = list('bde'),
                    index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.160291,-0.165208,-1.071215
Ohio,0.885422,-1.083713,0.028201
Texas,0.861106,-0.928766,0.88896
Oregon,0.636509,-0.502363,-0.952728


In [43]:
# Calculamos el valor absoluto de todos los miembros del dataframe

np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.160291,0.165208,1.071215
Ohio,0.885422,1.083713,0.028201
Texas,0.861106,0.928766,0.88896
Oregon,0.636509,0.502363,0.952728


In [44]:
# Calculamos la potencia de todos los miembros del dataframe

np.power(frame, 2)

Unnamed: 0,b,d,e
Utah,0.025693,0.027294,1.147501
Ohio,0.783972,1.174435,0.000795
Texas,0.741504,0.862606,0.79025
Oregon,0.405143,0.252369,0.907691


In [45]:
# Esto no se lo que hace

np.power(2,frame)

Unnamed: 0,b,d,e
Utah,1.117512,0.8918,0.475918
Ohio,1.847305,0.471813,1.01974
Texas,1.816431,0.525308,1.851841
Oregon,1.554562,0.705949,0.516654


# Funciones

In [None]:
# lambda x: aplica una funcion a todo el datframe

In [47]:
# Por cada elemento de frame, nos va a dar el maximo de cada columna

f1 = lambda x: x.max()

In [48]:
frame.apply(f1)

b    0.885422
d   -0.165208
e    0.888960
dtype: float64

In [50]:
f2 = lambda x: x.min()
frame.apply(f2)

b    0.160291
d   -1.083713
e   -1.071215
dtype: float64

In [51]:
# Especificando axis = 'columns', se aplica f2 a cada FILA

frame.apply(f2, axis = 'columns')

Utah     -1.071215
Ohio     -1.083713
Texas    -0.928766
Oregon   -0.952728
dtype: float64

In [52]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    0.725131
d    0.918506
e    1.960175
dtype: float64

# Ordenar valores

In [55]:
# Ordenación lexivográfica por fila o columna mediante el método sort_index
# Alfabeticamente, vamos

obj = pd.Series(range(4), index = list('dabc'))
obj

d    0
a    1
b    2
c    3
dtype: int64

In [56]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [58]:
# En un dataframe puedes ordenar mediante ambos ejes (fil, col)

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [59]:
# Por defecto se ordena por fila

frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [60]:
# Ordena por columna ascendente (por defecto)

frame.sort_index(axis = 1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [61]:
# Ordena por columna descendente
frame.sort_index(axis = 1, ascending = False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [62]:
# Ordenar una serie por sus valores

obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [63]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64