### 1.) Indexación y selección de datos

In [2]:
import numpy as np
import pandas as pd

##### Selección de datos en una serie
Como en un diccionario, el objeto Serie proporciona un mapeo de una colección de claves a una colección de valores:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a", "b", "c", "d"])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [4]:
data[0]

0.25

Los objetos de serie pueden incluso modificarse con una sintaxis similar a la de un diccionario.

In [5]:
"a" in data

True

In [6]:
data.keys()

Index([u'a', u'b', u'c', u'd'], dtype='object')

In [8]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Una serie se basa en esta interfaz similar a un diccionario y proporciona una selección de elementos de estilo de matriz a través de los mismos mecanismos básicos que de NumPy.

In [9]:
data["a":"c"]

a    0.25
b    0.50
c    0.75
dtype: float64

In [10]:
data[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

In [13]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [17]:
data[["a","c"]]

a    0.25
c    0.75
dtype: float64

In [19]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [20]:
data[0]

0.25

###### Indexadores: loc, iloc y ix

In [21]:
data = pd.Series(["a", "b", "c"], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [22]:
data[1]

'a'

In [23]:
data[1:3]

3    b
5    c
dtype: object

- Primero, el atributo **loc** permite la indexación y la segmentación haciendo referencia al __índice explícito__:

In [28]:
data.loc[1]

'a'

- El atributo __iloc__ permite la indexación y la segmentación haciendo referencia al __índice implícito__ del estilo Python:

In [27]:
data.iloc[1]

'b'

Un tercer atributo de indexación, **ix**, es un híbrido de los dos, y para los objetos Series es equivalente a la indexación estándar basada en [ ]. El propósito del indexador ix se hará más evidente en el contexto de los objetos DataFrame, que discutiremos en un momento.

##### Selección de datos en un DataFrame
Recuerde que un DataFrame actúa en muchos aspectos como una matriz bidimensional o estructurada y, en otros, como un diccionario de estructuras de series que comparten el mismo índice.

In [29]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [32]:
frame = frame[["year","state","pop"]]

In [33]:
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [34]:
frame2 = pd.DataFrame(data, columns = ["year", "state", "pop", "debt"], 
                      index = ["one", "two", "three", "four","five", "six"]) 

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


##### Consultar Columnas
Una columna en un DataFrame se puede recuperar como una Serie ya sea por notación similar a un diccionario o por atributo:

In [39]:
frame2["pop"] is frame2.pop

False

In [35]:
frame2["state"]

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [36]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

##### Consultar Filas

Las filas se pueden recuperar por posición mediante _iloc_ o con el índice explícito empleando el atributo especial _loc_ :

In [44]:
frame2.iloc[0]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object

In [43]:
frame2.loc["one"]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object

### 2) Modificaciones básicas en bases de datos

In [45]:
data

{'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2],
 'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003]}

In [46]:
# Podemos crear una columna vacía
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"],
                      index=["one", "two", "three", "four","five", "six"])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [47]:
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [48]:
frame2["debt"] = np.arange(6)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4
six,2003,Nevada,3.2,5


In [49]:
frame2["pop2"] = frame2["pop"] ** 2
frame2

Unnamed: 0,year,state,pop,debt,pop2
one,2000,Ohio,1.5,0,2.25
two,2001,Ohio,1.7,1,2.89
three,2002,Ohio,3.6,2,12.96
four,2001,Nevada,2.4,3,5.76
five,2002,Nevada,2.9,4,8.41
six,2003,Nevada,3.2,5,10.24


Cuando está asignando listas o matrices a una columna, la longitud del valor debe coincidir con la
longitud de la trama de datos. Si asigna una serie, sus etiquetas se realinearán exactamente para
el índice de DataFrame, insertando valores faltantes en cualquier agujero:

In [50]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [51]:
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt,pop2
one,2000,Ohio,1.5,,2.25
two,2001,Ohio,1.7,-1.2,2.89
three,2002,Ohio,3.6,,12.96
four,2001,Nevada,2.4,-1.5,5.76
five,2002,Nevada,2.9,-1.7,8.41
six,2003,Nevada,3.2,,10.24


In [52]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,pop2,eastern
one,2000,Ohio,1.5,,2.25,True
two,2001,Ohio,1.7,-1.2,2.89,True
three,2002,Ohio,3.6,,12.96,True
four,2001,Nevada,2.4,-1.5,5.76,False
five,2002,Nevada,2.9,-1.7,8.41,False
six,2003,Nevada,3.2,,10.24,False


In [56]:
frame2.columns

Index([u'year', u'state', u'pop', u'debt', u'pop2'], dtype='object')

In [55]:

del frame2["eastern"]


Un DF es una matriz 2D

In [57]:
frame2.values

array([[2000L, 'Ohio', 1.5, nan, 2.25],
       [2001L, 'Ohio', 1.7, -1.2, 2.8899999999999997],
       [2002L, 'Ohio', 3.6, nan, 12.96],
       [2001L, 'Nevada', 2.4, -1.5, 5.76],
       [2002L, 'Nevada', 2.9, -1.7, 8.41],
       [2003L, 'Nevada', 3.2, nan, 10.240000000000002]], dtype=object)

In [58]:
frame2.values.shape

(6L, 5L)

In [59]:
frame2.T

Unnamed: 0,one,two,three,four,five,six
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,,-1.2,,-1.5,-1.7,
pop2,2.25,2.89,12.96,5.76,8.41,10.24


### Operaciones aritméticas

Una característica importante de Pandas para algunas aplicaciones es el comportamiento aritmético entre objetos con diferentes índices. Cuando está sumando objetos, si algún par de índices no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices. Para los usuarios con experiencia en bases de datos, esto es similar a una unión externa (outer join) automática en las etiquetas de índice. Veamos un ejemplo:

In [3]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=["a", "c", "e", "f", "g"])
print(s1, "\n\n",s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64 

 a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [4]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [5]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"), 
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])

df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [6]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [7]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


### Funciones esenciales

Tras comprender la indexación de una serie y un DF, es relevante tener la capacidad de realizar modificaciones a los índices. Un método importante en los objetos pandas es **reindexar**, lo que significa crear un nuevo objeto con los datos conformes a un nuevo índice. Considere un ejemplo:

In [8]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [9]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna interpolación o completar valores al reindexar. La opción de método nos permite hacer esto, usando un método como ffill, que repite el valor de la fila previa:

In [10]:
obj3 = pd.Series([4053.93, 4056.41, 4004.07], index=[0, 2, 4])
obj3 

0    4053.93
2    4056.41
4    4004.07
dtype: float64

In [11]:
obj3.reindex(range(6), method="ffill")

0    4053.93
1    4053.93
2    4056.41
3    4056.41
4    4004.07
5    4004.07
dtype: float64

Con DataFrame, la reindexación puede modificar el índice (fila), las columnas o ambos. Cuando se pasa solo una secuencia, vuelve a indexar las filas en el resultado:

In [12]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=["a", "c", "d"], 
                     columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [14]:
frame2 = frame.reindex(["a","b","c","d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [16]:
frame2 = frame.reindex(["a","b","c","d"], method="bfill")
frame2

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,3,4,5
d,6,7,8


In [17]:
frame2 = frame.reindex(columns = ["Texas","Carolina del Norte","DC"])
frame2

Unnamed: 0,Texas,Carolina del Norte,DC
a,1,,
c,4,,
d,7,,


### drop

In [18]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [19]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [20]:
new_obj = obj.drop(["a","c"])
new_obj

b    1.0
d    3.0
e    4.0
dtype: float64

In [21]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [22]:
data.drop(["Ohio","Utah"])

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


In [25]:
data.drop(["one","two"], axis = "columns")

Unnamed: 0,three,four
Ohio,2,3
Colorado,6,7
Utah,10,11
New York,14,15


In [27]:
data.drop(["one","two"], axis = "columns", inplace=True)
data

Unnamed: 0,three,four
Ohio,2,3
Colorado,6,7
Utah,10,11
New York,14,15


### 3) Ufuncs en Pandas
Porque Pandas está diseñado para funcionar con NumPy, y NumPy ufunc funcionará en objetos Pandas Series y DataFrame.

In [28]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [29]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [31]:
? np.exp

In [30]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [32]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [33]:
area = pd.Series({"Alaska": 1723337, "Texas": 695662, "California": 423967}, name="area")
population = pd.Series({"California": 38332521, "Texas": 26448193, 
                        "New York": 19651127}, name="population")

In [34]:
area

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

In [35]:
population

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

In [36]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [39]:
area.index.union(population.index)

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

Cualquier elemento para el que uno u otro no tenga una entrada se marca con NaN, o "No es un número", que es como Pandas marca los datos faltantes (tema que discutiremos en la próxima sesión).

In [41]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B 

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [42]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [43]:
# Algo similar para en los DF
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list("AB"))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [44]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list("BAC"))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [45]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [47]:
A.add(B, fill_value = 0)

Unnamed: 0,A,B,C
0,1.0,15.0,9.0
1,13.0,6.0,0.0
2,2.0,9.0,6.0
