# Indexar - Seleccionar y Filtrar

## Series

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj= pd.Series(np.arange(4.), index= ["a", "b", "c", "d"])

print(obj)

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64


Se puede indexar por índice:

In [5]:
obj1= obj["b"]

print(obj1)

1.0


In [11]:
obj2= obj[["b", "a", "d"]]

print(obj2)

b    1.0
a    0.0
d    3.0
dtype: float64


Se puede indexar por posición:

In [8]:
obj3= obj[2]

print(obj3)

2.0


In [9]:
obj4= obj[2:4]

print(obj4)

c    2.0
d    3.0
dtype: float64


In [12]:
obj5= obj[[1,3]]

print(obj5)

b    1.0
d    3.0
dtype: float64


In [13]:
obj6= obj[obj<2]

print(obj6)

a    0.0
b    1.0
dtype: float64


Lo anterior también se puede hacer de la siguiente manera:

In [17]:
obj7= obj<2

print(obj7)

a     True
b     True
c    False
d    False
dtype: bool


In [18]:
obj8= obj[obj7]

print(obj8)

a    0.0
b    1.0
dtype: float64


Slicing Series se comporta diferente del modo Python, el punto final es incluído:

In [19]:
obj9= obj["b":"c"]

print(obj9)

b    1.0
c    2.0
dtype: float64


## DataFrame

In [2]:
data= pd.DataFrame(np.arange(16).reshape((4,4)),
                   index= ["Ohio", "Colorado", "Utah", "New York"],
                   columns= ["one", "two", "three", "four"])

print(data)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


### Para indexar columnas:

In [22]:
data1= data["two"]

print(data1)

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32


In [23]:
data2= data[["three", "one"]]

print(data2)

          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
New York     14   12


### Para indexar filas:

In [3]:
data3= data[:2]

print(data3)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7


In [30]:
print(data)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [31]:
data4= data[data["three"] > 5] #aquellas filas en las cuales la columna three sea mayor a 5

print(data4)

          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


Lo anterior también se puede hacer de la siguiente manera (fijarse que a diferencia de las condiciones del np.select, no creo una lista, no le pongo corchete a todo):

In [34]:
data5= data["three"] > 5

print(data5)

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool


In [35]:
data6= data[data5]

print(data6)

          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


Reemplazar valores, todo lo que sea menor a 5 lo reemplazamos por un cero:

In [43]:
data[data < 5]= 0

print(data)

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


## Selección con "loc" y "iloc"

Permiten seleccionar un subset de filas y columnas de un DataFrame usando indices de etiquetas (loc) o números enteros, integers (iloc).

In [3]:
data7= data.loc["Colorado"]

print(data7)

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int32


In [4]:
data8= data.loc["Colorado", ["two", "three"]]

print(data8)

two      5
three    6
Name: Colorado, dtype: int32


Podemos hacer cosas similares usando "iloc":

In [8]:
data9= data.iloc[2, [3, 0, 1]]

print(data, "data")
print("---------------")
print(data9)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15 data
---------------
four    11
one      8
two      9
Name: Utah, dtype: int32


In [7]:
data10= data.iloc[2]

print(data10)

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32


In [10]:
data11= data.iloc[[1,2], [3, 0, 1]]  #Primero se indican las filas, luego columnas

print(data11)

          four  one  two
Colorado     7    4    5
Utah        11    8    9


In [11]:
data12= data.loc[:"Utah", "two"]

print(data12)

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32


Una forma de combinar todo:

In [13]:
data13= data.iloc[:, :3][data.three > 5]

print(data13)

          one  two  three
Colorado    4    5      6
Utah        8    9     10
New York   12   13     14
