# Indexación y selección

In [1]:
import numpy as np
import pandas as pd

#### ¿Por qué es útil indexar y selecionar datos?

##### 1. Identifica datos (es decir, proporciona metadatos) utilizando indicadores conocidos, importantes para el análisis, la visualización y la visualización de la consola interactiva.
##### 2. Habilita la alineación de datos automática y explícita
##### 3. Permite obtener y configurar de forma intuitiva subconjuntos del conjunto de datos.

##### En esta sección, nos centraremos en el punto final: a saber, cómo cortar, dividir y, en general, obtener y establecer subconjuntos de objetos pandas.

In [2]:
# Las selecciones básicas de Python con corchetes "[]"  y punto "." también podrán ser utilizadas en Pandas

## Diferentes opciones para la indexación

## .loc (label location) - Trabaja con texto

#### .loc se basa principalmente en etiquetas, pero también se puede usar con una matriz booleana. .loc generará KeyError cuando no se encuentren los elementos.

### Las formas de utilizar .loc son las siguientes

#### 1. Con una sola etiqueta, p. 5 o 'a' (Tenga en cuenta que 5 se interpreta como una etiqueta del índice. Este uso no es una posición entera a lo largo del índice). Ejemplo: df.iloc["a"]

#### 2. Una lista o matriz de etiquetas df.loc['a', 'b', 'c'].

#### 3. Un objeto de división con las etiquetas 'a':'f' (Tenga en cuenta que, al contrario de las divisiones habituales de Python, se incluyen tanto el inicio como el final, cuando están presentes en el índice). df.iloc["a":"d"]

#### 4. Una matriz booleana (cualquier valor NA se tratará como falso).

#### 5. Una función invocable con un argumento (la Serie o DataFrame que llama) y que devuelve una salida válida para la indexación (una de las anteriores).

## .iloc (index location) - Trabaja con numeros

#### .iloc se basa principalmente en la posición de números enteros (de 0 a la longitud 1 del eje), pero también se puede usar con una matriz booleana. .iloc generará IndexError si un indexador solicitado está fuera de los límites, excepto los indexadores de segmento que permiten la indexación fuera de los límites.

### Las formas de utilizar .iloc son las siguientes:

#### 1. Un número entero, p. 5.

#### 2. Una lista o matriz de enteros [4, 3, 0].

#### 3. Un objeto slice con ints 1:7.

#### 4. Una matriz booleana (cualquier valor NA se tratará como falso).

#### 5. Una función invocable con un argumento (la Serie o DataFrame que llama) y que devuelve una salida válida para la indexación (una de las anteriores).

In [3]:
#En resumen

# Object Type                   Indexers

# Series           s.loc[indexer]/s.iloc[indexer]

# DataFrame        df.loc[row_indexer,column_indexer]/df.iloc[row_indexer,column_indexer]

## Selecciones básicas - corchetes [ ]

In [4]:
# Object Type                 Selection            Return Value Type

# Series                    series[label]          scalar value

# DataFrame                 frame[colname]         Series corresponding to colname

In [5]:
dates = pd.date_range('1/1/2000', periods=8)

In [6]:
df = pd.DataFrame(np.random.randn(8, 4),
                  index=dates, columns=['A', 'B', 'C', 'D'])

In [7]:
df

Unnamed: 0,A,B,C,D
2000-01-01,-0.444414,0.092699,0.174527,-0.240742
2000-01-02,0.436559,0.663604,1.922213,-1.102994
2000-01-03,-1.068872,-0.061993,0.751397,1.149348
2000-01-04,3.479382,-1.318372,-0.40483,0.176136
2000-01-05,-0.507142,0.015499,-0.149214,-0.098744
2000-01-06,1.289759,-0.170419,-1.753947,-0.363281
2000-01-07,0.3429,0.441254,-0.056793,-0.123316
2000-01-08,-1.785371,-1.176178,1.02657,-0.777074


In [8]:
# Selección básica de una serie
s = df['A']

In [9]:
s[dates[5]]

1.289758809602834

#### Puedes pasar una lista de columnas a los corchetes, para poder seleccionarlas. Para poder hacer estas selecciones, los corchetes deben ser dobles      df[['B', 'A']]

In [10]:
df[['B', 'A']] = df[['A', 'B']]

In [11]:
df

Unnamed: 0,A,B,C,D
2000-01-01,0.092699,-0.444414,0.174527,-0.240742
2000-01-02,0.663604,0.436559,1.922213,-1.102994
2000-01-03,-0.061993,-1.068872,0.751397,1.149348
2000-01-04,-1.318372,3.479382,-0.40483,0.176136
2000-01-05,0.015499,-0.507142,-0.149214,-0.098744
2000-01-06,-0.170419,1.289759,-1.753947,-0.363281
2000-01-07,0.441254,0.3429,-0.056793,-0.123316
2000-01-08,-1.176178,-1.785371,1.02657,-0.777074


In [12]:
df['A']

2000-01-01    0.092699
2000-01-02    0.663604
2000-01-03   -0.061993
2000-01-04   -1.318372
2000-01-05    0.015499
2000-01-06   -0.170419
2000-01-07    0.441254
2000-01-08   -1.176178
Freq: D, Name: A, dtype: float64

In [13]:
df[['B', 'A']] # Se mantiene el orden de la selección

Unnamed: 0,B,A
2000-01-01,-0.444414,0.092699
2000-01-02,0.436559,0.663604
2000-01-03,-1.068872,-0.061993
2000-01-04,3.479382,-1.318372
2000-01-05,-0.507142,0.015499
2000-01-06,1.289759,-0.170419
2000-01-07,0.3429,0.441254
2000-01-08,-1.785371,-1.176178


## Acceso por atributos - Utilizando un punto . (No recomendado)

In [14]:
sa = pd.Series([1, 2, 3], index=list('abc'))

In [15]:
sa

a    1
b    2
c    3
dtype: int64

In [16]:
dfa = df.copy()

In [17]:
dfa

Unnamed: 0,A,B,C,D
2000-01-01,0.092699,-0.444414,0.174527,-0.240742
2000-01-02,0.663604,0.436559,1.922213,-1.102994
2000-01-03,-0.061993,-1.068872,0.751397,1.149348
2000-01-04,-1.318372,3.479382,-0.40483,0.176136
2000-01-05,0.015499,-0.507142,-0.149214,-0.098744
2000-01-06,-0.170419,1.289759,-1.753947,-0.363281
2000-01-07,0.441254,0.3429,-0.056793,-0.123316
2000-01-08,-1.176178,-1.785371,1.02657,-0.777074


In [18]:
# Seleccionamos solo los valores de la fila "b"
sa.b

2

In [19]:
# Modificamos el valore este registro
sa.a = 5

In [20]:
sa

a    5
b    2
c    3
dtype: int64

In [21]:
dfa.A = list(range(len(dfa.index))) 

In [22]:
dfa.A

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
2000-01-08    7
Freq: D, Name: A, dtype: int64

## Selecciones por Rangos (Slicing) - Utilización de corchetes y los dos puntos "[ : ]"

In [23]:
s[:5]

2000-01-01   -0.444414
2000-01-02    0.436559
2000-01-03   -1.068872
2000-01-04    3.479382
2000-01-05   -0.507142
Freq: D, Name: A, dtype: float64

In [24]:
s[::2]

2000-01-01   -0.444414
2000-01-03   -1.068872
2000-01-05   -0.507142
2000-01-07    0.342900
Freq: 2D, Name: A, dtype: float64

In [25]:
s[::-1]

2000-01-08   -1.785371
2000-01-07    0.342900
2000-01-06    1.289759
2000-01-05   -0.507142
2000-01-04    3.479382
2000-01-03   -1.068872
2000-01-02    0.436559
2000-01-01   -0.444414
Freq: -1D, Name: A, dtype: float64

### Cuando utilizamos esto en un Data Frame, se selecionan las filas

In [26]:
df[:3]

Unnamed: 0,A,B,C,D
2000-01-01,0.092699,-0.444414,0.174527,-0.240742
2000-01-02,0.663604,0.436559,1.922213,-1.102994
2000-01-03,-0.061993,-1.068872,0.751397,1.149348


In [27]:
df[::-1]

Unnamed: 0,A,B,C,D
2000-01-08,-1.176178,-1.785371,1.02657,-0.777074
2000-01-07,0.441254,0.3429,-0.056793,-0.123316
2000-01-06,-0.170419,1.289759,-1.753947,-0.363281
2000-01-05,0.015499,-0.507142,-0.149214,-0.098744
2000-01-04,-1.318372,3.479382,-0.40483,0.176136
2000-01-03,-0.061993,-1.068872,0.751397,1.149348
2000-01-02,0.663604,0.436559,1.922213,-1.102994
2000-01-01,0.092699,-0.444414,0.174527,-0.240742


In [28]:
df[:5]

Unnamed: 0,A,B,C,D
2000-01-01,0.092699,-0.444414,0.174527,-0.240742
2000-01-02,0.663604,0.436559,1.922213,-1.102994
2000-01-03,-0.061993,-1.068872,0.751397,1.149348
2000-01-04,-1.318372,3.479382,-0.40483,0.176136
2000-01-05,0.015499,-0.507142,-0.149214,-0.098744


## Utilización de .loc

#### 1. Una sola etiqueta, p. 5 o 'a' (Tenga en cuenta que 5 se interpreta como una etiqueta del índice. Este uso no es una posición entera a lo largo del índice).

#### 2. Una lista o matriz de etiquetas ['a', 'b', 'c'].

#### 3. Un objeto de división con etiquetas 'a':'f' (Tenga en cuenta que, a diferencia de las divisiones habituales de Python, se incluyen tanto el inicio como el final, cuando están presentes en el índice. 

#### 4. Una matriz booleana.

#### 5. Una llamada

In [29]:
s1 = pd.Series(np.random.randn(6), index=list('abcdef'))

In [30]:
s1

a   -0.465915
b    1.151499
c   -1.781216
d   -1.782958
e    1.304598
f    1.100123
dtype: float64

In [31]:
s1.loc['c':] #Utilizamos la etiqueta del índice para seleccionar

c   -1.781216
d   -1.782958
e    1.304598
f    1.100123
dtype: float64

In [32]:
df1 = pd.DataFrame(np.random.randn(6, 4),
                   index=list('abcdef'),
                   columns=list('ABCD'))

In [33]:
df1

Unnamed: 0,A,B,C,D
a,0.440676,-0.201096,2.241299,-0.277111
b,0.693465,0.178171,1.303857,1.268093
c,1.55275,-1.028398,0.333942,0.07461
d,1.198208,-1.652554,0.775307,-0.478134
e,1.520358,1.159385,-0.981909,0.544544
f,-0.157574,-0.174047,1.485191,-0.037304


In [34]:
df1.loc[['a', 'b', 'd'], :] #IMPORTANTE!!! Estás filtrando las filas(indices), no las columnas

Unnamed: 0,A,B,C,D
a,0.440676,-0.201096,2.241299,-0.277111
b,0.693465,0.178171,1.303857,1.268093
d,1.198208,-1.652554,0.775307,-0.478134


In [35]:
# Para filtrar filas y columnas al mismo tiempo, utilizamos una coma ","df1.loc['d':, 'A':'C']

In [36]:
# Si seleccionamos una sola fila, el resultado es una Serie con los valores de todas las columnas
df1.loc['a']

A    0.440676
B   -0.201096
C    2.241299
D   -0.277111
Name: a, dtype: float64

In [37]:
# Podemos utilizar condicionales, para obtener valores booleanos
df1.loc['a'] > 0

A     True
B    False
C     True
D    False
Name: a, dtype: bool

In [38]:
# También podemos aplicar esto a una sola columna
df1.loc[:, df1.loc['a'] > 0]

Unnamed: 0,A,C
a,0.440676,2.241299
b,0.693465,1.303857
c,1.55275,0.333942
d,1.198208,0.775307
e,1.520358,-0.981909
f,-0.157574,1.485191


## Utilizar Slicing ":"con .loc

In [39]:
s = pd.Series(list('abcde'), index=[0, 3, 2, 5, 4])

In [40]:
s.loc[3:5]

3    b
2    c
5    d
dtype: object

In [41]:
# Podemos ordenar los indices con la funcion sort_index()
s.sort_index()

0    a
2    c
3    b
4    e
5    d
dtype: object

In [42]:
s.sort_index().loc[1:5]

2    c
3    b
4    e
5    d
dtype: object

## Utilizacion de .iloc

#### 1. Un número entero, p. 5.

#### 2. Una lista o matriz de enteros [4, 3, 0].

#### 3. Un objeto slice con ints 1:7.

#### 4. Una matriz booleana.

#### 5. Una llamada

In [43]:
s1 = pd.Series(np.random.randn(5), index = list(range(0,10,2)))

In [44]:
s1

0    1.166080
2   -0.506771
4    1.145933
6   -1.788727
8   -0.514567
dtype: float64

In [45]:
s1.iloc[:3] #Selecciona las primeras tres filas

0    1.166080
2   -0.506771
4    1.145933
dtype: float64

In [46]:
s1.iloc[3]

-1.7887271889494387

In [47]:
df1 = pd.DataFrame(np.random.randn(6, 4),
                   index=list(range(0, 12, 2)),
                   columns=list(range(0, 8, 2)))

In [48]:
df1

Unnamed: 0,0,2,4,6
0,1.372041,-0.698764,1.73825,0.492041
2,-0.286465,-0.990678,1.518135,-0.468345
4,0.490749,-0.042339,-0.811371,-0.236293
6,1.085562,-0.479003,-1.797569,0.797912
8,1.072545,-1.925848,0.491882,0.255314
10,-0.413104,-0.33184,-0.285896,-1.345478


In [49]:
df1.iloc[:3]

Unnamed: 0,0,2,4,6
0,1.372041,-0.698764,1.73825,0.492041
2,-0.286465,-0.990678,1.518135,-0.468345
4,0.490749,-0.042339,-0.811371,-0.236293


In [50]:
df1.iloc[1:3]

Unnamed: 0,0,2,4,6
2,-0.286465,-0.990678,1.518135,-0.468345
4,0.490749,-0.042339,-0.811371,-0.236293


In [51]:
# Para selecionar filas y columnas, separamos con una coma
df1.iloc[1:5, 2:4]

Unnamed: 0,4,6
2,1.518135,-0.468345
4,-0.811371,-0.236293
6,-1.797569,0.797912
8,0.491882,0.255314


In [52]:
# Podemos hacer la seleccion a traves de una lista
df1.iloc[[1, 3, 5], [1, 3]]

Unnamed: 0,2,6
2,-0.990678,-0.468345
6,-0.479003,0.797912
10,-0.33184,-1.345478


In [53]:
df1.iloc[1:3, :] #Solo las filas 2 y 4

Unnamed: 0,0,2,4,6
2,-0.286465,-0.990678,1.518135,-0.468345
4,0.490749,-0.042339,-0.811371,-0.236293


In [54]:
df1.iloc[:, 1:3] # Solo las columnas 2 y 4

Unnamed: 0,2,4
0,-0.698764,1.73825
2,-0.990678,1.518135
4,-0.042339,-0.811371
6,-0.479003,-1.797569
8,-1.925848,0.491882
10,-0.33184,-0.285896


In [55]:
# Ejemplo de seleccion unica por posicion
df1.iloc[1,1]

-0.9906783201855823

In [56]:
df1.iloc[1]

0   -0.286465
2   -0.990678
4    1.518135
6   -0.468345
Name: 2, dtype: float64

## Selección por llamadas - Funciones lambda

#### Para aplicar llamadas podemos utilizar .loc, .iloc, y [ ]

In [57]:
df1 = pd.DataFrame(np.random.randn(6, 4),
                   index=list('abcdef'),
                   columns=list('ABCD'))

In [58]:
df1

Unnamed: 0,A,B,C,D
a,1.305424,-0.073249,-0.475637,-1.445507
b,-0.289428,0.437761,-1.400539,1.282451
c,-1.902521,1.35687,0.182237,0.348374
d,0.178775,0.516251,-1.025684,-0.862538
e,-0.27154,1.326644,0.847479,-1.403334
f,-0.071675,2.519518,0.349717,0.314905


In [59]:
df1.loc[lambda df: df['A'] > 0, :]

Unnamed: 0,A,B,C,D
a,1.305424,-0.073249,-0.475637,-1.445507
d,0.178775,0.516251,-1.025684,-0.862538


In [60]:
df1.loc[:, lambda df: ['A', 'B']]

Unnamed: 0,A,B
a,1.305424,-0.073249
b,-0.289428,0.437761
c,-1.902521,1.35687
d,0.178775,0.516251
e,-0.27154,1.326644
f,-0.071675,2.519518


In [61]:
df1.iloc[:, lambda df: [0, 1]]

Unnamed: 0,A,B
a,1.305424,-0.073249
b,-0.289428,0.437761
c,-1.902521,1.35687
d,0.178775,0.516251
e,-0.27154,1.326644
f,-0.071675,2.519518


In [62]:
df1[lambda df: df.columns[0]]

a    1.305424
b   -0.289428
c   -1.902521
d    0.178775
e   -0.271540
f   -0.071675
Name: A, dtype: float64

In [63]:
df1['A'].loc[lambda s: s > 0]

a    1.305424
d    0.178775
Name: A, dtype: float64

In [64]:
raw_baseball_url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/baseball.csv"

In [65]:
bb = pd.read_csv(raw_baseball_url)

In [66]:
bb

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,...,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,...,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,...,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,...,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,89525,benitar01,2007,2,FLO,NL,34,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
96,89526,benitar01,2007,1,SFN,NL,19,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
97,89530,ausmubr01,2007,1,HOU,NL,117,349,38,82,...,25.0,6.0,1.0,37,74.0,3.0,6.0,4.0,1.0,11.0
98,89533,aloumo01,2007,1,NYN,NL,87,328,51,112,...,49.0,3.0,0.0,27,30.0,5.0,2.0,0.0,3.0,13.0


In [67]:
(bb.groupby(['year', 'team'])
 .sum(numeric_only=True)
 .loc[lambda df: df['r'] > 100])

Unnamed: 0_level_0,Unnamed: 1_level_0,id,stint,g,ab,r,h,X2b,X3b,hr,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
year,team,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
2007,CIN,536621,6,379,745,101,203,35,2,36,125.0,10.0,1.0,105,127.0,14.0,1.0,1.0,15.0,18.0
2007,DET,446997,5,301,1062,162,283,54,4,37,144.0,24.0,7.0,97,176.0,3.0,10.0,4.0,8.0,28.0
2007,HOU,357725,4,311,926,109,218,47,6,14,77.0,10.0,4.0,60,212.0,3.0,9.0,16.0,6.0,17.0
2007,LAN,715256,11,413,1021,153,293,61,3,36,154.0,7.0,5.0,114,141.0,8.0,9.0,3.0,8.0,29.0
2007,NYN,1073198,13,622,1854,240,509,101,3,61,243.0,22.0,4.0,174,310.0,24.0,23.0,18.0,15.0,48.0
2007,SFN,447198,5,482,1305,198,337,67,6,40,171.0,26.0,7.0,235,188.0,51.0,8.0,16.0,6.0,41.0
2007,TEX,178804,2,198,729,115,200,40,4,28,115.0,21.0,4.0,73,140.0,4.0,5.0,2.0,8.0,16.0
2007,TOR,357561,4,459,1408,187,378,96,2,58,223.0,4.0,2.0,190,265.0,16.0,12.0,4.0,16.0,38.0


## Combinación de indexación posicional y basada en etiquetas

In [68]:
# Si desea obtener los elementos 0 y 2 del índice en la columna 'A', puede hacerlo de la forma siguiente

In [69]:
dfd = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]},
                   index=list('abc'))

In [70]:
dfd

Unnamed: 0,A,B
a,1,4
b,2,5
c,3,6


In [71]:
# Primero hacemos una selección de los índices con una lista, y luego seleccionamos la columna por su etiqueta
dfd.loc[dfd.index[[0, 2]], 'A']

a    1
c    3
Name: A, dtype: int64

In [72]:
dfd.iloc[[0, 2], dfd.columns.get_loc('A')]

a    1
c    3
Name: A, dtype: int64

In [73]:
# Para obtener múltiples indexadores, use .get_indexer
dfd.iloc[[0, 2], dfd.columns.get_indexer(['A', 'B'])]

Unnamed: 0,A,B
a,1,4
c,3,6


## Reindexación 

In [74]:
s.reindex([1, 2, 3])

1    NaN
2      c
3      b
dtype: object

In [75]:
labels = [1, 2, 3]

In [76]:
s.loc[s.index.intersection(labels)]

3    b
2    c
dtype: object

## Selección de muestras aleatorias - sample ()

#### Una selección aleatoria de filas o columnas de una Serie o DataFrame con el método sample(). El método muestreará filas de forma predeterminada y acepta un número específico de filas/columnas para devolver, o una fracción de filas.

In [77]:
s = pd.Series([0, 1, 2, 3, 4, 5])

In [78]:
s.sample()

4    4
dtype: int64

In [79]:
# Podemos especificar un número de filas
s.sample(n=3)

5    5
3    3
2    2
dtype: int64

In [80]:
df3 = pd.DataFrame({'col1': [1, 2, 3], 'col2': [2, 3, 4]})

In [81]:
# Podemos seleccionar solo una columna, utilizando el argumento axis=1
df3.sample(n=1, axis=1)

Unnamed: 0,col1
0,1
1,2
2,3


## Indexación booleana

#### Otra operación común es el uso de vectores booleanos para filtrar los datos. Los operadores son: | para o, & para y, y ~ para no. Estos deben agruparse usando paréntesis.

In [82]:
# El uso de un vector booleano para indexar una Serie funciona exactamente como en un NumPy ndarray
s = pd.Series(range(-3, 4))

In [83]:
s

0   -3
1   -2
2   -1
3    0
4    1
5    2
6    3
dtype: int64

In [84]:
s[s > 0]

4    1
5    2
6    3
dtype: int64

In [85]:
# Menos a 1 o mayores a 0.5
s[(s < -1) | (s > 0.5)]

0   -3
1   -2
4    1
5    2
6    3
dtype: int64

In [86]:
# Que no sean menores que 0
s[~(s < 0)]

3    0
4    1
5    2
6    3
dtype: int64

In [1]:
# Para utilizar un booleano en un Data Frame, utilizamos el mismo principio
# df[df['g'] > 0]

In [None]:
df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'three', 'two', 'one', 'six'],
                    'b': ['x', 'y', 'y', 'x', 'y', 'x', 'x'],
                    'c': np.random.randn(7)})


In [None]:
df2

## Indexar y buscar valores con: isin()

#### Considere el método isin() de Series, que devuelve un vector booleano que es verdadero dondequiera que existan los elementos Series en la lista pasada. Esto le permite seleccionar filas donde una o más columnas tienen valores que desea.

#### DataFrame también tiene un método isin(). Al llamar a isin, pase un conjunto de valores como una matriz o un diccionario. Si los valores son una matriz, isin devuelve un DataFrame de valores booleanos que tiene la misma forma que el DataFrame original, con True dondequiera que esté el elemento en la secuencia de valores

In [None]:
s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')

In [None]:
s

In [None]:
s.isin([2, 4, 6]) # El resultado es booleano con verdadero o falso, que indica que el dato está allí

In [None]:
# Podemos aplicar lo mismo, para buscar un índice
s[s.index.isin([2, 4, 6])]

In [None]:
# En un Data Frame nos referimos a los valores
df = pd.DataFrame({'vals': [1, 2, 3, 4], 'ids': ['a', 'b', 'f', 'n'],
                   'ids2': ['a', 'n', 'c', 'n']})

In [None]:
df

In [None]:
values = ['a', 'b', 1, 3]

In [None]:
# Comprobamos si la lista de "values" está dentro de la tabla
df.isin(values)

## El método where() y el enmascaramiento

#### La selección de valores de una Serie con un vector booleano generalmente devuelve un subconjunto de los datos. Para garantizar que la salida de la selección tenga la misma forma que los datos originales, puede usar el método where en Series y DataFrame.

In [None]:
df = pd.DataFrame(np.random.randn(8, 4),
                  index=dates, columns=['A', 'B', 'C', 'D'])

In [None]:
df

In [None]:
s[s > 0]

In [None]:
# Si aplicamos "where" el resultado es un serie igual a la original
s.where(s > 0)

In [None]:
df[df < 0]

In [None]:
# Utilizando "where" en un data frame, podemos aplicar condiciones dobles
df.where(df < 0, -df)

In [None]:
# Where tambien puede ser aplicado en indices o columnas utilizando los argumentos: axis o level
df2 = df.copy()

In [None]:
df2.where(df2 > 0, df2['A'], axis='index')

In [None]:
# mask() es la operación booleana inversa de where.

In [None]:
s.mask(s >= 0)

In [None]:
df.mask(df >= 0)

## El metodo "query()" - Selecciones con condicionales (< >, =<, >=)

#### Los objetos DataFrame tienen un método query() que permite la selección mediante una expresión. Puede obtener el valor del marco donde la columna b tiene valores entre los valores de las columnas a y c.

In [None]:
n = 10

In [None]:
df = pd.DataFrame(np.random.rand(n, 3), columns = list('abc'))

In [None]:
df

In [None]:
# Si queremos hacer una seleccion clasica con los metodos de python, utilizamos corchetes [ ]
df[(df['a'] < df['b']) & (df['b'] < df['c'])]

In [None]:
# Pero si utilizamos el metodo query(), solo tendremos que hacer referencia a los nombres (etiquetas) de las columnas
df.query('(a < b) & (b < c)')

In [None]:
# Si, en cambio, no quiere o no puede nombrar su índice, puede usar el índice de nombres en su expresión de consulta
df = pd.DataFrame(np.random.randint(n, size=(n, 2)), columns=list('bc'))

In [None]:
df

In [None]:
df.query('index < b < c')

## Casos de uso del metodo query()

#### Un caso de uso para query() es cuando tiene una colección de objetos DataFrame que tienen un subconjunto de nombres de columna (o niveles/nombres de índice) en común. Puede pasar la misma consulta a ambos marcos sin tener que especificar qué marco le interesa consultar

In [None]:
df = pd.DataFrame(np.random.rand(n, 3), columns=list('abc'))

In [None]:
df

In [None]:
df2 = pd.DataFrame(np.random.rand(n + 2, 3), columns=df.columns)

In [None]:
df2

In [None]:
expr = '0.0 <= a <= c <= 0.5'

In [None]:
map(lambda frame: frame.query(expr), [df, df2])

## query() vs python tradicional

In [None]:
df = pd.DataFrame(np.random.randint(n, size=(n, 3)), columns=list('abc'))

In [None]:
df

In [None]:
# Con query() se hacen selecciones condicionales mas simples
df.query('(a < b) & (b < c)')

In [None]:
# python tradicional
df[(df['a'] < df['b']) & (df['b'] < df['c'])]

In [None]:
# Utiliza palabras en lugar de simbolos
df.query('a < b and b < c')

## Los operadores "in" y "not in"

#### query() también admite el uso especial de los operadores de comparación in y not in de Python, lo que proporciona una sintaxis sucinta para llamar al método isin de una serie o trama de datos

In [None]:
df = pd.DataFrame({'a': list('aabbccddeeff'), 'b': list('aaaabbbbcccc'),
                   'c': np.random.randint(5, size=12),
                   'd': np.random.randint(9, size=12)})

# obtener todas las filas donde las columnas "a" y "b" tienen valores superpuestos

In [None]:
df

In [None]:
# Con query() se haria de esta forma
df.query('a in b')

In [None]:
# Utilizando python seria mas complicado
df[df['a'].isin(df['b'])]

In [None]:
# Podemos negar la expresion utilizando "not in"
df.query('a not in b')

In [None]:
# Con pyhthon tendriamos que negar la expresion con "~"
df[~df['a'].isin(df['b'])]

## Uso especial del operador "==" con objetos de lista

#### Comparar una lista de valores con una columna usando ==/!= funciona de manera similar a in/not in

In [None]:
df.query('b == ["a", "b", "c"]')

In [None]:
df.query('c == [1, 2]')

In [None]:
# Ahora negamos la expresion anterior
df.query('c != [1, 2]')

In [None]:
# using in/not in
df.query('[1, 2] not in c')

## Operadores booleanos para negar

#### Puedes negar operadores booleanos con la palabra "not" o el simbolo "~"

In [None]:
df = pd.DataFrame(np.random.rand(n, 3), columns=list('abc'))

In [None]:
df['bools'] = np.random.rand(len(df)) > 0.5

In [None]:
# Podemos negar la expresion con el simbolo "~"
df.query('~bools')

In [None]:
# O sencillamente, podemos utilizar la palabra "not"
df.query('not bools')

In [None]:
df.query('not bools') == df[~df['bools']]

In [None]:
# Podemos escribir expresiones mas complejas
shorter = df.query('a < b < c and (not bools) or bools > 2')

In [None]:
shorter

## Datos duplicados - duplicated() y drop_duplicates()

#### duplicated(): devuelve un vector booleano cuya longitud es el número de filas y que indica si una fila está duplicada
#### drop_duplicates(): elimina las filas duplicadas

#### De forma predeterminada, la primera fila observada de un conjunto duplicado se considera única, pero cada método tiene un parámetro de mantenimiento para especificar los objetivos que se mantendrán.

#### 1. keep='first' (predeterminado): marca/elimina los duplicados excepto la primera aparición.

#### 2. keep='last': marcar/eliminar duplicados excepto la última aparición.

#### 3. keep=False: marca/elimina todos los duplicados.

In [None]:
df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'two', 'two', 'three', 'four'],
                    'b': ['x', 'y', 'x', 'y', 'x', 'x', 'x'],
                    'c': np.random.randn(7)})


In [None]:
df2

In [None]:
# Vamos a determinar si hay duplicados de la columna "a"
df2.duplicated('a')

In [None]:
# Podemos seleccionar los indices duplicados
df2.iloc[[1, 3, 4]]

In [None]:
# Ahora vamos a utilizar el argumento "last", que muestra todos menos la ultima aparicion
df2.duplicated('a', keep='last')

In [None]:
# Con "False" vamos a ver todos los numeros que tengan un duplicado
df2.duplicated('a', keep=False)

In [None]:
# Vamos a eliminar todos los duplicados
df2.drop_duplicates('a')

In [None]:
df2.drop_duplicates('a', keep='last')

In [None]:
df2.drop_duplicates('a', keep=False)

In [None]:
# Además, puede pasar una lista de columnas para identificar duplicados

In [None]:
df2.duplicated(['a', 'b'])

In [None]:
# Tambien puede eliminarlos de ambas columnas, de forma simultanea
df2.drop_duplicates(['a', 'b'])

In [None]:
# Para eliminar los duplicados por valor de índice, use Index.duplicated y luego realice el corte. 
# El mismo conjunto de opciones está disponible para el parámetro "keep"

In [None]:
df3 = pd.DataFrame({'a': np.arange(6),
                    'b': np.random.randn(6)},
                   index=['a', 'a', 'b', 'c', 'b', 'a'])

In [None]:
df3

In [None]:
df3.index.duplicated()

In [None]:
# Si utilizamos el simbolo "~", negamos la expresion, y veremos todos los indices no duplicados
df3[~df3.index.duplicated()]

In [None]:
df3[~df3.index.duplicated(keep='last')]

In [None]:
df3[~df3.index.duplicated(keep=False)]

## Indices de objetos

#### La clase Pandas Index y sus subclases pueden verse como implementando un conjunto múltiple ordenado. Index también proporciona la infraestructura necesaria para búsquedas, alineación de datos y reindexación. La forma más sencilla de crear un Índice directamente es pasar una lista u otra secuencia a Índice

In [88]:
index = pd.Index(['e', 'd', 'a', 'b'])

In [89]:
index

Index(['e', 'd', 'a', 'b'], dtype='object')

In [90]:
'd' in index

True

In [92]:
# Si le colocamos un nombre a nuestro índice, aparecera en la consola
index = pd.Index(list(range(5)), name='rows')
columns = pd.Index(['A', 'B', 'C'], name='cols')

In [93]:
df = pd.DataFrame(np.random.randn(5, 3), index=index, columns=columns)

In [94]:
df

cols,A,B,C
rows,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,-3.100684,-1.160621,-0.774115
1,0.576365,-0.367923,-0.893741
2,0.6844,-0.093616,0.878719
3,-2.404848,-0.112232,0.305428
4,0.33593,-2.596132,0.215909


In [95]:
df['B']

rows
0   -1.160621
1   -0.367923
2   -0.093616
3   -0.112232
4   -2.596132
Name: B, dtype: float64

#### Los índices son "en su mayoría inmutables", pero es posible establecer y cambiar su atributo de nombre. Puede usar el cambio de nombre, set_names para establecer estos atributos directamente, y de manera predeterminada devolverán una copia.

In [96]:
ind = pd.Index([1, 2, 3])

In [97]:
ind.rename("apple")

Int64Index([1, 2, 3], dtype='int64', name='apple')

In [98]:
ind.set_names(["apple"], inplace=True)

In [99]:
ind.name = "bob"

In [100]:
ind

Int64Index([1, 2, 3], dtype='int64', name='bob')

#### Las dos operaciones principales son la unión y la intersección. La diferencia se proporciona a través del método .difference().

In [101]:
a = pd.Index(['c', 'b', 'a'])

In [102]:
b = pd.Index(['c', 'e', 'd'])

In [103]:
a.difference(b)

Index(['a', 'b'], dtype='object')

## Establecer / restablecer un índice

#### Ocasionalmente, cargará o creará un conjunto de datos en un DataFrame y querrá agregar un índice después de que ya lo haya hecho. Hay un par de maneras diferentes.

### Establecer un índice

#### DataFrame tiene un método set_index() que toma un nombre de columna (para un índice normal) o una lista de nombres de columna (para un índice múltiple). Para crear un DataFrame nuevo y reindexado

In [106]:
# data

In [107]:
# indexed1 = data.set_index('c')

In [108]:
# indexed1

In [109]:
# indexed2 = data.set_index(['a', 'b'])

In [110]:
# indexed2

#### Otras opciones en set_index le permiten no eliminar las columnas de índice o agregar el índice en el lugar (sin crear un nuevo objeto)

In [111]:
# data.set_index('c', drop=False)

In [112]:
# data.set_index(['a', 'b'], inplace=True)

In [113]:
# data

### Restablecer el índice

#### Para su comodidad, hay una nueva función en DataFrame llamada reset_index() que transfiere los valores del índice a las columnas de DataFrame y establece un índice entero simple. Esta es la operación inversa de set_index().

In [114]:
# data

In [115]:
# data.reset_index()