# Subsetting the data

## Acerca de los datos
En este cuaderno trabajaremos con datos de terremotos del 18 de septiembre de 2018 al 13 de octubre de 2018 (obtenidos del Servicio Geológico de Estados Unidos (USGS) mediante la [API del USGS](https://earthquake.usgs.gov/fdsnws/event/1/))

## Configuración
Estaremos trabajando con el archivo `data/earthquakes.csv` nuevamente, por lo que necesitamos manejar nuestras importaciones y leerlo.

In [1]:
import pandas as pd

df = pd.read_csv('data/earthquakes.csv')

## Seleccionar columnas
Coge una columna entera usando la notación de atributos:

In [2]:
df.mag

0       1.35
1       1.29
2       3.42
3       0.44
4       2.16
        ... 
9327    0.62
9328    1.00
9329    2.40
9330    1.10
9331    0.66
Name: mag, Length: 9332, dtype: float64

Coge una columna entera utilizando la sintaxis de diccionario:

In [3]:
df['mag']

0       1.35
1       1.29
2       3.42
3       0.44
4       2.16
        ... 
9327    0.62
9328    1.00
9329    2.40
9330    1.10
9331    0.66
Name: mag, Length: 9332, dtype: float64

Selección de varias columnas:

In [None]:
df[['mag', 'title']]

Selección de columnas mediante comprensión de listas y operaciones con cadenas:

In [None]:
df[
    ['title', 'time']
    + [col for col in df.columns if col.startswith('mag')]
]

Desglosando este ejemplo:
1. la comprensión de la lista

In [None]:
[col for col in df.columns if col.startswith('mag')]

2. confección de la lista

In [None]:
['title', 'time'] \
+ [col for col in df.columns if col.startswith('mag')]

3. utilizar esta lista como lista de columnas

In [None]:
df[
    ['title', 'time']
    + [col for col in df.columns if col.startswith('mag')]
]

## Slicing
### Seleccionar filas
Utilizando números de fila (incluido el primer índice, excluido el último):

In [None]:
df[100:103]

### Selección de filas y columnas con encadenamiento

In [None]:
df[['title', 'time']][100:103]

El orden no importa aquí:

In [None]:
df[100:103][['title', 'time']].equals(
    df[['title', 'time']][100:103]
)

Ya sabemos cómo seleccionar filas y columnas, pero ¿podemos actualizar valores? Bueno, si intentamos utilizar lo que hemos aprendido hasta ahora, veremos la siguiente advertencia:

In [None]:
df[110:113]['title'] = df[110:113]['title'].str.lower()

Fíjate que aquí funcionó, pero `pandas` dice que estábamos estableciendo un valor en una copia de un slice y que deberíamos usar `loc` en su lugar (tema de la siguiente sección):

In [None]:
df[110:113]['title']

## Indexación

Ahora si hacemos esto con `loc` como sugiere la advertencia, todo va como la seda. Nótese que tenemos que bajar el índice final en uno ya que `loc` incluye los puntos finales:

In [None]:
df.loc[110:112, 'title'] = df.loc[110:112, 'title'].str.lower()
df.loc[110:112, 'title']

### Indexación con `loc`
Selección del formato `loc[indexador_filas, indexador_columnas]` donde `:` puede utilizarse para seleccionar todo:

In [None]:
df.loc[:,'title']

Podemos utilizar `loc` para seleccionar filas y columnas específicas sin encadenar. Si usamos números de fila con `loc`, ahora son **inclusivos** del índice final:

In [None]:
df.loc[10:15, ['title', 'mag']]

#### Indexación con `iloc`
Exclusivo del punto final al igual que Python slicing:

In [None]:
df.iloc[10:15, [19, 8]]

Podemos utilizar la sintaxis de corte con `iloc` tanto para filas como para columnas:

In [None]:
df.iloc[10:15, 6:10]

Cuando usamos `loc`, podemos hacer cortes en los nombres de las columnas. Esto incluirá el punto final porque no se puede esperar saber cuál será el siguiente nombre de columna. Como tal, tenemos varias maneras de lograr el mismo objetivo final:

In [None]:
df.iloc[10:15, 6:10].equals(
    df.loc[10:14, 'gap':'magType']
)

### Buscando valores escalares
Hemos utilizado `loc` y `iloc` para obtener subconjuntos del marco de datos. Sin embargo, si sólo estamos interesados en el valor específico en una determinada `[fila, columna]`, entonces podemos utilizar `iat` y `at`. Usamos `at` con etiquetas:

In [None]:
df.at[10, 'mag']

...y `iat` con índices enteros:

In [None]:
df.iat[10, 8]

## Filtrado
Podemos filtrar nuestros marcos de datos utilizando una **máscara booleana**, que se puede hacer de la siguiente manera:

In [None]:
df.mag > 2

Para utilizar una máscara de selección, basta con colocarla dentro de los corchetes:

In [None]:
df[df.mag >= 7.0]

Podemos utilizar máscaras con `loc`:

In [None]:
df.loc[
    df.mag >= 7.0,
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Se pueden crear máscaras utilizando múltiples criterios cuando se combinan con los operadores bit a bit `&` para AND y `|` para OR. También debemos rodear cada criterio con paréntesis. No podemos usar `and`/`or` aquí porque necesitamos evaluar fila por fila:

In [None]:
df.loc[
    (df.tsunami == 1) & (df.alert == 'red'),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Un ejemplo con una condición OR, que es menos restrictiva:

In [None]:
df.loc[
    (df.tsunami == 1) | (df.alert == 'red'),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Se pueden crear máscaras a partir de cualquier criterio que dé como resultado un booleano. Por ejemplo, podemos seleccionar todos los terremotos con la cadena `Alaska` en la columna `place` con un valor no nulo para la columna `alert`. Para obtener valores no nulos, podemos utilizar el método `isnull()` con el operador de negación bitwise (`~`) o el método `notnull()`:

In [None]:
df.loc[
    (df.place.str.contains('Alaska')) & (df.alert.notnull()),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Aquí podemos utilizar incluso expresiones regulares:

In [None]:
df.loc[
    (df.place.str.contains(r'CA|California$')) & (df.mag > 3.8),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Podemos utilizar el método `between()` para convertir 2 comprobaciones individuales (es menor o igual que algún valor máximo y es mayor o igual que algún valor mínimo) en una sola. Tenga en cuenta que esto incluye el punto final por defecto:

In [None]:
df.loc[
    df.mag.between(6.5, 7.5),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Podemos utilizar el método `isin()` para comprobar la pertenencia a una lista de valores:

In [None]:
df.loc[
    df.magType.isin(['mw', 'mwb']),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Podemos obtener el índice de los valores mínimo y máximo de una columna determinada y utilizarlos para seleccionar toda la fila en la que aparecen:

In [None]:
[df.mag.idxmin(), df.mag.idxmax()]

In [4]:
df.loc[
    [df.mag.idxmin(), df.mag.idxmax()],
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
2409,,-1.26,ml,"M -1.3 - 41km ENE of Adak, Alaska",0,earthquake
5263,red,7.5,mww,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake


Tenga en cuenta que hay un método `filter()`, pero no filtra los datos en el mismo sentido que hemos discutido en esta sección. Aquí hay algunas cosas que puedes hacer con este método.

- agarrar columnas de un dataframe pasando una lista a `items`:

In [5]:
df.filter(items=['mag', 'magType']).head()

Unnamed: 0,mag,magType
0,1.35,ml
1,1.29,ml
2,3.42,ml
3,0.44,ml
4,2.16,md


- coge todas las columnas que contengan una cadena con el parámetro `like`:

In [6]:
df.filter(like='mag').head()

Unnamed: 0,mag,magType
0,1.35,ml
1,1.29,ml
2,3.42,ml
3,0.44,ml
4,2.16,md


- utilizar expresiones regulares; aquí, seleccionamos cualquier columna que empiece por `t`:

In [None]:
df.filter(regex=r'^t').head()

- utilizar `filter()` a lo largo de las filas, pasando en `axis=0`. Aquí utilizaremos la columna `place` como índice (veremos `set_index()` en el capítulo 3):

In [None]:
df.set_index('place').filter(like='Japan', axis=0).filter(items=['mag', 'magType', 'title']).head()

Esto también funciona con objetos `Series` y se ejecutará en el índice:

In [7]:
df.set_index('place').title.filter(like='Japan').head()

place
160km NNW of Nago, Japan          M 4.6 - 160km NNW of Nago, Japan
7km ESE of Asahi, Japan            M 5.2 - 7km ESE of Asahi, Japan
14km E of Tomakomai, Japan      M 4.5 - 14km E of Tomakomai, Japan
139km WSW of Naze, Japan          M 4.7 - 139km WSW of Naze, Japan
53km ESE of Kamaishi, Japan    M 4.6 - 53km ESE of Kamaishi, Japan
Name: title, dtype: object

<hr>
<div>
    <a href="./4-inspeccionando_dataframes.ipynb">
        <button style="float: left;">&#8592; Notebook Anterior</button>
    </a>
    <a href="./6-anadiendo_y_eliminando_data.ipynb">
        <button style="float: right;">Siguiente Notebook &#8594;</button>
    </a>
</div>
<br>
<hr>