# Subsetting the data

## Acerca de los datos
En este cuaderno trabajaremos con datos de terremotos del 18 de septiembre de 2018 al 13 de octubre de 2018 (obtenidos del Servicio Geológico de Estados Unidos (USGS) mediante la [API del USGS](https://earthquake.usgs.gov/fdsnws/event/1/))

## Configuración
Estaremos trabajando con el archivo `data/earthquakes.csv` nuevamente, por lo que necesitamos manejar nuestras importaciones y leerlo.

In [2]:
import pandas as pd

df = pd.read_csv('data/earthquakes.csv')

## Seleccionar columnas
Coge una columna entera usando la notación de atributos:

In [None]:
df.mag

Coge una columna entera utilizando la sintaxis de diccionario:

In [None]:
df['mag']

Selección de varias columnas:

In [None]:
df[['mag', 'title']]

Selección de columnas mediante comprensión de listas y operaciones con cadenas:

In [None]:
df[
    ['title', 'time']
    + [col for col in df.columns if col.startswith('mag')]
]

Desglosando este ejemplo:
1. la comprensión de la lista

In [None]:
[col for col in df.columns if col.startswith('mag')]

2. confección de la lista

In [None]:
['title', 'time'] \
+ [col for col in df.columns if col.startswith('mag')]

3. utilizar esta lista como lista de columnas

In [None]:
df[
    ['title', 'time']
    + [col for col in df.columns if col.startswith('mag')]
]

## Slicing
### Seleccionar filas
Utilizando números de fila (incluido el primer índice, excluido el último):

In [None]:
df[100:103]

### Selección de filas y columnas con encadenamiento

In [None]:
df[['title', 'time']][100:103]

El orden no importa aquí:

In [None]:
df[100:103][['title', 'time']].equals(
    df[['title', 'time']][100:103]
)

Ya sabemos cómo seleccionar filas y columnas, pero ¿podemos actualizar valores? Bueno, si intentamos utilizar lo que hemos aprendido hasta ahora, veremos la siguiente advertencia:

In [None]:
df[110:113]['title'] = df[110:113]['title'].str.lower()

Fíjate que aquí funcionó, pero `pandas` dice que estábamos estableciendo un valor en una copia de un slice y que deberíamos usar `loc` en su lugar (tema de la siguiente sección):

In [None]:
df[110:113]['title']

## Indexación

Ahora si hacemos esto con `loc` como sugiere la advertencia, todo va como la seda. Nótese que tenemos que bajar el índice final en uno ya que `loc` incluye los puntos finales:

In [None]:
df.loc[110:112, 'title'] = df.loc[110:112, 'title'].str.lower()
df.loc[110:112, 'title']

### Indexación con `loc`
Selección del formato `loc[indexador_filas, indexador_columnas]` donde `:` puede utilizarse para seleccionar todo:

In [None]:
df.loc[:,'title']

Podemos utilizar `loc` para seleccionar filas y columnas específicas sin encadenar. Si usamos números de fila con `loc`, ahora son **inclusivos** del índice final:

In [None]:
df.loc[10:15, ['title', 'mag']]

#### Indexación con `iloc`
Exclusivo del punto final al igual que Python slicing:

In [None]:
df.iloc[10:15, [19, 8]]

Podemos utilizar la sintaxis de corte con `iloc` tanto para filas como para columnas:

In [None]:
df.iloc[10:15, 6:10]

Cuando usamos `loc`, podemos hacer cortes en los nombres de las columnas. Esto incluirá el punto final porque no se puede esperar saber cuál será el siguiente nombre de columna. Como tal, tenemos varias maneras de lograr el mismo objetivo final:

In [None]:
df.iloc[10:15, 6:10].equals(
    df.loc[10:14, 'gap':'magType']
)

### Buscando valores escalares
Hemos utilizado `loc` y `iloc` para obtener subconjuntos del marco de datos. Sin embargo, si sólo estamos interesados en el valor específico en una determinada `[fila, columna]`, entonces podemos utilizar `iat` y `at`. Usamos `at` con etiquetas:

In [None]:
df.at[10, 'mag']

...y `iat` con índices enteros:

In [None]:
df.iat[10, 8]

## Filtrado
Podemos filtrar nuestros marcos de datos utilizando una **máscara booleana**, que se puede hacer de la siguiente manera:

In [5]:
df.mag > 2

0       False
1       False
2        True
3       False
4        True
        ...  
9327    False
9328    False
9329     True
9330    False
9331    False
Name: mag, Length: 9332, dtype: bool

Para utilizar una máscara de selección, basta con colocarla dentro de los corchetes:

In [4]:
df[df.mag >= 7.0]

Unnamed: 0,alert,cdi,code,detail,dmin,felt,gap,ids,mag,magType,...,sources,status,time,title,tsunami,type,types,tz,updated,url
837,green,4.1,1000haa3,https://earthquake.usgs.gov/fdsnws/event/1/que...,1.763,3.0,14.0,",us1000haa3,pt18283003,at00pgehsk,",7.0,mww,...,",us,pt,at,",reviewed,1539204500290,"M 7.0 - 117km E of Kimbe, Papua New Guinea",1,earthquake,",dyfi,finite-fault,general-text,geoserve,groun...",600.0,1539378744253,https://earthquake.usgs.gov/earthquakes/eventp...
5263,red,8.4,1000h3p4,https://earthquake.usgs.gov/fdsnws/event/1/que...,1.589,18.0,27.0,",us1000h3p4,us1000h4p4,",7.5,mww,...,",us,us,",reviewed,1538128963480,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake,",dyfi,finite-fault,general-text,geoserve,groun...",480.0,1539123134531,https://earthquake.usgs.gov/earthquakes/eventp...


Podemos utilizar máscaras con `loc`:

In [6]:
df.loc[
    df.mag >= 7.0,
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
837,green,7.0,mww,"M 7.0 - 117km E of Kimbe, Papua New Guinea",1,earthquake
5263,red,7.5,mww,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake


Se pueden crear máscaras utilizando múltiples criterios cuando se combinan con los operadores bit a bit `&` para AND y `|` para OR. También debemos rodear cada criterio con paréntesis. No podemos usar `and`/`or` aquí porque necesitamos evaluar fila por fila:

In [7]:
df.loc[
    (df.tsunami == 1) & (df.alert == 'red'),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
5263,red,7.5,mww,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake


Un ejemplo con una condición OR, que es menos restrictiva:

In [8]:
df.loc[
    (df.tsunami == 1) | (df.alert == 'red'),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
36,,5.0,mww,"M 5.0 - 165km NNW of Flying Fish Cove, Christm...",1,earthquake
118,green,6.7,mww,"M 6.7 - 262km NW of Ozernovskiy, Russia",1,earthquake
501,green,5.6,mww,"M 5.6 - 128km SE of Kimbe, Papua New Guinea",1,earthquake
799,green,6.5,mww,"M 6.5 - 148km S of Severo-Kuril'sk, Russia",1,earthquake
816,green,6.2,mww,"M 6.2 - 94km SW of Kokopo, Papua New Guinea",1,earthquake
...,...,...,...,...,...,...
8561,,5.4,mb,"M 5.4 - 228km S of Taron, Papua New Guinea",1,earthquake
8624,,5.1,mb,"M 5.1 - 278km SE of Pondaguitan, Philippines",1,earthquake
9133,green,5.1,ml,"M 5.1 - 64km SSW of Kaktovik, Alaska",1,earthquake
9175,,5.2,mb,"M 5.2 - 126km N of Dili, East Timor",1,earthquake


Se pueden crear máscaras a partir de cualquier criterio que dé como resultado un booleano. Por ejemplo, podemos seleccionar todos los terremotos con la cadena `Alaska` en la columna `place` con un valor no nulo para la columna `alert`. Para obtener valores no nulos, podemos utilizar el método `isnull()` con el operador de negación bitwise (`~`) o el método `notnull()`:

In [9]:
df.loc[
    (df.place.str.contains('Alaska')) & (df.alert.notnull()),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
1015,green,5.0,ml,"M 5.0 - 61km SSW of Chignik Lake, Alaska",1,earthquake
1273,green,4.0,ml,"M 4.0 - 71km SW of Kaktovik, Alaska",1,earthquake
1795,green,4.0,ml,"M 4.0 - 60km WNW of Valdez, Alaska",1,earthquake
2752,green,4.0,ml,"M 4.0 - 67km SSW of Kaktovik, Alaska",1,earthquake
3260,green,3.9,ml,"M 3.9 - 44km N of North Nenana, Alaska",0,earthquake
4101,green,4.2,ml,"M 4.2 - 131km NNW of Arctic Village, Alaska",0,earthquake
6897,green,3.8,ml,"M 3.8 - 80km SSW of Kaktovik, Alaska",0,earthquake
8524,green,3.8,ml,"M 3.8 - 69km SSW of Kaktovik, Alaska",0,earthquake
9133,green,5.1,ml,"M 5.1 - 64km SSW of Kaktovik, Alaska",1,earthquake


Aquí podemos utilizar incluso expresiones regulares:

In [10]:
df.loc[
    (df.place.str.contains(r'CA|California$')) & (df.mag > 3.8),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
1465,green,3.83,mw,"M 3.8 - 109km WNW of Trinidad, CA",0,earthquake
2414,green,3.83,mw,"M 3.8 - 5km SW of Tres Pinos, CA",1,earthquake


Podemos utilizar el método `between()` para convertir 2 comprobaciones individuales (es menor o igual que algún valor máximo y es mayor o igual que algún valor mínimo) en una sola. Tenga en cuenta que esto incluye el punto final por defecto:

In [11]:
df.loc[
    df.mag.between(6.5, 7.5),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
118,green,6.7,mww,"M 6.7 - 262km NW of Ozernovskiy, Russia",1,earthquake
799,green,6.5,mww,"M 6.5 - 148km S of Severo-Kuril'sk, Russia",1,earthquake
837,green,7.0,mww,"M 7.0 - 117km E of Kimbe, Papua New Guinea",1,earthquake
4363,green,6.7,mww,"M 6.7 - 263km NNE of Ndoi Island, Fiji",1,earthquake
5263,red,7.5,mww,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake


Podemos utilizar el método `isin()` para comprobar la pertenencia a una lista de valores:

In [12]:
df.loc[
    df.magType.isin(['mw', 'mwb']),
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
995,,3.35,mw,"M 3.4 - 9km WNW of Cobb, CA",0,earthquake
1465,green,3.83,mw,"M 3.8 - 109km WNW of Trinidad, CA",0,earthquake
2414,green,3.83,mw,"M 3.8 - 5km SW of Tres Pinos, CA",1,earthquake
4988,green,4.41,mw,"M 4.4 - 1km SE of Delta, B.C., MX",1,earthquake
6307,green,5.8,mwb,"M 5.8 - 297km NNE of Ndoi Island, Fiji",0,earthquake
8257,green,5.7,mwb,"M 5.7 - 175km SSE of Lambasa, Fiji",0,earthquake


Podemos obtener el índice de los valores mínimo y máximo de una columna determinada y utilizarlos para seleccionar toda la fila en la que aparecen:

In [13]:
[df.mag.idxmin(), df.mag.idxmax()]

[2409, 5263]

In [14]:
df.loc[
    [df.mag.idxmin(), df.mag.idxmax()],
    ['alert', 'mag', 'magType', 'title', 'tsunami', 'type']
]

Unnamed: 0,alert,mag,magType,title,tsunami,type
2409,,-1.26,ml,"M -1.3 - 41km ENE of Adak, Alaska",0,earthquake
5263,red,7.5,mww,"M 7.5 - 78km N of Palu, Indonesia",1,earthquake


Tenga en cuenta que hay un método `filter()`, pero no filtra los datos en el mismo sentido que hemos discutido en esta sección. Aquí hay algunas cosas que puedes hacer con este método.

- agarrar columnas de un dataframe pasando una lista a `items`:

In [None]:
df.filter(items=['mag', 'magType']).head()

- coge todas las columnas que contengan una cadena con el parámetro `like`:

In [None]:
df.filter(like='mag').head()

- utilizar expresiones regulares; aquí, seleccionamos cualquier columna que empiece por `t`:

In [None]:
df.filter(regex=r'^t').head()

- utilizar `filter()` a lo largo de las filas, pasando en `axis=0`. Aquí utilizaremos la columna `place` como índice (veremos `set_index()` en el capítulo 3):

In [None]:
df.set_index('place').filter(like='Japan', axis=0).filter(items=['mag', 'magType', 'title']).head()

Esto también funciona con objetos `Series` y se ejecutará en el índice:

In [None]:
df.set_index('place').title.filter(like='Japan').head()

<hr>
<div>
    <a href="./4-inspeccionando_dataframes.ipynb">
        <button style="float: left;">&#8592; Notebook Anterior</button>
    </a>
    <a href="./6-anadiendo_y_eliminando_data.ipynb">
        <button style="float: right;">Siguiente Notebook &#8594;</button>
    </a>
</div>
<br>
<hr>