# **Indexación, segmentación y creación de subconjuntos a partir de DataFrames en Python**

En esta lección, exploraremos **formas de acceder a diferentes partes de los datos**
usando:

- indexación,
- segmentación, y
- creación de subconjuntos.

## Cargando nuestros datos

Vamos a continuar usando el dataset **surveys** que usamos con la lección
anterior. Reabrámoslo y leamos los datos de nuevo:


In [2]:
# Asegura que panda este disponible
import pandas as pd

# lee el archivo **surveys** CSV
data = pd.read_csv("pandas_data/pandas_data/surveys.csv")


## Indexando y Fragmentando en Python

A menudo necesitamos trabajar con subconjuntos de un objeto **DataFrame**. Existen diferentes
maneras de lograr esto, incluyendo: usando etiquetas (encabezados de columnas), rangos numéricos,
o índices de localizaciones específicas x,y.

## Seleccionando datos mediante el uso de Etiquetas (Encabezados de Columnas)

Utilizamos corchetes `[]` para seleccionar un subconjunto de un objeto en Python. Por ejemplo,
podemos seleccionar todos los datos de una columna llamada `species_id`  del `surveys_df` **DataFrame**
usando el nombre de la columna. Existen dos maneras de hacer esto:

In [2]:
# Sugerencia: usa el método .head() que vimos anteriormente para hacer la salida más corta
# Método 1: selecciona un 'subconjunto' de los datos usando el nombre de la columna
data['species_id']

# Método 2: usa el nombre de la columna como un 'atributo'; esto produce la misma salida
data.species_id

0         NL
1         NL
2         DM
3         DM
4         DM
        ... 
35544     AH
35545     AH
35546     RM
35547     DO
35548    NaN
Name: species_id, Length: 35549, dtype: object

También podemos crear un nuevo objeto que contiene solamente los datos de la
columna `species_id` de la siguiente manera:

In [3]:
# Crea un objeto, `surveys_species`, que solamente contenga la columna `species_id`
surveys_species = data['species_id']

También podemos pasar una lista de nombres de columnas, a manera de índice para seleccionar las columnas en ese orden.
Esto es útil cuando necesitamos reorganizar nuestros datos.

**NOTA:** Si el nombre de una columna no esta incluido en el `DataFrame`,
se producirá una excepción (error).

In [4]:
# Selecciona las especies y crea un gráfico con las columnas del **DataFrame**
data[['species_id', 'plot_id']]

Unnamed: 0,species_id,plot_id
0,NL,2
1,NL,3
2,DM,2
3,DM,7
4,DM,3
...,...,...
35544,AH,15
35545,AH,15
35546,RM,10
35547,DO,7


In [5]:
# ¿Qué pasa cuando invertimos el orden?
data[['plot_id', 'species_id']]

Unnamed: 0,plot_id,species_id
0,2,NL
1,3,NL
2,2,DM
3,7,DM
4,3,DM
...,...,...
35544,15,AH
35545,15,AH
35546,10,RM
35547,7,DO


In [3]:
# ¿Qué pasa si preguntamos por una columna que no existe?
data['speciess']

KeyError: 'speciess'

Python nos informa que tipo de error es en el rastreo, en la parte inferior dice `KeyError: 'speciess'` lo que significa
que `speciess` no es un nombre de columna (o **Key** que está relacionado con el diccionario de tipo de datos de Python).

## Copiar Objetos vs Referenciar Objetos en Python

Empecemos con un ejemplo:

In [4]:
# Usando el método 'copy()'
true_copy_surveys_df = data.copy()

# Usando el operador '='
ref_surveys_df = data

Puedes pensar que el código `ref_surveys_df = surveys_df` crea una copia nueva y
distinta de objeto **DataFrame** `surveys_df`. Sin embargo, usar el operador `=` en
una instrucción simple de la forma `y = x` **no** crea una copia de nuestro **DataFrame**.
En lugar de esto, `y = x` crea una variable nueva `y` que hace referencia al **mismo**
objeto al que `x` hace referencia. Para decirlo de otra manera, solamente hay **un**
objeto (el **DataFrame**), y ambos objetos `x` y `y` hacen referencia a él.

En contraste, el método `copy()` de un **DataFrame** crea una copia verdadera del
**DataFrame**.

Veamos lo que sucede cuando reasignamos los valores dentro de un subconjunto del
**DataFrame** que hace referencia a otro objeto **DataFrame**:

In [5]:
# Asigna el valor `0` a las primeras tres filas de datos en el **DataFrame**
ref_surveys_df[0:3] = 0

Probemos el siguiente código:

In [6]:
# ref_surveys_df fue creado usando el operador '='
ref_surveys_df.head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,0,0,0,0,0,0,0,0.0,0.0
1,0,0,0,0,0,0,0,0.0,0.0
2,0,0,0,0,0,0,0,0.0,0.0
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


In [10]:
# surveys_df es el **DataFrame** original
data.head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,0,0,0,0,0,0,0,0.0,0.0
1,0,0,0,0,0,0,0,0.0,0.0
2,0,0,0,0,0,0,0,0.0,0.0
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


¿Cuál es la diferencia entre estos dos **DataFrames**?

Cuando asignamos a las tres primeras filas el valor de `0` usando el **DataFrame** `ref_surveys_df`,
el **DataFrame** `surveys_df` también es modificado. Recuerda que creamos el objeto `ref_survey_df`
arriba usando la instrucción `ref_survey_df = surveys_df`. Por lo tanto `surveys_df` y `ref_surveys_df` hacen
referencia exactamente al mismo objeto **DataFrame**. Si cualquiera de los dos objetos (`ref_survey_df`, `surveys_df`)
es modificado, el otro objeto va a observar los mismos cambios.

**Revisar y Recapitular**:

- Para crear una **copia** de un objeto, usamos el método **copy()** de un `DataFrame`

In [7]:
true_copy_surveys_df = data.copy()

- Para crear una **referencia** a un objeto usamos el operador `=`

In [8]:
ref_surveys_df = data

Muy bien, hora de practicar. Vamos a crear un nuevo objeto `DataFrame` a partir
del archivo CSV con los datos originales.

In [12]:
data = pd.read_csv("../03-clase/pandas_data/pandas_data/surveys.csv")

## Segmentando subconjuntos de filas y columnas en Python

Podemos seleccionar subconjuntos de datos, contenidos en rangos específicos de filas y columnas,
usando etiquetas o indexación basada en números enteros.

- `loc` es usado principalmente para indexación basada en *etiquetas*. Permite usar *números enteros* pero
  son interpretados como una *etiqueta*.
- `iloc` es usado para indexación basada en *números enteros*

Para seleccionar un subconjunto de filas **y** columnas de nuestro objeto `DataFrame`, podemos usar
el método `iloc`. Por ejemplo, podemos seleccionar `month`, `day` y `year` (que corresponden a las columnas 2, 3
y 4, si empezamos a contar las columnas en 1) para las primeras tres filas, de la siguiente manera:

In [13]:
# iloc[segmentación de fila, segmentación de columna]
data.iloc[0:3, 1:4]

Unnamed: 0,month,day,year
0,7,16,1977
1,7,16,1977
2,7,16,1977


lo cual nos produce la siguiente **salida**

Ten en cuenta que pedimos un segmento de 0:3. Esto produjo 3 filas de datos. Cuando
pides un segmento de 0:3, le estas diciendo a **Python** que comience en el índice 0 y seleccione las filas
0, 1, 2, **hasta 3 pero sin incluir esta última**.

Exploremos otras maneras de indexar y seleccionar subconjuntos de datos:

In [14]:
data.iloc[[0, 10]]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
10,11,7,16,1977,5,DS,F,53.0,


In [15]:
# Selecciona todas las columnas para las filas con índices entre 0 y 10
data.loc[[0, 10]]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
10,11,7,16,1977,5,DS,F,53.0,


In [16]:
# ¿Qué salida produce el la siguiente instrucción?
data.loc[0, ['species_id', 'plot_id', 'weight']]

species_id     NL
plot_id         2
weight        NaN
Name: 0, dtype: object

In [17]:
# ¿Qué pasa cuando ejecutas el siguiente código?
data.loc[[0, 10, 35549], :]

KeyError: '[35549] not in index'

**NOTA**: Las etiquetas utilizadas deben estar incluidas en el `DataFrame` o se obtendrá un error de tipo `KeyError`.

La indexación por etiquetas (`loc`) difiere de la indexación por números enteros (`iloc`).
Cuando usamos `loc`, los limites inicial y final se **incluyen**. Cuando usamos
`loc`, *podemos* usar números enteros, pero dichos números enteros harán referencia a
etiquetas usadas a manera de índice y no a la posición. Por ejemplo, si usamos `loc` y seleccionamos 1:4
vamos a obtener resultados diferentes que si usamos `iloc` para seleccionar las filas 1:4.

Podemos seleccionar un dato específico utilizando la la intersección de una fila y
una columna dentro del `DataFrame`, junto con la indexación basada en números enteros `iloc`:

In [20]:
# Sintaxis para encontrar un dato especifico dentro de un `DataFrame` utilizando indexación `iloc`
#dat.iloc[fila, columna]

In [18]:
data.iloc[2, 6]

'F'

Recuerda que la indexación en Python inicia en 0. Así que, la direccíon basada en índice [2, 6]
selecciona el elemento ubicado en la intersección de la tercera fila (índice 2) y la séptima columna (índice 6) en el `DataFrame`.

## Creando subconjuntos de datos mediante el filtrado por criterios

También podemos seleccionar un subconjunto de nuestros datos, mediante el filtrado de la data original, usando algún criterio.
Por ejemplo, podemos seleccionar todas las filas que tienen el valor de 2002 en la columna `year`:

In [19]:
data[data.year == 2002]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
33320,33321,1,12,2002,1,DM,M,38.0,44.0
33321,33322,1,12,2002,1,DO,M,37.0,58.0
33322,33323,1,12,2002,1,PB,M,28.0,45.0
33323,33324,1,12,2002,1,AB,,,
33324,33325,1,12,2002,1,DO,M,35.0,29.0
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


También podemos seleccionar todas las filas que no contienen el año 2002:

In [20]:
data[data.year != 2002]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
33315,33316,12,16,2001,11,,,,
33316,33317,12,16,2001,13,,,,
33317,33318,12,16,2001,14,,,,
33318,33319,12,16,2001,15,,,,


También podemos definir conjuntos de criterios:

In [22]:
data[(data.year >= 1980) & (data.year <= 1985)]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
2270,2271,1,15,1980,8,DO,M,35.0,53.0
2271,2272,1,15,1980,11,PF,F,16.0,10.0
2272,2273,1,15,1980,18,DM,F,34.0,33.0
2273,2274,1,15,1980,11,DM,M,38.0,37.0
2274,2275,1,15,1980,8,DO,F,33.0,29.0
...,...,...,...,...,...,...,...,...,...
11222,11223,12,8,1985,4,DM,M,36.0,40.0
11223,11224,12,8,1985,11,DM,M,37.0,49.0
11224,11225,12,8,1985,7,PE,M,20.0,18.0
11225,11226,12,8,1985,1,DM,M,38.0,47.0


### Hoja de referencia para sintaxis de Python

Podemos utilizar la sintaxis incluida a continuación, cuando queramos hace consultas de datos por criterios en un `DataFrame`.
Experimenta seleccionando varios subconjuntos de los datos contenidos en `surveys_df`.

* Igual a: `==`
* No igual o diferente de: `!=`
* Mayor que, menor que: `>` or `<`
* Mayor o igual que `>=`
* Menor o igual que `<=`



# Usando máscaras para identificar una condición específica

Una **máscara** puede ser útil para identificar donde existe o no exite un subconjunto específico
de valores - por ejemplo,  NaN, o **Not a Number** en inglés. Para enternder el concepto de máscaras,
también tenemos que entender los objetos `BOOLEAN` en Python.

Valores boleanos (**boolean**) incluyen `True` o `False`. Por ejemplo,

In [23]:
# Asigna 5 a la variable x
x = 5

In [24]:
# ¿Qué nos devuelve la ejecución del siguiente código?
x > 5

False

In [25]:
# ¿Qué nos devuelve la ejecución de este?
x == 5

True

Cuando le preguntamos a Python ¿Cuál es el valor de `x > 5`?, obtenemos `False`. Esto se debe
a que la condición `x` es mayor que 5, no se cumple dado que `x` es igual
a 5.

Para crear una máscara booleana:

- Establece el criterio a ser evaluado como `True` o `False` (ej. `values > 5 = True`)
- Python evaluará cada valor en el objeto para determinar si
  el valor cumple el criterio (`True`) o no lo cumple (`False`).
- Python crea un objeto de salida que es de la misma forma que el objeto
  original, pero con un valor `True` o `False` por cada índice según corresponda.

Intentémoslo. Vamos a identificar todos los lugares en los datos de `survey` que son `null` (que no existen o son NaN).
Podemos usar el método `isnull` para lograrlo.
El método `isnull` va a comparar cada celda con un valor `null`. Si un elemento
tiene un valor `null`, se le asignará un nuevo valor de `True` en el objeto de salida.

In [26]:
data

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


In [27]:
pd.isnull(data)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,False,False,False,False,False,False,False,False,True
1,False,False,False,False,False,False,False,False,True
2,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...
35544,False,False,False,False,False,False,True,True,True
35545,False,False,False,False,False,False,True,True,True
35546,False,False,False,False,False,False,False,False,False
35547,False,False,False,False,False,False,False,False,False


Para seleccionar las filas donde hay valores `null`, podemos utilizar
una máscara a manera de índice y obtener subconjuntos de datos así:

In [28]:
pd.isnull(data).any(axis=1)

0         True
1         True
2         True
3         True
4         True
         ...  
35544     True
35545     True
35546    False
35547    False
35548     True
Length: 35549, dtype: bool

In [29]:
# Para seleccionar solamente las filas con valores NaN, podemos utilizar el método 'any()'
data[pd.isnull(data).any(axis=1)]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35530,35531,12,31,2002,13,PB,F,27.0,
35543,35544,12,31,2002,15,US,,,
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,


Nota que la columna `weight` de nuestro `DataFrame` contiene varios valores `null` o `NaN`.
Exploraremos diferentes maneras de abordar esto en el episodio de [tipos de datos y formatos](https://carpentries-es.github.io/python-ecology-lesson-es/04-data-types-and-format/index.html).

También podemos utilizar `isnull` en una columna en particular. ¿Qué salida produce el siguiente código?

In [30]:
data[pd.isnull(data['weight'])]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35530,35531,12,31,2002,13,PB,F,27.0,
35543,35544,12,31,2002,15,US,,,
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,


In [31]:
# ¿Qué hace el siguiente código?
empty_weights = data[pd.isnull(data['weight'])]['weight']
print(empty_weights)

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
         ..
35530   NaN
35543   NaN
35544   NaN
35545   NaN
35548   NaN
Name: weight, Length: 3266, dtype: float64


Tomemos un minuto para observar las instrucciones de arriba. Estamos usando el objeto booleano
`pd.isnull(surveys_df['weight'])` a manera de índice para `surveys_df`. Estamos
pidiendo a Python que seleccione aquellas filas que tienen un valor de `NaN` en la columna `weight`.