### Biodiversidad en los parques
Este tutorial te guiará a través de los conceptos esenciales sobre cómo indexar y filtrar datos con Pandas. Piensa en él como una versión muy condensada y con un enfoque específico de [the official indexing documentation.](http://pandas.pydata.org/pandas-docs/stable/indexing.html#).

Empezamos cargando Pandas y los datos:

### Indexing: Single Rows
La forma más sencilla de acceder a una fila es pasar el número de fila al método ".iloc". Ten en cuenta que la primera fila es cero, al igual que los índices de las listas.

El otro enfoque principal es pasar un valor del índice de tu DataFrame al método ".loc":

### Indexing: Multiple Rows
Si necesitamos múltiples filas, podemos pasar varios valores de índice. ¡Ten en cuenta que esto cambia el orden de los resultados!

Cortar (slicing) el DataFrame como si fuera una lista también funciona.

### Indexing: Columns
Podemos acceder a un subconjunto de las columnas en un DataFrame colocando la lista de columnas entre corchetes de la siguiente manera:

También puedes acceder a una sola columna como si fuera un atributo del DataFrame, pero solo si el nombre no tiene espacios, utiliza solo caracteres básicos y no comparte un nombre con un método del DataFrame. Así que, "df.State" funciona.

Pero "df.Park Code" fallará ya que hay un espacio en el nombre.

In [12]:
df.Park Code

SyntaxError: invalid syntax (1629693805.py, line 1)

Solo podemos acceder a la columna "Park Code" pasando su nombre como una cadena entre corchetes, como "df['Park Code']". Recomiendo usar siempre ese enfoque o convertir siempre los nombres de las columnas a un formato válido tan pronto como leas los datos para que no tengas que mezclar los dos métodos. Es solo un poco más ordenado.

Es una buena práctica limpiar los nombres de las columnas para evitar este tipo de errores. Usaré una función de limpieza muy simple aquí, ya que los nombres no tienen caracteres extraños. Por convención, los nombres también deben ser convertidos a minúsculas. Pandas es sensible a mayúsculas y minúsculas, por lo que las llamadas futuras a todas las columnas deberán ser actualizadas.

### Indexing: Columns and Rows
Si necesitamos hacer un subconjunto tanto por columnas como por filas, puedes apilar los comandos que ya hemos aprendido.

### Indexing: Scalar Values
Como habrás notado, todo lo que hemos probado hasta ahora devuelve un pequeño DataFrame o una serie. Si necesitas un solo valor, simplemente pasa un solo valor de columna e índice.

In [2]:
# Accede al valor de la columna 'state' en la fila de la posición 2 (recuerda que los índices son cero-basados).


Ten en cuenta que obtendrás un tipo de retorno diferente si pasas un solo valor dentro de una lista.

In [3]:
# Accede al valor de la columna 'state' en la fila de la posición 2, pero devuelve una Serie en lugar de un valor único 
# porque el índice está dentro de una lista.


### Selecting a Subset of the Data

El método principal para hacer subconjuntos de datos en Pandas se llama [indexación booleana](http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing). Primero, echemos un vistazo a lo que hace Pandas cuando le pedimos que evalúe un valor booleano:

In [4]:
# Compara cada valor de la columna 'state' con 'UT', devolviendo una serie de valores booleanos, 
# luego muestra las primeras 3 filas con .head(3).


Obtenemos una serie con los resultados del valor booleano. Al pasar esa serie a un DataFrame, obtenemos el subconjunto del DataFrame donde el valor booleano evalúa como `True`.

In [5]:
# Filtra el DataFrame 'df' para seleccionar solo las filas donde el valor de la columna 'state' es igual a 'UT'.


Algunos de los operadores lógicos son diferentes:
- `~` reemplaza a `not`
- `|` reemplaza a `or`
- `&` reemplaza a `and`

Si tienes varios argumentos, deberán estar envueltos entre paréntesis. Por ejemplo:

In [6]:
# Filtra el DataFrame 'df' seleccionando las filas donde la latitud es mayor a 60 o 
# el número de acres es mayor a un millón, y luego muestra las primeras 3 filas del resultado.


También puedes usar expresiones más complicadas, incluyendo lambdas.

In [7]:
# Filtra el DataFrame 'df' seleccionando las filas donde el nombre del parque 
# ('park_name') se divide en 3 palabras, y luego muestra las primeras 3 filas del resultado.


El comentario explica lo siguiente:

- `df['park_name'].str.split()`: Divide cada valor de la columna 'park_name' en palabras, utilizando el espacio como separador. Esto devuelve una lista de palabras para cada nombre de parque.
- `.apply(lambda x: len(x) == 3)`: Aplica una función lambda que evalúa si la longitud de la lista (el número de palabras) es igual a 3. Devuelve True para las filas cuyo nombre de parque contiene exactamente tres palabras y False en caso contrario.
- `df[...]`: Usa la serie booleana resultante para filtrar el DataFrame df y seleccionar solo las filas donde el nombre del parque contiene tres palabras.
- `.head(3)`: Muestra las primeras tres filas del subconjunto filtrado.








### La expresión `lambda x: len(x) == 3` tiene tres partes principales:

1. **`lambda`**:
   - Es una palabra clave en Python que se utiliza para crear funciones anónimas, es decir, funciones sin nombre. Estas funciones son muy útiles cuando necesitas una función simple y corta, como en este caso.
   
2. **`x`**:
   - Es el parámetro de entrada de la función `lambda`. En este caso, `x` representa cada elemento de la lista de palabras que resulta de dividir el valor de `'park_name'`. Es decir, cada `x` es una lista de palabras (por ejemplo, `['Yellowstone', 'National', 'Park']`).

3. **`len(x) == 3`**:
   - Esta es la expresión que evalúa la función `lambda`. Para cada elemento `x` (que es una lista de palabras), se calcula la longitud con `len(x)`. Si la longitud de la lista es igual a 3, la expresión devuelve `True`, de lo contrario devuelve `False`.

### Resumen de la expresión:

- `lambda x: len(x) == 3`: Crea una función anónima que toma un parámetro `x` (en este caso, una lista de palabras) y devuelve `True` si la longitud de esa lista es 3, o `False` si no lo es.

### Aplicación en el código:

- **`df['park_name'].str.split()`**: Divide cada nombre de parque en palabras.
- **`.apply(lambda x: len(x) == 3)`**: Aplica la función `lambda` a cada lista de palabras obtenida, verificando si el nombre del parque tiene exactamente tres palabras.

In [60]:
def check_three_words(x):
    return len(x) == 3

df[df['park_name'].str.split().apply(check_three_words)].head(3)

Unnamed: 0_level_0,park_name,state,acres,latitude,longitude
Park Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ACAD,Acadia National Park,ME,47390,44.35,-68.21
ARCH,Arches National Park,UT,76519,38.68,-109.57
BADL,Badlands National Park,SD,242756,43.75,-102.5


### Key Companion Methods: `isin` and `isnull`
Estos métodos facilitan y aceleran mucho la realización de algunas tareas muy comunes. Supongamos que queremos encontrar todos los parques de la costa oeste. `isin` hace que eso sea simple:

In [8]:
# Filtra el DataFrame 'df' seleccionando las filas donde el valor de la columna 'state' es 'WA', 'OR' o 'CA', 
# y muestra las primeras 5 filas del resultado.


### Less Common Methods
Pandas ofrece muchos más métodos de indexación. Probablemente deberías ceñirte a algunos de ellos para mantener tu código legible, pero vale la pena saber que existen en caso de que necesites leer el código de otras personas o tengas un caso de uso inusual:

- Hay otras formas de dividir los datos con corchetes. Por razones de legibilidad, por favor, no uses ninguno de ellos.
- `.at` y `.iat`: como `.loc` y `.iloc`, pero mucho más rápidos a cambio de solo funcionar con una sola columna y devolver un solo resultado.
- `.eval`: evaluación rápida de un conjunto limitado de operadores simples. `.query` funciona llamando a esto.
- `.ix`: método obsoleto que intentaba determinar si un índice debía evaluarse con `.loc` o `.iloc`. ¡Esto llevó a muchos errores sutiles! Si ves esto, estás viendo un código antiguo que ya no funcionará.
- `.get`: como `.loc`, pero devolverá un valor predeterminado si la clave no existe en el índice. Solo funciona en una sola columna/serie.
- `.lookup`: No recomendado. Está en la documentación, pero no está claro si esto aún se admite.
- `.mask`: como la indexación booleana, pero devuelve un DataFrame/serie del mismo tamaño que el original y dondequiera que el booleano se evalúe como `True`, se establece en `nan`.
- `.query`: similar a la indexación booleana. Más rápido para DataFrames grandes. Solo admite un conjunto restringido de operaciones; no lo uses si necesitas `isnull()` u otros métodos de DataFrame.
- `.take`: equivalente a `.iloc`, pero puede operar tanto en filas como en columnas.
- `.where`: como la indexación booleana, pero devuelve un DataFrame/serie del mismo tamaño que el original y dondequiera que el booleano se evalúe como `False`, se establece en `nan`.
- [Multi-indexing](http://pandas.pydata.org/pandas-docs/stable/advanced.html): potencialmente útil para conjuntos de datos jerárquicos pequeños a medianos. Lento en conjuntos de datos más grandes.