# Lectura 25: DataFrame - Manipulación y selección I

In [None]:
import polars as pl

vuelos = pl.read_parquet('./data/', use_pyarrow=True)

display(vuelos)

### Retornar los k elementos más pequeños

La función `botton_k` retorna los k elementos más pequeños del DataFrame. Le podemos indicar la cantidad de elementos que deseamos mostrar y por cual columna ordenar para obtener el resultado.

In [None]:
vuelos.bottom_k(5, by='DISTANCE', nulls_last=True)

Podemos cambiar el orden con el parámetro `descending=True`

In [None]:
vuelos.bottom_k(5, by='DEPARTURE_DELAY', descending=True, nulls_last=True)

Podemos incluso ordenar por más de una columna y en ese caso le debemos pasar al parámetro `by` una lista con los nombres de las columnas.

In [None]:
vuelos.bottom_k(10, by=['DISTANCE', 'AIR_TIME'], nulls_last=True)

### Eliminar columnas del DataFrame

La función `drop` elimina la(s) columna(s) seleccionada(s) y devuelve un nuevo DataFrame.

In [None]:
vuelos.drop('WEATHER_DELAY')

vuelos.drop(['WEATHER_DELAY', 'LATE_AIRCRAFT_DELAY'])

La función `drop_in_place` elimina la columna seleccionada y retorna la columna eliminada. Tenga en cuenta que esta opción si cambia el DataFrame al cual se le aplica esta función.

In [None]:
vuelos.drop_in_place('WEATHER_DELAY')

display(vuelos)

### Eliminar todas las filas que contengan valores nulos

In [None]:
vuelos.height

profesores.drop_nulls()

Esta es la forma más sencilla de utilizar esta función, pero existen formas más avanzadas con las cuales podríamos por ejemplo borrar solo aquellas filas donde exista un nulo en las columnas de tipo enteras. Veamos un ejemplo.

In [None]:
import polars.selectors as cs

vuelos.drop_nulls(
    subset=cs.integer()
)

Este tipo de ejemplos y otros los pueden consultar en la documentación de Polars si desean profundizar en el tema.

[Ver ejemplos más avanzados](https://pola-rs.github.io/polars/py-polars/html/reference/dataframe/api/polars.DataFrame.drop_nulls.html#polars.DataFrame.drop_nulls)

### Rellenar valores nulos

La forma más sencilla de rellenar los valores nulos es proporcionarle a la función `fill_null` el valor con el cual deseamos rellenar los nulos.

In [None]:
vuelos.fill_null(-99)

En caso de que deseemos emplear una estrategia en particular para rellenar los nulos podemos usar el parámetro `strategy` el cual puede tomar los siguientes valores `None, ‘forward’, ‘backward’, ‘min’, ‘max’, ‘mean’, ‘zero’, ‘one’`. Por ejemplo, rellenemos los nulos con el máximo de las columnas.

In [None]:
vuelos.fill_null(strategy='max')

De igual forma para más detalles sobre esta función pueden consultar la documentación.

[Consultar documentación](https://pola-rs.github.io/polars/py-polars/html/reference/dataframe/api/polars.DataFrame.fill_null.html#polars.DataFrame.fill_null)

### Filtrar un DataFrame

In [None]:
from polars import col

vuelos.filter(col('MONTH') > 10)

vuelos.filter((col('DAY') > 15) & (col('AIRLINE').str.starts_with('A')))

vuelos.filter((col('MONTH') > 7) | (col('AIRLINE').str.starts_with('D')))

### Trabajo con columnas

#### Obtener una columna por nombre

In [None]:
vuelos.get_column('MONTH')

#### Obtener el índice de una columna por nombre

In [None]:
vuelos.get_column_index('MONTH')

#### Insertar una Serie en cierto índice de columna

La función `insert_column` inserta una Serie en el número de índice de columna proporcionado y modifica "in-place" el DataFrame.

In [None]:
p = pl.Series('index', [item for item in range(5819079)])

vuelos.insert_column(0, p)

#### Obtener el nombre de las columnas del DataFrame

In [None]:
[item.name for item in vuelos.iter_columns()]