# Ordenación, selección, filtro y adicion de columnas

In [1]:
import pandas as pd

df = pd.read_csv('data/creditos2.csv')

## Ordenación del DataFrame

Para la ordenación de valores, por columnas, se usa el método .sort_values().

In [None]:
# Sort creditos by Ubicacion de la oficina
df_ofi = df.sort_values('UBICACION_DE_LA_OFICINA')

# Print the top few rows
df_ofi.head()

In [None]:
# Sort creditos by descending monto del prestamo
df_monto = df.sort_values('MONTO_DEL_PRESTAMO', ascending=False)

# Print the top few rows
df_monto.head()

In [None]:
# Sort creditos by Ubicacion de la oficina, then by monto del prestamo  
df_ofi_mon = df.sort_values(['UBICACION_DE_LA_OFICINA', 'MONTO_DEL_PRESTAMO'], ascending=[True, False])

# Print the top few rows
df_ofi_mon.head()

## Selección de columnas en un DataFrame

Para trabajar con un conjunto específico de columnas se usa la notación por corchetes (Similar a un diccionario) y se pasa el nombre o los nombres de columnas escogidas.

In [None]:
# Select the Creation date column
r_creation_d = df['RECORD_CREATION_DATE']

# Print the head of the result
r_creation_d.head()

In [None]:
# Select the state and family_members columns
df_d_ofi_mon = df[['RECORD_CREATION_DATE','UBICACION_DE_LA_OFICINA', 'MONTO_DEL_PRESTAMO']]

# Print the head of the result
df_d_ofi_mon.head()

## Filtro de datos en un DataFrame

Se usa una expresión lógica entre corchetes ([]) para filtrar los registros.

In [None]:
# Filter for rows where monto is greater than 10000
df_gt_10k = df[df['MONTO_DEL_PRESTAMO'] > 10000]

# See the result
df_gt_10k.head()

In [None]:
# Filter for rows where ubicacion is OREGON
df_oregon = df[df['UBICACION_DE_LA_OFICINA'] == 'OREGON']

# See the result
df_oregon.head()

Para conectar expresiones lógicas use los caracteres & y | representando and y or respectivamente.

In [None]:
# Filter for rows where monto is greater than 10000 and ubicacion is ARIZONA
df_lt_10k_ari = df[(df['MONTO_DEL_PRESTAMO'] < 10000) & (df['UBICACION_DE_LA_OFICINA'] == 'ARIZONA')]

# See the result
df_lt_10k_ari.head()

Existen varios método que ayudan a filtrar datos, como por ejemplo: .isin()

In [None]:
# Subset for rows ubicacion in ARIZONA and OREGON
df_ubi2 = df[df['UBICACION_DE_LA_OFICINA'].isin(['ARIZONA', 'OREGON'])]

# See the result
df_ubi2.head()