# Funciones de agregación
## Media, Mediana, Máximos y Mínimos

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('data/creditos2.csv')

df['FECHA'] = df.RECORD_CREATION_DATE.str.slice(0, 10)
df['FECHA'] = pd.to_datetime(df['FECHA'])

# Print the head of the sales DataFrame
df.head()

In [None]:
# Print the info about the sales DataFrame
df.info()

El método .mean() calcula la media de los valores de una o varias columnas.

In [None]:
'Monto del Prestamo (Mean): {}'.format(df['MONTO_DEL_PRESTAMO'].mean())

El método .median() retorna la mediana entre los valores de una o varias columna.

In [None]:
# Print the median of MONTO_DEL_PRESTAMO
'Monto del Prestamo (Median): {}'.format(df['MONTO_DEL_PRESTAMO'].median())

El método .max() retorna el valor máximo entre los valores de una o mas columnas.

In [None]:
# Print the maximum of the FECHA column
'Fecha Maxima: {}'.format(df['FECHA'].max())

El método .min() hace lo opuesto al método .max().

In [None]:
'Fecha Minima: {}'.format(df['FECHA'].min())

## Funciones personalizadas y agregación múltiple

Se pueden crear funciones personalizadas y usarlas como funciones de agregación con el método .agg().

In [None]:
# A custom IQR (interquartile) function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
 
# Print IQR of the MONTO_DEL_PRESTAMO column
'Monto del Prestamo IQR: {}'.format(df['MONTO_DEL_PRESTAMO'].agg(iqr))

Para aplicar varias funciones de agregación se usa .agg() y se pasa la lista de los métodos a aplicar.

In [None]:
# Update to print IQR and median of MONTO_DEL_PRESTAMO
df['MONTO_DEL_PRESTAMO'].agg([iqr, np.median])

## Funciones acumulativas

Los métodos .cumsum() y .cummax() aplican valores acumulativos sobre una columna.

In [None]:
# Sort df by FECHA
df_fecha = df.sort_values('FECHA')

monto_no_incumplido = df_fecha[df_fecha['PRESTAMO_INCUMPLIDO'] == 'FALSO']['MONTO_DEL_PRESTAMO'].sum()
'Total prestamos no imcumplidos: {}'.format(monto_no_incumplido)

In [None]:
# Get the cumulative sum of MONTO_DEL_PRESTAMO, add as CUM_MONTO_PRESTAMO col
df_fecha['CUM_MONTO_PRESTAMO'] = df_fecha['MONTO_DEL_PRESTAMO'].cumsum()

# Get the cumulative max of MONTO_DEL_PRESTAMO, add as CUM_MAX_PRESTAMO col
df_fecha['CUM_MAX_PRESTAMO'] = df_fecha['MONTO_DEL_PRESTAMO'].cummax()

# See the columns you calculated
df_fecha[["FECHA", "MONTO_DEL_PRESTAMO", "CUM_MONTO_PRESTAMO", "CUM_MAX_PRESTAMO"]].head()

## Eliminar duplicados

Para eliminar valores duplicados en una o mas columnas se usa .drop_duplicates().

In [None]:
# Drop duplicate PRESTAMO_INCUMPLIDO combinations
df_no_incumplido = df.drop_duplicates(subset='PRESTAMO_INCUMPLIDO')
df_no_incumplido.info()

In [None]:
# Drop duplicate DEUDA_EXISTENTE/NOTAS_DEL_AGENTE combinations
df_no_notas = df.drop_duplicates(subset=['DEUDA_EXISTENTE', 'NOTAS_DEL_AGENTE'])
df_no_notas.info()

In [None]:
incumplidos_v = df['PRESTAMO_INCUMPLIDO'] == 'VERDADERO'

# Subset the rows that PRESTAMO_INCUMPLIDO are VERDADERO and drop duplicate DEUDA_EXISTENTE
df_deuda_existente = df[incumplidos_v].drop_duplicates(subset='DEUDA_EXISTENTE')
df_deuda_existente[['RECORD_CREATION_DATE', 'MONTO_DEL_PRESTAMO', 'DEUDA_EXISTENTE']]

## Conteo de valores únicos

Con el método .value_counts() se puede identificar la cantidad de valores únicos de una columna. Ideal para columnas de tipo category.

In [None]:
# Count the number of records by PRESTAMO_INCUMPLIDO 
deuda_e_counts = df_deuda_existente['PRESTAMO_INCUMPLIDO'].value_counts()
deuda_e_counts

In [None]:
# Get the proportion of records of each PRESTAMO_INCUMPLIDO 
deuda_proportion = df_deuda_existente['PRESTAMO_INCUMPLIDO'].value_counts(normalize=True)
deuda_proportion

In [None]:
# Count the number of each DEUDA_EXISTENTE number and sort
deuda_count = df_no_notas['DEUDA_EXISTENTE'].value_counts(sort=True)
deuda_count

In [None]:
# Get the proportion of DEUDA_EXISTENTE of each number and sort
deuda_props_count = df_no_notas['DEUDA_EXISTENTE'].value_counts(sort=True, normalize=True)
deuda_props_count