In [1]:
import csv

# si el dato es un string vacio, retorna 0, si no, intenta convertirlo a float, si falla, retorna el string
def tipo_dato(dato):
  if dato == '':
    return 0
  try:
    return float(dato)
  except ValueError:
    return dato

# se lee el csv y se retorna un diccionario con los datos
def leer_csv():
  with open('./credit_risk_dataset.csv') as f:
    reader = csv.DictReader(f)
    data = {row: [] for row in reader.fieldnames}
    for row in reader:
      for key in row:
        data[key].append(tipo_dato(row[key]))
  return data

# cuenta la cantidad de veces que aparece cada elemento de un array en el array
def frecuencia(arr):
  dic = {}
  for i in arr:
    if i in dic:
      dic[i] += 1
    else:
      dic[i] = 1
  return tuple(dic.items())

# dado un array de numeros, discretizar dicho array en n intervalos
def discretizar(arr, n):
  maximo = max(arr)
  minimo = min(arr)
  rango = maximo - minimo
  intervalo = rango / n
  intervalos = [[(round(minimo + i * intervalo, 3), round(minimo + (i+1) * intervalo, 3)), 0] for i in range(n)]
  for num in arr:
    for i in range(n-1, -1, -1):
      if intervalos[i][0][0] <= num:
        intervalos[i][1] += 1
        break
  return intervalos

#
def percentil_frecuencia(arr, p):
  ordenado = sorted(arr, key=lambda x: x[1])
  if p == 1:
    return ordenado[-1][0]
  pos = len(arr) * p
  return ordenado[int(pos)][0]
  
# devuelve el percentil de un dato en un array discretizado
def percentil_discretizacion(arr, p):
  N = sum(f for _, f in arr)
  w = round(arr[0][0][1] - arr[0][0][0], 3)
  F = F_a = 0 
  for (i, _), f in arr:
    F_a = F
    F += f
    if F >= N * p:
      return i + w * (N * p - F_a) / f


dataset = leer_csv()

person_age = discretizar(dataset['person_age'], 5)
person_income = discretizar(dataset['person_income'], 5)
person_home_ownership = frecuencia(dataset['person_home_ownership'])
person_emp_length = discretizar(dataset['person_emp_length'], 5)
loan_intent = frecuencia(dataset['loan_intent'])
loan_grade = frecuencia(dataset['loan_grade'])
loan_amnt = discretizar(dataset['loan_amnt'], 5)
loan_int_rate = discretizar(dataset['loan_int_rate'], 5)
loan_status = frecuencia(dataset['loan_status'])
loan_percent_income = discretizar(dataset['loan_percent_income'], 5)
cb_person_default_on_file = frecuencia(dataset['cb_person_default_on_file'])
cb_person_cred_hist_length = discretizar(dataset['cb_person_cred_hist_length'], 5)

In [2]:
# ultimo quartil person_age

print(f"El ultimo quartil de la columna person_age es: {percentil_discretizacion(person_age, 0.75)}")

El ultimo quartil de la columna person_age es: 39.0442349391911


El ultimo cuartial de person_age (39.0442349391911), representa que el 75% de los valores de la columna estan por debajo de 39.0442349391911

In [3]:
# percentil 80 de persona_age

print(f"El percentil 80 de la columna person_age es: {percentil_discretizacion(person_age, 0.8)}")

El percentil 80 de la columna person_age es: 40.31385060180384


El percentil 80 de person_age, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 40.31385060180384

In [4]:
# El percentil 80 de person_income

print(f"El percentil 80 de la columna person_income es: {percentil_discretizacion(person_income, 0.8)}")

El percentil 80 de la columna person_income es: 963536.7048349963


El percentil 80 de person_income, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 963536.7048349963

In [5]:
# El percentil 80 de person_home_ownership

print(f"El percentil 80 de la columna person_home_ownership es: {percentil_frecuencia(person_home_ownership, 0.8)}")

El percentil 80 de la columna person_home_ownership es: RENT


El percentil 80 de , representa que en la posicion equivalente al 80% del total de simbolos diferentes en la columna, se encuentra RENT

In [6]:
# El percentil 80 de person_emp_length

print(f"El percentil 80 de la columna person_emp_length es: {percentil_discretizacion(person_emp_length, 0.8)}")

El percentil 80 de la columna person_emp_length es: 19.70055857682736


El percentil 80 de person_emp_length, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 19.70055857682736

In [7]:
# El percentil 80 de loan_intent

print(f"El percentil 80 de la columna loan_intent es: {percentil_frecuencia(loan_intent, 0.8)}")

El percentil 80 de la columna loan_intent es: MEDICAL


El percentil 80 de loan_intent, representa que en la posicion equivalente al 80% del total de simbolos diferentes en la columna, se encuentra MEDICAL

In [8]:
# El percentil 80 de loan_grade

print(f"El percentil 80 de la columna loan_grade es: {percentil_frecuencia(loan_grade, 0.8)}")

El percentil 80 de la columna loan_grade es: B


El percentil 80 de loan_grade, representa que en la posicion equivalente al 80% del total de simbolos diferentes en la columna, se encuentra B

In [9]:
# El percentil 80 de loan_amnt

print(f"El percentil 80 de la columna loan_amnt es: {percentil_discretizacion(loan_amnt, 0.8)}")

El percentil 80 de la columna loan_amnt es: 14611.974973931183


El percentil 80 de loan_amnt, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 14611.974973931183

In [10]:
# El percentil 80 de loan_int_rate

print(f"El percentil 80 de la columna loan_int_rate es: {percentil_discretizacion(loan_int_rate, 0.8)}")

El percentil 80 de la columna loan_int_rate es: 13.715716868419168


El percentil 80 de loan_int_rate, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 13.715716868419168

In [11]:
# El percentil 80 de loan_status

print(f"El percentil 80 de la columna loan_status es: {percentil_frecuencia(loan_status, 0.8)}")

El percentil 80 de la columna loan_status es: 0.0


El percentil 80 de loan_status, representa que en la posicion equivalente al 80% del total de simbolos diferentes en la columna, se encuentra 0

In [12]:
# El percentil 80 de loan_percent_income

print(f"El percentil 80 de la columna loan_percent_income es: {percentil_discretizacion(loan_percent_income, 0.8)}")

El percentil 80 de la columna loan_percent_income es: 0.27743179310344834


El percentil 80 de loan_percent_income, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 0.27743179310344834

In [13]:
# El percentil 80 de cb_person_default_on_file

print(f"El percentil 80 de la columna cb_person_default_on_file es: {percentil_frecuencia(cb_person_default_on_file, 0.8)}")

El percentil 80 de la columna cb_person_default_on_file es: N


El percentil 80 de cb_person_default_on_file, representa que en la posicion equivalente al 80% del total de simbolos diferentes en la columna, se encuentra N

In [14]:
# El percentil 80 de cb_person_cred_hist_length

print(f"El percentil 80 de la columna cb_person_cred_hist_length es: {percentil_discretizacion(cb_person_cred_hist_length, 0.8)}")

El percentil 80 de la columna cb_person_cred_hist_length es: 9.663040636544475


El percentil 80 de cb_person_cred_hist_length, representa que el 80% de los valores de la columna estan por debajo del valor hallado, el cual es: 9.663040636544475