<a href="https://colab.research.google.com/github/awildt01/Airbnb_Berlin-/blob/main/notebooks/1_data_cleaning_understanding_Lending_Club_Credit_Scoring.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

https://github.com/allmeidaapedro/Lending-Club-Credit-Scoring

# Lending Club Kreditrisikomodellierung

- In diesem Projekt werde ich drei **Machine Learning-Modelle** entwickeln, um die drei Komponenten des erwarteten Verlusts im Kontext der Kreditrisikomodellierung beim Lending Club (einem Peer-to-Peer-Kreditunternehmen) vorherzusagen: Ausfallwahrscheinlichkeit **(Probability of Default, PD)**, Kreditauslastung bei Ausfall **(Exposure at Default, EAD)** und Verlustquote bei Ausfall **(Loss Given Default, LGD)**. Der erwartete Verlust berechnet sich als Produkt dieser Elemente: **Erwarteter Verlust (EL) = PD * EAD * LGD.**

- Diese Modelle werden verwendet, um eine Kreditrichtlinie festzulegen und zu entscheiden, ob neuen Antragstellern basierend auf ihren Kreditbewertungen und den erwarteten Verlusten ein Kredit gewährt wird (Antragsmodell). Durch die Schätzung des **erwarteten Verlusts (EL)** für jedes Darlehen kann der Lending Club außerdem den notwendigen Kapitalbestand bewerten, um sich gegen Zahlungsausfälle abzusichern.

- **Das PD-Modell**ist ein unausgeglichenes binäres Klassifikationsproblem, bei dem das Ziel 1 für Nichtausfall und 0 für Ausfall (Minderheitenklasse) ist. Hierfür wird ein logistisches Regressionsmodell entwickelt.

- **Das LGD- und EAD-Modell** stellt ein Beta-Regressionsproblem dar, d. h. eine Regressionsaufgabe, bei der die abhängigen Variablen einer Beta-Verteilung folgen: **die Rückgewinnungsrate und der Kreditumwandlungsfaktor**.

Die Lösungsstrategie basiert auf dem **CRISP-DM-Framework:**

1.  Geschäftliches Verständnis

2. Datenverständnis

3. Datenvorbereitung

4. Modellierung

5. Validierung

**Einsatz**

Im Folgenden werde ich Informationen über das Unternehmen, das **Geschäftsproblem, die Projektziele** und -vorteile sowie einige wichtige Konzepte vorstellen, die für das Verständnis von Kreditrisiken relevant sind.

##  Lending Club
- Was ist der Lending Club?

    - LendingClub ist eine Peer-to-Peer-Kreditplattform, die es Privatpersonen ermöglicht, direkt untereinander Geld zu verleihen und zu leihen – ohne traditionelle Finanzinstitute wie Banken. Die Plattform fungiert als Online-Marktplatz, der Kreditnehmer mit Investoren verbindet, die bereit sind, Kredite zu finanzieren.

## Geschäftsproblem: Verwaltung von Ausfallrisiken und Optimierung der Renditen

**- Was ist das Geschäftsproblem?**

   - LendingClub steht vor der Herausforderung, Ausfallrisiken effektiv zu managen und gleichzeitig die Renditen für Investoren zu optimieren. Die Plattform ermöglicht Peer-to-Peer-Kredite, indem sie Kreditnehmer mit Investoren verbindet. Dabei ist sie auf präzise Risikobewertungen angewiesen, um ein nachhaltiges und profitables Kreditgeschäft aufrechtzuerhalten.

- Der CEO möchte daher Erkenntnisse darüber gewinnen, welche Faktoren mit dem Kreditrisiko zusammenhängen, und Modelle entwickeln, die die Wahrscheinlichkeit eines Zahlungsausfalls für neue Antragsteller sowie mögliche Verluste aus Krediten vorhersagen. Diese Modelle sollen dabei helfen, eine Kreditrichtlinie festzulegen, die entscheidet, wann ein Kredit genehmigt oder abgelehnt wird.

- Eine wichtige Anforderung des CEOs ist, dass die Modelle leicht verständlich sein müssen. Da unser Unternehmen im Internet tätig ist, sind Transparenz und Kundenzufriedenheit entscheidend. Deshalb müssen wir erklären können, warum ein Kredit genehmigt oder abgelehnt wird.

**- Welche Ziele und Vorteile hat das Projekt?**

1. Identifizierung der Faktoren, die mit dem Kreditrisiko zusammenhängen, in Form von geschäftlichen Erkenntnissen.

2. Entwicklung eines präzisen **Probability of Default (PD) Modells** einschließlich einer Scorecard. Dies ermöglicht es LendingClub, zu entscheiden, ob ein Kredit an einen neuen Antragsteller vergeben wird (Antragsmodell) – basierend auf Kreditbewertungen.

3. Entwicklung von **Exposure at Default (EAD)und Loss Given Default (LGD Modellen, um den erwarteten Verlust (Expected Loss, EL)** für Kredite zu schätzen. Dadurch kann LendingClub genügend Kapital vorhalten, um sich gegen Zahlungsausfälle abzusichern.

4. Verbesserung des Risikomanagements und Optimierung der Renditen, indem eine Kreditrichtlinie auf Basis der Ergebnisse der drei Modelle sowie des erwarteten Verlusts etabliert wird – mit dem Ziel, ein Gleichgewicht zwischen Risiko und **Kapitalrendite (ROI)** zu finden.

5. Anwendung von Modellüberwachung und -wartung, um sicherzustellen, dass die entwickelten Modelle auch in Zukunft zuverlässig funktionieren. Falls sich die Merkmale der Kreditnehmer stark verändern, können wir so frühzeitig erkennen, ob eine Neuentwicklung der Modelle erforderlich ist.

## Konzepte des Kreditrisikomodells: Der Kontext des Problems

- **Finanzinstitute,** wie LendingClub und andere Online-Kreditplattformen, **verdienen Geld, indem sie Kredite an Privatpersonen und Unternehmen vergeben.** Dabei erheben sie Zinsen, die eine wesentliche Quelle ihres Profits darstellen. Ein gutes Kreditrisikomanagement ist entscheidend für diese Institute, da es sicherstellt, dass Kreditnehmer ihre Kredite pünktlich zurückzahlen und Verluste vermieden werden.

- **Kreditrisiko** bezeichnet die Möglichkeit, dass ein Kreditnehmer seinen finanziellen Verpflichtungen nicht nachkommt, was zu einem Verlust für den Kreditgeber führt. Wenn ein Kreditnehmer die vereinbarten Bedingungen nicht einhält, spricht man von einem "Zahlungsausfall" (Default), der finanzielle Verluste für den Kreditgeber nach sich ziehen kann. Die Definition von Zahlungsausfall hängt von einem bestimmten Zeithorizont ab. Beispielsweise gilt ein Kreditnehmer als in Zahlungsverzug, wenn er seine Schulden 90 Tage nach Fälligkeit nicht beglichen hat.

- **Im Kreditmarkt** gibt es wichtige **Regulierungen**, die Fairness und Transparenz gewährleisten. **Basel III** ist eine dieser Vorschriften und stellt sicher, dass Banken ausreichend Kapital halten (Kapitalanforderungen) und **Richtlinien zur Bewertung** von Kreditrisiken befolgen. Der Internal **Rating-Based Approach (IRB-A) ermöglicht** es Banken, Kreditrisiken anhand von Konzepten wie **Probability of Default (PD), Exposure at Default (EAD) und Loss Given Default (LGD) selbst zu bewerten**. Eine weitere wichtige Regelung ist der International **Financial Reporting Standard 9 (IFRS 9)**, der Standards zur Bewertung finanzieller Vermögenswerte definiert. **IFRS 9 ist besonders, weil er das Ausfallrisiko eines Kredits über dessen gesamte Laufzeit betrachtet, während Basel III es nur für ein Jahr bewertet**. Diese Vorschriften helfen Banken, ausreichend Kapital zu halten, Risiken effektiv zu managen und den Kreditmarkt stabil und vertrauenswürdig zu gestalten.

- Der **"erwartete Verlust (Expected Loss, EL)"** ist der durchschnittlich geschätzte Verlust, den ein Kreditgeber durch Kreditausfälle erwarten kann. Er setzt sich aus drei Faktoren zusammen:

  **1. Probability of Default (PD)**– die Wahrscheinlichkeit, dass ein Kreditnehmer in Verzug gerät.

  **2. Loss Given Default (LGD)** – der Anteil der offenen Kreditsumme, der bei einem Zahlungsausfall nicht wiederhergestellt werden kann.

  **3. Exposure at Default (EAD)** – der potenzielle Verlust zum Zeitpunkt des Zahlungsausfalls, basierend auf der offenen Kreditsumme und weiteren Faktoren.

- LendingClub, als Peer-to-Peer-Kreditplattform, nutzt ein "PD-Modell / Kredit-Scoring-Modell", um die Kreditwürdigkeit von Kreditnehmern anhand ihrer Kredit-Scores zu bewerten. Dies hilft dabei, die Wahrscheinlichkeit einer Rückzahlung abzuschätzen und zu entscheiden, ob ein Kredit genehmigt oder abgelehnt wird. Das für jeden Kredit notwendige Kapital zur Absicherung gegen Zahlungsausfälle wird durch die EAD- und LGD-Modelle berechnet, um den erwarteten Verlust (EL) zu schätzen und das Risiko im Kreditgeschäft zu minimieren.

- Bei der Erstellung eines Kredit-Scoring-Modells, das die Kreditwürdigkeit für die Kreditvergabe bewertet, basiert die Analyse auf den zum Zeitpunkt der Kreditanfrage verfügbaren Daten. Dies wird als "Antragsmodell" (Application Model) bezeichnet und unterscheidet sich von einem **"Verhaltensmodell" (Behavior Model). Das Modell, das ich hier entwickle, ist ein Application Model**.

- Eine "Kreditrichtlinie" ist eine Sammlung von Richtlinien, die Finanzinstitute zur Bewertung und Verwaltung von Kreditrisiken verwenden. Dabei werden Faktoren wie die erwartete **Kapitalrendite (ROI)** für jede Kreditanfrage, Kredit-Scores, Risikoklassen, erwartete Verluste und weitere relevante Parameter berücksichtigt.

- **"Return on Investment (ROI)"** ist eine zentrale Kennzahl zur Bewertung der Rentabilität eines Kredits. Die Balance zwischen ROI und Risiko ist essenziell für eine effektive Verwaltung der Kreditrichtlinien. Kredite mit höherem Risiko können zwar potenziell höhere Renditen bringen, bergen aber auch ein größeres Ausfallrisiko.

In diesem Notebook beabsichtige ich, eine erste Datenexploration und Datenbereinigung durchzuführen. Dies ist ein notwendiger Schritt, um die Daten zu analysieren und anschließend robuste Modelle zu erstellen. Diese Phase umfasst die ersten beiden Schritte des CRISP-DM-Frameworks.

Das Ziel ist es:

- Merkmale in die richtigen **Datentypen zu konvertieren**, um eine korrekte Verarbeitung und Analyse sicherzustellen.

- Nicht nützliche Variablen zu identifizieren und zu entfernen, um die Datenmenge zu reduzieren und die Rechenleistung zu optimieren.

- **Fehlende Werte, Duplikate und Ausreißer** zu erkennen und zu behandeln, um Verzerrungen und Fehler in der Analyse zu vermeiden.

- **Neue relevante Variablen zu erstellen**, die zusätzliche Informationen liefern und die Modellleistung verbessern können.

- **Die Zielvariablen zu definieren**, um eine klare Grundlage für die Modellierung zu schaffen.

- Ein speichereffizientes, **bereinigtes Datenset** zu erhalten, das eine schnellere und effizientere Analyse ermöglicht.

Abschließend wird die Begründung hinter jeder getroffenen Entscheidung im Detail erklärt.

### 1.0 Import the libraries

In [11]:
# Data manipulation and visualization.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Display options.
pd.set_option('display.max_rows', None)
pd.set_option('display.max_info_rows', 100)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Filter warnings.
import warnings
warnings.filterwarnings('ignore')

### 1.1 Datenverständnis
- Die Daten wurden von Kaggle gesammelt und enthalten vollständige Kreditdaten für alle Kredite, die zwischen 2007 und 2015 vergeben wurden, einschließlich des aktuellen Kreditstatus (z. B. „Aktuell“, „Überfällig“, „Vollständig zurückgezahlt“ usw.) sowie der neuesten Zahlungsinformationen.

- Dies umfasst Verbraucherkredite, wie oben in den Dienstleistungen von Lending Club beschrieben, und beinhaltet die zum Zeitpunkt der Antragstellung verfügbaren Daten. Daher werden sie zur Erstellung eines Antragsmodells verwendet.

- In diesem Schritt beabsichtige ich, eine erste Analyse der Daten durchzuführen, z. B. die Dimensionen des Datensatzes zu bewerten, die Datentypen der Merkmale zu überprüfen, fehlende und doppelte Werte zu identifizieren sowie zwischen kategorialen und numerischen Variablen zu unterscheiden.

In [18]:
path = '/content/loan_data_2007_2014 (1).csv'

# Load Data
loan_data_backup = pd.read_csv(path)

# Copy Dataset
loan_data = loan_data_backup.copy()

In [19]:
loan_data.head()

Unnamed: 0.1,Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,emp_title,emp_length,home_ownership,annual_inc,verification_status,issue_d,loan_status,pymnt_plan,url,desc,purpose,title,zip_code,addr_state,dti,delinq_2yrs,earliest_cr_line,inq_last_6mths,mths_since_last_delinq,mths_since_last_record,open_acc,pub_rec,revol_bal,revol_util,total_acc,initial_list_status,out_prncp,out_prncp_inv,total_pymnt,total_pymnt_inv,total_rec_prncp,total_rec_int,total_rec_late_fee,recoveries,collection_recovery_fee,last_pymnt_d,last_pymnt_amnt,next_pymnt_d,last_credit_pull_d,collections_12_mths_ex_med,mths_since_last_major_derog,policy_code,application_type,annual_inc_joint,dti_joint,verification_status_joint,acc_now_delinq,tot_coll_amt,tot_cur_bal,open_acc_6m,open_il_6m,open_il_12m,open_il_24m,mths_since_rcnt_il,total_bal_il,il_util,open_rv_12m,open_rv_24m,max_bal_bc,all_util,total_rev_hi_lim,inq_fi,total_cu_tl,inq_last_12m
0,0,1077501,1296599,5000,5000,4975.0,36 months,10.65,162.87,B,B2,,10+ years,RENT,24000.0,Verified,Dec-11,Fully Paid,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/22/11 > I need to upgra...,credit_card,Computer,860xx,AZ,27.65,0.0,Jan-85,1.0,,,3.0,0.0,13648,83.7,9.0,f,0.0,0.0,5861.071414,5831.78,5000.0,861.07,0.0,0.0,0.0,Jan-15,171.62,,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,,,,,,,,,,,,,,,,,
1,1,1077430,1314167,2500,2500,2500.0,60 months,15.27,59.83,C,C4,Ryder,< 1 year,RENT,30000.0,Source Verified,Dec-11,Charged Off,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/22/11 > I plan to use t...,car,bike,309xx,GA,1.0,0.0,Apr-99,5.0,,,3.0,0.0,1687,9.4,4.0,f,0.0,0.0,1008.71,1008.71,456.46,435.17,0.0,117.08,1.11,Apr-13,119.66,,Sep-13,0.0,,1,INDIVIDUAL,,,,0.0,,,,,,,,,,,,,,,,,
2,2,1077175,1313524,2400,2400,2400.0,36 months,15.96,84.33,C,C5,,10+ years,RENT,12252.0,Not Verified,Dec-11,Fully Paid,n,https://www.lendingclub.com/browse/loanDetail....,,small_business,real estate business,606xx,IL,8.72,0.0,Nov-01,2.0,,,2.0,0.0,2956,98.5,10.0,f,0.0,0.0,3003.653644,3003.65,2400.0,603.65,0.0,0.0,0.0,Jun-14,649.91,,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,,,,,,,,,,,,,,,,,
3,3,1076863,1277178,10000,10000,10000.0,36 months,13.49,339.31,C,C1,AIR RESOURCES BOARD,10+ years,RENT,49200.0,Source Verified,Dec-11,Fully Paid,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/21/11 > to pay for prop...,other,personel,917xx,CA,20.0,0.0,Feb-96,1.0,35.0,,10.0,0.0,5598,21.0,37.0,f,0.0,0.0,12226.30221,12226.3,10000.0,2209.33,16.97,0.0,0.0,Jan-15,357.48,,Jan-15,0.0,,1,INDIVIDUAL,,,,0.0,,,,,,,,,,,,,,,,,
4,4,1075358,1311748,3000,3000,3000.0,60 months,12.69,67.79,B,B5,University Medical Group,1 year,RENT,80000.0,Source Verified,Dec-11,Current,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/21/11 > I plan on combi...,other,Personal,972xx,OR,17.94,0.0,Jan-96,0.0,38.0,,15.0,0.0,27783,53.9,38.0,f,766.9,766.9,3242.17,3242.17,2233.1,1009.07,0.0,0.0,0.0,Jan-16,67.79,Feb-16,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,,,,,,,,,,,,,,,,,


In [20]:
loan_data.tail()

Unnamed: 0.1,Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,emp_title,emp_length,home_ownership,annual_inc,verification_status,issue_d,loan_status,pymnt_plan,url,desc,purpose,title,zip_code,addr_state,dti,delinq_2yrs,earliest_cr_line,inq_last_6mths,mths_since_last_delinq,mths_since_last_record,open_acc,pub_rec,revol_bal,revol_util,total_acc,initial_list_status,out_prncp,out_prncp_inv,total_pymnt,total_pymnt_inv,total_rec_prncp,total_rec_int,total_rec_late_fee,recoveries,collection_recovery_fee,last_pymnt_d,last_pymnt_amnt,next_pymnt_d,last_credit_pull_d,collections_12_mths_ex_med,mths_since_last_major_derog,policy_code,application_type,annual_inc_joint,dti_joint,verification_status_joint,acc_now_delinq,tot_coll_amt,tot_cur_bal,open_acc_6m,open_il_6m,open_il_12m,open_il_24m,mths_since_rcnt_il,total_bal_il,il_util,open_rv_12m,open_rv_24m,max_bal_bc,all_util,total_rev_hi_lim,inq_fi,total_cu_tl,inq_last_12m
466280,466280,8598660,1440975,18400,18400,18400.0,60 months,14.47,432.64,C,C2,Financial Advisor,4 years,MORTGAGE,110000.0,Source Verified,Jan-14,Current,n,https://www.lendingclub.com/browse/loanDetail....,,debt_consolidation,Debt consolidation,773xx,TX,19.85,0.0,Apr-03,2.0,,,18.0,0.0,23208,77.6,36.0,w,12574.0,12574.0,10383.36,10383.36,5826.0,4557.36,0.0,0.0,0.0,Jan-16,432.64,Feb-16,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,0.0,294998.0,,,,,,,,,,,,29900.0,,,
466281,466281,9684700,11536848,22000,22000,22000.0,60 months,19.97,582.5,D,D5,Chief of Interpretation (Park Ranger),10+ years,MORTGAGE,78000.0,Verified,Jan-14,Charged Off,n,https://www.lendingclub.com/browse/loanDetail....,,debt_consolidation,Debt consolidation,377xx,TN,18.45,0.0,Jun-97,5.0,,116.0,18.0,1.0,18238,46.3,30.0,f,0.0,0.0,4677.92,4677.92,1837.04,2840.88,0.0,0.0,0.0,Dec-14,17.5,,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,0.0,221830.0,,,,,,,,,,,,39400.0,,,
466282,466282,9584776,11436914,20700,20700,20700.0,60 months,16.99,514.34,D,D1,patrol,7 years,MORTGAGE,46000.0,Verified,Jan-14,Current,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/06/13 > I am going to c...,debt_consolidation,Debt consolidation,458xx,OH,25.65,0.0,Dec-01,2.0,65.0,,18.0,0.0,6688,51.1,43.0,f,14428.31,14428.31,12343.98,12343.98,6271.69,6072.29,0.0,0.0,0.0,Jan-16,514.34,Feb-16,Dec-15,0.0,,1,INDIVIDUAL,,,,0.0,0.0,73598.0,,,,,,,,,,,,13100.0,,,
466283,466283,9604874,11457002,2000,2000,2000.0,36 months,7.9,62.59,A,A4,Server Engineer Lead,3 years,OWN,83000.0,Verified,Jan-14,Fully Paid,n,https://www.lendingclub.com/browse/loanDetail....,,credit_card,Credit card refinancing,913xx,CA,5.39,3.0,Feb-03,1.0,13.0,,21.0,0.0,11404,21.5,27.0,w,0.0,0.0,2126.579838,2126.58,2000.0,126.58,0.0,0.0,0.0,Dec-14,1500.68,,Apr-15,0.0,,1,INDIVIDUAL,,,,0.0,0.0,591610.0,,,,,,,,,,,,53100.0,,,
466284,466284,9199665,11061576,10000,10000,9975.0,36 months,19.2,367.58,D,D3,,10+ years,MORTGAGE,46000.0,Verified,Jan-14,Current,n,https://www.lendingclub.com/browse/loanDetail....,Borrower added on 12/04/13 > I will like a l...,other,Other,950xx,CA,22.78,1.0,Feb-00,0.0,9.0,,6.0,0.0,11325,70.8,22.0,f,3984.38,3974.41,8821.62,8799.57,6015.62,2806.0,0.0,0.0,0.0,Jan-16,367.58,Feb-16,Jan-16,0.0,,1,INDIVIDUAL,,,,0.0,0.0,57477.0,,,,,,,,,,,,16000.0,,,


- Im Kontext von Krediten ist es wichtig, einen Out-of-Time-Split anstelle eines Out-of-Sample-Splits zu verwenden, da wir verstehen möchten, wie gut das mit vergangenen Daten trainierte Modell die Kreditausfälle zukünftiger Antragsteller vorhersagen kann. Daher werde ich die Daten zunächst chronologisch sortieren, um eine zeitliche Reihenfolge für die Kreditdaten sicherzustellen.

### 1.2 Datenwörterbuch
Unten findest du Informationen zur Bedeutung jeder Variable im Datensatz.

- **addr_state:** Der vom Kreditnehmer im Kreditantrag angegebene Bundesstaat.

- **annual_inc: **Das vom Kreditnehmer bei der Registrierung selbst angegebene Jahreseinkommen.

- **annual_inc_joint:** Das kombinierte, selbst angegebene Jahreseinkommen der Mitantragsteller bei der Registrierung.

- **application_type:** Gibt an, ob der Kredit als Einzelantrag oder als gemeinsamer Antrag mit zwei Kreditnehmern gestellt wurde.

- **collection_recovery_fee:** Inkassogebühr nach einer Abschreibung.

- **collections_12_mths_ex_med:** Anzahl der Inkassovorgänge in den letzten 12 Monaten, ohne medizinische Inkassofälle.

- **delinq_2yrs:** Anzahl der Verzugsvorfälle von mehr als 30 Tagen im Kreditbericht des Kreditnehmers in den letzten zwei Jahren.

- **desc:** Vom Kreditnehmer angegebene Beschreibung des Kredits.

- **dti:** Schulden-Einkommens-Quote, berechnet aus den monatlichen Gesamtverpflichtungen des Kreditnehmers (ohne Hypothek und angeforderten LC-Kredit) geteilt durch das selbst gemeldete monatliche Einkommen.

- **dti_joint:** Schulden-Einkommens-Quote für gemeinsame Anträge, berechnet aus den monatlichen Gesamtverpflichtungen der Mitantragsteller (ohne Hypothek und angeforderten LC-Kredit) geteilt durch das kombinierte selbst gemeldete monatliche Einkommen.

- **earliest_cr_line:** Der Monat, in dem die früheste Kreditlinie des Kreditnehmers eröffnet wurde.

- **emp_length:** Dauer der Beschäftigung in Jahren. Werte liegen zwischen 0 und 10, wobei 0 weniger als ein Jahr und 10 zehn oder mehr Jahre bedeutet.

- **emp_title:** Die vom Kreditnehmer im Kreditantrag angegebene Berufsbezeichnung.

- **fico_range_high:** Oberer Bereich der FICO-Bewertung des Kreditnehmers bei Kreditvergabe.

- **fico_range_low:** Unterer Bereich der FICO-Bewertung des Kreditnehmers bei Kreditvergabe.

- **funded_amnt:** Der zu diesem Zeitpunkt für den Kredit zugesagte Gesamtbetrag.

- **funded_amnt_inv:** Der zu diesem Zeitpunkt von Investoren für den Kredit zugesagte Gesamtbetrag.

- **grade:** Von LendingClub vergebene Kreditbewertung.

- **home_ownership:** Der vom Kreditnehmer bei der Registrierung angegebene Wohnstatus (Miete, Eigentum, Hypothek, Sonstiges).

- **id:** Eindeutige von LC vergebene ID für das Kreditangebot.

- **initial_list_status:** Ursprünglicher Listenstatus des Kredits (W, F).

- **inq_last_6mths:** Anzahl der Kreditanfragen in den letzten sechs Monaten (ohne Auto- und Hypothekenanfragen).

- **installment:** Monatliche Zahlung, die der Kreditnehmer bei Kreditvergabe leisten muss.

- **int_rate:** Zinssatz des Kredits.

- **is_inc_v:** Gibt an, ob das Einkommen von LC verifiziert, nicht verifiziert oder die Einkommensquelle geprüft wurde.

- **issue_d:** Monat, in dem der Kredit finanziert wurde.

- **last_credit_pull_d:** Letzter Monat, in dem LC eine Bonitätsprüfung für diesen Kredit durchgeführt hat.

- **last_fico_range_high:** Oberer Bereich der zuletzt von LC abgerufenen FICO-Bewertung des Kreditnehmers.

- **last_fico_range_low:** Unterer Bereich der zuletzt von LC abgerufenen FICO-Bewertung des Kreditnehmers.

- **last_pymnt_amnt:** Letzte erhaltene Gesamtzahlung.

- **last_pymnt_d:** Letzter Monat, in dem eine Zahlung eingegangen ist.

- **loan_amnt:** Der ursprünglich beantragte Kreditbetrag. Falls das Kreditbüro den Betrag reduziert, wird dies hier widergespiegelt.

- **loan_status:** Aktueller Status des Kredits.

- **member_id:** Eindeutige ID von LC für das Kreditmitglied.

- **mths_since_last_delinq:** Anzahl der Monate seit dem letzten Zahlungsausfall des Kreditnehmers.

- **mths_since_last_major_derog:** Monate seit der letzten größeren negativen Eintragung (90 Tage oder mehr überfällig).

- **mths_since_last_record:** Anzahl der Monate seit dem letzten öffentlichen Eintrag.

- **next_pymnt_d:** Datum der nächsten geplanten Zahlung.

- **open_acc:** Anzahl der offenen Kreditlinien im Kreditbericht des Kreditnehmers.

- **out_prncp:** Verbleibender ausstehender Kapitalbetrag für den gesamten finanzierten Betrag.

- **out_prncp_inv:** Verbleibender ausstehender Kapitalbetrag für den von Investoren finanzierten Teil des Gesamtbetrags.

- **policy_code:** Öffentlich verfügbarer Policy-Code (1 für öffentliche Produkte, 2 für nicht öffentliche Produkte).

- **pub_rec:** Anzahl negativer öffentlicher Einträge.

- **purpose:** Vom Kreditnehmer angegebene Kategorie für den Kreditzweck.

- **pymnt_plan:** Gibt an, ob ein Zahlungsplan für den Kredit eingerichtet wurde.

- **recoveries:** Bruttoeinnahmen nach einer Abschreibung.

- **revol_bal:** Gesamtbetrag des revolvierenden Kreditrahmens.

- **revol_util:** Nutzung der revolvierenden Kreditlinie (genutzter Betrag im Verhältnis zum verfügbaren Kredit).

- **sub_grade:** Von LC vergebene Unterbewertung für den Kredit.

- **term:** Anzahl der Zahlungen für den Kredit (36 oder 60 Monate).

- **title:** Vom Kreditnehmer angegebener Kreditname.

- **total_acc:** Gesamtanzahl der aktuellen Kreditlinien im Kreditbericht des Kreditnehmers.

- **total_pymnt:** Bis heute erhaltene Zahlungen für den gesamten finanzierten Betrag.

- **total_pymnt_inv:** Bis heute erhaltene Zahlungen für den von Investoren finanzierten Teil des Gesamtbetrags.

- **total_rec_int:** Bis heute erhaltene Zinsen.

- **total_rec_late_fee:** Bis heute erhaltene Verzugsgebühren.

- **total_rec_prncp:** Bis heute erhaltene Tilgungsbeträge.

- **url:** URL zur LC-Seite mit Angebotsdaten.

- **verified_status_joint:** Gibt an, ob das Einkommen der Mitantragsteller von LC verifiziert wurde oder nicht.

- **zip_code:** Die ersten drei Ziffern der vom Kreditnehmer angegebenen Postleitzahl.

- **open_acc_6m:** Anzahl der neu eröffneten Kredite in den letzten sechs Monaten.

- **open_il_6m:** Anzahl der aktuell aktiven Ratenkredite.

- **open_il_12m:** Anzahl der in den letzten 12 Monaten eröffneten Ratenkreditkonten.

- **open_il_24m:** Anzahl der in den letzten 24 Monaten eröffneten Ratenkreditkonten.

- **mths_since_rcnt_il:** Monate seit der letzten Eröffnung eines Ratenkredits.

- **total_bal_il:** Gesamtsaldo aller aktuellen Ratenkreditkonten.

- **il_util:** Verhältnis des aktuellen Saldos zum Kreditlimit aller Ratenkreditkonten.

- **open_rv_12m:** Anzahl der in den letzten 12 Monaten eröffneten revolvierenden Kreditlinien.

- **open_rv_24m:** Anzahl der in den letzten 24 Monaten eröffneten revolvierenden Kreditlinien.

- **max_bal_bc:** Höchster aktueller Saldo auf allen revolvierenden Konten.

- **all_util:** Verhältnis von Saldo zu Kreditlimit über alle Kreditarten.

- **total_rev_hi_lim:** Gesamtbetrag des höchsten revolvierenden Kreditlimits.

- **inq_fi:** Anzahl der Anfragen für Finanzierungen.

- **total_cu_tl:** Anzahl der Finanzhandelskonten.

- **inq_last_12m:** Anzahl der Kreditanfragen in den letzten 12 Monaten.

- **acc_now_delinq:** Anzahl der Konten, die derzeit im Zahlungsverzug sind.

- **tot_coll_amt:** Gesamtbetrag der jemals ausstehenden Inkassoforderungen.

- **tot_cur_bal:** Gesamtsaldo aller aktuellen Konten.

Auf den ersten Blick gibt es einige Variablen, die wertvolle Einblicke in das Kreditrisiko bei den Geschäftsprozessen von Lending Club liefern können:

- **Demografische Variablen:** addr_state, annual_inc, emp_length, home_ownership.

- **Finanzielle Variablen:** dti, revol_bal, revol_util, tot_cur_bal, total_rev_hi_lim, total_acc.

- **Kredit- und Risikovariablen:** delinq_2yrs, recoveries, out_prncp, total_rec_prncp, grade, inq_last_6_months und 12m, funded_amnt, int_rate und term.

- **Zeitbezogene und sonstige Variablen:** issue_d, purpose.

In [21]:
loan_data.columns.values

array(['Unnamed: 0', 'id', 'member_id', 'loan_amnt', 'funded_amnt',
       'funded_amnt_inv', 'term', 'int_rate', 'installment', 'grade',
       'sub_grade', 'emp_title', 'emp_length', 'home_ownership',
       'annual_inc', 'verification_status', 'issue_d', 'loan_status',
       'pymnt_plan', 'url', 'desc', 'purpose', 'title', 'zip_code',
       'addr_state', 'dti', 'delinq_2yrs', 'earliest_cr_line',
       'inq_last_6mths', 'mths_since_last_delinq',
       'mths_since_last_record', 'open_acc', 'pub_rec', 'revol_bal',
       'revol_util', 'total_acc', 'initial_list_status', 'out_prncp',
       'out_prncp_inv', 'total_pymnt', 'total_pymnt_inv',
       'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee',
       'recoveries', 'collection_recovery_fee', 'last_pymnt_d',
       'last_pymnt_amnt', 'next_pymnt_d', 'last_credit_pull_d',
       'collections_12_mths_ex_med', 'mths_since_last_major_derog',
       'policy_code', 'application_type', 'annual_inc_joint', 'dti_joint',
       'veri

### 1.3 Allgemeine Informationen


Ich werde allgemeine Informationen über die Daten bewerten, wie z. B. Dimensionen, Datentypen der Merkmale, fehlende und doppelte Werte usw., um mögliche Probleme zu identifizieren, die eine Datenbereinigung erfordern. Außerdem möchte ich ein besseres Verständnis für die Daten gewinnen, mit denen ich arbeite.

In [22]:
loan_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 466285 entries, 0 to 466284
Data columns (total 75 columns):
 #   Column                       Dtype  
---  ------                       -----  
 0   Unnamed: 0                   int64  
 1   id                           int64  
 2   member_id                    int64  
 3   loan_amnt                    int64  
 4   funded_amnt                  int64  
 5   funded_amnt_inv              float64
 6   term                         object 
 7   int_rate                     float64
 8   installment                  float64
 9   grade                        object 
 10  sub_grade                    object 
 11  emp_title                    object 
 12  emp_length                   object 
 13  home_ownership               object 
 14  annual_inc                   float64
 15  verification_status          object 
 16  issue_d                      object 
 17  loan_status                  object 
 18  pymnt_plan                   object 
 19  ur

In [23]:
print(f'The dataset has {loan_data.shape[0]} rows and {loan_data.shape[1]} columns.')

The dataset has 466285 rows and 75 columns.


### 1.4 Fehlende und doppelte Werte

Ich werde die Verteilung der fehlenden Werte über die Variablen hinweg analysieren, um deren Ursache zu untersuchen und zu entscheiden, ob sie hier behandelt werden sollen oder nicht. Gleiches gilt für doppelte Werte.

In [24]:
missing_df = loan_data.isna().sum().to_frame().rename(columns={0: 'count'}).sort_values(by=['count'], ascending=False)
missing_df['pct'] = round(missing_df['count'] / loan_data.shape[0] * 100, 3)
missing_df

Unnamed: 0,count,pct
max_bal_bc,466285,100.0
open_rv_24m,466285,100.0
inq_fi,466285,100.0
open_rv_12m,466285,100.0
il_util,466285,100.0
mths_since_rcnt_il,466285,100.0
total_bal_il,466285,100.0
open_il_24m,466285,100.0
open_il_12m,466285,100.0
open_il_6m,466285,100.0


In [26]:
print(loan_data.duplicated().sum())

0


- Es gibt keine doppelten Werte in den Daten.

- Es ist ersichtlich, dass viele Variablen zu 100 % fehlende Werte enthalten. Diese sind für die Analyse nicht nützlich und werden entfernt.

- Ich werde eine 70 %-Schwelle festlegen, um Variablen mit fehlenden Werten zu entfernen. Das bedeutet, dass Variablen mit einer fehlenden Rate von 70 % oder mehr gelöscht werden, da das Auffüllen dieser Werte zu Verzerrungen führen könnte.

- Für die übrigen Merkmale werde ich das Auftreten fehlender Werte untersuchen und entscheiden, ob sie beibehalten oder entfernt werden sollen.

- Falls das Muster der fehlenden Werte nicht zufällig ist – z. B. wenn fehlende Werte bei schlechten Krediten häufiger auftreten als bei guten Krediten – sollte dies als eigene Kategorie innerhalb der Variablen behandelt werden. Das Fehlen von Informationen durch den Antragsteller könnte mit dessen Absicht zusammenhängen, seine Schulden zurückzuzahlen oder nicht.

- Falls das Muster der fehlenden Werte zufällig ist, können wir:

  - **Diese Beobachtungen entfernen**, wenn wir eine große Stichprobe von Antragstellern haben (was hier der Fall ist!) und ihre Häufigkeit sehr gering ist.

  - **Variablen mit einer übermäßigen Anzahl** fehlender Werte ausschließen (was wir bereits in Betracht gezogen haben).

 - **Die fehlenden Werte als eigene Kategorie beibehalten**, z. B. "unbekannt". Dies könnte in der endgültigen Scoring-Formel eine Gewichtung erhalten.

 - **Werte imputieren**, z. B. durch Mittelwert, Median, Modus oder durch Ableitung aus einer anderen stark korrelierten Variable.

Das Auftreten fehlender Werte kann verschiedene Ursachen haben, wie:

  - Der Antragsteller hat diese Information nicht angegeben.

  - Die angegebene Information wurde nicht erfasst.

  - Die Information entsprach keinem der erwarteten Codes oder Werte für die Variable und wurde daher als fehlend registriert – dies ist besonders häufig bei Berufsbezeichnungen, wenn Abkürzungen verwendet werden.

  -  Das Fehlen eines Wertes entspricht in Wirklichkeit einer Null.

Lassen Sie uns die fehlenden Werte in den relevanten Merkmalen genauer untersuchen.