In [None]:
# benötigte Bibliotheken importieren

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly_express as px

# Data Preproccesing 

## Datensätze importieren

In [None]:
# Datei part1 einlesen & Test ob einlesen erfolgreich war

df_part1 = pd.read_csv("part1.csv", sep=",", index_col=0)
df_part1.head(3)

In [None]:
# Test ob einlesen erfolgreich war (DataFrame Ende)
df_part1.tail(3)

# enthält 334.999 + 1 Zeilen

In [None]:
# Datei part2 einlesen + Test, ob einlesen erfolgreich war (DataFrame Anfang)

df_part2 = pd.read_csv("part2.csv", sep="#", index_col=0)
df_part2.head(3)

In [None]:
# Test ob einlesen erfolgreich war (DataFrame Ende) + Anzahl der Zeilen
df_part2.tail(3)

# enthält 336.204 + 1 Zeilen

In [None]:
# DataFrames vergleichen

df_part1.dtypes

In [None]:
df_part2.dtypes

Spalten und Datentypen sind die selben. 

Entscheidung: Datensätze untereinander anhängen.

## Datensätze zusammen fügen

In [None]:
# Datensätze zusammenfügen

df_all = df_part1.append(df_part2, ignore_index=True)

In [None]:
# Test ob einlesen erfolgreich war (DataFrame Anfang)

df_all.head(3)

In [None]:
# Test ob einlesen erfolgreich war (DataFrame Ende) + Anzahl der Zeilen

df_all.tail(3)

Ergebnis: 

Anzahl Zeilen stimmen

Inhalte stimmen auch überein

Zusammenführung war erfolgreich

## Fehlende Werte

### dtypes - Prüfung, ob Datentypen zu den Inhalten passen

In [None]:
# dtypes, um zu prüfen ob Datentypen zu Inhalten passen.

df_all.dtypes

Könnten inhaltlich Integers sein: funded_amount, loan_amount

Müssten inhaltilch Integers sein: term_in_month

Fragen:
- Sind ggf. Nans enthalten? 
- Handelt es sich um echte Floats(Zahlen hinter Komma)?

In [None]:
# Spaltennamen auf Leerzeichen prüfen, um die richtigen Spalten bei weiteren Tests aufzurufen.

df_all.columns

In [None]:
# Zeilen mit möglichen NaNs anzeigen lassen.

# df_all.loc[df_all["funded_amount"].is_null()]

# AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'.
# Ergebnis: Keine NaNs in der Spalte

AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'. 

Ergebnis: Keine NaNs in der Spalte.

In [None]:
# Zeilen mit möglichen NaNs anzeigen lassen.

# df_all.loc[df_all["loan_amount"].is_null()]

# AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'.
# Ergebnis: Keine NaNs in der Spalte

AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'. 

Ergebnis: Keine NaNs in der Spalte.

In [None]:
# Zeilen mit möglichen NaNs anzeigen lassen.

# df_all.loc[df_all["term_in_months"].is_null()]

# AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'.
# Ergebnis: Keine NaNs in der Spalte

AttributeError wird angezeigt: 'Series' object has no attribute 'is_null'. 

Ergebnis: Keine NaNs in der Spalte.

In [None]:
# Alternativ und einfacher:

df_all.isnull().sum()

#### Erkentnisse

- funded_amount, loan_amount und term_in_month haben keine Nullwerte.
- Bei Speicherplatz Reduzierung prüfen, ob floats "echte" Floats sind (keine Zahl hinter dem Komma)

### isnull - Prüfung auf Nullwerte für den gesamten DataFrame

In [None]:
# isnull, um sich Nullwerte für gesamten DataFrame anzeigen zu lassen

df_all.isnull().sum()

#### Erkenntnisse
- "use" enthält 4.232 Nullwerte
- "country_code" enthält 8 Nullwerte
- "region" enthält 56.800 Nullwerte
- borrowert_genders enthält 4.221 Nullwerte

__Erste Überlegungen:__

- Fragelich, ob "use" und "region" wichtig für weitere Analysen sind.
- "country_code" sind nur sehr wenige Nullwerte und lässt sich daher leicht prüfen und ggf. bearbeiten.
- "borrower_genders" sind für weitere Analysen wichtig und sollten daher im Detail angeschaut werden.


In [None]:
# country_code im Detail anschauen, da nur sehr wenige Null-Werte

df_all.loc[df_all["country_code"].isnull()]

Nullwerte bei country_code kommen nur bei Namibmia vor. -> Welchen country_code hat Namibia sonst?

In [None]:
# Zeilen mit country "Namibia" ausgeben lassen.

df_all.loc[df_all["country"] == "Namibia"]

Nan wird im Datensatz als country_code für Namibia verwendet. -> Umschreiben in Länderkürzel NAM gemäß ISO-Standard ISO-3166 

(https://laendercode.net/de/country/na)

In [None]:
# Umschreiben

df_all.loc[:,"country_code"].replace({np.nan:"NaM"}, inplace=True)

In [None]:
# Testen, ob Umschreibung erfolgreich war

df_all.loc[df_all["country"] == "Namibia"]

#### Nullwerte bei "borrower_genders" beibehalten

In [None]:
# Ersten 20 Zeilen anschauen, wo bei "borrower_genders" ein Nullwert steht, um etwaige Zusammenhänge zu verstehen.

df_nan_gender = df_all.loc[df_all["borrower_genders"].isnull()]
df_nan_gender.head(20)

In [None]:
# Letzten 20 Zeilen anschauen, wo bei "borrower_genders" ein Nullwert steht, um etwaige Zusammenhänge zu verstehen.

df_nan_gender.head(20)

Alle "use" und "region" Spalten weisen ebenfalls Nullwerte in den betreffenden Zeilen auf. Dies könnte mit der Form oder technischen Lösung der Datenerhebung zu tun haben.

"monthly" kommt sehr häufig bei repayment_interval vor. 

Alle anderen Spalten sind sehr heterogen und zeigen keine augenscheinlichen Muster oder Zusammenhänge.

Bzgl. monthly bei repayment_interval: Häufigkeitsverteilung von borrower_genders und repayment_interval aufrufen, um sich hier ein klarers Bild zu verschaffen.

In [None]:
# Verteilung repayment_interval

df_all.groupby("repayment_interval").size()

"Monthly" ist mit Abstand der häufigste Wert. Das ist plausibel

In [None]:
# Verteilung borrower_genders

df_all.groupby("borrower_genders").size()

Die Verteilung von borrower_genders ist sehr heterogen, was eine weitere Zusammenhangs-Analyse erschwert.

Falls ein Zusammenhang zwischen borrower_genders und repayment_interval besteht ist dieser inhaltlich auf dieser Ebene der Analyse nicht erkennbar.

__Entscheidung:__ 

Nullwerte in der Spalte "borrower_genders" bleiben erhalten, da keine augenscheinlichen und soweit ersichtlichen Zusammenhänge bestehen. 

Sollte der eine nähere Betrachtung eines etwaigen Zusammenhangs zwischen "borrower_genders" und "repayment_interval" in der weiteren Analyse relevant werden, kann dies separat betrachet werden.



#### Nullwerte bei "use" und "region" beibehalten. 

__use:__ für weitere quantitative Analysen, so wie sie für das Abschlussprojekt vorgesehen sind, scheint die Spalte nicht wichtig. -> Spalte wird so belassen.

__region:__ für weitere Analyse auf Länder Ebende bleiben. Falls Regionen für Analysen auf Länderebene relevant werden, dann neu für das jeweilige Land entscheiden. -> So belassen

### unique() - Prüfung auf fehlende Werte in Form von Synonymen

Aufgrund der großen Datenmenge macht nur eine Betrachtung von String-Werte Sinn. Und auch hier nur diejenigen, bei denen zu erwarten ist, dass die unique Werte überschaubar bleiben und die nicht in vorherigen Anaylsen als "unwichtig" ("region") eingestuft wurden

In [None]:
# Spaltenüberschriften ausgeben lassen zur Arbeitserleichterung

df_all.dtypes

In [None]:
df_all["activity"].unique()

Keine fehlenden Werte in Form von Synonymen in "activity" enthalten.

In [None]:
df_all["sector"].unique()

Keine fehlenden Werte in Form von Synonymen in "sector" enthalten.

In [None]:
df_all["country_code"].unique()

Keine fehlenden Werte in Form von Synonymen in "country_code" enthalten.

In [None]:
df_all["country"].unique()

Keine fehlenden Werte in Form von Synonymen in "country" enthalten.

In [None]:
df_all["currency"].unique()

Keine fehlenden Werte in Form von Synonymen in "currency" enthalten.

In [None]:
df_all["borrower_genders"].unique()

Unique Datenmenge zu groß, um dies mit der unique-Methode beurteilen zu können.

In [None]:
df_all["repayment_interval"].unique()

Keine fehlenden Werte in Form von Synonymen in "repayment_interval" enthalten.

#### Erkenntnisse

Es wurden keine fehlenden Werte in Form von Synonmyen in Spalten mit Datentyp "Object" gefunden. Die Spalten "use" und "region" wurden nicht betrachtet, da sie zuvor bereits als weniger wichtig eingestuft wurden.

Bei "borrower_genders" war die Unique Datenmenge zu groß, um mit der unique-Methode feststellen zu können, ob fehlende Werte vorliegen


### describe - Negativzahlen oder weitere Auffälligkeiten

In [None]:
df_all.describe()

#### Erkenntnisse

- Keine Negativen Zahlen enthalten.
- Keine anderen Auffälligkeiten, die auf fehlende Werte hinweisen.
- Ausreißer sollten aufgrund der hohen Maximalwerte näher untersucht werden, insbesondere bei funded_amount und lender_count.

## Speicherplatz reduzieren

### Speicherplatz feststellen

In [None]:
# Größe des Speicherplatzes von df_all feststellen: Speicherplatz pro Spalte

df_all.memory_usage()

In [None]:
 # Größe des Speicherplatzes von df_all feststellen: Gesamt, inklusive index.
    
df_all.memory_usage().sum()

In [None]:
# Alternativ mit info().

df_all.info()

Die Methode info() liefert andere Werte als memory usage (memory_usage(): 69,8MB vs info(): 66.6MB)

Im folgenden wird mit der Methode info() gearbeitet.

### Nicht benötigte Spalten entfernen

Aufbauend auf den Erkenntnissen zu fehlende Werte sind folgende Zeilen nicht für die erste Analyse relevant: "use", "region". 

Daher ist es sinnvoll, für die weitere Analyse die beiden Spalten zu entfernen und somit den Speicherplatz der Datei, mit der gearbeitet wird, zu reduzieren.

In [None]:
# Spalten löschen

df_red_col = df_all.drop(["use", "region"], axis=1)

In [None]:
# Kontrolle, ob Löschung erfolgreich war

df_red_col.head()

In [None]:
# Kontrolle, ob Speicherplatz reduziert wurde mit info().

df_red_col.info()

Die reduzierte Datei enthält 56,3 MB ggü. 66,6 MB. Es konnten 10,3 MB reduziert werden.

### Datentyp Object in Category umwandeln

In [None]:
# verwendete Datentypen anschauen

df_red_col.dtypes

Der Datensatz beinhaltet mehrere Spalten mit Datentyp "Object". Spalten mit wenigen einzelnen Werte können in den Datentyp "Category" umgewandelt werden. Bei kategorialen Datentypen wird jeder einzigartige Wert einmal gespeichert und einem Integer-Wert zugeordnet, um den spezifischen Namen identifizieren zu können. So kann der Speicherplatz weiter reduziert werden.

In [None]:
# Kopie des Datensatzes erstellen

df_red_col_cat = df_red_col.copy()

In [None]:
# repayment_interval in category umwandeln

df_red_col_cat["repayment_interval"] = df_red_col_cat["repayment_interval"].astype("category")

In [None]:
# Kontrolle, ob Umwandlung funktioniert hat

df_red_col_cat.dtypes

In [None]:
# Kontrolle, ob Daten reduziert wurden

df_red_col_cat.memory_usage()

In [None]:
# Übrige Datentypen umwandeln

df_red_col_cat["activity"] = df_red_col_cat["activity"].astype("category")
df_red_col_cat["sector"] = df_red_col_cat["sector"].astype("category")
df_red_col_cat["country_code"] = df_red_col_cat["country_code"].astype("category")
df_red_col_cat["country"] = df_red_col_cat["country"].astype("category")
df_red_col_cat["currency"] = df_red_col_cat["currency"].astype("category")
df_red_col_cat["borrower_genders"] = df_red_col_cat["borrower_genders"].astype("category")

In [None]:
# Kontrolle, ob Umwandlung funktioniert hat

df_red_col_cat.dtypes

In [None]:
# Kontrolle, ob Daten reduziert wurden

df_red_col_cat.memory_usage()

In [None]:
# Einsparung feststellen

df_red_col_cat.info()

Reduktion:
- Ausgangsdatei: 66,6MB
- Nach entfernen der nicht relevanten Spalten: 56,3MB 
- Nach Umwandlung von Datentyp Object in Category bei sieben Spalten: 26.6MB

### Prüfung float Werte auf Zahlen hinter dem Komma


In [None]:
# Überlegung, wie festgestellt werden kann, ob sich hinter dem Komma noch eine Zahl befindet.

x = [1, 2, 5, 5.5, 1.0, 10.442, 0.5]

for i in x:
    if not i%1==0.0:
        print(i)

# funktioniert 

In [None]:
# funded_amount echter float? Zahl hinter dem Komma?

for i in df_all["funded_amount"]:
    if not i%1==0.0:
        print(i)

In [None]:
# loan_amount echter float? Zahl hinter dem Komma?

for i in df_all["loan_amount"]:
    if not i%1==0.0:
        print(i)

In [None]:
# term_in_months echter float? Zahl hinter dem Komma?

for i in df_all["term_in_months"]:
    if not i%1==0.0:
        print(i)

Bei keiner Spalte existieren Zahlen hinter dem Komma. Sie können in Int-Werte umgewandelt werden.

In [None]:
# Umwandlung der floats in int

df_red_col_cat[["funded_amount", "loan_amount", "term_in_months"]] = df_red_col_cat[["funded_amount", "loan_amount", "term_in_months"]].astype(int)

In [None]:
# Kontrolle, ob Umwandlung funktioniert hat

df_red_col_cat.info()

Reduktion:
- Ausgangsdatei: 66,6MB
- Nach entfernen der nicht relevanten Spalten: 56,3MB 
- Nach Umwandlung von Datentyp Object in Category bei sieben Spalten: 26.6MB
- Nach Umwandlung der Float Werte in int Werte: 18.9MB

### Downcasting numerischer Datentypen

Des weiteren können Spalten mit numerische Datentypen auf den kleinst möglichen Typ reduziert werden.

In [None]:
# "Downcasting" von int Datensätzen

df_red_col_cat[["funded_amount", "loan_amount", "term_in_months", "lender_count"]] = df_red_col_cat[["funded_amount", "loan_amount", "term_in_months", "lender_count"]].apply(pd.to_numeric, downcast="unsigned")

In [None]:
# Kontrolle, ob Downcasting funktioniert hat

df_red_col_cat.info()

Reduktion:
- Ausgangsdatei: 66,6MB
- Nach entfernen der nicht relevanten Spalten: 56,3MB 
- Nach Umwandlung von Datentyp Object in Category bei sieben Spalten: 26.6MB
- Nach Umwandlung der Float Werte in int Werte: 18.9MB
- Nach Downcasting der int-Werte: 13.02MB

In [None]:
# Zweites "Downcasting" von int Datensätzen

df_red_col_cat[["funded_amount", "loan_amount", "term_in_months", "lender_count"]] = df_red_col_cat[["funded_amount", "loan_amount", "term_in_months", "lender_count"]].apply(pd.to_numeric, downcast="unsigned")

In [None]:
# Kontrolle, ob zweites Downcasting funktioniert hat

df_red_col_cat.info()

Ein weiteres Downcasting bringt keine weiteren Vorteile.

### Ergebnis

Durch das obige Vorgehen konnte die Größe des Datensatzes wie folgt reduziert werden:

- Ausgangsdatei: 66,6 MB
- Nach entfernen der nicht relevanten Spalten: 56,3 MB 
- Nach Umwandlung von Datentyp Object in Category bei sieben Spalten: 26,6 MB
- Nach Umwandlung der Float Werte in int Werte: 18,9 MB
- Nach Downcasting der int-Werte: 13,2 MB

__Finales Ergebnis:__ von __66,6 MB__ auf __13,2 MB__ entspricht einer __Reduktion von 80%__.

Weitere Möglichkeiten zur Reduktion bietet das Arbeiten mit anderen Bibliotheken, wie dask. An dieser Stelle wird sichnur auf die angewandten Vorgehensweisen bechränkt. 

## Pairplot - erste visuelle Inspektion

In [None]:
# benötigte bib importieren

import seaborn as sns 

In [None]:
sns.pairplot(data=df_red_col_cat, corner=True) 

### Erkenntnisse

__Ausreißer__:
Wie schon bei der Anwendung der describe() Methode vermutet wurde, zeigen sich Ausreißer bei:
- loan/funded_amount: Eine Funding Projekt hat einen doppelt so hohen zielbetrag und Funding wie die höchsten anderen loan/funded amount Werte.  
- lender_count: Auch hier hat ein Projekt nahezu doppelt so viele Darlehensgeber, wie die höchsten anderen lender_count Werte.

## Ausreißer

Auf Basis der Erkenntnisse aus der describe Methode und dem Pairplot werden die Ausreißer loan_amount, funded_amount und lender_count entfert.

### Ausreißer identifizieren

In [None]:
# Identifizieren des Funding Projekts mit Ausreißer Funding

df_red_col_cat.loc[df_red_col_cat["funded_amount"]>50000,:]

In [None]:
# Identifizieren des Funding Projekts mit Ausreißer lender_count

df_red_col_cat.loc[df_red_col_cat["lender_count"]>2000,:]

### Erkenntnis

Es handelt sich bei beiden Ausreißern um das selbe Funding Projekt.

Dieses wird für die weiteren Analysen aus dem Datensatz entfernt, da es sowohl Berechnungen als auch graphische Darstellungen zu sehr verzerrt.

### Ausreißer entfernen

In [None]:
# Richtigen Datensatz ansteuern. 

df_outlier = df_red_col_cat.iloc[70499:70500,:]
df_outlier

In [None]:
# Datensatz entfernen

df_outlier = df_red_col_cat.drop([70499,70499])

In [None]:
df_outlier.info()

In [None]:
df_outlier.memory_usage()

In [None]:
df_red_col_cat.memory_usage()

In [None]:
# Testen, ob Löschung erfolgreich

df_outlier.iloc[70498:70500,:]

In [None]:
# Testen, ob die Zeilenanzahl stimmt. Vor Löschung: 671205 Zeilen

df_outlier.info()

Zeilenanzahl stimmt. 

Speicherplatz ist allerdings nach oben gegangen.

In [None]:
# memory_usage anschauen.

df_outlier.memory_usage()

In [None]:
# Vergleich zu Ausgangsdatensatz

df_red_col_cat.memory_usage()

Index hat viel zu hohe Speicherwerte

In [None]:
# korrekten Index wieder herstellen

df_outlier.reset_index(inplace=True)

In [None]:
# Testen, ob Speicher wieder runter geht.

df_outlier.memory_usage()

Speicher wieder unten, allerdings ist der Index jetzt doppelt

In [None]:
# Index Spalte mit hohem Speicher löschen

df_outlier.drop("index", axis=1, inplace=True)

In [None]:
# Testen, ob Löschung erfolgreich war

df_outlier.head(3)

In [None]:
# Testen, ob Löschung erfolgreich war

df_outlier.memory_usage()

In [None]:
# Speichergröße feststellen

df_outlier.info()

Ausreißer erfolgreich entfernt

## Pairplot - nach Entfernung der Ausreißer

In [None]:
sns.pairplot(data=df_outlier, corner=True) 

In [None]:
# Vergleich mit describe() 

df_outlier.describe()

### Erste inhaltliche Erkenntnisse

__loan_amount vs funded_amount:__ 

- Höchster Wert sind 50.000USD
- Der Großteil der Zielsumme liegt bei maximal 10.000USD, wobei häufig nicht die volle Summe ausgezahlt wird
- Im Zielbereich von 50.000 USD wurde nur sehr geringer Teil voll ausgezahlt. 

__term in month vs funded/loan_amount:__

- Optisch sieht es so aus, als ob über die Summen hinweg eine breite Dauer über die der Kredit ausgezahlt wurde.
- Es gibt eine leichte Tendenz, dass Summen ab 20.000USD nicht über einen längeren Zeitraum als 40 Monate ausgezahlt werden. Dies könnte ggf. auch sehr länderspezifisch sein.

__term in month vs lender count:__ 

- Klare Tendenz, dass bei Auszahlungsdauer über 50 Monate die Anzahl der Darlehensgeber die 300 kaum mhr überschreitet.

__lender count vs funded/loan_amount:__

- Deutlich sichtbar, dass je höher die Summe, desto mehr Geldgeber. Einzig bei 50.000USD ist eine deutliche Varianz in der Anzahl der Geldgeber zwischen 500 und 2.000 erkennbar.


## Prefinalen Datensatz erstellen

In [None]:
df_prefinal = df_outlier.copy()

In [None]:
# Test, ob Kopie geklappt hat

df_prefinal.info()

In [None]:
# Test, ob Kopie geklappt hat

df_prefinal.head(3)

Erstellung Kopie war erfolgreich

# Features

## Anfängliche Überlegungen 

### "wildes" Brainstorming



__Erstes Brainstorming für Features:__
- Neue Spalte für Verhältnis loan_amount ggü. funded_amount
- tbd. country_code in dreistellig umwandeln, damit auch Betrachtungen auf einer map möglich sind.
- ggf. mit cut() Funktion term_in_month und lender_count gruppieren
- borrower_genders aufteilen nach je eine Spalte male, female und nan für detaillierte genderspezfische Auswertungen
- ggf. mit cut() Funktion loan_amount gruppieren, für einfachere Übersicht


__Die wirklich interessante Spalten können in zwei Themenbereiche geteit werden__: 

__1) "Funding Landschaft":__ Was, wer, wo, in welcher Höhe?
- funded, int -> was, wer, wo, Höhe, Geschlecht
- Zielbetrag, int
- sector, cat -> Wo, Geschlecht, Höhe
- country, cat -> Was, Höhe, Geschlecht
- Geschlecht, cat
- Teamgröße, int

__2) Konditionen für Gründer und Investoren:__ Was sind Erfolgsfaktoren und welche Kreditbedingungen brauche ich?
- term in months
- lender_count
- borrower_gender
- repayment


__Übergeordnete Fragestellungen für Gesamtbild__

- Was für Projekte gibt es, werden gefunded?
- Wo finden, welche Art von Projekten statt?
- Welche Höhe haben sie und von wem werden sie durchgeführt?

__Übergeordnete Fragestellung für Gründer und Investoren:__ 
- Gründer: wie erhalte ich einen möglichst hohen Betrag?
- Investoren: wie minimiere ich das Risiko meine Investition zu verlieren

Daraus folgt: was sind erfolgreiche Projekte, erfolgreiche Teams, was sind die jeweils bevorzugten Kreditkonditionen? repayment art, dauer (was ist besser? -> kürzere Auszahlungens, weil dann schnell über Geld verfügt werden kann), 

__Erfolgsmessung von Krediten:__ Eine direkte Erfolgskennziffer geht nicht aus dem Datensatz hervor. Mögliche Alternativen wären:
- Absolute Fundinghöhe. Dies ist insbesondere für Gründer interessant
- Verhältnis Zielbetrag zu tatsächlich erhaltenem Betrag

__Teamgröße:__ Grdsl. Zusammensetzung und Größe interessant in Bezug auf Fundinghöhe und Fundingerfolg.

__Lender_count:__ Anzahl interessant in Bezug auf Fundinghöhe und Fundingerfolg.

__term in months:__ 
- Aus Sicht der Gründer scheint mir eine längere Dauer sinnvoll, da sie so mehr Zeit haben, den Kredit zurück zu zahlen.
- Aus Sicht der Investoren scheint mir eine kürzere Dauer sinnvoll, da so ihre Investition eine kürzere Zeit dem Risiko ausgesetzt ist.
 
__repayment interval:__ Präferenz sehr Geschäftsabhängig. Schwer eine klare Empfehlung für Investoren oder Gründer zu nennen.
- weekly repayment scheint eher für kleine Kredite gegeben zu werden.
- Bullet loans sind interessant für Geschäfte, die eher einzelne hohe Beträge erwirtschaften, als eine kontinuierliche, dauerhafte Einnahme. 
- irregular repayment scheinen individuell verhandelte Kredite zu sein. 
- monthly repayment ist die Häufigste Rückzahlungsart. 
- Bullet repayment: https://www.investopedia.com/terms/b/bulletrepayment.asp, https://en.wikipedia.org/wiki/Bullet_loan


__Hilfreiche Visualisierungen:__
- Scatterplot
- Barplot mehrdimensional
- sunburst
- map
ggf. Pieplot für Anfang


### Überlegungen bzgl. Visualisierungen

TEAMS

Scatterplot für Zusammenhang Erfolgsquote/Funding Höhe mit lendercount, teams größe und Zusammensetzung

facet plots: teamgröße klassen, male/femlae, Fundinghöhe, repayment, Erfolgsquote

Verteilung Erfolgsquote nach sector und Teamgröße

COUNTRY

sunburst:  land,sektor, Betrag, Größe Teams -> ggf. teilen nach klein und groß ??
country -> Häufigkeit je Country Balken + Linie absolute Höhe und mean funding  #
        -> Anzahl Gründungen pro Land, Verteilung Sectoren pro Land, Höhe Funding pro Land 
         Balkenfarbe Größe Teams, ggf Zusatzkennzeichnung Geschlecht

Anzahl Projekte pro Land?

SECTOR

sector -> Scatter Fundinghöhe pro sector als mean/median, Größe Teams Farbe der Kreise, Geschlecht Form der Kreise-> 

## Feature Erstellung

### Erfolgsquote Kreditvergabe

In [None]:
# loan_amount mit funded_amount ins Verhätlnis setzen und als neue Spalte einfügen

df_prefinal.insert(2, "success_ratio", df_prefinal["funded_amount"]/df_prefinal["loan_amount"]*100)

In [None]:
# Erfolgskategorien erstellen
kategorien = ["KleinerGleich50", "Größer50Kleiner100", "Gleich100"]
max_value = df_prefinal["success_ratio"].max()
einteilung = [0, 50.000001, 99.999999, max_value]
df_prefinal["success_class"] = pd.cut(df_prefinal["success_ratio"], bins=einteilung, labels=kategorien)

# In DataFrame einfügen
list_success = df_prefinal["success_class"].tolist()
df_prefinal.insert(3,'success_classes',list_success)

In [None]:
# Test, ob erfolgreich

df_prefinal

### Anzahl und Geschlecht Teammitglieder

In [None]:
# male und female zählen

male = []
female = []

for genders in df_prefinal["borrower_genders"]:
    try:
        gender_list = genders.split(", ")
        gender_list = [gender[0] for gender in gender_list]
        male.append(gender_list.count("m"))
        female.append(gender_list.count("f"))
    except AttributeError:
        male.append(np.nan)
        female.append(np.nan)
        

In [None]:
# Test, ob Listen erfolgreich erstellt

male

In [None]:
# Test, ob Listen erfolgreich erstellt

female

In [None]:
# male und female als eigene Spalten anhängen

df_prefinal.insert(11, "female", female)
df_prefinal.insert(12, "male", male)

In [None]:
# Team Gesamtgröße berechnen und in neuer Spalte anlegen

df_prefinal.insert(11, "team_count", df_prefinal["female"]+df_prefinal["male"])

In [None]:
# Test, ob Einfügungen erfoglreich 

df_prefinal

In [None]:
# Test, ob Einfügung erfoglreich 

df_prefinal.info()

In [None]:
# Spaltengröße anschauen

df_prefinal.memory_usage()

In [None]:
# Downcasting der neuen Spalten

df_prefinal[["team_count", "female", "male"]] = df_prefinal[["team_count", "female", "male"]].apply(pd.to_numeric, downcast="unsigned")

In [None]:
# Test, ob Downcasting erfolgreich

df_prefinal.memory_usage()

In [None]:
# Spalte borrower_genders entfernen

df_prefinal.drop("borrower_genders", axis=1, inplace=True)

In [None]:
# Test Gesamtgröße

df_prefinal.info()

### Aufteilung Teamgröße

In [None]:
# Verteilung Teamgröße 

df_team_member = df_prefinal.groupby("team_count").size()
df_team_member

In [None]:
# In Barplot anzeigen lassen, weil übersichtlicher

fig = px.bar(df_team_member,
             labels={'value':'Anzahl Funding Projekte', 'team_member_count':'Anzahl Teammitglieder'}, 
             height=500).update_xaxes(categoryorder="total ascending")
fig.show()

In [None]:
# Kategorien erstellen

kategorien = ["1 person", "2 to 5 persons", "6 persons and more"]

max_value = df_prefinal["team_count"].max()
einteilung = [0, 1, 5, max_value]

df_prefinal["team_category"] = pd.cut(df_prefinal["team_count"], bins=einteilung, labels=kategorien)
df_prefinal

### Geschlechter Verteilung

Überlegung, wie in einer Variablen das Geschlecht dargestellt werden kann.
Mögliche Lösung: wo sind mehr Teammitglieder weiblich/männlich?

In [None]:
# neue Spalte erstellen

df_prefinal.insert(13, "sex_majority", np.nan)

In [None]:
# Test, ob Einfügen erfolgreich

df_prefinal

In [None]:
# Feststellen, wo welche Majorität vorliegt und entsprechend in Spalte einfügen

df_prefinal.loc[(df_prefinal["female"]>df_prefinal["male"]), ["sex_majority"]] = "female"
df_prefinal.loc[(df_prefinal["female"]<df_prefinal["male"]), ["sex_majority"]] = "male"
df_prefinal.loc[(df_prefinal["female"]==df_prefinal["male"]), ["sex_majority"]] = "equal"

In [None]:
# Test, ob Einfügung der Majorität funktioniert hat

df_prefinal

In [None]:
# Test, ob Einfügung der Majorität funktioniert hat

df_prefinal.groupby("sex_majority").size()

### Aufteilung der Länder nach Kontinenten

In [None]:
# Einlesen der csv mit Ländercode - Kontinente Zuweisung

df_cont = pd.read_excel("countrycodes.xlsx")
df_cont.head()

In [None]:
# Datensätze zusammenfügen

df_prefinal_cont = pd.merge(df_prefinal, df_cont[["country_code", "cont"]], on= "country_code", how="left")

In [None]:
# Test, ob erfolgreich

df_prefinal_cont

In [None]:
# Liste Kontinente erstellen

list_cont = df_prefinal_cont["cont"].tolist()

In [None]:
# Spalte einfügen

df_prefinal.insert(6,'continent',list_cont)
df_prefinal

In [None]:
# Nach fehlenden Werten/Synonymen schauen

df_prefinal["continent"].unique()

In [None]:
# nan anschauen

df_prefinal.loc[(df_prefinal["continent"].isnull())]

Kosovo ist in eingelesener Kontinent-Tabelle nicht enthalten

In [None]:
# Kosovo Europa zuordnen

df_prefinal.loc[(df_prefinal["country"] == "Kosovo") , ["continent"]] = "Europe"

In [None]:
# test, ob erfolgreich

df_prefinal.loc[(df_prefinal["country"] == "Kosovo") , :]

In [None]:
# nan anschauen

df_prefinal.loc[(df_prefinal["continent"].isnull())]

Namibia und South Sudan ist in eingelesener Kontinent-Tabelle nicht enthalten

In [None]:
# Namibia Afrika zuordnen

df_prefinal.loc[(df_prefinal["country"] == "Namibia") , ["continent"]] = "Africa"

In [None]:
# test, ob erfolgreich

df_prefinal.loc[(df_prefinal["country"] == "Namibia") , :]

In [None]:
# South Sudan Afrika zuordnen

df_prefinal.loc[(df_prefinal["country"] == "South Sudan") , ["continent"]] = "Africa"

In [None]:
# Test, ob erfolgreich

df_prefinal.loc[(df_prefinal["country"] == "South Sudan") , :]

In [None]:
# nan anschauen

df_prefinal.loc[(df_prefinal["continent"].isnull())]

Keine weiteren NaN mehr in Kontinent

### Datensatz ohne NaN und 0 funded_amount für bestimmte Graphiken

In [None]:
# Datensatz erstellen ohne Null-Werte und 0 in funded_amount

# dropna - Datensatz: Nullwerte nach Konvention entfernen.
df_final_dropna = df_prefinal.dropna()
# 4.221 Projekte entfernt (0,06% des Gesamtdatensatzes), weil Nullwerte in ursprünglichen Variablen 
# zur Teamzusammenstellung (borrower_genders) enthalten sind. dropna Datensatz enthält 666.983 Projekte.

# Datensatz dropna-funding: Projekte ohne Funding (fundend_amount = 0) entfernen
df_dropna_funding = df_final_dropna.loc[df_final_dropna["funded_amount"]!=0, :]
df_dropna_funding
# 3.254 Datensätze entfernt (0,05% des dropna Datensatzes), weil funded_amount = 0.
# Datensatz enthält 663.724 Projekte

# Insgesamt wurden 7.475 Projekte entfernt (1,1% des Gesamtdatensatze)

In [None]:
# Test, ob erfolgreich

df_dropna_funding.info()

# Finalen Datensatz erstellen und abspeichern

## Datensatz erstellen

In [None]:
# Abschliessend finalen DataFrame abspeichern

df_final = df_prefinal.copy()

In [None]:
# Test, ob Kopie erfolgreich

df_final.info()

In [None]:
# Test, ob Kopie erfolgreich

df_final

Kopie war erfolgreich. Im folgenden kann mit der finalen Datei gearbeitet werden.

## Datensatz abspeichern

In [None]:
# als csv speichern

df_final.to_csv("df_final.csv")

In [None]:
# Datensatz df_dropna_funding als csv speichern

df_dropna_funding.to_csv("df_dropna_funding")