In [None]:
# benötigte Bibliotheken importieren

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly_express as px

# Dateien importieren 

In [None]:
# Datei importieren

df_final = pd.read_csv("df_final.csv", sep=",", index_col=0)

In [None]:
df_final.info()

# Datensatzgröße reduzieren

In [None]:
# Datensatz zu groß -> Categorien umwandeln

df_final["activity"] = df_final["activity"].astype("category")
df_final["sector"] = df_final["sector"].astype("category")
df_final["continent"] = df_final["continent"].astype("category")
df_final["country_code"] = df_final["country_code"].astype("category")
df_final["country"] = df_final["country"].astype("category")
df_final["currency"] = df_final["currency"].astype("category")
df_final["sex_majority"] = df_final["sex_majority"].astype("category")
df_final["repayment_interval"] = df_final["repayment_interval"].astype("category")
df_final["success_class"] = df_final["success_class"].astype("category")
df_final["team_category"] = df_final["team_category"].astype("category")

# "Downcasting" von int Datensätzen

df_final[["funded_amount", "loan_amount", "success_ratio", "term_in_months", "lender_count", "team_count", "female", "male"]] = df_final[["funded_amount", "loan_amount", "success_ratio", "term_in_months", "lender_count", "team_count", "female", "male"]].apply(pd.to_numeric, downcast="unsigned")

In [None]:
df_final.info()

# Datenanalysen und Visualisierungen 

Im folgenden werden die Daten analysiert und die Erkenntnisse aus der jeweiligen Analyse unter der Graphik festgehalten. Am Ende erfolgt eine Zusammenfassung der wichtigsten Ergebnisse.

## Inhaltliche Einführung in die Daten

In [None]:
df_final.head()

### Zum Datensatz

Thema des Datensatz ist crowdfunding. Hierbei handelt es sich um eine Finanzierungsform bei der verschiedene Investoren unterschiedliche Geldbeträge für bestimmte Projekte geben. Es ist also eine zweckgebunde Finanzierung. Grundlage ist die Historie einer Crowdfunding Plattform. Alle Projekte sind abgeschlossene Projekte, d.h. die Crowdfundingzeit ist abgelaufen.

Der Datensatz beinhaltet 690.885 Projekte. 

Der Datensatz enthält folgende Spalten (inkl. Bedeutung):

- funded_amount ... mit Ablauf der Crowdfundingzeit erhaltener Betrag in USD
- loan_amount ... Zielbetrag (Betrag dem man mit Funding erreichen wollte) in USD
- success_ratio ... Das funded_amount zu loan_amount, wie viel der gewünschten Summe wurde ausgezahlt 
- activity ... Unterkategory zu dem das Ziel des Crowdfunding thematisch gehört
- continent ... Kontinent
- sector ... Oberkategory in den das Crowdfunding Thema fällt
- country_code ... Ländercode nach ISO Norm
- country ... Ländername nach ISO Norm
- currency ... Währung in den der funded_amount dann ausgezahlt wurde
- term in months ... Dauer über die der Kredit ausgezahlt wurde
- lender_count ...Darlehensgeber (also wieviele Personen Geld für das Projekt gegeben haben)
- team_count ... Anzahl der Teammitglieder, derjenigen die das Crowdfundingprojekt initiiert haben
- female ... Anzahl Frauen im Team
- sex_majority ... Kategorisierung, ob in einem Team mehr Frauen oder Männer sind
- male ... Anzahl Männer im Team
- repayment interval ... Rückzahlungsmodalitäten/-rhythmus
- success_class ... Kategorisierung nach success ratio < 50%, 50% <= success ratio < 100% und success ration = 100% 
- team_category ... Kategorisierung der Teamgröße nach Ein-Personen-Teams, Zwei bis fünf Personen Teams und Teams mit sechs Personen und mehr

### Verteilungsmaße der metrischen Variablen

In [None]:
df_final.describe()

##### Erkenntnisse


+ __funden_amount__: Die erhaltenen Finanzierungssummen liegen auf einem geringen Niveau. 75% der Projekte haben eine Finanzierungssumme von höchstens 925 US-Dollar, die Hälfte unter 475 US-Dollar. Es handelt sich also zum größten Teil um Kleinst-Kredite. Nur im oberen Quartil scheint es größere Summen zu geben. Der Druchschnitt beträgt 810, die Standardabweichung 1141 US-Dollar. Das heisst die Werte streuen sehr stark um den Mittelwert. Der Maximalwert beträgt 50.000 US-Dollar.
+ __loan_amount__: Die gewünschten Finanzierungssumen liegen auf einem ähnlich geringem Niveau. Das dritte Quartil liegt bei 1.000, der Median bei 500 US-Dollar. Der Druchschnitt beträgt 868 US-Dollar, die Standardabweichung 1210. Der Maximalwert beträgt ebenfalls 50.000 US-Dollar. Auch hier streuen die Werte stark um den Mittelwert.
+ __success_ratio__: Das Verhältnis von gewünschter Summe und erhaltener Summe liegt überwiegend bei 100% (erstes, zweites und drittes Quartil). Die meisten Kredite wurden also gewährt. Der Druchschnitt beträgt 96% und die Standardabweichung 15.  Der Maximalwert beträgt 113%. Das heisst, die Finanzierungssumme war höher als die gewünschte Summe.
+ __termin_in_monts__: Dauer der Rückzahlung in Monaten. Der Großteil der Projekte hat eine Laufzeit bis zu 14 Monaten (drittes Quartil) und der Median liegt bei 13 Monaten. Der Druchschnitt beträgt 13,9 Monate. Dennoch liegt hier wieder eine hohe Standardabweichung von 8,7 Monaten vor. Der Maximlwert beträgt 158 Monate.
+ __lender_count__: Die Anzahl der Darlehensgeber steigt bis zum dritten Quartil gleichmäßig an (erstes Quartil: 7, zweites Quartil 13 und drittes 25 Darlehensgeber). Auch hier streuen die Werte wieder stark, was man an der Differen von Median (13) und Durschnitt (21) sowie an der Standardabweichung von 29 erkennt. Auch hier gibt es wieder einen stark abweichenden Maximalwert von 1765 Darlehensgebern. <br>

__Zusammenfassend__ ist zu sagen, dass es sich um überwiegend Kleinst-Kredite handelt mit zum Großteil einer Laufzeit von bis zu 14 Monaten. Der allergrößte Teil erhielt die gewünschte Finanzierungssumme bzw. nahezu 100%. Nur die oberen 25% der Variablen (funded_amount, loan_amount, term_in_months, lender_count) hatten eine stärkere Varianz. 

Die folgenden Variablen haben einen Datensatzgröße von 686.588 Projekten, was auf Nullwerte bei den Teamvariablen zurück zu führen ist. 
+ __team_count__: Die Teamgröße beschränkt sich bei mindestens 75% auf eine Person. Auch hier streuen die Werte wieder stark, was man an der Differen von Median (1) und Durschnitt (2) sowie an der Standardabweichung von 3,4 erkennt. Auch hier gibt es wieder einen stark abweichenden Maximalwert von 50 Teammitgliedern. 
+ __female__: (Teams mit mehr Frauen) Diese sind ähnlich verteilt, wie die Teamgröße. Die Teamgröße beschränkt sich bei mindestens 75% auf eine Person. Auch hier streuen die Werte wieder stark, was man an der Differen von Median (1) und Durschnitt (1,6) sowie an der Standardabweichung von 3 erkennt. Auch hier gibt es wieder einen stark abweichenden Maximalwert von 50 Teammitgliedern.
+ __male__: (Teams mit mehr Männern): Teams mit überwiegend Männern sind wenig vertreten. Erstes und zweites Quartil sind jeweils 0. Erst ab dem dritten Quartil gibt es überhaupt Teams, bei denen es mehr männliche als weibliche Teammitglieder gibt. Der Mittelwert beträgt 0,4 und die Standardabweichung 1,1. Der Maximalwert 44. <br>

__Zusammenfassend__ ist festzuhalten, dass es sich zum Großteil um Ein-Personen-Teams handelt. 

### Pairplot metrischen Variablen

In [None]:
sns.pairplot(data=df_final, corner=True) 

##### Erkenntnisse

Grundlegegend ist zu beachten, dass aufgrund der hohen Menge an Finanzierungsprojekten (690.885 Projekte) und somit ebenso großen Anzahl an Punkten je Graphik, eine Aussage nicht möglich ist, für Flächen mit dichten Punktewolken.  

+ __funded_amount__ (Finanzierungssumme):<br>
Der Großteil der finanzierten Projekte hat ein Volumen bis zu 10.000 US-Dollar. <br>
Es gab keine Finanzierung, die höher lag, als der gewünschte Betrag; <br>
Augenscheinlich gibt es einen __Zusammenhang zur Anzahl Darlehensgeber__ (lender_count) - je höher die Finanzierungssumme, desto höher die Anzahl der Darlehensgeber
+ __success_ratio__ (Verhältnis von gewünschter Summe und erhaltener Summe): Der Löwenanteil der Projekte hat 100% der gewünschten Summe als Funding erhalten.
+ __term_in_month__ (Dauer der Rückzahlung in Monaten): Der Großteil der Projekte hat eine Finanzierungsdauer unter 50 Monaten
+ __team_count__ (Team Größe): Der Großteil der Projekte hat eine sehr kleine Teamgröße (ein bis zwei Personen); <br>
Je größer die Teams, desto höher die Wahrscheinlichkeit, dass mehr Männer ein einem Team sind, als Frauen

## Sektoren

### Anzahl Projekte je Sektor

In [None]:
# nach Anzahl Projekte

df_sector = df_final.groupby("sector").agg({"sector":np.size, "funded_amount":np.sum})
df_sector_rename = df_sector.rename(columns={"sector": "amount_projects"})
df_sector = df_sector_rename.reset_index()
df_sector_sorted = df_sector.sort_values(by=["amount_projects"])
#df_sector_sorted_fund = df_sector.sort_values(by=["funded_amount"])

sns.set(rc={'figure.figsize':(12,9)})
sns.set_theme(style="whitegrid")
ax = sns.barplot(x="sector", y="amount_projects", data=df_sector_sorted, palette="Blues", order=df_sector_sorted["sector"])
for item in ax.get_xticklabels(): item.set_rotation(45)
for i, v in enumerate(df_sector_sorted["amount_projects"].iteritems()):        
    ax.text(i ,v[1], "{:,}".format(v[1]), color='darkred', va ='bottom', rotation=45)
plt.tight_layout()
plt.show()

##### Erkenntnisse

+ Insgesamt gibt es __15 Sektoren__
+ Die Sektoren, die mit großen Abstand am __meisten Projekte__ haben, sind Agriculture (184.176), Food (140.694) und Retail (126.261).
+ Die Sektoren, die im Vergleich am __wenigsten Projekte__ haben sind Wholesale (641) und Entertainment (858)
+ die übrigen 10 Sektoren liegen zwischen 6.524 und 46.477 Projekten.


__Legende:__ <br>
+ x-Achse: Sektoren<br>
+ y- Achse: Anzahl Projekte je Sektor<br>

### Fundingsumme je Sektor

In [None]:
# nach Anzahl Projekte

df_sector = df_final.groupby("sector").agg({"sector":np.size, "funded_amount":np.sum})
df_sector_rename = df_sector.rename(columns={"sector": "amount_projects"})
df_sector = df_sector_rename.reset_index()
df_sector_sorted = df_sector.sort_values(by=["funded_amount"])
#df_sector_sorted_fund = df_sector.sort_values(by=["funded_amount"])

sns.set(rc={'figure.figsize':(12,9)})
sns.set_theme(style="whitegrid")
ax = sns.barplot(x="sector", y="funded_amount", data=df_sector_sorted, palette="Blues", order=df_sector_sorted["sector"])
for item in ax.get_xticklabels(): item.set_rotation(45)
for i, v in enumerate(df_sector_sorted["funded_amount"].iteritems()):        
    ax.text(i ,v[1], "{:,}".format(v[1]), color='darkred', va ='bottom', rotation=45)
plt.tight_layout()
plt.show()

##### Erkenntnisse

+ Die absolute Fundinghöhe je Land bietet nahezu das selbe Bild, wie die Projektanzahl je Sektor.

__Legende:__ <br>
+ x-Achse: Sektoren<br>
+ y- Achse: Absolute Fundingsumme je Sektor<br>

### Fundingdurchschnitt

In [None]:
# Spalten erstellen
df_sector = df_final.groupby("sector").agg({"sector":np.size, "funded_amount":np.sum})
funded_sum = df_sector["funded_amount"].tolist()
df_sector = df_final.groupby("sector").agg({"sector":np.size, "funded_amount":np.mean})
funded_mean = df_sector["funded_amount"].tolist()
df_sector = df_final.groupby("sector").agg({"sector":np.size, "funded_amount":np.median})
funded_median = df_sector["funded_amount"].tolist()

# DataFrame erstellen und Spalten einfügen
df_sector = df_final.groupby("sector").agg({"sector":np.size})
df_sector = df_sector.rename(columns={"sector": "amount_projects"})
df_sector_fund = df_sector.reset_index()
df_sector_fund.insert(2,'funded_sum',funded_sum)
df_sector_fund.insert(3,'funded_mean',funded_mean)
df_sector_fund.insert(4,'funded_median',funded_median)
df_sector_fund

# Plotten
fig = px.scatter(df_sector_fund, x="funded_mean", y="amount_projects", color="sector", size="funded_sum", 
           hover_name="sector", size_max=60)
fig.show()

##### Erkenntnisse

+ Insgesamt ist das __Finanzierungsvolumen__ dieser Crowdfunding-Plattform __sehr niedrig__ und liegt im Durchschnitt je Sektor zwischen 392 und 1.455 US-Dollar. 
+ Die Sektoren mit der __höchsten durchschnittlichen Finanzierungssumme__ sind auch die beiden "kleinsten" Sektoren: Wholesale (1.455 US Dollar) und Entertainment (1.264 US Dollar)
+ Der Sektor mit der deutlich __niedrigsten durchschnittlichen Finanzierungssumme__ ist Personal Use (392 US Dollar)
+ Die __drei nach Finanzierungsvolumen und Projektanzahl größten Sektoren__ liegen in der Mitte der durchschnittlichen Finanzierungssummen: Agricultere (762 US Dollar), Food (878 US Dollar) und Retail (751 US Dollar)


__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf einen Kreis, werden die jeweiligen Sektoren dargestellt. <br>
+ x-Achse: durchschnittliche Finanzierungssumme je Sektor<br>
+ y- Achse: Anzahl Porjekte je Sektor<br>
+ Kreisgröße: Absolute Finanzierungssumme je Sektor

### Finanzierungserfolg (erhaltene vs. gewünschte Summe)

In [None]:
# DataFrame für Verteilung erstellen
df_success_ratio_sector = df_final.groupby("sector").agg({"success_ratio":np.mean})

# Barplot erstellen
fig = px.bar(df_success_ratio_sector, 
             labels={'value':'sucess_ratio' , 'country_code':'sector'}, 
             height=500).update_xaxes(categoryorder="total ascending")
fig.show()

##### ERKENNTNISSE

+ Die gewünschte Finanzierungssumme wurde in allen Sektoren nahezu erreicht.
+ Alle Sektoren haben eine Quote von 93,9%(Transportation) bis zu 99,5%.
+ Einzig Entertainment liegt mit 89,1% unter der 90% Quote.  

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf einen Balken, werden die jeweiligen Sektoren dargestellt. <br>
+ x-Achse: Sektor <br>
+ y-Achse: Finanzierungserfolg (erhaltene vs. gewünschte Summe) <br>

### Aktivitäten je Sektor

In [None]:
df_activity = df_final.groupby(["sector", "activity"]).agg({"activity":np.size, "funded_amount":np.mean})
df_activity = df_activity.dropna()
funded_mean = df_activity["funded_amount"].tolist()
df_activity = df_final.groupby(["sector", "activity"]).agg({"activity":np.size, "funded_amount":np.median})
df_activity = df_activity.dropna()
funded_median = df_activity["funded_amount"].tolist()

df_activity = df_final.groupby(["sector", "activity"]).agg({"activity":np.size, "funded_amount":np.sum})
df_activ = df_activity.rename(columns={"activity": "amount_projects"})
df_activity = df_activ.reset_index()
df_activity = df_activity.loc[df_activity["funded_amount"]!=0, :]
df_activity.insert(4,'funded_mean',funded_mean)
df_activity.insert(5,'funded_median',funded_median)
df_activity = df_activity.sort_values(by=["funded_mean"])
df_activity_cut = df_activity.loc[df_activity["funded_median"]< 1200, :]
#df_activity = df_activity.loc[df_activity["activity"]!="Renewable Energy Products", :]
#df_activity = df_activity.loc[df_activity["activity"]!="Landscaping / Gardening", :]

fig = px.treemap(df_activity_cut, path=[px.Constant('Overall fundings'), 'sector', 'activity'], values='amount_projects',
                  color='funded_median', hover_name="activity")
fig.show()

##### ERKENNTNISSE

+ Innerhalb der Sektoren ergibt sich ein heterogenes Bild bzgl. des Median je Aktivität.
+ Durch die Farben lassen sich einfach Aktivitäten mit hohem Median (z.B. Vehicel in Personal Use) oder niedrigem Median (z.B. Home Applications in Personal Use) erkennen.
+ Die Sektoren sind unterschiedlich stark in Aktivitäten gegliedert. Retail vereint sehr viele Aktivitäten, Housing oder Education nur zwei oder drei Aktivitäten.

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf den jeweiligen Sektor wird dieser vergrößert angezeigt.<br>
+ Innerhalb der Sektoren finden sich die Aktivitäten je Sektor. <br>
+ Die Größe der Rechtecke repräsentiert die Anzahl der Projekt je Sektor/Aktivität (je mehr Projekte, desto größer ist das Rechteck). <br>
+ Die Farbe ist der __Median__ der Finanzierungssumme je Sektor/Aktivität, aufgrund sehr starker Abweichungen zwischen Durchschnitt und Median.<br>

__Zur Datenbasis__: Insgesamt wurden acht Aktivitäten entfernt (Median >= 1.200 US-Dollar), da der Median vergleichsweise hoch war und die Graphik verzerrt hat. Diese werden im folgenden nach absteigendem Median aufgelistet.

In [None]:
df_activity = df_activity.sort_values(by=["funded_median"], ascending=False)
df_activity.head(8)

## Kontinente und Länder

### Anzahl Projekte nach Kontinenten

In [None]:
# Daten vorbereiten
df_cont_count = df_final.groupby(["continent", "country"]).agg({"continent":np.size, "funded_amount":np.sum})
df_cont_count_rename = df_cont_count.rename(columns={"continent": "amount_projects"})
df_cont_count = df_cont_count_rename.reset_index()
df_cont_count_sorted = df_cont_count.sort_values(by=["amount_projects"])
df_cont_count_sorted_fund = df_cont_count.sort_values(by=["funded_amount"])

# Plotten
fig = px.bar(df_cont_count_sorted_fund, x="continent", y="amount_projects", hover_name="country")
fig.show()

##### ERKENNTNISSE

+ In __Asien__ wurden mit Abstand __am meisten Projekte__ durchgeführt, nahezu doppelt so viele wie im zweitplatzierten Afrika.
+ Nord und Südamerika haben je etwa die Hälfte an Projekten wie Afrika und ein Viertel wie Asien.
+ __Europa und Ozeanien ist minimal im Datensatz__ vertreten.
+ Nordamerika beinhaltet bis auf die USA mit vergleichsweise wenigen Projekten nur Projekte aus mittelamerikanischen Ländern.
+ Westliche und wirtschaftlich starke Nationen sind bis auf die USA nicht im Datensatz vertreten. 
+ Fünf Südamerikanischen Länder haben eine relativ gleiche Anzahl an Projekten auf hohem Niveau.
+ Die __Länder mit den meisten Projekten__ sind die Philippienen (mit großem Abstand: mehr als Nord oder Südamerika insgesamt), klar gefolgt von Kenia und El Salvador.

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken in die Balken, werden die jeweiligen Länder dargestellt. <br>
+ x-Achse: Kontinente, gestapelt in Länder.<br>
+ y-Achse: Anzahl Projekte

### Finanzierungssumme nach Kontinenten

In [None]:
# Daten vorbereiten
df_cont_count = df_final.groupby(["continent", "country"]).agg({"continent":np.size, "funded_amount":np.sum})
df_cont_count_rename = df_cont_count.rename(columns={"continent": "amount_projects"})
df_cont_count = df_cont_count_rename.reset_index()
df_cont_count_sorted = df_cont_count.sort_values(by=["amount_projects"])
df_cont_count_sorted_fund = df_cont_count.sort_values(by=["funded_amount"])

# Plotten
fig = px.bar(df_cont_count_sorted_fund, x="continent", y="funded_amount", hover_name="country")
fig.show()

##### ERKENNTNISSE

+ Die Darstellung __in absoluter Finanzierungssumme__ je Kontinent gibt ein anderes, wesentlich __homogeners Bild__ ab. 
+ Asien ist auch hier an erster Stelle, jedoch nicht mit einem so starkem Abstand.
+ Afrika, Südamerika und Nordamerika liegen fast gleich auf. 
+ Europa und Ozeanien ist weiterhin kaum vertreten.
+ Phillippinen ist weiterhin die Nummer eins, jedoch mit kaum Abstand. 
+ Nach den Phillippinen gibt zahlreiche Länder mit annährend gleichem Niveau und der Übergang ist fließend.  

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken in die Balken, werden die jeweiligen Länder dargestellt. <br>
+ x-Achse: Kontinente, gestapelt in Länder.<br>
+ y-Achse: Absolute Finanzierungssumme

### Finanzierungsdurchschnitt

#### Länder

In [None]:
df_cont_count = df_final.groupby(["continent", "country"]).agg({"continent":np.size, "funded_amount":np.sum})
funded_amount = df_cont_count["funded_amount"].tolist()
df_cont_count = df_final.groupby(["continent", "country"]).agg({"continent":np.size, "funded_amount":np.mean})
country_mean = df_cont_count["funded_amount"].tolist()
df_cont_count = df_final.groupby(["continent", "country"]).agg({"continent":np.size, "funded_amount":np.median})
country_median = df_cont_count["funded_amount"].tolist()

df_cont_count = df_final.groupby(["continent", "country"]).agg({"country":np.size})
df_cont_count_rename = df_cont_count.rename(columns={"country": "amount_projects"})
df_cont_count = df_cont_count_rename.reset_index()
df_cont_count.insert(3,'funded_amount',funded_amount)
df_cont_count.insert(4,'country_mean',country_mean)
df_cont_count.insert(5,'country_median',country_median)
df_cont_count = df_cont_count.sort_values(by=["funded_amount"])
df_cont_count = df_cont_count.loc[df_cont_count["funded_amount"]!=0, :]
df_cont_count = df_cont_count.loc[df_cont_count["country_mean"]<15000, :]

fig = px.scatter(df_cont_count, x="country_mean", y="amount_projects", color="continent", size="funded_amount", 
           hover_name="country", log_x=True, size_max=60)
fig.show()

##### ERKENNTNISSE

+ Die __durchschnittliche Finanzierungssumme__ reicht von 188 US-Dollar (Nigeria) bis zu 7.812 US Dollar (Buthan) 

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf die Kreise, werden die jeweiligen Länder dargestellt. E lässt sich in die + Grpahik zoomen.<br>
+ x-Achse: Länder<br>
+ y-Achse: Anzahl Projekte
+ Kreisgröße: Absolute Finanzierungssumme je Land

#### Top 5 Länder - höchste und niedrigste Durchschnitte 

In [None]:
df_cont_count = df_cont_count.sort_values(by="country_mean")
df_cont_count

#### Kontinente

In [None]:
fig = px.scatter(df_cont_count, x="country_mean", y="amount_projects",
           color="continent", hover_name="country", log_x=True, facet_col="continent", size="funded_amount")
fig.show()

##### ERKENNTNISSE bzgl. durchschnittlichem Finanzierunsvolumen

+ __Ozeanien__: von 395 US Dollar (Guam) bis 2.313 US Dollar (Vanatu) 
+ __Asien__: von 339 (Phillippinen) bis zu 7.812 US Dollar (Buthan). Philippinen hat mit Abstand die meisten Projekte, haben diese ein sehr geringes Volumen je Projekt. 
+ __Afrika__: von 188 US-Dollar (Nigeria) bis zu 6.143 (Congo) <br>
Afrikanische Länder sind am breitesten verteilt und im gesamten Spektrum abgebildet. Die Verteilung ist gleichmäßig. 
+ __Süd Amerika__: von 567 (Colombia) bis zu 7.625 US Dollar (Chile). Wie bereits ersichtlich machen fünf Länder den Löwenanteil der Projekte aus. Diese sind in einem engeren Rahmen bzgl. durchschnittlichen Finanzierungsvolumen verteilt, von 567 (Columbia) bis 2.471 US Dollar (Paraguay)
+ __Nord Amerika__: von 585 (Es Salvador) bis zu 4.409 (Puerto Rico). <br>
Die USA haben mit 3.800 US Dollar durchschnittlichem Finanzierunsvolumen ein im Rahmen dieses Datensatzes überdurchschnittliches Volumen, doch als einzige Industrienation dennoch kein deutlich höheres Volumen als die anderen Länder 
+ __Europa__: von 437 (Türkei) bis zu 1.974 US Dollar (Moldavien) 

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf die Kreise, werden die jeweiligen Länder dargestellt. E lässt sich in die Grpahik zoomen.<br>
+ x-Achse: Länder<br>
+ y-Achse: Anzahl Projekte
+ Kreisgröße: Absolute Finanzierungssumme je Land

### Finanzierungserfolg (erhaltene vs. gewünschte Summe)

#### Je Kontinent

In [None]:
# DataFrame für Verteilung erstellen
df_success_ratio = df_final.groupby("continent").agg({"success_ratio":np.mean})

# Barplot erstellen
fig = px.bar(df_success_ratio, 
             labels={'value':'success_ratio', 'country_code':'continent'}, 
             height=500).update_xaxes(categoryorder="total ascending")
fig.show()

##### ERKENNTNISSE

+ Alle Kontinente liegen zwischen 94,8% (Ozeanien) und 97,3% (Asien)
+ Einzig Nordamerika weicht mit 91,7% etwas ab.<br>

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf einen Balken, werden die jeweiligen Kontinente dargestellt. <br>
+ x-Achse: Kontinent <br>
+ y-Achse: Finanzierungserfolg (erhaltene vs. gewünschte Summe) <br>

#### Je Land

In [None]:
# DataFrame für Verteilung erstellen
df_success_na = df_final.groupby("country").agg({"success_ratio":np.mean})

# Barplot erstellen
fig = px.bar(df_success_na, 
             labels={'value':'success_ratio', 'country_code':'country'}, 
             height=500).update_xaxes(categoryorder="total ascending")
fig.show()

##### ERKENNTNISSE

+ Der Großteil der Länder liegt über 90% 
+ Lediglich sieben Ländern haben eine Quote <90%: <br>
Myanmar, Armenien: 88%<=Finanzierungsquote<90% <br>
Puerto Rico, Bhutan, USA: 70%<=Finanzierungsquote<79%<br>
Guam, Virgin Islands: 0%<=Finanzierungsquote<10%<br>
Alle Kontinente liegen zwischen 94,8% (Ozeanien) und 97,3% (Asien)<br>
+ Die niedrige Quote der USA als Land mit zweithöchsten Finanzierungsvolumen innerhalb Nordamerikas erklärt auch das Abweichen des Kontinents von den übrigen fünf Kontinenten.<br>

__Legende:__ <br>
+ Die Graphik ist interaktiv. Durch klicken auf einen Balken, werden die jeweiligen Länder dargestellt. <br>
+ x-Achse: Land <br>
+ y-Achse: Finanzierungserfolg (erhaltene vs. gewünschte Summe) <br>

## Länder und Sektoren im Verhältnis

In [None]:
# Vorbereitung der Daten
df_count_sect = df_final.groupby(["continent", "country", "sector", "activity"]).agg({"funded_amount":np.mean, "activity":np.size})
df_activ = df_count_sect.rename(columns={"activity": "amount_projects"})
df_count_sect = df_activ.reset_index()
df_count_sect = df_count_sect.dropna()
df_count_sect = df_count_sect.sort_values(by=["funded_amount"])
df_count_sect["amount_projects"] = df_count_sect["amount_projects"].astype("float")
df_count_sect["funded_amount"] = df_count_sect["funded_amount"].astype("float")
df_count_sect["sector"] = df_count_sect["sector"].astype("object")
df_count_sect["activity"] = df_count_sect["activity"].astype("object")
df_count_sect_a = df_count_sect.loc[df_count_sect["funded_amount"]< 1639, :] 
df_count_sect_b = df_count_sect.loc[(df_count_sect["funded_amount"]>= 1639) & (df_count_sect["funded_amount"]<10000)] 
df_count_sect_c = df_count_sect.loc[df_count_sect["funded_amount"]>= 10000, :] 
#df_count_sect = df_count_sect.loc[df_count_sect["funded_amount"]>0, :]

### Aufteilung Projekte

Für eine bessere Lesbarkeit der folgenden Graphike wurden die Projekte nach durchschnittlicher Finanzierungshöhe in drei Gruppen aufgeteilt:
+ Projekte < 1.639 US Dollar. Entspricht 4.698 Projekten (bis drittes Quartil = untere 75% der Projekte)
+ Projekte >= 1.639 und <10.000 US-Dollar. Entspricht 1.534 Projekten
+ Projekte >= 10.000 US-Dollar.Entspricht 32 Projekten

Die Graphiken kombinieren die bisherigen Erkenntnisse bzgl. der Projekt-Verteilungen nach Ländern bzw. Sektoren. 
Sie dienen dazu, sich einzelne Länder oder Kontinente detaillierte anschauen zu können. 

__Legende__:<br>
+ Die Graphiken sind interaktiv. Durch das Klicken auf einen Kontinent/Land/Aktivität wird diese im Detail dargestellt. Über die obere Leiste kommt man wieder in die globale Ansicht zurück.

### Durchschnittliche Finanzierung < 1.639 US-Dollar (drittes Quartil) 
Entspricht 4.698 Projekten (bis drittes Quartil = untere 75% der Projekte)

In [None]:
fig = px.treemap(df_count_sect_a, path=[px.Constant('world'), 'continent','country', 'sector'], values='amount_projects',
                  color='funded_amount')
fig.show()

### Durchschnittliche Finanzierung >= 1.639 und < 10.000 US-Dollar
Entspricht 1.534 Projekten

In [None]:
fig = px.treemap(df_count_sect_b, path=[px.Constant('world'), 'continent','country', 'sector'], values='amount_projects',
                  color='funded_amount')
fig.show()

### Durchschnittliche Finanzierung > 10.000 US-Dollar
Entspricht 32 Projekten

In [None]:
fig = px.treemap(df_count_sect_c, path=[px.Constant('world'), 'continent','country', 'sector'], values='amount_projects',
                  color='funded_amount')
fig.show()

## Anzahl Darlehensgeber

### Darlehenshöhe und Anzahl Darlehensgeber je Sektor

In [None]:
# Daten für ax1 vorbereiten
df_funding_sector = df_final.groupby("sector").agg({"funded_amount":np.mean})
df_fund_sector_sorted = df_funding_sector.sort_values(by=["funded_amount"], ascending=True)
df_fund_sector_sorted

# Daten für ax2 vorbereiten
df_funding_lender = df_final.groupby("sector").agg({"lender_count":np.mean,"funded_amount":np.mean})
df_funding_lender_sorted = df_funding_lender.sort_values(by=["funded_amount"], ascending=True)
df_funding_lender_sorted

# Plot erstellen
fig, ax1 = plt.subplots(figsize=(10,8))
sns.set_style("whitegrid")
sns.barplot(x=df_fund_sector_sorted.index, y=df_fund_sector_sorted["funded_amount"], palette="Blues",data=df_fund_sector_sorted, ax=ax1)

ax1.xaxis.set_tick_params(rotation=70, labelsize=10)
ax1.set_ylabel("Durchschnitt Darlehenshöhe in US-Dollar (Balken)", fontsize=14)
ax1.set_xlabel("Sektor", fontsize=14)

ax2 = ax1.twinx()
ax2 = sns.lineplot(x=df_funding_lender_sorted.index, y=df_funding_lender_sorted["lender_count"], data=df_funding_lender_sorted, color="darkred")
ax2.set_ylabel('Durchschnitt Anzahl Darlehensgeber (Linie)', fontsize=14)

plt.show()

##### ERKENNTNISSE
+ Aus dem Pairplot ging bereits augenscheinlich hervor, dass es einen Zusammenhang zwischen der Darlehenshöhe und der Anzahl der Darlehensgeber besteht.
+ Dieser Zusammenhang besteht augenscheinlich ebenso je Sektor.
+ Der Zusammenhang scheint sich zu den jeweiligen Polen zu verstärken. Je höher das durchschnittliche Darlehen, desto mehr Darlehensgeber (Wholesale) und umgekehrt (Personal Use). 

__Legende:__ <br>
+ x-Achse: Sektoren.<br>
+ y-Achse links: Durchschnitt Darlehenshöhe in US-Dollar (Balken) <br>
+ y-Achse rechts: Durchschnitt Anzahl Darlehensgeber (Linie

### Darlehenshöhe und Anzahl Darlehensgeber je Land

In [None]:
# Daten für ax1 vorbereiten
df_funding_sector = df_final.groupby("country").agg({"funded_amount":np.mean})
df_fund_sector_sorted = df_funding_sector.sort_values(by=["funded_amount"], ascending=True)

# Daten für ax2 vorbereiten
df_funding_lender = df_final.groupby("country").agg({"lender_count":np.mean,"funded_amount":np.mean, "loan_amount":np.size})
df_funding_lender_sorted = df_funding_lender.sort_values(by=["funded_amount"], ascending=True)
df_funding_lender_sorted

# Plot erstellen
fig, ax1 = plt.subplots(figsize=(14,9))
sns.set_style("whitegrid")
sns.barplot(x=df_fund_sector_sorted.index, y=df_fund_sector_sorted["funded_amount"], palette="Blues",data=df_fund_sector_sorted, ax=ax1)

ax1.xaxis.set_tick_params(rotation=70, labelsize=10)
ax1.set_ylabel("Durchschnitt Darlehenshöhe in US-Dollar (Balken)", fontsize=14)
ax1.set_xlabel("Sektor", fontsize=14)

ax2 = ax1.twinx()
ax2 = sns.lineplot(x=df_funding_lender_sorted.index, y=df_funding_lender_sorted["lender_count"], data=df_funding_lender_sorted, color="darkred")
ax2.set_ylabel('Durchschnitt Anzahl Darlehensgeber (Linie)', fontsize=14)

plt.show()

##### ERKENNTNISSE
+ Je Land ergibt sich ähnliches Bild, wie bereits bei den Sektoren: Es besteht augenscheinlich ein Zusammenhang zwischen der Darlehenshöhe und der Anzahl der Darlehensgeber besteht.
+ Anders als bei den Sektoren scheint sich der Zusammenhang nicht zu den jeweiligen Polen zu verstärken, sondern steigt gleichmäßig mit der Höhe der durchschnittlichen Darlehenssumme 

__Legende:__ <br>
+ x-Achse: Länder.<br>
+ y-Achse links: Durchschnitt Darlehenshöhe in US-Dollar (Balken) <br>
+ y-Achse rechts: Durchschnitt Anzahl Darlehensgeber (Linie)

### Anzahl Darlehensgeber: erfolgreiche vs. nicht erfolgreiche Finanzierung (<50%)

In [None]:
# Daten vorbereiten

# Elfenbeinküste, Mauretanien, Buthan und Afghanistan entfernen, da sie bis zu 17 mal so viele Darlehensgeber hat, 
# wie die anderen 95% der Länder und somit die Graphik stark verzerrt. Virgin Islands entfernen, da keine 
# Projekte gefördert wurden. Die Entferrnungen haben keinen Einfluss auf die Aussage der Graphik.
df_fin_len = df_final.copy()
df_fin_len = df_fin_len.loc[df_fin_len["country_code"]!="CI",:]
df_fin_len = df_fin_len.loc[df_fin_len["country_code"]!="MR",:]
df_fin_len = df_fin_len.loc[df_fin_len["country_code"]!="BT",:]
df_fin_len = df_fin_len.loc[df_fin_len["country_code"]!="AF",:]
df_fin_len = df_fin_len.loc[df_fin_len["country_code"]!="VI",:]

# DataFrame mit erfolgreichen Fundings (Erfolgsquote = 100%), mit wenig erfolgreichen (Erfolgsquote < 50%) 
# und dazwischen liegenden erstellen
df_success = df_fin_len.loc[df_fin_len["success_classes"]=="Gleich100",:]
df_no_success = df_fin_len.loc[df_fin_len["success_classes"]=="KleinerGleich50",:]

# Daten für ax1
df_fund_country = df_fin_len.groupby("country").agg({"lender_count":np.mean, "funded_amount":np.mean})
df_fund_country_sorted = df_fund_country.sort_values(by=["funded_amount"], ascending=True)

# Daten für ax2_success 
df_succ_sect = df_success.groupby("country").agg({"lender_count":np.mean, "funded_amount":np.mean})
df_succ_sect_sorted = df_succ_sect.sort_values(by=["funded_amount"], ascending=True)

# Daten für ax3_no_success 
df_no_succ_sect = df_no_success.groupby("country").agg({"lender_count":np.mean, "funded_amount":np.mean})
df_no_succ_sect_sorted = df_no_succ_sect.sort_values(by=["funded_amount"], ascending=True)

# Daten plotten
fig, ax1 = plt.subplots(figsize=(15,12))
sns.set_style("whitegrid")
sns.barplot(x=df_fund_country_sorted.index, y=df_fund_country_sorted["lender_count"], color="grey",data=df_fund_country_sorted, ax=ax1)

ax1.xaxis.set_tick_params(rotation=90, labelsize=9)
ax1.set_xlabel("Länder", fontsize=14)
ax1.set_ylabel("Durchschnitt Anzahl Darlehensgeber: alle Projekte(graue Balken)", fontsize=14)

ax2 = ax1.twinx()
ax2 = sns.lineplot(x=df_succ_sect_sorted.index, y=df_succ_sect_sorted["lender_count"], data=df_succ_sect_sorted, color="lightcoral")
ax2.set_ylabel('Durchschnitt Anzahl Darlehensgeber: erfolgreiche Projekte (100%, rosa), nicht erfolgreiche Projekte(50%, rot)', fontsize=14)

ax3 = sns.lineplot(x=df_no_succ_sect_sorted.index, y=df_no_succ_sect_sorted["lender_count"], data=df_no_succ_sect_sorted, color="darkred")

plt.show()

##### Erkenntnisse

- Weniger erfolgreiche Teams haben in fast allen Ländern __deutlich weniger Darlehensgeber__. Dies scheint schlüssig, da sie ggf. weniger Personen für Ihre Idee gewinnen konnten. Ein anderer Grund könnte sein, dass mehr Personen eher in der Lage sind, eine Idee angemessen zu bewerten. 

- Die __Unterschiede je Land sind sehr hetegerogen__. Hier könnte weitere Analyse Anhaltspunkte geben, z.B. spielt höchstwahrscheinlich die Darlehenshöhe hier wiederum eine Rollen. Eine Betrachtung je Kontinent und somit kulturelle Hintergründe könnte weiteren Aufschluss geben.

__Legende:__ <br>
+ x-Achse: Länder.<br>
+ y-Achse links (graue Balken): Durchschnitt Anzahl Darlehensgeber alle Projekte <br>
+ y-Achse rechts (rosa Linie): Durchschnitt Anzahl Darlehensgeber Projekte 100% Finanzierung <br>
+ y-Achse rechts (rote Linie): Durchschnitt Anzahl Darlehensgeber Projekte 50% Finanzierung <br>

__Datenbasis__: Elfenbeinküste, Mauretanien, Buthan und Afghanistan wurden aus der Analyse ausgeschlossen, da sie bis zu 17 mal so viele Darlehensgeber haben, wie die anderen 95% der Länder und die Graphik stark verzerrt. Virgin Islands wurde entfernt, da keine Projekte gefördert wurden. Es verbleiben 82 von 87 Ländern. Die Entferrnungen haben keinen Einfluss auf die Aussage der Graphik.

## Geschlecht, Teamgröße & Kreditrückzahlungsart

### Geschlecht und Teamgröße

In [None]:
# Variable Projektanzahl einfügen und Nullwrete entfernen
df_final_test = df_final.copy()
df_final_test["project_count"] = 1
df_final_test = df_final_test.dropna()

fig = px.sunburst(df_final_test, path=['sex_majority', 'team_category'], values='project_count')
fig.show()

##### ERKENNTNISSE
+ __Geschlecht__: Über zwei Drittel aller Projekte wird von Frauen bzw. von Teams durchgeführt, in denen mehr Frauen als Männer sind.
+ __Team Größe__: Bei Teams, deren Einzelpersonen Männer sind oder mehr Männer in Teams sind als Frauen, gibt es mehr „Einpersonen-Teams", als dies bei Frauen oder Frauen dominierten Teams der Fall ist.  

__Legende:__ <br>
Die Graphik ist interaktiv. Durch klicken in Elemente des inneren Kreises, wird die Verteilung des jeweiligen Elements angezeigt. 
+ Der innere Kreis gibt das Geschlecht wieder. Hierbei wird unterschieden, welches Geschlecht in einem Team häufiger vertreten ist.
+ Der äußere Kreis gibt die Teamkategorien wieder (1 Person, 2 bis 5 Personen, 6 und mehr Personen)

__Zur Datenbasis__: Aus dem Datensatz wurden 27.500 Datensätze entfernt (4% des Gesamt-Datensatzen), da diese Datensätze Nullwerte bei beiden verwendeten Variablen enthielten.

### Verteilung Geschlecht je Kontinent

In [None]:
# Daten vorbereiten
df_cont_count = df_final.groupby(["continent", "country", "sex_majority"]).agg({"continent":np.size, "funded_amount":np.sum})
df_cont_count_rename = df_cont_count.rename(columns={"continent": "amount_projects"})
df_cont_count = df_cont_count_rename.reset_index()
df_cont_count_sorted = df_cont_count.sort_values(by=["amount_projects"])
df_cont_count_sorted_fund = df_cont_count.sort_values(by=["funded_amount"])

# Plotten
fig = px.bar(df_cont_count_sorted_fund, x="continent", y="amount_projects", color="sex_majority", barmode="group", hover_name="country")
fig.show()

##### ERKENNTNISSE
+ In jedem Kontinent gibt es mehr Frauen- als Männerdominierte Teams.
+ Besonders in Asien ist der Frauenanteil circa sechsmal so hoch, wie bei Männern. Dabei machen wiederum die Philippinen  die Hälfte der Projekte aus. 
+ Bei allen anderen Kontinenten ist die Anzahl der Frauendominierten Projekte circa doppelt so hoch, wie bei den Männerdomierten Projekten.
+ Ein Grund für den hohen Frauenanteil könnte der Entwicklungstand der Länder sein. So gut wie alle Länder sind Schwellenländer oder Entwicklungsländer, bei denen ggf. die Frauen beschränktere Verdienstmöglichkeiten haben und daher selber Projekte starten. Dies würde auch die kleine Teamgröße von überwiegend ein Personenteams erklären.   

__Legende:__ <br>
Die Graphik ist interaktiv. Durch klicken in die Balken, werden die jeweiligen Länder angezeigt. 
+ x-Achse: Kontinente, gestappelt nach Ländern, und unterschieden nach Teams mit größerem Frauenanteil, bzw Männeranteil. Aus vorherigen Analysen wissen wir, dass es sich meist um ein Personen Teams handelt. 
+ y-Achse: Anzahl Projekte.

__Zur Datenbasis__: Aus dem Datensatz wurden 27.500 Datensätze entfernt (4% des Gesamt-Datensatzen), da diese Datensätze Nullwerte bei beiden verwendeten Variablen enthielten.

### Rückzahlungmodus bzgl. Anzahl Darlehensgeber

In [None]:
fig = px.sunburst(df_final_test, path=['repayment_interval', 'lender_count'], values='project_count')
fig.show()

##### Erkenntnisse
+ Monatliche Rückzahlung ist mit 50% die häufigste Rückzahlungsart, gefolgt von irregulären Rückzahlung. Wöchentliche Rückzahlung sind minimal vertreten.
+ Darlehen die nur von einer Person gewährt werden, finden sich überwiegend bei irregulären Rückzahlungen. 

__Legende:__ <br>
Die Graphik ist interaktiv. Durch klicken in Elemente des inneren Kreises, wird die Verteilung des jeweiligen Elements angezeigt. 
+ Der innere Kreis gibt den Rückzahlungsmodus wieder (Monatliche, wöchentliche Rückzahlung, Bullet (Endfälliges Darlehen: gesamter Darlehensbetrag wird erst am Ende der Darlehenslaufzeit fällig) und unregelmäßige Rückzahlung)
+ Der äußere Kreis gibt die Anzahl der Darlehensgeber wieder. 

__Zur Datenbasis__: Aus dem Datensatz wurden 27.500 Datensätze entfernt (4% des Gesamt-Datensatzen), da diese Datensätze Nullwerte bei beiden verwendeten Variablen enthielten.

### Rückzahlungmodus bzgl. Geschlecht und Teamgröße

In [None]:
# Daten vorbereiten
df_facetplot = df_final.copy()
df_facetplot["project_count"] = 1
df_facetplot_oNaN = df_facetplot.dropna(0)
df_team_credit_cond = df_facetplot_oNaN.groupby(["sex_majority", "team_category", 
                                                 "repayment_interval"]).agg({"project_count":np.size})
df_team_credit_cond.reset_index(inplace=True)

# Daten plotten
fig = px.bar(df_team_credit_cond, x="team_category", y="project_count", color="sex_majority", barmode="group", facet_col="repayment_interval", 
       category_orders={"repayment_interval": ["bullet", "irregular", "monthly", "weekly"]})
fig.show()

##### Erkenntnisse
+ __Frauen__ scheinen mehr individuelle Bedingungen (irregular repayment) zu erhalten.
+ __Männer__ erhalten eher einen monatlichen Kreditrückzahlungsmodus und insbesondere einen Bullet-Kredit erhalten. Der Anteil der Männerdominierten Teams ist bei diesen Finanzierungsformen größer.
- __Bulletkredite__ gehen weniger an Einzelpersonen als bei den anderen Kreditformen. Bulletkredite werden eher für Gründungen mit unregelmäßigen Rückflüssen verwendet. Dies könnte für komplexere Projekte sprechen, bei denen  spezifischen Fachwissen und somit mehr Personen von Nöten sind und bei denen erst zu einem späteren Zeitpunkt die Leistung abgeliefert wird (z.B. die Lieferung eines Systems). 

__Legende:__ <br>
+ x-Achse: Teamgrößenklassen
+ y-Achste: Anzahl Projekte
+ Einzelne Boxen: Art der Darlehensrückzahlung: Bullet (Endfälliges Darlehen: gesamter Darlehensbetrag wird erst am Ende der Darlehenslaufzeit fällig), unregelmäßige Rückzahlung, monatliche und wöchentliche Rückzahlung.

__Zur Datenbasis__: Aus dem Datensatz wurden 27.500 Datensätze entfernt (4% des Gesamt-Datensatzen), da diese Datensätze Nullwerte bei beiden verwendeten Variablen enthielten.

### Geschlecht und Finanzierungserfolg

In [None]:
fig = px.sunburst(df_final_test, path=['success_classes', 'sex_majority'], values='project_count')
fig.show()

##### Erkenntnisse
+ Bei Projekten, die 100% der gewünschten Finanzierungssumme erhalten haben ist der Anteil mit Frauendominierten Teams deutlich höher (circa 75%) als bei Projekten, die nicht die gewünschte Finanzierungssumme erhalten haben. Hier ist die Verteilung circa 50% Frauen- und 50% Männerdominierte Teams.
+ Ausgehend von dieser Übersicht sind Frauendominierte Teams erfolgreicher im Erhalt der gewünschten Finanzierungssumme.

__Legende:__ <br>
Die Graphik ist interaktiv. Durch klicken in Elemente des inneren Kreises, wird die Verteilung des jeweiligen Elements angezeigt. 
+ Der innere Kreis gibt die Projekte wieder, die Verteilung der erreichten Finanzierungsumme wieder (100%, kleiner 100% und größer 50%, kleiner 50%). 
+ Der äußere Kreis gibt wieder, ob in einem Team mehr Frauen oder Männer sind. 

### Geschlecht je Land und Sektor

### Aufteilung Projekte

Für eine bessere Lesbarkeit der folgenden Graphike wurden die Projekte nach durchschnittlicher Finanzierungshöhe in drei Gruppen aufgeteilt:
+ Projekte < 1.639 US Dollar. Entspricht 4.698 Projekten (bis drittes Quartil = untere 75% der Projekte)
+ Projekte >= 1.639 und <10.000 US-Dollar. Entspricht 1.534 Projekten
+ Projekte >= 10.000 US-Dollar.Entspricht 32 Projekten

Die Graphiken kombinieren die bisherigen Erkenntnisse bzgl. der Projekt-Verteilungen nach Ländern und Teamzusammensetzung hinsichtlich Geschlecht (sind in einem Team mehr Frauen oder Männer). 
Sie dienen dazu, sich einzelne Länder oder Kontinente detaillierte anschauen zu können. 

__Legende__:<br>
+ Die Graphiken sind interaktiv. Durch das Klicken auf einen Kontinent/Land/Aktivität wird diese im Detail dargestellt. Über die obere Leiste kommt man wieder in die globale Ansicht zurück.

In [None]:
# Vorbereitung der Daten
df_count_sect = df_final.groupby(["continent", "country", "sector", "sex_majority"]).agg({"funded_amount":np.mean, "sex_majority":np.size})
df_activ = df_count_sect.rename(columns={"sex_majority": "amount_projects"})
df_count_sect = df_activ.reset_index()
df_count_sect = df_count_sect.dropna()
df_count_sect = df_count_sect.sort_values(by=["funded_amount"])
df_count_sect["amount_projects"] = df_count_sect["amount_projects"].astype("float")
df_count_sect["funded_amount"] = df_count_sect["funded_amount"].astype("float")
df_count_sect["sector"] = df_count_sect["sector"].astype("object")
df_count_sect["sex_majority"] = df_count_sect["sex_majority"].astype("object")
df_count_sect_a = df_count_sect.loc[df_count_sect["funded_amount"]< 1639, :] 
df_count_sect_b = df_count_sect.loc[(df_count_sect["funded_amount"]>= 1639) & (df_count_sect["funded_amount"]<10000)] 
df_count_sect_c = df_count_sect.loc[df_count_sect["funded_amount"]>= 10000, :] 
#df_count_sect = df_count_sect.loc[df_count_sect["funded_amount"]>0, :]

#### Durchschnittliche Finanzierung < 1.639 US-Dollar (drittes Quartil) 
Entspricht 4.698 Projekten (bis drittes Quartil = untere 75% der Projekte)

In [None]:
fig = px.treemap(df_count_sect_a, path=[px.Constant('world'), 'continent','country', 'sector', 'sex_majority'], values='amount_projects',
                  color='funded_amount')
fig.show()

#### Durchschnittliche Finanzierung >= 1.639 und < 10.000 US-Dollar
Entspricht 1.534 Projekten

In [None]:
fig = px.treemap(df_count_sect_b, path=[px.Constant('world'), 'continent','country', 'sector', 'sex_majority'], values='amount_projects',
                  color='funded_amount')
fig.show()

#### Durchschnittliche Finanzierung > 10.000 US-Dollar
Entspricht 32 Projekten

In [None]:
fig = px.treemap(df_count_sect_c, path=[px.Constant('world'), 'continent','country', 'sector', 'sex_majority'], values='amount_projects',
                  color='funded_amount')
fig.show()

##### Erkenntnisse
+ Wie im gesamten Datensatz sind in den meisten Ländern Frauendominierte Teams in der Überzahl.
+ Erst bei Projekten über 10.000 Finanzierungsumme tauchen häufiger Männerdominierte Teams auf. 
+ In den USA als "Erstewelt Land" ist die Verteilung 50% zu 50%. Dies stärkt die These, dass Frauen in Schwellen- und Entwicklungsländern auf alternative Methoden der Unterhaltsgenerierung zurück greifen müssen.

# Zusammenfassung Erkenntnisse

##### Kernaussagen
Bei dem Datensatz handelt es sich um weltweit durchgeführte Crowdfunding Projekte. Der Datensatz beinhaltet 690.885 Projekte.<br>
+ __Finanzierungssumme und Laufzeit__: 
75% Prozent der Projekte hat eine Finanzierungssumme von maximal 925 US-Dollar mit einer Laufzeit von bis zu 14 Monaten.
Innerhalb der 15 Sektoren wurden die meisten Projekte in den Sektoren Agriculture (184.176), Food (140.694) und Retail (126.261) durchgeführt. Die wenigsten in Wholesale (641) und Entertainment (858).
+ __Kontinente und Länder__: 
In Asien wurden mit Abstand am meisten Projekte durchgeführt, nahezu doppelt so viele wie im zweitplatzierten Afrika. Europa und Ozeanien ist minimal im Datensatz vertreten. Außer den USA wurden nur Projekte in Schellenländern und Entwicklungsländern finanziert.
+ __Geschlecht und Teamgröße__: Über zwei Drittel aller Projekte wird von Frauen bzw. von Teams durchgeführt, in denen mehr Frauen als Männer sind. Bei mindestens 75%  der Projekte beträgt die Teamgröße eine Person. <br>
Ein Grund für den hohen Frauenanteil könnte der Entwicklungstand der Länder sein. So gut wie alle Länder sind Schwellenländer oder Entwicklungsländer, bei denen ggf. die Frauen beschränktere Verdienstmöglichkeiten haben und daher selber Projekte starten. Dies würde auch die kleine Teamgröße von überwiegend ein Personenteams erklären.   
+ __Anzahl Darlehensgeber__: Die Anzahl der Darlehensgeber steigt gleichmäig an (1tes Quartil: 7, 2tes Quartil 13 und 3tes 25 Darlehensgeber). Augenscheinlich gibt es einen Zusammenhang zur Anzahl Darlehensgeber - je höher die Finanzierungssumme, desto höher die Anzahl der Darlehensgeber
+ __Rückzahlungsmodaliläten__: 
Monatliche Rückzahlung ist mit 51,4% die häufigste Rückzahlungsart, gefolgt von irregulären Rückzahlungen (38,4%) und Endfälligem Darlehen (10,1%). Wöchentliche Rückzahlung sind minimal vertreten (0,1%). Darlehen die nur von einer Person gewährt werden, finden sich überwiegend bei irregulären Rückzahlungen. Frauen erhalten verhältnismäßig viele irreguläre Bedingungen, Männer monatlichen Kreditrückzahlungen und Endfällige Darlehen. 
+ __Finanzierungserfolg (Anteil erreichtes Finanzierungsvolumen am gewünschten Finanzierungsvolumen)__: 
90% der Projekte hat einen Finanzierungserfolg von 100%. <br>
Weniger erfolgreiche Teams (50% erreichte Finanzierungssumme) haben deutlich weniger Darlehensgeber. Dies lässt sich ggf. darauf zurückführen, dass weniger Personen für die Projekt-Idee gewonnen werden konnten bzw., dass mehr Personen besser in der Lage sind, eine Idee angemessen zu bewerten. <br>
Die Unterschiede je Land sind sehr heterogen. Hier könnte weitere Analyse Anhaltspunkte geben, z.B. spielt ggf. die Darlehenshöhe wiederum eine Rolle sowie kulturelle Gründe. <br>
Frauendominierte Teams sind erfolgreicher im Erhalt der gewünschten Finanzierungssumme. Bei Projekten mit 100% Finanzierungserfolg sind 75% frauendominierte Teams, bei Projekten, die die gewünschte Finanzierungssumme nicht erhalten haben. Hier ist die Verteilung circa 50% Frauen- und 50% Männerdominierte Teams.



##### Die Ergebnisse im Detail
+ __Zum Datensatz__
Bei dem Datensatz handelt es sich um weltweit durchgeführte Crowdfunding Projekte. Der Datensatz beinhaltet 690.885 Projekte.
+ __Finanzierungshöhe und Dauer__
Bei den ausgegebenen Krediten handelt es sich um überwiegend Kleinst-Kredite bis maximal 925 US-Dollar (75% der Projekte) mit einer Laufzeit von bis zu 14 Monaten. Nur die oberen 25% der Variablen „erhaltene Finanzierungssumme“, „gewünschte Finanzierungssumme“ und „Finanzierungsdauer“ hat eine größere Varianz. Es gibt 32 Projekte mit einer Finanzierungssumme über 10.000 US-Dollar. Die größte Finanzierungssumme beträgt 50.000 US-Dollar, die längste Finanzierungsdauer beträgt 158 Monate.
+ __Sektoren__
Insgesamt gibt es 15 Sektoren. Die Sektoren, die mit großem Abstand am meisten Projekte haben, sind Agriculture (184.176), Food (140.694) und Retail (126.261). Die Sektoren, die am wenigsten Projekte haben sind Wholesale (641) und Entertainment (858). Die übrigen 10 Sektoren liegen zwischen 6.524 und 46.477 Projekten.
Die Sektoren mit der höchsten durchschnittlichen Finanzierungssumme sind auch die beiden "kleinsten" Sektoren: Wholesale (1.455 US Dollar) und Entertainment (1.264 US Dollar). Der Sektor mit der deutlich niedrigsten durchschnittlichen Finanzierungssumme ist Personal Use (392 US Dollar).Die drei nach Finanzierungsvolumen und Projektanzahl größten Sektoren liegen bei durchschnittlichen Finanzierungssummen von: Agricultere (762 US Dollar), Food (878 US Dollar) und Retail (751 US Dollar). 
Die gewünschte Finanzierungssumme wurde in allen Sektoren nahezu erreicht. Alle Sektoren haben eine Quote von 93,9%(Transportation) bis zu 99,5%. Einzig Entertainment liegt mit 89,1% unter der 90% Quote.  
+ __Kontinente und Länder__
In Asien wurden mit Abstand am meisten Projekte durchgeführt, nahezu doppelt so viele wie im zweitplatzierten Afrika. Nord und Südamerika haben je etwa die Hälfte an Projekten wie Afrika und ein Viertel wie Asien. Europa und Ozeanien ist minimal im Datensatz vertreten.<br> 
Westliche und wirtschaftlich starke Nationen sind bis auf die USA nicht im Datensatz vertreten. Die Länder mit den meisten Projekten sind die Philippinen (mit großem Abstand: mehr als Nord oder Südamerika insgesamt), gefolgt von Kenia und El Salvador.<br> 
Die durchschnittliche Finanzierungssumme reicht von 188 US-Dollar (Nigeria) bis zu 7.812 US Dollar (Buthan). Ozeanien__: von 395 US Dollar (Guam) bis 2.313 US Dollar (Vanatu).<br> 
Bzgl. des Finanzierungserfolges (Erreichte Finanzierungssumme in Bezug auf gewünschte Finanzierungssumme) liegen alle Kontinente 94,8% (Ozeanien) und 97,3% (Asien). Einzig Nordamerika weicht mit 91,7% etwas ab. Dies lässt sich durch die niedrige Quote der USA (70%) als Land mit zweithöchsten Finanzierungsvolumen innerhalb Nordamerikas erklären. <br> 
In jedem Kontinent gibt es mehr Frauen- als Männerdominierte Teams. Besonders in Asien ist der Frauenanteil circa sechsmal so hoch, wie bei Männern. Dabei machen wiederum die Philippinen die Hälfte der Projekte aus. Bei allen anderen Kontinenten ist die Anzahl der Frauendominierten Projekte circa doppelt so hoch, wie bei den Männerdomierten Projekten.<br> 
Ein Grund für den hohen Frauenanteil könnte der Entwicklungstand der Länder sein. So gut wie alle Länder sind Schwellenländer oder Entwicklungsländer, bei denen ggf. die Frauen beschränktere Verdienstmöglichkeiten haben und daher selber Projekte starten. Dies würde auch die kleine Teamgröße von überwiegend "Ein-Personenteams" im Datensatz erklären (siehe Teamgröße). 
+ __Geschlecht__
Über zwei Drittel aller Projekte wird von Frauen bzw. von Teams durchgeführt, in denen mehr Frauen als Männer sind.<br>
Frauendominierte Teams sind erfolgreicher im Erhalt der gewünschten Finanzierungssumme. Bei Projekten, die 100% der gewünschten Finanzierungssumme erhalten haben ist der Anteil mit Frauendominierten Teams deutlich höher (circa 75%) als bei Projekten, die nicht die gewünschte Finanzierungssumme erhalten haben. Hier ist die Verteilung circa 50% Frauen- und 50% Männerdominierte Teams.<br> 
Im gesamten Datensatz sind in den meisten Ländern Frauendominierte Teams in der Überzahl. In den USA als "Erstewelt Land" ist die Verteilung 50% zu 50%. Dies stärkt die These, dass Frauen in Schwellen- und Entwicklungsländern auf alternative Methoden der Unterhaltsgenerierung zurück greifen müssen.<br> 
Erst bei Projekten über 10.000 Finanzierungsumme tauchen häufiger Männerdominierte Teams auf. 
+ __Teamgröße__
Bei dem Großteil handelt es sich um Ein-Personen-Teams handelt (ersten drei Quartile). Bei Teams, deren Einzelpersonen Männer sind oder mehr Männer in Teams sind als Frauen, gibt es mehr „Einpersonen-Teams", als dies bei Frauen oder Frauen dominierten Teams der Fall ist.  
+ __Anzahl Darlehensgeber__
Die Anzahl der Darlehensgeber ist in den unteren drei Quartilen gleichmäßig ansteigend (1tes Quartil: 7, 2tes Quartil 13 und 3tes 25 Darlehensgeber). Das Projekt mit den meisten Darlehensgebern hat 1765 Darlehensgebern. <br> 
Augenscheinlich gibt es einen Zusammenhang zur Anzahl Darlehensgeber - je höher die Finanzierungssumme, desto höher die Anzahl der Darlehensgeber.<br> 
Weniger erfolgreiche Teams (erreichte Finanzierungssumme in Bezug auf gewünschte Finanzierungssumme liegt unter 50%) haben in fast allen Ländern deutlich weniger Darlehensgeber. Dies scheint schlüssig, da ggf. weniger Personen für die Projekt-Idee gewonnen werden konnten. Ein anderer Grund könnte sein, dass mehr Personen eher in der Lage sind, eine Idee angemessen zu bewerten. <br> 
Die Unterschiede je Land sind sehr hetegerogen. Hier könnte weitere Analyse Anhaltspunkte geben, z.B. spielt höchstwahrscheinlich die Darlehenshöhe hier wiederum eine Rollen. Eine Betrachtung je Kontinent und somit kulturelle Hintergründe könnte weiteren Aufschluss geben.
+ __Rückzahlungsmodalitäten__
Monatliche Rückzahlung ist mit 51,4% die häufigste Rückzahlungsart, gefolgt von irregulären Rückzahlung (38,4%) und Endfälligem Darlehen (10,1%). Wöchentliche Rückzahlung sind minimal vertreten (0,1%).<br>
Darlehen die nur von einer Person gewährt werden, finden sich überwiegend bei irregulären Rückzahlungen. Frauen scheinen mehr individuelle Bedingungen (irregular repayment) zu erhalten. Männer erhalten eher einen monatlichen Kreditrückzahlungsmodus und insbesondere einen Bullet-Kredit erhalten. Der Anteil der Männerdominierten Teams ist bei diesen Finanzierungsformen größer. <br> 
Bulletkredite gehen weniger an Einzelpersonen als bei den anderen Kreditformen. Bulletkredite werden eher für Gründungen mit unregelmäßigen Rückflüssen verwendet. Dies könnte für komplexere Projekte sprechen, bei denen  spezifischen Fachwissen und somit mehr Personen von Nöten sind und bei denen erst zu einem späteren Zeitpunkt die Leistung abgeliefert wird (z.B. die Lieferung eines Systems).

##### Schlussbemerkung
Die durchgeführten Analysen geben einen Überblick über den Datensatz und ausgewähtle Fragestellungen. Weitere Analysen, z.B. bzgl. bestimmter Länder, Sektoren, Gruppenbildungen etc. können weitere aufschlussreiche Erkenntnisse liefern. 