# Abschlussprojekt - Data Analytics

Das Abschlussprojekt besteht aus zwei Teilen:

                                                1. Teil - Datenanalyse
                                                2. Teil - Dashboard
                                                
## 1. Teil - Datenanalyse

Du arbeitest als Data Scientist bei der P-2-P-Plattform https://www.kiva.org/, die vor einem Jahr gegründet wurde. Nun wollt ihr euer Geschäft erweitern. Euer Team hat sich aufgeteilt und jeder Analyst hat einen Teilbereich der Daten. Deine Aufgabe ist es in einer **explorativen Datenanalyse** Insights für eure Plattform herauszufinden.


**Anforderungen:**

                - vollständige Datenanalyse
                - Dokumentation der Arbeitsschritte
                - nachvollziehbare Erläuterungen über Vorgehensweise/Entscheidungen
                - für die Bewertung: 3 verschiedenartige Plots (Plotfunktionen) benennen
                - Customizing der Plots
                - Analyse der Plots
                - Coding

Die Dokumentation kann in englisch oder deutsch erfolgen.

Treff ist **Donnerstag um 14:30 Uhr** im Hauptraum. Da werden wir die Unterlagen in dokumentensichere Formate umwandeln. Das machen wir zusammen. Danach habt ihr bis 15:35 Uhr zeit, eure zu bewertenden Unterlagen in den Projektabgabeordner hochzuladen.

Am Freitag erfolgt die Vorstellung der 3 Plots innerhalb des Zeitrahmens von 5min - (+-1min) ist dabei ok. Bewertet wird die Einhaltung des Zeitrahmes - dass das Anliegen innerhalb eines vorgegebenen Zeitrahmens vorgetragen wird. 

### CRISP DM: Business Understanding

Euer Geschäftsmodell ist das Betreiben einer Plattform (crowd-investing) bei der sich Personen die eine Geschäftsidee haben, aber nicht das benötigte Geld, anmelden und für ihr Projekt innerhalb einer vorgegebenen Zeit Geld sammeln können. 

Auf der anderen Seite habt ihr Geldgeber, die gern ihr Geld in Projekte anlegen möchten und nach Investitionen suchen. 

Als Vermittler bringt eure Plattform also Geldnehmer und Geldgeber zusammen. 

Deine Datenbasis ist die Historie eurer Plattform. 

**Erweiterung Geschäftsmodell**

Alle Projekte sind abgeschlossene Projekte, d.h. die Zeit, um für sein Projekt Geld zu sammeln ist abgelaufen. 
Euer Geschäftsmodell sieht es vor, dass die gesammelten Gelder ausgezahlt werden, auch wenn der Zielbetrag nicht erreicht wurde.

Ihr verdient euer Geld mit einer Provision für jedes Projekt was auf eurer Plattform landet. 

Der Geldgeber erhält einen Zins für die Geldleihe.

### CRISP DM: Data Understanding


    - funded_amount ... mit Ablauf der "Crowding"zeit erhaltener Betrag/ ausgezahlter Betrag in USD
    - loan_amount ... Zielbetrag (Betrag dem man für das Projekt erreichen wollte) in USD
    - activity ... Unterkategory zu dem das Ziel des Crowdprojektes thematisch gehört
    - sector ... Oberkategory in den das Crowdprojektes Thema fällt
    - use ... Kurzbeschreibung wofür das Geld verwendet werden soll
    - country_code ... Ländercode nach ISO Norm
    - country ... Ländername nach ISO Norm
    - region ... Region
    - currency ... Währung in den der funded_amount dann ausgezahlt wurde
    - term in months ... Dauer über die der Kredit ausgezahlt werden soll
    - lender_count ...Darlehensgeber (also wieviele Personen Geld für das Projekt gegeben haben)
    - borrower_genders ... Geschlecht und Anzahl der Darlehensnehmer, also diejenigen die das Crowdprojekt initiiert haben       
    - repayment interval ... vertraglich vereinbarte Rückzahlungsmodalitäten/-rhythmus


### Einlesen und Vorbereiten des Datensatzes

In [1]:
# benötigte bib importieren

import pandas as pd
import numpy as np

In [2]:
# datensatz einlesen - erstmal mit /n als sep, um das Trennzeichen zu erkennen

df_test_import = pd.read_csv("data_abschlussprojekt.csv", sep="/n", engine='python', nrows=2)
df_test_import

Unnamed: 0,# funded_amount# loan_amount# activity# sector# use# country_code# country# region# currency# term_in_months# lender_count# borrower_genders# repayment_interval
0,0#300.0#300.0#Fruits & Vegetables#Food#To buy ...
1,1#575.0#575.0#Rickshaw#Transportation#to repai...


In [3]:
# datensatz einlesen

df = pd.read_csv("data_abschlussprojekt.csv", sep="#")
df

Unnamed: 0.1,Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,Lahore,PKR,12.0,12,female,irregular
1,1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,Lahore,PKR,11.0,14,"female, female",irregular
2,2,150.0,150.0,Transportation,Transportation,To repair their old cycle-van and buy another ...,IN,India,Maynaguri,INR,43.0,6,female,bullet
3,3,200.0,200.0,Embroidery,Arts,to purchase an embroidery machine and a variet...,PK,Pakistan,Lahore,PKR,11.0,8,female,irregular
4,4,400.0,400.0,Milk Sales,Food,to purchase one buffalo.,PK,Pakistan,Abdul Hakeem,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


In [4]:
# kann "Unnamed: 0"-Spalte raus?

(df['Unnamed: 0'] == df.index).all()

True

In [5]:
# ist identisch mit dem index, "Unnamed: 0" Spalte kann daher raus

df.drop(columns='Unnamed: 0', inplace=True)
df

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,Lahore,PKR,12.0,12,female,irregular
1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,Lahore,PKR,11.0,14,"female, female",irregular
2,150.0,150.0,Transportation,Transportation,To repair their old cycle-van and buy another ...,IN,India,Maynaguri,INR,43.0,6,female,bullet
3,200.0,200.0,Embroidery,Arts,to purchase an embroidery machine and a variet...,PK,Pakistan,Lahore,PKR,11.0,8,female,irregular
4,400.0,400.0,Milk Sales,Food,to purchase one buffalo.,PK,Pakistan,Abdul Hakeem,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


In [6]:
# https://stackoverflow.com/questions/18089667/how-to-estimate-how-much-memory-a-pandas-dataframe-will-need
# Also, passing deep=True will enable a more accurate memory usage report,
# that accounts for the full usage of the contained objects.
# <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
# memory_usage_initial = df.memory_usage(deep=True).sum()
# memory_usage_initial

### Preprocessing

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 671205 entries, 0 to 671204
Data columns (total 13 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0    funded_amount       671205 non-null  float64
 1    loan_amount         671205 non-null  float64
 2    activity            671205 non-null  object 
 3    sector              671205 non-null  object 
 4    use                 666973 non-null  object 
 5    country_code        671197 non-null  object 
 6    country             671205 non-null  object 
 7    region              614405 non-null  object 
 8    currency            671205 non-null  object 
 9    term_in_months      671205 non-null  float64
 10   lender_count        671205 non-null  int64  
 11   borrower_genders    666984 non-null  object 
 12   repayment_interval  671205 non-null  object 
dtypes: float64(3), int64(1), object(9)
memory usage: 66.6+ MB


Auffälligkeiten/Notizen: 
 - **use**, **country_code**, **region** und **borrower_genders**
     - Anzahl der Zeilen weniger als Gesamtanzahl der Zeilen im Datenatz. Also, auf fehlende Werte prüfen. 
 - **term_in_months** muss kein float64 sein, kann zu einem int umgewandelt werden.

In [8]:
df.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,671205.0,671205.0,671205.0,671205.0
mean,785.995061,842.397107,13.739022,20.590922
std,1130.398941,1198.660073,8.598919,28.459551
min,0.0,25.0,1.0,0.0
25%,250.0,275.0,8.0,7.0
50%,450.0,500.0,13.0,13.0
75%,900.0,1000.0,14.0,24.0
max,100000.0,100000.0,158.0,2986.0


Auffälligkeiten/Notizen: 
 - **funded_amount** und **lender_count** haben min-Wert 0.
     - Beide Spalten auf fehlende Werte prüfen. 
     - Weiterer möglicher Grund: beide Spalten/Werte hängen voneinander ab. Bei keinem Darlehensgeber kein Geldfluss?

In [9]:
df.nunique()

 funded_amount            610
 loan_amount              479
 activity                 163
 sector                    15
 use                   424912
 country_code              86
 country                   87
 region                 12695
 currency                  67
 term_in_months           148
 lender_count             503
 borrower_genders       11298
 repayment_interval         4
dtype: int64

Auffälligkeiten/Notizen:
 - Anzahl der **country_code** ist ungleich der Anzahl von **country**.
     - Bei der Ausgabe von df.info() ist bereits aufgefallen, dass in der Spalte **country_code** möglicherweise fehlende Werte existieren.
 - Viel zu viele unterschiedliche Werte in der Spalte **borrower_genders**. Im weiteren Verlauf die Spalte untersuchen.
 - Mehrere Spalten haben eine geringe Anzahl von einzigartigen Werten. Im weiteren Verlauf prüfen ob diese Spalten kategorisiert werden sollen/können.

#### Duplikate

In [10]:
df.head(2)

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,Lahore,PKR,12.0,12,female,irregular
1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,Lahore,PKR,11.0,14,"female, female",irregular


In [11]:
df.shape

(671205, 13)

In [12]:
# Duplikate allgemein (über alle Spalten)

df.loc[df.loc[:,].duplicated(keep=False)].shape

(34633, 13)

Auffälligkeiten/Notizen:
 - Hohe Anzahl (34633) an Duplikaten im gesamten Datensatz.
 - Nichtsdestotrotz fehlt in dem Datensatz ein eindeutiger Identifier, ein Datumstempel wäre zusätzlich von Vorteil für jede Transaktion und aus dem Zusammenhang kann in diesem Anwendungsfall kein Duplikat definiert werden.
 - Somit ist auch die Identifizierung echter Duplikate nicht möglich.

#### Leerzeichen und Punkte entfernen sowohl in Spaltennamen als auch in den Zeilen, die den datentyp object/string haben

In [13]:
# Strip all strings of a dataframe

df.columns = df.columns.str.strip()
df[df.select_dtypes(['object']).columns] = df.select_dtypes(['object']).apply(lambda x: x.str.strip())
df[df.select_dtypes(['object']).columns] = df.select_dtypes(['object']).apply(lambda x: x.str.strip("."))

#### Plausibilitätskontrolle

In [14]:
# Prüfen ob Geld geflossen ist, obwohl es keinen Darlehensgeber gab.

con_funded = df.loc[:, 'funded_amount'] > 0
con_lender_count = df.loc[:, 'lender_count'] == 0
(con_funded & con_lender_count).any()

False

In [15]:
# Prüfen ob es einen Darlehensgeber gab, und kein Geld geflossen ist.

con_funded = df.loc[:, 'funded_amount'] == 0
con_lender_count = df.loc[:, 'lender_count'] > 0
(con_funded & con_lender_count).any()

False

In [16]:
# Prüfen ob ausgezahlte Beträge existieren die höher als die Zielbeträge sind 

con_funded_gt_loan_amount = df.loc[:, 'funded_amount'] > df.loc[:, 'loan_amount']
con_funded_gt_loan_amount.sum()

2

In [17]:
df.loc[con_funded_gt_loan_amount,]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
277188,425.0,400.0,General Store,Retail,"to buy beverages, rice, laundry detergent, sug...",MZ,Mozambique,"Boane, Maputo",MZN,17.0,11,male,monthly
338159,3400.0,3000.0,Farm Supplies,Agriculture,"to pay for wires for the grape orchard, cover ...",AM,Armenia,"Hoktember village, Armavir region",USD,38.0,84,male,monthly


In [18]:
# Prozentualer Anteil

df.loc[con_funded_gt_loan_amount, 'funded_amount'] / df.loc[con_funded_gt_loan_amount, 'loan_amount']

277188    1.062500
338159    1.133333
dtype: float64

In [19]:
# Gesamtsumme Überfinanzierung 

sum(df.loc[con_funded_gt_loan_amount, 'funded_amount'] - df.loc[con_funded_gt_loan_amount, 'loan_amount'])

425.0

Auffälligkeiten/Notizen:
 - Es existieren 2 Projekte, in die mehr investiert wurde, als geplant.
 - Die ausgezahlter Betrag bei den beiden Projekten ist um ca. 6% und 13% höher als Zielbetrag.
 - Die Überfinanzierung beläuft sich auf insgesammt 425 USD.
     - Eine relativ geringe Summe. Dabei sollte aber trotzdem nachgeschaut werden, ob es ein Bug im System ist oder eine Überfinanzierung immer möglich ist. 
     - Und der Data Engineer sollte darüber auch informirt werden. 

#### Prüfung auf systemseitige fehlende Werte

In [20]:
print(f'shape: {df.shape}')
print('\n' + '+'*100)
print('\nAnzahl der fehlenden Werte:')
print(df.loc[:, (df.isna().sum() != 0)].isna().sum())
print('\n' + '+'*100)
print('\nProzentualer Anteil:')
print(df.loc[:, (df.isna().sum() != 0)].isna().mean()*100)

shape: (671205, 13)

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Anzahl der fehlenden Werte:
use                  4232
country_code            8
region              56800
borrower_genders     4221
dtype: int64

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Prozentualer Anteil:
use                 0.630508
country_code        0.001192
region              8.462392
borrower_genders    0.628869
dtype: float64


Auffälligkeiten/Notizen:
 - Wie bereits bei der Ausgabe von df.info() beschrieben: 
     - **use**, **country_code**, **region** und **borrower_genders**
         - Anzahl der Zeilen weniger als Gesamtanzahl der Zeilen im Datenatz. Also, auf fehlende Werte prüfen.

Hier bestädigt sich nochmal die Vermutung, dass in diesen Spalten fehlende Werte existieren.

#### Prüfen auf nicht systemseitig erkannte fehlende Werte

In [21]:
# Spalten 'funded_amount' und 'lender_count' haben min-Wert 0. 
# Prüfen ob ein Zusammenhang besteht: Bei keinem Darlehensgeber kein Geldfluss?

condition_not_funded_amount =  df.loc[:, 'funded_amount'] == 0
condition_no_lender_count =  df.loc[:, 'lender_count'] == 0
(condition_not_funded_amount == condition_no_lender_count).all()

True

Auffälligkeiten/Notizen:
 - Wie vermutet: Existierten keine Darlehensgeber **lender_count == 0**, so fließt auch kein Geld **funded_amount == 0**.

In [22]:
# Uniques von allen Spalten anschauen

for col in df:
    #if df[col].dtype == 'O': # O=datatype Objects
    print(col)
    print('---------')
    print(df[col].unique())
    print('\n')

funded_amount
---------
[3.0000e+02 5.7500e+02 1.5000e+02 2.0000e+02 4.0000e+02 2.5000e+02
 4.7500e+02 6.2500e+02 2.2500e+02 8.7500e+02 3.5000e+02 1.2500e+02
 4.5000e+02 2.2250e+03 6.0000e+02 3.1750e+03 1.7500e+02 5.5000e+02
 7.0000e+02 8.0000e+02 4.2750e+03 1.5000e+03 3.2500e+02 2.7500e+02
 1.0750e+03 2.0000e+03 2.7750e+03 1.5500e+03 1.0000e+03 3.0000e+03
 3.0500e+03 5.4750e+03 5.7750e+03 2.2000e+03 5.0000e+03 1.2500e+03
 3.9750e+03 9.2500e+02 1.9250e+03 4.0000e+03 1.1500e+03 1.3000e+03
 4.6250e+03 8.5000e+02 7.5000e+02 2.9750e+03 1.1750e+03 4.7500e+03
 3.7500e+02 1.0250e+03 1.2000e+03 1.3250e+03 7.2500e+02 2.1000e+03
 3.4000e+03 2.9000e+03 4.2500e+02 2.8500e+03 4.2500e+03 5.0000e+02
 1.2250e+03 2.6250e+03 2.7500e+03 1.6250e+03 1.4750e+03 2.4000e+03
 2.1250e+03 4.1750e+03 2.5000e+03 1.7000e+03 1.0000e+04 5.1000e+03
 6.7500e+02 5.2500e+02 3.8000e+03 4.5000e+03 6.5000e+02 1.8500e+03
 1.5250e+03 2.4250e+03 7.7500e+02 1.5750e+03 1.0500e+03 1.4500e+03
 2.4500e+03 1.8000e+03 5.9250e+03 2.65

['Food' 'Transportation' 'Arts' 'Services' 'Agriculture' 'Manufacturing'
 'Wholesale' 'Retail' 'Clothing' 'Construction' 'Health' 'Education'
 'Personal Use' 'Housing' 'Entertainment']


use
---------
['To buy seasonal, fresh fruits to sell'
 'to repair and maintain the auto rickshaw used in their business'
 'To repair their old cycle-van and buy another one to rent out as a source of income'
 ... 'Pretend the issue with loan got addressed by Kiva Coordinator'
 'Kiva Coordinator replaced loan use. Should see this in viewdiff'
 'Edited loan use in english']


country_code
---------
['PK' 'IN' 'KE' 'NI' 'SV' 'TZ' 'PH' 'PE' 'SN' 'KH' 'LR' 'VN' 'IQ' 'HN'
 'PS' 'MN' 'US' 'ML' 'CO' 'TJ' 'GT' 'EC' 'BO' 'YE' 'GH' 'SL' 'HT' 'CL'
 'JO' 'UG' 'BI' 'BF' 'TL' 'ID' 'GE' 'UA' 'XK' 'AL' 'CD' 'CR' 'SO' 'ZW'
 'CM' 'TR' 'AZ' 'DO' 'BR' 'MX' 'KG' 'AM' 'PY' 'LB' 'WS' 'IL' 'RW' 'ZM'
 'NP' 'CG' 'MZ' 'ZA' 'TG' 'BJ' 'BZ' 'SR' 'TH' 'NG' 'MR' 'VU' 'PA' 'VI'
 'VC' 'LA' 'MW' 'MM' 'MD' 'SS' 'SB' 'CN' 'EG' 'GU' 'AF' '

Auffälligkeiten/Notizen:
 - Auf den ersten Blick sind keine nicht systemseitig erkannte fehlende Werte zu erkennen

#### "term_in_months" muss kein float64 sein, kann zu einem int umgewandelt werden.

In [23]:
# Returns True if the float instance is finite with integral value, and False otherwise.

df['term_in_months'].apply(float.is_integer).all()

True

In [24]:
# 'term_in_months' wird in int64 umgewandelt

df = df.astype({'term_in_months': np.int64})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 671205 entries, 0 to 671204
Data columns (total 13 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   funded_amount       671205 non-null  float64
 1   loan_amount         671205 non-null  float64
 2   activity            671205 non-null  object 
 3   sector              671205 non-null  object 
 4   use                 666973 non-null  object 
 5   country_code        671197 non-null  object 
 6   country             671205 non-null  object 
 7   region              614405 non-null  object 
 8   currency            671205 non-null  object 
 9   term_in_months      671205 non-null  int64  
 10  lender_count        671205 non-null  int64  
 11  borrower_genders    666984 non-null  object 
 12  repayment_interval  671205 non-null  object 
dtypes: float64(2), int64(2), object(9)
memory usage: 66.6+ MB


#### Fehlende Werte in Spalte "use" prüfen

In [25]:
# >>>> neuen (kleineren/Teilmenge) Datensatz erstellt

df_nan = df.loc[df.loc[:, 'use'].isna()]
df_nan

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,,TZS,10,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,,PEN,20,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,,TZS,10,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,,TZS,10,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,,USD,20,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13,0,,monthly
671174,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13,0,,monthly
671178,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13,0,,monthly
671185,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13,0,,monthly


In [26]:
print('\nAnzahl der fehlenden Werte:')
print(df_nan.loc[:, (df_nan.isna().sum() != 0)].isna().sum())
print('\n' + '+'*100)
print('\nProzentualer Anteil:')
print(df_nan.loc[:, (df_nan.isna().sum() != 0)].isna().mean()*100)


Anzahl der fehlenden Werte:
use                 4232
region              4227
borrower_genders    4221
dtype: int64

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Prozentualer Anteil:
use                 100.000000
region               99.881853
borrower_genders     99.740076
dtype: float64


Auffälligkeiten/Notizen:
 - Alle (4221) systemseitig fehlende Werte in der Spalte "borrower_genders" sind auch in diesem Datensatz enthalten.
 - Vermutung:
     - Es ist entweder ein Bug im System, dann müsste es an den Systemadministrator gemeldet werden
     - Die Formulare für die Aufnahme eines Darlehens erfordern keine Angabe von 'use', 'region' und 'borrower_genders'. 
         - Wobei aus der Beschreibung der Spalten hervorgeht, dass die Spalte 'borrower_genders' für das Geschlecht und Anzahl der Darlehensnehmer, also diejenigen die das Crowdprojekt initiiert haben.
         - Somit müssten die Spalten 'use' und 'borrower_genders' eigentlich erforderlich sein.
 - Weiterhin ist zu prüfen ob die Zeilen gelöscht werden können da vermutlich sowieso zu keinem Geldfluss gekommen ist.

In [27]:
df_nan.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,4232.0,4232.0,4232.0,4232.0
mean,921.908081,1177.055766,15.126181,26.870983
std,1453.171843,2319.892785,8.912859,40.064176
min,0.0,25.0,2.0,0.0
25%,250.0,325.0,9.0,7.0
50%,500.0,625.0,14.0,16.0
75%,1050.0,1200.0,18.0,33.0
max,50000.0,50000.0,133.0,1310.0


Auffälligkeiten/Notizen:
 - Die Vermutung, dass es zu keinem Geldfluss kam war Falsch, da in der Spalte 'funded_amount' Beträge größer 0 existieren.
 - Da das Minimum bei 'loan_amount' (25) ist, wurden wahrscheinlich auch Anfragen für ein Darlehen gestellt, aber nicht erfüllt.  <<<<<<<<<<<<<<<< löschen

In [28]:
# Da das Minimum von 'loan_amount' is 25 daher ist NUR die Bedingung 'funded_amount' > 0 erforderlich.

con_geldfluss = df_nan.loc[:, 'funded_amount'] > 0
print(f'Anzahl der finanzierten Projekte ohne Angabe von Verwendungszweck: {(con_geldfluss).sum()}')
print(f'Prozentualer Anteil der finanzierten Projekte, ohne Angabe von Verwendungszweck: {(con_geldfluss).sum() / df_nan.shape[0] * 100}')

Anzahl der finanzierten Projekte ohne Angabe von Verwendungszweck: 4101
Prozentualer Anteil der finanzierten Projekte, ohne Angabe von Verwendungszweck: 96.90453686200378


In [29]:
# Projekte mit größeren Summen ohne Angabe von Verwendungszweck und Geschlecht (auch Anzahl der Darlehensnehmer).

df_nan.loc[df_nan.loc[:, 'funded_amount'] >= 10_000,]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
83460,20000.0,20000.0,Crafts,Arts,,KH,Cambodia,,USD,22,472,,irregular
85305,10000.0,10000.0,Construction,Construction,,US,United States,,USD,38,180,,monthly
268265,10275.0,10275.0,Services,Services,,TR,Turkey,,TRY,34,229,,monthly
317898,11875.0,11875.0,Health,Health,,TR,Turkey,,TRY,38,406,,monthly
387326,10000.0,10000.0,Technology,Services,,US,United States,,USD,36,88,,bullet
408465,50000.0,50000.0,Construction,Construction,,PE,Peru,,USD,73,1310,,irregular
541650,24450.0,24450.0,Property,Housing,,MX,Mexico,,MXN,22,762,,irregular


In [30]:
df_nan.loc[con_geldfluss,'loan_amount'].sum()

4689550.0

In [31]:
df_nan.loc[con_geldfluss,'funded_amount'].sum()

3901515.0

Auffälligkeiten:
 - Es wurden mehrere Projekte mit mehr als 10.000 USD finaniziert und
 - es wurden (4101) Projekte mit insgesammt ca. 3,9 Milionen USD finanziert.
     - Wobei die Spalten 'use', 'region' und 'borrower_genders' größtenteils (> 99% ) mit NaNs gefüllt sind.
     - Dabei enthält die Spalte 'borrower_genders' auch noch die Anzahl der Darlehensnehmer, also diejenigen die das Crowdprojekt initiiert haben
     
Notizen für den weiteren Verlauf:

 - Da es sich dabei um größere Summen handelt, werden die NaNs in Spalte 'use' mit 'kein_verwendungszweck' 
und 'borrower_genders' mit 'kein_geschlecht_anzahl' ersetzt/befüllt.
 - Falls möglich, prüfen warum Investoren ihr Geld in Projekte einlegen, obwohl sie den Verwendungszweck und Anzahl der Darlehensnehmer nicht kennen.

In [32]:
# id (452286) vorletzte Zeile: später bei gender prüfen ob es richtig aufsplitet wurde

df_nan.loc[df_nan.loc[:,'borrower_genders'].notna(),]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
77120,200.0,5000.0,Technology,Services,,US,United States,,USD,24,2,female,bullet
118362,2475.0,2475.0,Food Production/Sales,Food,,RW,Rwanda,,RWF,4,21,"male, female, female, female, female, female, ...",irregular
187286,235.0,4000.0,Technology,Services,,US,United States,,USD,24,9,female,bullet
195101,650.0,650.0,Agriculture,Agriculture,,SV,El Salvador,Osicala,USD,15,21,female,bullet
208234,100.0,5000.0,Clothing,Clothing,,US,United States,,USD,12,2,male,bullet
211047,0.0,5000.0,Food Production/Sales,Food,,US,United States,,USD,24,0,female,bullet
247724,0.0,3000.0,Services,Services,,US,United States,,USD,18,0,female,bullet
292739,750.0,1175.0,Clothing Sales,Clothing,,KE,Kenya,Maua,KES,14,11,male,monthly
362573,100.0,100.0,Farming,Agriculture,,MZ,Mozambique,Boane,MZN,7,4,male,monthly
452286,200.0,200.0,Home Appliances,Personal Use,,KH,Cambodia,Kampong Speu,KHR,8,7,"female, male, female, female, male",monthly


#### Fehlende Werte in Spalte "region" prüfen

In [33]:
count_all_countries = df.loc[:,'country'].nunique()
count_countries_with_regions = df.loc[df.loc[:, 'region'].notna(), 'country'].nunique()
count_countries_without_regions = df.loc[df.loc[:, 'region'].isna(), 'country'].nunique()
count = count_all_countries - count_countries_with_regions
countries_without_regions = list(set(df.loc[:,'country'].unique()) - set(df.loc[df.loc[:, 'region'].notna(), 'country'].unique()))
print(f'Es fehlen bei insgesammt {count_countries_without_regions} von {count_all_countries} Ländern Angaben zur Region.')
print(f'Bei folgenden {count} Ländern wurde keine einzige Regionen angegeben: {countries_without_regions} ')

Es fehlen bei insgesammt 72 von 87 Ländern Angaben zur Region.
Bei folgenden 5 Ländern wurde keine einzige Regionen angegeben: ['Virgin Islands', 'Guam', 'Iraq', 'Kosovo', 'Puerto Rico'] 


In [34]:
df.loc[df.loc[:,'country'].isin(countries_without_regions),].describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,2483.0,2483.0,2483.0,2483.0
mean,1888.862263,1998.590415,18.060814,53.16915
std,1484.459283,1492.093224,6.630571,42.710544
min,0.0,225.0,5.0,0.0
25%,1000.0,1125.0,14.0,29.0
50%,1650.0,1800.0,14.0,45.0
75%,2487.5,2500.0,22.0,67.0
max,20000.0,20000.0,42.0,686.0


In [35]:
# Auffälligkeiten/Notizen:
# - >>>>>>>>>>>>>> Wenn man die fehlenden Werte in der Spalte 'region' entfernt, werden nicht nur ganze Regionen entfernt sondern, es werden unteranderem auch 5 Länder ganz entfernt.

Die Spalte 'region' enhält die meisten fehlenden Werte ca. 8,5%. Zeilenweise Löschung kommt nicht in Frage, da dabei Datensätze für 5 Länder komplett verloren gehen und zusätzlich noch weitere Zeilen aus dem Datensatz. Auffüllen, z.B. mit 'Unbekannt' wäre möglich, da jedoch dies bei insgesammt 72 Ländern geschähen würde, würde man später keinen wertvollen Nutzen aus den Daten ziehen können. Es sei denn, man würde in den restlichen 15 Ländern detallierte Betrachtung der Regionen wünschen. Für diesen Anwendungsfall ist jedoch diese Spalte weniger wertvoll und wird daher aus dem Datensatz gelöscht.

In [36]:
df.drop(columns='region', inplace=True)

Wie bereits erwähnt, werden die NaNs in Spalte 'use' mit 'kein_verwendungszweck' und 'borrower_genders' mit 'kein_geschlecht_anzahl' ersetzt/befüllt.

In [37]:
df['use'].fillna(value='kein_verwendungszweck', inplace=True)
df['borrower_genders'].fillna(value='kein_geschlecht_anzahl', inplace=True)

#### Fehlende Werte in Spalte "country_code" prüfen

In [38]:
df.loc[df.loc[:, 'country_code'].isna(), 'country']

202537    Namibia
202823    Namibia
344929    Namibia
351177    Namibia
420953    Namibia
421218    Namibia
487207    Namibia
487653    Namibia
Name: country, dtype: object

In [39]:
df.loc[df.loc[:, 'country_code'].isna(), 'country'].count()

8

Auffälligkeiten/Notizen:
 - Es fehlt der Ländercode für Namibia.
 - Im nächsten Schritt prüfen ob alle Datensätze aus Namibia sind.

In [40]:
df.loc[df.loc[:, 'country'] == 'Namibia', 'country'].count()

8

Auffälligkeiten/Notizen:
 - Der Ländercode für 'Namibia' nach  ISO 3166  ist "NA".
     - https://de.wikipedia.org/wiki/ISO-3166-1-Kodierliste#N
     - https://laendercode.net/de/country/na

In [41]:
# Es können somit alle fehlenden Werte in der Spalte 'country_code' durch den Ländercode 'NA' ersetzt/gefüllt werden.

df['country_code'].fillna(value='NA', inplace=True)

In [42]:
# Nochmal nach felenden Werten prüfen

print(f'shape: {df.shape}')
print('\n' + '+'*100)
print('\nAnzahl der fehlenden Werte:')
print(df.loc[:, (df.isna().sum() != 0)].isna().sum())
print('\n' + '+'*100)
print('\nProzentualer Anteil:')
print(df.loc[:, (df.isna().sum() != 0)].isna().mean()*100)

shape: (671205, 12)

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Anzahl der fehlenden Werte:
Series([], dtype: float64)

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Prozentualer Anteil:
Series([], dtype: float64)


#### Spalte 'borrower_genders' in neue Spalten übertragen 

In [43]:
borrower_genders_series = df.loc[:, 'borrower_genders'].str.split(', ')
type(borrower_genders_series)
pd.Series([x for _list in borrower_genders_series for x in _list]).value_counts()

female                    1071308
male                       274904
kein_geschlecht_anzahl       4221
dtype: int64

In [44]:
# Mit dem Wissen der Uniques lassen sich jetzt Anzahl F / M je Zeile bestimmen

count_females = df.loc[:, 'borrower_genders'].str.count('female')
count_males = df.loc[:, 'borrower_genders'].str.count('male')
count_kein_geschlecht_anzahl = df.loc[:, 'borrower_genders'].str.count('kein_geschlecht_anzahl')
# Achtung count (male) ist substring von female und zählt damit inklusive female
# das korrekte count_males kann aber berechnet werden
count_males = count_males - count_females # da males auch in female enthalten ist

In [45]:
# Zeilenanzahl muss dem des DataFrame entsprechen
len(count_females) == len(count_males) == len(count_kein_geschlecht_anzahl) == len(df)
# => Die Zeilenanzahl entspricht dem DataFrame

True

In [46]:
# Neue Spalten erstellen

df['borrower_female'] = count_females
df['borrower_male'] = count_males
# Ein Auffüllen der fehlenden Werte in der Spalte 'borrower_unknown' mit berechnetent Werten,
# wie z.B. mit einem Machine Learning Verfahren wie KNN würde hier nicht helfen da die Daten zu sehr Zerstreut sind. <<<< umschreiben
# Da diese Werte später in der EDA benötigt werden, werden diese mit (-1) befüllt
df['borrower_unknown'] = count_kein_geschlecht_anzahl * -1
df.loc[df.loc[:, 'borrower_male'] > 0, 'borrower_genders':'borrower_male'] # zur Prüfung

Unnamed: 0,borrower_genders,repayment_interval,borrower_female,borrower_male
49,male,monthly,0,1
50,"male, male, male, male, male",monthly,0,5
53,male,monthly,0,1
59,"male, female, female, female",irregular,3,1
67,male,irregular,0,1
...,...,...,...,...
671136,male,monthly,0,1
671137,male,monthly,0,1
671143,male,monthly,0,1
671145,male,monthly,0,1


In [47]:
# Erstellung der Gesamtanzahl der borrower
df['borrower_total'] = df['borrower_female'] + df['borrower_male'] + df['borrower_unknown']
df.loc[df.loc[:, 'borrower_male'] > 0, 'borrower_genders':'borrower_total'] # zur Prüfung

Unnamed: 0,borrower_genders,repayment_interval,borrower_female,borrower_male,borrower_unknown,borrower_total
49,male,monthly,0,1,0,1
50,"male, male, male, male, male",monthly,0,5,0,5
53,male,monthly,0,1,0,1
59,"male, female, female, female",irregular,3,1,0,4
67,male,irregular,0,1,0,1
...,...,...,...,...,...,...
671136,male,monthly,0,1,0,1
671137,male,monthly,0,1,0,1
671143,male,monthly,0,1,0,1
671145,male,monthly,0,1,0,1


In [48]:
df.iloc[452286:452287,] # zur Prüfung

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval,borrower_female,borrower_male,borrower_unknown,borrower_total
452286,200.0,200.0,Home Appliances,Personal Use,kein_verwendungszweck,KH,Cambodia,KHR,8,7,"female, male, female, female, male",monthly,3,2,0,5


In [49]:
df.loc[df.loc[:, 'borrower_genders'] == 'kein_geschlecht_anzahl',]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval,borrower_female,borrower_male,borrower_unknown,borrower_total
140,2975.0,2975.0,Food Production/Sales,Food,kein_verwendungszweck,TZ,Tanzania,TZS,10,110,kein_geschlecht_anzahl,monthly,0,0,-1,-1
145,1200.0,1200.0,Personal Expenses,Personal Use,kein_verwendungszweck,PE,Peru,PEN,20,44,kein_geschlecht_anzahl,monthly,0,0,-1,-1
170,4250.0,4250.0,Catering,Food,kein_verwendungszweck,TZ,Tanzania,TZS,10,116,kein_geschlecht_anzahl,monthly,0,0,-1,-1
412,2350.0,2350.0,Beauty Salon,Services,kein_verwendungszweck,TZ,Tanzania,TZS,10,75,kein_geschlecht_anzahl,monthly,0,0,-1,-1
414,725.0,725.0,Agriculture,Agriculture,kein_verwendungszweck,SV,El Salvador,USD,20,19,kein_geschlecht_anzahl,monthly,0,0,-1,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,kein_geschlecht_anzahl,monthly,0,0,-1,-1
671174,0.0,25.0,Games,Entertainment,kein_verwendungszweck,KE,Kenya,KES,13,0,kein_geschlecht_anzahl,monthly,0,0,-1,-1
671178,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,kein_geschlecht_anzahl,monthly,0,0,-1,-1
671185,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,kein_geschlecht_anzahl,monthly,0,0,-1,-1


In [50]:
# Die Spalte 'borrower_genders' wird nicht mehr gebraucht und aus Performance-Gründen entfernt
df.drop(columns='borrower_genders', inplace=True)

In [None]:
#<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
notizen von Beatrice
bei borrower_gender ein Punkt nicht gegeben, bei der analyse. bzw erklärung zu wenig (Warum auch immer)
# Thema nicht gefunden: Aussreißer
    feauture(sowas wie Projekterfolg oder wie ist der Betrag den die Länder in )

In [57]:
df.loc[df.loc[:, 'borrower_unknown'] == -1,]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,repayment_interval,borrower_female,borrower_male,borrower_unknown,borrower_total
140,2975.0,2975.0,Food Production/Sales,Food,kein_verwendungszweck,TZ,Tanzania,TZS,10,110,monthly,0,0,-1,-1
145,1200.0,1200.0,Personal Expenses,Personal Use,kein_verwendungszweck,PE,Peru,PEN,20,44,monthly,0,0,-1,-1
170,4250.0,4250.0,Catering,Food,kein_verwendungszweck,TZ,Tanzania,TZS,10,116,monthly,0,0,-1,-1
412,2350.0,2350.0,Beauty Salon,Services,kein_verwendungszweck,TZ,Tanzania,TZS,10,75,monthly,0,0,-1,-1
414,725.0,725.0,Agriculture,Agriculture,kein_verwendungszweck,SV,El Salvador,USD,20,19,monthly,0,0,-1,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,monthly,0,0,-1,-1
671174,0.0,25.0,Games,Entertainment,kein_verwendungszweck,KE,Kenya,KES,13,0,monthly,0,0,-1,-1
671178,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,monthly,0,0,-1,-1
671185,0.0,25.0,Livestock,Agriculture,kein_verwendungszweck,KE,Kenya,KES,13,0,monthly,0,0,-1,-1


In [61]:
df.loc[df.loc[:, 'repayment_interval'] == 'weekly',]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,repayment_interval,borrower_female,borrower_male,borrower_unknown,borrower_total
4696,375.0,375.0,Services,Services,buy new phones in order to meet my clients needs,KE,Kenya,KES,4,37,weekly,1,0,0,1
7851,125.0,125.0,Services,Services,buy Audio Sound Equalizer for sound clarity,KE,Kenya,KES,1,13,weekly,0,1,0,1
8824,375.0,375.0,Construction,Construction,buy building materials,KE,Kenya,KES,7,24,weekly,1,0,0,1
8872,625.0,625.0,Services,Services,"to buy cow skin,soles,gum,leather board, leath...",KE,Kenya,KES,8,28,weekly,0,1,0,1
11762,375.0,375.0,Agriculture,Agriculture,buy animal feeds for resale,KE,Kenya,KES,4,16,weekly,0,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
286668,325.0,325.0,Grocery Store,Food,"buy more stock vegetables,spices and fish for...",KE,Kenya,KES,7,9,weekly,1,0,0,1
286991,125.0,125.0,Clothing,Clothing,purchase a stock of T Shirts for August Holida...,KE,Kenya,KES,2,2,weekly,1,0,0,1
287215,325.0,325.0,Health,Health,buy more stock of drugs for sale in my pharmacy,KE,Kenya,KES,7,10,weekly,1,0,0,1
287273,325.0,325.0,Construction,Construction,The loan will help me buy more stock of vegeta...,KE,Kenya,KES,7,9,weekly,1,0,0,1


In [62]:
percent = 0.5

cond_low_amount = df.loc[:,'funded_amount'] / df.loc[:,'loan_amount'] <= percent
cond_weekly = df.loc[:, 'repayment_interval'] == 'weekly'
df.loc[cond_low_amount & cond_weekly, ['funded_amount','loan_amount']]

Unnamed: 0,funded_amount,loan_amount
313,1300.0,3000.0
648,700.0,2100.0
752,475.0,1200.0
796,450.0,1000.0
815,525.0,1500.0
...,...,...
671199,0.0,25.0
671200,0.0,25.0
671202,0.0,25.0
671203,0.0,25.0


In [None]:
df_country_low_amount_sum = df.loc[cond_low_amount,].groupby(by='country', as_index=False).agg(sum_funded_amount = ('funded_amount','sum'), sum_loan_amount = ('loan_amount','sum')).sort_values(['sum_loan_amount'], ascending= False)[:top_countries]
df_country_low_amount_sum

In [51]:
# df.loc[:,'use'] =  df.loc[:,'use'].str.lower()

In [52]:
# df.loc[df.loc[:,'use'].str.contains("terraclear"),]

In [53]:
# <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
# memory_usage_final = df.memory_usage(deep=True).sum()
# memory_usage_final

In [54]:
# MB
# round((memory_usage_final - memory_usage_initial) / (1024*1024), 1)

In [55]:
# memory_usage_saved = round((memory_usage_final - memory_usage_initial) / memory_usage_final * 100, 1)
# print(f'Speicherplatzverbrauch um ca. {memory_usage_saved}% reduziert')

In [56]:
df.to_pickle('data_abschlussprojekt_after_preprocessing.pkl')