# Abschlussprojekt - Data Analytics - 1. Data Preparation

## Ausgangssituation

Du arbeitest als Data Scientist bei der P-2-P-Plattform https://www.kiva.org/, die vor einem Jahr gegründet wurde. Nun wollt ihr euer Geschäft erweitern. Euer Team hat sich aufgeteilt und jeder Analyst hat einen Teilbereich der Daten. Deine Aufgabe ist es in einer explorativen Datenanalyse Insights für eure Plattform herauszufinden.

Generelle Anmerkungen, Anregungen:
(Wie steht euer Unternehmen im Vergleich zu den anderen Unternehmen am Markt da?)
Erkunde den Datensatz. Hier kannst du beim Thema fehlende Werte weitere Vorgehensweisen ausprobieren, um die Daten zu befüllen. (hilfreiche Funktionen, um Häufigkeiten zu bestimmen: crosstab(),idxmax(), value_counts() ...)


## CRISP-DM: Business Understanding

Euer Geschäftsmodell ist das Betreiben einer Plattform (crowd-investing) bei der sich Personen die eine Geschäftsidee haben, aber nicht das benötigte Geld, anmelden und für ihr Projekt innerhalb einer vorgegebenen Zeit Geld sammeln können.

Auf der anderen Seite habt ihr Geldgeber, die gern ihr Geld in Projekte anlegen möchten und nach Investitionen suchen.

Als Vermittler bringt eure Plattform also Geldnehmer und Geldgeber zusammen.

Deine Datenbasis ist die Historie eurer Plattform.

Zusätzliche Annahmen über das Geschäftsmodell:

Alle Projekte sind abgeschlossene Projekte, d.h. die Zeit, um für sein Projekt Geld zu sammeln ist abgelaufen. Euer Geschäftsmodell sieht es vor, dass die gesammelten Gelder ausgezahlt werden, auch wenn der Zielbetrag nicht erreicht wurde.

Ihr verdient euer Geld mit einer Provision für jedes Projekt was auf eurer Plattform landet.

Der Geldgeber erhält einen Zins für die Geldleihe.


## CRISP-DM: Data Understanding

Wofür stehen die Spalten?  

- funded_amount ... mit Ablauf der "Crowding"zeit erhaltener Betrag/ ausgezahlter Betrag in USD
- loan_amount ... Zielbetrag (Betrag dem man für das Projekt erreichen wollte) in USD
- activity ... Unterkategory zu dem das Ziel des Crowdprojektes thematisch gehört
- sector ... Oberkategory in den das Crowdprojektes Thema fällt
- use ... Kurzbeschreibung wofür das Geld verwendet werden soll
- country_code ... Ländercode nach ISO Norm
- country ... Ländername nach ISO Norm
- region ... Region
- currency ... Währung in den der funded_amount dann ausgezahlt wurde
- term in months ... Dauer über die der Kredit ausgezahlt werden soll
- lender_count ...Darlehensgeber (also wieviele Personen Geld für das Projekt gegeben haben)
- borrower_genders ... Geschlecht und Anzahl der Darlehensnehmer, also diejenigen die das Crowdprojekt initiiert haben       
- repayment interval ... vertraglich vereinbarte Rückzahlungsmodalitäten/-rhythmus

## Data Preparation

In [3]:
# Import der Datenbearbeitungsbibliotheken

import pandas as pd
import numpy as np

### Datei einlesen

Der Datensatz liegt als CSV Datei vor. Um das verwendete Trennzeichen zu identifizieren, lade ich zunächst die ersten fünf Zeilen des Datensatzes:

In [4]:
# Lade Datensatz: zunächst nur 5 Zeilen, um Separator herauszufinden

df_kiva = pd.read_csv("data_abschlussprojekt.csv",
                      nrows=5
                      )
df_kiva

Unnamed: 0,# funded_amount# loan_amount# activity# sector# use# country_code# country# region# currency# term_in_months# lender_count# borrower_genders# repayment_interval
0#300.0#300.0#Fruits & Vegetables#Food#To buy seasonal,fresh fruits to sell. #PK#Pakistan#Lahore#PKR...
1#575.0#575.0#Rickshaw#Transportation#to repair and maintain the auto rickshaw used in their business.#PK#Pakistan#Lahore#PKR#11.0#14#female,female#irregular
2#150.0#150.0#Transportation#Transportation#To repair their old cycle-van and buy another one to rent out as a source of income#IN#India#Maynaguri#INR#43.0#6#female#bullet,
3#200.0#200.0#Embroidery#Arts#to purchase an embroidery machine and a variety of new embroidery materials.#PK#Pakistan#Lahore#PKR#11.0#8#female#irregular,
4#400.0#400.0#Milk Sales#Food#to purchase one buffalo.#PK#Pakistan#Abdul Hakeem#PKR#14.0#16#female#monthly,


**Auswertung:**  
Das Trennzeichen ist "#".  
Da der Datensatz einen eigenen index hat, kann er hier als index_column verwendet werden.

In [5]:
# Lies kompletten Datensatz ein mit # als Trennzeichen und ohne extra Index. Entferne führende Leerzeichen

df_kiva = pd.read_csv("data_abschlussprojekt.csv",
                      sep="#",
                      index_col=0,  
                      skipinitialspace=True
                      )
df_kiva

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,Lahore,PKR,12.0,12,female,irregular
1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,Lahore,PKR,11.0,14,"female, female",irregular
2,150.0,150.0,Transportation,Transportation,To repair their old cycle-van and buy another ...,IN,India,Maynaguri,INR,43.0,6,female,bullet
3,200.0,200.0,Embroidery,Arts,to purchase an embroidery machine and a variet...,PK,Pakistan,Lahore,PKR,11.0,8,female,irregular
4,400.0,400.0,Milk Sales,Food,to purchase one buffalo.,PK,Pakistan,Abdul Hakeem,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


### Objekt kennenlernen

In [7]:
# Zeige zunächste allgemeine Infos über den Datensatz

df_kiva.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 671205 entries, 0 to 671204
Data columns (total 13 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   funded_amount       671205 non-null  float64
 1   loan_amount         671205 non-null  float64
 2   activity            671205 non-null  object 
 3   sector              671205 non-null  object 
 4   use                 666972 non-null  object 
 5   country_code        671197 non-null  object 
 6   country             671205 non-null  object 
 7   region              614405 non-null  object 
 8   currency            671205 non-null  object 
 9   term_in_months      671205 non-null  float64
 10  lender_count        671205 non-null  int64  
 11  borrower_genders    666984 non-null  object 
 12  repayment_interval  671205 non-null  object 
dtypes: float64(3), int64(1), object(9)
memory usage: 71.7+ MB


In [8]:
# Zeige Kennzahlen der deskriptiven Statistik

df_kiva.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,671205.0,671205.0,671205.0,671205.0
mean,785.995061,842.397107,13.739022,20.590922
std,1130.398941,1198.660073,8.598919,28.459551
min,0.0,25.0,1.0,0.0
25%,250.0,275.0,8.0,7.0
50%,450.0,500.0,13.0,13.0
75%,900.0,1000.0,14.0,24.0
max,100000.0,100000.0,158.0,2986.0


In [9]:
# Zeige Kennzahlen auch für Datentyp object

df_kiva.describe(include="O")

Unnamed: 0,activity,sector,use,country_code,country,region,currency,borrower_genders,repayment_interval
count,671205,671205,666972,671197,671205,614405,671205,666984,671205
unique,163,15,423452,86,87,12695,67,11298,4
top,Farming,Agriculture,to buy a water filter to provide safe drinking...,PH,Philippines,Kaduna,PHP,female,monthly
freq,72955,180302,5217,160441,160441,10000,160440,426502,342717


In [10]:
# Zeige alle Spaltennamen

df_kiva.columns

Index(['funded_amount', 'loan_amount', 'activity', 'sector', 'use',
       'country_code', 'country', 'region', 'currency', 'term_in_months',
       'lender_count', 'borrower_genders', 'repayment_interval'],
      dtype='object')

**Erste Erkenntnisse:**  
Der Datensatz hat 13 Spalten und 671.205 Zeilen.  
Die Spalten "use", "country_code", "region" und "borrower_genders" haben fehlende Werte.  
Die Projekte haben eine große Spannweite, sowohl was den Zielbetrag als auch den ausgezahlten Betrag angeht.  
Es gibt in allen Spalten  Maximalwerte, die sich sehr stark von der Masse abheben.
Die Spaltennamen haben keine überflüssigen Leerzeichen mehr.

### Duplikate

#### Definition Duplikat

Es könnte sich bei den Projekten um Duplikate handeln, wenn die Inhalte aller Spalten übereinstimmen.

Zwar liegen keine Informationen zu Zeitpunkten oder zur Identität der Dahrlehnsnehmer*innen vor. Es könnte sein, dass eine Person für das gleiche Business immer wieder Investmentprojekte mit den gleichen Rahmenbedingungen startet, oder dass mehrere Mitglieder einer Community gleiche Projekte starten.

Allerdings ist es sehr unwahrscheinlich, dass bei unterschiedlichen Investmentprojekten sowohl der ausgezahlte Betrag als auch die Anzahl der Investierenden genau übereinstimmt.  
Daher entscheide ich mich dafür, Einträge, die in allen Spalten übereinstimmen, als Duplikate zu werten.

#### Identifikation und Umgang

In [11]:
# Identifiziere Duplikate gemäß Definition: Übereinstimmung in allen Spalten

df_kiva.loc[df_kiva.duplicated(keep=False),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
327,275.0,275.0,Farming,Agriculture,to buy fertilizers and other farm supplies.,PH,Philippines,"Brookes Point, Palawan",PHP,8.0,8,female,irregular
392,100.0,100.0,Home Energy,Personal Use,to buy a solar lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
405,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
498,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
606,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


Da ich davon ausgehe, dass es sich bei den Duplikaten und ein und dasselbe Projekt handelt, kann ich die Duplikate löschen:

In [12]:
# Lösche Duplikate

df_kiva.drop_duplicates(subset=None, keep="first", inplace=True)

### Fehlende Werte

#### Systemseitig erkannte fehlende Werte

In [13]:
# Identifiziere Null oder NaN Werte

df_kiva.isnull().sum().sort_values(ascending=False)

region                56158
use                    3900
borrower_genders       3888
country_code              8
funded_amount             0
loan_amount               0
activity                  0
sector                    0
country                   0
currency                  0
term_in_months            0
lender_count              0
repayment_interval        0
dtype: int64

**Auswertung:**  
1. es gibt sehr wenige fehlende Werte beim ***Country Code***. Die Information "country" scheint aber vollständig zu sein.  
2. es gibt viele fehlende Werte bei der ***Geschlechtsidentität*** der Darlehnsnehmer*innen. Hier sollte geprüft werden, ob die Auswahloptionen bei Antragstellung ausreichend sind. Auch hier wäre interessant, ob Geschlechtsinformation und Investmentrate zusammenhängen.
3. es gibt viele fehlenden Werte bei "use", also der ***Projektbeschreibung*** der Projekte. Es wäre interessant zu wissen, warum diese Information nicht obligatorisch ist und ob eine vorhandene Kurzbeschreibung ein erfolgreiches Investment wahrscheinlicher macht. Da es aber neben "use" noch die übergeordneten Kategorien "activity" und "sector" gibt, konnen die Projekte trotzdem thematisch eingeordnet werden.
4. es gibt sehr viele fehlende Werte bei der ***Region***. Das könnte darauf hindeuten, dass die Auswahlmöglichkeiten hierfür je nach Land nicht korrekt, nicht ausreichend oder gar nicht vorhanden sind. Da es aber keine fehlenden Werte beim Land ("country") gibt, kann stattdessen mit dieser gröberen Information weitergearbeitet werden, solange es keinen Deep Dive in einzelne Länder geben soll.




##### Ländercode ("country_code")

Ich schaue mit zunächst die fehlenden Werte beim Ländercode an:

In [14]:
# Zeige alle Zeilen mit Nan im Ländercode

df_kiva.loc[df_kiva.loc[:,"country_code"].isnull(),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
202537,4150.0,4150.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,6.0,162,female,bullet
202823,4150.0,4150.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,Rundu,NAD,6.0,159,male,bullet
344929,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,7.0,120,female,bullet
351177,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,Rundu,NAD,7.0,126,male,bullet
420953,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,7.0,118,female,bullet
421218,4000.0,4000.0,Wholesale,Wholesale,purchase solar lighting products for sale to l...,,Namibia,Rundu,NAD,7.0,150,male,bullet
487207,5100.0,5100.0,Renewable Energy Products,Retail,to pay for stock of solar lights and cell phon...,,Namibia,Katima Mulilo,NAD,7.0,183,male,bullet
487653,5000.0,5000.0,Wholesale,Wholesale,to maintain a stock of solar lights and cell p...,,Namibia,Oshakati,NAD,7.0,183,female,bullet


 Alle Projekte mit fehlendem Ländercode stammen aus Namibia. Ich kann hier also mit dem ISO2-Code "NA" auffüllen.  
Gibt es Projekte aus Namibia, bei denen der Ländercode ausgefüllt ist?

In [15]:
# Zeige alle Projekte aus Namibia

df_kiva.loc[df_kiva.loc[:,"country"]=="Namibia",:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
202537,4150.0,4150.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,6.0,162,female,bullet
202823,4150.0,4150.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,Rundu,NAD,6.0,159,male,bullet
344929,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,7.0,120,female,bullet
351177,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,Rundu,NAD,7.0,126,male,bullet
420953,3325.0,3325.0,Wholesale,Wholesale,To purchase lighting products for sale to loca...,,Namibia,EEnhana,NAD,7.0,118,female,bullet
421218,4000.0,4000.0,Wholesale,Wholesale,purchase solar lighting products for sale to l...,,Namibia,Rundu,NAD,7.0,150,male,bullet
487207,5100.0,5100.0,Renewable Energy Products,Retail,to pay for stock of solar lights and cell phon...,,Namibia,Katima Mulilo,NAD,7.0,183,male,bullet
487653,5000.0,5000.0,Wholesale,Wholesale,to maintain a stock of solar lights and cell p...,,Namibia,Oshakati,NAD,7.0,183,female,bullet


Bei allen Projekten aus Namibia fehlt der Ländercode, also fülle ich für alle entsprechenden Projekte den Ländercode mit "NA" auf.
Außerdem sollte geprüft werden, ob ein technisches Problem vorliegt, und der Eintrag "NA" in der Eingabemaske nicht korrekt als String verarbeitet wird.

In [16]:
# Ersetze Nan durch String "NA"

df_kiva.loc[df_kiva.loc[:,"country"]=="Namibia","country_code"] = "NA"

# Stelle sicher, dass Ersetzung erfolgreich war

df_kiva.loc[df_kiva.loc[:,"country_code"].isnull(),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval


##### Geschlechtsidentität ("borrower_genders")

Ich prüfe nun die fehlenden Werte im Geschlechtseintrag:

In [17]:
# Zeige alle Zeilen mit Nan in "borrowers_genders"

df_kiva.loc[df_kiva.loc[:,"borrower_genders"].isnull(),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
659604,5625.0,10000.0,Weaving,Arts,,BT,Bhutan,,USD,14.0,210,,irregular
660788,1975.0,1975.0,Home Energy,Personal Use,,PS,Palestine,,USD,27.0,39,,monthly
661718,800.0,1600.0,Furniture Making,Manufacturing,,HT,Haiti,,HTG,13.0,27,,irregular
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13.0,0,,monthly


Es fällt auf, dass gleichzeitig mit der Geschlechtsidentität oft die Projektbeschreibung sowie die Region zu fehlen scheint. Also schaue ich mir an, in wie vielen Fällen alle diese Informationen gleichzeitig fehlen:

In [18]:
# Zeige alle Zeilen mit Nan in "borrowers_genders" UND in "use" UND in "region"

df_kiva.loc[(df_kiva.loc[:,"borrower_genders"].isnull()) & (df_kiva.loc[:,"use"].isnull()) & (df_kiva.loc[:,"region"].isnull()),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
659604,5625.0,10000.0,Weaving,Arts,,BT,Bhutan,,USD,14.0,210,,irregular
660788,1975.0,1975.0,Home Energy,Personal Use,,PS,Palestine,,USD,27.0,39,,monthly
661718,800.0,1600.0,Furniture Making,Manufacturing,,HT,Haiti,,HTG,13.0,27,,irregular
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13.0,0,,monthly


 Bei allen Projekten, die keine Information über die Geschlechtsidentität haben, fehlen auch die Projektbeschreibung und die Region (der Ergebnis-Data Frame ist gleich groß). Hier sollte später geprüft werden, wie erfolgreich diese Investmentprojekte waren und ob vielleicht ein Hinweis auf Betrug vorliegt.

Um die Informationen in dieser Spalte später als Text auswerten zu können, wandle ich die fehlenden Werte in leere Strings um:

In [19]:
# Wandle fehlende Werte in der Spalte "'"borrower_genders" in leere Strings um

df_kiva["borrower_genders"] = df_kiva["borrower_genders"].fillna("").astype(str)

##### Projektbeschreibung ("use")

Es hat sich im vorherigen Abschnitt schon gezeigt, dass die Projektbeschreibung für alle Projekte fehlt, bei denen auch die Geschlechtsidentität der Darlehnsnehmenden unbekannt ist. Gibt es Auffälligkeiten für diejenigen Projekte, bei denen das Geschlecht der Darlehnsnehmenden bekannt ist, die Projektbeschreibung aber leer ist?

In [20]:
# Zeige alle Zeilen mit Nan in "use", aber nicht in "borrowers_genders"

df_kiva.loc[(df_kiva.loc[:,"borrower_genders"].notnull()) & (df_kiva.loc[:,"use"].isnull()),:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
659604,5625.0,10000.0,Weaving,Arts,,BT,Bhutan,,USD,14.0,210,,irregular
660788,1975.0,1975.0,Home Energy,Personal Use,,PS,Palestine,,USD,27.0,39,,monthly
661718,800.0,1600.0,Furniture Making,Manufacturing,,HT,Haiti,,HTG,13.0,27,,irregular
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,,KES,13.0,0,,monthly


Es sind keine Auffälligkeiten oder Gemeinsamkeiten in den Datensätzen erkennbar.  
Die fehlende Information in "use" aufzufüllen halte ich nicht für sinnvoll, da die Projektbeschreibung höchst individuell ist.  
Für weitere Auswertungen eignet sich die Spalte auch eher nicht, da die Beschreibungen erstens in unterschiedlichen Sprachen formuliert sind, zweitens manchmal gar keine Information über das Projekt beinhalten, sondern organisatorische Hinweise wie "Projekt freigegeben", und drittens so individuell und verschieden sind, dass selbst durch Text Mining kein Informationsgewinn daraus gezogen werden kann, der nicht auch schon in der Spalte "activity" enthalten ist.
Ich entscheide mich daher dazu, die Spalte zu löschen.


In [21]:
# Lösche Spalte "use"

df_kiva.drop("use", axis=1, inplace=True)

##### Region ("region")

Ich prüfe zunächst, ob es einen Zusammenhang zwischen Land und fehlender Region gibt:

In [22]:
# Anzahl der Länder mit Projekten mit fehlender Region

df_kiva.loc[df_kiva.loc[:,"region"].isnull(),"country"].nunique()

72

In [23]:
# Anzahl der Länder

df_kiva.country.nunique()

87

Für 72 von 87 Ländern gibt es Einträge mit fehlender Region, also scheint diese Tatsache unabhängig vom Land zu sein.
Da die Information in Region nicht einheitlich zu sein scheint, arbeite ich im Folgenden auf den höherem Level "Land", so dass ich die Spalte "region" löschen kann.

In [24]:
# Lösche Spalte "region"

df_kiva.drop("region", axis=1, inplace=True)

#### Platzhalter und Synonyme

Um Platzhalter zu identifizieren, schaue ich mir zunächst die Unique values für die "Object" Datentypen an, soweit das möglich ist.

In [25]:
# Zeige die Anzahl der eindeutigen Einträge für alle Spalten

df_kiva.nunique()

funded_amount           610
loan_amount             479
activity                163
sector                   15
country_code             87
country                  87
currency                 67
term_in_months          148
lender_count            503
borrower_genders      11299
repayment_interval        4
dtype: int64

In [26]:
# Zeige alle eindeutigen Einträge in Spalte "repayment_interval"

df_kiva.repayment_interval.unique()

array(['irregular', 'bullet', 'monthly', 'weekly'], dtype=object)

In [27]:
# Zeige alle eindeutigen Einträge in Spalte "sector"

df_kiva.sector.unique()

array(['Food', 'Transportation', 'Arts', 'Services', 'Agriculture',
       'Manufacturing', 'Wholesale', 'Retail', 'Clothing', 'Construction',
       'Health', 'Education', 'Personal Use', 'Housing', 'Entertainment'],
      dtype=object)

In [28]:
# Zeige alle eindeutigen Einträge in Spalte "currency"

df_kiva.currency.unique()

array(['PKR', 'INR', 'KES', 'NIO', 'USD', 'TZS', 'PHP', 'PEN', 'XOF',
       'LRD', 'VND', 'HNL', 'MNT', 'COP', 'GTQ', 'TJS', 'BOB', 'YER',
       'KHR', 'GHS', 'SLL', 'HTG', 'CLP', 'JOD', 'UGX', 'BIF', 'IDR',
       'GEL', 'UAH', 'EUR', 'ALL', 'CRC', 'XAF', 'TRY', 'AZN', 'DOP',
       'BRL', 'MXN', 'KGS', 'AMD', 'PYG', 'LBP', 'WST', 'ILS', 'RWF',
       'ZMW', 'NPR', 'MZN', 'ZAR', 'BZD', 'SRD', 'NGN', 'VUV', 'XCD',
       'MWK', 'LAK', 'MMK', 'ZWD', 'MDL', 'SSP', 'SBD', 'CNY', 'EGP',
       'MGA', 'NAD', 'LSL', 'THB'], dtype=object)

In [29]:
# Zeige alle eindeutigen Einträge in Spalte "country"

df_kiva.country.unique()

array(['Pakistan', 'India', 'Kenya', 'Nicaragua', 'El Salvador',
       'Tanzania', 'Philippines', 'Peru', 'Senegal', 'Cambodia',
       'Liberia', 'Vietnam', 'Iraq', 'Honduras', 'Palestine', 'Mongolia',
       'United States', 'Mali', 'Colombia', 'Tajikistan', 'Guatemala',
       'Ecuador', 'Bolivia', 'Yemen', 'Ghana', 'Sierra Leone', 'Haiti',
       'Chile', 'Jordan', 'Uganda', 'Burundi', 'Burkina Faso',
       'Timor-Leste', 'Indonesia', 'Georgia', 'Ukraine', 'Kosovo',
       'Albania', 'The Democratic Republic of the Congo', 'Costa Rica',
       'Somalia', 'Zimbabwe', 'Cameroon', 'Turkey', 'Azerbaijan',
       'Dominican Republic', 'Brazil', 'Mexico', 'Kyrgyzstan', 'Armenia',
       'Paraguay', 'Lebanon', 'Samoa', 'Israel', 'Rwanda', 'Zambia',
       'Nepal', 'Congo', 'Mozambique', 'South Africa', 'Togo', 'Benin',
       'Belize', 'Suriname', 'Thailand', 'Nigeria', 'Mauritania',
       'Vanuatu', 'Panama', 'Virgin Islands',
       'Saint Vincent and the Grenadines',
       "Lao Peo

In [30]:
# Zeige alle eindeutigen Einträge in Spalte "activity"

df_kiva.activity.unique()

array(['Fruits & Vegetables', 'Rickshaw', 'Transportation', 'Embroidery',
       'Milk Sales', 'Services', 'Dairy', 'Beauty Salon', 'Manufacturing',
       'Food Production/Sales', 'Wholesale', 'General Store',
       'Clothing Sales', 'Poultry', 'Tailoring', 'Sewing', 'Bakery',
       'Restaurant', 'Food Stall', 'Farming', 'Construction Supplies',
       'Personal Products Sales', 'Home Products Sales',
       'Natural Medicines', 'Fish Selling', 'Education provider',
       'Shoe Sales', 'Machinery Rental', 'Butcher Shop', 'Pigs',
       'Personal Expenses', 'Food Market', 'Cosmetics Sales',
       'Personal Housing Expenses', 'Retail', 'Energy', 'Grocery Store',
       'Construction', 'Agriculture', 'Motorcycle Transport',
       'Charcoal Sales', 'Food', 'Pharmacy', 'Fishing', 'Timber Sales',
       'Cattle', 'Electronics Repair', 'Electronics Sales', 'Vehicle',
       'Cafe', 'Blacksmith', 'Higher education costs', 'Used Clothing',
       'Fuel/Firewood', 'Upholstery', 'Catering',

Es fallen keine Platzhalter auf.  
Ich prüfe nun die Spalten mit numerischen Daten auf Aufälligkeiten in Minimal- und Maximalwerten:

In [32]:
# Zeige Kennzahlen der deskriptiven Statistik

df_kiva.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,646617.0,646617.0,646617.0,646617.0
mean,808.045242,866.458816,13.719826,21.11536
std,1145.419041,1214.276106,8.479912,28.840674
min,0.0,25.0,1.0,0.0
25%,275.0,275.0,8.0,7.0
50%,475.0,500.0,13.0,13.0
75%,925.0,1000.0,14.0,25.0
max,100000.0,100000.0,158.0,2986.0


Es gibt keine Auffälligkeiten, die auf Platzhalter hindeuten (keine negativen Zahlen, keine unrealistisch hohen Werte, also keine Werte außerhalb des Wertebereichs).

Es gibt auch keine Mismatches in den Datentypen, die auf Platzhalter hindeuten könnten. Alle Spalten mir numerischem Inhalt haben entweder float oder integer Datentypen.

Es scheinen also keine Platzhalter oder Synonyme vorzuliegen.

### Extremwerte identifizieren
#### Identifizierung

In unserem Kontext spreche ich von Extremwerten, da es sich nicht um ein statistisches oder wissenschaftliches Umfeld handelt.
Es hat sich bereits gezeigt, dass in den Spalten mit numerischen Daten einige Einträge stark nach oben abweichen.



In [33]:
# Zeige größte Werte für "loan_amount"

df_kiva.loc[df_kiva.loc[:,"loan_amount"] >= 50000,:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
34196,50000.0,50000.0,Renewable Energy Products,Retail,PE,Peru,USD,14.0,1446,male,irregular
43182,50000.0,50000.0,Renewable Energy Products,Retail,KE,Kenya,USD,16.0,1491,male,bullet
53634,50000.0,50000.0,Renewable Energy Products,Retail,UG,Uganda,USD,14.0,1581,female,bullet
70499,100000.0,100000.0,Agriculture,Agriculture,HT,Haiti,USD,75.0,2986,female,irregular
126839,50000.0,50000.0,Agriculture,Agriculture,MX,Mexico,USD,144.0,586,"male, male, male, male, male, male, male, female",irregular
163727,50000.0,50000.0,Agriculture,Agriculture,KE,Kenya,USD,38.0,1343,female,bullet
210975,50000.0,50000.0,Agriculture,Agriculture,RW,Rwanda,USD,8.0,1302,male,bullet
223120,50000.0,50000.0,Higher education costs,Education,MX,Mexico,USD,14.0,960,male,irregular
375404,0.0,50000.0,Taxi,Transportation,MX,Mexico,USD,17.0,0,,irregular
383723,17050.0,50000.0,Taxi,Transportation,MX,Mexico,USD,17.0,511,male,irregular


In [34]:
# Zeige größte Werte für "lender_amount"

df_kiva.loc[df_kiva.loc[:,"lender_count"] >=2000,:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
70499,100000.0,100000.0,Agriculture,Agriculture,HT,Haiti,USD,75.0,2986,female,irregular


In [35]:
# Zeige größte Werte für "term_in_months"

df_kiva.loc[df_kiva.loc[:,"term_in_months"] >= 150,:]

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
215863,6725.0,6725.0,Higher education costs,Education,DO,Dominican Republic,DOP,158.0,244,female,irregular
280535,6675.0,6675.0,Higher education costs,Education,DO,Dominican Republic,DOP,154.0,207,male,irregular
281445,8900.0,8900.0,Higher education costs,Education,DO,Dominican Republic,DOP,156.0,253,female,irregular


#### Umgang

Es gibt keine Auffälligkeiten bei den Extremwerten. Sie müssen nicht gesondert behandelt werden, da sie zum Wertebereich gehören.

### Information extrahieren

Aus der Spalte "borrower_genders" möchte ich die Anzahl der Darlehnsnehmenden, aufgeschlüsselt nach Geschlechtsidentität extrahieren.
Dafür möchte ich zunächst herausfinden, welche Gelschlechtseinträge es im Datensatz gibt:

In [27]:
# Lade die Textmining Bibliothek und das passende Sprachmodul

import spacy
from spacy.lang.en import English
from collections import Counter

In [28]:
# Erstelle das NLP Objekt

nlp = English()

In [29]:
# Teile Spalte 'borrower_genders' in Liste von Tokens auf

tokens = " ".join(df_kiva["borrower_genders"]).split()

# Bereinige Tokens von zusätzlichen Kommas

tokens = [token.strip(",") for token in tokens]

# zähle Häufigkeit jedes Tokens

token_counts = Counter(tokens)

# Gib Token-Häufigkeiten aus

for token, count in token_counts.items():
    print(f"Token: {token}, Häufigkeit: {count}")

Token: female, Häufigkeit: 1037327
Token: male, Häufigkeit: 267221


Es gibt also als Geschlechtseinträge nur "female" und "male". Diese sollen nun zeilenweise gezählt werden, getrennt für Frauen und Männer. Die jeweilige Anzahl speichere ich in neue Spalten.

In [30]:
# Importiere regular expressions Bibliothek

import re

In [31]:
# Finde das Wort "female" in der Spalte "borrower_genders" mit Hilfe von Regular Expressions Methoden,
# zähle alle Vorkommnisse und schreibe sie in neue Spalte "borrowers_female"

df_kiva["borrowers_female"] = df_kiva.apply(lambda row:
                                            sum(1 for _ in re.finditer(r"\b%s\b" % re.escape("female"), row.borrower_genders)),
                                            axis=1)                                     

In [33]:
# Finde das Wort "male" in der Spalte "borrower_genders",
# zähle alle Vorkommnisse und schreibe sie in neue Spalte "borrowers_male"

df_kiva["borrowers_male"] = df_kiva.apply(lambda row:
                                          sum(1 for _ in re.finditer(r"\b%s\b" % re.escape("male"), row.borrower_genders)),
                                          axis=1)

In [None]:
# Ermittle Datentyp der neuen Spalte

df_kiva.borrowers_female.dtype

Jetzt soll auch die Summe von Männern und Frauen in eine neue Spalte geschrieben werden, damit ich auch auf die Information zugreifen kann, wo die Darlehnsnehmerdaten fehlen (nämlich dort, wo die Summe 0 ist).

In [34]:
# Schreibe Gesamtanzahl der Darlehnsnehmenden in neue Spalte "borrower_count"

df_kiva["borrower_count"] = df_kiva.apply(lambda row: row.borrowers_female + row.borrowers_male, axis=1)

### Kennzahlen berechnen


#### Finanzierungsrate in Prozent

Unser Geschäftsmodell hängt davon ab, möglichst viele Projekte erfolgreich zu finanzieren und dann wieder auszuzahlen.  
Als erste Kennzahl interessiert mich daher die Erfolgsquote des Fundings. Ich berechne, wie viel Prozent der Zielsumme tatsächlich durch Investoren bereitgestellt wurde:

In [35]:
# Berechne Finanzierungsrate und speichere die KPI in neuer Spalte "funding_ratio"

df_kiva["funding_ratio"] = df_kiva.apply(lambda row: (row.funded_amount/row.loan_amount) * 100, axis=1)

#### Durchschnittliche investitionssumme

Um unsere Kunden besser kennenzulernen, könnte die durchschnittliche Investitionssumme je Projekt interessant sein:

In [36]:
# Berechne durchschnittliche Investitionssumme und speichere die KPI in neuer Spalte "avg_investment"

df_kiva["avg_investment"] = df_kiva.apply(lambda row: 0 if row.funded_amount == 0
                                                      else row.funded_amount / row.lender_count, axis=1)
df_kiva

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval,borrowers_female,borrowers_male,borrower_count,funding_ratio,avg_investment
0,300.0,300.0,Fruits & Vegetables,Food,PK,Pakistan,PKR,12.0,12,female,irregular,1,0,1,100.0,25.000000
1,575.0,575.0,Rickshaw,Transportation,PK,Pakistan,PKR,11.0,14,"female, female",irregular,2,0,2,100.0,41.071429
2,150.0,150.0,Transportation,Transportation,IN,India,INR,43.0,6,female,bullet,1,0,1,100.0,25.000000
3,200.0,200.0,Embroidery,Arts,PK,Pakistan,PKR,11.0,8,female,irregular,1,0,1,100.0,25.000000
4,400.0,400.0,Milk Sales,Food,PK,Pakistan,PKR,14.0,16,female,monthly,1,0,1,100.0,25.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
671179,0.0,25.0,Livestock,Agriculture,PY,Paraguay,USD,13.0,0,female,monthly,1,0,1,0.0,0.000000
671181,0.0,25.0,Livestock,Agriculture,PK,Pakistan,PKR,13.0,0,female,monthly,1,0,1,0.0,0.000000
671182,0.0,125.0,Livestock,Agriculture,MX,Mexico,MXN,13.0,0,"female, female",monthly,2,0,2,0.0,0.000000
671184,0.0,875.0,Livestock,Agriculture,BO,Bolivia,BOB,13.0,0,"female, female",monthly,2,0,2,0.0,0.000000


### Speicherplatz anpassen


#### Überflüssige Spalten löschen

Da alle Informationen aus der Spalte "borrower_genders" extrahiert wurden und als Integers speichereffizient in anderen Spalten vorliegen, kann die alte Spalte gelöscht werden:

In [37]:
# Lösche Spalte "borrower_genders"

df_kiva_opti = df_kiva.drop("borrower_genders", axis=1)

#### Datentyp "float"

Ich prüfe jetzt für die float-Spalten "term_in_months", "funded_amount" und "loan_amount", ob es tatsächlich Nachkommastellen gibt oder ob sie in Integers umgewandelt werden können.

In [38]:
# Wandle "term_in_months" in temporärem Data Frame in Integers um,
# berechne die Differenz zwischen den Spalten und addiere sie auf

df_int = df_kiva_opti["term_in_months"].astype("int64")
diff = (df_kiva_opti["term_in_months"] - df_int)

diff.sum()

0.0

In [39]:
# Wandle "funded_amount" in temporärem Data Frame in Integers um,
# berechne die Differenz zwischen den Spalten und addiere sie auf

df_int = df_kiva_opti["funded_amount"].astype("int64")
diff = (df_kiva_opti["funded_amount"] - df_int)

diff.sum()

0.0

In [40]:
# Wandle "loan_amount" in temporärem Data Framein Integers um,
# berechne die Differenz zwischen den Spalten und addiere sie auf

df_int = df_kiva_opti["loan_amount"].astype("int64")
diff = (df_kiva_opti["loan_amount"] - df_int)

diff.sum()

0.0

Da die Differenz zwischen Floats und Integers für alle drei Spalten 0 ist, gibt es keine Nachkommastellen (denn die würden bei der Umwandlung abgeschnitten werden und somit wäre die Summe der Differenz grüßer als 0).  
Alle drei Spalten können also ohne Datenverlust in Integers umgewandelt werden:

In [41]:
# Wandle Spalten in Integers um

df_kiva_opti["term_in_months"] = df_kiva_opti["term_in_months"].astype("int64")
df_kiva_opti["funded_amount"] = df_kiva_opti["funded_amount"].astype("int64")
df_kiva_opti["loan_amount"] = df_kiva_opti["loan_amount"].astype("int64")

# Lösche temporären Dataframe

del df_int

#### Datentyp "object"

Für die Spalten mit Datentyp "object" soll geprüft werden, ob eine Umwandlung in Kategorien sinnvoll ist:

In [42]:
# Finde die Anzahl der eindeutigen Werte heraus, um herauszufinden, ob der category Datentyp Sinn macht

liste = df_kiva_opti.select_dtypes("object").columns 

for spalte in liste:
    print(spalte, df_kiva_opti.loc[:,spalte].nunique())

activity 163
sector 15
country_code 87
country 87
currency 67
repayment_interval 4


Die Spalte "sector" brauche ich später noch als object, daher wandle ich sie nicht um, "activity" hat zu viele verschiedene Werte.

In [43]:
# Wandle Soalte "country_code" vorübergehend in category um und prüfe alten vs. neuen Speicherbedarf

df_cat = df_kiva_opti["country_code"].astype("category")
print(df_cat.memory_usage(deep=True), " vs ", df_kiva_opti.country_code.memory_usage(deep=True))

5826790  vs  43323339


In [44]:
# Wandle Soalte "country" vorübergehend in category um und prüfe alten vs. neuen Speicherbedarf


df_cat = df_kiva_opti["country"].astype("category")
print(df_cat.memory_usage(deep=True), " vs ", df_kiva_opti.country.memory_usage(deep=True))

5827377  vs  47494538


In [55]:
# Wandle Soalte "currency" vorübergehend in category um und prüfe alten vs. neuen Speicherbedarf


df_cat = df_kiva_opti["currency"].astype("category")
print(df_cat.memory_usage(deep=True), " vs ", df_kiva_opti.currency.memory_usage(deep=True))

5825677  vs  43969956


In [56]:
# Wandle Soalte "repayment_interval" vorübergehend in category um und prüfe alten vs. neuen Speicherbedarf


df_cat = df_kiva_opti["repayment_interval"].astype("category")
print(df_cat.memory_usage(deep=True), " vs ", df_kiva_opti.repayment_interval.memory_usage(deep=True))

5819981  vs  46990137


Für alle geprüften Spalten zeigt sich bei Umwandlung in den Datentyp "Category" eine deutliche Reduzierung des Speicherplatzes. Daher wandle ich jetzt alle um:

In [45]:
# Wandle geprüfte Spalten in Categories um

df_kiva_opti["country_code"] = df_kiva_opti["country_code"].astype("category")
df_kiva_opti["country"] = df_kiva_opti["country"].astype("category")
df_kiva_opti["currency"] = df_kiva_opti["currency"].astype("category")
df_kiva_opti["repayment_interval"] = df_kiva_opti["repayment_interval"].astype("category")

# Lösche temporären Dataframe

del df_cat

# Prüfe, ob Umwandlung erfolgreich war

df_kiva_opti.dtypes 

funded_amount            int64
loan_amount              int64
activity                object
sector                  object
country_code          category
country               category
currency              category
term_in_months           int64
lender_count             int64
repayment_interval    category
borrowers_female         int64
borrowers_male           int64
borrower_count           int64
funding_ratio          float64
avg_investment         float64
dtype: object

#### Check, ob Speicherplatz optimal ist

In [46]:
# Prüfe Speicherplatz des optimierten Dataframes

df_kiva_opti.memory_usage(deep=True)

Index                  5172936
funded_amount          5172936
loan_amount            5172936
activity              44762744
sector                41954848
country_code            653854
country                 654441
currency                652741
term_in_months         5172936
lender_count           5172936
repayment_interval      647045
borrowers_female       5172936
borrowers_male         5172936
borrower_count         5172936
funding_ratio          5172936
avg_investment         5172936
dtype: int64

In [47]:
# Optimierung des Speicherplatzes bei den floats

df_kiva_opti.loc[:,["funding_ratio","avg_investment"]] = df_kiva_opti.loc[:,["funding_ratio","avg_investment"]].apply(pd.to_numeric, downcast="float")

  df_kiva_opti.loc[:,["funding_ratio","avg_investment"]] = df_kiva_opti.loc[:,["funding_ratio","avg_investment"]].apply(pd.to_numeric, downcast="float")


In [48]:
# Optimierung des Speicherplatzes bei den ints

df_kiva_opti.loc[:,["funded_amount","loan_amount","term_in_months","lender_count","borrowers_female", "borrowers_male","borrower_count"]] = df_kiva_opti.loc[:,["funded_amount","loan_amount","term_in_months","lender_count","borrowers_female", "borrowers_male","borrower_count"]].apply(pd.to_numeric, downcast="integer")

  df_kiva_opti.loc[:,["funded_amount","loan_amount","term_in_months","lender_count","borrowers_female", "borrowers_male","borrower_count"]] = df_kiva_opti.loc[:,["funded_amount","loan_amount","term_in_months","lender_count","borrowers_female", "borrowers_male","borrower_count"]].apply(pd.to_numeric, downcast="integer")


In [49]:
# Ermittle Reduzierung des Speicherplatzes

reduction = (df_kiva.memory_usage(deep=True).sum()-df_kiva_opti.memory_usage(deep=True).sum()) / df_kiva.memory_usage(deep=True).sum()

print(f"{reduction:0.2f}")

0.68


**Ergebnis:**  
Der Speicherplatz wurde um 68% reduziert.

### Data Frame ablegen für Visualisierung

Damit die Speicherplatzoptimierungen beim Ablegen der Daten nicht verloren gehen, speichere ich den Data Frame in einer Pickle Datei ab:

In [50]:
# Speichere Dataframe als pickle ab

df_kiva_opti.to_pickle("kiva_data_after_processing.pkl")