# Daten Aufbereitung

## Daten importieren

### Bibliotheken importieren

In [2]:
# Datenverarbeitung
import pandas as pd

# Displaybreite anpassen
from IPython.display import display, HTML
display(HTML("<style>.container { width:80% !important; }</style>"))

### Daten einlesen

In [13]:
# feather Datei als df einlesen
df = pd.read_feather('data_kiva.feather')

# df ausgeben
df

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,Lahore,PKR,12.0,12,female,irregular
1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,Lahore,PKR,11.0,14,"female, female",irregular
2,150.0,150.0,Transportation,Transportation,To repair their old cycle-van and buy another ...,IN,India,Maynaguri,INR,43.0,6,female,bullet
3,200.0,200.0,Embroidery,Arts,to purchase an embroidery machine and a variet...,PK,Pakistan,Lahore,PKR,11.0,8,female,irregular
4,400.0,400.0,Milk Sales,Food,to purchase one buffalo.,PK,Pakistan,Abdul Hakeem,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


## DF kennenlernen

In [14]:
# allgemeine Infos über Spalten einholen
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 671205 entries, 0 to 671204
Data columns (total 13 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   funded_amount       671205 non-null  float64
 1   loan_amount         671205 non-null  float64
 2   activity            671205 non-null  object 
 3   sector              671205 non-null  object 
 4   use                 666972 non-null  object 
 5   country_code        671197 non-null  object 
 6   country             671205 non-null  object 
 7   region              614405 non-null  object 
 8   currency            671205 non-null  object 
 9   term_in_months      671205 non-null  float64
 10  lender_count        671205 non-null  int64  
 11  borrower_genders    666984 non-null  object 
 12  repayment_interval  671205 non-null  object 
dtypes: float64(3), int64(1), object(9)
memory usage: 71.7+ MB


**Erkenntnis:**
- 'use', 'country_code', 'region' & 'borrower_genders' enthält NULL-Werte -> **Fehlende Werte**
- dtype scheint zu passen (bis auf manche floats, die ggf. ints sein könnten/müssten)

In [15]:
# Spalten mit NULL-Werte nochmals identifizieren
df.isnull().sum().sort_values(ascending=False)

region                56800
use                    4233
borrower_genders       4221
country_code              8
funded_amount             0
loan_amount               0
activity                  0
sector                    0
country                   0
currency                  0
term_in_months            0
lender_count              0
repayment_interval        0
dtype: int64

**Erkenntnis:**
- **fehlende Werte** in 'use', 'country_code', 'region' & 'borrower_genders'

In [16]:
# allgemeine Infos über statistische Werte in numerischen Spalten einholen
df.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,671205.0,671205.0,671205.0,671205.0
mean,785.995061,842.397107,13.739022,20.590922
std,1130.398941,1198.660073,8.598919,28.459551
min,0.0,25.0,1.0,0.0
25%,250.0,275.0,8.0,7.0
50%,450.0,500.0,13.0,13.0
75%,900.0,1000.0,14.0,24.0
max,100000.0,100000.0,158.0,2986.0


**Erkenntnis:**
- alle max Werte sehr hoch -> **Extremwerte?**

In [17]:
# Infos über unique values der Spalten einholen
df.nunique()

funded_amount            610
loan_amount              479
activity                 163
sector                    15
use                   423452
country_code              86
country                   87
region                 12695
currency                  67
term_in_months           148
lender_count             503
borrower_genders       11298
repayment_interval         4
dtype: int64

**Erkenntnis:**
- Daten enthalten sehr viele unique values in den Spalten (es scheint wenig Einschränkungen gegeben zu haben bei Anmeldung)

## Duplikate

### Identifizierung

In [18]:
# Zeilen ausgeben, die IN JEDER SPALTE ein Duplikat sind
df.loc[df.duplicated(keep=False), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
327,275.0,275.0,Farming,Agriculture,to buy fertilizers and other farm supplies.,PH,Philippines,"Brookes Point, Palawan",PHP,8.0,8,female,irregular
392,100.0,100.0,Home Energy,Personal Use,to buy a solar lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
405,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
498,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
606,100.0,100.0,Home Energy,Personal Use,to buy a solar-powered lamp.,SV,El Salvador,,USD,14.0,4,male,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671200,0.0,25.0,Livestock,Agriculture,"[True, u'para compara: cemento, arenya y ladri...",PY,Paraguay,Concepción,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


### Umgang

Diese knapp 35k Zeilen sind geprüft auf alle Spalten mindestens 2 mal im Datensatz vorhanden. Das lässt vermuten, dass keine Systemfehler oder falsche Eingaben ein paar Duplikate produziert haben.<br>
Der Datensatz enthält die Historie abgeschlossener Projekte des letzten Jahres - allerdings OHNE Zeitstempel!<br>
Vermutung: Manche Personen melden das exakt gleiche Projekt mehrfach hintereinander an. Vielleicht haben sie kein Geld oder zu wenig bekommen und wollten es nochmal probieren. Oder sie hatten Erfolg und benötigen noch mehr Geld.<br>
Ohne einen genauer Zeitstempel kann keine exakte Aussage über die Duplikate getroffen werden. Außerdem würde ein Löschen viele interessante Daten für die spätere Analyse entferne (bspw. haben vielleicht Personen aus Kenia ganz viele Projekte angefragt, aber kein Geld bekommen)<br>
**Daher lasse ich alle Zeilen drin.**<br>
Ggf. kann man diese mehrfach angefragten Projekte sogar analysieren?!

## Fehlende Werte

### Synonyme

#### Synonyme in Text-Spalten

Oben wurde bereits herausgearbeitet, dass viele Spalten sehr viele unique values haben. Deshalb schaue ich hier bei den Spalten mit "wenigen" unique values nach, ob ich Synonyme für fehlende Werte finden kann.<br>

In [19]:
# 'sector' prüfen
df.sector.unique()

array(['Food', 'Transportation', 'Arts', 'Services', 'Agriculture',
       'Manufacturing', 'Wholesale', 'Retail', 'Clothing', 'Construction',
       'Health', 'Education', 'Personal Use', 'Housing', 'Entertainment'],
      dtype=object)

In [20]:
# 'country' prüfen
df.country.unique()

array(['Pakistan', 'India', 'Kenya', 'Nicaragua', 'El Salvador',
       'Tanzania', 'Philippines', 'Peru', 'Senegal', 'Cambodia',
       'Liberia', 'Vietnam', 'Iraq', 'Honduras', 'Palestine', 'Mongolia',
       'United States', 'Mali', 'Colombia', 'Tajikistan', 'Guatemala',
       'Ecuador', 'Bolivia', 'Yemen', 'Ghana', 'Sierra Leone', 'Haiti',
       'Chile', 'Jordan', 'Uganda', 'Burundi', 'Burkina Faso',
       'Timor-Leste', 'Indonesia', 'Georgia', 'Ukraine', 'Kosovo',
       'Albania', 'The Democratic Republic of the Congo', 'Costa Rica',
       'Somalia', 'Zimbabwe', 'Cameroon', 'Turkey', 'Azerbaijan',
       'Dominican Republic', 'Brazil', 'Mexico', 'Kyrgyzstan', 'Armenia',
       'Paraguay', 'Lebanon', 'Samoa', 'Israel', 'Rwanda', 'Zambia',
       'Nepal', 'Congo', 'Mozambique', 'South Africa', 'Togo', 'Benin',
       'Belize', 'Suriname', 'Thailand', 'Nigeria', 'Mauritania',
       'Vanuatu', 'Panama', 'Virgin Islands',
       'Saint Vincent and the Grenadines',
       "Lao Peo

In [21]:
# 'country_code' prüfen
df.country_code.unique()

array(['PK', 'IN', 'KE', 'NI', 'SV', 'TZ', 'PH', 'PE', 'SN', 'KH', 'LR',
       'VN', 'IQ', 'HN', 'PS', 'MN', 'US', 'ML', 'CO', 'TJ', 'GT', 'EC',
       'BO', 'YE', 'GH', 'SL', 'HT', 'CL', 'JO', 'UG', 'BI', 'BF', 'TL',
       'ID', 'GE', 'UA', 'XK', 'AL', 'CD', 'CR', 'SO', 'ZW', 'CM', 'TR',
       'AZ', 'DO', 'BR', 'MX', 'KG', 'AM', 'PY', 'LB', 'WS', 'IL', 'RW',
       'ZM', 'NP', 'CG', 'MZ', 'ZA', 'TG', 'BJ', 'BZ', 'SR', 'TH', 'NG',
       'MR', 'VU', 'PA', 'VI', 'VC', 'LA', 'MW', 'MM', 'MD', 'SS', 'SB',
       'CN', 'EG', 'GU', 'AF', 'MG', None, 'PR', 'LS', 'CI', 'BT'],
      dtype=object)

In [22]:
# 'currency' prüfen
df.currency.unique()

array(['PKR', 'INR', 'KES', 'NIO', 'USD', 'TZS', 'PHP', 'PEN', 'XOF',
       'LRD', 'VND', 'HNL', 'MNT', 'COP', 'GTQ', 'TJS', 'BOB', 'YER',
       'KHR', 'GHS', 'SLL', 'HTG', 'CLP', 'JOD', 'UGX', 'BIF', 'IDR',
       'GEL', 'UAH', 'EUR', 'ALL', 'CRC', 'XAF', 'TRY', 'AZN', 'DOP',
       'BRL', 'MXN', 'KGS', 'AMD', 'PYG', 'LBP', 'WST', 'ILS', 'RWF',
       'ZMW', 'NPR', 'MZN', 'ZAR', 'BZD', 'SRD', 'NGN', 'VUV', 'XCD',
       'MWK', 'LAK', 'MMK', 'ZWD', 'MDL', 'SSP', 'SBD', 'CNY', 'EGP',
       'MGA', 'NAD', 'LSL', 'THB'], dtype=object)

In [23]:
# 'repayment_interval' prüfen
df.repayment_interval.unique()

array(['irregular', 'bullet', 'monthly', 'weekly'], dtype=object)

**Erkenntnis:**
- in Spalten mit "wenigen" unique values habe ich keine Synonyme für fehlende Werte gefunden
- falls fehlende Werte in den anderen Spalten, die ich nicht geprüft habe, drin sind, fallen diese mir später in der Analyse auf

#### Synonyme in numerischen Spalten

Zunächst nochmal die statistischen Werte anschauen:

In [24]:
# allgemeine Infos über statistische Werte in numerischen Spalten einholen
df.describe()

Unnamed: 0,funded_amount,loan_amount,term_in_months,lender_count
count,671205.0,671205.0,671205.0,671205.0
mean,785.995061,842.397107,13.739022,20.590922
std,1130.398941,1198.660073,8.598919,28.459551
min,0.0,25.0,1.0,0.0
25%,250.0,275.0,8.0,7.0
50%,450.0,500.0,13.0,13.0
75%,900.0,1000.0,14.0,24.0
max,100000.0,100000.0,158.0,2986.0


Es fallen keine extrem niedrigen oder hohen Werte direkt auf. Dennoch prüfe ich zwei der Max-Werte:

In [25]:
# Zeilen mit term in months über 150
df.loc[df.loc[:, 'lender_count']>1600, :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
70499,100000.0,100000.0,Agriculture,Agriculture,create more than 300 jobs for women and farmer...,HT,Haiti,Les Cayes,USD,75.0,2986,female,irregular
197210,49950.0,49950.0,Renewable Energy Products,Retail,to import and stock clean energy products such...,HT,Haiti,Port-au-Prince,USD,26.0,1605,female,monthly
408295,50000.0,50000.0,Clothing,Clothing,to set up a garment social business that will ...,AL,Albania,Cerrik,USD,97.0,1626,male,monthly
496715,50000.0,50000.0,Agriculture,Agriculture,"to fund the harvest of seeds of 6,000 smallhol...",MG,Madagascar,Tsihombe,USD,22.0,1606,male,irregular
509048,50000.0,50000.0,Poultry,Agriculture,to purchase chicken feed & a delivery vehicle ...,TZ,Tanzania,Dar es Salaam,USD,14.0,1765,female,irregular
544548,50000.0,50000.0,Health,Health,to provide community trauma services in South ...,SS,South Sudan,Juba,USD,8.0,1609,female,bullet
565733,50000.0,50000.0,Agriculture,Agriculture,to pay 600 farming families 100% above market ...,EC,Ecuador,Quito,USD,14.0,1689,female,irregular
583307,50000.0,50000.0,Agriculture,Agriculture,to support 800+ farmers by improving their pro...,GT,Guatemala,Quetzaltenango,USD,20.0,1671,male,monthly
614922,50000.0,50000.0,Water Distribution,Services,to set up 13 new clean water businesses in nor...,GH,Ghana,Tamale,USD,14.0,1688,female,irregular
631904,50000.0,50000.0,Agriculture,Agriculture,double cashew nut export output and hire about...,CI,Cote D'Ivoire,Kolia,USD,10.0,1706,female,irregular


In [26]:
# Zeilen mit term in months über 150
df.loc[df.loc[:, 'term_in_months']>150, :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
215863,6725.0,6725.0,Higher education costs,Education,To cover educational expenses for pursuing a M...,DO,Dominican Republic,San Francisco de Macoris,DOP,158.0,244,female,irregular
280535,6675.0,6675.0,Higher education costs,Education,to pay for higher education expenses.,DO,Dominican Republic,Santo Domingo,DOP,154.0,207,male,irregular
281445,8900.0,8900.0,Higher education costs,Education,to pay further education costs.,DO,Dominican Republic,Santo Domingo,DOP,156.0,253,female,irregular


**Erkenntnis:**
- es scheint alles seine Richtigkeit zu haben mit den Max-Werten

### NULL-Werte

Zunächst noch einmal die Spalten mit NULL-Werten identifizieren:

In [27]:
# Spalten mit NULL-Werte nochmals identifizieren
df.isnull().sum().sort_values(ascending=False)

region                56800
use                    4233
borrower_genders       4221
country_code              8
funded_amount             0
loan_amount               0
activity                  0
sector                    0
country                   0
currency                  0
term_in_months            0
lender_count              0
repayment_interval        0
dtype: int64

#### Spalte 'region'

In [28]:
# NULL-Werte in Spalte 'region' genauer anschauen
df.loc[df.loc[:, 'region'].isnull(), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,region,currency,term_in_months,lender_count,borrower_genders,repayment_interval
5,250.0,250.0,Services,Services,purchase leather for my business using ksh 20000.,KE,Kenya,,KES,4.0,6,female,irregular
49,450.0,450.0,General Store,Retail,to stock his store.,SV,El Salvador,,USD,14.0,18,male,monthly
54,225.0,225.0,Food Market,Food,to purchase various seasonal items to resell: ...,SN,Senegal,,XOF,14.0,7,female,monthly
67,125.0,125.0,Energy,Services,purchase solar lanterns for resale.,KE,Kenya,,KES,3.0,6,male,irregular
70,2000.0,2000.0,Retail,Retail,to install a display window and a sunshade for...,IQ,Iraq,,USD,15.0,71,male,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...,...
671197,0.0,25.0,Livestock,Agriculture,Pretend the issue with loan got addressed by K...,KE,Kenya,,KES,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,1,female,monthly
671202,0.0,25.0,Games,Entertainment,,KE,Kenya,,KES,13.0,0,,monthly
671203,0.0,25.0,Livestock,Agriculture,"[True, u'to start a turducken farm.'] - this l...",KE,Kenya,,KES,13.0,0,female,monthly


**Erkenntnis:**
- sehr viele Zeilen sind von NULL-Werten in 'region' betroffen
- Frage: welche Länder stecken dahinter?

In [29]:
# unique Länder, die hinter NaN in 'region' Zeilen stecken
df.loc[df.loc[:, 'region'].isnull(), 'country'].unique()

array(['Kenya', 'El Salvador', 'Senegal', 'Iraq', 'United States', 'Peru',
       'Tanzania', 'Guatemala', 'Colombia', 'Indonesia', 'Kosovo',
       'Timor-Leste', 'Turkey', 'Philippines', 'Palestine', 'Burundi',
       'Tajikistan', 'Honduras', 'Jordan', 'Mexico', 'Lebanon', 'Albania',
       'Nicaragua', 'Bolivia', 'Israel', 'Rwanda', 'Azerbaijan',
       'Ecuador', 'Mongolia', 'Haiti', 'Cambodia', 'Sierra Leone',
       'Yemen', 'Zimbabwe', 'Paraguay', 'Uganda', 'Armenia',
       'Dominican Republic', 'Benin', 'Belize', 'Ghana', 'Mozambique',
       'Zambia', 'Samoa', 'Brazil', 'Panama', 'Pakistan', 'Burkina Faso',
       'Suriname', 'Virgin Islands', 'Togo', 'South Africa', 'Malawi',
       'Nigeria', 'Liberia', 'Vietnam', 'Costa Rica', 'Guam',
       'Myanmar (Burma)', 'Mali', 'Madagascar',
       'The Democratic Republic of the Congo', 'Cameroon', 'Georgia',
       'Puerto Rico', 'South Sudan', 'Moldova', 'Chile', 'Kyrgyzstan',
       'India', 'China', 'Bhutan'], dtype=object)

**Erkenntnis:**
- viele verschiedene Länder stecken hinter diesen Zeilen
- Frage: kann man NULL-Werte in 'region' sinnvoll auffüllen? Steckt vielleicht oft nur eine Region pro Land dahinter? Stichprobenartige Prüfung:

In [30]:
# unique Regionen, die bei Kenya hinterlegt sind
df.loc[df.loc[:, 'country']=='Kenya', 'region'].unique()

array([None, 'Voi', 'Likoni', 'Nanyuki', 'Samburu', 'Nairobi West',
       'Tiribe', 'malindi', 'Kiambu', 'Kericho', 'Mariakani', 'Nakuru',
       'Ngara', 'Kaloleni', 'Nyahururu', 'Ndunyu Njeru', 'Narok',
       'Naivasha', 'Olkalou', 'Embu-town', 'Kangemi,Nairobi', 'Thika',
       'Kisauni', 'Ndaragwa', 'Nyamira', 'Kisii', 'Tala;Kangundo',
       'Thika Road', 'Kitale', 'Kitengela;Nairobi', 'Mwandoni, Mombasa',
       'Sakutiek-Naivasha', 'Litein', 'Maua', 'Kitengela', 'Eldoret',
       'Mwingi', 'Msambweni', 'Njabini', "Murang'a", 'Nyandarua South',
       'Limuru', 'Ongata-Rongai', 'Nyandarua', 'Kilifi', 'nyeri', 'Ngong',
       'Nairobi', 'Sindo', 'Kangemi, Nairobi', 'Kuria west', 'Kakamega',
       'Nairobi Central', 'Mombasa', 'Mukuru (Nairobi)', 'karatina',
       'ELDAMA RAVINE', 'Matuu', 'Katito', 'Kisumu', 'Changamwe',
       'Kisauni ;Mombasa', 'Bamburi, Mombasa', 'KABARNET', 'Juja',
       'Usenge;Kisumu', 'Mwambalazi', 'Mpeketoni, Lamu', 'Webuye',
       'KAMELIL, NANDI',

In [31]:
# unique Regionen, die bei Lebanon hinterlegt sind
df.loc[df.loc[:, 'country']=='Lebanon', 'region'].unique()

array([None, 'Tyre', 'Saida', 'Qana', 'Jib Jennine', 'Aley', 'Beirut',
       'Ain Al Helwi', 'Chtoura', 'Tayouneh', 'Nabatieh', 'Baalback',
       'Ain', 'Dora', 'Dahieh', 'Tripoli', 'Marjeyoun', 'Chouf', 'Spears',
       'Sidon', 'SME', 'Metn', 'Hay el Selloum', 'Choueifat', 'Baabda',
       'Khalde', 'Berj Hammoud', 'Ferzol', 'Hermel', 'Bekaa', 'Sarafand',
       'Jadra', 'Sohmor', 'Halba', 'Tyre 2', 'Koura'], dtype=object)

In [32]:
# unique Regionen, die bei Ecuador hinterlegt sind
df.loc[df.loc[:, 'country']=='Ecuador', 'region'].unique()

array(['Cuenca', 'Latacunga', 'Charapoto', 'Ventanas', 'Manta',
       'Jaramijo', 'Tosagua', 'Portoviejo', 'Montecristi', 'Nabón', None,
       'Puyo', 'Gualaceo', 'Santo Domingo', 'Los Bancos', 'Pujilí',
       'Paute', '24 de Mayo', 'Jipijapa', 'Chimbo', 'MULALO',
       'San Miguel', 'Rocafuerte', 'Atuntaqui', 'Pichincha', 'BORBON',
       'San Lorenzo', 'Azogues', 'San Gabriel', 'Santa Barbara', 'Tulcán',
       'Guaranda', 'Calceta', 'LIMONES - TELEMBI', 'LAGARTO',
       'ESMERALDAS', 'RIO VERDE', 'LA TOLA', 'Junin', 'Santa Ana',
       'Chillanes', 'Montalvo', 'San Clemente', 'Olmedo', 'Carmen',
       'Pedernales', 'Bahia de Caraquez', 'Puerto Quito', 'Pajan',
       'Ibarra', 'Otavalo', 'Pusir', 'Ambuqui', 'Lita', 'Mascarilla',
       'Collapi', 'La Esperanza', 'Quito', 'Cahuasqui', 'Guaniguela',
       'Tumbabiro', 'Mira', 'Chinambi', 'Carabuela', 'Puerto López',
       'Azaya', 'Gonzáles Suarez', 'La Carolina', 'Ajumbuela',
       'Pablo Arenas', 'Sachapamba', 'Colonia', 'S

**Erkenntnis:**
- die NULL-Werte in 'region' können nicht sinnvoll aufgefüllt werden, da es eine Text-Spalte ist und kein Muster (wenige Region pro Land) erkennbar ist. Das mit dem meistbenutzten o.Ä. aufzufüllen, wäre einfach geraten. Da Machine Learning nicht das Ziel ist, fällt diese Möglichkeit raus
- die Zeilen zu löschen würde viele relevante Daten aus anderen Spalten entfernen
- 'region' zu löschen entfernt zwar komplett die Möglichkeit, die Goegraphie detaillierter als auf Länderebene zu analysieren, allerdings gibt es dort pro Land oft viele Regionen und diese können scheinbar auch frei eingegeben werden. Es sind also ebenfalls sehr schwierig zu analysierende Werte.

**Ergebnis der Erkenntnis:**<br>
Eine Geoanalyse auf Basis des Landes reicht im ersten Schritt vollkommen aus. Um die Region genauer zu untersuchen, müssten die Daten darüber strukturierte gesammelt werden. Außerdem sollen die Werte aus anderen Zeilen unbedingt beibehalten werden. Darauf können diverse Analysen gemacht werden, die schon jetzt Insights generieren können. **Daher werde ich 'region' löschen.**

In [33]:
# Entfernen von Spalte 'region'
df.drop(columns='region', inplace=True)

#### Spalte 'borrower_genders'

In [34]:
# NULL-Werte in Spalte 'borrower_genders' genauer anschauen
df.loc[df.loc[:, 'borrower_genders'].isnull(), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671174,0.0,25.0,Games,Entertainment,,KE,Kenya,KES,13.0,0,,monthly
671178,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671185,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly


**Erkenntnis:**
- folgt nach 'use'

#### Spalte 'use'

In [35]:
# NULL-Werte in Spalte 'use' genauer anschauen
df.loc[df.loc[:, 'use'].isnull(), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671174,0.0,25.0,Games,Entertainment,,KE,Kenya,KES,13.0,0,,monthly
671178,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671185,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly


**Erkenntnis:**
- NaN in 'borrower_genders' und 'use' scheint zusammenzuhängen - das wird genauer geprüft:

In [36]:
# Welche Zeilen enthalten NULL-Werte in Spalte 'use' und in Spalte 'borrower_genders'?
df.loc[(df.loc[:,"borrower_genders"].isnull()) & (df.loc[:,"use"].isnull())]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
140,2975.0,2975.0,Food Production/Sales,Food,,TZ,Tanzania,TZS,10.0,110,,monthly
145,1200.0,1200.0,Personal Expenses,Personal Use,,PE,Peru,PEN,20.0,44,,monthly
170,4250.0,4250.0,Catering,Food,,TZ,Tanzania,TZS,10.0,116,,monthly
412,2350.0,2350.0,Beauty Salon,Services,,TZ,Tanzania,TZS,10.0,75,,monthly
414,725.0,725.0,Agriculture,Agriculture,,SV,El Salvador,USD,20.0,19,,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...
671151,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671174,0.0,25.0,Games,Entertainment,,KE,Kenya,KES,13.0,0,,monthly
671178,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly
671185,0.0,25.0,Livestock,Agriculture,,KE,Kenya,KES,13.0,0,,monthly


**Erkenntnis:**
- jede Zeile, in der 'borrower_genders' NaN ist, ist auch 'use' NaN
    - hier wurden Daten anscheinend unzureichend eingegeben
    - beides kann nicht sinnvoll aufgefüllt werden (da string-Spalte und sehr viele unique values)
    - die Spalte 'use' zu löschen kommt ggf. in Frage, da diese aufgrund der freien Eingabemöglichkeit nur sehr schwer zu analysieren ist und für meine späteren Analysen nicht in Frage kommt
    - die Spalte 'borrower_genders' zu löschen kommt nicht Frage, da diese Spalte später für KPIs verwendet wird und daher gut analysiert werden kann
    
**Ergebnis der Erkenntnis:**<br>
**Ich werde die Zeilen, in denen beide Werte NaN, sind löschen.** So behalte ich die Analysemöglichkeit für 'borrower_genders' bei und bereinige die Daten (ich gehe damit ja nicht ins Machine Learning)

In [37]:
# Liste mit Indizes für zu löschende Spalten erstellen
index_to_drop = df.loc[(df.loc[:,"borrower_genders"].isnull()) & (df.loc[:,"use"].isnull())].index

# Zeilen anhand dieses Index löschen
df.drop(index=index_to_drop, inplace=True)

Es gibt aber weiterhin Zeilen in 'use', die NaN sind, die schauen wir uns nochmal an:

In [38]:
# NULL-Werte in Spalte 'use' genauer anschauen
df.loc[df.loc[:, 'use'].isnull(), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
77120,200.0,5000.0,Technology,Services,,US,United States,USD,24.0,2,female,bullet
118362,2475.0,2475.0,Food Production/Sales,Food,,RW,Rwanda,RWF,4.0,21,"male, female, female, female, female, female, ...",irregular
121644,1350.0,1350.0,Fish Selling,Food,,CO,Colombia,COP,14.0,54,female,monthly
187286,235.0,4000.0,Technology,Services,,US,United States,USD,24.0,9,female,bullet
195101,650.0,650.0,Agriculture,Agriculture,,SV,El Salvador,USD,15.0,21,female,bullet
208234,100.0,5000.0,Clothing,Clothing,,US,United States,USD,12.0,2,male,bullet
211047,0.0,5000.0,Food Production/Sales,Food,,US,United States,USD,24.0,0,female,bullet
247724,0.0,3000.0,Services,Services,,US,United States,USD,18.0,0,female,bullet
292739,750.0,1175.0,Clothing Sales,Clothing,,KE,Kenya,KES,14.0,11,male,monthly
362573,100.0,100.0,Farming,Agriculture,,MZ,Mozambique,MZN,7.0,4,male,monthly


**Erkenntnis:**
- 'use' kann nicht sinnvoll aufgefüllt werden (wie oben schon beschrieben)
- die Zeilen zu löschen nimmt uns interessant Daten aus anderen Spalten weg
- 'use' zu löschen nimmt zwar gesamte Daten aus dieser Spalte raus, allerdings sind diese, durch die Möglichkeit freien Text einzugeben, sehr schwer in diesem Detail zu analysieren

**Ergebnis der Erkenntnis:**<br>
**Die Spalte 'use' wird gelöscht.**

In [39]:
# Entfernen von Spalte 'use'
df.drop(columns='use', inplace=True)

#### Spalte 'country_code'

In [40]:
# NULL-Werte in Spalte 'country_code' genauer anschauen
df.loc[df.loc[:, 'country_code'].isnull(), :]

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
202537,4150.0,4150.0,Wholesale,Wholesale,,Namibia,NAD,6.0,162,female,bullet
202823,4150.0,4150.0,Wholesale,Wholesale,,Namibia,NAD,6.0,159,male,bullet
344929,3325.0,3325.0,Wholesale,Wholesale,,Namibia,NAD,7.0,120,female,bullet
351177,3325.0,3325.0,Wholesale,Wholesale,,Namibia,NAD,7.0,126,male,bullet
420953,3325.0,3325.0,Wholesale,Wholesale,,Namibia,NAD,7.0,118,female,bullet
421218,4000.0,4000.0,Wholesale,Wholesale,,Namibia,NAD,7.0,150,male,bullet
487207,5100.0,5100.0,Renewable Energy Products,Retail,,Namibia,NAD,7.0,183,male,bullet
487653,5000.0,5000.0,Wholesale,Wholesale,,Namibia,NAD,7.0,183,female,bullet


**Erkenntnis:**
- Auffällig: nur Namibia hat NULL-Werte im Ländercode
    - Google: Ländercode nach ISO Norm (zweistellig) von Namibia: NA
    
**Ergebnis der Erkenntnis:**<br>
Scheint systemseitig ein Fehler unterlaufen zu sein, **NaN in Ländercode durch NA für Namibia ersetzen**

In [41]:
# NaN in 'country_code' durch NA ersetzen (Namibia)
df['country_code'].fillna('NA', inplace=True)

Jetzt prüfe ich nochmal, ob es im df noch NULL-Werte gibt:

In [42]:
# Spalten mit NULL-Werte nochmals prüfen
df.isnull().sum().sort_values(ascending=False)

funded_amount         0
loan_amount           0
activity              0
sector                0
country_code          0
country               0
currency              0
term_in_months        0
lender_count          0
borrower_genders      0
repayment_interval    0
dtype: int64

In [43]:
# df als neues df_clean abspeichern
df_clean = df.copy()

## Ausreißer vs. Extremwerte

Da wir keine statistische oder rein Marketing bezogene Auswertung machen, sprechen wir nicht von Ausreißern und entfernen diese, sondern wir sprechen von Extremwerten. Diese werden beibehalten, um den betriebswirtschaftlichen Blick fürs große Ganze zu behalten. Wenn Personen (-gruppen) ein extrem hohes funding verlangt und/oder bekommen haben, dann sollen diese beibehalten und analysiert werden. Das gleiche gilt für Ober- und Unterkategorien (Über- und Unterrepräsentation), Länder (geographische Verteilung) und alle anderen Werte.

## Zusatz

### KPIs

In [44]:
# nochmal das df aufrufen, um KPIs zu identifizieren
df_clean

Unnamed: 0,funded_amount,loan_amount,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,Fruits & Vegetables,Food,PK,Pakistan,PKR,12.0,12,female,irregular
1,575.0,575.0,Rickshaw,Transportation,PK,Pakistan,PKR,11.0,14,"female, female",irregular
2,150.0,150.0,Transportation,Transportation,IN,India,INR,43.0,6,female,bullet
3,200.0,200.0,Embroidery,Arts,PK,Pakistan,PKR,11.0,8,female,irregular
4,400.0,400.0,Milk Sales,Food,PK,Pakistan,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...
671199,0.0,25.0,Livestock,Agriculture,PY,Paraguay,USD,13.0,0,female,monthly
671200,0.0,25.0,Livestock,Agriculture,PY,Paraguay,USD,13.0,0,female,monthly
671201,25.0,25.0,Livestock,Agriculture,KE,Kenya,KES,13.0,1,female,monthly
671203,0.0,25.0,Livestock,Agriculture,KE,Kenya,KES,13.0,0,female,monthly


#### Erfüllungsgrad

Für später könnte es interessant sein, den Erfüllungsgrad in Abhängigkeit verschiedener Kriterien zu analysieren. Dafür wird eine weitere Spalte 'completion_rate' erstellt.

In [45]:
# neue Spalte als dritte Spalte einfügen (Berechnung: fund_amount / loan_amount)
df_clean.insert(
    loc=2,
    column='completion_rate',
    value= df_clean['funded_amount'] / df_clean['loan_amount']
)

# df mit neuer Spalte ausgeben
df_clean

Unnamed: 0,funded_amount,loan_amount,completion_rate,activity,sector,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval
0,300.0,300.0,1.0,Fruits & Vegetables,Food,PK,Pakistan,PKR,12.0,12,female,irregular
1,575.0,575.0,1.0,Rickshaw,Transportation,PK,Pakistan,PKR,11.0,14,"female, female",irregular
2,150.0,150.0,1.0,Transportation,Transportation,IN,India,INR,43.0,6,female,bullet
3,200.0,200.0,1.0,Embroidery,Arts,PK,Pakistan,PKR,11.0,8,female,irregular
4,400.0,400.0,1.0,Milk Sales,Food,PK,Pakistan,PKR,14.0,16,female,monthly
...,...,...,...,...,...,...,...,...,...,...,...,...
671199,0.0,25.0,0.0,Livestock,Agriculture,PY,Paraguay,USD,13.0,0,female,monthly
671200,0.0,25.0,0.0,Livestock,Agriculture,PY,Paraguay,USD,13.0,0,female,monthly
671201,25.0,25.0,1.0,Livestock,Agriculture,KE,Kenya,KES,13.0,1,female,monthly
671203,0.0,25.0,0.0,Livestock,Agriculture,KE,Kenya,KES,13.0,0,female,monthly


#### 'borrower_genders' aufgeschlüsselt

Die Spalte 'borrower_genders' enthält mehrere Infos: die Anzahl der Darlehensnehmer und deren Geschlecht. Diese Info kann gut auf zwei Spalten aufgeteilt werden, um diese für Analysen nutzen zu können.

In [46]:
# neue Spalte mit Anzahl der Darlehensnehmer erstellen
df_clean.insert(
    loc=11,
    column='borrower_count',
    value=df_clean['borrower_genders'].str.count(',') + 1 # zähle Kommas und addiere 1 -> Darlehensnehmeranzahl
)

# df mit neuer Spalte ausgeben
# df_clean

In [47]:
# Spalte borrowers_genders direkt daneben duplizieren
df_clean.insert(
    loc=12,
    column='borrower_genders_edited',
    value=df_clean['borrower_genders']
)

# df mit neuer Spalte ausgeben
# df_clean

In [48]:
# in neuer Spalte female und male mit fe und ma ersetzen
df_clean['borrower_genders_edited'] = df_clean['borrower_genders_edited'].str.replace('female', 'fe')
df_clean['borrower_genders_edited'] = df_clean['borrower_genders_edited'].str.replace('male', 'ma')

In [49]:
# neue Spalte mit Angabe, ob Darlehensnehmer min 1 female enthält, erstellen
df_clean.insert(
    loc=13,
    column='female',
    value=df_clean['borrower_genders_edited'].str.contains('fe')
)

# neue Spalte mit Angabe, ob Darlehensnehmer min 1 male enthält, erstellen
df_clean.insert(
    loc=14,
    column='male',
    value=df_clean['borrower_genders_edited'].str.contains('ma')
)

# df mit neuer Spalte ausgeben
# df_clean

In [50]:
# neue Spalte erstellen, die Geschlecht: male, female und mixed enthalten soll
df_clean.insert(
    loc=15,
    column='borrower_genders_updated',
    value=None
)

# Wertzuweisung male only
df_clean.loc[
    (df_clean.loc[:, 'female'] == False) &
    (df_clean.loc[:, 'male'] == True)
    , 'borrower_genders_updated'] = 'ma only'

# Wertzuweisung female only
df_clean.loc[
    (df_clean.loc[:, 'female'] == True) &
    (df_clean.loc[:, 'male'] == False)
    , 'borrower_genders_updated'] = 'fe only'

# Wertzuweisung mixed
df_clean.loc[
    (df_clean.loc[:, 'female'] == True) &
    (df_clean.loc[:, 'male'] == True)
    , 'borrower_genders_updated'] = 'mixed'

Hier die Spalte 'borrower_genders' und die daraus erstellten neuen Spalten:

In [51]:
# Anzeigen der neu erstellten Spalten und 'borrower_genders'
df_clean.iloc[:, 10:16]

Unnamed: 0,borrower_genders,borrower_count,borrower_genders_edited,female,male,borrower_genders_updated
0,female,1,fe,True,False,fe only
1,"female, female",2,"fe, fe",True,False,fe only
2,female,1,fe,True,False,fe only
3,female,1,fe,True,False,fe only
4,female,1,fe,True,False,fe only
...,...,...,...,...,...,...
671199,female,1,fe,True,False,fe only
671200,female,1,fe,True,False,fe only
671201,female,1,fe,True,False,fe only
671203,female,1,fe,True,False,fe only


#### Investierter Beitrag pro Investor

Für spätere Auswertungen könnte der investierte Betrag pro Investor ebenfalls interessant sein. Dazu erstelle ich einen neue Spalte, die funded_amount / lender_count enthält.

In [52]:
# neue Spalte erstellen und mit investiertem Betrag pro Investor befüllen
df_clean.insert(
    loc=11,
    column='funded_amount_per_lender',
    value=round(df_clean['funded_amount'] / df_clean['lender_count'], 2)
)

# NULL-Werte durch 0 ersetzen
df_clean['funded_amount_per_lender'].fillna(0, inplace=True)

### Speicherplatzoptimierung

#### Spalten entfernen

Für spätere Analysen werden folgende Spalten nicht benötigt:
- 'country_code' (Info steht ja auch in Spalte 'country')
- 'currency' (Währung, in der ausgezahlt wird, ist für meine Analysen nicht relevant)
- 'borrower_genders' (habe ich mit anderen Spalten besser abgebildet)
- 'borrower_genders_edited', 'female' & 'male' (nur Hilfsspalten)

In [53]:
# neues df erstellen für Optimierung
df_clean_opti = df_clean.copy()

In [54]:
# oben aufgeführte Spalten entfernen
df_clean_opti.drop(columns=['country_code', 'currency', 'borrower_genders', 'borrower_genders_edited', 'female', 'male'], inplace=True)

#### Konvertieren und Downcasten

In [55]:
# wie sehen nochmal die dtypes der Spalten aus?
df_clean_opti.dtypes

funded_amount               float64
loan_amount                 float64
completion_rate             float64
activity                     object
sector                       object
country                      object
term_in_months              float64
lender_count                  int64
funded_amount_per_lender    float64
borrower_count                int64
borrower_genders_updated     object
repayment_interval           object
dtype: object

In [56]:
# testen, ob 'funded_amount' in int konvertiert werden kann
for number in df_clean_opti['funded_amount']:
    if number %1 != 0:                        # ist der Restwert nicht Null, dann liegt ein float vor
        print('do not convert to integer') 
print('do convert to integer') 

do convert to integer


In [57]:
# testen, ob 'loan_amount' in int konvertiert werden kann
for number in df_clean_opti['loan_amount']:
    if number %1 != 0:                        # ist der Restwert nicht Null, dann liegt ein float vor
        print('do not convert to integer') 
print('do convert to integer') 

do convert to integer


In [58]:
# testen, ob 'term_in_months' in int konvertiert werden kann
for number in df_clean_opti['term_in_months']:
    if number %1 != 0:                        # ist der Restwert nicht Null, dann liegt ein float vor
        print('do not convert to integer') 
print('do convert to integer') 

do convert to integer


**Erkenntnis:**
- die drei untersuchten Spalten können konvertiert werden
- die zuvor neu erstellten Spalten müssen nicht konvertiert werden (sind ja per Definition dezimal)

In [59]:
# die drei geprüften Spalten konvertieren und direkt downcasten
df_clean_opti['funded_amount'] = pd.to_numeric(df_clean_opti['funded_amount'], downcast='integer')
df_clean_opti['loan_amount'] = pd.to_numeric(df_clean_opti['loan_amount'], downcast='integer')
df_clean_opti['term_in_months'] = pd.to_numeric(df_clean_opti['term_in_months'], downcast='integer')

# int64 Spalten downcasten
df_clean_opti['lender_count'] = pd.to_numeric(df_clean_opti['lender_count'], downcast='integer')
df_clean_opti['borrower_count'] = pd.to_numeric(df_clean_opti['borrower_count'], downcast='integer')

# float64 Spalten downcasten
df_clean_opti['completion_rate'] = pd.to_numeric(df_clean_opti['completion_rate'], downcast='float')
df_clean_opti['funded_amount_per_lender'] = pd.to_numeric(df_clean_opti['funded_amount_per_lender'], downcast='float')

# dtypes prüfen
df_clean_opti.dtypes

funded_amount                 int32
loan_amount                   int32
completion_rate             float32
activity                     object
sector                       object
country                      object
term_in_months                int16
lender_count                  int16
funded_amount_per_lender    float32
borrower_count                 int8
borrower_genders_updated     object
repayment_interval           object
dtype: object

#### Category dtype

In [60]:
# Liste erstellen, die Spaltennamen von Spalten mit dtype object enthält
liste = df_clean_opti.select_dtypes("object").columns 

# durch diese Liste iterieren und die Anzahl unique values zu jeder Spalte ausgeben
for spalte in liste:
    print(spalte, df_clean_opti.loc[:,spalte].nunique())

activity 163
sector 15
country 87
borrower_genders_updated 3
repayment_interval 4


**Erkenntnis:**
- alle Spalten enthalten deutlich weniger unique values als Zeilen in dem df sind
    - also konvertiere ich alle in einen category dtype

In [61]:
# Umwandlung in Category Datentyp - mit astype()

# Liste mit zu konvertierenden Spalten erstellen
liste_category = ['activity','sector','country','borrower_genders_updated', 'repayment_interval']

# durch die Liste iterieren und umwandeln
for spalte in liste_category:
    df_clean_opti[spalte] = df_clean[spalte].astype('category')

# dtypes prüfen
df_clean_opti.dtypes

funded_amount                  int32
loan_amount                    int32
completion_rate              float32
activity                    category
sector                      category
country                     category
term_in_months                 int16
lender_count                   int16
funded_amount_per_lender     float32
borrower_count                  int8
borrower_genders_updated    category
repayment_interval          category
dtype: object

In [62]:
# Vergleich der Speicherplatznutzung
print(df_clean_opti.memory_usage(deep=True))
print()
print(df_clean.memory_usage(deep=True))

Index                       5335872
funded_amount               2667936
loan_amount                 2667936
completion_rate             2667936
activity                    1349429
sector                       668531
country                      674808
term_in_months              1333968
lender_count                1333968
funded_amount_per_lender    2667936
borrower_count               666984
borrower_genders_updated     667282
repayment_interval           667412
dtype: int64

Index                        5335872
funded_amount                5335872
loan_amount                  5335872
completion_rate              5335872
activity                    46228811
sector                      43330076
country_code                39352056
country                     43649696
currency                    40019040
term_in_months               5335872
lender_count                 5335872
borrower_genders            46904008
funded_amount_per_lender     5335872
borrower_count               5335872


## Speichern

In [63]:
# optimiertes df als pickle Datei speichern (um Speicherplatzoptimierung beizubehalten)
df_clean_opti.to_pickle('df_kiva_after_preprocessing.pkl')