# Abschlussprojekt - Dataset Kiva

# Teil - Visualisierung

In [1]:
# benötigte bib importieren

import pandas as pd 
import plotly.express as px 
import numpy as np 
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)
import seaborn as sns 

In [2]:
# datensatz laden mit pickle

df = pd.read_pickle('df.pkl')      
df.head(5)

Unnamed: 0,funded_amount,loan_amount,activity,sector,use,country_code,country,currency,term_in_months,lender_count,borrower_genders,repayment_interval,gender,borrower_gender_count
0,300.0,300.0,Fruits & Vegetables,Food,"To buy seasonal, fresh fruits to sell.",PK,Pakistan,PKR,12,12,female,irregular,female,1
1,575.0,575.0,Rickshaw,Transportation,to repair and maintain the auto rickshaw used ...,PK,Pakistan,PKR,11,14,group,irregular,female,2
2,150.0,150.0,Transportation,Transportation,To repair their old cycle-van and buy another ...,IN,India,INR,43,6,female,bullet,female,1
3,200.0,200.0,Embroidery,Arts,to purchase an embroidery machine and a variet...,PK,Pakistan,PKR,11,8,female,irregular,female,1
4,400.0,400.0,Milk Sales,Food,to purchase one buffalo.,PK,Pakistan,PKR,14,16,female,monthly,female,1


**Kreditnehmer**

In [3]:
# Geschlechterverteilung in Prozent berechnen
gender_counts = df['gender'].value_counts() 
gender_counts

female    492302
male      138523
mixed      40380
Name: gender, dtype: int64

In [4]:
# Kreisdiagramm mit Plotly Express erstellen 
fig = px.pie(gender_counts, values=gender_counts, names=gender_counts.index,
#            color_discrete_sequence=color_scale, 
             template = 'ggplot2',
             title='Aufteilung der Projekte nach Geschlecht')

fig.update_layout(
    title=dict(
        x=0.5,  #  den Titel horizontal zentrieren
        y=0.9   # die vertikale Position des Titels anpassen
              )
                 )
# das Kreisdiagramm anzeigen lassen
fig.show()

- 73,3 Prozent aller Projekte werden von Frauen geleitet. 20,6 von Männer und 6 von gemischten Grouppen. 

- Bedeutet das, dass es für Frauen schwieriger ist, Investoren für ihre Projekte in ihrer Umgebung zu finden? 

- Frauen nutzen Kiva, um Gelder zu erhalten und eigene Projekte in Ländern zu entwickeln (die meisten     davon sind     Länder der Dritten Welt), in denen es für Frauen traditionell äußerst schwierig war, dies zu tun.

- Sind die Zielgruppe des Unternehmens Frauen und am meisten profitieren wir von Frauen? 

- Ist das sinnvoll, sich in Marketingskampagnen auf Frauen zu konzentrieren?

**Wir werden prüfen, ob in allen Sectoren Frauen vorherrschen und in welchen Sektoren sind die meisten Projekte**

In [5]:
# Daten aggregieren nach Sector und Geshlecht
grouped = df.groupby(['sector', 'gender']).size().reset_index(name='count')
grouped = grouped.sort_values(by = 'count', ascending = False)
grouped

Unnamed: 0,sector,gender,count
0,Agriculture,female,115454
18,Food,female,114322
33,Retail,female,105937
1,Agriculture,male,50206
36,Services,female,33875
6,Clothing,female,28060
24,Housing,female,24992
12,Education,female,18976
30,Personal Use,female,18879
19,Food,male,14689


In [6]:
# Daten aggregieren nach Sector 
sector_total = grouped.groupby('sector')['count'].sum().reset_index()
sector_total

Unnamed: 0,sector,count
0,Agriculture,180302
1,Arts,12060
2,Clothing,32742
3,Construction,6268
4,Education,31013
5,Entertainment,830
6,Food,136657
7,Health,9223
8,Housing,33731
9,Manufacturing,6208


In [7]:
#Neue Spalte für Prozentsatz aller Projekte nach Sector und Geschlecht
grouped['percentage'] = grouped.apply(lambda x: f'{(x["count"] / sector_total.loc[sector_total["sector"] == x["sector"], "count"].values[0] * 100):.1f}%', axis=1)

In [8]:
grouped.head(5)

Unnamed: 0,sector,gender,count,percentage
0,Agriculture,female,115454,64.0%
18,Food,female,114322,83.7%
33,Retail,female,105937,85.1%
1,Agriculture,male,50206,27.8%
36,Services,female,33875,75.0%


In [9]:
# Barplot mit Plotly Express erstellen 
fig = px.bar(grouped, 
             x='count', 
             y='sector', 
             color='gender', 
#            color_discrete_sequence=color_scale, 
#             text='percentage',
             title='Anzahl der Projekte je Sektor und  Geschlecht',
             template = 'ggplot2',
             labels={'sector': 'Sector', 'count': 'Anzahl'})
fig.update_layout(
    title=dict(
        x=0.5,  #  den Titel horizontal zentrieren
        y=0.9   # die vertikale Position des Titels anpassen
              )
                 )
# Plot anzeigen lassen
fig.show()

- Die meisten Projekte in den Bereichen **Agriculture**, **Food** und **Retail**.
  Angesichts der Liste der Länder, in denen Kiva  genutzt wird, ist das nicht überraschend. Dir Entwicklungsländer sind  vor allem auf den Agrarsektor angewiesen.
- Nur wenige Projekte in Sektoren **Wholesale** und **Entertaiment**.aus demselben Grund.
- In allen Sektoren ist es offensichtlich, dass es mehr Frauen gibt, außer der Sector **Construction**, wo etwas als die Hälfte Männer sind. 
- Die meisten gemischten Gruppen sind im Sektor **Personal Use**

**Aufteilung in Prozent**

In [10]:
# Barplot mit Plotly Express erstellen 
fig = px.bar(grouped, 
             x='count', 
             y='sector', 
             color='gender', 
#            color_discrete_sequence=color_scale, 
             text='percentage',
             title='Anzahl der Projekte je Sektor und  Geschlecht %',
             template = 'ggplot2',
#             barmode='group',
             labels={'sector': 'Sector', 'count': 'Anzahl'})
fig.update_layout(
    title=dict(
        x=0.5,  # den Titel horizontal zentrieren
        y=0.9,  #die vertikale Position des Titels anpassen
              ), 
      width=1000, #Größe der Grafik - Breite
      height=800  #Größe der Grafik - Höhe
                 )

# Plot anzeigen lassen
fig.show()

- Mehr als 80 Prozent der Frauen in Bereichen wie **Food, Retail, Arts, Clothing.**
- In der Sector **Construction** sind 50,2 % Männer
- Die meisten gemischten Teilnehmer im Bereich **Personal Use** - 24,3 %

**Die profitabelsten Sectoren**

In [11]:
# Daten aggregieren nach Summe 

df_1 = df.groupby(by=['sector'], as_index=False).agg(sum=("funded_amount", "sum"))
df_1_sort =  df_1.sort_values(by = 'sum', ascending = False ) 
df_1_sort

Unnamed: 0,sector,sum
0,Agriculture,133770635.0
6,Food,115089210.0
11,Retail,90864855.0
12,Services,42966085.0
2,Clothing,34805270.0
4,Education,30044920.0
8,Housing,21377100.0
10,Personal Use,14189775.0
1,Arts,11821055.0
13,Transportation,9842500.0


In [12]:
# Barplot mit Plotly Express erstellen 
barplot1 = px.bar(data_frame=df_1_sort, 
                 x='sector',
                 y='sum', 
#                 color = 'gender',
                 labels={'sector':'Sector', 'sum':'Summe der Projekte'},
                 title='Summe der Projekte je Sector',
                 template='ggplot2')

barplot1.show()

**Agriculture, Food, Retail** - Branchen, die am meisten Einahmen generiren. 