<a href="http://datamics.com/de/courses/"><img src=../DATA/bg_datamics_top.png></a><em text-align:center>© Datamics</em>

# K Means Clustering Projekt - Lösungen

Für dieses Projekt werden wir versuchen K Means Clustering zu verwenden, um Universitäten in den USA in zwei Gruppen zu unterteilen: Private und öffentliche.

*Ein wichtiger Hinweis gleich zu beginn: Für diese Universitäten wissen wir die tatsächliche Zuordnung und finden sie im Datensatz. Wir werden sie aber ignorieren da K Means Clustering ein Unsupervised Learning Algorithmus ist.*

Normalerweise verwendet man den K Means Clustering Algorithmus für Daten, deren Zugehörigkeit zu einem Cluster man nicht kennt. In diesem Fall verwenden wir die Zuteilung, um beurteilen zu können, wie gut der Algorithmus performt. Da das in echten Anwendungen nicht möglich ist sind Confusion Matrix und Classification Report am Ende des Projekts nur theoretische Auswertungen.

# Die Daten

Wir verwenden einen DataFrame mit 770 Beobachtungen und den folgenden 18 Variablen:

* Private: Dummy Varaible mit "Yes" für private und "No" für öffentliche Einrichtungen
* Apps: Anzahl an erhaltenen Bewerbungen
* Accept: Anzahl an angenommenen Bewerbungen
* Enroll: Anzahl neu eingeschriebener Studenten
* Top10perc: Prozent der neuen Studenten der Top 10% einer High School Klasse
* Top25perc: Prozent der neuen Studenten der Top 25% einer High School Klasse
* F.Undergrad: Anzahl an Vollzeitstudenten
* P.Undergrad: Anzahl an Teilzeitstudenten
* Outstate: Gebühr für Studenten, die aus einem anderen Staat kommen
* Room.Board: Kosten für Räume und Mitarbeiter
* Books: Geschätze Kosten für Bücher
* Personal: Geschätzte persönliche Ausgaben
* PhD: Prozent der Fakultäten mit Ph.D.'s
* Terminal: Prozent der Fakultäten mit Terminal Degree
* S.F.Ratio: Rate der Studenten pro Fakultät
* perc.alumni: Prozent der Alumni die spenden
* Expend: Verwaltungskosten pro Student
* Grad.Rate: Abschlussrate

## Libraries importieren

**Importiere die Libraries, die wir üblicherweise zur Datenanalyse verwenden.**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
import requests
import io

In [None]:
r = requests.get("https://github.com/Soley02/KMeansClustering/blob/master/College_Data.csv")

## Die Daten

** Lies die CSV-Datei "College_Data" mit `read_csv` ein. Finde heraus, wie du die erste Spalte als Index definierst.**

In [None]:
df = pd.read_csv('College_Data',index_col=0)

**Checke den Head des DataFrames.**

In [None]:
df.head()

**Checke die info() und describe() Methode der Daten.**

In [None]:
df.info()

In [None]:
df.describe()

## Explorative Datenanalyse

Zeit einige Visualisierungen zu erstellen!

**Erstelle ein Scatterplot von "Grad.Rate" vs. "Room.Board" in dem die Punkte nach der "Private" Spalte eingefärbt sind.**

In [None]:
sns.set_style('whitegrid')
sns.lmplot('Room.Board','Grad.Rate',data=df, hue='Private',
           palette='coolwarm',height=6,aspect=1,fit_reg=False)

**Erstelle ein Scatterplot von "F.Undergrad" vs. "Outstate" in dem die Punkte nach der "Private" Spalte eingefärbt sind.**

In [None]:
sns.set_style('whitegrid')
sns.lmplot('Outstate','F.Undergrad',data=df, hue='Private',
           palette='coolwarm',height=6,aspect=1,fit_reg=False)

**Erstelle ein Histogramm zweier Betrachtungen in einem Diagramm. Es soll die "Out of State Tuition" (-> "Outstate" Spalte) gezeigt werden und die Histogramme nach "Private" geteilt werden.**

In [None]:
sns.set_style('darkgrid')
g = sns.FacetGrid(df,hue="Private",palette='coolwarm',height=6,aspect=2)
g = g.map(plt.hist,'Outstate',bins=20,alpha=0.7)

**Erstelle ein gleiches Histogramm für "Grad.Rate".**

In [None]:
sns.set_style('darkgrid')
g = sns.FacetGrid(df,hue="Private",palette='coolwarm',height=6,aspect=2)
g = g.map(plt.hist,'Grad.Rate',bins=20,alpha=0.7)

**Es sieht so aus als gäbe es eine Universität mit einer Abschlussrate von mehr als 100% (was natürlich unmöglich ist). Welche Universität ist das?**

In [None]:
df[df['Grad.Rate'] > 100]

**Setzte für diese Universität die Abschlussrate ("Grad.Rate") auf 100, damit es Sinn ergibt.**

*Hinweis: Dabei bekommst du wahrscheinlich eine Warnung (keinen Error). Überprüfe danach durch Visuaisierung oder DataFrame Operationen, ob es erfolgreich durchgeführt wurde.*

In [None]:
df['Grad.Rate']['Cazenovia College'] = 100

In [None]:
df[df['Grad.Rate'] > 100]

In [None]:
sns.set_style('darkgrid')
g = sns.FacetGrid(df,hue="Private",palette='coolwarm',height=6,aspect=2)
g = g.map(plt.hist,'Grad.Rate',bins=20,alpha=0.7)

# K Means Cluster erstellen

Jetzt ist es Zeit unsere Cluster zu erstellen!

**Importiere KMeans from SciKit Learn.**

In [None]:
from sklearn.cluster import KMeans

**Erstelle eine Instanz von einem K Means Modell mit 2 Clustern.**

In [None]:
kmeans = KMeans(n_clusters=2)

**Fitte das Modell auf alle Daten (ohne die "Private" Spalte).**

In [None]:
kmeans.fit(df.drop('Private',axis=1))

**Wie lauten die Cluster Zentrumsvektoren?**

In [None]:
kmeans.cluster_centers_

# Auswertung

Es gibt nicht die eine perfekte Art, um dieses Clustering auszuwerten, wenn man keine Zuteilung vorliegen hat. Da dies nur eine Übung ist und wir die richtige Zuteilung kennen können wir unsere Cluster überprüfen.

**Erstelle eine neue Spalte namens "Cluster", welche ein 1 für private Universitäten und 0 für öffentliche beinhaltet.**

In [None]:
def converter(cluster):
    if cluster=='Yes':
        return 1
    else:
        return 0

In [None]:
df['Cluster'] = df['Private'].apply(converter)

In [None]:
df.head()

**Erstelle eine Confusion Matrix und den Classification Report, um zu sehen wie gut unser K Means Clustering die Universitäten zugeordnet hat.**

In [None]:
from sklearn.metrics import confusion_matrix,classification_report
print(confusion_matrix(df['Cluster'],kmeans.labels_))

In [None]:
print(classification_report(df['Cluster'],kmeans.labels_))

Gar nicht so schlecht, wenn man bedenkt, dass der Algorithmus die reinen Eigenschaften verwendet und daraus zwei Gruppen macht. Hoffentlich zeigt euch dieses Beispiel, wie gut K Means für Daten geeignet ist, deren Cluster wir noch nicht kennen.

# Gut gemacht!