## 1 - KI Methoden

KI ist ein weites Feld der Informatik, das darauf abzielt, Systeme zu schaffen, die in der Lage sind, Aufgaben auszuführen, die normalerweise menschliche Intelligenz erfordern würden. Zu diesen Aufgaben gehören u. a. Problemlösung, Entscheidungsfindung, Verstehen natürlicher Sprache, Spracherkennung und visuelle Wahrnehmung. KI-Systeme sollen menschliche kognitive Funktionen nachahmen und lassen sich in zwei Haupttypen einteilen:

   - Enge KI: Systeme, die für eine bestimmte Aufgabe entwickelt und trainiert werden. Dies ist heute die häufigste Form der KI, die in Anwendungen wie Sprachassistenten, Bilderkennungssoftware und Empfehlungssystemen zu finden ist.
   -  Allgemeine KI: Theoretische Systeme, die die Fähigkeit besitzen, zu verstehen, zu lernen und Wissen in einer Vielzahl von Aufgaben anzuwenden, ähnlich wie ein Mensch. Die allgemeine KI ist noch nicht erreicht worden.

Die meisten KI-Bestrebungen nutzen Methoden des maschinellen Lernens (ML) als Modellierungsalgorithmen.

[<img src="ML Timeline.jpg"  width="800" height="600"  title="Zeitleiste der wichtigsten Methoden des MLs">](https://www.sciencedirect.com/science/article/pii/S0065268720300054)
[<img src="data compute gap.png"  width="700" height="500" title="Lücke zwischen der Datenerfassung und der Rechenleistung eines einzelnen Kerns">](https://www.weforum.org/agenda/2018/09/end-of-an-era-what-computing-will-look-like-after-moores-law/)

ML ist ein Teilbereich der künstlichen Intelligenz, der sich auf die Idee konzentriert, dass Systeme aus Daten lernen, Muster erkennen und Entscheidungen mit minimalem menschlichen Eingriff treffen können. Es befasst sich in erster Linie mit der Entwicklung von Algorithmen, die ihre Leistung bei einer Aufgabe durch Erfahrung (d. h. durch den Kontakt mit mehr Daten) verbessern können. Das maschinelle Lernen selbst kann in verschiedene Ansätze unterteilt werden, darunter:

   - Überwachtes Lernen: Hier wird das Modell auf einem markierten Datensatz trainiert, d. h. jedes Trainingsbeispiel wird mit der Ausgabe gepaart, die das Modell vorhersagen soll.
   - Unüberwachtes Lernen: Hier wird das Modell anhand von Informationen trainiert, die weder klassifiziert noch gekennzeichnet sind, und das System versucht, die Muster und die Struktur aus den Daten zu lernen.
   - Verstärkungslernen: Ein Agent lernt, Entscheidungen zu treffen, indem er in einer Umgebung Aktionen ausführt, um bestimmte Ziele zu erreichen.


[<img src="KI Nutzung.webp"  width="700" height="500"  title="ML Verwendungen Beispiele">](https://www.linkedin.com/pulse/simple-guide-choosing-right-machine-learning-success-gangadhar/)
[<img src="ML Methode CheatSheet.webp"  width="700" height="500"  title="ML Algorithmen Cheat Sheet">](https://7wdata.be/big-data/which-machine-learning-algorithm-should-i-use/)

## 2 - Datenverarbeitung

ML nutzt die Daten um die Parameter vom Modell zu 



In [38]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

In [39]:
# python moment!
%load_ext autoreload
%autoreload 2

from model import model_poverty_prob



The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [40]:

with open('../Tag_2/mod_OLS.pkl', 'rb') as file:
    mod_ = pickle.load(file)

In [41]:
mod_.data_df

Unnamed: 0_level_0,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,can_add,...,num_financial_activities_last_year,gender,country__A,country__C,country__D,country__F,country__G,country__I,country__J,poverty_probability
row_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0.0,C,0,18,1,1,P,Other,1.0,1,1,...,1,female,0,1,0,0,0,0,0,0.515
1.0,C,1,30,1,1,P,Other,1.0,1,1,...,0,female,0,1,0,0,0,0,0,0.981
2.0,A,0,20,1,1,Q,Spouse,1.0,1,1,...,0,female,1,0,0,0,0,0,0,0.982
3.0,A,0,61,0,1,Q,Head,0.0,0,1,...,0,male,1,0,0,0,0,0,0,0.879
4.0,D,0,26,1,1,X,Spouse,1.0,1,0,...,3,female,0,0,1,0,0,0,0,0.796
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12595.0,C,1,50,0,1,P,Head,1.0,1,1,...,1,male,0,1,0,0,0,0,0,0.990
12596.0,D,0,90,0,0,O,Head,0.0,1,1,...,0,male,0,0,1,0,0,0,0,0.950
12597.0,J,0,52,1,0,X,Head,1.0,0,1,...,0,female,0,0,0,0,0,0,1,0.342
12598.0,I,0,40,0,1,Q,Head,0.0,0,1,...,0,male,0,0,0,0,0,1,0,0.846


## ML Algorithmen sind von Natur aus datengesteuert und universell einsetzbar, so dass sie sich an eine Vielzahl von Aufgaben anpassen und diese hervorragend bewältigen können, indem sie direkt aus Daten lernen.

Bei der Entwicklung von Modellen für maschinelles Lernen ist es wichtig, die verfügbaren Daten in <span style="color:red"> <ins>*Trainings-*</ins></span>, <span style="color:green"> <ins>*Validierungs-*</ins></span> und <span style="color:blue"> <ins>*Testdatensätze*</ins></span> aufzuteilen. Dieser Ansatz spiegelt reale Szenarien wider, in denen ein Modell nach seiner Entwicklung und Abstimmung auf neue, ungesehene Daten trifft. Der Trainingsdatensatz wird verwendet, um dem Modell beizubringen, wie es die zugrunde liegenden Muster erlernen kann. Die ausschließliche Verwendung dieser Daten kann jedoch dazu führen, dass das Modell zu sehr auf die spezifischen Beispiele, die es gesehen hat, zugeschnitten wird, ähnlich wie ein Student, der nur die Fragen in den Übungsprüfungen studiert, ohne den breiteren Stoff zu verstehen. Um dies abzumildern, wird ein Validierungssatz verwendet, um die Modellparameter fein abzustimmen und zu verhindern, dass sich das Modell lediglich die Trainingsdaten merkt. Ein Testsatz schließlich ist ein völlig neuer Satz von Fragen, ähnlich einer Abschlussprüfung, um zu bewerten, wie gut das Modell sein erlerntes Wissen auf neue Situationen anwenden kann. Durch diese systematische Trennung wird sichergestellt, dass das Modell robust und vielseitig ist und in der Lage, in realen Anwendungen gute Leistungen zu erbringen, und nicht nur bei bekannten Daten.<br>
<br>
Jeder Schritt der Datenaufbereitung sollte mit dem Trainingsset erfolgen, ohne die Validierungs- oder Test-Sets zu berücksichtigen. Denken Sie daran: Während des Trainings des Modells gibt es die letzten beiden Sätze nicht. Wenn wir dies nicht tun, kommt es zu [<ins>*Data Leakage*</ins>](https://www.youtube.com/watch?v=y8qaI5mpJeA)

[ScikitLearn Train-Test Splitting](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection)

In [42]:
mod_.tt_split()

In [43]:
mod_.X_test

Unnamed: 0_level_0,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,can_add,...,num_informal_institutions_last_year,num_financial_activities_last_year,gender,country__A,country__C,country__D,country__F,country__G,country__I,country__J
row_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2728.0,J,1,17,0,0,X,Son/Daughter,2.0,1,1,...,0,1,male,0,0,0,0,0,0,1
11008.0,G,1,61,1,1,X,Spouse,0.0,0,1,...,1,9,female,0,0,0,0,1,0,0
224.0,A,0,29,1,1,Q,Spouse,2.0,1,1,...,0,8,female,1,0,0,0,0,0,0
6522.0,F,1,42,1,1,Q,Spouse,1.0,0,1,...,1,0,female,0,0,0,1,0,0,0
3220.0,J,1,40,1,0,Q,Other,1.0,0,1,...,0,1,female,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128.0,D,0,45,1,0,X,Head,0.0,0,0,...,0,0,female,0,0,1,0,0,0,0
7168.0,D,0,25,1,1,Q,Spouse,1.0,1,0,...,0,0,female,0,0,1,0,0,0,0
1997.0,A,0,23,1,1,Q,Spouse,3.0,1,1,...,0,0,female,1,0,0,0,0,0,0
10801.0,F,0,31,0,1,X,Head,1.0,0,1,...,1,0,male,0,0,0,1,0,0,0


In [45]:
mod_.X_train

Unnamed: 0_level_0,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,can_add,...,num_informal_institutions_last_year,num_financial_activities_last_year,gender,country__A,country__C,country__D,country__F,country__G,country__I,country__J
row_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
7052.0,I,1,39,0,1,X,Head,2.0,1,1,...,0,2,male,0,0,0,0,0,1,0
9267.0,D,0,23,1,0,X,Other,1.0,1,1,...,0,3,female,0,0,1,0,0,0,0
11889.0,C,0,20,1,0,Q,Son/Daughter,1.0,0,1,...,0,1,female,0,1,0,0,0,0,0
2748.0,D,0,25,1,1,Q,Unknown,0.0,0,0,...,0,0,female,0,0,1,0,0,0,0
7029.0,I,0,22,1,0,Q,Son/Daughter,3.0,1,1,...,1,0,female,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12196.0,I,0,35,0,1,Q,Head,1.0,1,1,...,0,0,male,0,0,0,0,0,1,0
5306.0,A,0,32,0,1,Q,Head,2.0,1,1,...,0,2,male,1,0,0,0,0,0,0
5509.0,A,1,68,0,1,Q,Head,2.0,1,1,...,0,2,male,1,0,0,0,0,0,0
882.0,G,0,63,1,1,X,Head,2.0,1,1,...,3,9,female,0,0,0,0,1,0,0


### Filling/Imputing

[ScikitLearn Imputing missing values](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.impute)

### Encoding categorical variables

[ScikitLearn Preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

### Scaling/Normalization

[ScikitLearn Preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

In [48]:
mod_.MinMax_alter()

In [49]:
mod_.X_train

Unnamed: 0_level_0,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,can_add,...,num_informal_institutions_last_year,num_financial_activities_last_year,gender,country__A,country__C,country__D,country__F,country__G,country__I,country__J
row_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
7052.0,I,1,0.24,0,1,X,Head,2.0,1,1,...,0,2,male,0,0,0,0,0,1,0
9267.0,D,0,0.08,1,0,X,Other,1.0,1,1,...,0,3,female,0,0,1,0,0,0,0
11889.0,C,0,0.05,1,0,Q,Son/Daughter,1.0,0,1,...,0,1,female,0,1,0,0,0,0,0
2748.0,D,0,0.10,1,1,Q,Unknown,0.0,0,0,...,0,0,female,0,0,1,0,0,0,0
7029.0,I,0,0.07,1,0,Q,Son/Daughter,3.0,1,1,...,1,0,female,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12196.0,I,0,0.20,0,1,Q,Head,1.0,1,1,...,0,0,male,0,0,0,0,0,1,0
5306.0,A,0,0.17,0,1,Q,Head,2.0,1,1,...,0,2,male,1,0,0,0,0,0,0
5509.0,A,1,0.53,0,1,Q,Head,2.0,1,1,...,0,2,male,1,0,0,0,0,0,0
882.0,G,0,0.48,1,1,X,Head,2.0,1,1,...,3,9,female,0,0,0,0,1,0,0


### Data Balancing

## 3 - Underfitting and Overfitting

Beim Training für maschinelles Lernen wird einem Modell beigebracht, Vorhersagen oder Entscheidungen auf der Grundlage von Daten zu treffen. Dieser Prozess beginnt damit, dass das Modell mit einem Trainingsdatensatz gefüttert wird, der Eingabemerkmale und die entsprechenden Zielausgaben enthält. Anhand dieser Daten lernt das Modell, indem es seine internen Parameter so anpasst, dass die Differenz zwischen seinen Vorhersagen und den tatsächlichen Ergebnissen minimiert wird. Dieser Lernprozess wird häufig durch einen Optimierungsalgorithmus wie den Gradientenabstieg gesteuert, der die Vorhersagen des Modells durch Minimierung einer Kostenfunktion iterativ verbessert.

[<img src="Regression Fitting.png"  width="700" height="500"  title="Regression Fitting examples">](https://www.fastaireference.com/overfitting)
[<img src="Classification Fitting.png"  width="700" height="500"  title="Classification Fitting examples">](https://www.fastaireference.com/overfitting)
[<img src="Error Fitting.webp"  width="700" height="500"  title="Test and Validation Fitting examples">](https://medium.com/@datascienceeurope/do-you-know-overfitting-and-underfitting-f27f87ac2f37)

-  <ins>*Underfitting*</ins> liegt vor, wenn das Modell zu einfach ist, um die zugrunde liegende Struktur der Daten zu erfassen. Dies ist der Fall, wenn das Modell nicht über genügend Kapazität verfügt (z. B. nicht genügend Parameter oder Schichten in einem neuronalen Netz), um die Komplexität der Daten zu lernen. Infolgedessen schneidet es nicht nur bei neuen, ungesehenen Daten schlecht ab, sondern auch bei den Trainingsdaten selbst, was darauf hindeutet, dass es nicht die notwendigen Muster gelernt hat, um genaue Vorhersagen zu treffen.

-  <ins>*Overfitting*</ins> ist das gegenteilige Szenario, bei dem das Modell im Verhältnis zur Größe und zum Rauschpegel der Trainingsdaten zu komplex ist. In diesem Fall lernt das Modell nicht nur die zugrunde liegenden Muster, sondern auch das Rauschen oder die zufälligen Schwankungen in den Trainingsdaten. Dies kann zwar zu einer hohen Genauigkeit im Trainingsdatensatz führen, aber die Leistung des Modells sinkt, wenn es mit neuen, ungesehenen Daten konfrontiert wird, weil es sich im Wesentlichen die Trainingsdaten gemerkt hat, anstatt die allgemeinen Muster zu lernen. Übermäßiges Anpassen ist so, als würde man für einen Test lernen, indem man die Fragen und Antworten auswendig lernt, ohne die zugrundeliegenden Prinzipien zu verstehen; man wird bei ähnlichen Fragen gut abschneiden, aber mit allem Neuen Schwierigkeiten haben.

[Klein Artikel über Under- und Overfitting](https://www.kaggle.com/discussions/getting-started/166897)

[Scikit Learn Cross Validation](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection)

## PERFORMANCE METRICS!!!

In [50]:
with open('mod_.pkl', 'wb') as file:
    pickle.dump(mod_, file)