# Digit Recognizer

## Ziel: Alle Basics in einem Projekt

Unser Projekt heute ist ein Digit Recognizer. Warum? Das MNIST ("Modified National Institute of Standards and Technology") kann als "hello world!" Datensatz von Computer Vision betrachtet werden. 

Euer Ziel ist es, Ziffern aus einem Datensatz von zehntausenden handgeschriebenen Bildern korrekt zu erkennen. Es gibt eine Reihe von Tutorials, die alles von Regression bis zu neuronalen Netzen abdecken. 

Lasst uns beginnen:

# 1. Schritt: Daten importieren

Habt ihr bereits eine Umgebung erstellt?

Befehle nacheinander im Terminal eingeben

- conda create --name PythonInSports python=3.11

- conda activate PythonInSports

- conda install ipykernel

Wir wollen als erstes unsere .csv Datei einlesen und hierfür benötigen wir die pandas Bibliothek. Pandas ist eine Python-Bibliothek zur Datenanalyse und -manipulation.

Das heißt: 
1) Pandas installieren
2) Pandas importieren
3) Datensatz einlesen

Macht euch gerne kurz Gedanken. Lösung folgt. 

In [32]:
#conda install pandas ins Terminal eingeben um pandas zu installieren
import pandas as pd #importiere pandas und nenne es pd. Das ist Standard in der Python Community

In [33]:
df_sample = pd.read_csv('sample_submission.csv')
df_test = pd.read_csv('test.csv')
df_train = pd.read_csv('train.csv')

## Hinweis

Ihr stoßt mal auf einen Datensatz der keine .csv Datei ist? Hier ein paar gängige Beispiele:

1) data = pd.read_json("daten.json")
2) data = pd.read_excel("daten.xlsx", sheet_name="Tabelle1")
3) data = pd.read_pickle("daten.pkl")

### Was ist .json?
JSON (JavaScript Object Notation) ist ein leichtgewichtiges, textbasiertes Datenformat, das häufig für den Datenaustausch zwischen Anwendungen verwendet wird. Es ist einfach zu lesen, strukturiert und wird oft in Web-APIs, Datenbanken und Konfigurationsdateien genutzt.

### Was sind Pickle-Dateien?
Pickle ist ein binäres Dateiformat, das in Python genutzt wird, um Objekte zu speichern und später wiederzuladen. In Pandas wird es oft verwendet, um DataFrames schnell und speichereffizient zu sichern.

# 2. Schritt: Mit den Daten vertraut werden. 

Einer eurer ersten Schritte sollte es immmer sein, sich einmal intensiv mit dem Datensatz vertraut zu machen. 

In [34]:
df_sample.head() #zeigt die ersten 5 Zeilen des Datensatzes an

# Ihr wollt mehr sehen?

Unnamed: 0,ImageId,Label
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0


In [35]:
df_sample.head(10)  # Zeigt die ersten 10 Zeilen des Datensatzes an

Unnamed: 0,ImageId,Label
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0
5,6,0
6,7,0
7,8,0
8,9,0
9,10,0


In [36]:
df_sample.tail() #zeigt die letzten 5 Zeilen des Datensatzes an
df_sample.tail(10) #zeigt die letzten 10 Zeilen des Datensatzes an 

Unnamed: 0,ImageId,Label
27990,27991,0
27991,27992,0
27992,27993,0
27993,27994,0
27994,27995,0
27995,27996,0
27996,27997,0
27997,27998,0
27998,27999,0
27999,28000,0


In [37]:
'''
Zeigt:

Anzahl der Zeilen und Spalten
Datentypen jeder Spalte
Anzahl der nicht-null Werte pro Spalte (nützlich für fehlende Werte!)
'''

df_sample.info() #zeigt Informationen über den Datensatz an

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28000 entries, 0 to 27999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   ImageId  28000 non-null  int64
 1   Label    28000 non-null  int64
dtypes: int64(2)
memory usage: 437.6 KB


In [38]:
''' 
Gibt eine statistische Zusammenfassung der numerischen Spalten:

Mittelwert (mean)
Standardabweichung (std)
Minimum (min)
Maximum (max)
Quartile (25%, 50%, 75%)
'''

df_sample.describe() #zeigt statistische Informationen über den Datensatz an

Unnamed: 0,ImageId,Label
count,28000.0,28000.0
mean,14000.5,0.0
std,8083.048105,0.0
min,1.0,0.0
25%,7000.75,0.0
50%,14000.5,0.0
75%,21000.25,0.0
max,28000.0,0.0


In [39]:
df_sample.columns

Index(['ImageId', 'Label'], dtype='object')

In [40]:
df_sample.dtypes

ImageId    int64
Label      int64
dtype: object

In [41]:
df_sample.isnull().sum()

ImageId    0
Label      0
dtype: int64

In [42]:
# Falls du wissen willst, welche einzigartigen Werte eine Spalte hat, kannst du die Methode unique() verwenden:
df_sample['ImageId'].unique()

array([    1,     2,     3, ..., 27998, 27999, 28000])

In [43]:
df_sample['Label'].unique()

array([0])

In [44]:
# Zeigt, wie viele verschiedene Werte eine Spalte hat: 
df_sample['ImageId'].nunique()

28000

In [45]:
df_sample['Label'].nunique()

1

In [46]:
#Zeigt, wie oft jeder Wert in einer Spalte vorkommt:
df_sample['ImageId'].value_counts()

ImageId
1        1
18664    1
18675    1
18674    1
18673    1
        ..
9330     1
9329     1
9328     1
9327     1
28000    1
Name: count, Length: 28000, dtype: int64

In [47]:
df_sample['Label'].value_counts()

Label
0    28000
Name: count, dtype: int64

In [48]:
# Der shape-Aufruf in Pandas gibt die Anzahl der Zeilen und Spalten eines DataFrames zurück.
df_sample.shape

(28000, 2)

In [49]:
df_sample.shape[0]  # Gibt die Anzahl der Zeilen zurück

28000

In [50]:
df_sample.shape[1]  # Gibt die Anzahl der Spalten zurück

2