### Aufgabe 1
Es wurden deutlich mehr Datensätze mit **'yes.'** klassifiziert, als mit **'no.'**. In Zahlen: *92,54%* der Datensätze wurde mit **'yes.'** klassifiziert und nur *7,46%* mit **'no.'**. Dadurch lässt sich die Klassifizierung bzgl. **'yes.'** aus den Trainingsdaten besser einschätzen. 

In den Trainingsdaten korelliert die Variable _v19_ stark positiv mit der Klassifikation, d.h. wenn _v19_ den Wert 1 hat, wird das Datum mit **'yes.'** klassifiziert und bei einem Wert von 0 mit **'no.'**. Das spricht dafür, dass die Trainingsdaten nicht sehr gut gewählt sind, da ein Klassifikationsalgorithmus so lernt, dass die Variable _v19_ entscheidend sei, was die anderen Variablen überflüssig macht.
Es können also alle Variablen außer _v19_ entfernt werden.

### Aufgabe 2
Es stellt sich heraus, dass _v19_ nicht über die Klassifikation entscheidet, was die Entscheidung aus 1. widerlegt. Es sollte _v19_ entfernt werden oder mehr Daten dem Trainingsdatensatz hinzugefügt werden.

### Aufgabe 3
Ich habe mich dafür entschieden, einen Bayes-Klassifikator zu implementieren.

### Aufgabe 4
Nach etwas Testen mit den Validierungsdaten stellte sich heraus, dass sich die Rate der richtigen Klassifizierungen erhöhte, wenn ich die Variablen mit numerischen Werten aus dem Klassifikationsprozess entferne. Desweiteren wurden Wahrscheinlichkeiten mit dem Wert 0 gegen solche von einem Wert 0.001 ausgetauscht, da sonst die Gesamtwahrscheinlichkeit 0 wird und einzelne Variablen einen möglicherweise zu hohen Einfluss haben.

In Zahlen: 
- Rate der richtigen Klassifizierungen mit dem Code aus Aufgabe 3: 98/201
- Rate der richtigen Klassifizierungen mit Veränderung der 0-Wahrscheinlichkeiten, aber mit numerischen Variablen: 146/201
- Rate der richtigen Klassifizierungen mit dem Code aus Aufgabe 4: 154/201

In [2]:
import csv

#read the training.csv and save it into a list called training
training = []
trainingsfile = 'training.csv'
with open(trainingsfile) as csvfile:
    trainingsDataReader = csv.reader(csvfile, delimiter=';')
    for row in trainingsDataReader:
        training.append(row)

#number of rows and columns
rowNumb = len(training)
colNumb = len(training[0])

#index of the column of the classification
classificationCol = 18

#number of 'no.'s and 'yes.'s
numberNo = 0
for i in range(1, rowNumb) :
    if training[i][classificationCol] == 'no.':
        numberNo+=1
    for j in range(0,colNumb) :
        training[i][j] = training[i][j].replace(",", ".")
numberYes = rowNumb - numberNo - 1

#proportion yes/no
propYes = numberYes/(rowNumb-1);
propNo = numberNo/(rowNumb-1);

#check if a string consists only of numbers
def is_number(s) :
    """Return whether the string s can be parsed to a float
        
    Args:
    s (str): The string.
    
    Returns:
    bool: True if s can be parsed to a float, False otherwise.
    """
    try :
        float(str(s).replace(",", "."))
        return True
    except ValueError:
        return False

#get the average value of a column with respect to a given classification
def getAverageOfColumnWithRespectToClass(column, classification) :
    """Return the average value of the column with respect to the classification
        
    Args:
    column (int): The index of the column.
    classification (str): The string representing the classification.
    
    Returns:
    float: The average value of the column with respect to the classification.
    """
    average = 0
    for i in range(1, rowNumb) :
        if training[i][column] != 'NA' :
            if training[i][classificationCol] == classification :
                average += float(training[i][column])
    divider = numberYes
    if classification == 'no.' :
        divider = numberNo
    average /= divider
    return average;

#get the max value of a column
def getMaxOfColumn(column) :
    """Return the greatest value of the column
        
    Args:
    column (int): The index of the column.
    
    Returns:
    float: The greatest value of the column.
    """
    max = 0
    for i in range(1, rowNumb) :
        if training[i][column] != 'NA' :
            if float(training[i][column]) > max :
                max = float(training[i][column])
    return max;

#classify a list of dates with a Bayes classifier
def classify (data) :
    """Return whether the string s can be parsed to a float
        
    Args:
    data (list): The list of dates which can be strings or floats.
    
    Returns:
    bool: True if classified as 'yes.', False if classified as 'no.'.
    """
    
    probabilitiesYes = []
    probabilitiesNo = []
    for i in range(0, colNumb-1) :
        probabilitiesYes.append(0)
        probabilitiesNo.append(0)
        # In case of a not available date remove the variable from the 
        # classification process
        if data[i] == 'NA' :
            probabilitiesYes[i] = 1
            probabilitiesNo[i] = 1
        # In case of a numerical date calculate the difference between the date
        # and the average value of the column with respect to both classification
        # and normalize with the greatest value of the column.
        elif is_number(data[i]) :
            averageYes = getAverageOfColumnWithRespectToClass(i, 'yes.')
            averageNo = getAverageOfColumnWithRespectToClass(i, 'no.')
            maxValOfCol = getMaxOfColumn(i)
            probabilitiesYes[i] = 1-abs((data[i] - averageYes)/maxValOfCol)
            probabilitiesNo[i] = 1-abs((data[i] - averageNo)/maxValOfCol)
            # If our date is greater then the greatest value of the column the
            # probabilities have to be reset.
            if probabilitiesYes[i] < 0 :
                probabilitiesYes[i] = 0
            if probabilitiesNo[i] < 0 :
                probabilitiesNo[i] = 0
        else :
            # Calculate the probabilities (date|'yes.') an (date|'no.').
            for j in range(1, rowNumb) :
                if training[j][i] == data[i]:
                    if training[j][classificationCol] == 'yes.' :
                        probabilitiesYes[i] += 1
                    else :
                        probabilitiesNo[i] +=1
            probabilitiesYes[i] /= numberYes
            probabilitiesNo[i] /= numberNo
    yes = propYes
    no = propNo
    for i in range(0,colNumb-1) :
        yes *= probabilitiesYes[i]
        no *= probabilitiesNo[i]
    return yes >= no;

In [3]:
import csv

#read the training.csv and save it into a list called training
training = []
trainingsfile = 'training.csv'
with open(trainingsfile) as csvfile:
    trainingsDataReader = csv.reader(csvfile, delimiter=';')
    for row in trainingsDataReader:
        training.append(row)

#number of rows and columns
rowNumb = len(training)
colNumb = len(training[0])

#index of the column of the classification
classificationCol = 18

#number of 'no.'s and 'yes.'s
numberNo = 0
for i in range(1, rowNumb) :
    if training[i][classificationCol] == 'no.':
        numberNo+=1
    for j in range(0,colNumb) :
        training[i][j] = training[i][j].replace(",", ".")
numberYes = rowNumb - numberNo - 1

#proportion yes/no
propYes = numberYes/(rowNumb-1);
propNo = numberNo/(rowNumb-1);

#check if a string consists only of numbers
def is_number(s) :
    """Return whether the string s can be parsed to a float
        
    Args:
    s (str): The string.
    
    Returns:
    bool: True if s can be parsed to a float, False otherwise.
    """
    try :
        float(str(s).replace(",", "."))
        return True
    except ValueError:
        return False

#classify a list of dates with a Bayes classifier
def classify (data) :
    """Return whether the string s can be parsed to a float
        
    Args:
    data (list): The list of dates which can be strings or floats.
    
    Returns:
    bool: True if classified as 'yes.', False if classified as 'no.'.
    """
    
    probabilitiesYes = []
    probabilitiesNo = []
    for i in range(0, colNumb-1) :
        probabilitiesYes.append(0)
        probabilitiesNo.append(0)
        # In case of a numerical or no date just remove the variable from
        # the classification process.
        if data[i] == 'NA' or is_number(data[i]) :
            probabilitiesYes[i] = 1
            probabilitiesNo[i] = 1
        else :
            # Calculate the probabilities (date|'yes.') an (date|'no.').
            for j in range(1, rowNumb) :
                if training[j][i] == data[i]:
                    if training[j][classificationCol] == 'yes.' :
                        probabilitiesYes[i] += 1
                    else :
                        probabilitiesNo[i] +=1
            probabilitiesYes[i] /= numberYes
            probabilitiesNo[i] /= numberNo
        # Probabilities should not be 0 because then they are the only ones
        # that matter in the end.
        if probabilitiesYes[i] <= 0 :
            probabilitiesYes[i] = 0.001
        if probabilitiesNo[i] <= 0 :
            probabilitiesNo[i] = 0.001
    yes = propYes
    no = propNo
    for i in range(0,colNumb-1) :
        yes *= probabilitiesYes[i]
        no *= probabilitiesNo[i]
    return yes >= no;