# PVA-02
## Vorgehen CSV Dateien
1. Erste Zeile aus Dateien '\PVA-02\Datensatz\CSVs\Datensatz-CorneliaIsenschmid.csv' und '\PVA-02\Datensatz\CSVs\Datensatz_VivianeRogenmoser.csv' manuell entfernt, da diese Zeilen keine Daten enthalten.
2. Erste Spalte aus Datei '\PVA-02\Datensatz\CSVs\Datensatz_VivianeRogenmoser.csv' manuell entfernt, da diese keine Daten enthält
3. Python Skript erstellt in welchem die folgenden Schritte nacheinander durchgeführt werden:
   1. Leere Zeilen aus allen CSV Dateien entfernen (dies betrifft nur die Datei '\PVA-02\Datensatz\CSVs\Datensatz_OlgaEngelmann.csv' aber wäre manuell zu aufwändig)
   2. Eine Datei enthält 'kreuz', 'kreis', 'plus', 'minus' und 'gartenhag' an Stelle von 'x', 'o', '+', '-' und '#'. Diese werden durch die entsprechenden Zeichen ersetzt.
   3. Eine Datei enthält 'True' und 'False' an Stelle von '1' und '0'. Diese werden durch die entsprechenden Zeichen ersetzt, zugleich werden die Pixelwerte auf 1 normiert. So enthalten alle Spalten mit Pixelwerten ausschliesslich 0 und 1.
   4. Sämtliche Zahlenwerte werden in Integer umgewandelt.

Die korrigierten CSV Dateien sind unter '\PVA-02\Datensatz\CSVs\corrected' zu finden.

Das dazu verwendete Skript:

In [None]:
import os
import csv

# Define the correction rules for symbols
def substitute(symbol):
    symbol = symbol.replace("minus", "-")
    symbol = symbol.replace("kreuz", "x")
    symbol = symbol.replace("plus", "+")
    symbol = symbol.replace("gartenhag", "#")
    symbol = symbol.replace("kreis", "o")
    return symbol

# "normalize" to 1
def substitute_numbers(number):
    if number == "255":
        return "1"
    elif number == "True":
        return "1"
    elif number == "False":
        return "0"
    elif number == "1.0":
        return "1"
    elif number == "0.0":
        return "0"
    else:
        return number
    
# Define the input and output directories
input_dir = "./PVA-02/Datensatz/CSVs/"
output_dir = "./PVA-02/Datensatz/CSVs/corrected/"

# Loop through the input files
for filename in os.listdir(input_dir):
    # remove empty lines in the csv files
    if filename.endswith(".csv"):
        print("Processing file " + filename)
        with open(input_dir + filename, "r") as input_file:
            lines = input_file.readlines()
        lines = [line for line in lines if line.strip()]
        with open(input_dir + filename, "w") as output_file:
            output_file.writelines(lines)
        # correct the symbols in the csv files
        for i in range(len(lines)):
                columns = lines[i].split(",")
                columns[0] = substitute(columns[0])
                lines[i] = ",".join(columns)
        with open(input_dir + filename, "w") as output_file:
            output_file.writelines(lines)
        # normalize 255 -> 1
        for i in range(len(lines)):
            columns = lines[i].split(",")
            for j in range(len(columns)):
                columns[j] = substitute_numbers(columns[j])
            lines[i] = ",".join(columns)
        with open(input_dir + filename, "w") as output_file:
            output_file.writelines(lines)
        # count the occurence of 0 and 1
        count_0 = 0
        count_1 = 0
        for line in lines:
            columns = line.split(",")
            for column in columns:
                if column == "0":
                    count_0 += 1
                elif column == "1":
                    count_1 += 1
        # modify files with count(0) < count(1)
        if count_0 < count_1:
            for i in range(len(lines)):
                columns = lines[i].split(",")
                for j in range(len(columns)):
                    if columns[j] == "0":
                        columns[j] = "1"
                    elif columns[j] == "1":
                        columns[j] = "0"
                lines[i] = ",".join(columns)
        # write modified files to output directory
        with open(output_dir + filename, "w") as output_file:
            output_file.writelines(lines)



## Vorgehen Bilddateien
1. Prüfung ob das Bild eine Grösse von 10x10 Pixeln hat. Falls nicht, wird das Bild auf 10x10 Pixel skaliert.
2. Anpassen der Dateinamen gemäss der Vorgaben in der Aufgabenstellung.

Das dazu verwendete Script:

In [None]:
import os
from PIL import Image

# clean up the pictures in the folder 'Bilder'

# Resize all pictures  to 10x10 pixels
# and save them in the folder 'resized'

input_dir = "./PVA-02/Datensatz/Bilder"
output_dir = "./PVA-02/Datensatz/Bilder/resized"

for file_name in os.listdir(input_dir):
    if file_name.endswith(".png"):
        img = Image.open(os.path.join(input_dir, file_name))
        if img.size != (10, 10):
            img = img.resize((10, 10))
        output_file_name = os.path.join(output_dir, file_name)
        img.save(output_file_name)
        
# rename pictures who do not have the right name
# the right name starts with [-,+,#,o]. Search and replace like:
# minus -> -
# kreuz -> +
# gartenhag -> #
# kreis -> o
# the rest of the name is the same
# save in the same folder

input_dir = "./PVA-02/Datensatz/Bilder/resized"
output_dir = "./PVA-02/Datensatz/Bilder/resized"

for file_name in os.listdir(input_dir):
    if file_name.endswith(".png"):
        output_file_name = file_name.replace("minus", "-")
        output_file_name = output_file_name.replace("kreuz", "x")
        output_file_name = output_file_name.replace("plus", "+")
        output_file_name = output_file_name.replace("gartenhag", "#")
        output_file_name = output_file_name.replace("kreis", "o")
        output_file_name = os.path.join(output_dir, output_file_name)
        os.rename(os.path.join(input_dir, file_name), output_file_name)


Die Dateien werden durch die beiden Skripte so umgewandelt, dass diese sowohl in Dateinamen wie auch im Inhalt mit der Aufgabenstellung aus PVA-01 übereinstimmen. Folgende Punkte wurden dabei angepasst:
- Dateinamen gemäss Konvention
- Bildgrösse skaliert auf 10x10 Pixel 
- Pixelwerte auf 0 und 1 normiert
- Pixelwerte in positive Bilddateien umgewandelt (mehr '0' als '1')