## Merkmal CSV Dateien konkatenieren

In diesem Notebook ist es möglich merkmal CSV Dateien zusammenzufügen.   
In der Android App für die Datenerfassung wird nach 2000 Bildern und Reihen in der Merkmal Datei ein neuer Ordner erstellt.  
Hier ist es möglich aus den einzelnen Feature Dateien eine Datei zu erstellen.

In [1]:
import pandas
import os
# Regex Vergleiche
import re
import numpy as np

In [30]:
# Lesen der Merkmal CSV Dateien
path = "C:/Users/morro/Documents/datenRoh/22/2018_3_6_15_15/" 
files = os.listdir(path)
featuresDF = []
for file in files:
    if re.match('[0-9]', file) is not None:
        featuresDF.append(pandas.read_csv(filepath_or_buffer= path + file + "/merkmaleRoh.csv"))  

In [32]:
files

['1', '2', '3', '4', '5', 'befestigt', 'unbefestigt']

In [6]:
# Jeder Panda Dataframe wird konkateniert
length = len(featuresDF)
if length >= 2:
    result = featuresDF[0]
    for df in featuresDF[1:]:
        frames = [result, df]
        result = pandas.concat(frames, ignore_index=True)

In [7]:
# Schreibe neue Features CSV Datei
result.set_index('Zeitstempel in Unixzeit', inplace=True)
print(result.head(2))
result.to_csv("merkmaleRoh.csv")

                         Breitengrad  Laengengrad  Geschwindigkeit in km/h  \
Zeitstempel in Unixzeit                                                      
1530618547269               53.61407    10.161992                     6.12   
1530618548078               53.61407    10.161992                     6.12   

                         Genauigkeit der Geschwindigkeit speedAccuracyMetersPerSecond  \
Zeitstempel in Unixzeit                                                                 
1530618547269                                                      1.00439              
1530618548078                                                      1.00439              

                         Lokations Zeitstempel in Unixzeit  \
Zeitstempel in Unixzeit                                      
1530618547269                                1530618547000   
1530618548078                                1530618547000   

                                     Z-Achse Beschleunigungswerte in m/s^2  \
Zei

In [8]:
result.shape

(9478, 18)

In [29]:
result.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17571 entries, 1528120783258 to 1528129252739
Data columns (total 16 columns):
Breitengrad                                                           17571 non-null float64
Laengengrad                                                           17571 non-null float64
Geschwindigkeit in km/h                                               17571 non-null float64
Z-Achse Beschleunigungswerte in m/s^2                                 17571 non-null object
Y-Achse Beschleunigungswerte in m/s^2                                 17571 non-null object
Nick Messwerte in rad                                                 17571 non-null object
Zeitstempel der Messwerte in ns                                       17571 non-null object
Anzahl der Messwerte                                                  17571 non-null int64
Start des Zeitfensters in ns seit Start der JVM                       17571 non-null int64
Zeitstempel Messwertdaten anfordern in Uni

Mit den folgenden Zellen können von einem kompletten Datensatz die CSV geladen werden. 

In [2]:
# Hier können die Datensätze ausgewählt werden mit den entsprechenden Ordner Namen
datasets = pandas.DataFrame([['51'],['2018_6_3_13_48']])
# Die Pfade zu den Ordnern in welchem sich die Merkmale befinden
paths = []
datasets

Unnamed: 0,0
0,51
1,2018_6_3_13_48


In [3]:
for date, dataset in datasets.iteritems(): # Für jeden Datensatz merke Pfad
    paths.append("E:/bachelor/daten/" + dataset.iloc[0] + "/" + dataset.iloc[1] + "/")

In [4]:
paths

['E:/bachelor/daten/51/2018_6_3_13_48/']

In [5]:
featuresDF = [] 
for path in paths: # Für jeden Pfad hole die Namen der Ordner
    folders = os.listdir(path)
    folders = sorted(folders, key=int)
    for folder in folders: # Aus der Liste der Ordner wird ein Ordner ausgewählt
        print(folder)
        if re.match('[0-9]', folder) is not None: 
            filesPath = path + folder + "/merkmaleRoh.csv"
            featuresDF.append(pandas.read_csv(filepath_or_buffer=filesPath))
# Anschließend nachdem alle Merkmal Dateien in der Liste stehen muss Zeile 4 & 5 ausgeführt werden,
# um die Dateien zu konkatenieren

1
2
3
4
5


Die folgenden Zeilen fügen mehrere vorverarbeitete Merkmale CSV Dateien zusammen.

In [2]:
# Hier können die Datensätze ausgewählt werden mit den entsprechenden Ordner Namen
data = np.asarray([['43'],['45'],['46'],['47'],['48'],['49'],['50'],['51']])
datasets = pandas.DataFrame(data.T)
# Die Pfade zu den Ordnern in welchem sich die Merkmale befinden
paths = []
pathName = "C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_"
datasets

Unnamed: 0,0,1,2,3,4,5,6,7
0,43,45,46,47,48,49,50,51


In [3]:
for dataset in datasets.iloc[0]: # Für jeden Datensatz merke Pfad
    paths.append(str(pathName) + dataset)
paths

['C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_43',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_45',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_46',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_47',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_48',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_49',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_50',
 'C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_51']

In [4]:
# Die Merkmale CSV Dateien werden in das Programm geladen
featuresDF = []
pitchDF = []
accYDF = []
accZDF = []
eventTimestampsDF = []
for path in paths: # Für jeden Pfad hole die Namen der Ordner
    print("Aktuelles Verzeichnis: " + str(path))
    folders = os.listdir(path)
    for name in folders: # Aus der Liste der Ordner wird ein Ordner ausgewählt
        print("   -> Dateiname: " + str(name))
        filesPath = path + "/" + name
        if name == "merkmale.csv":   # if abfrage, weil es in python kein switch Block gibt
            featuresDF.append(pandas.read_csv(filepath_or_buffer=filesPath))
        if name == "nickMesswerte.csv":
            pitchDF.append(pandas.read_csv(filepath_or_buffer=filesPath))                
        if name == "sensoreventZeitstempel.csv":
            eventTimestampsDF.append(pandas.read_csv(filepath_or_buffer=filesPath))               
        if name == "yAchseBeschleunigungswerte.csv":
            accYDF.append(pandas.read_csv(filepath_or_buffer=filesPath))               
        if name == "zAchseBeschleunigungswerte.csv":
            accZDF.append(pandas.read_csv(filepath_or_buffer=filesPath))   

Aktuelles Verzeichnis: C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_43
   -> Dateiname: merkmale.csv
   -> Dateiname: merkmaleRoh.csv
   -> Dateiname: nickMesswerte.csv
   -> Dateiname: sensoreventZeitstempel.csv
   -> Dateiname: yAchseBeschleunigungswerte.csv
   -> Dateiname: zAchseBeschleunigungswerte.csv
Aktuelles Verzeichnis: C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_45
   -> Dateiname: merkmale.csv
   -> Dateiname: merkmaleRoh.csv
   -> Dateiname: nickMesswerte.csv
   -> Dateiname: sensoreventZeitstempel.csv
   -> Dateiname: yAchseBeschleunigungswerte.csv
   -> Dateiname: zAchseBeschleunigungswerte.csv
Aktuelles Verzeichnis: C:/Users/morro/Documents/FahrradwegeKlassifizierung/daten/merkmale_datensatz_46
   -> Dateiname: merkmale.csv
   -> Dateiname: merkmaleRoh.csv
   -> Dateiname: nickMesswerte.csv
   -> Dateiname: sensoreventZeitstempel.csv
   -> Dateiname: yAchseBeschleunigungswerte.csv
   -> Dateiname: zAchseBe

In [5]:
# Jeder Panda Dataframe wird konkateniert
# merkmale.csv
length = len(featuresDF)
if length >= 2:
    resultFeaturesDF = featuresDF[0]
    for df in featuresDF[1:]:
        frames = [resultFeaturesDF, df]
        resultFeaturesDF = pandas.concat(frames, ignore_index=True)
length = len(pitchDF)
# nickMesswerte.csv
if length >= 2:
    resultPitchDF = pitchDF[0]
    for df in pitchDF[1:]:
        frames = [resultPitchDF, df]
        resultPitchDF = pandas.concat(frames, ignore_index=True)
# sensoreventZeitstempel.csv
length = len(eventTimestampsDF)
if length >= 2:
    resultEventTimestampsDF = eventTimestampsDF[0]
    for df in eventTimestampsDF[1:]:
        frames = [resultEventTimestampsDF, df]
        resultEventTimestampsDF = pandas.concat(frames, ignore_index=True)
#  yAchseBeschleunigungswerte.csv
length = len(accYDF)
if length >= 2:
    resultAccYDF = accYDF[0]
    for df in accYDF[1:]:
        frames = [resultAccYDF, df]
        resultAccYDF = pandas.concat(frames, ignore_index=True)
#  zAchseBeschleunigungswerte.csv        
length = len(accZDF)
if length >= 2:
    resultAccZDF = accZDF[0]
    for df in accZDF[1:]:
        frames = [resultAccZDF, df]
        resultAccZDF = pandas.concat(frames, ignore_index=True)

In [6]:
resultFeaturesDF.shape

(120193, 29)

In [7]:
len(featuresDF)

8

In [8]:
# Name des Ordners in dem die Merkmale abgespeichert werden
folderName = pathName + "43_45_bis_51"
if not os.path.exists(folderName):
  os.makedirs(folderName)

In [9]:
# Speichern der zusammengefügten Merkmale
resultFeaturesDF.set_index('Zeitstempel in Unixzeit', inplace=True)
resultFeaturesDF.to_csv(str(folderName) + "/" + "merkmale.csv")

In [10]:
resultPitchDF.index.names = ["index"]
resultPitchDF.set_index('index', inplace=True)
resultPitchDF.to_csv((str(folderName) + "/" + "nickMesswerte.csv"))

In [None]:
resultEventTimestampsDF.index.names = ["index"]
resultEventTimestampsDF.set_index('index', inplace=True)
resultEventTimestampsDF.to_csv((str(folderName) + "/" + "sensoreventZeitstempel.csv"))

In [None]:
resultAccYDF.index.names = ["index"]
resultAccYDF.set_index('index', inplace=True)
resultAccYDF.to_csv((str(folderName) + "/" + "yAchseBeschleunigungswerte.csv"))

In [None]:
resultAccZDF.index.names = ["index"]
resultAccZDF.set_index('index', inplace=True)
resultAccZDF.to_csv((str(folderName) + "/" + "zAchseBeschleunigungswerte.csv"))