Dieses Jupyter Notebook wurde zum Zweck des Debuggins erstellt. Es enthält alle Schritte, welche für die Bereinigung der Daten notwendig sind, allerdings sind diese ungeordnet. Außerdem sind hier Test Szenarien enthalten, welche nicht für die Bereinigung der Daten notwendig sind. Die finale Version des Skriptes ist als main.py im Ordner zu finden.

In [5]:
import pandas as pd
import os
from matplotlib import colors
from datetime import datetime

In [4]:
csv1 = pd.read_csv("2023_place_canvas_history-000000000000.csv", delimiter=",")

In [5]:
print (csv1['timestamp'].max())
print (csv1['timestamp'].min())

2023-07-20 15:56:56.162 UTC
2023-07-20 13:00:26.088 UTC


In [6]:
#Datentypen der Spalten werden angezeigt
print(csv1.dtypes)

timestamp      object
user           object
coordinate     object
pixel_color    object
dtype: object


In [7]:
#print head of pixel_color
print(csv1['pixel_color'].head())

0    #FFFFFF
1    #FF4500
2    #FFFFFF
3    #B44AC0
4    #FF4500
Name: pixel_color, dtype: object


In [8]:
#load first 200 rows of csv2 
csv2 = pd.read_csv("2023_place_canvas_20072023.csv", delimiter=",", nrows=200)

In [9]:
#Datentypen der Spalten werden angezeigt
print(csv2.dtypes)
#Min und Max der Spalte timestamp
print(csv2['timestamp'].max())
print(csv2['timestamp'].min())


timestamp      int64
user           int64
pixel_color    int64
x              int64
y              int64
dtype: object
130455
130026


In [16]:
csv3 = pd.read_csv("2023_place_canvas_history-000000000002.csv", delimiter=",")

In [11]:
#Informationen über die Anzahl der Zeilen und Spalten
print(csv3.shape)

(2278788, 4)


In [12]:
csv3_sample = csv3.sample(100)
#Ausgabe der ersten 5 Zeilen
print(csv3_sample.head())

                           timestamp  \
1240860  2023-07-20 19:03:35.702 UTC   
2237254  2023-07-20 19:42:49.032 UTC   
2010936  2023-07-20 19:34:09.047 UTC   
1895019  2023-07-20 19:29:45.952 UTC   
585382   2023-07-20 18:36:02.692 UTC   

                                                      user coordinate  \
1240860  JlWmlnlP5cv/4rEmKiqzx65Fl2aM0Ao8HqGum9AwqfA99r...    53,-171   
2237254  s7t2CYNOe40F/A4lKG8/wFD6F7AZ9bAaubVMVa3kbBpZqA...   -315,317   
2010936  9KoaO7+CrwZ94+9qyo/YMzvnms0rGUi/5ySBBd9dvYY8TV...    -27,-58   
1895019  DFZgxuGK+jpstO4jJs8flhFFPnO4GbAK6H5MaRRuZWCeNu...     51,304   
585382   nWPMgxL+2dri6SwbtUgUticz1ojI6sjxEzi8Clle12Y8VS...     10,356   

        pixel_color  
1240860     #3690EA  
2237254     #FF4500  
2010936     #FFD635  
1895019     #000000  
585382      #000000  


In [17]:
# #timestamp wird auf 19 Zeichen gekürzt
print("Timestamp wird gekürzt")
csv3['timestamp'] = csv3['timestamp'].str[:19]

#Ausgabe der ersten 5 Zeilen von timestamp
print(csv3['timestamp'].head())

Timestamp wird gekürzt
0    2023-07-20 18:09:49
1    2023-07-20 18:09:49
2    2023-07-20 18:09:49
3    2023-07-20 18:09:49
4    2023-07-20 18:09:49
Name: timestamp, dtype: object


In [18]:
#timestamp wird in datetime umgewandelt
print("Timestamp wird in datetime umgewandelt")
csv3['timestamp'] = pd.to_datetime(csv3['timestamp'], format='%Y-%m-%d %H:%M:%S')

Timestamp wird in datetime umgewandelt


In [19]:
#Ausgabe der ersten 5 Zeilen von timestamp
print(csv3['timestamp'].head())

0    2023-07-20 18:09:49
1    2023-07-20 18:09:49
2    2023-07-20 18:09:49
3    2023-07-20 18:09:49
4    2023-07-20 18:09:49
Name: timestamp, dtype: object


In [25]:
#Timestamp wird zu datetime64[s] umgewandelt
print("Timestamp wird zu datetime64[s] umgewandelt")
csv3['timestamp'] = csv3['timestamp'].astype('datetime64[s]')
print(csv3['timestamp'].head())

Timestamp wird zu datetime64[s] umgewandelt
0   2023-07-20 18:09:49
1   2023-07-20 18:09:49
2   2023-07-20 18:09:49
3   2023-07-20 18:09:49
4   2023-07-20 18:09:49
Name: timestamp, dtype: datetime64[s]


In [23]:
#Ausgabe von min und max von timestamp
print(csv3['timestamp'].max())
print(csv3['timestamp'].min())


2023-07-20 19:44:22
2023-07-20 18:09:49


In [26]:
#Filtern der Einträge sodass nur Einträge vom 2023-07-20 00:00:00 bis 2023-07-20 23:59:59 angezeigt werden
print("Filtern der Einträge sodass nur Einträge vom 2023-07-20 00:00:00 bis 2023-07-20 23:59:59 angezeigt werden")
csv3 = csv3[(csv3['timestamp'] >= '2023-07-20 00:00:00') & (csv3['timestamp'] <= '2023-07-20 23:59:59')]

Filtern der Einträge sodass nur Einträge vom 2023-07-20 00:00:00 bis 2023-07-20 23:59:59 angezeigt werden


In [27]:
print(csv3.head())

            timestamp                                               user  \
0 2023-07-20 18:09:49  1Gwttcp+9HC4YLaERXOAmAtfpBj/lD3Da9sLQSyonii/Ob...   
1 2023-07-20 18:09:49  7EdXDJogOffhW8ex4mCsNQzhItraj3iMAs2JtoBcsjyvDI...   
2 2023-07-20 18:09:49  VPPgAeEohrkZRa1tnQHNb5vIqeSJ1/8RB/OtuUrMzYBymm...   
3 2023-07-20 18:09:49  xNnLfREhSW0fq/zXztaSA9cQ/o3wjcvmXE7KSdJIv0zcTh...   
4 2023-07-20 18:09:49  Mj1px6m88UvEDGR/toqWBMZjtcJNzruZCJImTs1U+zGJ3Z...   

  coordinate pixel_color  
0    477,268     #3690EA  
1   -395,-57     #FFD635  
2     80,216     #B44AC0  
3     230,16     #000000  
4   315,-220     #FF4500  


In [57]:
#Pixel_color hexadezimal in Farbe umwandeln
print("Pixel_color hexadezimal in Farbe umwandeln")
# Use .loc[] to set values in the original DataFrame as type int8
csv3.loc[csv3['pixel_color'] == '#FF4500', 'pixel_color'] = 1
csv3.loc[csv3['pixel_color'] == '#FFA800', 'pixel_color'] = 2
csv3.loc[csv3['pixel_color'] == '#FFD635', 'pixel_color'] = 3
csv3.loc[csv3['pixel_color'] == '#00A368', 'pixel_color'] = 4
csv3.loc[csv3['pixel_color'] == '#3690EA', 'pixel_color'] = 5
csv3.loc[csv3['pixel_color'] == '#B44AC0', 'pixel_color'] = 6
csv3.loc[csv3['pixel_color'] == '#000000', 'pixel_color'] = 7
csv3.loc[csv3['pixel_color'] == '#FFFFFF', 'pixel_color'] = 8

Pixel_color hexadezimal in Farbe umwandeln


In [58]:
#Ausgabe der ersten 5 Zeilen von pixel_color
print(csv3['pixel_color'].head())

0    3
1    2
2    1
3    3
4    1
Name: pixel_color, dtype: object


In [59]:
#Umwandeln der Spalte pixel_color in int8
print("Umwandeln der Spalte pixel_color in int8")
csv3['pixel_color'] = csv3['pixel_color'].astype('int8')
print(csv3['pixel_color'].head())

Umwandeln der Spalte pixel_color in int8
0    3
1    2
2    1
3    3
4    1
Name: pixel_color, dtype: int8


In [28]:
# Das Timestamp Format wird gekürzt, sodass nur noch die Stunden, Minuten und Sekunden angezeigt werden
csv3['timestamp'] = csv3['timestamp'].dt.strftime('%H:%M:%S')

#Ausgabe der ersten 5 Zeilen von timestamp
print(csv3['timestamp'].head())


0    18:09:49
1    18:09:49
2    18:09:49
3    18:09:49
4    18:09:49
Name: timestamp, dtype: object


In [29]:
#Umwandeln von Timestamp in einen integer Wert
csv3['timestamp'] = csv3['timestamp'].str.replace(':', '').astype(int)


In [30]:
#Ausgabe der ersten 5 Zeilen von timestamp
print(csv3['timestamp'].head())


0    180949
1    180949
2    180949
3    180949
4    180949
Name: timestamp, dtype: int64


In [31]:
#Ausgabe der ersten 5 Zeilen von coordinate
print(csv3['coordinate'].head())


0     477,268
1    -395,-57
2      80,216
3      230,16
4    315,-220
Name: coordinate, dtype: object


In [32]:
#Die Spalte coordinate in zwei Spalten "x" und "y" aufteilen
print("Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen")
#Falls die Spalte mehrere Kommas enthält, wird die Spalte in mehrere Spalten aufgeteilt
csv3[['x','y']] = csv3['coordinate'].str.split(',', expand=True, n=1)


Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen


In [34]:
#Ausgeben der ersten 5 Zeilen von x und y
print(csv3['x'].head())
print(csv3['y'].head())

#Gib mir 5 Zeilen an, wo y2 nicht leer ist
print(csv3[csv3['y'].notnull()].head())


0     477
1    -395
2      80
3     230
4     315
Name: x, dtype: object
0     268
1     -57
2     216
3      16
4    -220
Name: y, dtype: object
   timestamp                                               user coordinate  \
0     180949  1Gwttcp+9HC4YLaERXOAmAtfpBj/lD3Da9sLQSyonii/Ob...    477,268   
1     180949  7EdXDJogOffhW8ex4mCsNQzhItraj3iMAs2JtoBcsjyvDI...   -395,-57   
2     180949  VPPgAeEohrkZRa1tnQHNb5vIqeSJ1/8RB/OtuUrMzYBymm...     80,216   
3     180949  xNnLfREhSW0fq/zXztaSA9cQ/o3wjcvmXE7KSdJIv0zcTh...     230,16   
4     180949  Mj1px6m88UvEDGR/toqWBMZjtcJNzruZCJImTs1U+zGJ3Z...   315,-220   

  pixel_color     x     y  
0     #3690EA   477   268  
1     #FFD635  -395   -57  
2     #B44AC0    80   216  
3     #000000   230    16  
4     #FF4500   315  -220  


In [35]:
#Zähle wie viele Zeilen es gibt, wo y2 nicht leer ist
print(csv3['y'].notnull().sum())

2278788


In [36]:
#Zähle wie viele Zeilen es gibt, wo y1 nicht leer ist
print(csv3['y'].notnull().sum())

2278788


In [37]:
#Wenn in der Spalte coordinate ein Eintrag ist, welcher drei Kommas oder mehr enthält, dann zähle diesen
print(csv3['coordinate'].str.count(',').eq(3).sum())

76


In [38]:
#Wenn in der Spalte coordinate ein Eintrag ist, welcher zwei Kommas oder mehr enthält, dann zähle diesen
print(csv3['coordinate'].str.count(',').eq(2).sum())

322


In [42]:
#Gib mir die Anzahl der Zeilen an
print(csv3.shape)
#Lösche die Zeilen, in welcher die Spalte coordinate zwei Kommas oder mehr enthält
print("Lösche die Zeilen, in welcher die Spalte coordinate zwei Kommas oder mehr enthält")
csv3 = csv3[csv3['coordinate'].str.count(',').lt(2)]

#Gib mir die Anzahl der Zeilen an nach dem Löschen
print(csv3.shape)


(2278390, 6)
Lösche die Zeilen, in welcher die Spalte coordinate zwei Kommas oder mehr enthält
(2278390, 6)


In [41]:
2278788 - 2278390

398

In [75]:
#Lösche die Spalten x1,x2,y1,y2
print("Lösche die Spalten x1,x2,y1,y2")
csv3 = csv3.drop(columns=['x1','x2','y1','y2'])

Lösche die Spalten x1,x2,y1,y2


In [89]:
#Erstelle ein Sample von 1000 Zeilen
csv3_sample = csv3.sample(100000)

#Überprüfe ob es doppelte Einträge gibt
print(csv3_sample.duplicated().sum())


3


In [92]:
#user werden pseudonymisiert durch eine Zahl 
print("user werden pseudonymisiert durch eine Zahl")
csv3_sample['user'] = csv3_sample['user'].astype('category').cat.codes

#Ausgabe der ersten 5 Zeilen von user
print(csv3_sample['user'].head())

#Ausgabe der Anzahl von Zeilen von cs3_sample
print(csv3_sample.shape)

#Überprüfe ob es doppelte Einträge gibt
print(csv3_sample.duplicated().sum())

user werden pseudonymisiert durch eine Zahl
2062310    24799
1054183    78609
1343870    10035
1378958    49126
1792627    81279
Name: user, dtype: int32
(100000, 4)
3


In [96]:
#Überprüfe ob es doppelte Einträge gibt
print(csv3.duplicated().sum())
#Ausgabe der Anzahl von Zeilen von cs3
print(csv3.shape)

1509
(2580646, 4)


In [97]:
#user werden pseudonymisiert durch eine Zahl
print("user werden pseudonymisiert durch eine Zahl")
csv3['user'] = csv3['user'].astype('category').cat.codes

#Überprüfe ob es doppelte Einträge gibt
print(csv3.duplicated().sum())

#Ausgabe der Anzahl von Zeilen von cs3
print(csv3.shape)


user werden pseudonymisiert durch eine Zahl
1509
(2580646, 4)


In [98]:
#Überprüfe ob es Fehler gibt
print(csv3.isnull().sum())

timestamp      0
user           0
coordinate     0
pixel_color    0
dtype: int64


In [99]:
#Gib mir die ersten 5 Zeilen von csv3
print(csv3.head())


   timestamp    user coordinate  pixel_color
0     213642  157791    214,466            3
1     213642  276491    19,-410            2
2     213642  137472  -329,-264            1
3     213642  227817    212,466            3
4     213642  135310    193,413            1


In [100]:
#Die Spalte coordinate in zwei Spalten "x" und "y" aufteilen
print("Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen")
#Falls die Spalte mehrere Kommas enthält, wird die Spalte übersprungen
csv3[['x','y']] = csv3['coordinate'].str.split(',', expand=True, n=1)



Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen


In [104]:
#Zeige die ersten 5 Zeilen von x und y an
print(csv3['x'].head())
print(csv3['y'].head())


0    214
1     19
2   -329
3    212
4    193
Name: x, dtype: int32
0    466
1   -410
2   -264
3    466
4    413
Name: y, dtype: int32


In [103]:
#Wandle die Spalte x und y in int32 um
print("Wandle die Spalte x und y in int32 um")
csv3['x'] = csv3['x'].astype('int32')
csv3['y'] = csv3['y'].astype('int32')

#gebe den Datentyp von x und y aus
print(csv3['x'].dtypes)
print(csv3['y'].dtypes)


Wandle die Spalte x und y in int32 um
int32
int32


In [106]:
#Lösche die Spalte coordinate   
print("Lösche die Spalte coordinate")
csv3 = csv3.drop(columns=['coordinate'])

Lösche die Spalte coordinate


In [107]:
#Gebe die ersten 5 Zeilen von csv3 aus
print(csv3.head())

   timestamp    user  pixel_color    x    y
0     213642  157791            3  214  466
1     213642  276491            2   19 -410
2     213642  137472            1 -329 -264
3     213642  227817            3  212  466
4     213642  135310            1  193  413


In [30]:
#Read csv File with Datatypes
print("Read csv File with Datatypes")
csv4 = pd.read_csv("2023_place_canvas_20072023.csv", delimiter=",", dtype={'pixel_color': 'int8', 'timestamp': 'datetime64'})

Read csv File with Datatypes


TypeError: data type '' not understood

In [25]:
#Informationen über die Anzahl der Zeilen und Spalten
print(csv4.shape)
#Ausgabe der min und max Werte von timestamp
print(csv4['timestamp'].max())
print(csv4['timestamp'].min())

#Ausgabe der ersten 5 Zeilen
print(csv4.head())


(12285459, 4)
2023-07-20 23:59:59
2023-07-20 13:00:26
             timestamp                                               user  \
0  2023-07-20 13:00:26  no+8HEIDjbdx7/LxH9Xr+h4lyoar0MRTYugWKrGdQOg7dF...   
1  2023-07-20 13:00:43  qJ7O6cuUNfkDyn+ZOEYR+UiVEmAu/vYfm/s4hK0XJytqAx...   
2  2023-07-20 13:00:43  uqi5XwkBePwcPKJgGOxHKzzzXuZKU6iKZT+OVfUJfaRKek...   
3  2023-07-20 13:01:02  rgSTj7FHZUHsLXZLLNj9+vxibHIowb2+UhfFLDYgsVBXqI...   
4  2023-07-20 13:01:40  2bmivBNj8NYvnp/15k0EqC+75T1OxTtCUcRG2pf0c5btzF...   

  coordinate  pixel_color  
0  -199,-235            8  
1     0,-298            1  
2   -42,-218            8  
3  -418,-232            6  
4    182,164            1  


In [26]:
#Check for missing values
print(csv4.isnull().sum())

timestamp      0
user           0
coordinate     0
pixel_color    0
dtype: int64


In [27]:
print(csv4.dtypes)

timestamp      object
user           object
coordinate     object
pixel_color     int64
dtype: object


In [1]:
#Test Szenario 
csv4 = pd.read_csv("2023_place_canvas_history-000000000002.csv", delimiter=",")

NameError: name 'pd' is not defined

In [52]:
# Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
print("Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält")
csv4 = csv4[csv4['coordinate'].str.count(',').lt(2)]

Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält


In [53]:
# Die Spalte coordinate in zwei Spalten "x" und "y" aufteilen
print("Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen")
csv4[['x', 'y']] = csv4['coordinate'].str.split(',', expand=True, n=1)

Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen


In [54]:
    # Die Spalten "x" und "y" in int32 umwandeln
    print("Die Spalten 'x' und 'y' in int32 umwandeln")
    csv4['x'] = csv4['x'].astype('int32')
    csv4['y'] = csv4['y'].astype('int32')
    # Die Spalte "coordinate" löschen
    print("Die Spalte 'coordinate' löschen")
    csv4 = csv4.drop(columns=['coordinate'])

Die Spalten 'x' und 'y' in int32 umwandeln
Die Spalte 'coordinate' löschen


In [79]:
#csv11 = pd.read_csv("2023_place_canvas_history-000000000000.csv", delimiter=",")
#csv12 = pd.read_csv("2023_place_canvas_history-000000000001.csv", delimiter=",")
csv13 = pd.read_csv("2023_place_canvas_history-000000000002.csv", delimiter=",")
#csv14 = pd.read_csv("2023_place_canvas_history-000000000003.csv", delimiter=",")
#csv15 = pd.read_csv("2023_place_canvas_history-000000000004.csv", delimiter=",")

In [81]:
print(csv13.shape)


(2278788, 4)


In [82]:
#printe mir die Spalte coordinate aus
print(csv13['coordinate'].head())
#printe die Anzahl an Spalten welche zwei oder drei kommas enthalten
print(csv13['coordinate'].str.count(',').eq(2).sum())
print(csv13['coordinate'].str.count(',').eq(3).sum())
print(csv13['coordinate'].str.count(',').eq(4).sum())

#Löschen der Zeilen, welche zwei oder drei kommas enthalten
csv13 = csv13[csv13['coordinate'].str.count(',').lt(2)]
#printe die Anzahl an Spalten welche zwei oder drei kommas enthalten
#printe die Anzahl an Zeilen aus
print(csv13.shape)


print(csv13['coordinate'].str.count(',').eq(2).sum())
print(csv13['coordinate'].str.count(',').eq(3).sum())


0     477,268
1    -395,-57
2      80,216
3      230,16
4    315,-220
Name: coordinate, dtype: object
322
76
0
(2278390, 4)
0
0


In [83]:
2278788 - 322 - 76

2278390

In [84]:
csv13[['x', 'y']] = csv13['coordinate'].str.split(',', expand=True, n=1)
#printe mir die Anzahl an Zeilen von x und y aus
print(csv13['x'].notnull().sum())
print(csv13['y'].notnull().sum())
print(csv13.shape)

2278390
2278390
(2278390, 6)


In [44]:
# Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
csv13 = csv13[csv13['coordinate'].str.count(',').lt(2)]
coordinates_split = csv13['coordinate'].str.split(',', expand=True)
print(1)
csv13.loc[:, 'x'] = coordinates_split[0].astype(float)
print(2)
csv13.loc[:, 'y'] = coordinates_split[1].astype(float)
print(csv13.isnull().sum())

1
2
timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64


In [12]:
#make a list of csv11 to csv15
csv_list = [csv11, csv12, csv13, csv14, csv15]

In [33]:
#Zeige mir die Spalte coordinate
print(csv13['coordinate'].head())
# Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
csv13 = csv13[csv13['coordinate'].str.count(',').lt(2)]
print(csv13['coordinate'].head())
#Überprüfe ob Nan Values in coordinate enthalten sind
print(csv13.isnull().sum())

0     477,268
1    -395,-57
2      80,216
3      230,16
4    315,-220
Name: coordinate, dtype: object
0     477,268
1    -395,-57
2      80,216
3      230,16
4    315,-220
Name: coordinate, dtype: object
timestamp      0
user           0
coordinate     0
pixel_color    0
dtype: int64


In [23]:
#Schleife über csv_list
for file in csv_list:
    # Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
    print("Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält")
    file = file[file['coordinate'].str.count(',').lt(2)]
    # Die Spalte coordinate in zwei Spalten "x" und "y" aufteilen
    print("Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen")

    
    #Überprüfe ob es NaN Values gibt
    print(file.isnull().sum())
    


Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen
1
2
3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'x'] = coordinates_split[0].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'y'] = coordinates_split[1].astype(float)


timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64
Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen
1
2
3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'x'] = coordinates_split[0].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'y'] = coordinates_split[1].astype(float)


timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64
Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen
1
2
3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'x'] = coordinates_split[0].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'y'] = coordinates_split[1].astype(float)


timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64
Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen
1
2
3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'x'] = coordinates_split[0].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'y'] = coordinates_split[1].astype(float)


timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64
Lösche die Zeilen, in welcher die Spalte coodinate zwei Kommas oder mehr enthält
Die Spalte coordinate in zwei Spalten 'x' und 'y' aufteilen
1
2
3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'x'] = coordinates_split[0].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  file.loc[:, 'y'] = coordinates_split[1].astype(float)


timestamp      0
user           0
coordinate     0
pixel_color    0
x              0
y              0
dtype: int64
