# String-Manipulation und Formatstandardisierung

## String zu Datum

- String-Manipulation: Änderungen an Zeichenketten-Daten, um Konsistenz zu gewährleisten.
    - Beispiel: Umwandlung von Groß-/Kleinschreibung, Entfernung von Leerzeichen.
- Standardisierung von Datenformaten: Einheitliches Format für numerische und Datumswerte.


Python Beispiel:

In [7]:
import pandas as pd

# Beispiel für String-Manipulation
df = pd.DataFrame({
    'Name': ['Alice ', 'BOB', 'Charlie'],
    'Datum': ['01.01.2024', '15.12.2023', '30.11.2023']
#   'Datum': ['2024-01-01', '2023-12-15', '2023-11-30']
})

print("df-Vorher")
print(df,"\n")

# Leerzeichen entfernen, Groß- in Kleinschreibung umwandeln
df['Name'] = df['Name'].str.strip().str.lower()

# Datum standardisieren
# 2. Datum standardisieren (von 'dd.mm.yyyy' zu 'yyyy-mm-dd')
df['Datum'] = pd.to_datetime(df['Datum'], format='%d.%m.%Y')  # Standard-Format für Datum

print("df-Nachher")
print(df)


df-Vorher
      Name       Datum
0   Alice   01.01.2024
1      BOB  15.12.2023
2  Charlie  30.11.2023 

df-Nachher
      Name      Datum
0    alice 2024-01-01
1      bob 2023-12-15
2  charlie 2023-11-30


## String-to-Number-Konvertierung:

Wenn numerische Werte als Strings vorliegen (z.B. "1000", "25.5"), müssen diese in tatsächliche numerische Werte konvertiert werden, um mit ihnen rechnen zu können.



### Beispiel für String-to-Number-Konvertierung:

In [None]:
import pandas as pd

# Beispiel-Daten mit numerischen Strings
df = pd.DataFrame({
    'Gehalt': ['50000', '60000', '75000', 'NaN', '90000'],
    'Bonus': ['1000.5', '1500', '2000.75', '1200', 'NaN']
})

print("Vor der Konvertierung:")
print(df)

# String-to-Number-Konvertierung
df['Gehalt'] = pd.to_numeric(df['Gehalt'], errors='coerce')  #  Umwandlung in numerische Werte, falls ein Wert nicht in eine Zahl
                                                             # umgewandelt werden kann , dann kann man durch 'coerce' die Werte in NaN ändern
df['Bonus'] = pd.to_numeric(df['Bonus'], errors='coerce')

print("\nNach der Konvertierung:")
print(df)


Erklärung:

- pd.to_numeric(): Diese Funktion konvertiert Strings in numerische Werte (Integer oder Float).
    - Das Argument errors='coerce' stellt sicher, dass ungültige Werte (z.B. "NaN") als NaN (Not a Number) behandelt werden.