# Einführung Data Science - Wiederholung

- Wiederholung Bibliothek `os`
- Wiederholung Bibliothek `pandas`

## Die Bibliothek `os`
### Curent Working Directory (CWD)

In [None]:
import os

# Using os.getcwd() to find the current working directory
current_directory = os.getcwd()

print(f"\nCurrent working directory: {current_directory}\n")

### Ordner erstellen `makedirs()`

In [None]:
# dataset_directory = 'dataset'
# os.makedirs(dataset_directory)

Versuchen wir das nochmal, bekommen wir einen `FileExistsError`:

In [None]:
# dataset_directory = 'dataset'
# os.makedirs(dataset_directory)

Best Practise für dieses Problem:

In [None]:
dataset_directory = 'dataset'
if not os.path.exists(dataset_directory):
    os.makedirs(dataset_directory)

## Pfade angeben

Um eine Datei zu erstellen oder zu öffnen, müssen wir auf geeignete Weise den genauen Pfad angeben.

Hier unterscheiden wir zwei unterschiedliche Methoden: 
- Relative Pfade (also: relativ zum "aktuellen" Ordner)
- Absolute Pfade (genaue Pfadangabe unabhangig von der aktuellen Position)

### Pfade erstellen/verbinden
Pfade werden bei Python meistens als einfache String angegeben. Das kombinieren von Pfaden (und Dateinamen) kann allerdings zu einigen Fehlern führen. Am beliebtesten: die Trennzeichen `/` bzw. `\\` (beides geht) vs. `\` (geht nicht).

Pfade können kombiniert werden mit `os.path.join()`, z.B. sowas wie `os.path.join(path1, folder1, subfolder1, "my_file.txt")`.

### Relative Pfade

Ein relativer Pfad ist ein Dateipfad, der relativ zum aktuellen Arbeitsverzeichnis (CWD) ist.
Wenn Ihr Arbeitsverzeichnis zum Beispiel '/home/user/project' ist, würde ein relativer Pfad von 'dataset/data.csv' auf '/home/user/project/dataset/data.csv' verweisen.

Beispiele für relative Pfade
Hier sind einige Beispiele für relative Pfade:

#### 'file.txt' -> '/home/user/project/file.txt'

#### 'dataset/data.csv' -> '/home/user/project/dataset/data.csv'

#### '../file.txt' -> '/home/user/file.txt'

### Ordner untersuchen `listdirs()`

#### Leere Dateien erstellen:
Hier erstellen wir leere Dateien einfach mit dem `open` Befehl. Wir nutzen zudem einen absoluten Pfad der über `os.path.join()` erstellt wurde.

In [None]:
cwd = os.getcwd()
dataset_directory = "dataset"
filename = "sample"
filetype = ".csv"

for i in range(6):
    file = f"{filename}{i}{filetype}"
    path = os.path.join(cwd, dataset_directory, file)
    print(f"{i}. Path: {path}\n")
          
    with open(path, 'w') as creating_new_csv_file: 
       pass 

### Mini-Aufgabe: Ausgabe aller Dateinamen
- Laufe mit einem for-Loop über alle Dateinamen im Ordner und gebe diese mit print aus.
- Nutze dazu `os.listdir(dataset_directory)`

In [None]:
# Using os.listdir() to list the contents of a directory

print(f"\nContents of the '{dataset_directory}' directory:\n")

# Erstelle for loop und gebe alle Dateinamen im Ordner dataset_directory aus

---
## Die Bibliothek `pandas`

### Importieren und Alias-Konvention `pd`

In [None]:
# Importing pandas
import pandas as pd

# Creating a DataFrame from a dictionary
data = {'Name': ['Gisela', 'Ursula', 'Jupp', 'Dieter'],
        'Age': [25, 30, 35, 62],
        'City': ['Schabernack', 'Faulebutter', 'Welt', 'Oberbillig']} # Echte deutsche Städtenamen

### Pandas Dataframe aus Dicitionary erstellen

In [None]:
df = pd.DataFrame(data)

### Spaltenzugriff

In [None]:
# Accessing a column
print("\nNames in the DataFrame:\n")
print(df['Name'])

### Zeilenzugriff

In [None]:
# Default Index 0, 1, 2....
print("\nDefault Index:\n")
print(df)

In [None]:
# Selecting a row by index position

print(df.iloc[1])

In [None]:
# Set your own Index
my_index = ["A", "B", "C"]
df_with_index = pd.DataFrame(data, index=my_index)

print("\nMy Index:\n")
print(df_with_index)

In [None]:
# Selecting a row by index label
print("\nRow with index label C:\n")
print(df_with_index.loc["C"])

### Wert setzen

In [None]:
# Modifying a value
df.loc[1, 'Age'] = 31
print("\nModified DataFrame:\n")
print(df)

### Dataframe untersuchen (Basics)

In [None]:
# First two rows of the DataFrame
print("\nFirst two rows:\n")
print(df.head(2))

# Last two rows of the DataFrame
print("\nLast two rows:\n")
print(df.tail(2))

### Was ist der Mittelwert der Spalte `Age`?

In [None]:
# Summary statistics for the DataFrame
print("\nSummary statistics:\n")
print(df.describe())

In [None]:
# Basic information on the DataFrame
print("\nBasic information:\n")
print(df.info())

### Weitere Daten hinzufügen

#### Wichtiger Hinweis! Wenn man ein DataFrame aus einem Dictionary erstellen will und es zu den Keys nur einen Wert gibt, müssen diese dennoch in einer Liste stehen

In [None]:
# New person's data
new_data = {
    'Name': ['Lotta'],
    'Age': [94],
    'City': ['Hamburg']
}

df_new = pd.DataFrame(new_data)

# Appending the new person to the existing DataFrame
updated_df = pd.concat([df, df_new])

# Updated DataFrame with the new person added
print("\nUpdated DataFrame with new person:\n")
print(updated_df)

### Index ignorieren

In [None]:
# Creating a DataFrame from a dictionary
data = {'Name': ['Gisela', 'Ursula', 'Jupp', 'Dieter'],
        'Age': [25, 30, 35, 62],
        'City': ['Schabernack', 'Faulebutter', 'Welt', 'Oberbillig']}

df = pd.DataFrame(data)

# New person's data
new_data = {
    'Name': ['Lotta'],
    'Age': [94],
    'City': ['Hamburg']
}

df_new = pd.DataFrame(new_data)

# Appending the new person to the existing DataFrame
updated_df = pd.concat([df, df_new], ignore_index=True)

# Updated DataFrame with the new person added
print("\nUpdated DataFrame with new person:")
print(updated_df)

### Weitere Spalte hinzufügen

In [None]:
new_column = {
    "Height": [160, 170, 190, 150]
}

df_new_column = pd.DataFrame(new_column)

# Concat along the column axis by choosing axis=1
updated_df = pd.concat([updated_df, df_new_column], axis=1)

print(updated_df)

In [None]:
# eine Alternative ohne pd.concat wäre
updated_df["Height"] = [160, 170, 190, 150]
updated_df

### CSV Files schreiben und lesen mit Pandas

In [None]:
# Creating simple sample data
sample_data = {
    'Name': ['John', 'Alice', 'Bob', 'Cathy', 'David'],
    'Age': [32, 24, 28, 35, 30],
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago', 'Austin']
}

sample_df = pd.DataFrame(sample_data)

# Save the sample DataFrame as a CSV file in the "dataset" folder
sample_df.to_csv('dataset/sample_data.csv', index=False)

### Mini-Aufgabe: Die gerade geschriebene Datei wieder einlesen!

In [None]:
# Read the CSV file we just saved into a new DataFrame
loaded_df = pd.read_csv(...your code here...)
print("\nLoaded DataFrame from CSV:\n")
print(loaded_df)

# Exercise: Read a CSV file from the "dataset" folder and save a modified version
# In a new code cell, read a CSV file from the "dataset" folder, modify the DataFrame,
# and save the modified DataFrame as a new CSV file.

### Kurzer Einblick in weitere Pandas Funktionen

In [None]:
# Sorting a DataFrame

sorted_df = sample_df.sort_values(by=...add column name here...)
print("\nSorted DataFrame by age:\n")
print(sorted_df)

In [None]:
# Filtering a DataFrame

mask = sample_df['Age'] > 30
filtered_df = sample_df[mask]
print("\nFiltered DataFrame with ages greater than 30:\n")
print(filtered_df)

In [None]:
# Renaming columns in a DataFrame

renamed_df = sample_df.rename(columns={'Name': 'Full Name', 'Age': 'Age in Years', 'City': 'Hometown'})
print("\nRenamed columns in DataFrame:\n")
print(renamed_df)

In [None]:
# Adding a new column to a DataFrame

sample_df['Country'] = 'USA'
print("\nDataFrame with a new column 'Country':\n")
print(sample_df)

In [None]:
# Dropping a column from a DataFrame

dropped_df = sample_df.drop('Country', axis=1)
print("\nDataFrame with the 'Country' column dropped:\n")
print(dropped_df)