In [None]:
from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()

In [None]:
# In Pandas DataFrame umwandeln
iris_df = pd.DataFrame(data.data, columns=data.feature_names)

# Informationen über die Datenstruktur
print("Merkmale:", data.feature_names)
print("Zielklassen:", data.target_names)
print("Anzahl der Datenpunkte:", len(iris_df))

# Erste 5 Zeilen der Daten anzeigen
print(iris_df.head())


In [None]:
import matplotlib.pyplot as plt

# Zielklassen zu den Daten hinzufügen
iris_df['target'] = data.target

# Streudiagramm: Sepal Length vs Sepal Width
plt.figure(figsize=(8, 6))
for i, target_name in enumerate(data.target_names):
    plt.scatter(iris_df[iris_df['target'] == i]['sepal length (cm)'],
                iris_df[iris_df['target'] == i]['sepal width (cm)'],
                label=target_name)

plt.xlabel('Sepal Length (cm)')
plt.ylabel('Sepal Width (cm)')
plt.title('Sepal Length vs Sepal Width')
plt.legend()
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Daten und Zielklassen definieren
X = data.data  # Merkmale
y = data.target  # Zielklassen

# Trainings- und Testdaten splitten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# kNN-Modell erstellen
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Vorhersagen für Testdaten
y_pred = knn.predict(X_test)

# Genauigkeit berechnen
accuracy = accuracy_score(y_test, y_pred)
print("Genauigkeit des Modells:", accuracy)

In [None]:
from sklearn.cluster import KMeans
import numpy as np

# k-Means Clustering
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X)

# Cluster vs Zielklassen vergleichen
print("Cluster-Zuweisungen:", np.unique(clusters, return_counts=True))
print("Echte Zielklassen:", np.unique(y, return_counts=True))

In [None]:
# Vorhersage mit neuen Eingabewerten
neue_blume = [[5.0, 3.2, 1.1, 8.1]]  # Neue Blume mit ihren gemessenen Eigenschaften
vorhersage = knn.predict(neue_blume)
print("Vorhergesagte Blumenart:", data.target_names[vorhersage[0]])

In [None]:
import ezdxf

# Maße ausgeben
brustweite = 50
taillenweite = 45
gesamtlänge = 100

# DXF-Dokument erstellen
doc = ezdxf.new()
msp = doc.modelspace()

# Rechteck für Vorderansicht basierend auf Brustweite und Gesamtlänge
msp.add_lwpolyline([(0, 0), (brustweite / 2, 0), (brustweite / 2, gesamtlänge), (0, gesamtlänge)], close=True)

# Rechteck für Rückenansicht
msp.add_lwpolyline(
    [(brustweite / 2 + 5, 0), (brustweite, 0), (brustweite, gesamtlänge), (brustweite / 2 + 5, gesamtlänge)],
    close=True)

# DXF-Datei speichern
doc.saveas("schnittmuster.dxf")
print("CAD-Plan erstellt und gespeichert!")

In [None]:
import svgwrite
from IPython.display import SVG, display

# SVG erstellen
file_name = "schnittmuster.svg"
dwg = svgwrite.Drawing(file_name, size=(500, 1000))  # Einheit: Pixel (z. B. 500px * 1000px)

# Rechtecke als Beispiel für Anzug-Schnittmuster
dwg.add(dwg.rect(insert=(0, 0), size=(250, 1000), fill="none", stroke="black", stroke_width=2))  # Vorderseite
dwg.add(dwg.rect(insert=(260, 0), size=(250, 1000), fill="none", stroke="blue", stroke_width=2))  # Rückseite

# Speichern
dwg.save()

# Ausgabe im Notebook
print(f"SVG-Datei {file_name} erfolgreich erstellt!")
display(SVG(file_name))

In [None]:
import os

print("Aktuelles Verzeichnis:", os.getcwd())


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Daten einlesen
data = {
    "product_name": ["Wayona Nylon Braided USB Cable", "Ambrane Unbreakable Type C Cable"],
    "discount_percentage": [64, 43],
    "rating": [4.2, 4.0],
    "rating_count": [24269, 43994]
}
df = pd.DataFrame(data)

# Scatterplot erstellen
plt.figure(figsize=(8, 5))
plt.scatter(df["discount_percentage"], df["rating"], s=df["rating_count"] * 0.01, alpha=0.6)
plt.title("Rabatt vs. Bewertung")
plt.xlabel("Rabatthöhe (%)")
plt.ylabel("Bewertung")
plt.show()

In [None]:
# Bereinigungsfunktion
def clean_row(row):
    try:
        row["discounted_price"] = float(row["discounted_price"].replace("₹", "").replace(",", ""))
        row["actual_price"] = float(row["actual_price"].replace("₹", "").replace(",", ""))
        row["discount_percentage"] = int(row["discount_percentage"].replace("%", ""))

        # Prüfen, ob "rating" ein String ist, bevor .replace() genutzt wird
        if isinstance(row["rating"], str):
            row["rating"] = float(row["rating"].replace("|", "").strip())
        else:
            row["rating"] = float(row["rating"])  # Falls es bereits ein Float ist

        row["rating_count"] = int(row["rating_count"].replace(",", "")) if pd.notnull(row["rating_count"]) else 0
        return row
    except Exception as e:
        print(f"❌ Fehler in Zeile mit product_id {row.product_id}: {e}")
        print(row)  # Problematische Zeile ausgeben
        return None


# clean the whole data
def clean_data(df):
    return df.apply(clean_row, axis=1).dropna().reset_index(drop=True)


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Function to clean rows
def clean_row(row):
    # Add custom row cleaning logic here
    return row

# Function to clean the data DataFrame
def clean_data(df):
    # Use apply() to clean each row and return a DataFrame
    return df.apply(clean_row, axis=1).dropna().reset_index(drop=True)

# Load the dataset
df = pd.read_csv("amazon.csv")  # Correctly load the CSV file into a pandas DataFrame

# Clean the data using the clean_data function
df = clean_data(df)

# Feature engineering: Combine 'product_name' and 'about_product' columns
df['text'] = df['product_name'] + " " + df['about_product']

# Example usage of TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df['text'])

print(tfidf_matrix)

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

# Function to clean rows
def clean_row(row):
    # Add custom row cleaning logic here
    return row

# Function to clean the data DataFrame
def clean_data(df):
    # Use apply() to clean each row and return a DataFrame
    return df.apply(clean_row, axis=1).dropna().reset_index(drop=True)

# Load the dataset
df = pd.read_csv("amazon.csv")  # Correctly load the CSV file into a pandas DataFrame

# Clean the data using the clean_data function
df = clean_data(df)

# 2. Features kombinieren
df['text'] = df['product_name'] + " " + df['about_product']

# 3. Zielvariable definieren
y = df['category']

# 4. Text-Vektorisierung mit TF-IDF
vectorizer = TfidfVectorizer(stop_words='english', max_features=500)
X = vectorizer.fit_transform(df['text'])

# 5. Datenaufteilung in Training und Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Modell definieren und trainieren
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# 7. Modell evaluieren
y_pred = model.predict(X_test)
print("Klassifikationsbericht:\n", classification_report(y_test, y_pred))
print("Genauigkeit:", accuracy_score(y_test, y_pred))

# 8. Vorhersage für neue Daten
new_product = ["Kuechen schlaeuder"]
new_product_tfidf = vectorizer.transform(new_product)
predicted_category = model.predict(new_product_tfidf)
print("Vorhergesagte Kategorie:", predicted_category[0])