<a href="https://colab.research.google.com/github/Danila-Kovalenko/My_Machine_Learning/blob/main/Projekt_Tarife.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tarifen-Analyse
##### Eine unbenannte Mobilfunknetz-Kompanie hat festgestellt, dass zu viele Nutzer die Archiv-Tarife benutzen. Der Chef hat beschlossen, dass es zwei neue Tarife geben soll - "Smart" und "Ultra". Unsere Aufgabe ist es, die Benutzer zu analysieren, die diese Tarife bereits nutzen, und eine Maschine zu trainieren, die vorhersagt, ob wir einem zufälligen Nutzer "Smart" oder "Ultra" vorschlagen sollen.

Die nötige Bibliotheke importieren und die Daten herunterladen

In [14]:
# Importieren der benötigten Bibliotheken
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Herunterladen von Daten
data = pd.read_csv('/users_behavior.csv')

Die Daten auf Zeichen und die Ziel-Variable aufteilen

In [15]:
# Aufteilen von Daten in Zeichen (X) und Zielvariable (y)
X = data.drop(columns=['is_ultra'])
y = data['is_ultra']

Hier teilen wir die Daten in Trainings-, Validierungs- und Testproben und standardisieren es

In [16]:
# Aufteilung der Daten in Trainings-, Validierungs- und Testproben
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=1)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.2, random_state=1)

# Daten standardisieren
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

Wir trainiren unser Modell

In [17]:
# Training eines RandomForestClassifier-Modells
model = RandomForestClassifier(random_state=1)
model.fit(X_train, y_train)

Die trainierte Modell wird durch Validierungs- und Testproben überprüft

In [18]:
# Überprüfung durch Validierungsprobe
y_valid_pred = model.predict(X_valid)
valid_accuracy = accuracy_score(y_valid, y_valid_pred)
print(f'Validation Accuracy: {valid_accuracy:.2f}')

# Überprüfung durch Testprobe
y_test_pred = model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f'Test Accuracy: {test_accuracy:.2f}')

Validation Accuracy: 0.82
Test Accuracy: 0.76


Wenn "test_accuracy" wird weniger las 0,75, versuchen wir es mit nur wichtige Parameters

In [19]:
if test_accuracy < 0.75:
    from sklearn.model_selection import GridSearchCV

    param_grid = {
        'n_estimators': [100, 200, 300],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4],
        'bootstrap': [True, False]
    }

    grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), param_grid=param_grid, cv=3, n_jobs=-1, verbose=2)
    grid_search.fit(X_train, y_train)

    best_model = grid_search.best_estimator_
    y_test_pred = best_model.predict(X_test)
    test_accuracy = accuracy_score(y_test, y_test_pred)
    print(f'Improved Test Accuracy: {test_accuracy:.2f}')