<a href="https://colab.research.google.com/github/Konstantin5054232/ausbildungsprojekte/blob/main/06_mobile_tarif_ml/mobile_tarif_ml.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tarifempfehlung

Der Mobilfunkanbieter hat herausgefunden, dass viele Kunden Archivtarife nutzen. Wir müssen ein System aufbauen, das das Kundenverhalten analysieren und den Nutzern einen neuen Tarif anbieten kann: „Smart“ oder „Ultra“.
Ihnen stehen Daten zum Verhalten von Kunden zur Verfügung, die bereits zu diesen Tarifen gewechselt sind. Sie müssen ein Modell für das Klassifizierungsproblem erstellen, das die geeignete Rate auswählt. Eine Datenvorverarbeitung ist nicht erforderlich – Sie haben es bereits getan.
Es ist notwendig, ein Modell mit dem höchstmöglichen accuracy-Wert zu bauen.

# Datenexploration

In [2]:
# Wir importieren die notwendigen Bibliotheken
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [3]:
# Wir laden Tabellen mit Daten
df = pd.read_csv('/content/users_behavior.csv')

In [4]:
# Wir werden die erhaltenen Daten studieren
display(df.info())
display(df.shape)
display(df.head())
display(df.tail())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

(3214, 5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
3209,122.0,910.98,20.0,35124.9,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0
3213,80.0,566.09,6.0,29480.52,1


**Schlussfolgerungen**

Die Tabelle hat 3214 Zeilen, 5 Spalten, eine Vorverarbeitung ist nicht erforderlich, weil früher durchgeführt.

# Modelltraining

In [6]:
# Wir werden die Zielmerkmale und -bedingungen hervorheben
target = df['is_ultra']
features = df.drop('is_ultra', axis=1)

In [9]:
# Wir teilen die Daten in Stichproben auf
features_train_1, features_valid, target_train_1, target_valid = train_test_split(features, target, test_size=0.20, random_state=12345)
features_train, features_test, target_train, target_test = train_test_split(features_train_1, 
                                                                            target_train_1, test_size=0.25, random_state=12345)

In [10]:
# Wir prüfen, ob die Daten korrekt verteilt werden
print('{:.0%}'.format(features_train.shape[0]/features.shape[0]))
print('{:.0%}'.format(features_valid.shape[0]/features.shape[0]))
print('{:.0%}'.format(features_test.shape[0]/features.shape[0]))

60%
20%
20%


Wir werden die optimalen Hyperparameter für verschiedene Modelle auswählen

In [15]:
best_result = 0
best_depth = 0
for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid) 
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))
    result = model.score(features_valid, target_valid) 
    if result > best_result:
        best_result = result 
        best_depth = depth
print("Accuracy des besten Modells im Validierungsset ist", best_result, ', best depth ist', best_depth)

max_depth = 1 : 0.7480559875583204
max_depth = 2 : 0.7838258164852255
max_depth = 3 : 0.7869362363919129
max_depth = 4 : 0.7869362363919129
max_depth = 5 : 0.7884914463452566
max_depth = 6 : 0.7791601866251944
max_depth = 7 : 0.7884914463452566
max_depth = 8 : 0.7807153965785381
max_depth = 9 : 0.7776049766718507
Accuracy des besten Modells im Validierungsset ist 0.7884914463452566 , best depth ist 5


In [18]:
best_result = 0
best_depth = 0
for est in range(1, 15):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train) 
    predictions_valid = model.predict(features_valid) 
    print("est =", est, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))
    result = model.score(features_valid, target_valid) # посчитайте качество модели на валидационной выборке
    if result > best_result:
        best_result = result
        best_depth = depth
print("Accuracy des besten Modells im Validierungsset ist", best_result, ', best depth ist', best_depth)

est = 1 : 0.7340590979782271
est = 2 : 0.7542768273716952
est = 3 : 0.7729393468118196
est = 4 : 0.7667185069984448
est = 5 : 0.7807153965785381
est = 6 : 0.7744945567651633
est = 7 : 0.7729393468118196
est = 8 : 0.776049766718507
est = 9 : 0.7791601866251944
est = 10 : 0.7869362363919129
est = 11 : 0.7822706065318819
est = 12 : 0.7822706065318819
est = 13 : 0.7916018662519441
est = 14 : 0.7884914463452566
Accuracy des besten Modells im Validierungsset ist 0.7916018662519441 , best depth ist 9


**Schlussfolgerungen**

Wir haben Hyperparameter identifiziert, die die höchste Qualität der Modelle zeigen.

# Analysieren von Modellen

Wir werden die Leistung verschiedener Modelle auf einem Testset testen

In [21]:
model = DecisionTreeClassifier(random_state=12345, max_depth=5)
model.fit(features_train, target_train)
predictions_test = model.predict(features_test) 
print('accuracy', accuracy_score(target_test, predictions_test))

model = RandomForestClassifier(random_state=12345, n_estimators=9)
model.fit(features_train, target_train)
predictions_test = model.predict(features_test) 
print('accuracy', accuracy_score(target_test, predictions_test))

accuracy 0.7589424572317263
accuracy 0.7838258164852255


**Schlussfolgerungen**

Der Genauigkeitswert beim Überprüfen von Modellen auf einem Testmuster ist etwas niedriger als auf einem Validierungsmuster, aber höher als 75 %.