In [33]:
import pandas as pd

# Read the CSV file
file_path = '../preped.csv'
df = pd.read_csv(file_path)

In [34]:
print(df.columns)


Index(['Title', 'Is Series', 'Hidden Gem Score', 'Runtime', 'IMDb Score',
       'Rotten Tomatoes Score', 'Metacritic Score', 'Awards Received',
       'Awards Nominated For', 'Boxoffice', 'Release Date', 'IMDb Votes',
       'Minimum Age', 'Action', 'Adventure', 'Animation', 'Biography',
       'Comedy', 'Crime', 'Documentary', 'Drama', 'Family', 'Fantasy',
       'History', 'Horror', 'Music', 'Musical', 'Mystery', 'News', 'Romance',
       'Sci-Fi', 'Sport', 'Thriller', 'War', 'Western'],
      dtype='object')


In [35]:
# Define age groups
def age_group(age):
    if age == 0:
        return 'All'
    elif 1 <= age <= 16:
        return 'Teen'
    else:
        return 'Adult'
df['Age Group'] = df['Minimum Age'].apply(age_group)

df['Age Group']

0       Adult
1       Adult
2       Adult
3        Teen
4        Teen
        ...  
2504     Teen
2505     Teen
2506     Teen
2507     Teen
2508     Teen
Name: Age Group, Length: 2509, dtype: object

In [36]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, accuracy_score


features = df.drop(columns=['Minimum Age', 'Age Group']).select_dtypes(include=[int, float])

X = features
y = df['Age Group']

# 3. Feature Scaling (Essential for KNN):
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


# Split data into training and testing sets:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42) # Adjust test size as needed

# Train the KNN model:
knn = KNeighborsClassifier(n_neighbors=5) # Choose an appropriate value for k (n_neighbors)
knn.fit(X_train, y_train)

# Make predictions on the test set:
y_pred = knn.predict(X_test)

# Evaluate the model:
print(classification_report(y_test, y_pred))
print("Accuracy:", accuracy_score(y_test, y_pred))


              precision    recall  f1-score   support

       Adult       0.61      0.74      0.67       216
         All       0.61      0.33      0.43        58
        Teen       0.70      0.64      0.67       228

    accuracy                           0.65       502
   macro avg       0.64      0.57      0.59       502
weighted avg       0.65      0.65      0.64       502

Accuracy: 0.6454183266932271


In [37]:
import pandas as pd
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import train_test_split, HalvingGridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, accuracy_score

# Assuming 'df' is your DataFrame
features = df.drop(columns=['Minimum Age', 'Age Group']).select_dtypes(include=[int, float])

X = features
y = df['Age Group']

# 3. Feature Scaling (Essential for KNN):
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split data into training and testing sets:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42) # Adjust test size as needed

# Define the parameter grid for HalvingGridSearchCV
param_grid = {
    'n_neighbors': range(1, 30),  # Explore a range of n_neighbors values
    'weights': ['uniform', 'distance'], # Explore different weighting strategies
    'metric': ['euclidean', 'manhattan', 'minkowski'] # Explore different distance metrics
}

# Initialize HalvingGridSearchCV
halving_cv = HalvingGridSearchCV(
    KNeighborsClassifier(), 
    param_grid, 
    cv=5,  # Number of cross-validation folds
    scoring='accuracy',  # Scoring metric
    n_jobs=-1, # Use all available cores for parallel processing
    verbose=1, #  Increase verbosity for more detailed output
    factor=2, # Reduction factor for resources (e.g., half the candidates in each iteration)
    min_resources=10 # Minimum resources to start with
)

# Train the model using HalvingGridSearchCV
halving_cv.fit(X_train, y_train)

# Get the best estimator from HalvingGridSearchCV
best_knn = halving_cv.best_estimator_

# Make predictions on the test set using the best model
y_pred = best_knn.predict(X_test)


n_iterations: 8
n_required_iterations: 8
n_possible_iterations: 8
min_resources_: 10
max_resources_: 2007
aggressive_elimination: False
factor: 2
----------
iter: 0
n_candidates: 174
n_resources: 10
Fitting 5 folds for each of 174 candidates, totalling 870 fits


 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan 0.3 nan 0.3 nan 0.1 nan 0.1 nan 0.1 nan 0.1 nan 0.3
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan 0.3 0.3 0.4 0.3 0.3 0.1 0.1 0.1 0.3 0.1
 0.3 0.3 0.5 0.3 nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan]
 0.73928571 1.         0.78928571 1.         0.73928571 1.
 0.66428571 1.                nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan      

----------
iter: 1
n_candidates: 87
n_resources: 20
Fitting 5 folds for each of 87 candidates, totalling 435 fits


 0.1        0.1        0.3        0.1        0.3        0.3
 0.5        0.3               nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan 0.3
        nan 0.3               nan 0.1               nan 0.1
        nan 0.1               nan 0.1               nan 0.3
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan 

----------
iter: 2
n_candidates: 44
n_resources: 40
Fitting 5 folds for each of 44 candidates, totalling 220 fits


 0.1        0.1        0.3        0.1        0.3        0.3
 0.5        0.3               nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan 0.3
        nan 0.3               nan 0.1               nan 0.1
        nan 0.1               nan 0.1               nan 0.3
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan 

----------
iter: 3
n_candidates: 22
n_resources: 80
Fitting 5 folds for each of 22 candidates, totalling 110 fits
----------
iter: 4
n_candidates: 11
n_resources: 160
Fitting 5 folds for each of 11 candidates, totalling 55 fits


 0.1        0.1        0.3        0.1        0.3        0.3
 0.5        0.3               nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan 0.3
        nan 0.3               nan 0.1               nan 0.1
        nan 0.1               nan 0.1               nan 0.3
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan 

----------
iter: 5
n_candidates: 6
n_resources: 320
Fitting 5 folds for each of 6 candidates, totalling 30 fits
----------
iter: 6
n_candidates: 3
n_resources: 640
Fitting 5 folds for each of 3 candidates, totalling 15 fits
----------
iter: 7
n_candidates: 2
n_resources: 1280
Fitting 5 folds for each of 2 candidates, totalling 10 fits


 0.1        0.1        0.3        0.1        0.3        0.3
 0.5        0.3               nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan 0.3
        nan 0.3               nan 0.1               nan 0.1
        nan 0.1               nan 0.1               nan 0.3
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan        nan        nan        nan        nan
        nan        nan 

In [38]:

# Evaluate the model:
print("Best Hyperparameters:", halving_cv.best_params_)
print(classification_report(y_test, y_pred))
print("Accuracy:", accuracy_score(y_test, y_pred))

Best Hyperparameters: {'metric': 'euclidean', 'n_neighbors': 11, 'weights': 'uniform'}
              precision    recall  f1-score   support

       Adult       0.60      0.76      0.67       216
         All       0.54      0.24      0.33        58
        Teen       0.73      0.65      0.69       228

    accuracy                           0.65       502
   macro avg       0.62      0.55      0.56       502
weighted avg       0.65      0.65      0.64       502

Accuracy: 0.649402390438247
