In [None]:
import math 
import matplotlib.pyplot as plt 
import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.metrics import mean_squared_error
import pandas as pd

In [None]:
dtype_dict = {'Title':str, 'Geek Rating':float, 'Avg rating':float, 'Num of voters':int, 'Price':float, 'Year':str, 'Complexity':float, 'Min players':float, 'Max players':float, 'Min time':float, 'Max time':float, 'Age':float, 'Type 1':str, 'Type 2':str}
data = pd.read_csv('/kaggle/input/danefajne/bg_info.csv', dtype=dtype_dict)

In [None]:
data['Year'] = pd.to_numeric(data['Year'], errors='coerce')

# 1. Analiza stopnia wypełnienia danych

In [None]:
print("Liczba danych: " + str(data.shape[0]))
print("Liczba cech: " + str(data.shape[1]))
data.info()

In [None]:
non_null_ratios = data.notnull().sum() / data.shape[0]

num_columns = 2
num_rows = (len(data.columns) + num_columns - 1) // num_columns 

fig, axes = plt.subplots(num_rows, num_columns, figsize=(12, num_rows * 5))
axes = axes.flatten() 

for i, column in enumerate(data.columns):
    non_null_count = non_null_ratios[column]
    null_count = 1 - non_null_count
    counts = [non_null_count, null_count]
    labels = ['Non-Null', 'Null']
    
    axes[i].pie(counts, labels=labels, autopct='%1.1f%%', startangle=90)
    axes[i].set_title(f"{column}")
    
for j in range(len(data.columns), len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
plt.show()

Zbiór składa sie z 25339 gier opisanych przez 14 cech, wliczając tytuł. Wszystkie gry mają w pełni uzupełnioną zmienną objaśnianą "Num of voters". W pełni uzupełnione też są kolumny: "Geek Rating", "Avg rating", "Complexity". Niewielkie braki znajdują się w kolumnach: "Age", "Max time", "Min time", "Max players" i "Min players". Duże braki znajdują sie w kolumnie "Price" oraz w kolumnach "Type 1" i Type 2", które opisują kategorie gry.

In [None]:
rows_with_condition = data[(data['Type 1'].isnull()) & (data['Type 2'].notnull())]

print(len(rows_with_condition))

Do dalszej analizy zbioru zdecydowaliśmy się na odrzucenie cechy "price" z powodu dużych braków. Ponadto dla uproszeczenia modelu odrzuciliśmy ceche "Type 2" zakładając, że gdy gra ma dwie przypisane kategorie to "Type 1" zawiera tą ważniejszą. Po odrzuceniu tych dwóch cech odrzuciliśmy wiersze zawierające braki, ignorując jedynie braki w kolumnie "Type 1".

In [None]:
data = data.drop(columns = ['Type 2', 'Price'])
data = data.loc[data.drop(columns=['Type 1']).notnull().all(axis=1)] 

data.info()

# 2. Zbadanie ich zakresów i stopnia zmienności

In [None]:
data.describe()

Jak widać na powyższym opisie, wiele cech charakteryzuje się dośc dużą rozpiętością zmienny, zwłaszcza tych o największej wartości. Cechą, która najbardziej się wyróżnia jest 'Max time' - trzeci kwartyl tej cechy stanowi zaledwie promil jej maksymalnej wartości. Innymi cechami, które mają niesamowicie duży rozrzut są 'Min time', 'Max players' oraz 'Num of voters'. Największy zakres ma 'Num of voters'.

In [None]:
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns

# Generowanie osobnych wykresów dla każdej zmiennej
for col in numeric_columns:
    # Box Plot
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=data[col])
    plt.title(f'Box Plot for {col}')
    plt.show()

    # Violin Plot
    plt.figure(figsize=(8, 4))
    sns.violinplot(x=data[col], inner='quartile')
    plt.title(f'Violin Plot for {col}')
    plt.show()

In [None]:
# Funkcja na odrzucenie skrajnych wartości
def remove_outliers_std(df, column, n_std=3):
    mean = df[column].mean()
    std_dev = df[column].std()
    return df[(df[column] >= mean - n_std * std_dev) & (df[column] <= mean + n_std * std_dev)]


# 3. Analiza relacji między zmiennymi

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
numeric_df = data.select_dtypes(include=['float64', 'int64'])
correlation_matrix = numeric_df.corr()
correlation_sums = correlation_matrix.abs().sum() - 1
correlation_sums = correlation_sums.sort_values(ascending=False)

print("Suma wartości bezwzględnych korelacji dla każdej cechy:")
print(correlation_sums)
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")

Jak widać powyżej, najbardziej skorelowanymi z sobą cechami są 'Geek Rating' oraz 'Num of voters' z korelacją 0.65. Innymi korelacjami, które warto wymienić, są 'Avg rating' i 'Geek Rating', 'Complexity' i 'Avg Rating', 'Min time' i 'Max time', 'Complexity' i 'Age'. Najmniej skorelowanymi cechami są 'Num of voters' oraz 'Price', 'Max players', 'Min time', 'Max time', a także 'Geek rating' i 'Min time', 'Min players' i 'Max time', 'Max players' i 'Age'. Cechą, która ma największą sumę wartości bezwględnych korelacji, jest 'Complexity'; tą, która ma najmniejszą, jest 'Max players'.

# 4. Analiza cech

In [None]:


from math import log, sqrt
data['Geek_square'] = data['Geek Rating']*data['Geek Rating']
data['Complexity_square'] = data['Complexity']*data['Complexity']
data['Complexity_Geek'] = data['Complexity']*data['Geek Rating']
data['Rating_sqrt'] = data['Avg rating'].apply(sqrt)
data['Rating_Geek'] = data['Avg rating']*data['Geek Rating']

In [None]:
data.describe()
data.info()
print(data['Type 1'].unique())
categories = ['Strategy', 'Thematic', 'Family', 'Customizable', 'Abstract',
              'Party', 'Wargames', "Children's", np.nan]

data['Category'] = data['Type 1'].fillna('Unknown')


In [None]:
from sklearn.preprocessing import LabelEncoder

data['Year'] = pd.to_numeric(data['Year'], errors='coerce')  # Handle potential invalid values
data = data[data['Year'] >= 1900]
data = data[data['Num of voters'] <= 100000]
label_encoder = LabelEncoder()
data = pd.get_dummies(data, columns=['Category'], prefix='Category')
data.head()

In [None]:
data.describe()
data.info()

In [None]:
X = data.drop(columns = ['Num of voters', 'Title', 'Type 1', 'Type 2', 'Price','Category_Encoded'])
y = data['Num of voters']
X = X.dropna()
y = y.loc[X.index]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
print(len(X))

In [None]:
"""
features = ['Category_Abstract', "Category_Children's", 'Category_Customizable', 'Category_Family', 'Category_Wargames','Category_Unknown','Category_Thematic','Category_Strategy','Category_Party'
            ,'Geek Rating','Year', 'Avg rating',  'Complexity', 'Min players', 
            'Max players', 'Min time', 'Max time', 'Age', 'Geek_square', 'Complexity_square', 'Complexity_Geek', 'Rating_sqrt', 'Rating_Geek', 'Category_Encoded']

selected_features = []
remaining_features = features.copy()
test_r2_scores = []
feature_sets = []


lr = LinearRegression()

while remaining_features:
    scores = []
    for feature in remaining_features:
        # Aktualne cechy
        current_features = selected_features + [feature]

        # Dane z wybranymi cechami
        X2 = X_train[current_features]
        y2 = y_train

        # Obliczanie współczynnika determinacji R^2
        r2_scores = cross_val_score(lr, X2, y2, cv=5, scoring='r2')
        mean_r2 = np.mean(r2_scores)
        scores.append(mean_r2)

    # Wybór najlepszej cechy
    max_r2 = max(scores)
    best_feature = remaining_features[scores.index(max_r2)]

    selected_features.append(best_feature)
    remaining_features.remove(best_feature)
    test_r2_scores.append(max_r2)
    feature_sets.append(selected_features.copy())

# Wyświetlenie wyników
for i, (features_set, r2) in enumerate(zip(feature_sets, test_r2_scores)):
    print(f"{i+1} cech: {features_set}, R^2 testowy: {r2:.4f}")

"""