In [27]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os


output_dir = "../meal_ex_planner_analysis_outputs"


In [28]:
df = pd.read_csv("../data/GYM.csv")

In [29]:
df.head()

Unnamed: 0,Gender,Goal,BMI Category,Exercise Schedule,Meal Plan
0,Female,muscle_gain,Normal weight,"Moderate cardio, Strength training, and 5000 s...",Balanced diet with moderate protein and carboh...
1,Male,fat_burn,Underweight,"Light weightlifting, Yoga, and 2000 steps walking","High-calorie, protein-rich diet: Whole milk, p..."
2,Male,muscle_gain,Normal weight,"Moderate cardio, Strength training, and 5000 s...",Balanced diet with moderate protein and carboh...
3,Male,muscle_gain,Overweight,"High-intensity interval training (HIIT), Cardi...","Low-carb, high-fiber diet: Avocado, grilled fi..."
4,Female,muscle_gain,Normal weight,"Moderate cardio, Strength training, and 5000 s...",Balanced diet with moderate protein and carboh...


In [30]:
df.describe()

Unnamed: 0,Gender,Goal,BMI Category,Exercise Schedule,Meal Plan
count,80000,80000,80000,80000,80000
unique,2,2,4,4,4
top,Female,muscle_gain,Underweight,"Light weightlifting, Yoga, and 2000 steps walking","High-calorie, protein-rich diet: Whole milk, p..."
freq,40680,41020,20940,20940,20940


In [31]:
df.isna().sum()

Gender               0
Goal                 0
BMI Category         0
Exercise Schedule    0
Meal Plan            0
dtype: int64

In [32]:
df.isnull().sum()

Gender               0
Goal                 0
BMI Category         0
Exercise Schedule    0
Meal Plan            0
dtype: int64

In [33]:
#bu kısımda na veri veya null veri yok yani bu set'de çok temiz ve kullanıma hazır bu gayet iyi bir durum 
#veri temiz oldugu için temizleme vs yapmıyoruz

In [39]:
#bar grafik analiziyle başlayabiliriz cünkü sayısal değerler vs yok bu sefer kategorilerin frekansını bulalım
cat_cols = ["Gender", "Goal", "BMI Category", "Exercise Schedule", "Meal Plan"]
for col in cat_cols:
    plt.figure(figsize=(10, 5))
    order = df[col].value_counts().index
    colors = sns.color_palette("pastel", n_colors=len(order))

    counts = df[col].value_counts()
    plt.barh(order, counts[order], color=colors)

    plt.title(f"{col} Dağılımı", fontsize=13)
    plt.xlabel("Frekans")
    plt.ylabel(col)
    
    plt.subplots_adjust(left=0.35, right=0.95, top=0.9, bottom=0.1)

    plt.savefig(
        os.path.join(output_dir, f"{col}_barplot.png"),
        bbox_inches="tight",
        dpi=300
    )
    plt.close()

In [42]:
#bmi ile meal planların heatmapine bakalım hangi bmi hangi meal planla yakından ilgili 
ct = pd.crosstab(df["BMI Category"], df["Meal Plan"], normalize="index") * 100
plt.figure(figsize=(9,4))
sns.heatmap(ct, annot=True, cmap="coolwarm", fmt=".1f")
plt.title("BMI Category vs Meal Plan (%)", fontsize=13)
plt.ylabel("BMI Category")
plt.xlabel("Meal Plan")
plt.subplots_adjust(left=0.25, right=0.98, top=0.88, bottom=0.25)
plt.savefig(os.path.join(output_dir, "bmi_meal_heatmap.png"), bbox_inches="tight", dpi=300)
plt.close()


In [43]:
#heatmepte gördüğümüz şey şu bu bmi ile meal plan arasında her bmi kategorisi için 1 meal plan sabit atanmış bire bir
#bir eşleşme var bu overfit'e sebep olabilir ve anlamsız görünüyor

In [45]:
#gender-goal analizi
plt.figure(figsize=(6,4))
sns.countplot(x="Goal", hue="Gender", data=df, palette="pastel")
plt.title("Goal Dağılımı (Gender'a göre)")
plt.xlabel("Goal")
plt.ylabel("Kayıt Sayısı")
plt.tight_layout()
plt.savefig(os.path.join(output_dir, "goal_gender_distribution.png"), dpi=300)
plt.close()

In [46]:
#burda cinsiyet bazlı bias yok cinsiyetler için benzer oranda goal amaçları var

In [48]:
#bmi - goal dağılımı
plt.figure(figsize=(8,4))
sns.countplot(y="BMI Category", hue="Goal", data=df, palette="muted")
plt.title("BMI Category vs Goal")
plt.xlabel("Kayıt Sayısı")
plt.ylabel("BMI Category")
plt.tight_layout()
plt.savefig(os.path.join(output_dir, "bmi_goal_relation.png"), dpi=300)
plt.close()

In [49]:
#her bmi çeşidi için 2 goal çeşidi de hemen hemen eşit seçilmiş 

In [50]:
#bmi için cinsiyet dağılımı
ct2 = pd.crosstab(df["Gender"], df["BMI Category"], normalize="index") * 100
plt.figure(figsize=(7,4))
sns.heatmap(ct2, annot=True, cmap="RdPu", fmt=".1f")
plt.title("Gender vs BMI Category (%)")
plt.tight_layout()
plt.savefig(os.path.join(output_dir, "gender_bmi_heatmap.png"), dpi=300)
plt.close()


In [None]:
#nerdeyse iki cinsiyet de her bmi kategorisine eşit dağılıyor

In [52]:
#goal exercise heatmap
ct3 = pd.crosstab(df["Goal"], df["Exercise Schedule"], normalize="index") * 100
plt.figure(figsize=(8,4))
sns.heatmap(ct3, annot=True, fmt=".1f", cmap="YlOrRd")
plt.title("Goal vs Exercise Schedule (%)")
plt.xlabel("Exercise Schedule")
plt.ylabel("Goal")
plt.xticks(rotation=40, ha='right')
plt.subplots_adjust(bottom=0.35)
plt.savefig(os.path.join(output_dir, "goal_exercise_heatmap.png"), bbox_inches="tight", dpi=300)
plt.close()


In [55]:
#nerdeyse yine benzer bir dağılım var her goal ve her exercise type arasında

In [56]:
#tüm özellikler arasındak korelasyon ölçelim bir de 
from sklearn.preprocessing import LabelEncoder

encoded = df.copy()
for col in encoded.columns:
    encoded[col] = LabelEncoder().fit_transform(encoded[col])

plt.figure(figsize=(8,6))
sns.heatmap(encoded.corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Kategorik Değişkenler Arası Korelasyon Matrisi")
plt.tight_layout()
plt.savefig(os.path.join(output_dir, "encoded_correlation_matrix.png"), dpi=300)
plt.close()
