# **"Öğrenci Performansı" Veri Seti Üzerinde Python ile İstatistiki Analizler**

## *Hakan BAYRAKTAR - 22 42 10 022 | Adem UZUN - 22 42 10 064*

### **0. Gerekli Kütüphanelerin Projeye Dahil Edilmesi ve Verinin Okunması**

In [None]:
import pandas as pd                  # veri setini projeye dahil etmek ve çeşitli analiz işlemleri için
import numpy as np                   # matematiksel işlemler için
import matplotlib.pyplot as plt      # grafikler çizdirmek için
import seaborn as sns                # grafikler çizdirmek için
from scipy.stats import pearsonr     # korelasyon analizi için

In [None]:
data = pd.read_excel('OgrenciPerformansi.xlsx')   # excel formatındaki veri seti okundu "data" değişkenine atandı
data.index = range(1, len(data) + 1)
display(data)                                     # "data" değişkenini görüntülemek

### **1. Tanımlayıcı İstatistiklerin Elde Edilmesi ve Sunulması**

In [None]:
summary_stats = []
for column in data.columns[1:]:
    if data[column].dtype in [np.float64, np.int64]:
        summary_stats.append({
            "Sütun": column,
            "Ortalama": round(data[column].mean(), 2),
            "Medyan": round(data[column].median(), 2),
            "Mod": round(data[column].mode()[0], 2),
            "Standart Sapma": round(data[column].std(), 2),
            "Varyans": round(data[column].var(), 2),
        })

summary_data = pd.DataFrame(summary_stats)
summary_data.index = range(1, len(summary_data) + 1)
display(summary_data)

### **2. Verilerin Görselleştirilmesi**

#### a. Yaş Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 5))
plt.hist(data['Yas'], bins=[14.8, 15.2, 15.8, 16.2, 16.8, 17.2, 17.8, 18.2], color='blue', alpha=0.7, edgecolor='black')
plt.title("Yaş Dağılımı - Çubuk Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Frekans")
plt.xticks([15, 16, 17, 18])
plt.grid(axis='y', alpha=0.75)
plt.show()

#### b. Cinsiyet Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='Yas', hue='Cinsiyet', data=data, palette='Set2')
plt.title("Cinsiyete Göre Yaş Dağılımı - Çoklu Çubuk Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Frekans")
plt.legend(title="Cinsiyet", labels=['Erkek', 'Kız'])
plt.grid(True)
plt.show()

#### c. Etnik Bilgi Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Etnik', data=data, palette='Set2')
plt.title("Etnik Gruba Göre Öğrenci Dağılımı - Çubuk Grafiği")
plt.xlabel("Etnik Grup")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1, 2, 3], ['Kafkas', 'Afro-Amerikan', 'Asyalı', 'Diğer'])
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(data=data, x='Yas', hue='Etnik', fill=True, palette='Set2', common_norm=False)
plt.title("Etnik Gruba Göre Yaş Dağılımı - Yoğunluk Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Yoğunluk")
plt.legend(title="Etnik Grup", labels=['Kafkas', 'Afro-Amerikan', 'Asyalı', 'Diğer'])
plt.grid(True)
plt.show()

In [None]:
# Yaş gruplarına göre etnik dağılımı gösterelim
age_ethnic_pivot = data.pivot_table(index='Yas', columns='Etnik', aggfunc='size', fill_value=0)

plt.figure(figsize=(10, 6))
age_ethnic_pivot.plot(kind='bar', stacked=True, color=['blue', 'green', 'orange', 'red'])
plt.title("Etnik Gruba Göre Yaş Dağılımı - Yığılmış Sütun Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Frekans")
plt.xticks(rotation=0)
plt.legend(title="Etnik Grup", labels=['Kafkas', 'Afro-Amerikan', 'Asyalı', 'Diğer'])
plt.grid(True)
plt.show()

#### d. Ebeveyn Eğitimi Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='EbeynEgitim', data=data, palette='Set2')
plt.title("Ebeveyn Eğitim Düzeyine Göre Dağılım - Çubuk Grafiği")
plt.xlabel("Ebeveyn Eğitimi")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1, 2, 3, 4], ['Yok', 'Lise', 'Ön Lisans', 'Lisans', 'Daha Yüksek'])
plt.grid(True)
plt.show()

#### e. Ebeveyn Desteği Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
data['EbeveynDestegi'].value_counts().plot.pie(labels=['Yok', 'Düşük', 'Ortalama', 'Yüksek', 'Çok Yüksek'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen', 'yellow', 'orange', 'red'])
plt.title("Ebeveyn Desteği Seviyelerinin Dağılımı - Pasta Grafiği")
plt.ylabel('')  # Pie chart'da y-label gereksiz
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='EbeveynDestegi', data=data, palette='Set2')
plt.title("Ebeveyn Desteği Seviyelerine Göre Öğrenci Dağılımı - Çubuk Grafiği")
plt.xlabel("Ebeveyn Desteği Seviyesi")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1, 2, 3, 4], ['Yok', 'Düşük', 'Ortalama', 'Yüksek', 'Çok Yüksek'])
plt.grid(True)
plt.show()

#### f. Özel Ders Alma Durumu Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
data['OzelDers'].value_counts().plot.pie(labels=['Almayan', 'Alan'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen'])
plt.title("Özel Ders Alan ve Almayan Öğrenciler - Pasta Grafiği")
plt.ylabel('')  # Pie chart'da y-label gereksiz
plt.show()

#### g. Müfredat Dışı Faaliyetlere Katılım Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
data['MufredatDısı'].value_counts().plot.pie(labels=['Katılmayan', 'Katılan'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen'])
plt.title("Müfredat Dışı Faaliyetlere Katılan ve Katılmayan Öğrenciler - Pasta Grafiği")
plt.ylabel('')  # Pie chart'da y-label gereksiz
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='MufredatDısı', data=data, palette='Set2')
plt.title("Müfredat Dışı Faaliyetlere Katılan ve Katılmayan Öğrencilerin Dağılımı - Çubuk Grafiği")
plt.xlabel("Müfredat Dışı Faaliyet Katılım Durumu")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1], ['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(data=data, x='Yas', hue='MufredatDısı', fill=True, palette='Set2', common_norm=False)
plt.title("Müfredat Dışı Faaliyetlere Katılan ve Katılmayan Öğrencilerin Yaş Dağılımı - Yoğunluk Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Yoğunluk")
plt.legend(title="Katılım Durumu", labels=['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

#### h. Spor Etkinliklerine Katılım Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Spor', data=data, palette='Set2')
plt.title("Öğrencilerin Spor Etkinliklerine Katılım Durumu - Çubuk Grafiği")
plt.xlabel("Katılım Durumu")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1], ['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

#### i. Müzik Etkinliklerine Katılım Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Gonulluluk', data=data, palette='Set2')
plt.title("Müzik Etkinliklerine Katılan ve Katılmayan Öğrencilerin Dağılımı")
plt.xlabel("Müzik Etkinliğine Katılım Durumu")
plt.ylabel("Öğrenci Sayısı")
plt.xticks([0, 1], ['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(data=data, x='Yas', hue='Gonulluluk', fill=True, palette='Set2', common_norm=False)
plt.title("Müzik Etkinliklerine Katılan ve Katılmayan Öğrencilerin Yaş Dağılımı - Yoğunluk Grafiği")
plt.xlabel("Yaş")
plt.ylabel("Yoğunluk")
plt.legend(title="Katılım Durumu", labels=['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Gonulluluk', y='Yas', data=data, palette='Set2')
plt.title("Müzik Etkinliklerine Katılan ve Katılmayan Öğrencilerin Yaş Dağılımı - Kutu Grafiği")
plt.xlabel("Müzik Etkinliğine Katılım Durumu")
plt.ylabel("Yaş")
plt.xticks([0, 1], ['Katılmayan', 'Katılan'])
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
data['Gonulluluk'].value_counts().plot.pie(labels=['Katılmayan', 'Katılan'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen'])
plt.title("Müzik Etkinliklerine Katılan ve Katılmayan Öğrencilerin Oranı")
plt.ylabel('')  # Pie chart'da y-label gereksiz
plt.show()

#### j. Gönüllülük Faaliyetlerine Katılım Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(8, 6))
data['Gonulluluk'].value_counts().plot.pie(labels=['Katılmayan', 'Katılan'], autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen'])
plt.title("Gönüllülük Faaliyetlerine Katılan ve Katılmayan Öğrenciler - Pasta Grafiği")
plt.ylabel('')  # Pie chart'da y-label gereksiz
plt.show()

#### k. Devamsızlık Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data['Devamsızlık'], bins=20, kde=True, color='skyblue', edgecolor='black')
plt.title("Öğrencilerin Devamsızlık Gün Sayılarının Dağılımı - Histogram Grafiği")
plt.xlabel("Devamsızlık Gün Sayısı")
plt.ylabel("Öğrenci Sayısı")
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x=data['Devamsızlık'], color='lightgreen')
plt.title("Öğrencilerin Devamsızlık Gün Sayılarının Dağılımı - Kutu Grafiği")
plt.xlabel("Devamsızlık Gün Sayısı")
plt.grid(True)
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(data['Devamsızlık'], shade=True, color='salmon')
plt.title("Öğrencilerin Devamsızlık Gün Sayılarının Yoğunluğu")
plt.xlabel("Devamsızlık Gün Sayısı")
plt.ylabel("Yoğunluk")
plt.grid(True)
plt.show()

In [None]:
# Devamsızlık verisini kategorilere ayıralım
bins = [0, 5, 10, 15, 20, 30, 40, 50]
labels = ['0-5', '6-10', '11-15', '16-20', '21-30', '31-40', '40+']
data['Devamsızlık_Kategori'] = pd.cut(data['Devamsızlık'], bins=bins, labels=labels)

# Sütun grafiği ile görselleştirme
plt.figure(figsize=(10, 6))
sns.countplot(x='Devamsızlık_Kategori', data=data, palette='Set2')
plt.title("Öğrencilerin Devamsızlık Kategorilerine Göre Dağılımı")
plt.xlabel("Devamsızlık Gün Sayısı Kategorisi")
plt.ylabel("Öğrenci Sayısı")
plt.grid(True)
plt.show()

#### l. Haftalık Ders Çalışma Süresi Verilerinin Görselleştirilmesi

In [None]:
# HaftalikCalisma sütunundaki sayıları virgülden sonra 2 basamağa yuvarlayalım
data['HaftalikCalisma'] = data['HaftalikCalisma'].round(2)

In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(data['HaftalikCalisma'], shade=True, color='mediumpurple')
plt.title("Öğrencilerin Haftalık Ders Çalışma Süreleri - Yoğunluk Grafiği")
plt.xlabel("Haftalık Ders Çalışma Süresi (Saat)")
plt.ylabel("Yoğunluk")
plt.grid(True)
plt.show()

#### m. GANO Verilerinin Görselleştirilmesi

In [None]:
# GANO sütunundaki sayıları virgülden sonra 2 basamağa yuvarlayalım
data['GANO'] = data['GANO'].round(2)

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data['GANO'], bins=20, kde=True, color='lightblue', edgecolor='black')
plt.title("Öğrencilerin GANO Dağılımı - Histogram Grafiği")
plt.xlabel("GANO")
plt.ylabel("Öğrenci Sayısı")
plt.grid(True)
plt.show()


#### n. Sınıf Seviyesi Verilerinin Görselleştirilmesi

In [None]:
plt.figure(figsize=(10, 6))
data['Sınıf'].value_counts().sort_index().plot(
    kind='barh', 
    color=sns.color_palette('muted'), 
    edgecolor='black'
)
plt.title("Öğrencilerin Sınıf Düzeylerine Göre Dağılımı - Yatay Çubuk Grafiği")
plt.xlabel("Öğrenci Sayısı")
plt.ylabel("Sınıf Düzeyi")
plt.yticks([0, 1, 2, 3, 4], ['1. Sınıf', '2. Sınıf', '3. Sınıf', '4. Sınıf', 'Toplam'])
plt.grid(axis='x')
plt.show()


### **3. Veriler Arasında Korelasyon Analizi**

#### a. GANO Verisi ile Diğer Veriler Arasındaki İlişki

In [None]:
target_variable = "GANO"               # Hedef değişken: GANO

correlation_results = {}

for column in data.columns[1:]:
    if data[column].dtype in [np.float64, np.int64] and column != target_variable:
        
        correlation, p_value = pearsonr(data[target_variable], data[column])                      # Pearson korelasyonunu ve p-değerini hesaplanması
       
        correlation_results[column] = {"Korelasyon": correlation, "P-Değeri": p_value}

correlation_df = pd.DataFrame.from_dict(correlation_results, orient='index')                      # Sonuçların DataFrame'e çevrilmesi ve sıralı olarak gösterilmesi
correlation_df = correlation_df.sort_values(by="Korelasyon", ascending=False)

display(correlation_df)

#### b. GANO Verisi ile Diğer Veriler Arasındaki İlişkilerin Görselleştirilmesi

##### i. Korelasyon Matrisi (Heatmap)

In [None]:
numerical_data = data.select_dtypes(include=[np.number])
numerical_data = data.drop(columns=["OgrenciID"]).select_dtypes(include=[np.number])
plt.figure(figsize=(12, 8))  # Görsel boyutunu ayarla
sns.heatmap(numerical_data.corr(), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Korelasyon Matrisi - Isı Haritası")
plt.show()

##### ii. Scatter Plot Grafikleri

In [None]:
# Hedef değişken
target_variable = "GANO"

numeric_columns = [
    column for column in data.select_dtypes(include=[np.float64, np.int64]).columns
    if column != target_variable and column != "OgrenciID"
]

# Izgara boyutunun belirlenmesi
ncols = 3
nrows = (len(numeric_columns) + ncols - 1) // ncols  # Satır sayısının hesaplanması

# Izgara düzeni
fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(15, 5 * nrows))
axes = axes.flatten()  # Izgarayı tek boyutlu hale getir

# Scatter plot'ları çizilmesi
for i, column in enumerate(numeric_columns):
    sns.scatterplot(x=data[column], y=data[target_variable], ax=axes[i])
    axes[i].set_title(f"GANO ile {column} Arasındaki İlişki")
    axes[i].set_xlabel(column)
    axes[i].set_ylabel(target_variable)
    axes[i].grid(True)

# Boş eksenleri kaldırılması
for j in range(len(numeric_columns), len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()  # Grafikler arasında düzenli boşluk bırak
plt.show()

### **4. Çıkarımlar**

##### Bu korelasyon ve p-değer tablosu üzerinden bir analiz yapalım. Temel odak noktası, korelasyon katsayıları ve bunların istatistiksel anlamlılıklarının p-değerleri ile değerlendirilmesidir.
##### .
##### Korelasyon Katsayıları (Correlation)
##### Korelasyon katsayısı, iki değişken arasındaki doğrusal ilişkinin yönünü ve gücünü ifade eder:
##### .
##### **Pozitif Korelasyon:** Bir değişken arttığında diğerinin de artmasını ifade eder. (0 ile 1 arasında)
##### **Negatif Korelasyon:** Bir değişken arttığında diğerinin azalmasını ifade eder. (-1 ile 0 arasında)
##### **0'a Yakın:** İki değişken arasında anlamlı bir doğrusal ilişki olmadığını ifade eder.
##### p-değeri, elde edilen korelasyonun tesadüfi olup olmadığını test eder:
##### .
##### **p < 0.05:** Korelasyon istatistiksel olarak anlamlıdır.
##### **p > 0.05:** Korelasyon istatistiksel olarak anlamlı değildir (tesadüfen oluşmuş olabilir).
##### .
##### Detaylı Analiz
##### Tablodaki her değişkeni sırayla inceleyelim:





#### **1. Ebeveyn Desteği - GANO Analizi**                                       

##### **Korelasyon:** 0.190 (zayıf pozitif ilişki)
##### **p-değeri:** Çok düşük (anlamlı)
##### **Sonuç:** Ebeveyn desteği ile başarı arasında zayıf bir pozitif ilişki var.


##### 
#### **2. Haftalık Çalışma - GANO**

##### **Korelasyon:** 0.179 (zayıf pozitif ilişki)
##### **p-değeri:** Çok düşük (anlamlı)
##### **Sonuç:** Haftalık çalışma ile başarı arasında zayıf bir pozitif ilişki var.

##### 
#### **3. Özel Ders - GANO**

##### **Korelasyon:** 0.145 (zayıf pozitif ilişki)
##### **p-değeri:** Çok düşük (anlamlı)
##### **Sonuç:** Özel ders almanın başarıya küçük bir katkısı var.

##### 
#### **4. Müfredat Dışı Aktiviteler - GANO**

##### **Korelasyon:** 0.094 (çok zayıf pozitif ilişki)
##### **p-değeri:** Çok düşük (anlamlı)
##### **Sonuç:** Müfredat dışı aktiviteler ile başarı arasında çok zayıf bir ilişki var.

##### 
#### **5. Müzik - GANO**

##### **Korelasyon:** 0.073 (çok zayıf pozitif ilişki)
##### **p-değeri:** Çok Düşük (anlamlı)
##### **Sonuç:** Müzik ile başarı arasında çok zayıf bir pozitif ilişki var.

##### 
#### **6. Spor - GANO**

##### **Korelasyon:** 0.058 (çok zayıf pozitif ilişki)
##### **p-değeri:** Çok Düşük (anlamlı)
##### **Sonuç:** Sporun başarıya etkisi minimal ancak pozitif yönde.

##### 
#### **7. Etnik Köken - GANO**

##### **Korelasyon:** 0.028 (neredeyse ilişkisiz)
##### **p-değeri:** Sıfıra Yakın (anlamlı değil)
##### **Sonuç:** Etnik köken ile başarı arasında anlamlı bir ilişki yok.

##### 
#### **8. Gönüllülük - GANO**

##### **Korelasyon:** 0.003 (yok denecek kadar düşük)
##### **p-değeri:** Sıfıra Yakın (anlamlı değil)
##### **Sonuç:** Gönüllülük ile başarı arasında ilişki yok.

#####  
#### **9. Yaş - GANO**

##### **Korelasyon:** 0.0002 (yok denecek kadar düşük)
##### **p-değeri:** Sıfıra Yakın (anlamlı değil)
##### **Sonuç:** Yaş ile başarı arasında bir ilişki yok.

##### 
#### **10. Cinsiyet - GANO**

##### **Korelasyon:** -0.013 (yok denecek kadar düşük)
##### **p-değeri:** Sıfıra Yakın (anlamlı değil)
##### **Sonuç:** Cinsiyetin ile başarı arasında bir ilişkisi yok.

##### 
#### **11. Ebeveyn Eğitimi - GANO**

##### **Korelasyon:** -0.036 (çok zayıf negatif ilişki)
##### **p-değeri:** Sıfıra Yakın (anlamlı değil)
##### **Sonuç:** Ebeveyn eğitimi ile başarı arasında zayıf bir negatif ilişki var ama anlamlı değil.

##### 
#### **12. Sınıf Seviyesi - GANO**

##### **Korelasyon:** -0.783 (çok güçlü negatif ilişki)
##### **p-değeri:** Güçlü (anlamlı)
##### **Sonuç:** Sınıf seviyesi arttıkça başarı düşüyor.

##### 
#### **13. Devamsızlık - GANO**

##### **Korelasyon:** -0.919 (çok güçlü negatif ilişki)
##### **p-değeri:** Güçlü (anlamlı)
##### **Sonuç:** Devamsızlık arttıkça başarı ciddi şekilde düşüyor.

##### 
#### **Genel Sonuçlar**
##### **En Güçlü İlişkiler**: Devamsızlık ve sınıf seviyesi ile başarı arasında güçlü negatif ilişkiler var.
##### **Zayıf Pozitif İlişkiler**: Ebeveyn desteği, haftalık çalışma gibi faktörler başarıya katkı sağlıyor ama etkisi sınırlı.
##### **Anlamsız Faktörler:** Etnik köken, gönüllülük, yaş ve cinsiyet gibi faktörler başarıyı etkilemiyor.
##### Bu analizle, başarıyı etkileyen faktörlerin belirginliği ve önceliklendirilmesi yapılabilir.