# Ödev — Pandas-2 (NaN, GroupBy, Pivot, Merge)

**Kapsam:**
- Eksik veri (NaN): `isna`, `fillna`, (gerekiyorsa) `dropna`
- `groupby` ile özet tablo
- `pivot_table`
- `merge` (iki tabloyu birleştirme)
- `concat`

> Not: Notebook kendi sentetik verisini üretip iki CSV kaydeder:
- `ybs_students_ascii.csv`
- `ybs_exam_scores_ascii.csv`


## Kurulum


In [None]:
import numpy as np
import pandas as pd

pd.set_option("display.max_columns", 80)
pd.set_option("display.width", 140)

print("Hazır!")


## 1) Sentetik veriyi oluştur ve CSV olarak kaydet


In [None]:
np.random.seed(42)

# --- students ---
n_students = 60
student_id = np.arange(2001, 2001 + n_students)

department = np.random.choice(["MIS","Business","Economics","IndustrialEng"], size=n_students, p=[0.45,0.25,0.2,0.1])
city = np.random.choice(["Istanbul","Ankara","Izmir","Bursa","Antalya"], size=n_students, p=[0.45,0.2,0.15,0.1,0.1])

gpa = np.round(np.random.normal(2.7, 0.45, size=n_students), 2)
gpa = np.clip(gpa, 1.2, 4.0)

# Eksik GPA ekle (yaklasik %10)
mask_gpa_nan = np.random.rand(n_students) < 0.10
gpa[mask_gpa_nan] = np.nan

year = np.random.choice([2024,2025,2026,2027], size=n_students, p=[0.25,0.35,0.25,0.15])
# Eksik yil ekle (yaklasik %7)
mask_year_nan = np.random.rand(n_students) < 0.07
year = year.astype("float")
year[mask_year_nan] = np.nan

students = pd.DataFrame({
    "student_id": student_id,
    "department": department,
    "city": city,
    "gpa": gpa,
    "grad_year": year
})

# --- exams ---
courses = ["Python","Pandas","SQL"]
n_rows = 140
exam_student_id = np.random.choice(student_id, size=n_rows, replace=True)
course = np.random.choice(courses, size=n_rows, p=[0.35,0.4,0.25])

score = np.round(np.random.normal(72, 12, size=n_rows), 1)
# kurs bazli fark
score += np.where(course=="Python", 0, np.where(course=="Pandas", 3, -2))
score = np.clip(score, 0, 100)

# Eksik score ekle (yaklasik %8)
mask_score_nan = np.random.rand(n_rows) < 0.08
score[mask_score_nan] = np.nan

attempt = np.random.choice([1,2], size=n_rows, p=[0.85,0.15])

exams = pd.DataFrame({
    "student_id": exam_student_id,
    "course": course,
    "score": score,
    "attempt": attempt
})

# Kaydet
students_path = "ybs_students_ascii.csv"
exams_path = "ybs_exam_scores_ascii.csv"
students.to_csv(students_path, index=False)
exams.to_csv(exams_path, index=False)

print("CSV olustu:", students_path, "ve", exams_path)


## 2) ÖDEV GÖREVLERİ


### Görev-1 — Dosyaları oku ve hızlı incele
1) İki CSV'yi oku: `students` ve `exams` DataFrame olsun  
2) `head()` göster  
3) `info()` calıştır


In [None]:
# Gorev-1




### Görev-2 — NaN analizi
1) `students` için `isna().sum()` yazdır  
2) `exams` için `isna().sum()` yazdır


In [None]:
# Görev-2




### Görev-3 — NaN doldurma
1) `students["gpa"]` içindeki NaN değerleri **median** ile doldur  
2) `exams["score"]` içindeki NaN değerleri **mean** ile doldur  
3) Tekrar `isna().sum()` ile kontrol et


In [None]:
# Görev-3




### Görev-4 — Merge (birleştirme)
1) `students` ve `exams` tablolarını `student_id` üzerinden birleştir ve `df` adını ver  
2) `df` içinde kaç satır kaç kolon var? (`shape`)  
3) `df.head()` göster


In [None]:
# Görev-4




### Görev-5 — GroupBy: ortalama skorlar
1) Kurs bazında ortalama skoru hesapla: `df.groupby("course")["score"].mean()`  
2) Departman bazında ortalama skoru hesapla  
3) Departman + Kurs birlikte (iki anahtar) ortalama skor hesapla


In [None]:
# Görev-5




### Görev-6 — Pivot Table
Departman (index) ve Kurs (columns) olacak şekilde, ortalama skoru gösteren bir pivot table oluştur.

- index: department
- columns: course
- values: score
- aggfunc: mean


In [None]:
# Görev-6




### Görev-7 — Basit iş kuralı: passing
1) `pass_flag` adında yeni kolon üret: skor >= 60 ise 1, değilse 0  
2) Departman bazında **pass rate** hesapla (ortalama)


In [None]:
# Görev-7


