🔹 2.1 ETL Process (Extract, Transform, Load)
Araçlar: SQL, R, Python, Excel
Extract: CSV, Excel, SQL gibi kaynaklardan veri çekme

Transform: Temizleme, dönüştürme, tür değiştirme

Load: Temiz veriyi başka bir yere yükleme (örneğin Excel'e kaydetme)

➡ Başlangıç örneği (Pandas ile):

import pandas as pd

# Extract
df = pd.read_csv("HR Data.csv")

# Transform
df["Age"] = df["Age"].fillna(df["Age"].mean())  # örnek dönüşüm

# Load
df.to_excel("temizlenmis_veri.xlsx", index=False)
🔹 2.2 Cleaning
NULL, duplicates, inconsistent formatting, imputing
➡ Uygulamalı örnek:


# Boş değerleri doldur
df["Education"].fillna("Unknown", inplace=True)

# Yinelenenleri sil
df.drop_duplicates(inplace=True)

# Biçim uyumsuzluklarını düzelt
df["Department"] = df["Department"].str.strip().str.title()
🔹 2.3 Organizing
sort, filter, slice, transpose
➡ Uygulamalı örnek:


# Sıralama
df_sorted = df.sort_values(by="MonthlyIncome", ascending=False)

# Filtreleme
df_filtered = df[df["JobRole"] == "Sales Executive"]

# Dilimleme
df_slice = df.iloc[:10]  # İlk 10 satır

# Transpose (Satır sütun yer değişimi)
df_transposed = df.head(3).transpose()
🔹 2.4 Aggregating
group, merge, summarize, pivot
➡ Uygulamalı örnek:


# Gruplama ve özetleme
df_grouped = df.groupby("Department")["MonthlyIncome"].mean()

# Merge
merged_df = pd.merge(df1, df2, on="EmployeeID", how="left")

# Pivot table
pivot = df.pivot_table(values="MonthlyIncome", index="Department", columns="Education", aggfunc="mean")


Süper kanka! O zaman başlıyoruz:  
## 🛠️ 2.1 ETL Process  
**ETL** → Extract (Çek), Transform (Dönüştür), Load (Yükle)  
Python'da genellikle `pandas` kütüphanesiyle yapılır. Hadi adım adım gidelim 👇

---

### ✅ A. Extract – Veri Kaynağından Çekme  
En yaygın kaynaklar: `.csv`, `.xlsx`, SQL veritabanı

```python
import pandas as pd

# Örnek: CSV dosyasından veri çekme
df = pd.read_csv("HR Data.csv")

# İlk 5 satırı göster
print(df.head())
```

---

### ✅ B. Transform – Veriyi Dönüştürme  
Burada yapılabilecek işlemler:
- NULL değerleri doldurma
- Sütun formatlarını düzeltme
- Gereksiz verileri silme

```python
# Örnek dönüşümler:
df["Age"] = df["Age"].fillna(df["Age"].mean())  # Boş yaşları ortalama ile doldur
df["Department"] = df["Department"].str.strip().str.title()  # Biçim düzeltme
df = df.drop_duplicates()  # Yinelenen satırları sil
```

---

### ✅ C. Load – Veriyi Kaydetme veya Gönderme  
Veriyi başka bir yere aktarabilirsin. Örneğin Excel dosyasına kaydetme:

```python
df.to_excel("temiz_veri.xlsx", index=False)
```

---
pip install openpyxl


In [8]:
pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated packages.


In [1]:
# ### 🧠 Mini Görev:
# Şimdi aşağıdaki görevleri kendi `HR Data.csv` dosyana uygula:

# 1. Dosyayı `pd.read_csv()` ile yükle.
import pandas as pd
df = pd.read_csv("HR Data.csv")

# 2. `EducationField` sütunundaki boşlukları temizleyip title-case yap. 
df["EducationField"] = df["EducationField"].str.strip().str.title

# 3. `DistanceFromHome` sütunundaki boş değerleri ortalama ile doldur.  
df["DistanceFromHome"] = df["DistanceFromHome"].fillna(df["DistanceFromHome"].mean)

# 4. Veriyi `temiz_hr.xlsx` olarak kaydet.
df.to_excel("temiz_hr.xlsx", index = False)