# Kisa Bir Ozet

- Yerel doayalar
    * [CSV](https://en.wikipedia.org/wiki/Comma-separated_values), [Excel](https://en.wikipedia.org/wiki/Office_Open_XML), [**arrow**](https://arrow.apache.org/), [**parquet**](https://parquet.apache.org/)
- Veri Tabani
    * [SQL](https://en.wikipedia.org/wiki/SQL), [DuckDB](https://duckdb.org/), [pymongo](https://pypi.org/project/pymongo/), [rdbms](https://pypi.org/project/rdbms/)
- Agac Yapida Veriler
    * [json](https://docs.python.org/3/library/json.html), [xmltodict](https://pypi.org/project/xmltodict/), [HDF](https://www.h5py.org/)
-    API'ler



# Veri Temizlemeye Hizli bir Giris

Veri keşfi, verinin doğasını anlamak, potansiyel düzensizlikleri tespit etmek ve sonraki analitik süreçlere hazırlık amacıyla ayrıntılı bir analiz yapmayı içerir. Diğer yandan, veri temizleme, çeşitli veri anormalliklerini düzeltmeyi içerir; bu, eksik değerleri ele alma, gereksiz verileri kaldırma ve verinin birliğini sağlama gibi adımları içerir.

### Veri İnceleme

Veri inceleme konusundaki yetenek, veri setinin yapısını anlamak için temel bir kavrayışa sahip olmak için esastır. Bu yetenek, `head()`, `tail()`, `info()`, `describe()` ve `shape` öznitelikleri gibi temel yöntemleri kullanarak elde edilir. Bu yöntemler, veri kümesi hakkında kritik bilgiler sağlar, bunlar arasında ilk ve son veri kayıtları, veri tipi bilgisi, özet istatistikler ve veri setinin boyutları bulunur.

Verileri incelemek için daha önceden [pandas-profiling](https://pypi.org/project/pandas-profiling/) olunan bilinen [ydata-profiling](https://pypi.org/project/ydata-profiling/) isminde şahane bir paket mevcut.

### Veri Türü Dönüşümü

Veri türü dönüşümü hakkında temel bir anlayış, veri tiplerini analitik görevlerin belirli gereksinimleriyle uyumlu hale getirmek için gereklidir. Bu, `astype()` yöntemini ustaca kullanmayı içerir, böylece veri temsil doğruluğunu artırır ve bellek kaynaklarını optimize eder.

### Eksik ve Tekrarlanan Veri İşleme

Bir veri setindeki eksik verilerle başa çıkmanın önemini anlamak önemlidir. Bu, `isna()` ve `isnull()` gibi yöntemler kullanılarak gerçekleştirilen eksik veri örneklerini tanıma tekniklerini ustalaşmayı gerektirir. Ayrıca, eksik verilerle etkili bir şekilde başa çıkmak, `dropna()`, `fillna()` veya eksik değerleri doldurmak için tasarlanmış yöntemlerin ustaca uygulanmasını içerir.

Eksik verilerin yanı sıra, tekrarlanan veri girişlerini tanımlamak ve ardından bunları kaldırmak da önemlidir. Bu amaçla, `duplicated()` ve `drop_duplicates()` gibi teknikler vazgeçilmezdir. Çift gözlemlerin ortadan kaldırılması kritiktir, çünkü bunların varlığı analitik prosedürlerin sonuçlarını bozabilir ve veri odaklı sonuçların doğruluğunu tehlikeye atabilir.

Ayrıca, alan bazlı elde edilen verilerde bazen NA ve NULL şeklinde olmayabilir. Örneğin, sensör verilerinin kayıt edildiği bir makinede sinyalin zayıf olduğunda 9999 gibi kod atayabilir. Bu gibi durumlarda da eksik veri olarak değerlenirilmelidir. Bu amac icin `replace()` gibi teknikler kullanilabilir.

## Veri Üzerinde Yapılan İşlemler

Veri analizinde, karmaşıklığı veya boyutu ne olursa olsun herhangi bir veri koleksiyonuna uygulanabilen dört temel kategoriye ait işlemleri bulunmaktadır. Bu temel veri işlemlerini gerçekleştirmek için iki temel yaklaşımı kullanabiliriz: Python'da veri manipülasyonu için zengin bir ekosistem sunan Pandas kütüphanesi ve DuckDB gibi bir veritabanı sisteminin yardımıyla SQL.

```python
# Python icinde sql gonderme
import duckdb
con = duckdb.connect('data')
con.query("""
  select State, Measure, sum(Value) as "Number of Passengers" from data
         where Date >= '2022-01-01' 
               and Date <= '2022-12-31'
         group by State, Measure
         order by "Number of Passengers" desc;
""")
```

```python
# Ayni calisma alanina yukledikten sonra pandas ile yapma
import pandas
data=pd.read_csv("data")
data.query("Date>='2022-01-01' and Date<='2022-12-31'")[['Value','State','Measure']].groupby(['State','Measure']).sum().sort_values(by='Value', ascending=False)

```


1. **Birleştirme (Merging)**: Bu işlem, iki veya daha fazla farklı veri kaynağının birleştirilerek tutarlı ve birleşik bir veri kümesine dönüştürülmesini içerir. Birleştirme sayesinde, farklı kaynaklardan gelen bilgiler bir araya getirilir ve temel verinin daha kapsamlı bir şekilde analiz edilmesine ve anlaşılmasına olanak tanır. Bu, genellikle concatenation, joining veya union gibi çeşitli teknikler kullanılarak gerçekleştirilebilir.

   ```python
   import pandas as pd

   # Load customer and purchase data
   customers = pd.read_csv('customer_data.csv')
   purchases = pd.read_csv('purchase_history.csv')

   # Merge the data using a common key (e.g., Customer ID)
   merged_data = pd.merge(customers, purchases, on='CustomerID')
   ```
   
   ```sql
   -- Merge the data using a common key (CustomerID)
   SELECT *
   FROM customers
   INNER JOIN purchases ON customers.CustomerID = purchases.CustomerID;
   ```

2. **Filtreleme (Filtering)**: Veri genellikle önceden belirlenmiş kriterlere dayanarak belirli öğeleri seçerek düzenlenmelidir. Filtreleme, belirli koşulları karşılayan ilgili veriyi izole etme mekanizması olarak hizmet eder. Bu süreç, bir veri kümesinden değerli içgörüler çıkarmak ve gürültüyü ve ilgisiz bilgileri ortadan kaldırmak için önemlidir.

   ```python
   # Filter purchases for the year 2022
   filtered_data = merged_data[merged_data['Year'] == 2022]
   ```

   ```sql
   -- Filter purchases for the year 2022
   SELECT *
   FROM merged_data
   WHERE Year = 2022;
   ```

3. **Gruplama (Grouping)**: Gruplama, veriyi paylaşılan özelliklere veya niteliklere göre alt kümeler veya alt koleksiyonlara düzenleme imkanı sağlar. Bu işlem, veriyi farklı hiyerarşik seviyelerde analiz etmek veya belirli kategoriler içinde eğilimleri gözlemlemek için özellikle faydalıdır. Veri desenleri ve ilişkilerinin yapılandırılmış bir şekilde incelenmesine olanak tanır.

   ```python
   # Group data by 'ProductCategory' and calculate total sales
   grouped_data = filtered_data.groupby('ProductCategory')['SalesAmount'].sum()
   ```

   ```sql
   -- Group data by ProductCategory and calculate total sales
   SELECT ProductCategory, SUM(SalesAmount) AS TotalSales
   FROM filtered_data
   GROUP BY ProductCategory;
   ```

4. **Fonksiyonları Uygulama (Applying Functions)**: Bir veri koleksiyonuna fonksiyonların uygulanması, mevcut veriden yeni bilgiler çıkarmak, veriyi dönüştürmek veya manipüle etmek için kullanılan çok yönlü bir tekniktir. Fonksiyonlar özel olarak oluşturulmuş veya önceden tanımlanmış olabilir ve çeşitli veri işleme görevleri için hesaplama motoru olarak hizmet eder. Bu fonksiyonlar matematiksel operasyonlardan karmaşık veri dönüşümlerine kadar çeşitli işlemleri kapsayabilir.

   ```python
   # Define a custom function to calculate profit margin
   def calculate_profit_margin(row):
       return (row['Profit'] / row['Revenue']) * 100

   # Apply the custom function to each row
   grouped_data['ProfitMargin'] = grouped_data.apply(calculate_profit_margin, axis=1)
   ```

    ```sql
   -- Apply the custom function to calculate profit margin
   SELECT ProductCategory, SUM(Profit) AS TotalProfit, SUM(Revenue) AS TotalRevenue,
          CalculateProfitMargin(SUM(Profit), SUM(Revenue)) AS ProfitMargin
   FROM grouped_data
   GROUP BY ProductCategory;
   ```

## Why Feature Engineering ?: Gizli Desenleri Ortaya Çıkarmak

**Özellik Mühendisliği**, ham verilerden yeni özellikler oluşturma sürecini kapsayan bir şemsiye terimdir. Veri ön işlemede önemli bir adım olan bu süreç, bilgide hemen göze çarpmayan gizli kalıpları ve ilişkileri ortaya çıkarmaya yardımcı olur. 

Özellik mühendisliği, makine öğrenimi modellerinin performansını artırmak ve verilerdeki gizli kalıpları ortaya çıkarmak amacıyla yeni özellikler oluşturma veya mevcut özellikleri dönüştürme sürecidir. Bu, alan bilgisi, matematiksel dönüşümler ve mevcut özelliklerin kombinasyonları dahil olmak üzere çeşitli teknikler kullanılarak gerçekleştirilebilir. Etkili bir şekilde yapıldığında, özellik mühendisliği, veri analizinden elde edilen içgörülerin kalitesini önemli ölçüde artırabilir ve algoritmaların verilerdeki karmaşık ilişkileri öğrenmesini kolaylaştırabilir.

#### Feature Improvement 

Yapılandırılmış veri setlerinde genellikle mevcut sayısal özellikleri iyileştirmek için kullanılan 

- boş değerleri doldurma
    * Nominal veya ordinal veri tipleri: mode
    * Aralık ya da oran veri tipleri: ortalama, medyan vb
- standartlaştırma
- normalleştirme

gibi teknikleri içerir.

<img src="../images/feature-improvement.png" alt="drawing" width="600"/>

#### Feature Construction

Mevcut verilere, başka özelliklere dönüştürerek ya da başka kaynaklardan yeni özellikler eklenerek genişletilmesidir. Buna örnek olarak, kategorik verilere yapılan one-hot-encoding tekniği verilebilir. Tam tersi, yani sayısal verileri ayrıklaştırma ile de gruplara dönüştürülebilir. Diger taraftan, alan bilgisi kullanilarak  mevcut ozelliklerden uzerinde uygulanan teknikler (feature1/feature2) ve uygulanan matematiksel donusumler bu baslik altina girebilir.
<img src="../images/feature-construction.png" width=500 > <img src="../images/feature-construction-1.png" width=500/>


#### Feature Selection

Makine öğrenimi işleri, verinin tüm özelliklerden eşit şekilde faydalanamayabilir. Özellik seçimi, var olan bir özellik kümesinden en uygun olanları seçme sürecini ifade eder. Bu süreç, modelin öğrenmesi gereken toplam özellik sayısını azaltmayı ve özelliklerin birbirine bağımlı olma olasılığını azaltmayı hedefler. Eğer bağımlı özelliklerle karşılaşılırsa, modelimizde karışıklıklara neden olabilecek özelliklerle karşılaşma riski ortaya çıkar ve bu genellikle genel performansta kötü sonuçlara yol açabilir. Bu kısmı detaylı bir şekilde inceleceyeğiz.

<img src="../images/feature-selection.png" alt="drawing" width="700"/>

#### Feature Extraction

**Boyut Azaltma/Projeksiyonlar**: Bazen sahip olduğumuz veriler, hangi özelliğin önemli olduğu net olmadığı için deskriptif istatistikleri kullanılamaz hale getiren çok fazla özellik içerebilir. Ayrıca, çok sayıda özellik, verilerin görselleştirilmesini imkansız hale getirir. Bu gibi durumlarda, Temel Bileşen Analizi (Principal Component Analysis-PCA) ve Doğrusal Ayırıcı Analizi (Linear Discriminant Analysis-LDA) gibi farklı projeksiyon seçeneklerine bakarak özellik sayısını azaltabiliriz. 
 
Boyut azaltma, önemli bilgileri korurken bir veri setindeki özellik sayısını azaltmayı amaçlar. Bu, yüksek boyutlu verilerle ilişkili sorunları (örneğin artan hesaplama karmaşıklığı veya boyutun büyük olması nedeniyle model performansın azalması gibi) halletmeye yardımcı olur. PCA, gözetimsiz boyut azaltma için yaygın olarak kullanılırken, LDA özellikle sınıflandırma görevleri için faydalı olan gözetimli bir tekniktir.

<img src="../images/feature-extraction.png" alt="drawing" width="700"/>

#### Feature Learning

Feature learning, bazen representation learning olarak da adlandırılır ve feature extraction ile benzerdir çünkü ham, yapılandırılmamış veriden, örneğin metin, resimler ve videolardan otomatik olarak bir özellik kümesi oluşturmaya çalışır. Ancak, Feature learning, orijinal temel verinin şekli hakkında hiçbir varsayım yapmayan (nonparametrik) bir derin öğrenme modeli uygulanarak gerçekleştirilir ve bu sayede orijinal verinin gizli bir temsilini otomatik olarak keşfetmeyi amaçlar. Örneğin;

    - Generative Adversarial Networks
    - Autoencoders
    - Restricted Boltzmann Machines

Diğer taraftan, düzenli satırlara ve sütunlara organize edilmiş olan yapılandırılmış verilerin aksine, yapısal olmayan verilerin makine tarafından okunabilir bir formata dönüştürülmesi için özel yöntemler gerekir. Örneğin, görüntü dosyaları piksel değerleri dizileri olarak temsil edilebilir ve metin verileri, Bag-of-Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF) veya Word Embeddings gibi teknikler kullanılarak kodlanabilir. Görüntü, metin ve ses gibi yapısal olmayan verilerin kodlamasını başlı başlına birer ders içeriği olarak düşünebilirsiniz. 
<img src="../images/feature-learning.png" alt="drawing" width="700"/>