# **1. Gerekli Kütüphanelerin İçe Aktarılması**

İlk olarak, veri analizi ve görselleştirme işlemleri için kullanacağımız `seaborn` ve `pandas` kütüphanelerini içe aktarıyoruz.

In [None]:
import seaborn as sns
import pandas as pd

# **2. Veri Setinin Yüklenmesi**




`seaborn` kütüphanesinin `load_dataset` fonksiyonu ile `tips` adlı veri setini yükleyeceğiz. Bu veri seti, restoranlardaki müşteri siparişlerine dair bilgileri içerir. Özellikle, müşterilerin ödediği toplam hesap tutarı, verdikleri bahşiş, cinsiyetleri, sigara içme durumu, yemek yediği gün ve zaman gibi faktörlere yer verir. Bu veri seti, bahşişlerin çeşitli müşteri özelliklerine göre nasıl değiştiğini analiz etmek için kullanılır.


In [None]:
df = sns.load_dataset("tips")

# **3. Veri Setinin Genel Yapısını Anlama**


## 3.1 Veri Setinin İlk 10 Satırını Görüntüleme


Veri setinin genel yapısını daha iyi anlayabilmek için, ilk 10 satırı görüntüleyeceğiz. Bu işlem, veri setindeki örnek verileri incelememize yardımcı olur.



In [None]:
df.head(10) # veri setinin ilk 10 satırı

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


## 3.2 Veri Setinin Boyutları

Veri setindeki satır ve sütun sayısını görmek için `shape` fonksiyonunu kullanacağız.

In [None]:
df.shape # satır - sütun sayısı

(244, 7)

## 3.3 Veri Setinin Genel Bilgileri

Veri setinin sütun adlarını, her sütunun veri tipini ve bellek kullanımını görmek için `info()` fonksiyonunu kullanacağız.

In [None]:
df.info() #sütun adları ve veri tipleri

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


## 3.4 Eksik Verilerin Kontrolü

Veri setinde her bir sütunda eksik veri olup olmadığını kontrol etmek için `isnull().sum()`  fonksiyonunu kullanacağız.

In [None]:
df.isnull().sum() # her sütun için eksik veri sayısı

Unnamed: 0,0
total_bill,0
tip,0
sex,0
smoker,0
day,0
time,0
size,0


Hiçbir sütunumuzda eksik veri olmadığını görmüş olduk..

# **4. Seçim ve Filtreleme**

## 4.1 total_bill Sütunu 20'den Büyük Olan Kayıtlar


Veri setindeki `total_bill` (toplam hesap) sütununda değeri 20'den büyük olan kayıtları filtreleyeceğiz.

In [None]:
(df[df['total_bill']>20]) # total_bill sütunu 20’den büyük olan kayıtlar

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
7,26.88,3.12,Male,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
237,32.83,1.17,Male,Yes,Sat,Dinner,2
238,35.83,4.67,Female,No,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2


## 4.2 Hem Smoker Olan Hem de Sex = Male Olan Müşteriler

Hem sigara içen (`smoker == 'Yes'`) hem de erkek (`sex == 'Male'`) olan müşterileri filtreleyeceğiz.

In [None]:
(df[(df['smoker'] == 'Yes') & (df['sex'] == 'Male') ]) #Hem smoker olan hem de sex = Male olan müşteriler

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
56,38.01,3.0,Male,Yes,Sat,Dinner,4
58,11.24,1.76,Male,Yes,Sat,Dinner,2
60,20.29,3.21,Male,Yes,Sat,Dinner,2
61,13.81,2.0,Male,Yes,Sat,Dinner,2
62,11.02,1.98,Male,Yes,Sat,Dinner,2
63,18.29,3.76,Male,Yes,Sat,Dinner,4
69,15.01,2.09,Male,Yes,Sat,Dinner,2
76,17.92,3.08,Male,Yes,Sat,Dinner,2
80,19.44,3.0,Male,Yes,Thur,Lunch,2
83,32.68,5.0,Male,Yes,Thur,Lunch,2


### 4.3 Yeni DataFrame Oluşturma

Veri setinden yalnızca belirli sütunları içeren yeni bir DataFrame oluşturacağız. Bu işlem, belirli verileri analiz etmek için veri setini daraltmamıza olanak sağlar.

In [None]:
new_df= df[['total_bill', 'tip', 'day']] #Yalnızca total_bill, tip, day sütunlarını içeren yeni bir DataFrame
print(new_df)

     total_bill   tip   day
0         16.99  1.01   Sun
1         10.34  1.66   Sun
2         21.01  3.50   Sun
3         23.68  3.31   Sun
4         24.59  3.61   Sun
..          ...   ...   ...
239       29.03  5.92   Sat
240       27.18  2.00   Sat
241       22.67  2.00   Sat
242       17.82  1.75   Sat
243       18.78  3.00  Thur

[244 rows x 3 columns]


# **5. Yeni Sütunlar Oluşturma**

### 5.1 Yeni Bir Sütun Oluşturma (tip_rate)

Veri setine yeni bir sütun ekleyerek, her müşterinin bahşişinin (tip) toplam hesap (total_bill) üzerinden oranını hesaplayacağız. Bu yeni sütun, `tip_rate` olarak adlandırılacaktır.

In [None]:
df['tip_rate'] = df['tip'] / df['total_bill'] #tip_rate adında yeni bir sütun oluşturma

In [None]:
df.head() #dataseti görüntüleme

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_rate
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


# **6. Gruplama ve Özetleme**

### 6.1 smoker durumuna göre tip ortalaması

In [None]:
df.groupby("smoker", observed=True)["tip"].mean() #smoker durumuna göre tip ortalamalarını gruplayarak karşılaştırma

Unnamed: 0_level_0,tip
smoker,Unnamed: 1_level_1
Yes,3.00871
No,2.991854


Müşterilerin sigara içme durumuna göre gruplandırarak her grubun ortalama bahşiş miktarı hesaplanmıştır.
Bu sayede sigara içen ve içmeyen müşterilerin bahşiş verme alışkanlıkları karşılaştırılabilir.

### 6.2 day ve time’a göre total_bill ortalaması

In [None]:
df.groupby(["day", "time"], observed=True)["total_bill"].mean() #day ve time’a göre gruplama yaparak total_bill ortalamasını bulma

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill
day,time,Unnamed: 2_level_1
Thur,Lunch,17.664754
Thur,Dinner,18.78
Fri,Lunch,12.845714
Fri,Dinner,19.663333
Sat,Dinner,20.441379
Sun,Dinner,21.41


Veri seti hem gün `day` hem de zaman dilimi `time` bazında gruplandırılmıştır.
Her grup için ortalama hesaplanan total_bill değeri, müşterilerin farklı zamanlarda ne kadar harcama yaptığını analiz etmeye yardımcı olur.

# **7. Sıralama ve Değer Sayımı**

 ### 7.1 En sık gelen günü bulma

In [None]:
df['day'].value_counts().idxmax() #day sütununda en sık gelen gün

'Sat'

**Bu kod parçasında kullanılanlar:**
- `value_counts()` → Sütundaki her bir değerin kaç kez tekrarlandığını sayar ve en çoktan en aza doğru sıralı şekilde döndürür.

- `idxmax()` → Bir serideki en yüksek değere karşılık gelen index’i verir. `value_counts()` ile birlikte kullanıldığında, en sık görülen değeri döndürür.



### 7.2 sex sütunundaki oranları yüzde olarak hesaplama

In [None]:
percentage = df['sex'].value_counts(normalize=True) * 100 #sex sütununda kadın ve erkek oranlarını yüzde (%) olarak hesaplama
print(percentage)

sex
Male      64.344262
Female    35.655738
Name: proportion, dtype: float64


Kadın ve erkek müşterilerin toplam içindeki yüzdelik dağılımı hesaplanmıştır.
Bu sayede cinsiyete göre müşteri oranları kolayca analiz edilebilir.

# **8. CSV Kaydı**

In [None]:
df.to_csv("tips_analiz.csv", index=False) #yeni csv dosyamız

Yapılan tüm analizler ve yeni oluşturulan sütunlar dahil olmak üzere güncellenmiş df DataFrame’i,`tips_analiz.csv ` adıyla dışa aktarılmıştır.

Eline sağlık Elif. Tüm aşamaları tamamlamışsın. Kodlara ve sonuçlara açıklamalar koymaya devam edelimm:)