## 📚 `tips` Veri Seti – Pandas Uygulamalı Ödev

### ✅ Adım 0: Veri Setini Yükle

In [38]:
import seaborn as sns
import pandas as pd

df = sns.load_dataset("tips")

### 📌 1. Temel Gözlemler

In [39]:
# 1. Veri setinin ilk 10 satırı
print(df.head(10))

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
5       25.29  4.71    Male     No  Sun  Dinner     4
6        8.77  2.00    Male     No  Sun  Dinner     2
7       26.88  3.12    Male     No  Sun  Dinner     4
8       15.04  1.96    Male     No  Sun  Dinner     2
9       14.78  3.23    Male     No  Sun  Dinner     2


In [40]:
# 2. Satır ve sütun sayısı
print("Satır sayısı:", df.shape[0])
print("Sütun sayısı:", df.shape[1])

Satır sayısı: 244
Sütun sayısı: 7


In [41]:
# 3. Sütun adları ve veri tipleri
print(df.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object


In [42]:
# 4. Eksik veri kontrolü
print(df.isnull().sum())

total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64


### 📌 2. Seçim ve Filtreleme

In [43]:
# 5. total_bill > 20
high_total_bill = df[df['total_bill'] > 20]
print(high_total_bill)

     total_bill   tip     sex smoker  day    time  size
2         21.01  3.50    Male     No  Sun  Dinner     3
3         23.68  3.31    Male     No  Sun  Dinner     2
4         24.59  3.61  Female     No  Sun  Dinner     4
5         25.29  4.71    Male     No  Sun  Dinner     4
7         26.88  3.12    Male     No  Sun  Dinner     4
..          ...   ...     ...    ...  ...     ...   ...
237       32.83  1.17    Male    Yes  Sat  Dinner     2
238       35.83  4.67  Female     No  Sat  Dinner     3
239       29.03  5.92    Male     No  Sat  Dinner     3
240       27.18  2.00  Female    Yes  Sat  Dinner     2
241       22.67  2.00    Male    Yes  Sat  Dinner     2

[97 rows x 7 columns]


In [44]:
# 6. Hem smoker hem de cinsiyeti Male olanlar
male_smokers = df[(df['smoker'] == 'Yes') & (df['sex'] == 'Male')]
print(male_smokers)

     total_bill    tip   sex smoker   day    time  size
56        38.01   3.00  Male    Yes   Sat  Dinner     4
58        11.24   1.76  Male    Yes   Sat  Dinner     2
60        20.29   3.21  Male    Yes   Sat  Dinner     2
61        13.81   2.00  Male    Yes   Sat  Dinner     2
62        11.02   1.98  Male    Yes   Sat  Dinner     2
63        18.29   3.76  Male    Yes   Sat  Dinner     4
69        15.01   2.09  Male    Yes   Sat  Dinner     2
76        17.92   3.08  Male    Yes   Sat  Dinner     2
80        19.44   3.00  Male    Yes  Thur   Lunch     2
83        32.68   5.00  Male    Yes  Thur   Lunch     2
90        28.97   3.00  Male    Yes   Fri  Dinner     2
95        40.17   4.73  Male    Yes   Fri  Dinner     4
96        27.28   4.00  Male    Yes   Fri  Dinner     2
97        12.03   1.50  Male    Yes   Fri  Dinner     2
98        21.01   3.00  Male    Yes   Fri  Dinner     2
105       15.36   1.64  Male    Yes   Sat  Dinner     2
106       20.49   4.06  Male    Yes   Sat  Dinne

In [45]:
# 7. Yalnızca 'total_bill', 'tip', 'day' sütunlarını içeren DataFrame oluşturma
df_selected = df[['total_bill', 'tip', 'day']]
print(df_selected.head())

   total_bill   tip  day
0       16.99  1.01  Sun
1       10.34  1.66  Sun
2       21.01  3.50  Sun
3       23.68  3.31  Sun
4       24.59  3.61  Sun


### 📌 3. Yeni Sütunlar Oluşturma

In [46]:
# 10. tip_rate = tip / total_bill
df['tip_rate'] = df['tip'] / df['total_bill']
print(df[['total_bill', 'tip', 'tip_rate']].head())

   total_bill   tip  tip_rate
0       16.99  1.01  0.059447
1       10.34  1.66  0.160542
2       21.01  3.50  0.166587
3       23.68  3.31  0.139780
4       24.59  3.61  0.146808


### 📌 4. Gruplama ve Özetleme

In [47]:
# 11. `smoker` durumuna göre `tip` ortalamaları
avg_tip_by_smoker = df.groupby('smoker')['tip'].mean()
print(avg_tip_by_smoker)

smoker
Yes    3.008710
No     2.991854
Name: tip, dtype: float64


  avg_tip_by_smoker = df.groupby('smoker')['tip'].mean()


In [48]:
# 12. day ve time’a göre gruplama ile total_bill ortalaması
avg_bill_by_day_time = df.groupby(['day', 'time'])['total_bill'].mean()
print(avg_bill_by_day_time)

day   time  
Thur  Lunch     17.664754
      Dinner    18.780000
Fri   Lunch     12.845714
      Dinner    19.663333
Sat   Lunch           NaN
      Dinner    20.441379
Sun   Lunch           NaN
      Dinner    21.410000
Name: total_bill, dtype: float64


  avg_bill_by_day_time = df.groupby(['day', 'time'])['total_bill'].mean()


### 📌 5. Sıralama ve Değer Sayımı

In [49]:
# 13. `day` sütununda en sık gelen gün
most_common_day = df['day'].value_counts().idxmax()
print("En sık gelen gün:", most_common_day)

En sık gelen gün: Sat


In [50]:
# 14. Sex sütunundaki kadın erkek oranları (%)
sex_percentage = df['sex'].value_counts(normalize=True) * 100
print(sex_percentage)

sex
Male      64.344262
Female    35.655738
Name: proportion, dtype: float64


### 📌 6. CSV Kaydı

In [51]:
# 15. CSV olarak kaydetme
df.to_csv("tips_analiz.csv", index=False)