## **List Comprehension ve Pandas Alıştırmalar**


# List Comprehension

### Görev 1: List Comprehension yapısı kullanarak car_crashes verisindeki numeric değişkenlerin isimlerini büyük harfe çeviriniz ve başına NUM ekleyiniz.

Notlar: Numeric olmayan değişkenlerin de isimleri büyümeli.
Tek bir list comprehension yapısı kullanılmalı

In [4]:
import seaborn as sns
import pandas as pd
df=sns.load_dataset("car_crashes")
df.columns

Index(['total', 'speeding', 'alcohol', 'not_distracted', 'no_previous',
       'ins_premium', 'ins_losses', 'abbrev'],
      dtype='object')

In [5]:
#For döngüsü ile
for col in df.columns:
  if df[col].dtype!="O":
    print("NUM_"+ col.upper())
  else:
    print(col.upper())


NUM_TOTAL
NUM_SPEEDING
NUM_ALCOHOL
NUM_NOT_DISTRACTED
NUM_NO_PREVIOUS
NUM_INS_PREMIUM
NUM_INS_LOSSES
ABBREV


In [6]:
#List Comprehension ile
["NUM_"+ col.upper() if df[col].dtype!="O" else col.upper() for col in df.columns]

['NUM_TOTAL',
 'NUM_SPEEDING',
 'NUM_ALCOHOL',
 'NUM_NOT_DISTRACTED',
 'NUM_NO_PREVIOUS',
 'NUM_INS_PREMIUM',
 'NUM_INS_LOSSES',
 'ABBREV']

### Görev 2: List Comprehension yapısı kullanarak car_crashes verisinde isminde "no" barındırmayan değişkenlerin isimlerinin sonuna "FLAG" yazınız.

Notlar: Tüm değişkenlerin isimleri büyük harf olmalı.
Tek bir list comprehension yapısı ile yapılmalı.

In [7]:
[col.upper() + "_FLAG" if "no" not in col else col.upper()  for col in df.columns]

['TOTAL_FLAG',
 'SPEEDING_FLAG',
 'ALCOHOL_FLAG',
 'NOT_DISTRACTED',
 'NO_PREVIOUS',
 'INS_PREMIUM_FLAG',
 'INS_LOSSES_FLAG',
 'ABBREV_FLAG']

### Görev 3: List Comprehension yapısı kullanarak aşağıda verilen değişken isimlerinden FARKLI olan değişkenlerin isimlerini seçiniz ve yeni bir dataframe oluşturunuz.

Notlar: Önce verilen listeye göre list comprehension kullanarak new_cols adında yeni liste oluşturunuz. Sonra df[new_cols] ile bu değişkenleri seçerek yeni bir df oluşturunuz ve adını new_df olarak isimlendiriniz.

In [8]:
og_list = ["abbrev", "no_previous"]

In [9]:
new_cols=[col for col in df.columns if col not in og_list]
new_df=df[new_cols]
new_df.head()

Unnamed: 0,total,speeding,alcohol,not_distracted,ins_premium,ins_losses
0,18.8,7.332,5.64,18.048,784.55,145.08
1,18.1,7.421,4.525,16.29,1053.48,133.93
2,18.6,6.51,5.208,15.624,899.47,110.35
3,22.4,4.032,5.824,21.056,827.34,142.39
4,12.0,4.2,3.36,10.92,878.41,165.63


# Pandas Alıştırmalar

In [10]:
import numpy as np
import seaborn as sns
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

### Görev 1: Seaborn kütüphanesi içerisinden Titanic veri setini tanımlayınız.

In [11]:
df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### Görev 2: Titanic veri setindeki kadın ve erkek yolcuların sayısını bulunuz.

In [12]:
df["sex"].value_counts()

male      577
female    314
Name: sex, dtype: int64

### Görev 3: Her bir sutuna ait unique değerlerin sayısını bulunuz.

In [13]:
df.nunique()

survived         2
pclass           3
sex              2
age             88
sibsp            7
parch            7
fare           248
embarked         3
class            3
who              3
adult_male       2
deck             7
embark_town      3
alive            2
alone            2
dtype: int64

### Görev 4: pclass değişkeninin unique değerleri bulunuz.

In [14]:
df["pclass"].unique()

array([3, 1, 2])

### Görev 5:  pclass ve parch değişkenlerinin unique değerlerinin sayısını bulunuz.

In [15]:
df[["pclass","parch"]].nunique()

pclass    3
parch     7
dtype: int64

### Görev 6: embarked değişkeninin tipini kontrol ediniz. Tipini category olarak değiştiriniz. Tekrar tipini kontrol ediniz.

In [16]:
df["embarked"].dtype

dtype('O')

In [17]:
df["embarked"] = df["embarked"].astype("category")
df["embarked"].dtype

CategoricalDtype(categories=['C', 'Q', 'S'], ordered=False)

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    category
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(3), float64(2), int64(4), object(4)
memory usage: 74.7+ KB


### Görev 7: embarked değeri C olanların tüm bilgelerini gösteriniz.

In [19]:
df[df["embarked"]=="C"].head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
19,1,3,female,,0,0,7.225,C,Third,woman,False,,Cherbourg,yes,True
26,0,3,male,,0,0,7.225,C,Third,man,True,,Cherbourg,no,True
30,0,1,male,40.0,0,0,27.7208,C,First,man,True,,Cherbourg,no,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
34,0,1,male,28.0,1,0,82.1708,C,First,man,True,,Cherbourg,no,False
36,1,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,yes,True
39,1,3,female,14.0,1,0,11.2417,C,Third,child,False,,Cherbourg,yes,False
42,0,3,male,,0,0,7.8958,C,Third,man,True,,Cherbourg,no,True


### Görev 8: embarked değeri S olmayanların tüm bilgelerini gösteriniz.

In [20]:
df[df["embarked"]!="S"].head(10)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
19,1,3,female,,0,0,7.225,C,Third,woman,False,,Cherbourg,yes,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
26,0,3,male,,0,0,7.225,C,Third,man,True,,Cherbourg,no,True
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
30,0,1,male,40.0,0,0,27.7208,C,First,man,True,,Cherbourg,no,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False


### Görev 9: Yaşı 30 dan küçük ve kadın olan yolcuların tüm bilgilerini gösteriniz.

In [21]:
df.loc[(df["age"]<30)&(df["sex"]=="female")].head()

# df[(df["age"]<30) & (df["sex"]=="female")].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True


### Görev 10: Fare'i 500'den büyük veya yaşı 70 den büyük yolcuların bilgilerini gösteriniz.

In [22]:
df.loc[(df["fare"]>500)|(df["age"]>70)].head()

# df[(df["fare"] > 500 ) | (df["age"] > 70 )].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
116,0,3,male,70.5,0,0,7.75,Q,Third,man,True,,Queenstown,no,True
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
493,0,1,male,71.0,0,0,49.5042,C,First,man,True,,Cherbourg,no,True
630,1,1,male,80.0,0,0,30.0,S,First,man,True,A,Southampton,yes,True


### Görev 11: Her bir değişkendeki boş değerlerin toplamını bulunuz.

In [23]:
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### Görev 12: who değişkenini dataframe'den düşürün.

In [24]:
df.drop("who", axis=1, inplace=True)

### Görev 13: deck değişkenindeki boş değerleri deck değişkenin en çok tekrar eden değeri (mode) ile doldurunuz.

In [25]:
df["deck"].mode()[0]

'C'

In [26]:
df["deck"].fillna(df["deck"].mode()[0], inplace=True)
df["deck"].isnull().sum()

0

### Görev 14: age değişkenindeki boş değerleri age değişkenin medyanı ile doldurun.

In [27]:
df["age"].fillna(df["age"].median(), inplace=True)
df.isnull().sum()

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       2
class          0
adult_male     0
deck           0
embark_town    2
alive          0
alone          0
dtype: int64

### Görev 15: survived değişkeninin Pclass ve Cinsiyet değişkenleri kırılımınında sum, count, mean değerlerini bulunuz.

In [28]:
df.groupby(["pclass","sex"]).agg({"survived":["sum","count","mean"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,count,mean
pclass,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,female,91,94,0.968085
1,male,45,122,0.368852
2,female,70,76,0.921053
2,male,17,108,0.157407
3,female,72,144,0.5
3,male,47,347,0.135447


### Görev 16:  30 yaşın altında olanlar 1, 30'a eşit ve üstünde olanlara 0 vericek bir fonksiyon yazınız. Yazdığınız fonksiyonu kullanarak titanik veri setinde age_flag adında bir değişken oluşturunuz. (apply ve lambda yapılarını kullanınız)

In [29]:
def age_30(age):
  if age < 30:
    return 1
  else:
    return 0

df["age_flag"] = df["age"].apply(lambda x : age_30(x))

In [30]:
# df["age_flag"] = df["age"].apply(lambda x: 1 if x<30 else 0)

### Görev 17: Seaborn kütüphanesi içerisinden Tips veri setini tanımlayınız.

In [None]:
df = sns.load_dataset("tips")
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


### Görev 18: Time değişkeninin kategorilerine (Dinner, Lunch) göre total_bill  değerlerinin toplamını, min, max ve ortalamasını bulunuz.

In [None]:
df.groupby("time").agg({"total_bill":["sum","min","max","mean"]})

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill
Unnamed: 0_level_1,sum,min,max,mean
time,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Lunch,1167.47,7.51,43.11,17.168676
Dinner,3660.3,3.07,50.81,20.797159


### Görev 19: Günlere ve time göre total_bill değerlerinin toplamını, min, max ve ortalamasını bulunuz.

In [None]:
df.groupby(["day","time"]).agg({"total_bill":["sum","min","max","mean"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,total_bill,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,min,max,mean
day,time,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Thur,Lunch,1077.55,7.51,43.11,17.664754
Thur,Dinner,18.78,18.78,18.78,18.78
Fri,Lunch,89.92,8.58,16.27,12.845714
Fri,Dinner,235.96,5.75,40.17,19.663333
Sat,Lunch,0.0,,,
Sat,Dinner,1778.4,3.07,50.81,20.441379
Sun,Lunch,0.0,,,
Sun,Dinner,1627.16,7.25,48.17,21.41


### Görev 20: Lunch zamanına ve kadın müşterilere ait total_bill ve tip  değerlerinin day'e göre toplamını, min, max ve ortalamasını bulunuz.

In [None]:
df[(df["time"] == "Lunch") & (df["sex"] == "Female")].groupby("day").agg({"total_bill": ["sum","min","max","mean"],
                                                                           "tip":  ["sum","min","max","mean"]})

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill,tip,tip,tip,tip
Unnamed: 0_level_1,sum,min,max,mean,sum,min,max,mean
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Thur,516.11,8.35,43.11,16.64871,79.42,1.25,5.17,2.561935
Fri,55.76,10.09,16.27,13.94,10.98,2.0,3.48,2.745
Sat,0.0,,,,0.0,,,
Sun,0.0,,,,0.0,,,


### Görev 21: size'i 3'ten küçük, total_bill'i 10'dan büyük olan siparişlerin ortalaması nedir?

In [None]:
df.loc[(df["size"] < 3) & (df["total_bill"] >10 ) , "total_bill"].mean()

17.184965034965035

### Görev 22: total_bill_tip_sum adında yeni bir değişken oluşturun. Her bir müşterinin ödediği totalbill ve tip in toplamını versin.

In [None]:
df["total_bill_tip_sum"] = df["total_bill"] + df["tip"]
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,total_bill_tip_sum
0,16.99,1.01,Female,No,Sun,Dinner,2,18.0
1,10.34,1.66,Male,No,Sun,Dinner,3,12.0
2,21.01,3.5,Male,No,Sun,Dinner,3,24.51
3,23.68,3.31,Male,No,Sun,Dinner,2,26.99
4,24.59,3.61,Female,No,Sun,Dinner,4,28.2


### Görev 23: total_bill_tip_sum değişkenine göre büyükten küçüğe sıralayınız ve ilk 30 kişiyi yeni bir dataframe'e atayınız.

In [None]:
new_df = df.sort_values("total_bill_tip_sum", ascending=False)[:30]
new_df.shape

(30, 8)