# Python Temelleri : Listeler ve Sözlükler

## 📌 Hatırlayalım : Listeler 
Python'da listeler, sıralı, değiştirilebilir (mutable) ve birden fazla veri türünü aynı anda depolayabilen koleksiyonlardır.

In [1]:
my_list = [2,3.0,'Mehmet',True]
print(my_list)

[2, 3.0, 'Mehmet', True]


In [2]:
my_list[0]

2

## ⚠️ Hatırlayalım : Sözlükler 
Python'da sözlükler (dictionaries), anahtar-değer çiftlerinden oluşan veri yapılarıdır. Sözlüklerde her anahtar (key) benzersiz olmalıdır ve her anahtar bir değere (value) karşılık gelir.

In [7]:
my_dict = {'isim': 'Ali', 'yaş': 25, 'şehir': 'Bursa'}
print(my_dict['isim'])

Ali


In [8]:
print(my_dict['yaş'])

25


In [10]:
my_dict['yaş'] = 30  
print(my_dict)

{'isim': 'Ali', 'yaş': 30, 'şehir': 'Bursa'}


# 🐼 Pandas'a Giriş
Bu notebook'ta Pandas kütüphanesini tanıyacak, temel veri yapısı olan DataFrame ile çalışmayı öğreneceğiz.

## 📘 Pandas Nedir?
Pandas, Python'da veri analizi ve veri işleme için kullanılan popüler bir kütüphanedir.

In [12]:
# pandas kütüphanesini içe aktar
import pandas as pd

## ✦ DataFrame Nedir?
Bir DataFrame, satırlar ve sütunlardan oluşan, Excel benzeri bir veri yapısıdır.

In [78]:
my_dict = {'isim': 'Ali', 
           'yaş': 25, 
           'şehir': 'Bursa'}

pd.DataFrame(my_dict)
# hata olur; dizi değil, tek değer !!

ValueError: If using all scalar values, you must pass an index

In [77]:
my_dict = {'isim': ['Ali'], 
           'yaş': [25], 
           'şehir': ['Bursa']}

In [75]:
df = pd.DataFrame(my_dict)
df

Unnamed: 0,isim,yaş,şehir
0,Ali,25,Bursa


In [2]:
# Basit bir DataFrame oluşturalım
df = pd.DataFrame({
    'İsim': ['Ali', 'Ayşe', 'Mehmet'],
    'Yaş': [25, 30, 22],
    'Şehir': ['Ankara', 'İstanbul', 'Bursa']
})

# DataFrame'i görüntüleyelim
df

Unnamed: 0,İsim,Yaş,Şehir
0,Ali,25,Ankara
1,Ayşe,30,İstanbul
2,Mehmet,22,Bursa


## ✦ Series Nedir?
Python'da Series, Pandas kütüphanesinin sağladığı, tek boyutlu bir veri yapısıdır. Series, genellikle bir etiket (index) ile ilişkilendirilmiş bir dizi veriyi depolar. Her eleman, bir index (etiket) ile eşleşir, bu da verilere kolayca erişim sağlar.

In [87]:
data = [10, 20, 30, 40, 50]
series = pd.Series(data) 

In [88]:
print(series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [60]:
print(pd.Series(['Ahmet', 'Mehmet', 'Ali']))

0     Ahmet
1    Mehmet
2       Ali
dtype: object


In [61]:
df["survived"]

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

In [62]:
type(df['survived'])

pandas.core.series.Series

In [63]:
# DataFrame'deki her sütun aslında bir Series objesidir

## 📂 CSV Dosyasından Veri Okuma

In [160]:
# Titanic veri setini internetten yükleyelim
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## 🔍 Veri Setini Tanıyalım

In [92]:
# İlk birkaç satıra bakalım
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [162]:
# Sayısal özet bilgileri
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [163]:
# Veri tipi bilgisi
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


In [164]:
df.shape 
# 891 sütun, 15 satırdan oluşuyor demek

(891, 15)

## 🧮 Sütun Seçme ve Filtreleme

In [165]:
# 'age' sütununu seç
ages = df["age"]

# Yaşı 30'dan büyük olanları filtrele
older_than_30 = df[df['age'] > 30]

In [166]:
older_than_30.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True


In [167]:
# Birden fazla sütun seçme 
coklu = df[["age","sex"]]
coklu.head()

Unnamed: 0,age,sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


In [168]:
# Veri tipine göre sütun seçme
df_num = df.select_dtypes(include=["int64", "float64"])

In [169]:
df_num.head()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
0,0,3,22.0,1,0,7.25
1,1,1,38.0,1,0,71.2833
2,1,3,26.0,0,0,7.925
3,1,1,35.0,1,0,53.1
4,0,3,35.0,0,0,8.05


In [170]:
# Sütundaki benzersiz değerleri döndürür
df["embark_town"].unique()

array(['Southampton', 'Cherbourg', 'Queenstown', nan], dtype=object)

In [172]:
# Sütundaki benzersiz değerlerin sayısını(frekansını) döndürür
df["embark_town"].value_counts()

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

## ❗ Eksik Verilerle Çalışmak

In [173]:
df['age'].describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: age, dtype: float64

In [174]:
# Eksik verileri kontrol et
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [175]:
# Eksik yaşları ortalama ile doldur
df['age'] = df['age'].fillna(df['age'].mean())

In [176]:
df['age'].describe()

count    891.000000
mean      29.699118
std       13.002015
min        0.420000
25%       22.000000
50%       29.699118
75%       35.000000
max       80.000000
Name: age, dtype: float64

## ➕ Yeni Sütun Eklemek

In [128]:
df['geminin_adi'] = 'Titanic'
# tüm satırlara aynı değer girilir

In [129]:
# 'age_group' isminde yeni bir sütun oluşturalım
bins = [0, 18, 40, 60, 100] # aralıklar 
labels = ['Çocuk', 'Genç', 'Yetişkin', 'Yaşlı'] # etiketler 
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
df[['age', 'age_group']].head()

# yaşları 'age' sütununa göre gruplara ayırır.

Unnamed: 0,age,age_group
0,22.0,Genç
1,38.0,Genç
2,26.0,Genç
3,35.0,Genç
4,35.0,Genç


In [58]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_group,geminin_adi
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,Genç,Titanic
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,Genç,Titanic
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,Genç,Titanic
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,Genç,Titanic
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,Genç,Titanic


## 📊 Gruplama ile Özetleme

In [144]:
# Cinsiyete göre yaş ortalaması
df.groupby('sex')['age'].mean()

sex
female    28.216730
male      30.505824
Name: age, dtype: float64

In [148]:
# çoklu birleştirme. cinsiyet ve sınıfa göre yaş ortalaması
df.groupby(['sex', 'class'])['age'].mean()

sex     class 
female  First     34.141405
        Second    28.748661
        Third     24.068493
male    First     39.287717
        Second    30.653908
        Third     27.372153
Name: age, dtype: float64

In [37]:
import seaborn as sns
diamonds = sns.load_dataset("diamonds")
df = diamonds.copy()
import pandas as pd

In [38]:
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(3), float64(6), int64(1)
memory usage: 3.0 MB


In [40]:
df["cut"].unique()

['Ideal', 'Premium', 'Good', 'Very Good', 'Fair']
Categories (5, object): ['Ideal', 'Premium', 'Very Good', 'Good', 'Fair']

In [41]:
df["cut"] = df["cut"].astype(pd.CategoricalDtype(categories = ["Fair", "Ideal", "Good", "Very Good", "Premium"], ordered = True))

In [42]:
df["price"] = df["price"].astype("float64")

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  float64 
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(3), float64(7)
memory usage: 3.0 MB
