 # DataFrame
 
 DataFrame'ler, verileri tablo şeklinde düzenlememizi sağlar. Satırlar genellikle gözlemleri (örneğin, öğrenciler), sütunlar ise değişkenleri (örneğin, notlar, isimler) temsil eder.



Sütun İşlemleri: Yeni sütunlar ekleyebilir, mevcut sütunları silebilir veya güncelleyebilirsiniz.
İstatistiksel Hesaplamalar: Ortalama, standart sapma gibi istatistiksel hesaplamalar yapabilirsiniz.
Sıralama: Verileri belirli bir sütuna göre sıralayabilirsiniz.
Filtreleme: Belirli koşulları sağlayan satırları seçebilirsiniz.

### DataFrame Oluşturma

In [37]:
import pandas as pd
import numpy as np

In [38]:
ogr = {
    'isim': ['Arda', 'Beyza', 'Cansu', 'Deniz', 'Eda'],
    'yazili': [78,36,75,45,73],
    'sozlu': [56,75,34,87,56]
}

for (key, value) in ogr.items():
  print(f'{key}: {value}')

isim: ['Arda', 'Beyza', 'Cansu', 'Deniz', 'Eda']
yazili: [78, 36, 75, 45, 73]
sozlu: [56, 75, 34, 87, 56]


In [39]:
type(ogr)

dict

In [40]:
ogrenci_df = pd.DataFrame(ogr)
print(ogrenci_df)

    isim  yazili  sozlu
0   Arda      78     56
1  Beyza      36     75
2  Cansu      75     34
3  Deniz      45     87
4    Eda      73     56


In [41]:
print(type(ogrenci_df))

<class 'pandas.core.frame.DataFrame'>


#### Rastgele Sayılarla DataFrame Oluşturma

In [42]:
data = np.random.rand(10, 4) # NumPy ile 10 satır, 4 sütundan oluşan, 0-1 arası rastgele sayılar içeren bir NumPy array'i oluşturur.
columns_listesi = ['A', 'B', 'C', 'D'] # Sütun isimlerini tutan bir liste oluşturur.
df = pd.DataFrame(data, columns = columns_listesi) # array'i ve sütun isimlerini kullanarak bir Pandas DataFrame'i oluşturur.
print(df)

          A         B         C         D
0  0.106429  0.792372  0.895782  0.978998
1  0.799625  0.001388  0.267975  0.905963
2  0.529317  0.064241  0.910996  0.199902
3  0.459486  0.209693  0.270248  0.646463
4  0.928700  0.464962  0.780383  0.540616
5  0.648785  0.756749  0.246593  0.370682
6  0.219467  0.610199  0.568940  0.323929
7  0.667674  0.592047  0.654910  0.450046
8  0.224115  0.071831  0.870334  0.709686
9  0.776220  0.636530  0.496374  0.910583


### Yeni Sütun Ekleme

In [43]:
ogrenci_df = pd.DataFrame(ogr, columns=['isim', 'yazili','sozlu', 'ortalama'])
print(ogrenci_df)

    isim  yazili  sozlu ortalama
0   Arda      78     56      NaN
1  Beyza      36     75      NaN
2  Cansu      75     34      NaN
3  Deniz      45     87      NaN
4    Eda      73     56      NaN


In [44]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [45]:
print(ogrenci_df['ortalama'][4])

66.2


##### Bir başka yeni sütun ekleme

In [46]:
ogrenci_df['numara'] = 0

print (ogrenci_df)

    isim  yazili  sozlu  ortalama  numara
0   Arda      78     56      69.2       0
1  Beyza      36     75      51.6       0
2  Cansu      75     34      58.6       0
3  Deniz      45     87      61.8       0
4    Eda      73     56      66.2       0


### Sütun Silme

In [47]:
ogrenci_df = ogrenci_df.drop('numara', axis=1)
print (ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


### Verilere Erişme

 .loc: Etiketlere göre seçim yapar.
.iloc: Numaralı indekslere göre seçim yapar.

In [48]:
s = pd.Series(list("abcdef"), index=[49, 48, 47, 0, 1, 2]) 
print (s)

print (s.loc[0])    # value at index label 0
print (s.iloc[0])   # value at index location 0

49    a
48    b
47    c
0     d
1     e
2     f
dtype: object
d
a


In [49]:
print(ogrenci_df.loc[4])

isim         Eda
yazili        73
sozlu         56
ortalama    66.2
Name: 4, dtype: object


In [50]:
print (ogrenci_df.iloc[4])

isim         Eda
yazili        73
sozlu         56
ortalama    66.2
Name: 4, dtype: object


In [51]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df['ortalama'][4])
print(ogrenci_df)

66.2
    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [52]:
print (ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [53]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df['ortalama'][4])
print ()
print (ogrenci_df["ortalama"])
print ()
print (ogrenci_df[["ortalama", "isim"]])

66.2

0    69.2
1    51.6
2    58.6
3    61.8
4    66.2
Name: ortalama, dtype: float64

   ortalama   isim
0      69.2   Arda
1      51.6  Beyza
2      58.6  Cansu
3      61.8  Deniz
4      66.2    Eda


In [54]:
basarili_ogrenciler = ogrenci_df[ogrenci_df['ortalama']>66]
print(basarili_ogrenciler)

   isim  yazili  sozlu  ortalama
0  Arda      78     56      69.2
4   Eda      73     56      66.2


In [55]:
ogrenci_df

Unnamed: 0,isim,yazili,sozlu,ortalama
0,Arda,78,56,69.2
1,Beyza,36,75,51.6
2,Cansu,75,34,58.6
3,Deniz,45,87,61.8
4,Eda,73,56,66.2


### DataFrame Methodlar

In [56]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
                                 index=['a', 'b', 'c', 'd', 'e'],
                                 columns=['c1', 'c2', 'c3'])

df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


#### Kolon Ekleme

In [57]:
df['c4'] = np.nan
df

Unnamed: 0,c1,c2,c3,c4
a,0,1,2,
b,3,4,5,
c,6,7,8,
d,9,10,11,
e,12,13,14,


#### Satır Ekleme

In [58]:
df.loc['f'] = np.arange(15, 19)
df

Unnamed: 0,c1,c2,c3,c4
a,0,1,2,
b,3,4,5,
c,6,7,8,
d,9,10,11,
e,12,13,14,
f,15,16,17,18.0


In [59]:
df.loc['g'] = np.nan
df

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


#### Değer Ekleme

In [62]:
df['c5'] = np.nan
df
# Yanlış yöntem
# df['c4']['a'] = 20
# Doğru yöntem
df.loc['a', 'c4'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


#### Uyarı Mesajı ve Çözümü

Aldığımız uyarı mesajı Chained Assignment (Zincirleme Atama) Uyarısı: Kodda, bir veri çerçevesindeki (DataFrame) bir sütunu güncellemek için birden fazla adımda atama işlemi yapıldığında örneğin, önce sütunu seçip ardından bu seçili sütuna yeni değerler atandığında, gelecekteki Pandas sürümlerinde (özellikle 3.0 ve sonrası) beklenmedik sonuçlara yol açabileceğini belirtiyor. ÇünküPandas 3.0 sürümünden itibaren, bu zincirlenmiş atama yöntemi artık orijinal veri çerçevesini güncellemeyecek bunun yerine, yeni bir kopya oluşturacak ve değişiklikler bu kopya üzerinde yapılacaktır. Bu durum, beklenmedik sonuçlara ve hatalara yol açabilir.
Uyarı mesajında önerildiği gibi, df.loc[row_indexer, "col"] = values şeklinde tek adımda atama işlemi yapmanız önerilir. Bu sayede, hem orijinal veri çerçevesi güncellenir hem de gelecekteki Pandas sürümlerinde de sorun yaşamazsınız. Örnek uygulama:

In [61]:
import pandas as pd

dataf = pd.DataFrame({'col1': [1, 2, 3]})
print (dataf)
# Yanlış (Zincirlenmiş Atama):
# dataf["col1"] = dataf["col1"] * 2

# Doğru (Tek Adımda Atama):
dataf.loc[:, "col1"] = dataf["col1"] * 2
print (dataf)

   col1
0     1
1     2
2     3
   col1
0     2
1     4
2     6
