 # DataFrame
 
 DataFrame'ler, verileri tablo şeklinde düzenlememizi sağlar. Satırlar genellikle gözlemleri (örneğin, öğrenciler), sütunlar ise değişkenleri (örneğin, notlar, isimler) temsil eder.



Sütun İşlemleri: Yeni sütunlar ekleyebilir, mevcut sütunları silebilir veya güncelleyebilirsiniz.
İstatistiksel Hesaplamalar: Ortalama, standart sapma gibi istatistiksel hesaplamalar yapabilirsiniz.
Sıralama: Verileri belirli bir sütuna göre sıralayabilirsiniz.
Filtreleme: Belirli koşulları sağlayan satırları seçebilirsiniz.

### DataFrame Oluşturma

In [34]:
import pandas as pd
import numpy as np

In [35]:
ogr = {
    'isim': ['Arda', 'Beyza', 'Cansu', 'Deniz', 'Eda'],
    'yazili': [78,36,75,45,73],
    'sozlu': [56,75,34,87,56]
}

for (key, value) in ogr.items():
  print(f'{key}: {value}')

isim: ['Arda', 'Beyza', 'Cansu', 'Deniz', 'Eda']
yazili: [78, 36, 75, 45, 73]
sozlu: [56, 75, 34, 87, 56]


In [36]:
type(ogr)

dict

In [37]:
ogrenci_df = pd.DataFrame(ogr)
print(ogrenci_df)

    isim  yazili  sozlu
0   Arda      78     56
1  Beyza      36     75
2  Cansu      75     34
3  Deniz      45     87
4    Eda      73     56


In [38]:
print(type(ogrenci_df))

<class 'pandas.core.frame.DataFrame'>


#### Rastgele Sayılarla DataFrame Oluşturma

In [39]:
data = np.random.rand(10, 4) # NumPy ile 10 satır, 4 sütundan oluşan, 0-1 arası rastgele sayılar içeren bir NumPy array'i oluşturur.
columns_listesi = ['A', 'B', 'C', 'D'] # Sütun isimlerini tutan bir liste oluşturur.
df = pd.DataFrame(data, columns = columns_listesi) # array'i ve sütun isimlerini kullanarak bir Pandas DataFrame'i oluşturur.
print(df)

          A         B         C         D
0  0.306834  0.848288  0.083864  0.335796
1  0.357860  0.155776  0.243216  0.674781
2  0.325227  0.025559  0.639218  0.827873
3  0.650697  0.884297  0.763886  0.484099
4  0.213542  0.964397  0.071900  0.138626
5  0.975952  0.689350  0.525058  0.287679
6  0.834355  0.014801  0.470824  0.850838
7  0.707924  0.602319  0.287275  0.277148
8  0.372177  0.330616  0.271581  0.551263
9  0.681124  0.369769  0.426571  0.292683


### Yeni Sütun Ekleme

In [40]:
ogrenci_df = pd.DataFrame(ogr, columns=['isim', 'yazili','sozlu', 'ortalama'])
print(ogrenci_df)

    isim  yazili  sozlu ortalama
0   Arda      78     56      NaN
1  Beyza      36     75      NaN
2  Cansu      75     34      NaN
3  Deniz      45     87      NaN
4    Eda      73     56      NaN


In [41]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [42]:
print(ogrenci_df['ortalama'][4])

66.2


##### Bir başka yeni sütun ekleme

In [43]:
ogrenci_df['numara'] = 0

print (ogrenci_df)

    isim  yazili  sozlu  ortalama  numara
0   Arda      78     56      69.2       0
1  Beyza      36     75      51.6       0
2  Cansu      75     34      58.6       0
3  Deniz      45     87      61.8       0
4    Eda      73     56      66.2       0


### Sütun Silme

In [44]:
ogrenci_df = ogrenci_df.drop('numara', axis=1)
print (ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


### Verilere Erişme

 .loc: Etiketlere göre seçim yapar.
.iloc: Numaralı indekslere göre seçim yapar.

In [45]:
s = pd.Series(list("abcdef"), index=[49, 48, 47, 0, 1, 2]) 
print (s)

print (s.loc[0])    # value at index label 0
print (s.iloc[0])   # value at index location 0

49    a
48    b
47    c
0     d
1     e
2     f
dtype: object
d
a


In [46]:
print(ogrenci_df.loc[4])

isim         Eda
yazili        73
sozlu         56
ortalama    66.2
Name: 4, dtype: object


In [47]:
print (ogrenci_df.iloc[4])

isim         Eda
yazili        73
sozlu         56
ortalama    66.2
Name: 4, dtype: object


In [48]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df['ortalama'][4])
print(ogrenci_df)

66.2
    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [49]:
print (ogrenci_df)

    isim  yazili  sozlu  ortalama
0   Arda      78     56      69.2
1  Beyza      36     75      51.6
2  Cansu      75     34      58.6
3  Deniz      45     87      61.8
4    Eda      73     56      66.2


In [50]:
ogrenci_df['ortalama'] = ogrenci_df['yazili'] * 0.6 + ogrenci_df['sozlu'] * 0.4
print(ogrenci_df['ortalama'][4])
print ()
print (ogrenci_df["ortalama"])
print ()
print (ogrenci_df[["ortalama", "isim"]])

66.2

0    69.2
1    51.6
2    58.6
3    61.8
4    66.2
Name: ortalama, dtype: float64

   ortalama   isim
0      69.2   Arda
1      51.6  Beyza
2      58.6  Cansu
3      61.8  Deniz
4      66.2    Eda


In [51]:
basarili_ogrenciler = ogrenci_df[ogrenci_df['ortalama']>66]
print(basarili_ogrenciler)

   isim  yazili  sozlu  ortalama
0  Arda      78     56      69.2
4   Eda      73     56      66.2


In [52]:
ogrenci_df

Unnamed: 0,isim,yazili,sozlu,ortalama
0,Arda,78,56,69.2
1,Beyza,36,75,51.6
2,Cansu,75,34,58.6
3,Deniz,45,87,61.8
4,Eda,73,56,66.2


### DataFrame Methodlar

#### Copying A DataFrame

In [53]:
df2 = df.copy()
df2

Unnamed: 0,A,B,C,D
0,0.306834,0.848288,0.083864,0.335796
1,0.35786,0.155776,0.243216,0.674781
2,0.325227,0.025559,0.639218,0.827873
3,0.650697,0.884297,0.763886,0.484099
4,0.213542,0.964397,0.0719,0.138626
5,0.975952,0.68935,0.525058,0.287679
6,0.834355,0.014801,0.470824,0.850838
7,0.707924,0.602319,0.287275,0.277148
8,0.372177,0.330616,0.271581,0.551263
9,0.681124,0.369769,0.426571,0.292683


In [54]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
                                 index=['a', 'b', 'c', 'd', 'e'],
                                 columns=['c1', 'c2', 'c3'])

df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


#### Kolon Ekleme

In [55]:
df['c4'] = np.nan
df

Unnamed: 0,c1,c2,c3,c4
a,0,1,2,
b,3,4,5,
c,6,7,8,
d,9,10,11,
e,12,13,14,


#### Satır Ekleme

In [56]:
df.loc['f'] = np.arange(15, 19)
df

Unnamed: 0,c1,c2,c3,c4
a,0,1,2,
b,3,4,5,
c,6,7,8,
d,9,10,11,
e,12,13,14,
f,15,16,17,18.0


In [57]:
df.loc['g'] = np.nan
df

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


#### Değer Ekleme

In [58]:
df['c5'] = np.nan
df
# Yanlış yöntem
# df['c4']['a'] = 20
# Doğru yöntem
df.loc['a', 'c4'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


#### Uyarı Mesajı ve Çözümü

Aldığımız uyarı mesajı Chained Assignment (Zincirleme Atama) Uyarısı: Kodda, bir veri çerçevesindeki (DataFrame) bir sütunu güncellemek için birden fazla adımda atama işlemi yapıldığında örneğin, önce sütunu seçip ardından bu seçili sütuna yeni değerler atandığında, gelecekteki Pandas sürümlerinde (özellikle 3.0 ve sonrası) beklenmedik sonuçlara yol açabileceğini belirtiyor. ÇünküPandas 3.0 sürümünden itibaren, bu zincirlenmiş atama yöntemi artık orijinal veri çerçevesini güncellemeyecek bunun yerine, yeni bir kopya oluşturacak ve değişiklikler bu kopya üzerinde yapılacaktır. Bu durum, beklenmedik sonuçlara ve hatalara yol açabilir.
Uyarı mesajında önerildiği gibi, df.loc[row_indexer, "col"] = values şeklinde tek adımda atama işlemi yapmanız önerilir. Bu sayede, hem orijinal veri çerçevesi güncellenir hem de gelecekteki Pandas sürümlerinde de sorun yaşamazsınız. Örnek uygulama:

In [59]:
import pandas as pd

dataf = pd.DataFrame({'col1': [1, 2, 3]})
print (dataf)
# Yanlış (Zincirlenmiş Atama):
# dataf["col1"] = dataf["col1"] * 2

# Doğru (Tek Adımda Atama):
dataf.loc[:, "col1"] = dataf["col1"] * 2
print (dataf)

   col1
0     1
1     2
2     3
   col1
0     2
1     4
2     6


### Eksik Değerler ve Manipülasyonları

df.isnull(): This part creates a new DataFrame with the same dimensions as df. Each element in the new DataFrame is True if the corresponding element in df is null (missing or NaN), and False otherwise.

.sum(): This method is applied to the new DataFrame.
It sums the values in each column, treating True as 1 and False as 0.

In [60]:
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [61]:
print (df)

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   NaN   NaN   NaN   NaN NaN


In [62]:
df.isnull().sum().sum()

15

In [63]:
df.c4.dropna() # filters the c4 column of the DataFrame df and removes rows containing null values.

a    20.0
f    18.0
Name: c4, dtype: float64

df.dropna(): This function is used to remove rows or columns containing null values.

how="all": This parameter specifies that a column will be dropped only if all of its values are null. If any value in a column is non-null, the column will be retained.

axis=1": This parameter indicates that the operation should be performed on the columns of the DataFrame. If axis=0, the operation would be performed on the rows.

In [64]:
df.dropna(how="all", axis=1) # removes columns from the DataFrame df that contain only null values.

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


In [65]:
df.dropna(how="all", axis=0)

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


In [66]:
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

KeyError: 'g'

In [None]:
df2.dropna(how="any", axis=1) # # removes columns from the DataFrame if contains any null values.

Unnamed: 0,c1,c3
a,0.0,2.0
b,3.0,5.0
c,6.0,8.0
d,9.0,11.0
e,12.0,14.0
f,15.0,17.0
g,0.0,0.0


In [None]:
filled = df.fillna(0) # Fills null values with O
filled

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,0.0
b,3.0,4.0,5.0,0.0,0.0
c,6.0,7.0,8.0,0.0,0.0
d,9.0,10.0,11.0,0.0,0.0
e,12.0,13.0,14.0,0.0,0.0
f,15.0,16.0,17.0,18.0,0.0
g,0.0,0.0,0.0,0.0,0.0


In [None]:
df.mean() # Sütunların ortalama değerin

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

- df.mean() sadece sayısal sütunlarda çalışır. 
- Metin veya kategorik verilerde kullanılamaz.
- Eğer DataFrame'de eksik değerler (NaN) varsa, df.mean() bu değerleri dikkate almaz ve hesaplama yaparken onları atlar.
- Eğer tüm sütunların ortalamasını almak isterseniz, df.mean() kullanabilirsiniz. Belirli bir sütunun ortalamasını almak için ise df['sütun_adı'].mean() şeklinde kullanabilirsiniz.

In [None]:
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

DataFrame'indeki eksik değerleri (NaN) o sütunun ortalaması ile doldurur. Yani, her bir sütündaki eksik değerler, o sütündaki tüm sayısal değerlerin ortalaması ile değiştirilir.

df.mean(): Bu kısım, DataFrame'deki tüm sayısal sütunların ortalamalarını hesaplar ve bir Series (seri) olarak döndürür. Bu seri, her bir sütunun ortalamasını içerir.
df.fillna(): Bu kısım ise, DataFrame'deki eksik değerleri belirtilen bir değerle doldurmak için kullanılır. Bu durumda, df.mean() ile elde edilen ortalamalar serisi buraya parametre olarak verilir.
Birlikte Çalışması: Öncelikle her sütunun ortalaması hesaplanır. Sonra DataFrame'deki her bir eksik değer, ait olduğu sütunun ortalaması ile değiştirilir.

Neden Kullanılır?

Eksik Veri Problemi: Eksik veriler, veri analizinde sorunlara neden olabilir. Bu kod, eksik verileri tahmini bir değerle doldurarak bu sorunu çözmeye yardımcı olur.
Veri Temizleme: Veri setini daha temiz ve tutarlı hale getirmek için kullanılır.
Makine Öğrenmesi: Makine öğrenmesi modellerinin çalışabilmesi için verinin eksiksiz olması genellikle gereklidir. Bu kod, eksik verileri doldurarak modelleri eğitmeye hazır hale getirir.
Dikkat Edilmesi Gerekenler:

Tüm Eksik Değerler Aynı Değerle Doldurulur: Bu yöntem, tüm eksik değerler için aynı yaklaşımı kullanır. Ancak bazı durumlarda, farklı sütunlar için farklı doldurma yöntemleri daha uygun olabilir.
Yanlış Tahminler: Eğer eksik verilerin oluşma nedeni sistematik bir hata ise, ortalama ile doldurma yanlış sonuçlara neden olabilir.
Diğer Doldurma Yöntemleri: Ortalama yerine medyan, mod veya daha gelişmiş yöntemler (örneğin, k-nearest neighbors) de kullanılabilir.
Özetle:

df.fillna(df.mean()) kodu, Pandas DataFrame'lerindeki eksik değerleri o sütunun ortalaması ile doldurmak için kullanılan pratik bir yöntemdir. Ancak, her veri setinde en uygun doldurma yönteminin seçilmesi önemlidir.

In [None]:
df.fillna(df.mean())

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,19.0,
c,6.0,7.0,8.0,19.0,
d,9.0,10.0,11.0,19.0,
e,12.0,13.0,14.0,19.0,
f,15.0,16.0,17.0,18.0,
g,7.5,8.5,9.5,19.0,


Aşağıdaki kod, df DataFrame'indeki c4 sütunundaki eksik değerleri (NaN), kendinden önceki (yukarıdaki) ilk geçerli değerle doldurur. Yani, bir eksik değer gördüğünde, hemen üstündeki dolu olan hücrenin değerini alır ve eksik değerin yerine yazar.

Adım Adım Açıklama:

df.c4: Bu kısım, df DataFrame'indeki c4 sütununu seçer.
fillna(method="ffill"): Bu kısım, seçilen sütündaki eksik değerleri doldurmak için kullanılır.
method="ffill": Bu parametre, eksik değerlerin nasıl doldurulacağını belirtir. "ffill" (forward fill) yöntemi, eksik değerleri yukarıdan aşağıya doğru doldurur. Yani, bir eksik değer gördüğünde, hemen üstündeki dolu olan hücrenin değerini alır.

Neden Kullanılır?

Zaman Serileri: Zaman serilerinde, eksik değerler genellikle önceki değerin devamı olduğu varsayımıyla doldurulur.
Sıralı Veriler: Verilerin bir sırası veya birbiriyle ilişkili olduğu durumlarda, bu yöntem anlamlı sonuçlar verebilir.
Eksik Verilerin Doğrusal Olduğu Durumlar: Eğer eksik değerler, eksik olmayan değerlerin ortasında bulunuyorsa ve genel eğilim doğrusalsa, bu yöntem iyi sonuçlar verebilir.
Dikkat Edilmesi Gerekenler:

Yanlış Tahminler: Eğer eksik değerlerin oluşma nedeni rastgele veya düzensiz ise, bu yöntem yanlış tahminlere neden olabilir.
Başlangıçtaki Eksik Değerler: İlk satırdaki bir değer eksikse, "ffill" yöntemi bu değeri dolduramaz.
Diğer Doldurma Yöntemleri: "bfill" (backward fill), "interpolate" gibi farklı doldurma yöntemleri de kullanılabilir.

In [67]:
# df.c4.fillna(method="ffill")
# Yukarıdaki Series.fillna with 'method' is deprecated and will raise in a future version. Use obj.ffill() or obj.bfill() instead. uyarısı veriyor.

df.c4.ffill()

a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64

In [69]:
# Also use bfill(), backfill, yani bir sonraki değer ile geridekini doldurur.
df.c4.bfill()

a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64