# **Pandas**

Pandas, Python programlama dili için yüksek performanslı, kullanımı kolay veri yapıları ve veri analizi araçları sağlayan açık kaynaklı, BSD lisanslı bir kütüphanedir.

Pandas, NumFOCUS tarafından destelenmektedir.

## **Kütüphaneyi Tanımlama**

In [2]:
import numpy as np # lineer cebir
import pandas as pd # pandas kütüphanesi tanımlanıyor

## **Pandas Veri Türleri**

Pandas'ta iki tür veri yapısı vardır. Bunlar seri(series) ve veri çerçevesidir(dataframe).

### **Seriler(Series)** 

Seri, tek boyutlu etiketli bir dizidir. İçinde her türlü veriyi barındırabilir.

In [3]:
mySeries = pd.Series([3,-5,7,4], index=['a','b','c','d'])
type(mySeries)

pandas.core.series.Series

### **Veri Çerçevesi(DataFrame)**

Veri çerçevesi(dataframe) iki boyutlu bir veri yapısıdır. Sütunları içerir. Bu eserde veri çevçevesi olarak adlandırmak yerine dataframe olarak kullanacağız bilginiz olsun.

In [4]:
data = {'Country' : ['Belgium', 'India', 'Brazil' ],
        'Capital': ['Brussels', 'New Delhi', 'Brassilia'],
        'Population': [1234,1234,1234]}
datas = pd.DataFrame(data, columns=['Country','Capital','Population'])
print(type(data))
print(type(datas))

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


## **Verileri İçeri Aktarma**

Pandas ile CSV, Excel ve SQL veritabanlarını açabiliriz.

### **CSV(Comma Separated Values / Virgülle Ayrılmış Değerler)**

CSV dosyalarını açıp okumak ve CSV dosyasının üzerine yazmak çok kolaydır.

In [5]:
df = pd.read_csv('../datas/DJIA_table.csv')
type(df)
# Python dosyanız CSV dosyanızla aynı klasörde değilse, bunu aşağıdaki gibi yapmalısınız.
# df = pd.read_csv('/home/desktop/Iris.csv')

pandas.core.frame.DataFrame

### **Excel**

Excel dosyalarıyla çalışmak istediğimizde, aşağıdaki kodu yazmamız gerekir.

In [6]:
# pd.read_excel('dosyaadi')
# pd.to_excel('dir/dataFrame.xlsx', sheet_name='Sheet1')

### **Diğer dosya türleri (json, SQL, table, html)**

In [7]:
# pd.read_sql(query,connection_object) -> Bir SQL tablosundan/veritabanından verileri okur.
# pd.read_table(filename) -> Sınırlandırılmış bir metin dosyasından (TSV gibi) okur.
# pd.read_json(json_string) -> Bir json formatlı dize, URL veya dosyadan okur.
# pd.read_html(url) -> Bir html URL'sini, dizgiyi veya dosyayı ayrıştırır ve tabloları dataframe listesine çıkarır.
# pd.read_clipboard() -> Panonuzun içeriğini alır ve onu read_table () öğesine iletir.
# pd.DataFrame(dict) -> Bir sözlükten, sütun adlarına ilişkin verileri, listeler halinde okur.

## **Veriyi Dışarı Aktarma** 

In [8]:
# df.to_csv(filename) -> CSV dosyası halinde dışarı aktarır.
# df.to_excel(filename) -> Excel dosyası halinde dışarı aktarır.
# df.to_sql(table_name, connection_object) -> SQL tablosu halinde dışarı aktarır.
# df.to_json(filename) -> JSON halinde dışarı aktarır.
# df.to_html(filename) -> HTML tablosu halinde dışarı aktarır.
# df.to_clipboard() -> Clipboard halinde dışarı aktarır.

## **Test Verilerini Oluşturmak**

In [9]:
pd.DataFrame(np.random.rand(20,5)) 
# 5 sütun ve 20 satırı bulunan rastgele kayan noktalı(float) sayılardan oluşan bir dataframe oluşturur.

Unnamed: 0,0,1,2,3,4
0,0.881674,0.656281,0.530675,0.701284,0.745154
1,0.967789,0.361502,0.516868,0.363684,0.692905
2,0.020186,0.246136,0.276501,0.15605,0.610562
3,0.978084,0.771438,0.357285,0.2169,0.605728
4,0.470992,0.136826,0.025263,0.513115,0.355362
5,0.037611,0.968741,0.148456,0.219907,0.811352
6,0.405742,0.105569,0.316834,0.54632,0.783297
7,0.388317,0.875504,0.483557,0.115927,0.220484
8,0.181219,0.213682,0.188712,0.017624,0.993905
9,0.454112,0.676238,0.465122,0.823352,0.728502


## **Veriyi Özetleme**

Pandas ile veriler hakkında bilgi almak kolaydır. Pandas içerisinde bulunan fonksiyonları tek tek inceleyelim.

### **df.info()** 

Bu Kod verilerimiz hakkında detaylı bilgi sunar.

* **RangeIndex:** Kaç tane veri olduğunu belirtir.
* **Data Columns:** Kaç tane sütun bulunduğunu belirtir.
* **Columns:** Sütunlar hakkında bilgi verir.
* **dtypes:** Ne tür verilerimizin olduğunu ve bu verilerden kaç tane bulunduğunu belirtir.
* **Memory Usage:** Hafıza kullanımının ne kadar olduğunu gösterir.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1989 entries, 0 to 1988
Data columns (total 7 columns):
Date         1989 non-null object
Open         1989 non-null float64
High         1989 non-null float64
Low          1989 non-null float64
Close        1989 non-null float64
Volume       1989 non-null int64
Adj Close    1989 non-null float64
dtypes: float64(5), int64(1), object(1)
memory usage: 108.9+ KB


### **df.shape()**

Bu kod bize satır ve sütun sayısını gösterir.

In [11]:
df.shape

(1989, 7)

### **df.index** 

Bu kod bulunan toplam indeks sayısını gösterir.

In [12]:
df.index

RangeIndex(start=0, stop=1989, step=1)

### **df.columns** 

Bu kod, incelediğimiz verilerdeki tüm sütunları gösterir.

In [13]:
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Adj Close'], dtype='object')

### **df.count()**

Bu kod bize her sütunda kaç tane veri olduğunu gösterir.

In [14]:
df.count()

Date         1989
Open         1989
High         1989
Low          1989
Close        1989
Volume       1989
Adj Close    1989
dtype: int64

### **df.sum()**

Bu kod bize her sütundaki verinin toplamını gösterir.

In [15]:
df.sum()

Date         2016-07-012016-06-302016-06-292016-06-282016-0...
Open                                               2.67702e+07
High                                               2.69337e+07
Low                                                2.65988e+07
Close                                               2.6778e+07
Volume                                            323831020000
Adj Close                                           2.6778e+07
dtype: object

### **df.cumsum()**

Bu kod bize verilerin kümülatif toplamını verir.

In [16]:
df.cumsum().head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.2,18002.4,17916.9,17949.4,82160000,17949.4
1,2016-07-012016-06-30,35637.0,35933.0,35628.7,35879.4,215190000,35879.4
2,2016-07-012016-06-302016-06-29,53093.0,53637.5,53084.7,53574.0,321570000,53574.0
3,2016-07-012016-06-302016-06-292016-06-28,70283.5,71047.2,70275.2,70983.8,433760000,70983.8
4,2016-07-012016-06-302016-06-292016-06-282016-0...,87638.7,88402.4,87338.3,88124.0,572500000,88124.0


### **df.min()**

Bu kod verilerimiz içinde bulunan en küçüğünü değeri getirir.

In [17]:
df.min()

Date         2008-08-08
Open            6547.01
High            6709.61
Low             6469.95
Close           6547.05
Volume          8410000
Adj Close       6547.05
dtype: object

### **df.max()**

Bu kod verilerimiz içinde bulunan en büyük değeri getirir.

In [18]:
df.max()

Date         2016-07-01
Open            18315.1
High            18351.4
Low             18272.6
Close           18312.4
Volume        674920000
Adj Close       18312.4
dtype: object

### **idxmin()**

Bu kod verideki en küçük değeri getirir. Seri ve dataframe üzerindeki kullanım farklıdır.

In [19]:
print("df: ",df['Open'].idxmin())
print("series", mySeries.idxmin())

df:  1842
series b


### **idxmax()**

Bu kod verilerdeki en büyük değeri döndürür.

In [20]:
print("df: ",df['Open'].idxmax())
print("series: ",mySeries.idxmax())

df:  282
series:  c


### **df.describe()**

Bu kod verilerle ilgili temel istatistiksel bilgileri sağlar. Sayısal değerlere sahip sütunlar için geçerlidir.

* **count:** verilerin sayısını verir.
* **mean:** verilerin ortalamasını verir.
* **std:** verilerin standart sapmasını verir.
* **min:** en küçük veriyi verir.
* **25%:** birinci dörttebirlik
* **50%:** ortanca veya ikinci dörttebirlik
* **75%:** üçüncü dörttebirlik
* **max:** en büyük veriyi verir.

In [21]:
df.describe()

Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
count,1989.0,1989.0,1989.0,1989.0,1989.0,1989.0
mean,13459.116048,13541.303173,13372.931728,13463.032255,162811000.0,13463.032255
std,3143.281634,3136.271725,3150.420934,3144.006996,93923430.0,3144.006996
min,6547.009766,6709.609863,6469.950195,6547.049805,8410000.0,6547.049805
25%,10907.339844,11000.980469,10824.759766,10913.379883,100000000.0,10913.379883
50%,13022.049805,13088.110352,12953.129883,13025.580078,135170000.0,13025.580078
75%,16477.699219,16550.070312,16392.769531,16478.410156,192600000.0,16478.410156
max,18315.060547,18351.359375,18272.560547,18312.390625,674920000.0,18312.390625


### **df.mean()**

Bu kod, sayısal sütunlar için ortalama değerini gösterir.

In [22]:
df.mean()

Open         1.345912e+04
High         1.354130e+04
Low          1.337293e+04
Close        1.346303e+04
Volume       1.628110e+08
Adj Close    1.346303e+04
dtype: float64

### **df.median()**

Bu kod, sayısal değerlere sahip sütunlar için medyan değerini gösterir.

In [23]:
df.median()

Open         1.302205e+04
High         1.308811e+04
Low          1.295313e+04
Close        1.302558e+04
Volume       1.351700e+08
Adj Close    1.302558e+04
dtype: float64

### **df.quantile([0.25,0.75])**

Bu kod, her sütun için sütunların 0.25 ve 0.75 değerlerini hesaplar.

In [24]:
df.quantile([0.25,0.75])

Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
0.25,10907.339844,11000.980469,10824.759766,10913.379883,100000000.0,10913.379883
0.75,16477.699219,16550.070312,16392.769531,16478.410156,192600000.0,16478.410156


### **df.var()**

Bu kod, her sütun için varyans değerini hesaplar.

In [25]:
df.var()

Open         9.880219e+06
High         9.836200e+06
Low          9.925152e+06
Close        9.884780e+06
Volume       8.821610e+15
Adj Close    9.884780e+06
dtype: float64

### **df.std()**

Bu kod, sayısal olan her sütun için standart sapma değerini hesaplar.

In [26]:
df.std()

Open         3.143282e+03
High         3.136272e+03
Low          3.150421e+03
Close        3.144007e+03
Volume       9.392343e+07
Adj Close    3.144007e+03
dtype: float64

### **df.cummax()**

Bu kod, veriler arasındaki toplam maksimum değeri hesaplar.

In [27]:
df.cummax()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.2,18002.4,17916.9,17949.4,82160000,17949.4
1,2016-07-01,17924.2,18002.4,17916.9,17949.4,133030000,17949.4
2,2016-07-01,17924.2,18002.4,17916.9,17949.4,133030000,17949.4
3,2016-07-01,17924.2,18002.4,17916.9,17949.4,133030000,17949.4
4,2016-07-01,17924.2,18002.4,17916.9,17949.4,138740000,17949.4
...,...,...,...,...,...,...,...
1984,2016-07-01,18315.1,18351.4,18272.6,18312.4,674920000,18312.4
1985,2016-07-01,18315.1,18351.4,18272.6,18312.4,674920000,18312.4
1986,2016-07-01,18315.1,18351.4,18272.6,18312.4,674920000,18312.4
1987,2016-07-01,18315.1,18351.4,18272.6,18312.4,674920000,18312.4


### **df.cummin()**

Bu kod verinin toplam minimum değerini verir.

In [28]:
df.cummin()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.2,18002.4,17916.9,17949.4,82160000,17949.4
1,2016-06-30,17712.8,17930.6,17711.8,17930,82160000,17930
2,2016-06-29,17456,17704.5,17456,17694.7,82160000,17694.7
3,2016-06-28,17190.5,17409.7,17190.5,17409.7,82160000,17409.7
4,2016-06-27,17190.5,17355.2,17063.1,17140.2,82160000,17140.2
...,...,...,...,...,...,...,...
1984,2008-08-14,6547.01,6709.61,6469.95,6547.05,8410000,6547.05
1985,2008-08-13,6547.01,6709.61,6469.95,6547.05,8410000,6547.05
1986,2008-08-12,6547.01,6709.61,6469.95,6547.05,8410000,6547.05
1987,2008-08-11,6547.01,6709.61,6469.95,6547.05,8410000,6547.05


### **df['columnName'].cumproad()**

Bu kod, verilerin toplu üretimini döndürür.

In [29]:
df['Open'].cumprod().head()

0    1.792424e+04
1    3.174878e+08
2    5.542073e+12
3    9.527105e+16
4    1.653449e+21
Name: Open, dtype: float64

### **len(df)**

Bu kod toplam kaç adet veri olduğunu gösterir.

In [30]:
len(df)

1989

### **df.isnull()**

Boş değerleri denetler, boolean bir değer döndürür.

In [31]:
df.isnull().head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False


### **df.corr()**

Veriler arasındaki ilişki(korelasyon) hakkında bilgi verir.

In [32]:
df.corr()

Unnamed: 0,Open,High,Low,Close,Volume,Adj Close
Open,1.0,0.999592,0.999436,0.998991,-0.691621,0.998991
High,0.999592,1.0,0.999373,0.999546,-0.686997,0.999546
Low,0.999436,0.999373,1.0,0.999595,-0.699572,0.999595
Close,0.998991,0.999546,0.999595,1.0,-0.694281,1.0
Volume,-0.691621,-0.686997,-0.699572,-0.694281,1.0,-0.694281
Adj Close,0.998991,0.999546,0.999595,1.0,-0.694281,1.0


## **Seçme & Filtreleme**
    
Pandas ile istediğimiz verileri nasıl seçebileceğimizi ve nasıl getirebileceğimizi öğreneceğiz.

### **mySeries['b']**

Bu kod seri içinde B değeri olan verileri döndürür.

In [33]:
mySeries['b']

-5

### **df[n:n]** 

Bu kod n'den ne'ye kadar olan verileri getir.

In [34]:
df[1982:]
#Or
#df[5:7]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
1982,2008-08-18,11659.650391,11690.429688,11434.120117,11479.389648,156290000,11479.389648
1983,2008-08-15,11611.209961,11709.889648,11599.730469,11659.900391,215040000,11659.900391
1984,2008-08-14,11532.070312,11718.280273,11450.889648,11615.929688,159790000,11615.929688
1985,2008-08-13,11632.80957,11633.780273,11453.339844,11532.959961,182550000,11532.959961
1986,2008-08-12,11781.700195,11782.349609,11601.519531,11642.469727,173590000,11642.469727
1987,2008-08-11,11729.669922,11867.110352,11675.530273,11782.349609,183190000,11782.349609
1988,2008-08-08,11432.089844,11759.959961,11388.040039,11734.320312,212830000,11734.320312


### **df.iloc[[n],[n]]** 

Bu kod, n satırından ve n sütununa kadar olan verileri getirir.

In [35]:
df.iloc[[0],[3]]

Unnamed: 0,Low
0,17916.910156


### **df.loc[n:n]**

Bu kod belirlediğimiz aralıktaki verileri getirir.

In [36]:
#df.loc[n:]
# OR
df.loc[5:7]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
5,2016-06-24,17946.630859,17946.630859,17356.339844,17400.75,239000000,17400.75
6,2016-06-23,17844.109375,18011.070312,17844.109375,18011.070312,98070000,18011.070312
7,2016-06-22,17832.669922,17920.160156,17770.359375,17780.830078,89440000,17780.830078


### **df['columnName']** 

Bu kod ile belirttiğimiz sütunu seçip getirebiliriz.

In [37]:
df['Open'].head()
# OR
# df.Open

0    17924.240234
1    17712.759766
2    17456.019531
3    17190.509766
4    17355.210938
Name: Open, dtype: float64

### **df['columnName'][n]**

Bu kodla istediğimiz sütunun herhangi bir değerini seçebiliriz.

In [38]:
df['Open'][0]
# OR
# df.Open[0]
# df["Open"][1]
# df.loc[1,["Open"]]

17924.240234

### **df['columnName'].nunique()**

Bu kod, seçilen sütunda bulunan verilerin kaç tanesinin tekrarlamadığını gösterir.

In [39]:
df['Open'].nunique()

1980

### **df['columnName'].unique()** 

Bu kod, seçilen sütundaki verilerden hangilerinin tekrar ettiğini gösterir.

In [40]:
df['Open'].unique()
# We can write the above code as follows:: df.Open.unique()

array([17924.240234, 17712.759766, 17456.019531, ..., 11781.700195,
       11729.669922, 11432.089844])

### **df.columnName**

Bu kod, istediğimiz sütunu seçmenin başka bir yoludur. Burada dikkat edilmesi gereken bazı husular mevcuttur. Bunlar;

- Eğer sütun adı "**sutun adi**" şeklinde ise, arada boşluk bulunduğu için bu yöntemde kullanamayız.
- Eğer sütun adında Türkçe karakter mevcut ise sorun çıkartabilir.

In [41]:
df.Open.head()

0    17924.240234
1    17712.759766
2    17456.019531
3    17190.509766
4    17355.210938
Name: Open, dtype: float64

### **df['columnName'].value_counts(dropna =False)** 

Bu kod, belirlediğimiz sütundaki tüm verileri sayar, ancak null/none olan değerleri saymaz.

In [42]:
print(df.Open.value_counts(dropna =True).head())
# OR
# print(df['Item'].value_counts(dropna =False))

17374.779297    2
18033.330078    2
10309.389648    2
17711.119141    2
17812.250000    2
Name: Open, dtype: int64


### **df.head(n)**

Bu kod isteğe bağlı olarak baştan sadece ilk 5 veriyi getirir. n yerine hangi rakamı yazarsak o kadar veri getirir.

In [43]:
df.head()
# OR
# df.head(15)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234


### **df.tail(n)**

Bu kod isteğe bağlı olarak sondan sadece son 5 veriyi getirir. n yerine hangi rakamı yazarsak o kadar veri getirir.

In [44]:
df.tail()
# OR
# df.tail(20)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
1984,2008-08-14,11532.070312,11718.280273,11450.889648,11615.929688,159790000,11615.929688
1985,2008-08-13,11632.80957,11633.780273,11453.339844,11532.959961,182550000,11532.959961
1986,2008-08-12,11781.700195,11782.349609,11601.519531,11642.469727,173590000,11642.469727
1987,2008-08-11,11729.669922,11867.110352,11675.530273,11782.349609,183190000,11782.349609
1988,2008-08-08,11432.089844,11759.959961,11388.040039,11734.320312,212830000,11734.320312


### **df.sample(n)**

Bu kod verimiz arasından rastgele n adet veri getir.

In [45]:
df.sample(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
515,2014-06-17,16779.210938,16823.550781,16732.910156,16808.490234,63530000,16808.490234
1425,2010-11-02,11125.219727,11219.519531,11125.219727,11188.719727,150390000,11188.719727
50,2016-04-21,18092.839844,18107.289062,17963.890625,17982.519531,102720000,17982.519531
759,2013-06-27,14921.280273,15075.009766,14921.280273,15024.490234,113650000,15024.490234
1322,2011-03-31,12350.759766,12381.679688,12319.009766,12319.730469,186140000,12319.730469


### **df.sample(frac=0.5)**

Bu kod rastgele satırların kesirlerini seçer ve verileri bu dereceye kadar getirir.

In [46]:
df.sample(frac=0.5).head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
151,2015-11-24,17770.900391,17862.599609,17683.509766,17812.189453,127170000,17812.189453
1421,2010-11-08,11439.540039,11439.610352,11362.530273,11406.839844,143990000,11406.839844
268,2015-06-10,17765.380859,18045.140625,17765.380859,18000.400391,96980000,18000.400391
477,2014-08-11,16557.269531,16627.990234,16557.269531,16569.980469,65560000,16569.980469
669,2013-11-04,15621.200195,15658.900391,15588.480469,15639.120117,71200000,15639.120117


### **df.nlargest(n,'columnName')**

Bu kod, n adet en büyük değeri belirttiğimiz sütundan getirir.

In [47]:
df.nlargest(5,'Open')

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
282,2015-05-20,18315.060547,18350.130859,18272.560547,18285.400391,80190000,18285.400391
283,2015-05-19,18300.480469,18351.359375,18261.349609,18312.390625,87200000,18312.390625
280,2015-05-22,18286.869141,18286.869141,18217.140625,18232.019531,78890000,18232.019531
281,2015-05-21,18285.869141,18314.890625,18249.900391,18285.740234,84270000,18285.740234
337,2015-03-03,18281.949219,18281.949219,18136.880859,18203.369141,83830000,18203.369141


### **df.nsmallest(n,'columnName')** 

Bu kod, n adet en küçük değeri belirttiğimiz sütundan getirir.

In [48]:
df.nsmallest(3,'Open')

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
1842,2009-03-10,6547.009766,6926.490234,6546.609863,6926.490234,640020000,6926.490234
1844,2009-03-06,6595.160156,6755.169922,6469.950195,6626.939941,425170000,6626.939941
1843,2009-03-09,6625.740234,6709.609863,6516.859863,6547.049805,365990000,6547.049805


### **df[df.columnName < 5]**

Bu kod, belirlediğimiz sütun ismindeki değerler içerisinde 5'ten küçük olanları getirir.

In [49]:
df[df.Open > 18281.949219]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
280,2015-05-22,18286.869141,18286.869141,18217.140625,18232.019531,78890000,18232.019531
281,2015-05-21,18285.869141,18314.890625,18249.900391,18285.740234,84270000,18285.740234
282,2015-05-20,18315.060547,18350.130859,18272.560547,18285.400391,80190000,18285.400391
283,2015-05-19,18300.480469,18351.359375,18261.349609,18312.390625,87200000,18312.390625


### **df[['columnName','columnName']]**

Bu kod, istediğimiz sütunları seçmemize ve listelemimize yarar.

In [50]:
df[['High','Low']].head()
# df.loc[:,["High","Low"]]

Unnamed: 0,High,Low
0,18002.380859,17916.910156
1,17930.609375,17711.800781
2,17704.509766,17456.019531
3,17409.720703,17190.509766
4,17355.210938,17063.080078


### **df.loc[:,"columnName1":"columnName2"]**

Bu kod, columnName1'den columnName2'ye kadar olan sütunları döndürür.

In [51]:
df.loc[:,"Date":"Close"].head()
# OR
# data.loc[:3,"Date":"Close"]

Unnamed: 0,Date,Open,High,Low,Close
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234


### **Filtre Oluştur** 

In [52]:
filters = df.Date > '2016-06-27'
df[filters]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703


### **df.filter(regex = 'code')**

Bu kod, regex yapısını kullanarak istediğimiz şekilde filtreleme işlemi yapmamıza yarar.

In [53]:
df.filter(regex='^L').head()

Unnamed: 0,Low
0,17916.910156
1,17711.800781
2,17456.019531
3,17190.509766
4,17063.080078


### **np.logical_and** 

Mantıksal ve ile filtreleme işlemi yapmamıza yarar.

In [54]:
df[np.logical_and(df['Open']>18281.949219, df['Date']>'2015-05-20' )]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
280,2015-05-22,18286.869141,18286.869141,18217.140625,18232.019531,78890000,18232.019531
281,2015-05-21,18285.869141,18314.890625,18249.900391,18285.740234,84270000,18285.740234


### **& ile filtreleme** 

In [55]:
df[(df['Open']>18281.949219) & (df['Date']>'2015-05-20')]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
280,2015-05-22,18286.869141,18286.869141,18217.140625,18232.019531,78890000,18232.019531
281,2015-05-21,18285.869141,18314.890625,18249.900391,18285.740234,84270000,18285.740234


## **Verileri Sıralama** 

### **df.sort_values('columnName')**

Bu kod, belirttiğimiz sütunu, küçükten büyüğe doğru sıralar.

In [56]:
df.sort_values('Open').head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
1842,2009-03-10,6547.009766,6926.490234,6546.609863,6926.490234,640020000,6926.490234
1844,2009-03-06,6595.160156,6755.169922,6469.950195,6626.939941,425170000,6626.939941
1843,2009-03-09,6625.740234,6709.609863,6516.859863,6547.049805,365990000,6547.049805
1846,2009-03-04,6726.5,6979.220215,6726.419922,6875.839844,464830000,6875.839844
1847,2009-03-03,6764.810059,6855.290039,6705.629883,6726.02002,445280000,6726.02002


### **df.sort_values('columnName', ascending=False)**

Bu kod, büyükten küçüğe doğru sütunu sıralamamıza yarar.

In [57]:
df.sort_values('Date', ascending=False).head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234


### **df.sort_index()**

Bu kod DataFrame indeksine göre küçükten büyüğe doğru sıralam yapar.

In [58]:
df.sort_index().head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234


## **Yeniden Adlandırma & Yeniden Tanımla & Sütun Adını Değiştirme**

### **df.rename(columns= {'columnName' : 'newColumnName'})** 

Bu kod sütun adını değiştirmemize yardımcı olur. Aşağıda yazdığım kod ID değerini değiştiriyor, ancak değişikliği DF değişkenine atamadığımız için, aşağıda gördüğünüz gibi değişmemiş olarak görünüyor.

In [59]:
df.rename(columns= {'Adj Close' : 'Adjclose'}).head()
# df = df.rename(columns= {'Id' : 'Identif'}, inplace=True) -> Doğru Kod
# inplace= True or False; Bu durum veri setinin üzerine yazıp yazmama durumu belirtir.
# Other Way
# df.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'adjclose']

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adjclose
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234


###  **Yeni Sütun Tanımlama** 

Yeni sütun oluşturma

In [60]:
df["Difference"] = df.High - df.Low
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close,Difference
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141,85.470703
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234,218.808594
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688,248.490235
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703,219.210937
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234,292.13086


### **İndeks Adını Değiştir** 

İndeks adını belirttiğimiz şekilde değiştirir.

In [61]:
print(df.index.name)
df.index.name = "index_name"
df.head()

None


Unnamed: 0_level_0,Date,Open,High,Low,Close,Volume,Adj Close,Difference
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,17949.369141,85.470703
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,17929.990234,218.808594
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,17694.679688,248.490235
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,17409.720703,219.210937
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,17140.240234,292.13086


### **Bütün sütunların adını küçük yapma** 

In [62]:
#df.columns = map(str.lower(), df.columns)

### **Bütün sütunların adını büyük yapma**

In [63]:
#df.columns = map(str.upper(), df.columns)

## **Veri Çıkarma**

### **df.drop(columns=['columnName'])** 

Bu kod belirlediğimiz sütunu siler.Ancak burada da inplace değerini belirtmemiz gerekiyor.

In [64]:
df.drop(columns=['Adj Close']).head()
# df = df.drop(columns=['Id']) -> True way
# OR
# df = df.drop('col', axis=1)
# axis = 1 is meaning delete columns
# axis = 0 is meaning delete rows

Unnamed: 0_level_0,Date,Open,High,Low,Close,Volume,Difference
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2016-07-01,17924.240234,18002.380859,17916.910156,17949.369141,82160000,85.470703
1,2016-06-30,17712.759766,17930.609375,17711.800781,17929.990234,133030000,218.808594
2,2016-06-29,17456.019531,17704.509766,17456.019531,17694.679688,106380000,248.490235
3,2016-06-28,17190.509766,17409.720703,17190.509766,17409.720703,112190000,219.210937
4,2016-06-27,17355.210938,17355.210938,17063.080078,17140.240234,138740000,292.13086


### **mySeries.drop(['a'])** 

Bu kod, dizide belirtilen değeri silmemize yarar.

In [65]:
mySeries.drop(['a'])

b   -5
c    7
d    4
dtype: int64

### **Satır Silme** 

In [66]:
# df.drop(['2016-07-01', '2016-06-27'])

### **Veri Silme** 

Not: axis = 1, bir satıra değil bir sütuna işaret ettiğimizi gösterir.

In [67]:
# df.drop('Volume', axis=1)

## **Veri Tiplerini Çevirme** 

### **df.dtypes**

Bu kod hangi sütunların hangi veri tipini olduğunu gösterir. Boolean, int, float, object (String), tarih ve kategorik.

In [68]:
df.dtypes

Date           object
Open          float64
High          float64
Low           float64
Close         float64
Volume          int64
Adj Close     float64
Difference    float64
dtype: object

### **df['columnName'] = df['columnName'].astype('dataType')**

Bu kod, belirlediğimiz sütunu, belirlediğimiz veri türüne dönüştürür.

In [69]:
df.Date.astype('category').dtypes
# OR Convert Datetime
# df.Date= pd.to_datetime(df.Date)

CategoricalDtype(categories=['2008-08-08', '2008-08-11', '2008-08-12', '2008-08-13',
                  '2008-08-14', '2008-08-15', '2008-08-18', '2008-08-19',
                  '2008-08-20', '2008-08-21',
                  ...
                  '2016-06-20', '2016-06-21', '2016-06-22', '2016-06-23',
                  '2016-06-24', '2016-06-27', '2016-06-28', '2016-06-29',
                  '2016-06-30', '2016-07-01'],
                 ordered=False)

### **pd.melt(frame=dataFrameName,id_vars = 'columnName', value_vars= ['columnName'])** 

Bu kod biraz kafa karıştırıcı, bu nedenle örneğe bakalım.

In [70]:
df_new = df.head()
melted = pd.melt(frame=df_new,id_vars = 'Date', value_vars= ['Low'])
melted

Unnamed: 0,Date,variable,value
0,2016-07-01,Low,17916.910156
1,2016-06-30,Low,17711.800781
2,2016-06-29,Low,17456.019531
3,2016-06-28,Low,17190.509766
4,2016-06-27,Low,17063.080078


## **Apply Fonksiyonu**

### **Yöntem 1**

In [71]:
def examples(x):   #create a function
    return x*2

df.Open.apply(examples).head()  #use the function with apply() 

index_name
0    35848.480468
1    35425.519532
2    34912.039062
3    34381.019532
4    34710.421876
Name: Open, dtype: float64

### **Yöntem 2**

In [72]:
df.Open.apply(lambda x: x*2).head()

index_name
0    35848.480468
1    35425.519532
2    34912.039062
3    34381.019532
4    34710.421876
Name: Open, dtype: float64

# **Faydalı Kodlar**

In [73]:
# pd.get_option OR pd.set_option
# pd.reset_option("^display")

# pd.reset_option("display.max_rows")
# pd.get_option("display.max_rows")
# pd.set_option("max_r",102)                 -> Gösterilecek maksimum satır sayısını belirtir.
# pd.options.display.max_rows = 999          -> Gösterilecek maksimum satır sayısını belirtir.

# pd.get_option("display.max_columns")
# pd.options.display.max_columns = 999       -> Görüntülenecek maksimum sütun sayısını belirtir.

# pd.set_option('display.width', 300)

# pd.set_option('display.max_columns', 300)  -> Gösterilecek maksimum satır sayısını belirtir.
# pd.set_option('display.max_colwidth', 500) -> Görüntülenecek maksimum sütun sayısını belirtir.

# pd.get_option('max_colwidth')
# pd.set_option('max_colwidth',40)
# pd.reset_option('max_colwidth')

# pd.get_option('max_info_columns')
# pd.set_option('max_info_columns', 11)
# pd.reset_option('max_info_columns')

# pd.get_option('max_info_rows')
# pd.set_option('max_info_rows', 11)
# pd.reset_option('max_info_rows')

# pd.set_option('precision',7) -> Çıktı görüntüleme hassasiyetini ondalık basamak cinsinden ayarlar. Bu sadece bir öneri.
# OR
# pd.set_option('display.precision',3)

# pd.set_option('chop_threshold', 0) -> Bir DataFrame dizisi görüntülediğinde Pandas'ın sıfıra ne kadar döndüğünü belirler. Bu ayar, numaranın kaydedildiği hassasiyeti değiştirmez.
# pd.reset_option('chop_threshold') 

> Son Güncelleme: 28 Aralık 2019 - Cumartesi