In [1]:
# Pandas'taki anahtar yapı taşları İndeksler, Seriler ve DataFramelerdir.
# Bir İndeks bir etiket dizisidir.
# Series indeks içeren tek boyutlu diziler gibi düşünülebilir.
# DataFrame'ler sütunlarında serileri içeren ve aynı indeksleri paylaşan 2B tablolardır.
# İndeksler immutable dır ve aynı tipte değerler içermek zorundadır.
# DataFrame'de sütun isimleride bir indekstir. Sütun indekslerine isim atamak için df.columns.name
# attributesi kullanılır. Satır indekslerine isim atamak için ise df.index.name attributesi kullanılır

In [14]:
import pandas as pd

data = {'Date':['2016-10-03', '2016-10-03', '2016-10-03',
                '2016-10-04', '2016-10-04', '2016-10-04',
                '2016-10-05', '2016-10-05', '2016-10-05'],
        'Close':[31.50, 112.52, 57.42, 113.00, 57.24,
                 31.35, 57.64, 31.59, 113.05],
        'Volume':[14070500, 21701800, 19189500, 29736800,
                  20085900, 18460400, 16726400, 11808600, 21453100],
        'Symbol':['CSCO', 'AAPL', 'MSFT', 'AAPL', 'MSFT', 
                  'CSCO', 'MSFT', 'CSCO', 'AAPL']}

df = pd.DataFrame(data)
print(df)

         Date   Close    Volume Symbol
0  2016-10-03   31.50  14070500   CSCO
1  2016-10-03  112.52  21701800   AAPL
2  2016-10-03   57.42  19189500   MSFT
3  2016-10-04  113.00  29736800   AAPL
4  2016-10-04   57.24  20085900   MSFT
5  2016-10-04   31.35  18460400   CSCO
6  2016-10-05   57.64  16726400   MSFT
7  2016-10-05   31.59  11808600   CSCO
8  2016-10-05  113.05  21453100   AAPL


In [8]:
# Yukarıdaki DataFrame i incelediğimizde tekrarlanmalar olduğunu görürüz. Tekrarlanmaların
# sebebi Date ve Symbol sütunlarıdır. Bu durumda indeksler her bir sütunu unique olarak 
# tanımlamaz. Tablodaki her bir kaydı unique olarak tanımlayabilmek için Date ve Symbol
# sütunlarından oluşan bir tuple ı indeks olarak kullanabiliriz. 

In [17]:
df = df.set_index(['Symbol', 'Date'])
print(df)

                    Close    Volume
Symbol Date                        
CSCO   2016-10-03   31.50  14070500
AAPL   2016-10-03  112.52  21701800
MSFT   2016-10-03   57.42  19189500
AAPL   2016-10-04  113.00  29736800
MSFT   2016-10-04   57.24  20085900
CSCO   2016-10-04   31.35  18460400
MSFT   2016-10-05   57.64  16726400
CSCO   2016-10-05   31.59  11808600
AAPL   2016-10-05  113.05  21453100


In [10]:
# Yeni indeksi yazdırdığımız zaman multiindex ve ya hiearchical index olduğunu görürüz.
# Birden fazla sütunu olduğu için artık names attributesi kullanılmalıdır.

In [12]:
print(df.index)
print(df.index.names)

MultiIndex(levels=[['AAPL', 'CSCO', 'MSFT'], ['2016-10-03', '2016-10-04', '2016-10-05']],
           labels=[[1, 0, 2, 0, 2, 1, 2, 1, 0], [0, 0, 0, 1, 1, 1, 2, 2, 2]],
           names=['Symbol', 'Date'])
['Symbol', 'Date']


In [15]:
# İndeksler sıralı değildir. İndeksleri sıralayalım

In [18]:
df = df.sort_index()
print(df)

                    Close    Volume
Symbol Date                        
AAPL   2016-10-03  112.52  21701800
       2016-10-04  113.00  29736800
       2016-10-05  113.05  21453100
CSCO   2016-10-03   31.50  14070500
       2016-10-04   31.35  18460400
       2016-10-05   31.59  11808600
MSFT   2016-10-03   57.42  19189500
       2016-10-04   57.24  20085900
       2016-10-05   57.64  16726400


In [19]:
# İndeksleme yaparken artık tuple kullanırız.

In [27]:
print(df.loc[('AAPL', '2016-10-03'),:])

                    Close    Volume
Symbol Date                        
AAPL   2016-10-03  112.52  21701800


In [None]:
# Tuple kullanmazsak ve ya indeksteki tüm sütunları kullanmazsak kullanılmayan sütunun tüm
# değerleri için karşılık düşen kayıtlar döndürülür.

In [43]:
print(df.loc['CSCO'])

            Close    Volume
Date                       
2016-10-03  31.50  14070500
2016-10-04  31.35  18460400
2016-10-05  31.59  11808600


In [49]:
print(df.loc[(['CSCO', 'MSFT'], '2016-10-04'),:])

                   Close    Volume
Symbol Date                       
CSCO   2016-10-04  31.35  18460400
MSFT   2016-10-04  57.24  20085900


In [44]:
print(df.loc['CSCO':'MSFT'])

                   Close    Volume
Symbol Date                       
CSCO   2016-10-03  31.50  14070500
       2016-10-04  31.35  18460400
       2016-10-05  31.59  11808600
MSFT   2016-10-03  57.42  19189500
       2016-10-04  57.24  20085900
       2016-10-05  57.64  16726400


In [51]:
print(df.loc[('AAPL', ['2016-10-03', '2016-10-04']),:])

                    Close    Volume
Symbol Date                        
AAPL   2016-10-03  112.52  21701800
       2016-10-04  113.00  29736800


In [52]:
# Tuple kullandığımız zaman slicing yapamayız. Bunun için slice fonksiyonunu kullanmalıyız

In [55]:
print(df.loc[(slice('CSCO','MSFT'), slice('2016-10-03', '2016-10-04')),:])

                   Close    Volume
Symbol Date                       
CSCO   2016-10-03  31.50  14070500
       2016-10-04  31.35  18460400
MSFT   2016-10-03  57.42  19189500
       2016-10-04  57.24  20085900
