In [1]:
import numpy as np
import pandas as pd

### Series
Tek boyutlu diziler olarak tanımlanabilir. İndexleri tamsayı,string, hem tamsayı/hem string gibi farklı türlerde olabilir.

In [50]:
etiketler = ["domates","biber","patlıcan","salatalık","elma"]
degerler = [5,6,8,6,7]

In [51]:
seri = pd.Series(degerler,etiketler)

In [179]:
seri.value_counts() #her bir degerden kaç tane olduğunu döndürür

6    2
7    1
5    1
8    1
dtype: int64

In [180]:
seri.count() #serinin satır sayısını(eleman sayısını) döndür

5

In [181]:
seri.size #serideki toplam eleman sayısını(tek boyutlu olduğu için satır sayısı ile aynı)

5

In [182]:
seri.unique() # serideki benzersiz değerleri liste olarak döndürür
#set(seri) #aynı işlev

array([5, 6, 8, 7], dtype=int64)

In [183]:
seri.nunique() #serideki benzersiz değerlerin sayısını döndürür

4

In [184]:
seri.values #serinin degerlerini verir

array([5, 6, 8, 6, 7], dtype=int64)

In [185]:
seri.index #serinin indexlerini verir

Index(['domates', 'biber', 'patlıcan', 'salatalık', 'elma'], dtype='object')

In [186]:
seri.keys() #bu da indexleri veriyo

Index(['domates', 'biber', 'patlıcan', 'salatalık', 'elma'], dtype='object')

In [187]:
seri.notnull() #null olmayan elemanları veriyor

domates      True
biber        True
patlıcan     True
salatalık    True
elma         True
dtype: bool

In [188]:
seri.is_unique #seride tekrar eden elemanlar var mı

False

In [189]:
seri.sort_values() #veriyi değerlerine göre sıralar

domates      5
biber        6
salatalık    6
elma         7
patlıcan     8
dtype: int64

In [190]:
seri.sort_index() #veriyi indexlerine göre sıralar

biber        6
domates      5
elma         7
patlıcan     8
salatalık    6
dtype: int64

In [191]:
seri.items() #index ve valuesleri zipliyor

<zip at 0x1fd58988748>

In [192]:
dict(seri.items())

{'domates': 5, 'biber': 6, 'patlıcan': 8, 'salatalık': 6, 'elma': 7}

In [193]:
#serinin indexlerini değiştirme
seri.set_axis(np.arange(5),axis="index",inplace=False) #axis=0 veya axis="index" olacak,varsayılan 0
#seri.index = np.arange(5) #aynı işlemi yapar

0    5
1    6
2    8
3    6
4    7
dtype: int64

In [199]:
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [194]:
seri.max() # serideki en büyük degeri bulma
#seri.values.max()

8

In [197]:
seri.values.argmax() #serideki değerlerden en büyüğünün indexsini bulma(tamsayı olarak döndürür)

2

In [198]:
#serideki en büyük degerin idsini verir
seri.idxmax() #direkt olarak atanmış indexi döndürür
#seri.argmax() #da aynı işi yapar ama yukarıdaki tercih edilmeli

'patlıcan'

<b>Seri Oluşturma Yöntemleri</b>

<li>İndexleri vermeden oluşturma</li>

In [217]:
seri = pd.Series(data=degerler) #index degerlerini elle atamazsak kendisi otomatik olarak verir

In [207]:
seri.index #indexleri kendimiz vermezsek indexler bir RangeIndex objesi olarak karşımıza çıkar

RangeIndex(start=0, stop=5, step=1)

<li>İndex vererek oluşturma</li>

In [208]:
seri = pd.Series(data=degerler,index=etiketler)

In [209]:
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [210]:
seri.index #bu sefer indexleri kendimiz atadığımız için RangeIndex objesi oluşturmadı

Index(['domates', 'biber', 'patlıcan', 'salatalık', 'elma'], dtype='object')

<li>Sözlük yapısı ile oluşturma</li>

In [212]:
seri = pd.Series({"bir":1,"iki":2,"üç":3})
seri

bir    1
iki    2
üç     3
dtype: int64

In [216]:
pd.Series(dict(zip(etiketler,degerler)))

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

<b>Serilere Erişme Yöntemleri</b><br/>
İstisnai durumda direkt olarak indexleyici ile erişilirken manuel olarak atanan indexler tamsayı olmasa bile tam sayı ile erişim olabilir fakat bunu tercih etmemek lazım

<li>Direkt olarak indeksleyici ile erişme</li>

In [219]:
seri = pd.Series(degerler,etiketler)
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [220]:
seri["domates"] #verdiğimiz indexlerin adını yazdık

5

In [245]:
#tavsiye edilmez
seri[0] #tüm indexlerimiz str tipinden olduğu için hata vermedi. Ama içinde bir tane tamsayı olsaydı sorun olacaktı

6

<li>loc indeksleyicisi ile erişme</li>
Serilerde loc ile erişim sağlamak normal indexleyici ile erişim yapmakla hemen hemen aynıdır. İndeksleyiciye kendi atadığımız gerçek index değerini gireriz

In [265]:
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [266]:
seri.loc["domates"]

5

In [268]:
#hata
#seri.loc[0]

<li>iloc indeksleyicisi ile erişme</li>
C gibi dillerde olan dizi mantığındaki gibi integer indekslerle (0-n arası) erişimi sağlar

In [270]:
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [269]:
seri.iloc[0]

5

In [271]:
seri.iloc[3]

6

<b>Serileri Bölütleme</b>

In [272]:
seri

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [277]:
#dikkat!! tam sayı indexlerde : ile sınır seçilirken üst sınır alınmıyordu. Burada ise alınıyor(string ile seçtik)
seri["domates":"elma"]

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [279]:
seri.loc["domates":"elma"] #yukarıdaki ile aynı

domates      5
biber        6
patlıcan     8
salatalık    6
elma         7
dtype: int64

In [74]:
seri[0:4] #bunu indexler ne olursa olsun kabul ediyor. İndeksleri 0'dan n kadarmış gibi ele alıyor

domates      5
biber        6
patlıcan     8
salatalık    6
dtype: int64

In [75]:
seri.iloc[0:4] #burada ise 4.indexte bulunan satırı almadı

domates      5
biber        6
patlıcan     8
salatalık    6
dtype: int64

<b>DataFrames</b><br/>
İndexleri aynı olan serilerin birleşmesi ile oluşan yapılardır diyebiliriz. İndexler herhangi bir veri tipinde olabilir. Aynı şekil de sutünlar da. DataFrame fonksiyonu ile oluştururuz.

In [2]:
df = pd.DataFrame(data=np.random.randint(0,50,(3,3)),index=["A","B","C"],columns=["kolon1","kolon2","kolon3"])

In [17]:
df

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9
B,34,15,37
C,38,35,33


<b>1-Kolon adıyla erişme:</b><br/>
degiskenAdi[kolonAdiVeyaAdlari] seklinde kullanılır.
Ayrıca bu tip kullanımda sadece tek bir kolonu çağırabiliriz

In [18]:
df["kolon1"]
#df["A"] #hata: bu kullanımda sadece kolonları çağırabiliriz
#df["kolon1","kolon2"] #hata

A    17
B    34
C    38
Name: kolon1, dtype: int32

In [19]:
#içine sutün adi veya listesi yazınca sütun seçiyordu. Ama slice(:) kullanırsak satır seçiyor
df[:] #tüm satıları çağırır. Kolonlar için de bir kısıtlama olmadığı için tüm veriler çağrılmış olacaktır
#bu kullanımda zaten : ile sütun seçme işlemi yapılamıyor

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9
B,34,15,37
C,38,35,33


İndeksleyici içine bir kez daha [] ile bir liste oluşturarak kolon adlarını yazmadığımız için dönen sonuç seri olacaktır.<br/>

In [20]:
type(df["kolon1"]) 

pandas.core.series.Series

Bir veya birden fazla kolonu seçerek dataframe olarak çağırma:

In [21]:
df[["kolon1"]]

Unnamed: 0,kolon1
A,17
B,34
C,38


In [22]:
type(df[["kolon1"]]) #indeksleyici içine bir liste yazdık. Bu sayede tek bir kolunu çağırmamıza rağmen bize bir dataframe döndü

pandas.core.frame.DataFrame

<b>2-Hem Kolon Adı hem de Satır İndex Adıyla Erişme:</b><br/>
dataframeAdi[kolonAdi][satirAdi] şeklinde erişilir.<br/>
Sadece tek bir elemana erişmek isteniyorsa kullanımı faydalıdır

In [23]:
df

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9
B,34,15,37
C,38,35,33


In [24]:
df["kolon1"]["A"]

17

In [25]:
type(df["kolon1"]["A"])

numpy.int32

In [26]:
df["kolon1"][:] #kolon1 deki tüm satırlara erişme. df["kolon1"] ile aynı sonucu veriyor

A    17
B    34
C    38
Name: kolon1, dtype: int32

In [27]:
df[:][:] #tüm elemanlara erişmek direkt olarak df yazsak da aynı şey olacaktı.

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9
B,34,15,37
C,38,35,33


Hatalı kullanımlar

In [28]:
#df[:]["A"]
#df[["kolon1","kolon2"]]["A"]
#df["kolon1","kolon2"]["A"]

<b>3-Matris tarzı erişim(Satir ve Kolon adlarıyla)</b><br/>
Soldan ilk indeksleyiciye kolon adi degil de satir adi(indeksi) yazilir.<br/>
Olusan bu iki indeksleyici ise bir indeksleyicinin içinde olabilir yada ayrı ayrı yazılabilir.<br/>
dataFrame.loc[[satirAdlari],[sutunAdlari]] veya dataFrame.loc[[satirAdlari]] [[sutunAdlari]] seklinde kullanilir<br/>
Bu kullanımda tamsayılar ile slice(bolme,":") yapılamaz. İstisnai olarak indexlerin de tamsayı olması lazım fakat bunların sırasının doğru olduğunu ve 0'dan başladığını da varsaymak lazım o yüzden kullanmamak daha iyi

In [29]:
df.loc["A"] #series dondu

kolon1    17
kolon2    21
kolon3     9
Name: A, dtype: int32

In [30]:
df.loc[["A"]] #dataframe dondu

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9


In [31]:
df.loc["A"]["kolon1"] #df.loc["A"] bize bir seri dondu onunda "kolon1" indexine erişebildik yani 2 aşamalı bir olay

17

In [32]:
df.loc["A","kolon1"] #tek bir satir ve sutun adi yazacaksak gecerli. Aksi takdirde [] kullanilmali

17

In [33]:
df.loc[["A","B"],["kolon1"]]

Unnamed: 0,kolon1
A,17
B,34


In [39]:
df.loc[["A","B"]][["kolon1"]]

Unnamed: 0,kolon1
A,28
B,49


In [35]:
df.loc[["A","B"],["kolon1","kolon2"]]

Unnamed: 0,kolon1,kolon2
A,17,21
B,34,15


In [36]:
df.loc[:,["kolon1"]] #tum satirlari ve kolon1'i al

Unnamed: 0,kolon1
A,17
B,34
C,38


In [37]:
df.loc[["A"],:] #A satirini ve tum kolonlari al

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9


In [38]:
#df.loc[["A"],0:3] hatali kullanım. Fakat kolon adlari 0-1-2 sayilarini iceriyor ve integer olsaydi sorun olmayacaktı

<b>4-Matris tarzı erişim(Satir ve kolon indeksleriyle)</b><br/>
Diger kullanım senaryolarından farklı olarak indekslerle erişimi sağlar.<br/>
İlk indeksleyici satir indekslerini ikincisi ise sutün indekslerini belirtir<br/>
Sadece satir indeksleyicisini yada her ikisini kullanmak şeklinde 2 alternatif vardır<br/>
dataFrame.iloc[[satirIndeksleri],[sutunIndeksleri]] seklinde kullanilir<br/>
Veya dataFrame.iloc[[satirIndeksleri]] [[sutunIndeksleri]] seklinde<br/>
Python listelerinde olduğu gibi ":"(iki nokta) isareti ile seçim yapılabilir.<br/>
Ornek = df.iloc[baslangic:bitis:adimSayisi] (sadece satir secimi yaptik)<br/>

In [39]:
df.iloc[:,:] #tum dataframe'i cagir

Unnamed: 0,kolon1,kolon2,kolon3
A,17,21,9
B,34,15,37
C,38,35,33


In [40]:
df.iloc[0:2:1,0:2:1] #0'dan 2'ye olan sırasıyla satir ve sutün indislerini 1 adim atlayarak al

Unnamed: 0,kolon1,kolon2
A,17,21
B,34,15


In [41]:
df.iloc[:,[0,1]] #tum satirlari ve 0,1 indisine sahip sutünları al

Unnamed: 0,kolon1,kolon2
A,17,21
B,34,15
C,38,35


<b>Diger İşlemler<b/>

In [42]:
df = pd.DataFrame(data=np.random.randint(0,50,(4,3)),index=["A","B","C","D"],columns=["kolon1","kolon2","kolon3"])
df

Unnamed: 0,kolon1,kolon2,kolon3
A,5,49,23
B,17,47,6
C,9,43,33
D,35,34,32


In [43]:
df["kolon4"] = pd.Series(data=np.random.randn(df.shape[0]),index=df.index)

In [44]:
df

Unnamed: 0,kolon1,kolon2,kolon3,kolon4
A,5,49,23,-1.666398
B,17,47,6,0.688104
C,9,43,33,-0.608394
D,35,34,32,0.744462


In [45]:
df["kolon5"] = df["kolon1"] + df["kolon2"]
df

Unnamed: 0,kolon1,kolon2,kolon3,kolon4,kolon5
A,5,49,23,-1.666398,54
B,17,47,6,0.688104,64
C,9,43,33,-0.608394,52
D,35,34,32,0.744462,69


In [46]:
df = df.drop(labels=["kolon4","kolon5"],axis=1)
df

Unnamed: 0,kolon1,kolon2,kolon3
A,5,49,23
B,17,47,6
C,9,43,33
D,35,34,32


In [47]:
df = df.drop("D",axis=0)
df

Unnamed: 0,kolon1,kolon2,kolon3
A,5,49,23
B,17,47,6
C,9,43,33


In [48]:
df.iloc[0:2][0:2]

Unnamed: 0,kolon1,kolon2,kolon3
A,5,49,23
B,17,47,6


In [2]:
df = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                   'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})

In [3]:
other = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                      'B': ['B0', 'B1', 'B2']})

In [4]:
df

Unnamed: 0,key,A
0,K0,A0
1,K1,A1
2,K2,A2
3,K3,A3
4,K4,A4
5,K5,A5


In [5]:
other

Unnamed: 0,key,B
0,K0,B0
1,K1,B1
2,K2,B2


In [11]:
pd.concat([df,other],axis=1,join="outer")

Unnamed: 0,key,A,key.1,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2
3,K3,A3,,
4,K4,A4,,
5,K5,A5,,


In [19]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])


df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                   'D': ['D2', 'D3', 'D6', 'D7'],
                   'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])

frames = [df1, df2, df3]

result = pd.concat(frames)

In [25]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [26]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [28]:
 pd.concat([df1, df4], axis=1).reindex(df1.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [30]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [33]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [32]:
df1.append(df4, sort=False)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [34]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [37]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

In [38]:
s2

A    X0
B    X1
C    X2
D    X3
dtype: object

In [40]:
df1.append(s2, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


In [41]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [42]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [47]:
pd.concat([df1,df2],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,,,,
4,,,,,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5
6,,,,,A6,B6,C6,D6
7,,,,,A7,B7,C7,D7
