# Pandas

- Panel Data, kesit veri ve zaman serisi verilerinin bir arada olduğu veri türüdür.
- Numpy'in özelliklerini kullanır. Numpy'dan farklı olarak daha esnek kullanım sağlar.
- Veri manipulasyonu ve veri analizi için yazılmış açık kaynak kodlu bir Python kütüphanesidir.
- Ekonometrik ve finalsal çalışmalar için doğmuştur.
- Temeli 2008 yılında atılmıştır.
- R DataFrame yapısını Python dünyasına taşımış ve DataFrame'ler üzerinde hızlı ve etkili çalışabilme imkanı sağlamıştır.
- Birçok farklı veri tipini okuma ve yazma imkanı sağlar.

## İçerik 
1. [Pandas Serisi Oluşturmak](#1)
    1. [Series Özellikleri](#2)
    1. [Series Eleman İşlemleri](#3)
1. [Pandas DataFrame Oluşturma](#4)
    1. [DataFrame Özellikleri](#5)
    1. [DataFrame Eleman İşlemleri](#6)
1. [Koşullu Eleman İşlemleri](#7)
1. [Join İşlemleri](#8)
1. [Aggregation & Grouping](#9)
    1. [Gruplama İşlemleri](#10)
    1. [Aggregate & Filter & Transform & Apply](#11)
1. [Pivot Tablolar](#12)
1. [Dış Kaynaklı Veri Okuma](#13)
1. [Mülakat Soruları ve Cevapları](#14)
1. [Kaynaklar](#15)

<a id=1></a>
## Pandas Serisi Oluşturmak

In [1]:
import pandas as pd

In [2]:
# Numpy arrayler benzer.
# Farkı veriyi index bilgileri ile birlikte tutmasıdır
pd.Series([10,11,12,13,14])

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [3]:
seri = pd.Series([1,2,3,4,5,6,7])

In [4]:
type(seri)

pandas.core.series.Series

<a id=2></a>
### Pandas Series Özellikleri
- axes
- dtype
- size
- ndim
- values
- head()
- tail()

In [5]:
seri.axes

[RangeIndex(start=0, stop=7, step=1)]

In [6]:
seri.dtype

dtype('int64')

In [7]:
seri.size

7

In [8]:
seri.ndim

1

In [9]:
seri.values

array([1, 2, 3, 4, 5, 6, 7], dtype=int64)

In [10]:
# head() 
seri.head(3)

0    1
1    2
2    3
dtype: int64

In [11]:
# tail()
seri.tail(3)

4    5
5    6
6    7
dtype: int64

In [12]:
# index isimlendirmesi
pd.Series([5,6,7,8])

0    5
1    6
2    7
3    8
dtype: int64

In [13]:
pd.Series([5,6,7,8], index = [4,3,2,1])

4    5
3    6
2    7
1    8
dtype: int64

In [14]:
seri = pd.Series([5,6,7,8], index = ["A","B","C","D"])
seri

A    5
B    6
C    7
D    8
dtype: int64

In [15]:
seri["A"]

5

In [16]:
seri["A":"C"]

A    5
B    6
C    7
dtype: int64

In [17]:
# Dictionary ile liste oluşturma
dic = pd.Series({"A": 1, "B":2, "C":3})
seri = pd.Series(dic)
seri

A    1
B    2
C    3
dtype: int64

In [18]:
# İki seriyi birleştirme
pd.concat([seri,seri])

A    1
B    2
C    3
A    1
B    2
C    3
dtype: int64

<a id=3></a>
### Pandas Series Eleman işlemleri

In [19]:
import numpy as np
a = np.array([1,2,3,4,5,6,7,8,9])
seri = pd.Series(a)
seri

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int32

In [20]:
seri[0]

1

In [21]:
seri[2:7]

2    3
3    4
4    5
5    6
6    7
dtype: int32

In [22]:
seri = pd.Series([1,2,3,4,5], index = ["a","b","c","d","e"])
seri

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [23]:
seri.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [24]:
seri.keys

<bound method Series.keys of a    1
b    2
c    3
d    4
e    5
dtype: int64>

In [25]:
list(seri.items())

[('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]

In [26]:
seri.values

array([1, 2, 3, 4, 5], dtype=int64)

In [27]:
# eleman sorgulama
"b" in seri

True

In [28]:
"r" in seri

False

In [29]:
# Fancy eleman
seri[["a", "c"]]

a    1
c    3
dtype: int64

In [30]:
seri["a"] = 1000
seri

a    1000
b       2
c       3
d       4
e       5
dtype: int64

In [31]:
seri["b":"e"]

b    2
c    3
d    4
e    5
dtype: int64

<a id=4></a>
## Pandas DataFrame Oluşturma

In [32]:
liste = [12,3,4,23,4,312,43]
liste

[12, 3, 4, 23, 4, 312, 43]

In [33]:
pd.DataFrame(liste, columns=["A"])

Unnamed: 0,A
0,12
1,3
2,4
3,23
4,4
5,312
6,43


In [34]:
import numpy as np
m = np.arange(1,17).reshape((4,4))
m

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [35]:
pd.DataFrame(m, columns=["A", "B", "C", "D"])

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [36]:
# İsimlendirme
df = pd.DataFrame(m, columns=["A", "B", "C", "D"])
df.head(2)

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8


In [37]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [38]:
df.columns = ["a", "b", "c", "d"]
df.head(2)

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8


In [39]:
df.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

<a id=5></a>
### DataFrame Özellikleri
- axes
- dtype
- size
- ndim
- values
- head()
- tail()

In [40]:
type(df)

pandas.core.frame.DataFrame

In [41]:
df.axes

[RangeIndex(start=0, stop=4, step=1),
 Index(['a', 'b', 'c', 'd'], dtype='object')]

In [42]:
df.shape

(4, 4)

In [43]:
df.size

16

In [44]:
df.values

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [45]:
type(df.values)

numpy.ndarray

In [46]:
df.head(2)

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8


In [47]:
df.tail(2)

Unnamed: 0,a,b,c,d
2,9,10,11,12
3,13,14,15,16


<a id=6></a>
### DataFrame Eleman İşlemleri

In [48]:
s1 = np.random.randint(10, size=7)
s2 = np.random.randint(10, 20, size=7)
s3 = np.random.randint(20, 30, size=7)
dic = {"A":s1, "B":s2, "C":s3}
df = pd.DataFrame(dic)
df.head()

Unnamed: 0,A,B,C
0,6,19,29
1,8,10,21
2,8,11,20
3,7,16,24
4,1,15,21


In [49]:
df[0:3]

Unnamed: 0,A,B,C
0,6,19,29
1,8,10,21
2,8,11,20


In [50]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [51]:
df.index = ["a", "b", "c", "d", "e", "f", "g"]

In [52]:
df.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')

In [53]:
df["c":"f"]

Unnamed: 0,A,B,C
c,8,11,20
d,7,16,24
e,1,15,21
f,5,13,25


In [54]:
df.drop("a", axis=0, inplace=True) # inplace işlemi kalıcı hale getir
df.head()

Unnamed: 0,A,B,C
b,8,10,21
c,8,11,20
d,7,16,24
e,1,15,21
f,5,13,25


In [55]:
# Birden fazla eleman silmek için fancy kullanılabilir
d = ["e", "f"]
df.drop(d, axis=0, inplace=True)
df.head()

Unnamed: 0,A,B,C
b,8,10,21
c,8,11,20
d,7,16,24
g,6,18,23


In [56]:
# değişken sorgulama 
"B" in df

True

In [57]:
liste = ["A", "B", "D"]
for i in liste:
    print(i in df)

True
True
False


In [58]:
df

Unnamed: 0,A,B,C
b,8,10,21
c,8,11,20
d,7,16,24
g,6,18,23


In [59]:
df["AB"] = df["A"] * df["B"]
df.head()

Unnamed: 0,A,B,C,AB
b,8,10,21,80
c,8,11,20,88
d,7,16,24,112
g,6,18,23,108


In [60]:
#değişke silme
df.drop("AB", axis=1, inplace=True)
df.head()

Unnamed: 0,A,B,C
b,8,10,21
c,8,11,20
d,7,16,24
g,6,18,23


In [61]:
liste = ["A", "C"]
df.drop(liste, axis=1)

Unnamed: 0,B
b,10
c,11
d,16
g,18


In [62]:
df

Unnamed: 0,A,B,C
b,8,10,21
c,8,11,20
d,7,16,24
g,6,18,23


#### Gözlem ve Değişken Seçimi
#### loc & iloc Yapısı

In [63]:
m = np.random.randint(1,30,size=(10,3))
df = pd.DataFrame(m, columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,27,14,1
1,19,4,22
2,12,17,27
3,24,1,9
4,13,12,17
5,24,10,14
6,11,28,22
7,28,19,18
8,15,20,18
9,11,12,4


In [64]:
# loc: tanımladığı şekli ile seçim yapmak için kullanılır
# İlk index yapısına göre işlem yapar
# son değeri de dahil eder
df.loc[0:3]

Unnamed: 0,A,B,C
0,27,14,1
1,19,4,22
2,12,17,27
3,24,1,9


In [65]:
# iloc: alışık olduğumuz indekslem mantığı ile seçim yapar
# son değeri dahil etmez
df.iloc[0:3]

Unnamed: 0,A,B,C
0,27,14,1
1,19,4,22
2,12,17,27


In [66]:
# loc mutlak indexe göre işlem yapar
# Belirttiğimiz indekse göre getirir
df.loc[0:3, "B"]

0    14
1     4
2    17
3     1
Name: B, dtype: int32

In [67]:
# iloc ile çalışırken kendi tanımladığımız indeksleri kullanamayız
# df.iloc[0:3, "B"]
# hata verecekti
# bu işlemin iloc ile yapamak istersek:
df.iloc[0:3]["B"]

0    14
1     4
2    17
Name: B, dtype: int32

<a id=7></a>
## Koşullu Eleman İşlemleri

In [68]:
m = np.random.randint(1,51,size=(10,5))
df = pd.DataFrame(m, columns=["A", "B", "C", "D", "E"])
df

Unnamed: 0,A,B,C,D,E
0,5,5,15,26,27
1,2,7,18,8,15
2,43,33,6,34,47
3,44,36,43,42,10
4,31,30,48,43,39
5,18,49,19,9,18
6,37,48,48,30,9
7,2,50,28,50,32
8,50,21,14,27,31
9,9,22,43,13,40


In [69]:
df["A"]

0     5
1     2
2    43
3    44
4    31
5    18
6    37
7     2
8    50
9     9
Name: A, dtype: int32

In [70]:
df[df.A > 25]

Unnamed: 0,A,B,C,D,E
2,43,33,6,34,47
3,44,36,43,42,10
4,31,30,48,43,39
6,37,48,48,30,9
8,50,21,14,27,31


In [71]:
df[(df.A > 25) & (df.A < 35)]

Unnamed: 0,A,B,C,D,E
4,31,30,48,43,39


In [72]:
df.loc[(df.A > 25), ["B", "C"]]

Unnamed: 0,B,C
2,33,6
3,36,43
4,30,48
6,48,48
8,21,14


In [73]:
df[df.A > 25][["B", "C"]]

Unnamed: 0,B,C
2,33,6
3,36,43
4,30,48
6,48,48
8,21,14


<a id=8></a>
## Join İşlemleri

In [74]:
df1 = df + 10
df2 = df + 20

In [75]:
df1.head()

Unnamed: 0,A,B,C,D,E
0,15,15,25,36,37
1,12,17,28,18,25
2,53,43,16,44,57
3,54,46,53,52,20
4,41,40,58,53,49


In [76]:
df2.head()

Unnamed: 0,A,B,C,D,E
0,25,25,35,46,47
1,22,27,38,28,35
2,63,53,26,54,67
3,64,56,63,62,30
4,51,50,68,63,59


In [77]:
# ignore_index index'i yeniden oluştur
df = pd.concat([df1,df2], ignore_index=True)
df.head()

Unnamed: 0,A,B,C,D,E
0,15,15,25,36,37
1,12,17,28,18,25
2,53,43,16,44,57
3,54,46,53,52,20
4,41,40,58,53,49


In [78]:
df1.columns

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [79]:
df2.columns

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [80]:
df1.columns = ["a","B","C","D","E"]

In [81]:
# Farklı sütun isimlerine sahip olan 
# dataframeler birleştirilirken join kullanılır
# kullanılamzsa ortak olmayan sütunların değişkenlerine NaN değeri atanır
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,a,B,C,D,E,A
0,15.0,15,25,36,37,
1,12.0,17,28,18,25,
2,53.0,43,16,44,57,
3,54.0,46,53,52,20,
4,41.0,40,58,53,49,
5,28.0,59,29,19,28,
6,47.0,58,58,40,19,
7,12.0,60,38,60,42,
8,60.0,31,24,37,41,
9,19.0,32,53,23,50,


In [82]:
df3 = pd.concat([df1, df2], join="inner")
df3

Unnamed: 0,B,C,D,E
0,15,25,36,37
1,17,28,18,25
2,43,16,44,57
3,46,53,52,20
4,40,58,53,49
5,59,29,19,28
6,58,58,40,19
7,60,38,60,42
8,31,24,37,41
9,32,53,23,50


In [83]:
df1 = pd.DataFrame({
    "Personel": ["Ayşe", "Ali", "Veli", "Ahmet", "Fatma"],
    "Birim": ["IK", "IT", "IT", "IK", "IT"]
})
df1

Unnamed: 0,Personel,Birim
0,Ayşe,IK
1,Ali,IT
2,Veli,IT
3,Ahmet,IK
4,Fatma,IT


In [84]:
df2 = pd.DataFrame({
    "Personel": ["Ayşe", "Ali", "Veli", "Ahmet", "Fatma"],
    "Yil": [2020, 2014, 2015, 2013, 2014]
})
df2

Unnamed: 0,Personel,Yil
0,Ayşe,2020
1,Ali,2014
2,Veli,2015
3,Ahmet,2013
4,Fatma,2014


In [85]:
pd.merge(df1, df2)

Unnamed: 0,Personel,Birim,Yil
0,Ayşe,IK,2020
1,Ali,IT,2014
2,Veli,IT,2015
3,Ahmet,IK,2013
4,Fatma,IT,2014


In [86]:
pd.merge(df1, df2, on="Personel")

Unnamed: 0,Personel,Birim,Yil
0,Ayşe,IK,2020
1,Ali,IT,2014
2,Veli,IT,2015
3,Ahmet,IK,2013
4,Fatma,IT,2014


In [87]:
# Çoktan teke
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,Personel,Birim,Yil
0,Ayşe,IK,2020
1,Ali,IT,2014
2,Veli,IT,2015
3,Ahmet,IK,2013
4,Fatma,IT,2014


In [88]:
df4 = pd.DataFrame({'Birim': ['IK', 'Muhasebe','IT'],
                   'Mudur':['Mustafa', 'Ahmet', 'Ayşe']})
df4

Unnamed: 0,Birim,Mudur
0,IK,Mustafa
1,Muhasebe,Ahmet
2,IT,Ayşe


In [89]:
pd.merge(df3, df4)

Unnamed: 0,Personel,Birim,Yil,Mudur
0,Ayşe,IK,2020,Mustafa
1,Ahmet,IK,2013,Mustafa
2,Ali,IT,2014,Ayşe
3,Veli,IT,2015,Ayşe
4,Fatma,IT,2014,Ayşe


In [90]:
# Çoktan çoka
df5 = pd.DataFrame({'Birim': ["Muhasebe", "Muhasebe", "IT", "IT", "IK", "IK"],
                   'Yetenekler':["Matematik", "Excel", "Python", "Linux", "Excel", "Word" ]})
df5

Unnamed: 0,Birim,Yetenekler
0,Muhasebe,Matematik
1,Muhasebe,Excel
2,IT,Python
3,IT,Linux
4,IK,Excel
5,IK,Word


In [91]:
pd.merge(df1, df5)

Unnamed: 0,Personel,Birim,Yetenekler
0,Ayşe,IK,Excel
1,Ayşe,IK,Word
2,Ahmet,IK,Excel
3,Ahmet,IK,Word
4,Ali,IT,Python
5,Ali,IT,Linux
6,Veli,IT,Python
7,Veli,IT,Linux
8,Fatma,IT,Python
9,Fatma,IT,Linux


<a id=9></a>
## Aggregation & Grouping

### Aggregation İşlemleri


* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
* sum()

In [92]:
import seaborn as sns

In [93]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [94]:
df.shape

(1035, 6)

In [95]:
df.count()

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [96]:
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [97]:
df["mass"].median()

1.26

In [98]:
df["distance"].sum()

213367.98000000004

In [99]:
# Fonksiyonları tek tek almak yerine describe ile önemli istatistiksel bilgilere erişebiliriz
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


<a id=10></a>
### Gruplama İşlemleri

- Aggregation fonksinları ile birlikte çalışır.

In [100]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E7695A9D30>

In [101]:
df.groupby("method").count()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,2,2,0,2,2
Eclipse Timing Variations,9,9,2,4,9
Imaging,38,12,0,32,38
Microlensing,23,7,0,10,23
Orbital Brightness Modulation,3,3,0,2,3
Pulsar Timing,5,5,0,1,5
Pulsation Timing Variations,1,1,0,0,1
Radial Velocity,553,553,510,530,553
Transit,397,397,1,224,397
Transit Timing Variations,4,3,0,3,4


In [102]:
df.groupby("method").mean()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,1.0,631.18,,17.875,2011.5
Eclipse Timing Variations,1.666667,4751.644444,5.125,315.36,2010.0
Imaging,1.315789,118247.7375,,67.715937,2009.131579
Microlensing,1.173913,3153.571429,,4144.0,2009.782609
Orbital Brightness Modulation,1.666667,0.709307,,1180.0,2011.666667
Pulsar Timing,2.2,7343.021201,,1200.0,1998.4
Pulsation Timing Variations,1.0,1170.0,,,2007.0
Radial Velocity,1.721519,823.35468,2.630699,51.600208,2007.518987
Transit,1.95466,21.102073,1.47,599.29808,2011.236776
Transit Timing Variations,2.25,79.7835,,1104.333333,2012.5


In [103]:
df.groupby("method")["number"].max()

method
Astrometry                       1
Eclipse Timing Variations        2
Imaging                          4
Microlensing                     2
Orbital Brightness Modulation    2
Pulsar Timing                    3
Pulsation Timing Variations      1
Radial Velocity                  6
Transit                          7
Transit Timing Variations        3
Name: number, dtype: int64

In [104]:
df.groupby("method")["number"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Eclipse Timing Variations,9.0,1.666667,0.5,1.0,1.0,2.0,2.0,2.0
Imaging,38.0,1.315789,0.933035,1.0,1.0,1.0,1.0,4.0
Microlensing,23.0,1.173913,0.387553,1.0,1.0,1.0,1.0,2.0
Orbital Brightness Modulation,3.0,1.666667,0.57735,1.0,1.5,2.0,2.0,2.0
Pulsar Timing,5.0,2.2,1.095445,1.0,1.0,3.0,3.0,3.0
Pulsation Timing Variations,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Radial Velocity,553.0,1.721519,1.157141,1.0,1.0,1.0,2.0,6.0
Transit,397.0,1.95466,1.399119,1.0,1.0,1.0,2.0,7.0
Transit Timing Variations,4.0,2.25,0.5,2.0,2.0,2.0,2.25,3.0


<a id=11></a>
### Aggregate & Filter & Transform & Apply

In [105]:
# Aggragate
# Belirli istatistikleri çekmek istediğimiz de kullanırız
df.groupby("method").aggregate(["min", "max", np.median])

Unnamed: 0_level_0,number,number,number,orbital_period,orbital_period,orbital_period,mass,mass,mass,distance,distance,distance,year,year,year
Unnamed: 0_level_1,min,max,median,min,max,median,min,max,median,min,max,median,min,max,median
method,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
Astrometry,1,1,1,246.36,1016.0,631.18,,,,14.98,20.77,17.875,2010,2013,2011.5
Eclipse Timing Variations,1,2,2,1916.25,10220.0,4343.5,4.2,6.05,5.125,130.72,500.0,315.36,2008,2012,2010.0
Imaging,1,4,1,4639.15,730000.0,27500.0,,,,7.69,165.0,40.395,2004,2013,2009.0
Microlensing,1,2,1,1825.0,5100.0,3300.0,,,,1760.0,7720.0,3840.0,2004,2013,2010.0
Orbital Brightness Modulation,1,2,2,0.240104,1.544929,0.342887,,,,1180.0,1180.0,1180.0,2011,2013,2011.0
Pulsar Timing,1,3,3,0.090706,36525.0,66.5419,,,,1200.0,1200.0,1200.0,1992,2011,1994.0
Pulsation Timing Variations,1,1,1,1170.0,1170.0,1170.0,,,,,,,2007,2007,2007.0
Radial Velocity,1,6,1,0.73654,17337.5,360.2,0.0036,25.0,1.26,1.35,354.0,40.445,1989,2014,2009.0
Transit,1,7,1,0.355,331.60059,5.714932,1.47,1.47,1.47,38.0,8500.0,341.0,2002,2014,2012.0
Transit Timing Variations,2,3,2,22.3395,160.0,57.011,,,,339.0,2119.0,855.0,2011,2014,2012.5


In [106]:
## Farklı değişkenlere farklı fonksiyonları da uygulamamıza imkan tanır
df.groupby("method").aggregate({"number": "max", "orbital_period": "min"})

Unnamed: 0_level_0,number,orbital_period
method,Unnamed: 1_level_1,Unnamed: 2_level_1
Astrometry,1,246.36
Eclipse Timing Variations,2,1916.25
Imaging,4,4639.15
Microlensing,2,1825.0
Orbital Brightness Modulation,2,0.240104
Pulsar Timing,3,0.090706
Pulsation Timing Variations,1,1170.0
Radial Velocity,6,0.73654
Transit,7,0.355
Transit Timing Variations,3,22.3395


In [107]:
# Filter
def filter_func(x):
    return x["year"].std() > 8.38

In [108]:
df.groupby("method").std()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,0.0,544.217663,,4.094148,2.12132
Eclipse Timing Variations,0.5,2499.130945,1.308148,213.203907,1.414214
Imaging,0.933035,213978.177277,,53.736817,2.781901
Microlensing,0.387553,1113.166333,,2076.611556,2.859697
Orbital Brightness Modulation,0.57735,0.725493,,0.0,1.154701
Pulsar Timing,1.095445,16313.265573,,,8.38451
Pulsation Timing Variations,,,,,
Radial Velocity,1.157141,1454.92621,3.825883,45.559381,4.249052
Transit,1.399119,46.185893,,913.87699,2.077867
Transit Timing Variations,0.5,71.599884,,915.819487,1.290994


In [109]:
df.groupby("method").filter(filter_func)

Unnamed: 0,method,number,orbital_period,mass,distance,year
941,Pulsar Timing,3,25.262,,,1992
942,Pulsar Timing,3,66.5419,,,1992
943,Pulsar Timing,3,98.2114,,,1994
944,Pulsar Timing,1,36525.0,,,2003
945,Pulsar Timing,1,0.090706,,1200.0,2011


In [110]:
# Transform
df_t = df.iloc[:,1:]
df_t.transform(lambda x: (x-x.mean()) / x.std())

Unnamed: 0,number,orbital_period,mass,distance,year
0,-0.632975,-0.066640,1.168444,-0.254624,-0.772934
1,-0.632975,-0.043366,-0.112125,-0.282519,-0.269481
2,-0.632975,-0.047662,-0.009993,-0.333138,0.485698
3,-0.632975,-0.064459,4.389506,-0.209311,-0.521207
4,-0.632975,-0.057148,2.058819,-0.197239,-0.017755
...,...,...,...,...,...
1030,-0.632975,-0.076840,,-0.125586,-0.772934
1031,-0.632975,-0.076891,,-0.158323,-0.521207
1032,-0.632975,-0.076869,,-0.122858,-0.521207
1033,-0.632975,-0.076833,,0.039463,-0.269481


In [111]:
# Apply
df.iloc[:,1:].apply(np.sum)

number            1.848000e+03
orbital_period    1.986894e+06
mass              1.353376e+03
distance          2.133680e+05
year              2.079388e+06
dtype: float64

In [112]:
df.iloc[:,1:].apply(np.mean)

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [113]:
df.groupby("method").apply(np.sum)

Unnamed: 0_level_0,method,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Astrometry,AstrometryAstrometry,2,1262.36,0.0,35.75,4023
Eclipse Timing Variations,Eclipse Timing VariationsEclipse Timing Variat...,15,42764.8,10.25,1261.44,18090
Imaging,ImagingImagingImagingImagingImagingImagingImag...,50,1418973.0,0.0,2166.91,76347
Microlensing,MicrolensingMicrolensingMicrolensingMicrolensi...,27,22075.0,0.0,41440.0,46225
Orbital Brightness Modulation,Orbital Brightness ModulationOrbital Brightnes...,5,2.12792,0.0,2360.0,6035
Pulsar Timing,Pulsar TimingPulsar TimingPulsar TimingPulsar ...,11,36715.11,0.0,1200.0,9992
Pulsation Timing Variations,Pulsation Timing Variations,1,1170.0,0.0,0.0,2007
Radial Velocity,Radial VelocityRadial VelocityRadial VelocityR...,952,455315.1,1341.65638,27348.11,1110158
Transit,TransitTransitTransitTransitTransitTransitTran...,776,8377.523,1.47,134242.77,798461
Transit Timing Variations,Transit Timing VariationsTransit Timing Variat...,9,239.3505,0.0,3313.0,8050


<a id=12></a>
## Pivot Tablolar

In [114]:
titanic =sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [115]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [116]:
# unstack index yapısını çözer
titanic.groupby(["sex", "class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [117]:
# pivot ile pivot table
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [118]:
age = pd.cut(titanic["age"], (0,18,80))
age.head()

0    (18, 80]
1    (18, 80]
2    (18, 80]
3    (18, 80]
4    (18, 80]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 80]]

In [119]:
titanic.pivot_table("survived", index=["sex",age], columns="class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


<a id=13></a>
## Dış Kaynaklı Veri Okuma 

In [120]:
# csv okuma
df_csv = pd.read_csv("datasets\AirbnbNewyork.csv")

In [121]:
df_csv.head(3)

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365


In [122]:
# excel okuma
df_excel = pd.read_excel("datasets\Demografik.xlsx")
df_excel.head(3)

Unnamed: 0,ID,AGE,INCOME,LOCATION,GENDER
0,1001,34,5000,ISTANBUL,M
1,1002,23,6000,SAMSUN,F
2,1003,45,7000,ORDU,M


In [123]:
# txt okuma
df_txt = pd.read_csv("datasets/metin_dosyası.txt")
df_txt.head()

Unnamed: 0,1 2
0,3 4
1,5 6
2,7 8
3,9 10
4,11 12


------------------------------------------------

<a id= 14></a>
## Mülakat Soruları ve Cevapları

#### Pandas Serisi nedir?

Seri, çeşitli veri türlerini depolayabilen tek boyutlu bir dizi olarak tanımlanır. Serinin satır etiketlerine indeks denir. Bir dizi birden çok sütun içeremez.

#### Pandas'ı tablo verilerini depolamak için bu kadar güvenilir bir seçenek yapan özellikler nelerdir?
* Hafıza Verimliliği
* Veri Hizalama
* Reshaping
* Merge  
* Join
* Zaman serileri

#### Pandas'da sözlük yapısından seri nasıl oluşturulur? 

In [124]:
info = {'x' : 0., 'y' : 1., 'z' : 2.}
a = pd.Series(info)
a

x    0.0
y    1.0
z    2.0
dtype: float64

#### Pandas'da serinin bir kopyasını nasıl oluşturabiliriz?

In [125]:
b = a.copy(deep=True)
b

x    0.0
y    1.0
z    2.0
dtype: float64

#### Pandas'da gruplandırma(groupby) nedir?

GroupBy, verileri gruplara ayırmak için kullanılır. Verileri bazı kriterlere göre gruplandırır. Gruplandırma ayrıca etiketlerin grup adlarıyla eşlenmesini sağlar. Parametrelerle tanımlanabilen ve verileri ayırma görevini hızlı ve kolay hale getiren çok sayıda çeşidi vardır.

#### Pandas'da vektörizasyon(vectorization) nedir?

Vektörizasyon, tüm seride işlemleri çalıştırma işlemidir. Bu, işlevler tarafından gerçekleştirilen yineleme miktarını azaltmak için yapılır. Pandas'da, serilerde ve DataFrame'e özel olarak çalışmak üzere optimize edilmiş birleştirmeler(aggregations) ve string fonksiyonları gibi çeşitli vektörel işlevler bulunur. Bu nedenle, işlemleri hızlı bir şekilde gerçekleştirmek için vektörel Pandas işlevlerini kullanmak tercih edilir.

#### Pandas'daki farklı Veri yapıları türlerinden bahsedin

Pandas, Series ve DataFrame olarak iki veri yapısı sağlar. Bu veri yapılarının her ikisi de NumPy üzerine kurulmuştur.


#### Pandas'da zaman serisi nedir?

Zaman serisi, bazı miktarların zaman içinde nasıl değiştiğini temel olarak gösteren sıralı bir veri dizisidir. Pandas, zaman serisi verileriyle çalışmak üzere kapsamlı özellikler içerir.

#### Pandas DataFrame'i Numpy dizisine nasıl dönüştürülür?

to_numpy() işlevi, DataFrame'i NumPy dizisine dönüştürmek için kullanılır.
        
        DataFrame.to_numpy(self, dtype=None, copy=False)

#### DataFrame'in ilk 5 satırını gösteren bir Pandas programı yazın.

In [126]:
exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael',
'Matthew', 'Laura', 'Kevin', 'Jonas'],}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)
df.iloc[:5]

Unnamed: 0,name
a,Anastasia
b,Dima
c,Katherine
d,James
e,Emily


#### Tek boyutlu diziden bir Pandas Serisi oluşturun.

In [127]:
s = pd.Series([2, 4, 6, 8, 10])
s

0     2
1     4
2     6
3     8
4    10
dtype: int64

#### Bir Pandas Serisini Python listesine dönüştürün.

In [128]:
ds = pd.Series([2, 4, 6, 8, 10])
type(ds)
ds.tolist()
type(ds.tolist())

list

#### İki Pandas serisi ile dört işlem uygulayınız.

In [129]:
ds1 = pd.Series([2, 4, 6, 8, 10])
ds2 = pd.Series([1, 3, 5, 7, 9])
sum_ = ds1 + ds2
sub = ds1 - ds2
mul = ds1 * ds2
div = ds1 / ds2
print("Toplama:\n{}\n Çıkarma:\n{}\n Çarpma:\n{}\n Bölme:\n{}".format(sum_, sub, mul, div))

Toplama:
0     3
1     7
2    11
3    15
4    19
dtype: int64
 Çıkarma:
0    1
1    1
2    1
3    1
4    1
dtype: int64
 Çarpma:
0     2
1    12
2    30
3    56
4    90
dtype: int64
 Bölme:
0    2.000000
1    1.333333
2    1.200000
3    1.142857
4    1.111111
dtype: float64


#### İki Pandas serisinin elemanlarını karşılaştırınız.

In [130]:
ds1 = pd.Series([2, 4, 6, 8, 10])
ds2 = pd.Series([1, 3, 5, 7, 10])
print(ds1 == ds2)
print(ds1 > ds2)
print(ds1 < ds2)

0    False
1    False
2    False
3    False
4     True
dtype: bool
0     True
1     True
2     True
3     True
4    False
dtype: bool
0    False
1    False
2    False
3    False
4    False
dtype: bool


#### Belirli bir sütunun veya serinin veri türünü değiştirmek için bir pandas programı geliştirin.

In [131]:
s1 = pd.Series(['100', '200', 'python', '300.12', '400'])
s2 = pd.to_numeric(s1, errors='coerce')
s2

0    100.00
1    200.00
2       NaN
3    300.12
4    400.00
dtype: float64

#### Çok boyutlu bir array'i seriye dönüştürmek için bir Pandas programı yazın.

In [132]:
s = pd.Series([ ['Red', 'Black'], ['Red', 'Green', 'White'] , ['Yellow']])
print(s)
s = s.apply(pd.Series).stack().reset_index(drop=True)
print(s)

0           [Red, Black]
1    [Red, Green, White]
2               [Yellow]
dtype: object
0       Red
1     Black
2       Red
3     Green
4     White
5    Yellow
dtype: object


#### Bir pandas programı yazarak belirli bir şarta göre bir dizinin alt kümesini oluşturun.

In [133]:
s = pd.Series([0, 1,2,3,4,5,6,7,8,9,10])
n = 6
new_s = s[s < n]
new_s

0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64

#### Bir Serinin index'ini değiştiriniz.

In [134]:
s = pd.Series(data = [1,2,3,4,5], index = ['A', 'B', 'C','D','E'])
s.reindex(index = ['B','A','C','D','E'])

B    2
A    1
C    3
D    4
E    5
dtype: int64

#### İki seri arasındaki farkı bulunuz.

In [135]:
sr1 = pd.Series([1, 2, 3, 4, 5])
sr2 = pd.Series([2, 4, 6, 8, 10])
result = sr1[~sr1.isin(sr2)]
result

0    1
2    3
4    5
dtype: int64

#### df[‘Name’] ve df.loc[:, ‘Name’] arasındaki fark nedir?

Birincisi orijinal veri çerçevesinin bir görünümü, ikincisi ise orijinal veri çerçevesinin bir kopyasıdır.

#### Pandas DataFrame'e nasıl sütun ekleyebiliriz?

In [136]:
# DataFrame'i oluşturalım
info = {'one' : pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']),'two' : pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'c', 'd', 'e', 'f'])}
info = pd.DataFrame(info)
info.head(2)

Unnamed: 0,one,two
a,1.0,1
b,2.0,2


In [137]:
# Yeni sütun ekleyelim
info['three']=pd.Series([20,40,60],index=['a','b','c'])
info.head(2)

Unnamed: 0,one,two,three
a,1.0,1,20.0
b,2.0,2,40.0


------------------------------------------------

<a id=15></a>
### Kaynaklar

#### Websiteleri

- https://www.linkedin.com/feed/update/urn:li:activity:6783319693840252928/ (Mülakat Sorularının Kaynağı)

#### Kurslar

- https://dphi.tech/lms/learn/introduction-to-pandas/
- https://www.udemy.com/course/python-egitimi/