# Pandas
Pandas, Python programlama dilinde veri analizi ve manipülasyonu için kullanılan güçlü ve esnek bir kütüphanedir. Özellikle büyük veri setleri ile çalışırken veriyi düzenleme, temizleme, analiz etme ve görselleştirme gibi işlemleri kolaylaştırır. Pandas'ın temel veri yapıları Seriler (Series) ve Veri Çerçeveleri (DataFrames) olarak ikiye ayrılır.

In [2]:
import pandas as pd

### Seriler ve Seri Oluşturma

Seriler, tek bir veri tipinden oluşan (sayılar, metinler, Booleans vb.) ve her bir elemanının bir etiketi (index) olan bir veri yapısıdır.
pd.Series([veri_listesi]) şeklinde oluşturulur.
Özellikler:
index: Her bir elemanın etiketini verir.
values: Serinin tüm değerlerini bir NumPy dizisi olarak döndürür.

In [3]:
x = pd.Series([12,34,56,78])
# Bu kod, 12, 34, 56, 78 sayılarından oluşan bir seri oluşturur.
x


0    12
1    34
2    56
3    78
dtype: int64

#### Creating Series From An Array

In [None]:
# import pandas as pd
import pandas as pd

# import numpy as np
import numpy as np

# simple array
data = np.array(['g', 'e', 'e', 'k', 's'])

ser = pd.Series(data)
print(ser)


##### With An Index

In [None]:
# import pandas as pd
import pandas as pd

# import numpy as np
import numpy as np

# simple array
data = np.array(['g', 'e', 'e', 'k', 's'])

# providing an index
ser = pd.Series(data, index=[10, 11, 12, 13, 14])
print(ser)


#### Creating Series From A List

> pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)
data	Contains data that will be saved in Series.
index	Index values must have the same length as data and be hashable. If no index value is specified, values ranging from 0, 1, 2,..., n-1 are the default.
dtype	It is used to specify the data type that will be stored in the series object.
name	Assigns the name to the pandas series object.
copy	It accepts a Boolean value as input, set to False by default. It is used to determine whether or not to replicate input data.

In [34]:
import pandas as pd

# a simple list
list = ['g', 'e', 'e', 'k', 's']

# create series form a list
ser = pd.Series(list)
print(ser)


0    g
1    e
2    e
3    k
4    s
dtype: object


#### Creating Series From A Dictionary

In [33]:
import pandas as pd

# a simple dictionary
dict = {'Geeks': 10,
		'for': 20,
		'geeks': 30}

# create series from dictionary
ser = pd.Series(dict)

print (ser)

Geeks    10
for      20
geeks    30
dtype: int64
Geeks    10
for      20
geeks    30
dtype: int64


#### Creating Series From Scalar Value



In [35]:
import pandas as pd

# giving a scalar value with index
ser = pd.Series(10, index=[0, 1, 2, 3, 4, 5])

print(ser)


0    10
1    10
2    10
3    10
4    10
5    10
dtype: int64


#### Creating Series Using NumPy and Range Functions

In [46]:
import numpy as np
# series with numpy linspace()
ser1 = pd.Series(np.linspace(3, 33, 3))
print(ser1)

# series with numpy linspace()
ser2 = pd.Series(np.linspace(1, 100, 3))
print(ser1)
print(ser2)

ser=pd.Series(range(7))
print(ser)


0     3.0
1    18.0
2    33.0
dtype: float64
0     3.0
1    18.0
2    33.0
dtype: float64
0      1.0
1     50.5
2    100.0
dtype: float64
0    0
1    1
2    2
3    3
4    4
5    5
6    6
dtype: int64


#### Creating a Series using for loop and list comprehension

In [42]:
import pandas as pd
ser=pd.Series(range(1,20,3), index=[x for x in 'abcdefg'])
print(ser)


a     1
b     4
c     7
d    10
e    13
f    16
g    19
dtype: int64


### İndisler

Serilerin her bir elemanının konumunu belirleyen etiketlerdir. Varsayılan olarak 0'dan başlayan tam sayılarla indekslenir, ancak isteğe bağlı olarak farklı etiketler (örneğin, isimler, tarihler) kullanılabilir.
Atama: index özelliği ile indeksler değiştirilebilir.

In [4]:
basari_notlari = [90, 75, 85, 89]
indisler = ['Arda', 'Beyza', 'Cansu', 'Deniz']
ogrenci_bn = pd.Series(basari_notlari, name='Yazili notlari', index= indisler)
print (ogrenci_bn)

Arda     90
Beyza    75
Cansu    85
Deniz    89
Name: Yazili notlari, dtype: int64


In [5]:
print(f'En yuksek notu alan kisi: {ogrenci_bn.idxmax()} tebrikler! Notu: {ogrenci_bn.max()}')

En yuksek notu alan kisi: Arda tebrikler! Notu: 90


In [6]:
print(f'En dusuk notu alan kisi: {ogrenci_bn.idxmin()}. Notu: {ogrenci_bn.min()}')

En dusuk notu alan kisi: Beyza. Notu: 75


In [7]:
print (ogrenci_bn.index)

Index(['Arda', 'Beyza', 'Cansu', 'Deniz'], dtype='object')


In [23]:
type(ogrenci_bn.index)

pandas.core.indexes.base.Index

In [24]:
print (ogrenci_bn.values)

[90 75 85 89]


In [25]:
y = pd.Series([12,34,45,56,67, True, 'False'])
print(y)

0       12
1       34
2       45
3       56
4       67
5     True
6    False
dtype: object


In [26]:
print(type(y))

<class 'pandas.core.series.Series'>


Aşağıda kodun döndürdüğünün anlamı:
Series'in indeksinin 0'dan başlayıp 6'ya kadar giden (toplam 7 eleman), artış miktarı 1 olan ardışık tam sayılardan oluştuğunu gösterir. Yani, her bir eleman sırasıyla 0, 1, 2, 3, 4, 5, 6 indekslerine sahiptir.
Varsayılan İndeks: Eğer Series oluşturulurken özel bir indeks belirtilmezse, Pandas otomatik olarak 0'dan başlayıp eleman sayısı kadar giden tam sayılardan oluşan bir indeks oluşturur.
Farklı Veri Tipleri: Series'te farklı veri tipleri olmasına rağmen, indeks her zaman sayısal bir dizidir. Bu, her bir elemanın konumunu belirlemek için kullanılan bir referans noktasıdır.

In [27]:
print(y.index)

RangeIndex(start=0, stop=7, step=1)


In [30]:
print (type(ogrenci_bn))

<class 'pandas.core.series.Series'>


In [31]:
print (ogrenci_bn.index)

Index(['Arda', 'Beyza', 'Cansu', 'Deniz'], dtype='object')


y.index ile ogrenci.bn index çıktısının arasındaki fark birinde özel diğerinde varsayılan indeks kullanılmış olması. Belirtilen indisler listesindeki değerler, Series'in indeksini oluşturup her bir notun hangi öğrenciye ait olduğu belirtilmiş oluyor.

### Veri Seçimi

Veri Tipleri: Pandas, farklı veri tiplerini (sayılar, metinler, tarihler vb.) aynı seri içinde tutabilir.
Eksik Veriler: Pandas, eksik verilerle (NaN) çalışmak için çeşitli yöntemler sunar.
Veri Çerçeveleri: Serilerin iki boyutlu hale getirilmiş halidir ve daha karmaşık veri yapılarını temsil eder.

In [8]:
# Etiket ile: seri['etiket'] şeklinde belirli bir etikete ait değeri seçer.
print(ogrenci_bn['Arda'])

90


In [9]:
# Konum ile: seri.iloc[konum] şeklinde konumuna göre değeri seçer.

print(ogrenci_bn.iloc[3])

89


In [10]:
# Slicing: seri[başlangıç:bitiş] şeklinde birden fazla değeri seçer.
print(ogrenci_bn[1:3])

Beyza    75
Cansu    85
Name: Yazili notlari, dtype: int64


### İşlemler

In [11]:
print(ogrenci_bn[['Arda', 'Beyza']] + 10)

Arda     100
Beyza     85
Name: Yazili notlari, dtype: int64


In [12]:
print(f'En yuksek notu alan kisi: {ogrenci_bn.idxmax()} tebrikler! Notu: {ogrenci_bn.max()}')

En yuksek notu alan kisi: Arda tebrikler! Notu: 90


In [13]:
ogrenci_bn

Arda     90
Beyza    75
Cansu    85
Deniz    89
Name: Yazili notlari, dtype: int64

In [14]:
y = pd.Series([12,34,45,56,67, True, 'False'])
print(y)

0       12
1       34
2       45
3       56
4       67
5     True
6    False
dtype: object
