# Kendi Notum

Pandas, Python'da veri analizi ve veri işleme için kullanılan güçlü ve popüler bir kütüphanedir. Yapısal verileri, yani tablolar, zaman serileri ve çok boyutlu diziler gibi veri tiplerini kolayca yönetmemizi sağlar. Özellikle veri bilimcileri ve analistler tarafından tercih edilen Pandas, veriyi düzenlemek, analiz etmek ve dönüştürmek için geniş bir fonksiyon yelpazesi sunar.

## Pandas Neden Kullanılır?
Veri Yapıları: Series ve DataFrame: Pandas, iki temel veri yapısı sağlar:
Series: Tek boyutlu, indekslenmiş veri yapısıdır. Bir listeye veya numpy dizisine benzer, ancak indeksleme avantajı sunar.
DataFrame: İki boyutlu, tablo benzeri bir veri yapısıdır. Satırlar ve sütunlar şeklinde organize edilir, birden fazla Series'in birleşimi olarak düşünülebilir.

In [5]:
import pandas as pd

# Series oluşturma
ser = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(ser)


a    1
b    2
c    3
d    4
dtype: int64


In [9]:
# DataFrame oluşturma
data = {'isim': ['Aslı', 'Esil', 'Ece'],
        'yaş': [26, 31, 24],
        'şehir': ['İstanbul', 'iatanbu(Anadolu)', 'İzmir']}
df = pd.DataFrame(data)
print(df)

   isim  yaş             şehir
0  Aslı   26          İstanbul
1  Esil   31  iatanbu(Anadolu)
2   Ece   24             İzmir


## Veri Manipülasyonu:
Pandas, veri temizleme, düzenleme, filtreleme, gruplama gibi veri manipülasyon işlemleri için zengin fonksiyonlar sunar. Bu işlemleri, büyük veri kümeleri üzerinde bile hızlı ve kolay bir şekilde gerçekleştirmenizi sağlar.

### Filtreleme ve Seçme:

In [10]:
# Yaşı 25'ten büyük olan kişileri filtreleme
filtered_df = df[df['yaş'] > 25]
print(filtered_df)

   isim  yaş             şehir
0  Aslı   26          İstanbul
1  Esil   31  iatanbu(Anadolu)


### Sütun Ekleme:

In [11]:
df['meslek'] = ['Mühendis', 'Doktor', 'Öğretmen']
print(df)

   isim  yaş             şehir    meslek
0  Aslı   26          İstanbul  Mühendis
1  Esil   31  iatanbu(Anadolu)    Doktor
2   Ece   24             İzmir  Öğretmen


### Eksik Verilerle Çalışma: 
Pandas, eksik veri (NaN - Not a Number) ile başa çıkmak için güçlü araçlar sunar. Eksik verileri doldurabilir, kaldırabilir veya bu verileri analiz edebilirsiniz.

In [13]:
import numpy as np

data = {'isim': ['Aslı', 'Esil', np.nan],
        'yaş': [26, np.nan, 24],
        'şehir': ['İstanbul', 'Ankara', 'İzmir']}
df = pd.DataFrame(data)

In [14]:
# Eksik verileri kontrol etme
print(df.isna())

    isim    yaş  şehir
0  False  False  False
1  False   True  False
2   True  False  False


In [15]:
# Eksik verileri doldurma
df_filled = df.fillna("Bilinmiyor")
print(df_filled)

         isim         yaş     şehir
0        Aslı        26.0  İstanbul
1       Merve  Bilinmiyor    Ankara
2  Bilinmiyor        24.0     İzmir


### Veri Okuma ve Yazma: 
Pandas, farklı dosya formatlarından veri okuma ve bu dosya formatlarına yazma konusunda oldukça esnektir. Örneğin, CSV, Excel, SQL veri tabanları ve hatta HTML tablolarından veri okuyup yazabilirsiniz.

`CSV dosyasından veri okuma`
df = pd.read_csv('veri.csv')

`CSV dosyasına veri yazma`
df.to_csv('yeni_veri.csv', index=False)

### Veri Gruplama ve Toplulaştırma: 
Pandas, verileri gruplamak ve bu gruplar üzerinde istatistiksel analizler yapmak için güçlü fonksiyonlar sunar. Örneğin, bir veri kümesindeki yaşa göre ortalama maaşı hesaplayabilirsiniz.

In [17]:
data = {'isim': ['Aslı', 'Merve', 'Ece', 'Fatma'],
        'yaş': [26, 25, 24, 26],
        'maaş': [5000, 6000, 4500, 5500]}
df = pd.DataFrame(data)

# Yaşa göre gruplama ve ortalama maaş hesaplama
print(df.groupby('yaş')['maaş'].mean())

yaş
24    4500.0
25    6000.0
26    5250.0
Name: maaş, dtype: float64


### Zaman Serileri: 
Pandas, tarih ve zaman verileriyle kolayca çalışmayı sağlar. Zaman serileri üzerinde veri analizi yapmak için gelişmiş fonksiyonlar içerir.

In [18]:
tarih = pd.date_range('2023-01-01', periods=6, freq='D')
df = pd.DataFrame({'tarih': tarih, 'değer': [10, 20, 30, 40, 50, 60]})
print(df)

       tarih  değer
0 2023-01-01     10
1 2023-01-02     20
2 2023-01-03     30
3 2023-01-04     40
4 2023-01-05     50
5 2023-01-06     60


# Pandas'a Giriş

## Neden Pandas?
- Kolay ve hızlı veri işleme
- Veri analizi ve veri bilimi projelerinde yaygın kullanım
- Farklı veri kaynaklarından veri okuma ve yazma desteği (CSV, Excel, SQL, vb.)

## Pandas Kurulumu
Python ortamında Pandas kurulumu:
```bash
pip install pandas
```

# Pandas Dizileri (DataFrame ve Series)

## Pandas Dizisi Oluşturma
Pandas ile oluşturduğumuz dizilerin (DataFrame ve Series), Python listeleri veya sözlüklerinden birkaç temel farkı ve benzerlikleri bulunmaktadır. Bunları şu şekilde inceleyebiliriz:

### Benzerlikleri:
- Python listeleri ve sözlükleri gibi birden fazla veri türünü saklayabilir.
- Veri dilimleme ve indeksleme işlemleri yapılabilir.

### Farklılıkları:
- **Python Listesi/Sözlükleri:** Farklı veri türlerini içerebilir ancak satır ve sütun yapısına sahip değildir, bu nedenle büyük verilerle çalışmak daha zordur.
- **Pandas DataFrame:** İki boyutlu bir veri yapısı olup, etiketlenmiş satır ve sütunlar ile daha verimli veri işleme sağlar. Aynı zamanda farklı veri türlerini aynı tabloda tutabilir ve hızlı veri analizi imkanı sunar.
- **Pandas Series:** Tek boyutlu dizilerdir (etiketli veriler içerir), Python listelerine ve NumPy dizilerine benzer, ancak daha fazla fonksiyon ve metod sunar.

## Kütüphanenin projeye dahil edilmesi
- Burada kullandığımız `import` anahtar kelimesi kütüphanemizi projemize eklememizi sağlar.
- Ardından gelen `as` ifadesi, kütüphanemizi projemizde kısaltılmış bir isimle kullanmamızı sağlar (genelde `pd` olarak kullanılır).



In [22]:
import pandas as pd

### 2. Bir Pandas Serisi Oluşturma

Bu, Pandas'da bir **Series** (seri) oluşturur.

In [23]:
seri_a = pd.Series([1,2,3,4,5,6])
print(seri_a)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


### 3. Serinin Tipini Kontrol Etme

Bir nesnenin tipini öğrenmek için kullanılır.

In [24]:
type(seri_a)

pandas.core.series.Series

### 4. Serinin İndekslerine ve Değerlerine Erişmek

- **index**: Serinin indekslerini döndürür.
- **values**: Serinin içerisindeki değerleri döndürür.

In [26]:
seri_a.index

RangeIndex(start=0, stop=6, step=1)

In [27]:
seri_a.values

array([1, 2, 3, 4, 5, 6], dtype=int64)

### 5. Serinin Boyut ve Eleman Sayısını Bulmak

- **ndim**: Serinin boyutunu döndürür.
- **size**: Serinin eleman sayısını döndürür.

In [28]:
seri_a.ndim

1

In [29]:
seri_a.size

6

### 6. İlk ve Son Elemanları Görüntüleme

Serinin ilk ve son elemanlarını görüntüler.

In [31]:
print(seri_a.head(3))

0    1
1    2
2    3
dtype: int64


In [32]:
print(seri_a.tail(4))

2    3
3    4
4    5
5    6
dtype: int64


### 7. Dilimleme ve İndeks Değiştirme

Seriyi dilimleme ve indeksleri değiştirme.

In [33]:
print(seri_a)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


In [34]:
seri_a[:5:2]

0    1
2    3
4    5
dtype: int64

In [35]:
seri_a.index = ['1.sira','2.sira','3.sira','4.sira','5.sira','6.sira']
print(seri_a)

1.sira    1
2.sira    2
3.sira    3
4.sira    4
5.sira    5
6.sira    6
dtype: int64


### 8. İndeks ile Erişim

İndeks kullanarak seriye erişim.

In [36]:
seri_a[3]

  seri_a[3]


4

In [37]:
seri_a['4.sira']

4

In [38]:
seri2 = pd.Series([12,58,64,122,999,-17],
                index=["1.","2.","3.","4.","5.","6."])
seri2

1.     12
2.     58
3.     64
4.    122
5.    999
6.    -17
dtype: int64

In [39]:
seri2["2.":"5.":]

2.     58
3.     64
4.    122
5.    999
dtype: int64

In [40]:
seri2

1.     12
2.     58
3.     64
4.    122
5.    999
6.    -17
dtype: int64

In [41]:
seri2[["2.","3.","4.","5."]] = 0
seri2

1.    12
2.     0
3.     0
4.     0
5.     0
6.   -17
dtype: int64

In [42]:
seri2[["2.","4."]] = 9
seri2

1.    12
2.     9
3.     0
4.     9
5.     0
6.   -17
dtype: int64

### 9. Sözlük Kullanarak Seri Oluşturma

Bir Python sözlüğünü Pandas serisine dönüştürme.

In [43]:
sozluk = {"Ayşe":42, "Elif":27, "Fatma":36}
serisozluk = pd.Series(sozluk)
serisozluk

Ayşe     42
Elif     27
Fatma    36
dtype: int64

In [44]:
serisozluk["Ayşe"]

42

### 10. Rastgele Sayılar ile Seri Oluşturma

Numpy kullanarak rastgele sayılarla Pandas serisi oluşturma.

In [45]:
import numpy as np
randd = np.random.randint(0,10,size=8)
randd

array([1, 0, 0, 8, 1, 3, 1, 2])

In [46]:
randd_to_pandas = pd.Series(randd)
print(randd_to_pandas)

0    1
1    0
2    0
3    8
4    1
5    3
6    1
7    2
dtype: int32


### 11. DataFrame Oluşturma

Pandas'da bir **DataFrame** oluşturma.

In [47]:
df1 = pd.DataFrame([12,0,9,0,9,-56], columns=["sayılar"], index=["1.","2.","3.","4.","5.","6."])
df1

Unnamed: 0,sayılar
1.0,12
2.0,0
3.0,9
4.0,0
5.0,9
6.0,-56


### 12. DataFrame Üzerinde Temel İşlemler

DataFrame'de indeksler, boyut, değerler ve şekil bilgileri.

In [54]:
df1.index

Index(['1.', '2.', '3.', '4.', '5.', '6.'], dtype='object')

In [55]:
df1.ndim

2

In [56]:
df1.values

array([[ 12],
       [  0],
       [  9],
       [  0],
       [  9],
       [-56]], dtype=int64)

In [57]:
df1.columns

Index(['sayılar'], dtype='object')

In [58]:
df1.axes

[Index(['1.', '2.', '3.', '4.', '5.', '6.'], dtype='object'),
 Index(['sayılar'], dtype='object')]

In [59]:
df1.shape

(6, 1)

### 13. Yeni Sütunlar Eklemek

Yeni sütun ekleyerek ve toplama işlemi yaparak DataFrame'e sütun eklemek.

In [87]:
a = np.random.randint(10,size=5)
b = np.random.randint(10,size=5)
c = np.random.randint(10,size=5)
d = np.random.randint(10,size=5)

In [88]:
print(a)
print(b)
print(c)
print(d)

[8 5 9 0 4]
[7 6 2 1 9]
[9 6 8 2 8]
[8 3 4 9 3]


In [89]:
sozluk2 = {"X":a, "Y":b, "Z":c, "E":d}

df2 = pd.DataFrame(sozluk2)
df2

Unnamed: 0,X,Y,Z,E
0,8,7,9,8
1,5,6,6,3
2,9,2,8,4
3,0,1,2,9
4,4,9,8,3


In [90]:
df2[2:][["X","Y","Z","E"]]

Unnamed: 0,X,Y,Z,E
2,9,2,8,4
3,0,1,2,9
4,4,9,8,3


In [91]:
df2

Unnamed: 0,X,Y,Z,E
0,8,7,9,8
1,5,6,6,3
2,9,2,8,4
3,0,1,2,9
4,4,9,8,3


In [92]:
df2["Z"] = [1, 2, 3, 4, 5]  # List with 5 elements
df2

Unnamed: 0,X,Y,Z,E
0,8,7,1,8
1,5,6,2,3
2,9,2,3,4
3,0,1,4,9
4,4,9,5,3


In [93]:
df2["toplam"] = df2["X"]+df2["E"]
df2

Unnamed: 0,X,Y,Z,E,toplam
0,8,7,1,8,16
1,5,6,2,3,8
2,9,2,3,4,13
3,0,1,4,9,9
4,4,9,5,3,7


In [94]:
df2.loc[2, "X"] = 5

In [95]:
df2

Unnamed: 0,X,Y,Z,E,toplam
0,8,7,1,8,16
1,5,6,2,3,8
2,5,2,3,4,13
3,0,1,4,9,9
4,4,9,5,3,7


### 14. DataFrame'de Satır ve Sütun Silme

#### Satır silme

In [96]:
df2.drop(2,axis=0,inplace=True)
df2

Unnamed: 0,X,Y,Z,E,toplam
0,8,7,1,8,16
1,5,6,2,3,8
3,0,1,4,9,9
4,4,9,5,3,7


In [97]:
df2 = df2.drop(1,axis=0)
df2

Unnamed: 0,X,Y,Z,E,toplam
0,8,7,1,8,16
3,0,1,4,9,9
4,4,9,5,3,7


#### Sutun silme

In [99]:
df2.drop("Y", axis=1, inplace=True)
df2

Unnamed: 0,X,Z,E,toplam
0,8,1,8,16
3,0,4,9,9
4,4,5,3,7


### 15. DataFrame'leri Birleştirme

İki DataFrame'i birleştirme ve indeksleri resetliyoruz.

In [100]:
numbers = np.random.randint(40,size=(10,3))
numbers

array([[25, 30, 33],
       [37, 23, 11],
       [14, 31, 12],
       [ 0, 11, 20],
       [38, 36, 39],
       [24, 37, 13],
       [15,  2, 39],
       [13, 28, 21],
       [27,  6, 30],
       [10,  0, 18]])

In [101]:
df4 = pd.DataFrame(numbers,columns=["Col1","Col2","Col3"])
df4

Unnamed: 0,Col1,Col2,Col3
0,25,30,33
1,37,23,11
2,14,31,12
3,0,11,20
4,38,36,39
5,24,37,13
6,15,2,39
7,13,28,21
8,27,6,30
9,10,0,18


In [102]:
df4.loc[0,"Col2"] = 93
df4

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
1,37,23,11
2,14,31,12
3,0,11,20
4,38,36,39
5,24,37,13
6,15,2,39
7,13,28,21
8,27,6,30
9,10,0,18


In [106]:
new_df = df4.iloc[2:5,0:2]
new_df

Unnamed: 0,Col1,Col2
2,14,31
3,0,11
4,38,36


In [107]:
new_df1= df4[df4["Col2"]>25][["Col3","Col1"]]
new_df1

Unnamed: 0,Col3,Col1
0,33,25
2,12,14
4,39,38
5,13,24
7,21,13


In [108]:
df4[(df4["Col1"]>13) & (df4["Col2"] > 25)]

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
2,14,31,12
4,38,36,39
5,24,37,13


In [109]:
df4

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
1,37,23,11
2,14,31,12
3,0,11,20
4,38,36,39
5,24,37,13
6,15,2,39
7,13,28,21
8,27,6,30
9,10,0,18


In [110]:
df5= 0 - df4
df5

Unnamed: 0,Col1,Col2,Col3
0,-25,-93,-33
1,-37,-23,-11
2,-14,-31,-12
3,0,-11,-20
4,-38,-36,-39
5,-24,-37,-13
6,-15,-2,-39
7,-13,-28,-21
8,-27,-6,-30
9,-10,0,-18


In [111]:
df6 = pd.concat([df4,df5])
df6

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
1,37,23,11
2,14,31,12
3,0,11,20
4,38,36,39
5,24,37,13
6,15,2,39
7,13,28,21
8,27,6,30
9,10,0,18


In [113]:
df7 = pd.concat([df4,df5],ignore_index=True)
df7

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
1,37,23,11
2,14,31,12
3,0,11,20
4,38,36,39
5,24,37,13
6,15,2,39
7,13,28,21
8,27,6,30
9,10,0,18


In [112]:
df6.loc[0,:]

Unnamed: 0,Col1,Col2,Col3
0,25,93,33
0,-25,-93,-33


In [117]:
df5.columns = ["col1","col2","col3"]

In [118]:
df5

Unnamed: 0,col1,col2,col3
0,-25,-93,-33
1,-37,-23,-11
2,-14,-31,-12
3,0,-11,-20
4,-38,-36,-39
5,-24,-37,-13
6,-15,-2,-39
7,-13,-28,-21
8,-27,-6,-30
9,-10,0,-18


In [119]:
df8 = pd.concat([df4,df5],ignore_index=True)
print(df8)

    Col1  Col2  Col3  col1  col2  col3
0   25.0  93.0  33.0   NaN   NaN   NaN
1   37.0  23.0  11.0   NaN   NaN   NaN
2   14.0  31.0  12.0   NaN   NaN   NaN
3    0.0  11.0  20.0   NaN   NaN   NaN
4   38.0  36.0  39.0   NaN   NaN   NaN
5   24.0  37.0  13.0   NaN   NaN   NaN
6   15.0   2.0  39.0   NaN   NaN   NaN
7   13.0  28.0  21.0   NaN   NaN   NaN
8   27.0   6.0  30.0   NaN   NaN   NaN
9   10.0   0.0  18.0   NaN   NaN   NaN
10   NaN   NaN   NaN -25.0 -93.0 -33.0
11   NaN   NaN   NaN -37.0 -23.0 -11.0
12   NaN   NaN   NaN -14.0 -31.0 -12.0
13   NaN   NaN   NaN   0.0 -11.0 -20.0
14   NaN   NaN   NaN -38.0 -36.0 -39.0
15   NaN   NaN   NaN -24.0 -37.0 -13.0
16   NaN   NaN   NaN -15.0  -2.0 -39.0
17   NaN   NaN   NaN -13.0 -28.0 -21.0
18   NaN   NaN   NaN -27.0  -6.0 -30.0
19   NaN   NaN   NaN -10.0   0.0 -18.0


In [122]:
end = pd.concat([df4,df5],ignore_index=True,join="outer")
end

Unnamed: 0,Col1,Col2,Col3,col1,col2,col3
0,25.0,93.0,33.0,,,
1,37.0,23.0,11.0,,,
2,14.0,31.0,12.0,,,
3,0.0,11.0,20.0,,,
4,38.0,36.0,39.0,,,
5,24.0,37.0,13.0,,,
6,15.0,2.0,39.0,,,
7,13.0,28.0,21.0,,,
8,27.0,6.0,30.0,,,
9,10.0,0.0,18.0,,,
