# Pandas

## Pandas Nedir?

Pandas, Python programlama dilinde veri analizi ve manipülasyonu için kullandığımız bir kütüphanedir. Veri işleme, temizleme, dönüştürme ve analiz için çeşitli veri yapıları ve fonksiyonlar sunar.  Verileri kolayca yüklememizi, filtrelememizi, sıralamamızı, birleştirmemizi, gruplandırmamızı ve istatiksel analizleri yapmamızı sağlar. Ayrıca, eksik verilerin yönetimi, verilerin zaman serisi analizi ve veri görselleştirme gibi özelliklere de sahiptir.

In [1]:
import pandas as pd

print("Version of Pandas libary: ", pd.__version__)

Version of Pandas libary:  2.3.2


## Pandas Veri Yapıları

### Seriler

Seriler (Series), Pandas kütüphanesinin temel veri yapılarından biridir. Tek boyutlu ve etiketli bir veri dizisidir.

#### Seri Oluşturma

Seriler, farklı veri tiplerini içererebilir ve etiketlenmiş indekslerle birlikte gelir. Bir seri olulturmak için `pd.Series()` fonksiyonu kullanabiliriz.

In [6]:
seri = pd.Series([10, 20, 30, 40, 50])
print("Seri: \n", seri)

Seri: 
 0    10
1    20
2    30
3    40
4    50
dtype: int64


#### Seri İndeksleme ve Dilimleme

Serilerde indeksleme ve dilimleme yaparak belirli verilere erişebiliriz. Seriye erişmek için indeks değerini kullanabiliriz. Ayrıca, dilimleme işlemiyle bir serinin belirli bir aralığına erişebiliriz.

In [10]:
seri = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Seri: \n", seri)
print("Index 'c': ", seri['c'])
print("Index 'a', 'b', 'e': \n", seri[['a', 'b', 'e']])
print("Index 2nd and 3td: \n", seri[2:4])

Seri: 
 a    10
b    20
c    30
d    40
e    50
dtype: int64
Index 'c':  30
Index 'a', 'b', 'e': 
 a    10
b    20
e    50
dtype: int64
Index 2 and 3: 
 c    30
d    40
dtype: int64


#### Seriye Erişim ve Değer Atama

Bir serinin belirli bir indeksine erişmek veya bu indekse bir değer atamak için indeks değerini kullanabiliriz.

In [11]:
seri = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Seri: \n", seri)

print("Index 'b':", seri['b'])
seri['d'] = 45
print("Seri: \n", seri)

Seri: 
 a    10
b    20
c    30
d    40
e    50
dtype: int64
Index 'b': 20
Seri: 
 a    10
b    20
c    30
d    45
e    50
dtype: int64


Serinin indekslerini belirtmek için indeks parametresini kullanıyoruz. Bu örnekte, indeksler olarak `a, b, c, d, e` değerlerini atıyoruz. Bu indeksler, her bir veri değerine karşılık gelir. Yukarıdaki kod, `[10, 20, 30, 40, 50]` veri değerlerine ve `['a', 'b', 'c', 'd', 'e']` indekslerine sahip bir seri oluşturur.

### Veri Çerçeveleri

Veri Çerçeveleri (Data Frames), Pandas kütüphanesinde kullanılan iki boyutlu tablo benzeri veri yapılarıdır. Sütunlar değişkenleri veya özellikleri temsil eder, satırlar veri noktalarını veya gözlemleri temsil eder.

In [12]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88


`pd.DataFrame()` fonksiyonunu kullanarak veri çerçevesini oluşturuyoruz. Bu kod parçası, `Öğrenci`, `Sınıf` ve `Not` sütunlarından oluşan bir veri çerçevesi oluşturur. Her sütunun verileri bir liste olarak belirlenir ve bu sütunlar bir veri çerçevesine birleştirilir. Oluşturulan veri çerçevesi, `df` değişkenine atanır ve daha sonra bu değişken üzerinde veri çerçevesi ile ilgili işlemler yapabiliriz.

#### Veri Çerçevesi İndeksleme ve Dilimleme

 İndeksleme ve dilimleme, veri çerçevesinde belirli satırlara ve sütunlara erişmek için kullanılan işlemlerdir.

In [23]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("------------------------")
print("First row: \n", df.loc[0])
print("------------------------")
print("First and second rows: \n", df.loc[1:2])
print("------------------------")
print("Column of 'Öğrenci': \n", df['Öğrenci'])
print("------------------------")
print("Conditional indexing; Selecting students with a score greater than 85: \n", df[df['Not'] > 85])

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
------------------------
First row: 
 Öğrenci    Ahmet
Sınıf         10
Not           85
Name: 0, dtype: object
------------------------
First and second rows: 
   Öğrenci  Sınıf  Not
1  Mehmet     11   92
2    Ayşe     10   78
------------------------
Column of 'Öğrenci': 
 0     Ahmet
1    Mehmet
2      Ayşe
3     Fatma
Name: Öğrenci, dtype: object
------------------------
Conditional indexing; Selecting students with a score greater than 85: 
   Öğrenci  Sınıf  Not
1  Mehmet     11   92
3   Fatma     12   88


##### İndeksleme

İndeksleme, veri çerçevesindeki belirli satırlara erişmemizi sağlar. İki farklı indeksle yöntemi vardır, bunlar indeks numarası ve indeks etiketidir. İndeks numarısıyla erişim için `loc[]` indeksleme yöntemini kullanırız. Örneğin, `df.loc[0]` ifadesiyle ilk satıra, indeks numarası 0 olan satır, erişebiliriz. İndeks etiketiyle erişim için de `loc[]` indeksleme yöntemini kullanırız. Örneğin, `df.loc[1:2]` ifadesiyle 1. ve 2. satırlara, indeks etiketleri 1 ve 2 olan satırlar, erişebiliriz.

##### Dilimleme

Dilimleme, belirli bir aralıktaki satırlara erişmemizi sağlar. Dilimleme işlemi, `:` operatörüyle gerçekleşir. Örneğin, `df[1:3]` ifadesiyle 1. ve 2. satırlara, indeks numaraları 1 ve 2 olan satırlar, erişebiliriz.

##### Sütun Seçme

Sütun seçme işlemi, veri çerçevesinden belirli sütunları seçmeyi sağlar. Sütun adı kullanılarak sütunlara erişim sağlarız. Örneğin, `df['Öğrenci']`
ifadesiyle `Öğrenci` sütununu seçebiliriz.

##### Koşullu İndeksleme

Koşullu indeksleme, belirli bir koşul sağlayan satırları seçmemizi sağlar. Koşul ifadesi kullanılarak koşullu indeksleme gerçeklerştirilir. Örneğin `df[df['Not'] > 85]` ifadesiyle `Not` sütununda değeri 85' ten büyük olan öğrencileri seçebiliriz.

#### Veri Çerçevesinde Sütun Ekleme, Silme ve Yeniden Adlandırma

##### Sütun Ekleme

Yeni bir sütun eklemek için `[]` operatörünü kullanabiliriz. Yeni sütun adını belirtirken, ilgili sütuna ait verileri de eklemeliyiz. Örneğin, `df['Yaş'] = [15, 16, 15, 17]` ifadesiyle `Yaş` adında bir sütun ekleyebilriz.

In [25]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)

print("------------------------------")

df['Yaş'] = [15, 16, 15, 17]
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
------------------------------
New Data Frame:
   Öğrenci  Sınıf  Not  Yaş
0   Ahmet     10   85   15
1  Mehmet     11   92   16
2    Ayşe     10   78   15
3   Fatma     12   88   17


##### Sütun Silme

Bir sütunu silmek için `drop()` fonksiyonu, `axis` paremetresiyle sütun silme işlemini belirtir. `axis=1` ile sütun silme işlemi gerçekleştirilir. Örneğin, `df.drop('Not', axis=1, inplace=True)` ifadesiyle `Not` sütununu silebiliriz. `inpalace=True` paremetresi, değişikliğin doğrudan veri çerçevesine uygulanmasını sağlar.

In [26]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("----------------------------")

df.drop('Not', axis=1, inplace=True)
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
----------------------------
New Data Frame:
   Öğrenci  Sınıf
0   Ahmet     10
1  Mehmet     11
2    Ayşe     10
3   Fatma     12


##### Sütunu Yeniden Adlandırma

Sütunun adını değiştirmek için `rename()` fonksiyonunu kullanabilriz. `rename()` fonksiyonu, `columns` parametresiyle sütun adınıı değiştirir. Örneğin, `df.rename(columns={'Sınıf': 'Sınıf Seviyesi'}, inplace=True)` ifadesiyle `Sınıf` sütunun adını `Sınıf Seviyesi` olarak değiştirebiliriz. `inplace=True` parametresi değişikliğin doğrudan veri çerçevesine uygulanmasını sağlar.

In [28]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("-----------------------------------")

df.rename(columns={'Sınıf': 'Sınıf Seviyesi'}, inplace=True)
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
-----------------------------------
New Data Frame:
   Öğrenci  Sınıf Seviyesi  Not
0   Ahmet              10   85
1  Mehmet              11   92
2    Ayşe              10   78
3   Fatma              12   88


## Veri Setini Tanıma

Pandas kütüphanesinde veri tanıma işlemini, verinin yapısını ve içeriğini anlamak için kullanırız.

### head() Fonksiyonu

Veri çerçevesinin ilk `n` satırını görüntüler.

In [31]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)
print("Top 10 of the Data Frame:\n", df.head(10))

Top 10 of the Data Frame:
      Öğrenci                Ders  Not
0  Süleyaman  Python Programlama   75
1       Ayşe               Fizik   85
2     Mehmet               Kimya   95
3      Ahmet           Matematik   75
4      Aylin               Fizik   80
5    Mustafa               Kimya   92
6       Ebru           Matematik   87
7        Can               Fizik   88
8      Deniz               Kimya   93
9      Gizem           Matematik   82


### info() Fonksiyonu

Veri çerçevesinin genel bilgilerini ve sütunlarını veri tiplerini gösterir.

In [32]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Information of the Data Frame: \n", df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Öğrenci  20 non-null     object
 1   Ders     20 non-null     object
 2   Not      20 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 612.0+ bytes
Information of the Data Frame: 
 None
