# Pandas

## Pandas Nedir?

Pandas, Python programlama dilinde veri analizi ve manipülasyonu için kullandığımız bir kütüphanedir. Veri işleme, temizleme, dönüştürme ve analiz için çeşitli veri yapıları ve fonksiyonlar sunar.  Verileri kolayca yüklememizi, filtrelememizi, sıralamamızı, birleştirmemizi, gruplandırmamızı ve istatiksel analizleri yapmamızı sağlar. Ayrıca, eksik verilerin yönetimi, verilerin zaman serisi analizi ve veri görselleştirme gibi özelliklere de sahiptir.

In [1]:
import pandas as pd
from pandas import read_excel

print("Version of Pandas libary: ", pd.__version__)

Version of Pandas libary:  2.3.2


## Pandas Veri Yapıları

### Seriler

Seriler (Series), Pandas kütüphanesinin temel veri yapılarından biridir. Tek boyutlu ve etiketli bir veri dizisidir.

#### Seri Oluşturma

Seriler, farklı veri tiplerini içererebilir ve etiketlenmiş indekslerle birlikte gelir. Bir seri olulturmak için `pd.Series()` fonksiyonu kullanabiliriz.

In [2]:
seri = pd.Series([10, 20, 30, 40, 50])
print("Seri: \n", seri)

Seri: 
 0    10
1    20
2    30
3    40
4    50
dtype: int64


#### Seri İndeksleme ve Dilimleme

Serilerde indeksleme ve dilimleme yaparak belirli verilere erişebiliriz. Seriye erişmek için indeks değerini kullanabiliriz. Ayrıca, dilimleme işlemiyle bir serinin belirli bir aralığına erişebiliriz.

In [3]:
seri = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Seri: \n", seri)
print("Index 'c': ", seri['c'])
print("Index 'a', 'b', 'e': \n", seri[['a', 'b', 'e']])
print("Index 2nd and 3td: \n", seri[2:4])

Seri: 
 a    10
b    20
c    30
d    40
e    50
dtype: int64
Index 'c':  30
Index 'a', 'b', 'e': 
 a    10
b    20
e    50
dtype: int64
Index 2nd and 3td: 
 c    30
d    40
dtype: int64


#### Seriye Erişim ve Değer Atama

Bir serinin belirli bir indeksine erişmek veya bu indekse bir değer atamak için indeks değerini kullanabiliriz.

In [4]:
seri = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Seri: \n", seri)

print("Index 'b':", seri['b'])
seri['d'] = 45
print("Seri: \n", seri)

Seri: 
 a    10
b    20
c    30
d    40
e    50
dtype: int64
Index 'b': 20
Seri: 
 a    10
b    20
c    30
d    45
e    50
dtype: int64


Serinin indekslerini belirtmek için indeks parametresini kullanıyoruz. Bu örnekte, indeksler olarak `a, b, c, d, e` değerlerini atıyoruz. Bu indeksler, her bir veri değerine karşılık gelir. Yukarıdaki kod, `[10, 20, 30, 40, 50]` veri değerlerine ve `['a', 'b', 'c', 'd', 'e']` indekslerine sahip bir seri oluşturur.

### Veri Çerçeveleri

Veri Çerçeveleri (Data Frames), Pandas kütüphanesinde kullanılan iki boyutlu tablo benzeri veri yapılarıdır. Sütunlar değişkenleri veya özellikleri temsil eder, satırlar veri noktalarını veya gözlemleri temsil eder.

In [5]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88


`pd.DataFrame()` fonksiyonunu kullanarak veri çerçevesini oluşturuyoruz. Bu kod parçası, `Öğrenci`, `Sınıf` ve `Not` sütunlarından oluşan bir veri çerçevesi oluşturur. Her sütunun verileri bir liste olarak belirlenir ve bu sütunlar bir veri çerçevesine birleştirilir. Oluşturulan veri çerçevesi, `df` değişkenine atanır ve daha sonra bu değişken üzerinde veri çerçevesi ile ilgili işlemler yapabiliriz.

#### Veri Çerçevesi İndeksleme ve Dilimleme

 İndeksleme ve dilimleme, veri çerçevesinde belirli satırlara ve sütunlara erişmek için kullanılan işlemlerdir.

In [6]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("------------------------")
print("First row: \n", df.loc[0])
print("------------------------")
print("First and second rows: \n", df.loc[1:2])
print("------------------------")
print("Column of 'Öğrenci': \n", df['Öğrenci'])
print("------------------------")
print("Conditional indexing; Selecting students with a score greater than 85: \n", df[df['Not'] > 85])

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
------------------------
First row: 
 Öğrenci    Ahmet
Sınıf         10
Not           85
Name: 0, dtype: object
------------------------
First and second rows: 
   Öğrenci  Sınıf  Not
1  Mehmet     11   92
2    Ayşe     10   78
------------------------
Column of 'Öğrenci': 
 0     Ahmet
1    Mehmet
2      Ayşe
3     Fatma
Name: Öğrenci, dtype: object
------------------------
Conditional indexing; Selecting students with a score greater than 85: 
   Öğrenci  Sınıf  Not
1  Mehmet     11   92
3   Fatma     12   88


##### İndeksleme

İndeksleme, veri çerçevesindeki belirli satırlara erişmemizi sağlar. İki farklı indeksle yöntemi vardır, bunlar indeks numarası ve indeks etiketidir. İndeks numarısıyla erişim için `loc[]` indeksleme yöntemini kullanırız. Örneğin, `df.loc[0]` ifadesiyle ilk satıra, indeks numarası 0 olan satır, erişebiliriz. İndeks etiketiyle erişim için de `loc[]` indeksleme yöntemini kullanırız. Örneğin, `df.loc[1:2]` ifadesiyle 1. ve 2. satırlara, indeks etiketleri 1 ve 2 olan satırlar, erişebiliriz.

##### Dilimleme

Dilimleme, belirli bir aralıktaki satırlara erişmemizi sağlar. Dilimleme işlemi, `:` operatörüyle gerçekleşir. Örneğin, `df[1:3]` ifadesiyle 1. ve 2. satırlara, indeks numaraları 1 ve 2 olan satırlar, erişebiliriz.

##### Sütun Seçme

Sütun seçme işlemi, veri çerçevesinden belirli sütunları seçmeyi sağlar. Sütun adı kullanılarak sütunlara erişim sağlarız. Örneğin, `df['Öğrenci']`
ifadesiyle `Öğrenci` sütununu seçebiliriz.

##### Koşullu İndeksleme

Koşullu indeksleme, belirli bir koşul sağlayan satırları seçmemizi sağlar. Koşul ifadesi kullanılarak koşullu indeksleme gerçeklerştirilir. Örneğin `df[df['Not'] > 85]` ifadesiyle `Not` sütununda değeri 85' ten büyük olan öğrencileri seçebiliriz.

#### Veri Çerçevesinde Sütun Ekleme, Silme ve Yeniden Adlandırma

##### Sütun Ekleme

Yeni bir sütun eklemek için `[]` operatörünü kullanabiliriz. Yeni sütun adını belirtirken, ilgili sütuna ait verileri de eklemeliyiz. Örneğin, `df['Yaş'] = [15, 16, 15, 17]` ifadesiyle `Yaş` adında bir sütun ekleyebilriz.

In [7]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)

print("------------------------------")

df['Yaş'] = [15, 16, 15, 17]
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
------------------------------
New Data Frame:
   Öğrenci  Sınıf  Not  Yaş
0   Ahmet     10   85   15
1  Mehmet     11   92   16
2    Ayşe     10   78   15
3   Fatma     12   88   17


##### Sütun Silme

Bir sütunu silmek için `drop()` fonksiyonu, `axis` paremetresiyle sütun silme işlemini belirtir. `axis=1` ile sütun silme işlemi gerçekleştirilir. Örneğin, `df.drop('Not', axis=1, inplace=True)` ifadesiyle `Not` sütununu silebiliriz. `inpalace=True` paremetresi, değişikliğin doğrudan veri çerçevesine uygulanmasını sağlar.

In [8]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("----------------------------")

df.drop('Not', axis=1, inplace=True)
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
----------------------------
New Data Frame:
   Öğrenci  Sınıf
0   Ahmet     10
1  Mehmet     11
2    Ayşe     10
3   Fatma     12


##### Sütunu Yeniden Adlandırma

Sütunun adını değiştirmek için `rename()` fonksiyonunu kullanabilriz. `rename()` fonksiyonu, `columns` parametresiyle sütun adınıı değiştirir. Örneğin, `df.rename(columns={'Sınıf': 'Sınıf Seviyesi'}, inplace=True)` ifadesiyle `Sınıf` sütunun adını `Sınıf Seviyesi` olarak değiştirebiliriz. `inplace=True` parametresi değişikliğin doğrudan veri çerçevesine uygulanmasını sağlar.

In [9]:
data = {'Öğrenci': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
        'Sınıf': [10, 11, 10, 12],
        'Not': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print("Data Frame:\n", df)
print("-----------------------------------")

df.rename(columns={'Sınıf': 'Sınıf Seviyesi'}, inplace=True)
print("New Data Frame:\n", df)

Data Frame:
   Öğrenci  Sınıf  Not
0   Ahmet     10   85
1  Mehmet     11   92
2    Ayşe     10   78
3   Fatma     12   88
-----------------------------------
New Data Frame:
   Öğrenci  Sınıf Seviyesi  Not
0   Ahmet              10   85
1  Mehmet              11   92
2    Ayşe              10   78
3   Fatma              12   88


## Veri Setini Tanıma

Pandas kütüphanesinde veri tanıma işlemini, verinin yapısını ve içeriğini anlamak için kullanırız.

### head() Fonksiyonu

Veri çerçevesinin ilk `n` satırını görüntüler.

In [10]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)
print("Top 10 of the Data Frame:\n", df.head(10))

Top 10 of the Data Frame:
      Öğrenci                Ders  Not
0  Süleyaman  Python Programlama   75
1       Ayşe               Fizik   85
2     Mehmet               Kimya   95
3      Ahmet           Matematik   75
4      Aylin               Fizik   80
5    Mustafa               Kimya   92
6       Ebru           Matematik   87
7        Can               Fizik   88
8      Deniz               Kimya   93
9      Gizem           Matematik   82


### info() Fonksiyonu

Veri çerçevesinin genel bilgilerini ve sütunlarını veri tiplerini gösterir.

In [11]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Information of the Data Frame: \n", df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Öğrenci  20 non-null     object
 1   Ders     20 non-null     object
 2   Not      20 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 612.0+ bytes
Information of the Data Frame: 
 None


### describe() Fonksiyonu

Veri çerçevesinin sayısal sütunları için istatistiksel özet bilgileri göstrir.

In [12]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Statistical summary information of the numerical columns of the data frame: \n", df.describe())

Statistical summary information of the numerical columns of the data frame: 
              Not
count  20.000000
mean   85.350000
std     6.166761
min    75.000000
25%    80.750000
50%    85.500000
75%    90.250000
max    95.000000


### shape Özelliği

Veri çerçevesinin satır ve sütun sayısını gösterir.

In [13]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Shape of the data frame: \n", df.shape)

Shape of the data frame: 
 (20, 3)


### columns Özelliği

Sütunların adlarını gösterir.

In [14]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Columns name of the data frame: \n", df.columns)

Columns name of the data frame: 
 Index(['Öğrenci', 'Ders', 'Not'], dtype='object')


### dtypes Özelliği

Sütunların veri tiplerini gösterir.

In [15]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

print("Data types of columns of the data frame: \n", df.dtypes)

Data types of columns of the data frame: 
 Öğrenci    object
Ders       object
Not         int64
dtype: object


## Veri Okuma ve Yazma

Pandas farklı formatlardaki verileri kullanarak okumamıza olanak sağlar. İlgili formatın dosya adını veya bağlantı bilgisini belirterek veri okuma işlemini gerçekleştirebiliriz. Okunan veri, bir Pandas veri
çerçevesi olarak depolanır ve sonrasında manipülasyon veya analiz için kullanılabilir.

### .csv Dosyasından Veri Okuma

In [16]:
df = pd.read_csv('example.csv')
print('Example file: \n', df)

Example file: 
    1  2  3
0  4  5  6
1  7  8  9


### .xlsx (Excel) Dosyasından Veri Okuma

In [26]:
df = read_excel('data.xlsx')
print('Data file: \n', df)

Data file: 
     Öğrenci       Ders  Not
0       Ali  Matematik   90
1      Ayşe      Fizik   85
2    Mehmet      Kimya   95
3     Ahmet  Matematik   75
4     Aylin      Fizik   80
5   Mustafa      Kimya   92
6      Ebru  Matematik   87
7       Can      Fizik   88
8     Deniz      Kimya   93
9     Gizem  Matematik   82
10  İbrahim      Fizik   79
11     Elif      Kimya   91
12    Burak  Matematik   86
13    Fatma      Fizik   89
14     Emre      Kimya   78
15    Ceren  Matematik   83
16      Gül      Fizik   94
17    Kadir      Kimya   81
18     İrem  Matematik   84
19     Ozan      Fizik   90


### .csv Formatında Veri Yazma

`to_csv()` fonksiyonu kullanılarak veri çerçevesi `.csv` formatında belirtilen dosyaya kaydedilir.

In [27]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

df.to_csv('dataset.csv')

### .xlsx (Excel) Formatında Veri Yazma

`to_excel()` fonksiyonu kullanılarak veri çerçevesi `.xlsx` formatında belirtilen dosyaya kaydedilir.

In [28]:
data = {'Öğrenci': ['Süleyaman', 'Ayşe', 'Mehmet', 'Ahmet', 'Aylin', 'Mustafa',
                    'Ebru', 'Can', 'Deniz', 'Gizem', 'İbrahim', 'Elif', 'Burak', 'Fatma', 'Emre', 'Ceren', 'Gül',
                    'Kadir', 'İrem', 'Ozan'],
        'Ders': ['Python Programlama', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya', 'Matematik', 'Fizik', 'Kimya',
                 'Matematik', 'Fizik'],
        'Not': [75, 85, 95, 75, 80, 92, 87, 88, 93, 82, 79, 91, 86, 89, 78, 83, 94, 81, 84, 90]}

df = pd.DataFrame(data)

df.to_excel('dataset.xlsx')

## Veri Temizleme ve Düzenleme

Veri temizleme ve düzenleme, veri analizi ve makine öğrenimi gibi veri odaklı işlemler için oldukça önemli bir adımdır. Veri temizleme ve düzenlemenin önemli nedenleri:

`Veri Kalitesini Artırma:` Veri temizleme ve düzenleme işlemleri, veri setindeki hataları, eksik değerleri, aykırı verileri ve tutarsızlıkları tespit ederek düzeltmeyi amaçlar. Bu sayede veri kalitesi artar ve daha güvenilir sonuçlar elde edilir.

`Yanlış veya Eksik Verileri Düzeltme:` Veri setlerinde yanlış veya eksik veriler olabilir. Bu, el ile girilen hatalı veriler, ölçüm hataları veya eksik veri noktaları olabilir. Veri temizleme ve düzenleme işlemleri, bu hataları tespit ederek düzeltmeyi sağlar veya eksik verileri doldurur.

`Aykırı Verilerin Tespiti ve İşleme:` Aykırı veriler, diğer verilere kıyasla önemli ölçüde farklı olan ve genellikle hatalı veya istisnai değerleri temsil eden verilerdir. Aykırı veriler, analiz sonuçlarını yanıltabilir. Veri temizleme ve düzenleme işlemleri, aykırı verileri tespit etmeyi ve ugyun şekilde işlemeyi sağlar.

`Veri Tutarlılığı Sağlama:` Veri setleri genellikle farklı kaynaklardan veya farklı formatlardan toplanır. Bu nedenle, veri setinde tutarsızlıklar olabilir. Veri temizleme ve düzenleme işlemleri, veri tutarlılığını sağlamak için farklı kaynaklardan gelen verileri birleştirme, veri formatını standartlaştırma ve tutarsızlıkları düzelme işlemlerini gerçekleştirir.

`Analiz ve Modelleme Performansını Artırma:` Veri setlerindeki temileme ve düzenleme işlemleri, verinin analizi ve molleme aşamalarında daha iyi performans elde etmeyi sağlar. Temiz ve düzenli veri setleri, daha doğru sonuçlar elde etmek, model performansını arttırmak ve daha güvenilir kararlar almak için önemlidir.

`Veri Uyumluluğunu Sağlama:` Farklı veri kaynaklarından gelen veriler genellikle farklı formatlarda olabilir. Veri temizleme ve düzenleme işlemleri, veri uyumluluğunu sağlamak için veri formatlarını dönüştürme, veri tiplerini uyarlama ve veri birleştirme gibi işlemleri gerçekleştirir.

Veri temizleme ve düzenleme işlemleri, verinin sağlıklı bir şekilde analiz edilmesi ve makine öğrenimi modellerinin doğru çalışması için kritik öneme sahiptir. Bu işlemler, veri setinin güvenilirliğini artırır, analiz sonuçlarının doğruluğunu sağlar ve veri tabanlı karar verme süreçlerinde güvenilir bir temel oluşturur.

### Eksik Veriler ile Başa Çıkma

Hangi yöntemin kullanılacağı, veri yapısına, amaca ve analiz senaryosuna bağlı olarak belirlenmelidir.

#### Eksik Verileri Silme

In [29]:
df = pd.DataFrame({'A' : [1, 2, None, 4, 5],
                   'B' : [None, 6, 7, None, 9]})

df.dropna(inplace=True)
print("Data Frama: \n", df)

Data Frama: 
      A    B
1  2.0  6.0
4  5.0  9.0


`dropna()` fonksiyonu ile eksik veriye sahip olan satır ve sütunları silebiliriz. `inplace=True` parametresi, işlemi veri çerçevesi üzerinde gerçekleştirir ve orijinal veri çerçevesini değiştirir.

#### Eksik Verileri Doldurma

In [30]:
df = pd.DataFrame({'A' : [1, 2, None, 4, 5],
                   'B' : [None, 6, 7, None, 9]})

df.fillna(0, inplace=True)
print("Data Frama: \n", df)

Data Frama: 
      A    B
0  1.0  0.0
1  2.0  6.0
2  0.0  7.0
3  4.0  0.0
4  5.0  9.0


`fillna()` fonksiyonunu kullanarak eksik verileri belirli bir değerle doldururuz. Yukarıdaki örnekte, eksik verileri 0 değeriyle doldurdurk.

#### Eksik Verileri Ortalama Değerle Doldurma

In [33]:
df = pd.DataFrame({'A' : [1, 2, None, 4, 5],
                   'B' : [None, 6, 7, None, 9]})

df.fillna({'A': df['A'].mean(), 'B': df['B'].mean()}, inplace=True)
print("Data Frama: \n", df)

Data Frama: 
      A         B
0  1.0  7.333333
1  2.0  6.000000
2  3.0  7.000000
3  4.0  7.333333
4  5.0  9.000000


`mean()` fonksiyonunu kullanarak sütununm ortalamasını hesaplarız ve eksik verileri bu değerle doldururuz.

#### Eksik Verileri İleriye Doğru Doldurma

In [41]:
df = pd.DataFrame({'A' : [1, 2, None, 4, 5],
                   'B' : [None, 6, 7, None, 9]})

df.ffill(inplace=True)
print("Data Frama: \n", df)

Data Frama: 
      A    B
0  1.0  NaN
1  2.0  6.0
2  2.0  7.0
3  4.0  7.0
4  5.0  9.0


`ffill()` fonksiyonunu kullanarak eksik verileri, eksik verinin bir önceki değeriyle doldururuz.

#### Eksik Verileri Geriye Doğru Doldurma

`bfill()` fonksiyonu ile eksik verileri, eksik verinin bir sonraki değeriyle doldururuz. Bu yöntem, zaman serileri veya ardışık değerelere sahip verilerin doldurulmasında kullanışlı olabilir.

Eksik verileri ileriye veya geriye doğru doldurma yöntemleri, eksik değerleri yakınsayan değerlerle doldurarak veri setinin tutarlılığını korur.

### Veri Türlerini Dönüştürme

Veri türlerini doğru şekilde dönüştürmek, veri analizi ve işlme süreçlerinde verinin doğruluğunu, uyumluluğunu, bellek kullanımını ve görseleştirmelerin etkinliğini sağlar. BU nedenle, veri türü dönüşümleri veri yönetimi ve veri analitiği süreçlerinin önemli parçasıdır.

#### Veri Türlerini Dönüştürme

In [42]:
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4.5, 5.6, 6.7],
                   'C': ['7', '8', '9']})

df['A'] = df['A'].astype(float)
df['B'] = df['B'].astype(int)
df['C'] = df['C'].astype(str)

print("Data Frama: \n", df)

Data Frama: 
      A  B  C
0  1.0  4  7
1  2.0  5  8
2  3.0  6  9


Yukarıdaki örnekte, `astype()` fonksiyonunu kullanarak `A` sütununu tam sayı veri tipinden kayar noktalı veri tipine, `B` sütununu kayar noktalı veri tipinden tam sayı veri tipine dönüştürüyoruz. `C` sütunu ise zaten dize olarak tanımlanmış olduğu için herhangi bir dönüşüm yapılmıyor.

#### Tarih ve Saat Dönüşümleri

In [46]:
df = pd.DataFrame({'Tarih': ['2021-01-01', '2022-02-02', '2023-03-03'],
                   'Saat': ['12:00:00', '13:30:00', '15:45:00']})

df['Tarih'] = pd.to_datetime(df['Tarih'])
df['Saat'] = pd.to_datetime(df['Saat'], format='%H:%M:%S').dt.time


print("Data Frama: \n", df)

Data Frama: 
        Tarih      Saat
0 2021-01-01  12:00:00
1 2022-02-02  13:30:00
2 2023-03-03  15:45:00


Yukarıdaki örnekte, `to_datetime()` fonksiyonunu kullanarak `Tarih` sütununu `datetime64` veri türüne dönüştürüyoruz. `Saat` sütunu ise `to_datetime()` fonksiyonu ile `datetiem64` veri türüne dönüştürüyoruz.

### Veri Çerçevesinde Sütunları Yeniden Şekillendirme ve Dönüştürme

Veri çerçevesinde sütunları yenien sekillendirmeve dönüştürme işlemleri, verinin analizi, işlenmesi veya raporlanması için gereken uygun formata getirilmesini sağlar.

#### Sütunları Dönüştürme

In [47]:
df = pd.DataFrame({'Kategori': ['A', 'B', 'C'],
                   'Değer': [10, 20, 30]})

df['Yeni_Kategori'] = df['Kategori'].apply(lambda x: x.lower())
print("Data Frama: \n", df)

Data Frama: 
   Kategori  Değer Yeni_Kategori
0        A     10             a
1        B     20             b
2        C     30             c


Yukarıdaki örnekte, `apply()` ve `lambda`  fonksiyonlarını kullanarak `Kategori` sütununu küçük harfe dönüştürerek `Yeni_Kategori` sütununu oluşturduk.

#### Sütunları Yeniden Şekillendirme

In [48]:
df = pd.DataFrame({'Öğrenci': ['Ali', 'Ayşe', 'Mehmet'],
                   'Ders': ['Matematik', 'Fizik', 'Kimya'],
                   'Not': [90, 85, 95]})

dfPivot = df.pivot(index='Öğrenci', columns='Ders', values='Not')
print("Data Frama: \n", dfPivot)

Data Frama: 
 Ders     Fizik  Kimya  Matematik
Öğrenci                         
Ali        NaN    NaN       90.0
Ayşe      85.0    NaN        NaN
Mehmet     NaN   95.0        NaN


Yukarıdaki örnekte, `pivot()` fonksiyonu kullanılarak `Ders` sütunu sütunlara, `Öğrenci` sütunu ise satırlara dönüştürülerek yeni bir veri çerçevesi oluşturduk. Bu işlem, her öğrencinin aldığı ders notlarını daha düzenli bir şekilde göstermek için kullanılır.

#### Sütunları Birleştirme

In [49]:
df1 = pd.DataFrame({'Öğrenci': ['Ali', 'Ayşe', 'Mehmet'],
                    'Ders1': [90, 85, 95]})
df2 = pd.DataFrame({'Öğrenci': ['Ali', 'Ayşe', 'Mehmet'],
                    'Ders2': [80, 75, 85]})

dfMerge = pd.merge(df1, df2, on='Öğrenci')
print("Data Frama: \n", dfMerge)

Data Frama: 
   Öğrenci  Ders1  Ders2
0     Ali     90     80
1    Ayşe     85     75
2  Mehmet     95     85


Yukarıdaki örnekte, `merge()` fonksiyonu kullanılarak oluşturduğmuz iki ayrı veri çerçevesi `df1` ve `df2` öğrencilere ait ders notlarını içerir. Bu iki çerçeveyi, `Öğrenci` sütunu üzerinden birleştirerek tek bir veri çerçevesi oluşturduk.

#### Veri Çerçevesindeki Tekrar Eden veya Gereksiz Verileri Kaldırma

Veri çerçevesindeki tekrar eden veya gereksiz verileri kaldırm işlemei, verinin temizlenmesi, veri analizi ve işleme süreçlerinde daha doğru sonuçlar elde etmek için yapılır. Bu işlem veri tutarsızlığını giderme, analiz ve modelleme doğruluğunu artırma, veri boyutunu azaltma gibi nedenlerle gerçekleştirilir.

In [50]:
df = pd.DataFrame({'Kategori': ['A', 'B', 'C', 'A', 'B'],
                   'Değer': [10, 20, 30, 10, 40]})

dfUnique = df.drop_duplicates()
print("Data Frama: \n", dfUnique)

Data Frama: 
   Kategori  Değer
0        A     10
1        B     20
2        C     30
4        B     40


Yukarıdaki örnekte, `drop_duplicates()` fonksiyonunu kullanarak oluşturduğumuz `df` veri çerçevesinde tekrar eden satırlar kaldırılır ve `dfUnique` adında yeni bir veri çerçevesi oluştururuz. Bu işlem, aynı kategoriye sahip tekrar eden verilerin kaldırılmasını sağlar.