
# Pandas



   Pandas is an open-source Python library used for data manipulation and analysis. It provides data structures and functions for quickly and easily working with structured data.

The two main data structures in Pandas are Series and DataFrame. A Series is a one-dimensional array-like object that can hold any data type. A DataFrame is a two-dimensional table-like data structure consisting of rows and columns, similar to a spreadsheet.

Pandas provides a wide range of functionality for handling missing data, merging and joining datasets, grouping data, filtering and selecting data, and handling time-series data, among other things. It also integrates with other popular Python libraries, such as NumPy and Matplotlib.

Overall, Pandas is a powerful tool for data analysis and is widely used in both academia and industry.

In [2]:
t = (1,2,3,4)

t[1:3]

(2, 3)

In [1]:
#importing the Pandas library.

import pandas as pd

dictionary = {"name":["ali","veli","zübeyde","ahmet","kubra","can"],
             "age":[12,34,56,78,None,12],
             "note":[123,456,78,87654,None,89]}

dataframe1 = pd.DataFrame(dictionary) 
print(dataframe1)



      name   age     note
0      ali  12.0    123.0
1     veli  34.0    456.0
2  zübeyde  56.0     78.0
3    ahmet  78.0  87654.0
4    kubra   NaN      NaN
5      can  12.0     89.0


In [None]:
import pandas as pd

# Read the CSV file into a DataFrame
df = pd.read_csv("C:/Users/Beyza/Desktop/data.csv")

# Print the contents of the DataFrame
print(df)


arraylerin aynı uzunlukta olması gerekiyor burada aynı uzunlukta olması için None ifadesini yazdım hata vermemesi için.

In [2]:
head = dataframe1.head() 
print(head)

      name   age     note
0      ali  12.0    123.0
1     veli  34.0    456.0
2  zübeyde  56.0     78.0
3    ahmet  78.0  87654.0
4    kubra   NaN      NaN



Bu işlem bir datayı import ettiğimizde datanın içeriğine kısaca bakmak için kullanabiliriz


In [3]:
tail = dataframe1.tail()
print(tail)

      name   age     note
1     veli  34.0    456.0
2  zübeyde  56.0     78.0
3    ahmet  78.0  87654.0
4    kubra   NaN      NaN
5      can  12.0     89.0



tail ise head ile aynı işlevdedir sadece baştan değil sondan 5 satırı verir

tail ve head de parantez içine bir sayı yazarsak o kadar sayıyı baştan veya sondan döner. Bir şey yazılmaz ise default sayı 5'dir.



# Pandas Basic Method 


In [4]:
print(dataframe1.columns) # sutunlarin isimlerini verir

Index(['name', 'age', 'note'], dtype='object')



isimlerde değişiklik veya isimlere göre filtreleme yapacağımız zaman işimize yarayacak


In [5]:
print(dataframe1.info()) #dataframe hakkında bilgi verir

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   note    5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 272.0+ bytes
None


In [6]:
#print(dataframe1.dtypes) dataframe'in her bir column'ın type'ını verir

name     object
age     float64
note    float64
dtype: object


In [7]:
print(dataframe1.describe()) 

             age         note
count   5.000000      5.00000
mean   38.400000  17680.00000
std    28.684491  39116.96814
min    12.000000     78.00000
25%    12.000000     89.00000
50%    34.000000    123.00000
75%    56.000000    456.00000
max    78.000000  87654.00000



age ve note future'larını verdi fakat name future'ını vermedi çünkü name nümerik değil. Describe sadece nümerik future'larını verir
bu tabloda ise data future değerlerinin ortalamalrı min max ları medyan değerleri vb verdi.



# Indexing And Slicing


In [8]:
print(dataframe1["name"]) 
print(dataframe1.loc[:, "age"])                      #   sadece isimleri getirir
dataframe1["yeni_future"] = [1,2,3,4,5,6]
print(dataframe1.loc[:3,"age"]) 
print(dataframe1.loc[:3, "name":"note"])                 #name den note'a kadar olan kolonların ilk 3 satırını yazdırır
print(dataframe1.loc[::-1])                           #indexleri tersten yazdırdı


0        ali
1       veli
2    zübeyde
3      ahmet
4      kubra
5        can
Name: name, dtype: object


In [9]:
 #yeni future tanımlandı
print(dataframe1.yeni_future) 

0   -1
1   -4
2   -6
3   -8
4   -4
5    0
Name: yeni_future, dtype: int64


In [10]:
print(dataframe1.loc[:, "age"]) # sutun getirmenin bir başka yolu

0    12.0
1    34.0
2    56.0
3    78.0
4     NaN
5    12.0
Name: age, dtype: float64



futureları kullanırken köşeli parantez içinde, direk veya .loc[:,"future ismi"]) gibi yazabiliriz. Bunlar doğru kullanımlardır.


In [11]:
print(dataframe1.loc[:3,"age"]) 

0    12.0
1    34.0
2    56.0
3    78.0
Name: age, dtype: float64



istediğimiz sayıda ve yerde sutunu getirebiliriz yukarıdaki age sutununun ilk 3 satırını getiriyor 
farklı olarak pandas da 3 dahil 3 index numarası yani index 0  dan başladığı için ilk 4 elemenaı getirir. 
Numpyda yazılan sayı dahil değildir.


In [12]:
print(dataframe1.loc[:3, "name":"note"]) #name den note'a kadar olan kolonların ilk 3 satırını yazdırdı 3 dahil

      name   age     note
0      ali  12.0    123.0
1     veli  34.0    456.0
2  zübeyde  56.0     78.0
3    ahmet  78.0  87654.0


In [13]:
print(dataframe1.loc[:3, ["name","note"]]) #sadece name ve notun 3. indeksine kadar yazdırır

      name     note
0      ali    123.0
1     veli    456.0
2  zübeyde     78.0
3    ahmet  87654.0


In [14]:
print(dataframe1.loc[::-1]) #indexleri tersten yazdırdı

      name   age     note  yeni_future
5      can  12.0     89.0            0
4    kubra   NaN      NaN           -4
3    ahmet  78.0  87654.0           -8
2  zübeyde  56.0     78.0           -6
1     veli  34.0    456.0           -4
0      ali  12.0    123.0           -1


In [15]:
print(dataframe1.loc[:,:"age"]) #age kadar olan tüm satırları yazdırdı. age dahil

      name   age
0      ali  12.0
1     veli  34.0
2  zübeyde  56.0
3    ahmet  78.0
4    kubra   NaN
5      can  12.0


In [16]:
print(dataframe1.iloc[:,[2]]) #2. indeksdeki kolonun tüm satırlarını verir

      note
0    123.0
1    456.0
2     78.0
3  87654.0
4      NaN
5     89.0



loc ile iloc'un fakı biri location biri int location diğerinde string olarak arayabiliyorduk iloc'da ise sadece int değerleri yani indeksleri vererek arama yapabiliyoruz.



# Filtering Pandas Data Frame



Kurallar dahilinde datanın filtrelenip veri elde edilmesinde filtering metodu kullanılır


In [17]:
filtre1 = dataframe1.age>10                           #yaşı 10'dan büyük olanlar filtrelendi
dataframe1["bool"]= filtre1
print(dataframe1.loc[:,["age","bool"]])

    age   bool
0  12.0   True
1  34.0   True
2  56.0   True
3  78.0   True
4   NaN  False
5  12.0   True


In [18]:
type(filtre1) #nupmy'da vektör denilirken pandas'da ise tipine series deniliyor. Serilerin birleşimine ise dataframe denir.

pandas.core.series.Series

In [19]:
filtrelenmis_data= dataframe1[filtre1] #dataframe'i filtrelemiş olduk, sadece koşulu sağlayan indeksler yazıldı
print(filtrelenmis_data)


      name   age     note  yeni_future  bool
0      ali  12.0    123.0           -1  True
1     veli  34.0    456.0           -4  True
2  zübeyde  56.0     78.0           -6  True
3    ahmet  78.0  87654.0           -8  True
5      can  12.0     89.0            0  True


In [20]:
filtre2 = dataframe1.note>100
filtrelenmis_data2 = dataframe1[filtre2&filtre1] #iki filtre birden uyguladık
print(filtrelenmis_data2)


    name   age     note  yeni_future  bool
0    ali  12.0    123.0           -1  True
1   veli  34.0    456.0           -4  True
3  ahmet  78.0  87654.0           -8  True


In [21]:
dataframe1[dataframe1.age>20] #bu şekildede filtreleme uygulayabiliriz

Unnamed: 0,name,age,note,yeni_future,bool
1,veli,34.0,456.0,-4,True
2,zübeyde,56.0,78.0,-6,True
3,ahmet,78.0,87654.0,-8,True



# List Comprehension


In [22]:
import numpy as np
ortalama = dataframe1.note.mean() #pandas ile ortalama bulma 
print(ortalama)
ortlama_np= np.mean(dataframe1.note) #numpy ile ortalama bulma
print(ortlama_np)

17680.0
17680.0


In [23]:
dataframe1.dropna(inplace=True) #dropna ile NaN değerleri sildik 
dataframe1


Unnamed: 0,name,age,note,yeni_future,bool
0,ali,12.0,123.0,-1,True
1,veli,34.0,456.0,-4,True
2,zübeyde,56.0,78.0,-6,True
3,ahmet,78.0,87654.0,-8,True
5,can,12.0,89.0,0,True



inplace=True parametresini vermezsek NaN değerleri tekrar gelecektir. Bunun için pandas'ın inplace=True paramtresini kullanarak değişiklikleri kalıcı hale getirebiliriz. 


In [25]:
print(dataframe1.note.mean()) #ortalama not hesabı
#ortalamaya bakarak üstünde vya altında olduğunu yazdırma
dataframe1["ortalama"]= ["ortalamanın altında" if dataframe1.note.mean()>each else "ortalamanın üstünde" for each in dataframe1.note]
dataframe1


17680.0


Unnamed: 0,name,age,note,yeni_future,bool,durum,ortalama
0,ali,12.0,123.0,-1,True,kaldı,ortalamanın altında
1,veli,34.0,456.0,-4,True,geçti,ortalamanın altında
2,zübeyde,56.0,78.0,-6,True,kaldı,ortalamanın altında
3,ahmet,78.0,87654.0,-8,True,geçti,ortalamanın üstünde
4,can,12.0,89.0,0,True,kaldı,ortalamanın altında



List comprehension sayesinde tek bir satırda for ve if kullanıp, extra print yazmadan dataframe1 de yeni bir future açıp doldurduk.


In [26]:
dataframe1.columns = [each.upper() for each in dataframe1.columns]
dataframe1.columns

Index(['NAME', 'AGE', 'NOTE', 'YENI_FUTURE', 'BOOL', 'DURUM', 'ORTALAMA'], dtype='object')

upper() metoduyla tüm kolon adlarını büyük harfe çevirdik. Bunu datasetimiz karışık olduğunda mesela büyük küçük harf gererksiz harf ve boşluklar var bunları toplu halde düzeltmek için kullanırız.

In [27]:
dataframe1["yeni2_future"]=[1,1,1,1,1]
dataframe1.columns = [each.split('_')[0]+" "+each.split('_')[1] if len(each.split('_'))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI FUTURE,BOOL,DURUM,ORTALAMA,yeni2 future
0,ali,12.0,123.0,-1,True,kaldı,ortalamanın altında,1
1,veli,34.0,456.0,-4,True,geçti,ortalamanın altında,1
2,zübeyde,56.0,78.0,-6,True,kaldı,ortalamanın altında,1
3,ahmet,78.0,87654.0,-8,True,geçti,ortalamanın üstünde,1
4,can,12.0,89.0,0,True,kaldı,ortalamanın altında,1


Normalde yeni future'ın arasında boşluk vardı split() fonksiyonu yardımıyla her bir future'da aradaki boşluk olan yere _ koyabilirken burada yeni2_future'u yeni2 future yaptık. Bu işlem büyük datasetlerdeki düzensizliği ve oluşabilecek sorunları önlemek için kullanılmaktadır. 

In [28]:
dataframe1.columns = [ each.split(" ")[0]+"_"+each.split(" ")[1] if len(each.split(" "))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI_FUTURE,BOOL,DURUM,ORTALAMA,yeni2_future
0,ali,12.0,123.0,-1,True,kaldı,ortalamanın altında,1
1,veli,34.0,456.0,-4,True,geçti,ortalamanın altında,1
2,zübeyde,56.0,78.0,-6,True,kaldı,ortalamanın altında,1
3,ahmet,78.0,87654.0,-8,True,geçti,ortalamanın üstünde,1
4,can,12.0,89.0,0,True,kaldı,ortalamanın altında,1


yukarda hep columns'ları _ ile tanımladığımzdan sorun çıkmasın diye tekrar eski haline döndürdük

# Concatenating Data

In [29]:
dataframe1.drop(["yeni2_future","YENI_FUTURE"],axis=1,inplace=True)
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,DURUM,ORTALAMA
0,ali,12.0,123.0,True,kaldı,ortalamanın altında
1,veli,34.0,456.0,True,geçti,ortalamanın altında
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde
4,can,12.0,89.0,True,kaldı,ortalamanın altında


axis belirterek satır mı sutun mu sileceğimi belirttik. axis= 0 olursa satır, 1 olursa stunu seçer ve istenileni inplace yardımıyla kalıcı olarak siler.

In [30]:
#verticle(dikey) birleştirme  #concat() metodu ile iki dataframe'i birleştirdik
data1 = dataframe1.head()     
data2 = dataframe1.tail()
data_concat = pd.concat([data1,data2],axis=0)
data_concat

Unnamed: 0,NAME,AGE,NOTE,BOOL,DURUM,ORTALAMA
0,ali,12.0,123.0,True,kaldı,ortalamanın altında
1,veli,34.0,456.0,True,geçti,ortalamanın altında
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde
4,can,12.0,89.0,True,kaldı,ortalamanın altında
0,ali,12.0,123.0,True,kaldı,ortalamanın altında
1,veli,34.0,456.0,True,geçti,ortalamanın altında
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde
4,can,12.0,89.0,True,kaldı,ortalamanın altında


In [31]:
#horizontal(yatay) birleştirme
data_contact2 = pd.concat([data1,data2],axis=1) #axis= 1 yazarak stunları birleştirdik
data_contact2

Unnamed: 0,NAME,AGE,NOTE,BOOL,DURUM,ORTALAMA,NAME.1,AGE.1,NOTE.1,BOOL.1,DURUM.1,ORTALAMA.1
0,ali,12.0,123.0,True,kaldı,ortalamanın altında,ali,12.0,123.0,True,kaldı,ortalamanın altında
1,veli,34.0,456.0,True,geçti,ortalamanın altında,veli,34.0,456.0,True,geçti,ortalamanın altında
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde
4,can,12.0,89.0,True,kaldı,ortalamanın altında,can,12.0,89.0,True,kaldı,ortalamanın altında


burada dikkat etmemiz gereken nokta vertical birleştirmede indeksler düzgün bir şekilde sıralanmadığı görülmektedir çünkü kendi indeksi kullanılarak birleştiriliyor. Yeni dataframe'de indeksleme (ekstradan yapılmazsa) yapılmamaktadır. 

# Transforming Data

In [32]:
dataframe1["buyuk_yas"] = [each*2 for each in dataframe1.AGE]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,DURUM,ORTALAMA,buyuk_yas
0,ali,12.0,123.0,True,kaldı,ortalamanın altında,24.0
1,veli,34.0,456.0,True,geçti,ortalamanın altında,68.0
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında,112.0
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde,156.0
4,can,12.0,89.0,True,kaldı,ortalamanın altında,24.0


In [49]:
def mlt(yas):
    return yas*2
dataframe1["apply_metodu"] = dataframe1.AGE.apply(mlt)
dataframe1


Unnamed: 0,NAME,AGE,NOTE,BOOL,DURUM,ORTALAMA,buyuk_yas,apply_metodu
0,ali,12.0,123.0,True,kaldı,ortalamanın altında,24.0,24.0
1,veli,34.0,456.0,True,geçti,ortalamanın altında,68.0,68.0
2,zübeyde,56.0,78.0,True,kaldı,ortalamanın altında,112.0,112.0
3,ahmet,78.0,87654.0,True,geçti,ortalamanın üstünde,156.0,156.0
4,can,12.0,89.0,True,kaldı,ortalamanın altında,24.0,24.0


apply() fonksiyonu içerisinde lambda kullanarak var olan değişkenin içerisinde değişiklik yapabilir ya da DataFrame objesi içerisinde yer alan değişkenlerden yeni değişkenler türetilebiliriz.