
# Pandas



   Pandas is an open-source Python library used for data manipulation and analysis. It provides data structures and functions for quickly and easily working with structured data.

The two main data structures in Pandas are Series and DataFrame. A Series is a one-dimensional array-like object that can hold any data type. A DataFrame is a two-dimensional table-like data structure consisting of rows and columns, similar to a spreadsheet.

Pandas provides a wide range of functionality for handling missing data, merging and joining datasets, grouping data, filtering and selecting data, and handling time-series data, among other things. It also integrates with other popular Python libraries, such as NumPy and Matplotlib.

Overall, Pandas is a powerful tool for data analysis and is widely used in both academia and industry.

In [2]:
t = (1,2,3,4)

t[1:3]

(2, 3)

In [14]:
#importing the Pandas library.

import pandas as pd

dictionary = {"name":["esra","beyza","emirhan","rukiye","ahmet","enes"],
             "age":[23,22,22,50,None,28],
             "note":[123,456,78,87654,None,89]}

dataframe1 = pd.DataFrame(dictionary) 
print(dataframe1)



      name   age     note
0     esra  23.0    123.0
1    beyza  22.0    456.0
2  emirhan  22.0     78.0
3   rukiye  50.0  87654.0
4    ahmet   NaN      NaN
5     enes  28.0     89.0


In [15]:
import pandas as pd

# Read the CSV file into a DataFrame
df = pd.read_csv("C:/Users/Aydin/Desktop/veriler.csv")

# Print the contents of the DataFrame
print(df)

   ulke  boy  kilo  yas cinsiyet
0    tr  130    30   10        e
1    tr  125    36   11        e
2    tr  135    34   10        k
3    tr  133    30    9        k
4    tr  129    38   12        e
5    tr  180    90   30        e
6    tr  190    80   25        e
7    tr  175    90   35        e
8    tr  177    60   22        k
9    us  185   105   33        e
10   us  165    55   27        k
11   us  155    50   44        k
12   us  160    58   39        k
13   us  162    59   41        k
14   us  167    62   55        k
15   fr  174    70   47        e
16   fr  193    90   23        e
17   fr  187    80   27        e
18   fr  183    88   28        e
19   fr  159    40   29        k
20   fr  164    66   32        k
21   fr  166    56   42        k



arraylerin aynı uzunlukta olması gerekiyor burada aynı uzunlukta olması için None ifadesini yazdım hata vermemesi için.

In [16]:
head = dataframe1.head() 
print(head)

      name   age     note
0     esra  23.0    123.0
1    beyza  22.0    456.0
2  emirhan  22.0     78.0
3   rukiye  50.0  87654.0
4    ahmet   NaN      NaN



Bu işlem bir datayı import ettiğimizde datanın içeriğine kısaca bakmak için kullanabiliriz


In [17]:
tail = dataframe1.tail()
print(tail)

      name   age     note
1    beyza  22.0    456.0
2  emirhan  22.0     78.0
3   rukiye  50.0  87654.0
4    ahmet   NaN      NaN
5     enes  28.0     89.0



tail ise head ile aynı işlevdedir sadece baştan değil sondan 5 satırı verir

tail ve head de parantez içine bir sayı yazarsak o kadar sayıyı baştan veya sondan döner. Bir şey yazılmaz ise default sayı 5'dir.



# Pandas Basic Method 


In [18]:
print(dataframe1.columns) # sutunlarin isimlerini verir

Index(['name', 'age', 'note'], dtype='object')



isimlerde değişiklik veya isimlere göre filtreleme yapacağımız zaman işimize yarayacak


In [19]:
print(dataframe1.info()) #dataframe hakkında bilgi verir

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   note    5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 184.0+ bytes
None


In [9]:
#print(dataframe1.dtypes) dataframe'in her bir column'ın type'ını verir

In [20]:
print(dataframe1.describe()) 

        age         note
count   5.0      5.00000
mean   29.0  17680.00000
std    12.0  39116.96814
min    22.0     78.00000
25%    22.0     89.00000
50%    23.0    123.00000
75%    28.0    456.00000
max    50.0  87654.00000



age ve note future'larını verdi fakat name future'ını vermedi çünkü name nümerik değil. Describe sadece nümerik future'larını verir
bu tabloda ise data future değerlerinin ortalamalrı min max ları medyan değerleri vb verdi.



# Indexing And Slicing


In [21]:
print(dataframe1["name"]) 
print(dataframe1.loc[:, "age"])                      #   sadece isimleri getirir
dataframe1["yeni_future"] = [1,2,3,4,5,6]
print(dataframe1.loc[:3,"age"]) 
print(dataframe1.loc[:3, "name":"note"])                 #name den note'a kadar olan kolonların ilk 3 satırını yazdırır
print(dataframe1.loc[::-1])                           #indexleri tersten yazdırdı


0       esra
1      beyza
2    emirhan
3     rukiye
4      ahmet
5       enes
Name: name, dtype: object
0    23.0
1    22.0
2    22.0
3    50.0
4     NaN
5    28.0
Name: age, dtype: float64
0    23.0
1    22.0
2    22.0
3    50.0
Name: age, dtype: float64
      name   age     note
0     esra  23.0    123.0
1    beyza  22.0    456.0
2  emirhan  22.0     78.0
3   rukiye  50.0  87654.0
      name   age     note  yeni_future
5     enes  28.0     89.0            6
4    ahmet   NaN      NaN            5
3   rukiye  50.0  87654.0            4
2  emirhan  22.0     78.0            3
1    beyza  22.0    456.0            2
0     esra  23.0    123.0            1


In [22]:
 #yeni future tanımlandı
print(dataframe1.yeni_future) 

0    1
1    2
2    3
3    4
4    5
5    6
Name: yeni_future, dtype: int64


In [23]:
print(dataframe1.loc[:, "age"]) # sutun getirmenin bir başka yolu

0    23.0
1    22.0
2    22.0
3    50.0
4     NaN
5    28.0
Name: age, dtype: float64



futureları kullanırken köşeli parantez içinde, direk veya .loc[:,"future ismi"]) gibi yazabiliriz. Bunlar doğru kullanımlardır.


In [24]:
print(dataframe1.loc[:3,"age"]) 

0    23.0
1    22.0
2    22.0
3    50.0
Name: age, dtype: float64



istediğimiz sayıda ve yerde sutunu getirebiliriz yukarıdaki age sutununun ilk 3 satırını getiriyor 
farklı olarak pandas da 3 dahil 3 index numarası yani index 0  dan başladığı için ilk 4 elemenaı getirir. 
Numpyda yazılan sayı dahil değildir.


In [25]:
print(dataframe1.loc[:3, "name":"note"]) #name den note'a kadar olan kolonların ilk 3 satırını yazdırdı 3 dahil

      name   age     note
0     esra  23.0    123.0
1    beyza  22.0    456.0
2  emirhan  22.0     78.0
3   rukiye  50.0  87654.0


In [26]:
print(dataframe1.loc[:3, ["name","note"]]) #sadece name ve notun 3. indeksine kadar yazdırır

      name     note
0     esra    123.0
1    beyza    456.0
2  emirhan     78.0
3   rukiye  87654.0


In [27]:
print(dataframe1.loc[::-1]) #indexleri tersten yazdırdı

      name   age     note  yeni_future
5     enes  28.0     89.0            6
4    ahmet   NaN      NaN            5
3   rukiye  50.0  87654.0            4
2  emirhan  22.0     78.0            3
1    beyza  22.0    456.0            2
0     esra  23.0    123.0            1


In [28]:
print(dataframe1.loc[:,:"age"]) #age kadar olan tüm satırları yazdırdı. age dahil

      name   age
0     esra  23.0
1    beyza  22.0
2  emirhan  22.0
3   rukiye  50.0
4    ahmet   NaN
5     enes  28.0


In [29]:
print(dataframe1.iloc[:,[2]]) #2. indeksdeki kolonun tüm satırlarını verir

      note
0    123.0
1    456.0
2     78.0
3  87654.0
4      NaN
5     89.0



loc ile iloc'un fakı biri location biri int location diğerinde string olarak arayabiliyorduk iloc'da ise sadece int değerleri yani indeksleri vererek arama yapabiliyoruz.



# Filtering Pandas Data Frame



Kurallar dahilinde datanın filtrelenip veri elde edilmesinde filtering metodu kullanılır


In [30]:
filtre1 = dataframe1.age>10                           #yaşı 10'dan büyük olanlar filtrelendi
dataframe1["bool"]= filtre1
print(dataframe1.loc[:,["age","bool"]])

    age   bool
0  23.0   True
1  22.0   True
2  22.0   True
3  50.0   True
4   NaN  False
5  28.0   True


In [31]:
type(filtre1) #nupmy'da vektör denilirken pandas'da ise tipine series deniliyor. Serilerin birleşimine ise dataframe denir.

pandas.core.series.Series

In [32]:
filtrelenmis_data= dataframe1[filtre1] #dataframe'i filtrelemiş olduk, sadece koşulu sağlayan indeksler yazıldı
print(filtrelenmis_data)


      name   age     note  yeni_future  bool
0     esra  23.0    123.0            1  True
1    beyza  22.0    456.0            2  True
2  emirhan  22.0     78.0            3  True
3   rukiye  50.0  87654.0            4  True
5     enes  28.0     89.0            6  True


In [33]:
filtre2 = dataframe1.note>100
filtrelenmis_data2 = dataframe1[filtre2&filtre1] #iki filtre birden uyguladık
print(filtrelenmis_data2)


     name   age     note  yeni_future  bool
0    esra  23.0    123.0            1  True
1   beyza  22.0    456.0            2  True
3  rukiye  50.0  87654.0            4  True


In [34]:
dataframe1[dataframe1.age>20] #bu şekildede filtreleme uygulayabiliriz

Unnamed: 0,name,age,note,yeni_future,bool
0,esra,23.0,123.0,1,True
1,beyza,22.0,456.0,2,True
2,emirhan,22.0,78.0,3,True
3,rukiye,50.0,87654.0,4,True
5,enes,28.0,89.0,6,True



# List Comprehension


In [35]:
import numpy as np
ortalama = dataframe1.note.mean() #pandas ile ortalama bulma 
print(ortalama)
ortlama_np= np.mean(dataframe1.note) #numpy ile ortalama bulma
print(ortlama_np)

17680.0
17680.0


In [36]:
dataframe1.dropna(inplace=True) #dropna ile NaN değerleri sildik 
dataframe1


Unnamed: 0,name,age,note,yeni_future,bool
0,esra,23.0,123.0,1,True
1,beyza,22.0,456.0,2,True
2,emirhan,22.0,78.0,3,True
3,rukiye,50.0,87654.0,4,True
5,enes,28.0,89.0,6,True



inplace=True parametresini vermezsek NaN değerleri tekrar gelecektir. Bunun için pandas'ın inplace=True paramtresini kullanarak değişiklikleri kalıcı hale getirebiliriz. 


In [37]:
print(dataframe1.note.mean()) #ortalama not hesabı
#ortalamaya bakarak üstünde vya altında olduğunu yazdırma
dataframe1["ortalama"]= ["ortalamanın altında" if dataframe1.note.mean()>each else "ortalamanın üstünde" for each in dataframe1.note]
dataframe1


17680.0


Unnamed: 0,name,age,note,yeni_future,bool,ortalama
0,esra,23.0,123.0,1,True,ortalamanın altında
1,beyza,22.0,456.0,2,True,ortalamanın altında
2,emirhan,22.0,78.0,3,True,ortalamanın altında
3,rukiye,50.0,87654.0,4,True,ortalamanın üstünde
5,enes,28.0,89.0,6,True,ortalamanın altında



List comprehension sayesinde tek bir satırda for ve if kullanıp, extra print yazmadan dataframe1 de yeni bir future açıp doldurduk.


In [38]:
dataframe1.columns = [each.upper() for each in dataframe1.columns]
dataframe1.columns

Index(['NAME', 'AGE', 'NOTE', 'YENI_FUTURE', 'BOOL', 'ORTALAMA'], dtype='object')

upper() metoduyla tüm kolon adlarını büyük harfe çevirdik. Bunu datasetimiz karışık olduğunda mesela büyük küçük harf gererksiz harf ve boşluklar var bunları toplu halde düzeltmek için kullanırız.

In [39]:
dataframe1["yeni2_future"]=[1,1,1,1,1]
dataframe1.columns = [each.split('_')[0]+" "+each.split('_')[1] if len(each.split('_'))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI FUTURE,BOOL,ORTALAMA,yeni2 future
0,esra,23.0,123.0,1,True,ortalamanın altında,1
1,beyza,22.0,456.0,2,True,ortalamanın altında,1
2,emirhan,22.0,78.0,3,True,ortalamanın altında,1
3,rukiye,50.0,87654.0,4,True,ortalamanın üstünde,1
5,enes,28.0,89.0,6,True,ortalamanın altında,1


Normalde yeni future'ın arasında boşluk vardı split() fonksiyonu yardımıyla her bir future'da aradaki boşluk olan yere _ koyabilirken burada yeni2_future'u yeni2 future yaptık. Bu işlem büyük datasetlerdeki düzensizliği ve oluşabilecek sorunları önlemek için kullanılmaktadır. 

In [40]:
dataframe1.columns = [ each.split(" ")[0]+"_"+each.split(" ")[1] if len(each.split(" "))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI_FUTURE,BOOL,ORTALAMA,yeni2_future
0,esra,23.0,123.0,1,True,ortalamanın altında,1
1,beyza,22.0,456.0,2,True,ortalamanın altında,1
2,emirhan,22.0,78.0,3,True,ortalamanın altında,1
3,rukiye,50.0,87654.0,4,True,ortalamanın üstünde,1
5,enes,28.0,89.0,6,True,ortalamanın altında,1


yukarda hep columns'ları _ ile tanımladığımzdan sorun çıkmasın diye tekrar eski haline döndürdük

# Concatenating Data

In [41]:
dataframe1.drop(["yeni2_future","YENI_FUTURE"],axis=1,inplace=True)
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,esra,23.0,123.0,True,ortalamanın altında
1,beyza,22.0,456.0,True,ortalamanın altında
2,emirhan,22.0,78.0,True,ortalamanın altında
3,rukiye,50.0,87654.0,True,ortalamanın üstünde
5,enes,28.0,89.0,True,ortalamanın altında


axis belirterek satır mı sutun mu sileceğimi belirttik. axis= 0 olursa satır, 1 olursa stunu seçer ve istenileni inplace yardımıyla kalıcı olarak siler.

In [42]:
#verticle(dikey) birleştirme  #concat() metodu ile iki dataframe'i birleştirdik
data1 = dataframe1.head()     
data2 = dataframe1.tail()
data_concat = pd.concat([data1,data2],axis=0)
data_concat

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,esra,23.0,123.0,True,ortalamanın altında
1,beyza,22.0,456.0,True,ortalamanın altında
2,emirhan,22.0,78.0,True,ortalamanın altında
3,rukiye,50.0,87654.0,True,ortalamanın üstünde
5,enes,28.0,89.0,True,ortalamanın altında
0,esra,23.0,123.0,True,ortalamanın altında
1,beyza,22.0,456.0,True,ortalamanın altında
2,emirhan,22.0,78.0,True,ortalamanın altında
3,rukiye,50.0,87654.0,True,ortalamanın üstünde
5,enes,28.0,89.0,True,ortalamanın altında


In [43]:
#horizontal(yatay) birleştirme
data_contact2 = pd.concat([data1,data2],axis=1) #axis= 1 yazarak stunları birleştirdik
data_contact2

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,NAME.1,AGE.1,NOTE.1,BOOL.1,ORTALAMA.1
0,esra,23.0,123.0,True,ortalamanın altında,esra,23.0,123.0,True,ortalamanın altında
1,beyza,22.0,456.0,True,ortalamanın altında,beyza,22.0,456.0,True,ortalamanın altında
2,emirhan,22.0,78.0,True,ortalamanın altında,emirhan,22.0,78.0,True,ortalamanın altında
3,rukiye,50.0,87654.0,True,ortalamanın üstünde,rukiye,50.0,87654.0,True,ortalamanın üstünde
5,enes,28.0,89.0,True,ortalamanın altında,enes,28.0,89.0,True,ortalamanın altında


burada dikkat etmemiz gereken nokta vertical birleştirmede indeksler düzgün bir şekilde sıralanmadığı görülmektedir çünkü kendi indeksi kullanılarak birleştiriliyor. Yeni dataframe'de indeksleme (ekstradan yapılmazsa) yapılmamaktadır. 

# Transforming Data

In [44]:
dataframe1["buyuk_yas"] = [each*2 for each in dataframe1.AGE]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas
0,esra,23.0,123.0,True,ortalamanın altında,46.0
1,beyza,22.0,456.0,True,ortalamanın altında,44.0
2,emirhan,22.0,78.0,True,ortalamanın altında,44.0
3,rukiye,50.0,87654.0,True,ortalamanın üstünde,100.0
5,enes,28.0,89.0,True,ortalamanın altında,56.0


In [45]:
def mlt(yas):
    return yas*2
dataframe1["apply_metodu"] = dataframe1.AGE.apply(mlt)
dataframe1


Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas,apply_metodu
0,esra,23.0,123.0,True,ortalamanın altında,46.0,46.0
1,beyza,22.0,456.0,True,ortalamanın altında,44.0,44.0
2,emirhan,22.0,78.0,True,ortalamanın altında,44.0,44.0
3,rukiye,50.0,87654.0,True,ortalamanın üstünde,100.0,100.0
5,enes,28.0,89.0,True,ortalamanın altında,56.0,56.0


apply() fonksiyonu içerisinde lambda kullanarak var olan değişkenin içerisinde değişiklik yapabilir ya da DataFrame objesi içerisinde yer alan değişkenlerden yeni değişkenler türetilebiliriz.