# Pandas

Pandas is an open-source Python library used for data manipulation and analysis. It provides data structures and functions for quickly and easily working with structured data.

The two main data structures in Pandas are Series and DataFrame. A Series is a one-dimensional array-like object that can hold any data type. A DataFrame is a two-dimensional table-like data structure consisting of rows and columns, similar to a spreadsheet.

Pandas provides a wide range of functionality for handling missing data, merging and joining datasets, grouping data, filtering and selecting data, and handling time-series data, among other things. It also integrates with other popular Python libraries, such as NumPy and Matplotlib.

Overall, Pandas is a powerful tool for data analysis and is widely used in both academia and industry.

In [38]:
t = (1,2,3,4)

t[1:3]

(2, 3)

In [40]:
#importing the pandas library.

import pandas as pd

dictionary = {"name":["gizem","züleyha","nur","sinan","burak","yusuf"],
             "age":[12,34,56,78,None,12],
             "note":[123,456,78,87654,None,89]}

dataframe1 = pd.DataFrame(dictionary) 
print(dataframe1)

      name   age     note
0    gizem  12.0    123.0
1  züleyha  34.0    456.0
2      nur  56.0     78.0
3    sinan  78.0  87654.0
4    burak   NaN      NaN
5    yusuf  12.0     89.0


In [41]:
import pandas as pd

# Read the CSV file into a DataFrame
df = pd.read_csv("C:/Users/gizem/Desktop/data.csv")

# Print the contents of the DataFrame
print(df)

    period        lrm       lry       lpy       ibo       ide
0   1974Q1  11.632550  5.903658 -0.618736  0.154736  0.094000
1   1974Q2  11.604152  5.873820 -0.580748  0.177991  0.095500
2   1974Q3  11.581521  5.837818 -0.542848  0.170565  0.095500
3   1974Q4  11.601847  5.812255 -0.504604  0.152227  0.095500
4   1975Q1  11.586305  5.803945 -0.486458  0.134228  0.088500
5   1975Q2  11.604499  5.786761 -0.454439  0.133481  0.079000
6   1975Q3  11.653307  5.833412 -0.440514  0.128413  0.076000
7   1975Q4  11.764246  5.929849 -0.438760  0.128836  0.074000
8   1976Q1  11.752934  5.937654 -0.403905  0.141345  0.072000
9   1976Q2  11.765480  5.935332 -0.373344  0.153119  0.078000
10  1976Q3  11.780583  5.931755 -0.357670  0.160579  0.080000
11  1976Q4  11.770178  5.940524 -0.324954  0.161832  0.103000
12  1977Q1  11.745892  5.928044 -0.309815  0.166581  0.097000
13  1977Q2  11.768651  5.937180 -0.288414  0.163021  0.088000
14  1977Q3  11.749825  5.956553 -0.264239  0.169247  0.095000
15  1977

In [42]:
head = dataframe1.head() 
print(head)

      name   age     note
0    gizem  12.0    123.0
1  züleyha  34.0    456.0
2      nur  56.0     78.0
3    sinan  78.0  87654.0
4    burak   NaN      NaN


In [43]:
tail = dataframe1.tail()
print(tail)

      name   age     note
1  züleyha  34.0    456.0
2      nur  56.0     78.0
3    sinan  78.0  87654.0
4    burak   NaN      NaN
5    yusuf  12.0     89.0


# Pandas Basic Method

In [44]:
print(dataframe1.columns) #sutunlarin isimlerini verir

Index(['name', 'age', 'note'], dtype='object')


In [45]:
print(dataframe1.info()) #dataframe hakkında bilgi verir

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   note    5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 272.0+ bytes
None


In [46]:
print(dataframe1.dtypes) #dataframe'in her bir column'ın type'ını verir

name     object
age     float64
note    float64
dtype: object


In [47]:
print(dataframe1.describe()) 

             age         note
count   5.000000      5.00000
mean   38.400000  17680.00000
std    28.684491  39116.96814
min    12.000000     78.00000
25%    12.000000     89.00000
50%    34.000000    123.00000
75%    56.000000    456.00000
max    78.000000  87654.00000


<h1> Indexing And Slicing </h1>


In [48]:
print(dataframe1["name"]) 
print(dataframe1.loc[:, "age"]) #sadece isimleri getirir
dataframe1["yeni_future"] = [1,2,3,4,5,6]
print(dataframe1.loc[:3,"age"]) 
print(dataframe1.loc[:3, "name":"note"])  #name den note'a kadar olan kolonların ilk 3 satırını yazdırır
print(dataframe1.loc[::-1])   #indexleri tersten yazdırır


0      gizem
1    züleyha
2        nur
3      sinan
4      burak
5      yusuf
Name: name, dtype: object
0    12.0
1    34.0
2    56.0
3    78.0
4     NaN
5    12.0
Name: age, dtype: float64
0    12.0
1    34.0
2    56.0
3    78.0
Name: age, dtype: float64
      name   age     note
0    gizem  12.0    123.0
1  züleyha  34.0    456.0
2      nur  56.0     78.0
3    sinan  78.0  87654.0
      name   age     note  yeni_future
5    yusuf  12.0     89.0            6
4    burak   NaN      NaN            5
3    sinan  78.0  87654.0            4
2      nur  56.0     78.0            3
1  züleyha  34.0    456.0            2
0    gizem  12.0    123.0            1


In [49]:
 #yeni future tanımlandı
print(dataframe1.yeni_future) 

0    1
1    2
2    3
3    4
4    5
5    6
Name: yeni_future, dtype: int64


In [50]:
print(dataframe1.loc[:, "age"]) # sutun getirmenin bir başka yolu

0    12.0
1    34.0
2    56.0
3    78.0
4     NaN
5    12.0
Name: age, dtype: float64


In [51]:
print(dataframe1.loc[:3,"age"]) 

0    12.0
1    34.0
2    56.0
3    78.0
Name: age, dtype: float64


In [52]:
print(dataframe1.loc[:3, "name":"note"]) #name den note'a kadar olan kolonların ilk 3 satırını yazdırdı 3 dahil

      name   age     note
0    gizem  12.0    123.0
1  züleyha  34.0    456.0
2      nur  56.0     78.0
3    sinan  78.0  87654.0


In [53]:
print(dataframe1.loc[:3, ["name","note"]]) #sadece name ve notun 3. indeksine kadar yazdırır

      name     note
0    gizem    123.0
1  züleyha    456.0
2      nur     78.0
3    sinan  87654.0


In [54]:
print(dataframe1.loc[::-1]) #indexleri tersten yazdırır

      name   age     note  yeni_future
5    yusuf  12.0     89.0            6
4    burak   NaN      NaN            5
3    sinan  78.0  87654.0            4
2      nur  56.0     78.0            3
1  züleyha  34.0    456.0            2
0    gizem  12.0    123.0            1


In [55]:
print(dataframe1.loc[:,:"age"]) #age kadar olan tüm satırları yazdırdı. age dahil

      name   age
0    gizem  12.0
1  züleyha  34.0
2      nur  56.0
3    sinan  78.0
4    burak   NaN
5    yusuf  12.0


In [56]:
print(dataframe1.iloc[:,[2]]) #2. indeksdeki kolonun tüm satırlarını verir

      note
0    123.0
1    456.0
2     78.0
3  87654.0
4      NaN
5     89.0


# Filtering Pandas Data Frame

In [57]:
filtre1 = dataframe1.age>10 #yaşı 10'dan büyük olanlar filtrelendi
dataframe1["bool"]= filtre1
print(dataframe1.loc[:,["age","bool"]])

    age   bool
0  12.0   True
1  34.0   True
2  56.0   True
3  78.0   True
4   NaN  False
5  12.0   True


In [58]:
type(filtre1) #nupmy'da vektör denilirken pandas'da ise tipine series deniliyor. Serilerin birleşimine ise dataframe denir.

pandas.core.series.Series

In [59]:
filtrelenmis_data= dataframe1[filtre1] #dataframe'i filtrelemiş olduk, sadece koşulu sağlayan indeksler yazıldı
print(filtrelenmis_data)


      name   age     note  yeni_future  bool
0    gizem  12.0    123.0            1  True
1  züleyha  34.0    456.0            2  True
2      nur  56.0     78.0            3  True
3    sinan  78.0  87654.0            4  True
5    yusuf  12.0     89.0            6  True


In [60]:
filtre2 = dataframe1.note>100
filtrelenmis_data2 = dataframe1[filtre2&filtre1] #iki filtre birden uyguladık
print(filtrelenmis_data2)


      name   age     note  yeni_future  bool
0    gizem  12.0    123.0            1  True
1  züleyha  34.0    456.0            2  True
3    sinan  78.0  87654.0            4  True


In [61]:
dataframe1[dataframe1.age>20] #bu şekildede filtreleme uygulayabiliriz

Unnamed: 0,name,age,note,yeni_future,bool
1,züleyha,34.0,456.0,2,True
2,nur,56.0,78.0,3,True
3,sinan,78.0,87654.0,4,True



# List Comprehension


In [62]:
import numpy as np
ortalama = dataframe1.note.mean() #pandas ile ortalama bulma 
print(ortalama)
ortlama_np= np.mean(dataframe1.note) #numpy ile ortalama bulma
print(ortlama_np)

17680.0
17680.0


In [63]:
dataframe1.dropna(inplace=True) #dropna ile NaN değerleri sildik 
dataframe1


Unnamed: 0,name,age,note,yeni_future,bool
0,gizem,12.0,123.0,1,True
1,züleyha,34.0,456.0,2,True
2,nur,56.0,78.0,3,True
3,sinan,78.0,87654.0,4,True
5,yusuf,12.0,89.0,6,True


In [64]:
print(dataframe1.note.mean()) #ortalama not hesabı
#ortalamaya bakarak üstünde vya altında olduğunu yazdırma
dataframe1["ortalama"]= ["ortalamanın altında" if dataframe1.note.mean()>each else "ortalamanın üstünde" for each in dataframe1.note]
dataframe1


17680.0


Unnamed: 0,name,age,note,yeni_future,bool,ortalama
0,gizem,12.0,123.0,1,True,ortalamanın altında
1,züleyha,34.0,456.0,2,True,ortalamanın altında
2,nur,56.0,78.0,3,True,ortalamanın altında
3,sinan,78.0,87654.0,4,True,ortalamanın üstünde
5,yusuf,12.0,89.0,6,True,ortalamanın altında


In [65]:
dataframe1.columns = [each.upper() for each in dataframe1.columns]
dataframe1.columns

Index(['NAME', 'AGE', 'NOTE', 'YENI_FUTURE', 'BOOL', 'ORTALAMA'], dtype='object')

In [66]:
dataframe1["yeni2_future"]=[1,1,1,1,1]
dataframe1.columns = [each.split('_')[0]+" "+each.split('_')[1] if len(each.split('_'))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI FUTURE,BOOL,ORTALAMA,yeni2 future
0,gizem,12.0,123.0,1,True,ortalamanın altında,1
1,züleyha,34.0,456.0,2,True,ortalamanın altında,1
2,nur,56.0,78.0,3,True,ortalamanın altında,1
3,sinan,78.0,87654.0,4,True,ortalamanın üstünde,1
5,yusuf,12.0,89.0,6,True,ortalamanın altında,1


In [67]:
dataframe1.columns = [ each.split(" ")[0]+"_"+each.split(" ")[1] if len(each.split(" "))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI_FUTURE,BOOL,ORTALAMA,yeni2_future
0,gizem,12.0,123.0,1,True,ortalamanın altında,1
1,züleyha,34.0,456.0,2,True,ortalamanın altında,1
2,nur,56.0,78.0,3,True,ortalamanın altında,1
3,sinan,78.0,87654.0,4,True,ortalamanın üstünde,1
5,yusuf,12.0,89.0,6,True,ortalamanın altında,1


# Concatenating Data

In [68]:
dataframe1.drop(["yeni2_future","YENI_FUTURE"],axis=1,inplace=True)
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,gizem,12.0,123.0,True,ortalamanın altında
1,züleyha,34.0,456.0,True,ortalamanın altında
2,nur,56.0,78.0,True,ortalamanın altında
3,sinan,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında


In [69]:
#verticle(dikey) birleştirme  #concat() metodu ile iki dataframe'i birleştirdik
data1 = dataframe1.head()     
data2 = dataframe1.tail()
data_concat = pd.concat([data1,data2],axis=0)
data_concat

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,gizem,12.0,123.0,True,ortalamanın altında
1,züleyha,34.0,456.0,True,ortalamanın altında
2,nur,56.0,78.0,True,ortalamanın altında
3,sinan,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında
0,gizem,12.0,123.0,True,ortalamanın altında
1,züleyha,34.0,456.0,True,ortalamanın altında
2,nur,56.0,78.0,True,ortalamanın altında
3,sinan,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında


In [70]:
#horizontal(yatay) birleştirme
data_contact2 = pd.concat([data1,data2],axis=1) #axis= 1 yazarak stunları birleştirdik
data_contact2

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,NAME.1,AGE.1,NOTE.1,BOOL.1,ORTALAMA.1
0,gizem,12.0,123.0,True,ortalamanın altında,gizem,12.0,123.0,True,ortalamanın altında
1,züleyha,34.0,456.0,True,ortalamanın altında,züleyha,34.0,456.0,True,ortalamanın altında
2,nur,56.0,78.0,True,ortalamanın altında,nur,56.0,78.0,True,ortalamanın altında
3,sinan,78.0,87654.0,True,ortalamanın üstünde,sinan,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında,yusuf,12.0,89.0,True,ortalamanın altında


# Transforming Data

In [71]:
dataframe1["buyuk_yas"] = [each*2 for each in dataframe1.AGE]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas
0,gizem,12.0,123.0,True,ortalamanın altında,24.0
1,züleyha,34.0,456.0,True,ortalamanın altında,68.0
2,nur,56.0,78.0,True,ortalamanın altında,112.0
3,sinan,78.0,87654.0,True,ortalamanın üstünde,156.0
5,yusuf,12.0,89.0,True,ortalamanın altında,24.0


In [72]:
def mlt(yas):
    return yas*2
dataframe1["apply_metodu"] = dataframe1.AGE.apply(mlt)
dataframe1


Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas,apply_metodu
0,gizem,12.0,123.0,True,ortalamanın altında,24.0,24.0
1,züleyha,34.0,456.0,True,ortalamanın altında,68.0,68.0
2,nur,56.0,78.0,True,ortalamanın altında,112.0,112.0
3,sinan,78.0,87654.0,True,ortalamanın üstünde,156.0,156.0
5,yusuf,12.0,89.0,True,ortalamanın altında,24.0,24.0
