# Pandas

Pandas is an open-source Python library used for data manipulation and analysis. It provides data structures and functions for quickly and easily working with structured data.

The two main data structures in Pandas are Series and DataFrame. A Series is a one-dimensional array-like object that can hold any data type. A DataFrame is a two-dimensional table-like data structure consisting of rows and columns, similar to a spreadsheet.

Pandas provides a wide range of functionality for handling missing data, merging and joining datasets, grouping data, filtering and selecting data, and handling time-series data, among other things. It also integrates with other popular Python libraries, such as NumPy and Matplotlib.

Overall, Pandas is a powerful tool for data analysis and is widely used in both academia and industry.

In [38]:
t = (1,2,3,4)

t[1:3]

(2, 3)

In [39]:
#importing the pandas library.

import pandas as pd

dictionary = {"name":["gizem","nur","sinan","burak","zeynep","yusuf"],
             "age":[12,34,56,78,None,12],
             "note":[123,456,78,87654,None,89]}

dataframe1 = pd.DataFrame(dictionary) 
print(dataframe1)

     name   age     note
0   gizem  12.0    123.0
1     nur  34.0    456.0
2   sinan  56.0     78.0
3   burak  78.0  87654.0
4  zeynep   NaN      NaN
5   yusuf  12.0     89.0


In [None]:
import pandas as pd

# Read the CSV file into a DataFrame
df = pd.read_csv("C:/Users/gizem/Desktop/data.csv")

# Print the contents of the DataFrame
print(df)

In [6]:
head = dataframe1.head() 
print(head)

     name   age     note
0   gizem  12.0    123.0
1     nur  34.0    456.0
2   sinan  56.0     78.0
3   burak  78.0  87654.0
4  zeynep   NaN      NaN


In [7]:
tail = dataframe1.tail()
print(tail)

     name   age     note
1     nur  34.0    456.0
2   sinan  56.0     78.0
3   burak  78.0  87654.0
4  zeynep   NaN      NaN
5   yusuf  12.0     89.0


# Pandas Basic Method

In [11]:
print(dataframe1.columns) #sutunlarin isimlerini verir

Index(['name', 'age', 'note'], dtype='object')


In [9]:
print(dataframe1.info()) #dataframe hakkında bilgi verir

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     5 non-null      float64
 2   note    5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 272.0+ bytes
None


In [10]:
print(dataframe1.dtypes) #dataframe'in her bir column'ın type'ını verir

name     object
age     float64
note    float64
dtype: object


In [12]:
print(dataframe1.describe()) 

             age         note
count   5.000000      5.00000
mean   38.400000  17680.00000
std    28.684491  39116.96814
min    12.000000     78.00000
25%    12.000000     89.00000
50%    34.000000    123.00000
75%    56.000000    456.00000
max    78.000000  87654.00000


<h1> Indexing And Slicing </h1>


In [13]:
print(dataframe1["name"]) 
print(dataframe1.loc[:, "age"]) #sadece isimleri getirir
dataframe1["yeni_future"] = [1,2,3,4,5,6]
print(dataframe1.loc[:3,"age"]) 
print(dataframe1.loc[:3, "name":"note"])  #name den note'a kadar olan kolonların ilk 3 satırını yazdırır
print(dataframe1.loc[::-1])   #indexleri tersten yazdırır


0     gizem
1       nur
2     sinan
3     burak
4    zeynep
5     yusuf
Name: name, dtype: object
0    12.0
1    34.0
2    56.0
3    78.0
4     NaN
5    12.0
Name: age, dtype: float64
0    12.0
1    34.0
2    56.0
3    78.0
Name: age, dtype: float64
    name   age     note
0  gizem  12.0    123.0
1    nur  34.0    456.0
2  sinan  56.0     78.0
3  burak  78.0  87654.0
     name   age     note  yeni_future
5   yusuf  12.0     89.0            6
4  zeynep   NaN      NaN            5
3   burak  78.0  87654.0            4
2   sinan  56.0     78.0            3
1     nur  34.0    456.0            2
0   gizem  12.0    123.0            1


In [14]:
 #yeni future tanımlandı
print(dataframe1.yeni_future) 

0    1
1    2
2    3
3    4
4    5
5    6
Name: yeni_future, dtype: int64


In [15]:
print(dataframe1.loc[:, "age"]) # sutun getirmenin bir başka yolu

0    12.0
1    34.0
2    56.0
3    78.0
4     NaN
5    12.0
Name: age, dtype: float64


In [16]:
print(dataframe1.loc[:3,"age"]) 

0    12.0
1    34.0
2    56.0
3    78.0
Name: age, dtype: float64


In [17]:
print(dataframe1.loc[:3, "name":"note"]) #name den note'a kadar olan kolonların ilk 3 satırını yazdırdı 3 dahil

    name   age     note
0  gizem  12.0    123.0
1    nur  34.0    456.0
2  sinan  56.0     78.0
3  burak  78.0  87654.0


In [18]:
print(dataframe1.loc[:3, ["name","note"]]) #sadece name ve notun 3. indeksine kadar yazdırır

    name     note
0  gizem    123.0
1    nur    456.0
2  sinan     78.0
3  burak  87654.0


In [19]:
print(dataframe1.loc[::-1]) #indexleri tersten yazdırır

     name   age     note  yeni_future
5   yusuf  12.0     89.0            6
4  zeynep   NaN      NaN            5
3   burak  78.0  87654.0            4
2   sinan  56.0     78.0            3
1     nur  34.0    456.0            2
0   gizem  12.0    123.0            1


In [20]:
print(dataframe1.loc[:,:"age"]) #age kadar olan tüm satırları yazdırdı. age dahil

     name   age
0   gizem  12.0
1     nur  34.0
2   sinan  56.0
3   burak  78.0
4  zeynep   NaN
5   yusuf  12.0


In [21]:
print(dataframe1.iloc[:,[2]]) #2. indeksdeki kolonun tüm satırlarını verir

      note
0    123.0
1    456.0
2     78.0
3  87654.0
4      NaN
5     89.0


# Filtering Pandas Data Frame

In [22]:
filtre1 = dataframe1.age>10 #yaşı 10'dan büyük olanlar filtrelendi
dataframe1["bool"]= filtre1
print(dataframe1.loc[:,["age","bool"]])

    age   bool
0  12.0   True
1  34.0   True
2  56.0   True
3  78.0   True
4   NaN  False
5  12.0   True


In [23]:
type(filtre1) #nupmy'da vektör denilirken pandas'da ise tipine series deniliyor. Serilerin birleşimine ise dataframe denir.

pandas.core.series.Series

In [24]:
filtrelenmis_data= dataframe1[filtre1] #dataframe'i filtrelemiş olduk, sadece koşulu sağlayan indeksler yazıldı
print(filtrelenmis_data)


    name   age     note  yeni_future  bool
0  gizem  12.0    123.0            1  True
1    nur  34.0    456.0            2  True
2  sinan  56.0     78.0            3  True
3  burak  78.0  87654.0            4  True
5  yusuf  12.0     89.0            6  True


In [25]:
filtre2 = dataframe1.note>100
filtrelenmis_data2 = dataframe1[filtre2&filtre1] #iki filtre birden uyguladık
print(filtrelenmis_data2)


    name   age     note  yeni_future  bool
0  gizem  12.0    123.0            1  True
1    nur  34.0    456.0            2  True
3  burak  78.0  87654.0            4  True


In [26]:
dataframe1[dataframe1.age>20] #bu şekildede filtreleme uygulayabiliriz

Unnamed: 0,name,age,note,yeni_future,bool
1,nur,34.0,456.0,2,True
2,sinan,56.0,78.0,3,True
3,burak,78.0,87654.0,4,True



# List Comprehension


In [27]:
import numpy as np
ortalama = dataframe1.note.mean() #pandas ile ortalama bulma 
print(ortalama)
ortlama_np= np.mean(dataframe1.note) #numpy ile ortalama bulma
print(ortlama_np)

17680.0
17680.0


In [28]:
dataframe1.dropna(inplace=True) #dropna ile NaN değerleri sildik 
dataframe1


Unnamed: 0,name,age,note,yeni_future,bool
0,gizem,12.0,123.0,1,True
1,nur,34.0,456.0,2,True
2,sinan,56.0,78.0,3,True
3,burak,78.0,87654.0,4,True
5,yusuf,12.0,89.0,6,True


In [29]:
print(dataframe1.note.mean()) #ortalama not hesabı
#ortalamaya bakarak üstünde vya altında olduğunu yazdırma
dataframe1["ortalama"]= ["ortalamanın altında" if dataframe1.note.mean()>each else "ortalamanın üstünde" for each in dataframe1.note]
dataframe1


17680.0


Unnamed: 0,name,age,note,yeni_future,bool,ortalama
0,gizem,12.0,123.0,1,True,ortalamanın altında
1,nur,34.0,456.0,2,True,ortalamanın altında
2,sinan,56.0,78.0,3,True,ortalamanın altında
3,burak,78.0,87654.0,4,True,ortalamanın üstünde
5,yusuf,12.0,89.0,6,True,ortalamanın altında


In [30]:
dataframe1.columns = [each.upper() for each in dataframe1.columns]
dataframe1.columns

Index(['NAME', 'AGE', 'NOTE', 'YENI_FUTURE', 'BOOL', 'ORTALAMA'], dtype='object')

In [31]:
dataframe1["yeni2_future"]=[1,1,1,1,1]
dataframe1.columns = [each.split('_')[0]+" "+each.split('_')[1] if len(each.split('_'))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI FUTURE,BOOL,ORTALAMA,yeni2 future
0,gizem,12.0,123.0,1,True,ortalamanın altında,1
1,nur,34.0,456.0,2,True,ortalamanın altında,1
2,sinan,56.0,78.0,3,True,ortalamanın altında,1
3,burak,78.0,87654.0,4,True,ortalamanın üstünde,1
5,yusuf,12.0,89.0,6,True,ortalamanın altında,1


In [32]:
dataframe1.columns = [ each.split(" ")[0]+"_"+each.split(" ")[1] if len(each.split(" "))>1 else each for each in dataframe1.columns]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,YENI_FUTURE,BOOL,ORTALAMA,yeni2_future
0,gizem,12.0,123.0,1,True,ortalamanın altında,1
1,nur,34.0,456.0,2,True,ortalamanın altında,1
2,sinan,56.0,78.0,3,True,ortalamanın altında,1
3,burak,78.0,87654.0,4,True,ortalamanın üstünde,1
5,yusuf,12.0,89.0,6,True,ortalamanın altında,1


# Concatenating Data

In [33]:
dataframe1.drop(["yeni2_future","YENI_FUTURE"],axis=1,inplace=True)
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,gizem,12.0,123.0,True,ortalamanın altında
1,nur,34.0,456.0,True,ortalamanın altında
2,sinan,56.0,78.0,True,ortalamanın altında
3,burak,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında


In [34]:
#verticle(dikey) birleştirme  #concat() metodu ile iki dataframe'i birleştirdik
data1 = dataframe1.head()     
data2 = dataframe1.tail()
data_concat = pd.concat([data1,data2],axis=0)
data_concat

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA
0,gizem,12.0,123.0,True,ortalamanın altında
1,nur,34.0,456.0,True,ortalamanın altında
2,sinan,56.0,78.0,True,ortalamanın altında
3,burak,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında
0,gizem,12.0,123.0,True,ortalamanın altında
1,nur,34.0,456.0,True,ortalamanın altında
2,sinan,56.0,78.0,True,ortalamanın altında
3,burak,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında


In [35]:
#horizontal(yatay) birleştirme
data_contact2 = pd.concat([data1,data2],axis=1) #axis= 1 yazarak stunları birleştirdik
data_contact2

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,NAME.1,AGE.1,NOTE.1,BOOL.1,ORTALAMA.1
0,gizem,12.0,123.0,True,ortalamanın altında,gizem,12.0,123.0,True,ortalamanın altında
1,nur,34.0,456.0,True,ortalamanın altında,nur,34.0,456.0,True,ortalamanın altında
2,sinan,56.0,78.0,True,ortalamanın altında,sinan,56.0,78.0,True,ortalamanın altında
3,burak,78.0,87654.0,True,ortalamanın üstünde,burak,78.0,87654.0,True,ortalamanın üstünde
5,yusuf,12.0,89.0,True,ortalamanın altında,yusuf,12.0,89.0,True,ortalamanın altında


# Transforming Data

In [36]:
dataframe1["buyuk_yas"] = [each*2 for each in dataframe1.AGE]
dataframe1

Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas
0,gizem,12.0,123.0,True,ortalamanın altında,24.0
1,nur,34.0,456.0,True,ortalamanın altında,68.0
2,sinan,56.0,78.0,True,ortalamanın altında,112.0
3,burak,78.0,87654.0,True,ortalamanın üstünde,156.0
5,yusuf,12.0,89.0,True,ortalamanın altında,24.0


In [37]:
def mlt(yas):
    return yas*2
dataframe1["apply_metodu"] = dataframe1.AGE.apply(mlt)
dataframe1


Unnamed: 0,NAME,AGE,NOTE,BOOL,ORTALAMA,buyuk_yas,apply_metodu
0,gizem,12.0,123.0,True,ortalamanın altında,24.0,24.0
1,nur,34.0,456.0,True,ortalamanın altında,68.0,68.0
2,sinan,56.0,78.0,True,ortalamanın altında,112.0,112.0
3,burak,78.0,87654.0,True,ortalamanın üstünde,156.0,156.0
5,yusuf,12.0,89.0,True,ortalamanın altında,24.0,24.0
