# Pandas Tutorial

## Kutuphanelerin eklenmesi - import

In [1]:
import pandas as pd # pandas kutuphanesini pd takma adıyla ekledik

## Veri Tipleri

In [2]:
data_1d=pd.Series(['Turkiye','Almanya','Hollanda','Belçika','Portekiz'])
# pandas Series -> indexe sahip tek boyutlu dizi
data_1d

0     Turkiye
1     Almanya
2    Hollanda
3     Belçika
4    Portekiz
dtype: object

In [3]:
data_2d={'Ulke':['Turkiye','Almanya','Hollanda','Belçika','Portekiz'],
      'Nüfus':[83614362, 83190556, 17134923, 14800000, 10276617]}
# dict tipinde data_2d isimli 2 boyutlubir degisken tanımladık
df=pd.DataFrame(data_2d,columns=['Ulke','Nüfus']) # data degiskenini DataFrame'e cevirdik
df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


## Temel İşlemler

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Ulke    5 non-null      object
 1   Nüfus   5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [5]:
df.shape # (5,2) şeklinde 5 satır 2 sütun veri olduğunu gösteren bir çıktı verir.

(5, 2)

In [6]:
df.head(3) # Verinin ilk 3 satırını basar.

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923


In [7]:
df.tail() # Verinin son birkaç satırını basar. (Veri az oldugu icin hepsini bastı)

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


In [8]:
df.dtypes # Sutunların tiplerini basar

Ulke     object
Nüfus     int64
dtype: object

In [9]:
df[2:5]   # Verinin 2-3-4 satırlarını basar (saymaya 0dan başlayarak).

Unnamed: 0,Ulke,Nüfus
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


In [10]:
df.columns # Sütunların neler olduğunu (featuresları) basar.

Index(['Ulke', 'Nüfus'], dtype='object')

In [11]:
df.Ulke # Ulke sütunundaki verileri tüm satırlar için getirir.
# df['Ulke']  yukarıdaki kod ile aynı islemi yapar 

0     Turkiye
1     Almanya
2    Hollanda
3     Belçika
4    Portekiz
Name: Ulke, dtype: object

In [12]:
df [ [ 'Ulke', 'Nüfus']] # Sadece bu 2 özelliği sütun olarak basar. (Veri kümesi büyüdükçe işe yarar)

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


In [13]:
df['Nüfus'].max() # maximum nüfusu basar. min,mean vb. için de geçerli.

83614362

In [14]:
df.describe()       # Veriyle ilgili bilgiler verir max,min,mean, %25 percentile vb.

Unnamed: 0,Nüfus
count,5.0
mean,41803290.0
std,38054920.0
min,10276620.0
25%,14800000.0
50%,17134920.0
75%,83190560.0
max,83614360.0


In [15]:
df[df['Nüfus']>20000000] # SQL sorgusu gibi, nüfusun 20 milyondan fazla olduğu satırları basar.

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556


In [16]:
df[df['Nüfus'] ==df['Nüfus'].max() ] 

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362


In [17]:
df.loc[0] # indexin 0 oldugu satiri ekrana basar

Ulke      Turkiye
Nüfus    83614362
Name: 0, dtype: object

In [18]:
df.set_index('Ulke',inplace=True)
df
# indexi 0-1-2 yapmak yerine Ulke'ye göre dizdi. Bunu yaptıktan sonra loc kullanarak Ulke'ye göre çağralım.
#inplace True sayesinde de yeni oluşan dataFrame'i başka bir değişkene atamak yerine kendi yerinde değiştirmiş olduk.

Unnamed: 0_level_0,Nüfus
Ulke,Unnamed: 1_level_1
Turkiye,83614362
Almanya,83190556
Hollanda,17134923
Belçika,14800000
Portekiz,10276617


In [19]:
df.loc['Almanya'] # İndexin Almanya olduğu satırı ekrana basar.  Yani LOC o indexi getiriyor.

Nüfus    83190556
Name: Almanya, dtype: int64

In [20]:
df.reset_index(inplace=True) # indexi eski haline getirdik.
df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


## CSV Okuma ve Yazma

In [21]:
df.to_csv("ulkeler.csv",index=False,columns=['Ulke','Nüfus']) # Elimizdeki df DataFrame'ini dosyaya yazma.
df=pd.read_csv("ulkeler.csv") # csv dosyasını oku ve dF olarak kaydet
print(type(df))
#df=pd.read_excel("dosyaadi.csv","sheet1")
#df=pd.DataFrame(pythonDict)                # python dictionaryi dataframe olarak okur
#df=pd.DataFrame(tupleslist, columns=["day","temperature"])# list of tuples to DataFrame
#df=pd.DataFrame(pythonDictList)            # python dict list to DataFrame


<class 'pandas.core.frame.DataFrame'>


In [22]:
df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14800000
4,Portekiz,10276617


In [23]:
df=pd.read_csv("ulkeler.csv", header=None, names=["Ulke","Nüfus"]) 
# CSV dosyasında headerların olmadigini belirttik ve headerlari kendimiz girdik

In [24]:
df2=pd.read_csv("ulkeler.csv", nrows=3) # Sadece ilk 3 satiri oku
df2

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923


## Kayıp Değerler (Missing Values)

Elimideki veri kümesinde bazen eksik veriler olacaktır. Bunlarla nasıl başa çıkalıcağı önemli bir problemdir.

In [25]:
df_missing=pd.read_csv("ulkeler_missing.csv") 
df_missing

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362
1,Almanya,83190556
2,Hollanda,17134923
3,Belçika,14200000
4,Portekiz,10276617
5,Japonya,
6,Mısır,Not Available
7,İtalya,59257566
8,İspanya,47351567
9,Arjantin,-1


In [26]:
df_missing.isnull().sum() #NaN deger kontrolü

Ulke     0
Nüfus    0
dtype: int64

In [27]:
df=pd.read_csv("ulkeler_missing.csv", na_values=["Not Available", "N.A","NULL","null"," "])
# Girilen 5 degeri de NaN olarak say
df.isnull().sum()

Ulke     0
Nüfus    2
dtype: int64

In [28]:
df=pd.read_csv("ulkeler_missing.csv", na_values={ # Nüfus -1 olamaz, NaN kabul et
  'Nüfus':["Not Available", "N.A"," ",-1],
  'Ulke':["Not Available", "N.A"]
})
df.isnull().sum()

Ulke     0
Nüfus    3
dtype: int64

In [29]:
new_df=df.fillna(0)            # NaN degerleri 0 ile doldur
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,0.0
6,Mısır,0.0
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,0.0


In [30]:
df.Nüfus.mean()

45003655.85714286

In [31]:
new_df=df.fillna({             # Her satira ozel olarak NaN yerine ne gelcegini yazdik 
        'Ulke' : 'Boş',
        'Nüfus':df.Nüfus.mean()
})
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614360.0
1,Almanya,83190560.0
2,Hollanda,17134920.0
3,Belçika,14200000.0
4,Portekiz,10276620.0
5,Japonya,45003660.0
6,Mısır,45003660.0
7,İtalya,59257570.0
8,İspanya,47351570.0
9,Arjantin,45003660.0


In [32]:
df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,
6,Mısır,
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,


In [33]:
new_df=df.fillna(method="ffill") #forward fill ile bir ustteki degerleri kendisi alir
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,10276617.0
6,Mısır,10276617.0
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,47351567.0


In [34]:
new_df=df.fillna(method="bfill") #backward fill ile bir alttaki degerleri kendisi alir
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,59257566.0
6,Mısır,59257566.0
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,


In [35]:
new_df=df.fillna(method="bfill",axis="columns") #backward fill columns (yatay) ile bir sagdaki degerleri kendisi alir
# sag sütunda özellik olmadığı için alamayacak
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614400.0
1,Almanya,83190600.0
2,Hollanda,17134900.0
3,Belçika,14200000.0
4,Portekiz,10276600.0
5,Japonya,
6,Mısır,
7,İtalya,59257600.0
8,İspanya,47351600.0
9,Arjantin,


In [36]:
new_df=df.fillna(method="ffill",axis="columns") #forward fill columns (yatay) ile bir soldaki degerleri kendisi alir
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,8.36144e+07
1,Almanya,8.31906e+07
2,Hollanda,1.71349e+07
3,Belçika,1.42e+07
4,Portekiz,1.02766e+07
5,Japonya,Japonya
6,Mısır,Mısır
7,İtalya,5.92576e+07
8,İspanya,4.73516e+07
9,Arjantin,Arjantin


In [37]:
df # Gerçek DataFrame

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,
6,Mısır,
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,


In [38]:
new_df=df.fillna(method="bfill", limit=1) #backward fill ile bir alttaki degeri (sadece 1 deger icin) kendisi alir
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,
6,Mısır,59257566.0
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,


In [39]:
new_df=df.interpolate()          # nan degerler icin interpolasyon yapar (ara degeri hesaplar) ve atar
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,26603600.0
6,Mısır,42930583.0
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,47351567.0


Kayıp değerleri doldurmak yerine silmek de bir çözümdür

In [40]:
new_df=df.dropna()  # Nan degerlerin oldugu tum satirlar silinir
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
7,İtalya,59257566.0
8,İspanya,47351567.0


In [41]:
new_df=df.dropna(how="all")      
# Tum columnlar NaN ise satiri siler, eger 1 tane bile valid deger varsa, satir silinmez
# Ulke ve Nüfus değerleri aynı anda boş olan satırlar silinir (veri kümesinde böyle bir satır yok)
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
5,Japonya,
6,Mısır,
7,İtalya,59257566.0
8,İspanya,47351567.0
9,Arjantin,


In [42]:
new_df=df.dropna(thresh=2)       # En az 2 tane valid deger varsa satır silinmez
new_df

Unnamed: 0,Ulke,Nüfus
0,Turkiye,83614362.0
1,Almanya,83190556.0
2,Hollanda,17134923.0
3,Belçika,14200000.0
4,Portekiz,10276617.0
7,İtalya,59257566.0
8,İspanya,47351567.0


Bazı verisetlerinde kayıp değerlerde NaN yerine -99999 gibi değerler olabilir. Bununla nasıl başa çıkabiliriz?

In [43]:
import numpy as np
df_notlar=pd.read_csv("notlar.csv")
df_notlar

Unnamed: 0,Ogrenci,Skor
0,Ali,iyi
1,Eren,pekiyi
2,Murat,orta
3,Mustafa,iyi
4,Ilker,iyi
5,Samet,kotu
6,Furkan,cok kotu
7,Buse,-99999
8,-99999,kotu
9,Irem,


In [44]:
df_notlar.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Ogrenci  10 non-null     object
 1    Skor    10 non-null     object
dtypes: object(2)
memory usage: 288.0+ bytes


In [45]:
new_df=df_notlar.replace('-99999', np.NaN)          #-99999 degeri yerine NaN yazar
new_df

Unnamed: 0,Ogrenci,Skor
0,Ali,iyi
1,Eren,pekiyi
2,Murat,orta
3,Mustafa,iyi
4,Ilker,iyi
5,Samet,kotu
6,Furkan,cok kotu
7,Buse,
8,,kotu
9,Irem,


In [46]:
new_df.isnull().sum() #NaN deger kontrolü

Ogrenci    1
 Skor      1
dtype: int64

In [47]:
new_df=df_notlar.replace(['-99999','-1',' '], np.NaN) #-99999,-1 degeri ve boşluk yerine NaN yazar
new_df

Unnamed: 0,Ogrenci,Skor
0,Ali,iyi
1,Eren,pekiyi
2,Murat,orta
3,Mustafa,iyi
4,Ilker,iyi
5,Samet,kotu
6,Furkan,cok kotu
7,Buse,
8,,kotu
9,Irem,


In [48]:
new_df=df_notlar.replace([' cok kotu', ' kotu', ' orta', ' iyi',' pekiyi'], [1,2,3,4,5])
new_df

Unnamed: 0,Ogrenci,Skor
0,Ali,4.0
1,Eren,5.0
2,Murat,3.0
3,Mustafa,4.0
4,Ilker,4.0
5,Samet,2.0
6,Furkan,1.0
7,Buse,-99999.0
8,-99999,2.0
9,Irem,


In [49]:
new_df=new_df.replace({                        # Her column icin spesifik olarak replacei belirt
        'Ogrenci': '-99999',
        ' Skor': ['-99999','-1',' ']
},np.NaN)
new_df

Unnamed: 0,Ogrenci,Skor
0,Ali,4.0
1,Eren,5.0
2,Murat,3.0
3,Mustafa,4.0
4,Ilker,4.0
5,Samet,2.0
6,Furkan,1.0
7,Buse,
8,,2.0
9,Irem,


In [50]:
new_df=new_df.fillna({             # Her satira ozel olarak NaN yerine ne gelcegini yazdik 
        'Ogrenci' : 'Bilinmiyor',
        ' Skor':new_df[' Skor'].mean()
})
new_df

Unnamed: 0,Ogrenci,Skor
0,Ali,4.0
1,Eren,5.0
2,Murat,3.0
3,Mustafa,4.0
4,Ilker,4.0
5,Samet,2.0
6,Furkan,1.0
7,Buse,3.125
8,Bilinmiyor,2.0
9,Irem,3.125
