# Pandas Nedir?

* Pandas, Python programlama dilinde veri işleme ve analizi için kullanılan bir yazılım kütüphanesidir.

* Pandas, veri yapıları ve işlemleri için yüksek performans ve kullanımı kolay araçlar sağlar. Özellikle, "DataFrame" adı verilen iki boyutlu etiketli veri yapısı, veri manipülasyonu ve analizi için oldukça kullanışlıdır.

* Pandas kütüphanesi, veri okuma, yazma, temizleme, dönüştürme, birleştirme, filtreleme, gruplama ve görselleştirme gibi birçok işlem için fonksiyonlar ve yöntemler sunar.

* Özetle, Pandas, Python'da veri analizi yapmak isteyenler için olmazsa olmaz bir araçtır.

In [1]:
import numpy as np
import pandas as pd           # import

df = pd.DataFrame()           # boş dataframe oluştur.

# dosyadan okumalar
df = pd.read_csv('dosya_adi.csv')
df = pd.read_excel('dosya_adi.xlsx')
df = pd.read_json('dosya_adi.json')
df = pd.read_html('web_sayfasi.html')

# dosyaya yazma
df.to_csv('dosya_adi.csv', index=False)
df.to_excel('dosya_adi.xlsx', index=False)
df.to_json('dosya_adi.json')

# veritabanından okuma
import sqlite3
conn = sqlite3.connect('veritabani.db')
df = pd.read_sql_query("SELECT * FROM tablo_adi", conn)

# koleksiyonlardan oluşturma
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data, columns=['Sütun_Adı'])

data = {'Sütun1': [1, 2, 3], 'Sütun2': [4, 5, 6]}
df = pd.DataFrame(data)

data = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(data, columns=['Sütun1', 'Sütun2'])

# veri manipulasyonu
df.head()       # ilk n satır gösterilir
df.tail()       # son n satır
df.info()       # kolonlar hakkında bilgi
df.describe()   # özet istatistik
df.shape        # satır,kolon sayısı
df.columns      # kolon adları
df.dtypes       # kolon veritipleri

df['A'] = df['A'].astype(int) # kolon veri tipi değiştirme

df.sort_values(by='Yaş') # kolana göre sıralama
df.groupby('Cinsiyet').mean() # cinsiyete göre gruplama ve ortalama
df_grup = df.groupby('Şehir')['Satış'].sum()
# diğer methodlar: min, max, median, std, var(varyans), count, nunique,first, last

df.fillna(0) # boş değerleri 0 ile doldur
df.dropna() # boş değerleri sil
df.drop_duplicates() # tekrar eden satırları sil
df.drop_duplicates(subset=['İsim', 'Yaş'])
df.drop_duplicates(keep='last') # Son tekrar eden satırı tutar, diğerlerini siler.
df.drop_duplicates(keep='first') # ilk tekrar eden satırı tutar, diğerlerini siler.

df.rename(columns={'İlk_Sütun': 'Yeni_Sütun'}) # sütun adını değiştir

df['Yeni_Sütun'] = df['İlk_Sütun'] * 2 # yeni sütun oluştur

# kolon seçimi
df['İlk_Sütun'] # tek sütunu seç
df[['İlk_Sütun', 'İkinci_Sütun']] # birden fazla sütunu seç

# loc(), etiket tabanlı seçim
df.loc[0:3, 'İlk_Sütun'] # satır ve sütun seçimi

df.loc[df['Sütun1'] > 10] # 'Sütun1' sütunundaki değeri 10'dan büyük olan satırları seçer.

df.iloc[0] # satır seçimi
df.iloc[0:3, 0:2] # satır ve sütun seçme, dilim


# filtreleme
df[df['Sütun1'] > 10] # 'Sütun1' sütunundaki değeri 10'dan büyük olan satırları seç
df[(df['Sütun1'] > 10) & (df['Sütun2'] < 5)] # çoklu şart

# merge(): İki DataFrame'i ortak bir sütuna göre birleştirme
pd.merge(df1, df2, on='id') # id kolonuna göre birleştirir

# concat(): İki veya daha fazla DataFrame'i birleştirme
pd.concat([df1, df2, df3])
pd.concat([df1, df2], axis=1) # yanyana birleştirme


FileNotFoundError: [Errno 2] No such file or directory: 'dosya_adi.csv'

In [10]:
# sözlükten dataframe oluşturmak
import pandas as pd
sozluk = {
    'sehir': ['Istanbul', 'Ankara', 'Izmir'],
    'enlem': [41.01, 39.92, 38.42],
    'boylam': [28.97, 32.85, 27.14],
    'nufus': [15029231, 5639076, 4367251]
}

df = pd.DataFrame(sozluk)




Unnamed: 0,sehir,enlem,boylam,nufus
1,Ankara,39.92,32.85,5639076
2,Izmir,38.42,27.14,4367251


In [11]:
df.head(2)

Unnamed: 0,sehir,enlem,boylam,nufus
0,Istanbul,41.01,28.97,15029231
1,Ankara,39.92,32.85,5639076


In [12]:
df.tail(2)

Unnamed: 0,sehir,enlem,boylam,nufus
1,Ankara,39.92,32.85,5639076
2,Izmir,38.42,27.14,4367251


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   sehir   3 non-null      object 
 1   enlem   3 non-null      float64
 2   boylam  3 non-null      float64
 3   nufus   3 non-null      int64  
dtypes: float64(2), int64(1), object(1)
memory usage: 224.0+ bytes


In [16]:
df.describe()

Unnamed: 0,enlem,boylam,nufus
count,3.0,3.0,3.0
mean,39.783333,29.653333,8345186.0
std,1.300397,2.915687,5823378.0
min,38.42,27.14,4367251.0
25%,39.17,28.055,5003164.0
50%,39.92,28.97,5639076.0
75%,40.465,30.91,10334150.0
max,41.01,32.85,15029230.0


In [18]:
print(df.columns[1])

enlem


In [21]:
df.shape[1]

4

In [23]:
print(df.dtypes,type(df.dtypes),df.dtypes[0],sep="\n")

sehir      object
enlem     float64
boylam    float64
nufus       int64
dtype: object
<class 'pandas.core.series.Series'>
object


  print(df.dtypes,type(df.dtypes),df.dtypes[0],sep="\n")


In [30]:
df = pd.read_csv("öğrenci notları - isimli.csv")
#df.head()

df.describe()



Unnamed: 0,Öğr. No,Ara Sınav,2. sınav,Ödev,Final,Devam Sayısı
count,119.0,119.0,119.0,119.0,119.0,119.0
mean,521.327731,53.546218,53.764706,58.739496,58.705882,9.092437
std,271.881583,26.394898,27.935369,28.717048,29.896248,3.777704
min,102.0,2.0,3.0,0.0,1.0,1.0
25%,300.0,34.5,32.0,38.5,36.0,7.0
50%,475.0,53.0,55.0,55.0,63.0,10.0
75%,747.5,77.5,76.5,83.5,86.5,12.0
max,999.0,100.0,100.0,100.0,100.0,17.0


# Örnek

In [33]:
df = pd.read_html("https://raw.githubusercontent.com/zyavuz610/data/master/table.html")
df[0]

Unnamed: 0,Header 1,Header 2,Header 3,Header 4
0,"Row 1, Cell 1","Row 1, Cell 2","Row 1, Cell 3","Row 1, Cell 4"
1,"Row 2, Cell 1","Row 2, Cell 2","Row 2, Cell 3","Row 2, Cell 4"
2,"Row 3, Cell 1","Row 3, Cell 2","Row 3, Cell 3","Row 3, Cell 4"
3,"Row 4, Cell 1","Row 4, Cell 2","Row 4, Cell 3","Row 4, Cell 4"


In [4]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/ertugrulsarsar/pythonEgitim/main/%C3%B6%C4%9Frenci%20notlar%C4%B1%20-%20isimli.csv")
df.head()

Unnamed: 0,Ad,Öğr. No,Ara Sınav,2. sınav,Ödev,Final,Devam Sayısı
0,selver,102,98,82,79,96,9
1,oğuz,105,33,55,35,84,12
2,Eren,111,75,35,90,64,11
3,ihsan,112,77,66,55,44,13
4,polat,117,24,58,98,42,11


In [5]:
                                        #YENİ KOLON OLUŞTUR
oranlar = (0.2,0.2,0.2,0.4)
df["Devam Yüzdesi"]=(100*df["Devam Sayısı"]/14).astype(int) #bir sütun daha eklendi #int'e çevrildi.s
df["Ortalama"] = (df["Ara Sınav"]*oranlar[0] + 
                  df["2. sınav"]*oranlar[1] + 
                  df["Ödev"]*oranlar[2] + 
                  df["Final"]*oranlar[3]).astype(float)
df.head()


Unnamed: 0,Ad,Öğr. No,Ara Sınav,2. sınav,Ödev,Final,Devam Sayısı,Devam Yüzdesi,Ortalama
0,selver,102,98,82,79,96,9,64,90.2
1,oğuz,105,33,55,35,84,12,85,58.2
2,Eren,111,75,35,90,64,11,78,65.6
3,ihsan,112,77,66,55,44,13,92,57.2
4,polat,117,24,58,98,42,11,78,52.8


In [6]:
                                        # KOLON İSİMLENDİR
df.columns = ["ad","num","ara_sinav","ara_sinav_2","odev","final","devam_sayisi","devam_yuzdesi","ortalama"]
df.head()

Unnamed: 0,ad,num,ara_sinav,ara_sinav_2,odev,final,devam_sayisi,devam_yuzdesi,ortalama
0,selver,102,98,82,79,96,9,64,90.2
1,oğuz,105,33,55,35,84,12,85,58.2
2,Eren,111,75,35,90,64,11,78,65.6
3,ihsan,112,77,66,55,44,13,92,57.2
4,polat,117,24,58,98,42,11,78,52.8


<bound method NDFrame.describe of           Ad  Öğr. No  Ara Sınav  2. sınav  Ödev  Final  Devam Sayısı
0     selver      102         98        82    79     96             9
1       oğuz      105         33        55    35     84            12
2       Eren      111         75        35    90     64            11
3      ihsan      112         77        66    55     44            13
4      polat      117         24        58    98     42            11
..       ...      ...        ...       ...   ...    ...           ...
114     ayşe      964         81        32    94     26             9
115  hüseyin      982         84        63    75     80            10
116    çakır      983         53        64    75     86            11
117    gizem      998         38        60    82     16             6
118      Ali      999         87        23    54     23            11

[119 rows x 7 columns]>

In [24]:
# https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb#scrollTo=av6RYOraVG1V

In [7]:
import pandas as pd
pd.__version__

'2.1.4'

In [None]:
df = pd.read_csv("sample_data/california_housing_train.csv", sep=",")
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0
mean,-119.562108,35.625225,28.589353,2643.664412,539.410824,1429.573941,501.221941,3.883578,207300.912353
std,2.005166,2.13734,12.586937,2179.947071,421.499452,1147.852959,384.520841,1.908157,115983.764387
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.79,33.93,18.0,1462.0,297.0,790.0,282.0,2.566375,119400.0
50%,-118.49,34.25,29.0,2127.0,434.0,1167.0,409.0,3.5446,180400.0
75%,-118.0,37.72,37.0,3151.25,648.25,1721.0,605.25,4.767,265000.0
max,-114.31,41.95,52.0,37937.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [None]:
print(df.head(10))

   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -114.31     34.19                15.0       5612.0          1283.0   
1    -114.47     34.40                19.0       7650.0          1901.0   
2    -114.56     33.69                17.0        720.0           174.0   
3    -114.57     33.64                14.0       1501.0           337.0   
4    -114.57     33.57                20.0       1454.0           326.0   
5    -114.58     33.63                29.0       1387.0           236.0   
6    -114.58     33.61                25.0       2907.0           680.0   
7    -114.59     34.83                41.0        812.0           168.0   
8    -114.59     33.61                34.0       4789.0          1175.0   
9    -114.60     34.83                46.0       1497.0           309.0   

   population  households  median_income  median_house_value  
0      1015.0       472.0         1.4936             66900.0  
1      1129.0       463.0         1.8200        

In [None]:
df.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.3,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.3,41.8,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0
16999,-124.35,40.54,52.0,1820.0,300.0,806.0,270.0,3.0147,94600.0


In [None]:
print(df.columns)

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')
