## Pandas Nedir?

- Python için veri analizi kütüphanesidir.

- Adı “Panel Data” kavramından gelir.

- Tablo (Excel gibi) veya seri (tek sütun) verilerle çalışmayı kolaylaştırır.

- NumPy üzerine kuruludur → yani hız açısından yine NumPy’nin gücünü kullanır ama daha kolay bir arayüz sunar.

### Ne İşe Yarar?

#### Veri okuma/yazma:

- CSV, Excel, SQL, JSON gibi farklı formatlardan veri alıp yazabilirsin.

- Örn: pd.read_csv("dosya.csv")

#### Tablo yapısı (DataFrame):

- Satır–sütun yapısında verilerle çalışabilirsin.

- Excel gibi düşünebilirsin.

#### Veri temizleme:

- Eksik değerleri doldurabilir/silebilirsin.

- Tekrarlayan kayıtları kaldırabilirsin.

#### Veri seçme/filtreleme:

- İstediğin satır/sütunları kolayca seçebilirsin.

#### İstatistiksel işlemler:

- Ortalama, toplam, gruplama, sıralama gibi işlemler kolay yapılır.

#### Veri dönüştürme:

- Verileri birleştirebilir, yeniden şekillendirebilir, indeksleme yapabilirsin.

#### 1. Series

- Tek boyutlu (liste gibi) veri yapısıdır.

- Hem veri hem de etiket (index) içerir.

- NumPy array’e benzer ama yanında etiket bilgisi vardır.

#### 2. DataFrame

- İki boyutlu tablo yapısıdır (Excel sayfası gibi).

- Satırlar + sütunlar vardır.

- Birden fazla Series yan yana gelince DataFrame oluşur.



#### Kısaca Özet

- Series = Tek sütun (etiketli NumPy array gibi).

- DataFrame = Birden çok sütundan oluşan tablo (Excel sayfası gibi).

In [3]:
import pandas as pd

In [5]:
data = [1,2,3,4,5]
series = pd.Series(data)
print(type(series))
series

<class 'pandas.core.series.Series'>


0    1
1    2
2    3
3    4
4    5
dtype: int64

In [8]:
## Create a Series from dictionary
data = {'a':1,'b':2,'c':3}
series_dict = pd.Series(data)
print(type(series_dict))
print(series_dict)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [9]:
data =  [10,20,30]
index = ['a','b','c']

pd.Series(data,index=index)

a    10
b    20
c    30
dtype: int64

In [14]:
## Dataframe

data = {
    'Name':['Krish','John','Jack'],
    'Age':[25,30,45],
    'City':['Bangalore','New York','Florida']
}

df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Age,City
0,Krish,25,Bangalore
1,John,30,New York
2,Jack,45,Florida


In [15]:
import numpy as np
np.array(df) 

array([['Krish', 25, 'Bangalore'],
       ['John', 30, 'New York'],
       ['Jack', 45, 'Florida']], dtype=object)

In [37]:
## Create a Data frame From a List of Dictionaries

data=[
    {'Name':'Krish','Age':32,'City':'Bangalore'},
    {'Name':'John','Age':34,'City':'Florida'},
    {'Name':'Bappy','Age':32,'City':'New York'},
    {'Name':'Jack','Age':32,'City':'Bangalore'}
    
]
df=pd.DataFrame(data)
print(df)
print(type(df))

    Name  Age       City
0  Krish   32  Bangalore
1   John   34    Florida
2  Bappy   32   New York
3   Jack   32  Bangalore
<class 'pandas.core.frame.DataFrame'>


In [38]:
df = pd.read_csv('sales_data.csv')
df.head(5) ## excel

Unnamed: 0,Transaction ID,Date,Product Category,Product Name,Units Sold,Unit Price,Total Revenue,Region,Payment Method
0,10001,2024-01-01,Electronics,iPhone 14 Pro,2,999.99,1999.98,North America,Credit Card
1,10002,2024-01-02,Home Appliances,Dyson V11 Vacuum,1,499.99,499.99,Europe,PayPal
2,10003,2024-01-03,Clothing,Levi's 501 Jeans,3,69.99,209.97,Asia,Debit Card
3,10004,2024-01-04,Books,The Da Vinci Code,4,15.99,63.96,North America,Credit Card
4,10005,2024-01-05,Beauty Products,Neutrogena Skincare Set,1,89.99,89.99,Europe,PayPal


In [39]:
df.tail(2)

Unnamed: 0,Transaction ID,Date,Product Category,Product Name,Units Sold,Unit Price,Total Revenue,Region,Payment Method
238,10239,2024-08-26,Beauty Products,Sunday Riley Luna Sleeping Night Oil,1,55.0,55.0,Europe,PayPal
239,10240,2024-08-27,Sports,Yeti Rambler 20 oz Tumbler,2,29.99,59.98,Asia,Credit Card


In [40]:
### Accessing Data from Dataframe
df=pd.DataFrame(data)
df 

Unnamed: 0,Name,Age,City
0,Krish,32,Bangalore
1,John,34,Florida
2,Bappy,32,New York
3,Jack,32,Bangalore


In [41]:
print(type(df['Name']))## sütunu aldığında series haline geliyor
df['Name']

<class 'pandas.core.series.Series'>


0    Krish
1     John
2    Bappy
3     Jack
Name: Name, dtype: object

📌 df.loc[]

Label-based indexing (etiket ile erişim) kullanır.

Yani satırın/sütunun isimlerine göre seçim yapar.

df.loc[0] → index etiketi 0 olan satırı getirir.

Örnek:

import pandas as pd

data = {"Ad": ["Ali", "Ayşe", "Mehmet"], "Yaş": [25, 30, 35]}
df = pd.DataFrame(data, index=["a", "b", "c"])

print(df)


👉 Burada:

df.loc["a"] → "Ali" satırını getirir.

df.loc["b"] → "Ayşe" satırını getirir.

Ama df.loc[0] hata verir ❌ çünkü index’lerde 0 yok.

📌 df.iloc[]

Integer-location based indexing (pozisyon ile erişim) kullanır.

Yani satırın/sütunun konumuna (0,1,2 …) göre seçim yapar.

👉 Yukarıdaki örnekte:

df.iloc[0] → ilk satır ("Ali")

df.iloc[1] → ikinci satır ("Ayşe")

Index isimleri ne olursa olsun, iloc sıra numarasına bakar.

In [42]:
df.loc[0]

Name        Krish
Age            32
City    Bangalore
Name: 0, dtype: object

In [43]:
df.iloc[0]

Name        Krish
Age            32
City    Bangalore
Name: 0, dtype: object

In [44]:
## Accessing a specified element

df['Name']
df

Unnamed: 0,Name,Age,City
0,Krish,32,Bangalore
1,John,34,Florida
2,Bappy,32,New York
3,Jack,32,Bangalore


In [45]:
df.at[2,'City']
df.at[1,'Age']


np.int64(34)

In [49]:
df.iat[2,2]


'New York'

In [50]:
## Data Manipulation with Dataframe

## adding a clomn
df['Salary'] = [50000,60000,70000,80000]
df

Unnamed: 0,Name,Age,City,Salary
0,Krish,32,Bangalore,50000
1,John,34,Florida,60000
2,Bappy,32,New York,70000
3,Jack,32,Bangalore,80000


In [None]:
## Remove a column
df.drop('Salary',axis=1,inplace=True) 
## axis=1 yapılarak sütundan arama sağlanır yoksa default değerle (axis=0) satırları arar.
## inplace = True ile yapılacak değişikliğin kalıcı olması sağlanır.

In [55]:
df

Unnamed: 0,Name,Age,City
0,Krish,32,Bangalore
1,John,34,Florida
2,Bappy,32,New York
3,Jack,32,Bangalore


In [57]:
## Add age to the column
df['Age'] = df['Age'] + 2
df

Unnamed: 0,Name,Age,City
0,Krish,36,Bangalore
1,John,38,Florida
2,Bappy,36,New York
3,Jack,36,Bangalore


In [58]:
df.drop(0) ## 0. indexli satırı siler inplace=True ile kalıcı hale getirilebilir

Unnamed: 0,Name,Age,City
1,John,38,Florida
2,Bappy,36,New York
3,Jack,36,Bangalore


In [59]:
df

Unnamed: 0,Name,Age,City
0,Krish,36,Bangalore
1,John,38,Florida
2,Bappy,36,New York
3,Jack,36,Bangalore


In [60]:
# Display the data types of each column
print("Data types:\n", df.dtypes)

# Describe the DataFrame
print("Statistical summary:\n", df.describe())

Data types:
 Name    object
Age      int64
City    object
dtype: object
Statistical summary:
         Age
count   4.0
mean   36.5
std     1.0
min    36.0
25%    36.0
50%    36.0
75%    36.5
max    38.0


In [66]:
df = pd.DataFrame(data)
df['Salary'] = [50000,70000,100000,900000]
df

Unnamed: 0,Name,Age,City,Salary
0,Krish,32,Bangalore,50000
1,John,34,Florida,70000
2,Bappy,32,New York,100000
3,Jack,32,Bangalore,900000


In [67]:
df.describe()

Unnamed: 0,Age,Salary
count,4.0,4.0
mean,32.5,280000.0
std,1.0,413843.770844
min,32.0,50000.0
25%,32.0,65000.0
50%,32.0,85000.0
75%,32.5,300000.0
max,34.0,900000.0
