# Veri Analizi - Part 2: Pandas

# 6. Pandas
Pandas ile şunlar yapılabilir ve pandas budur.

## 6.1 Import pandas

Programlarımızın genellikle en üst satırlarında pandas'ın fonksiyonlarını kullanmak için kütüphaneyi içeri aktarmamız gerekir.

In [1]:
import pandas as pd

## 6.2 Pandas Veri Tipleri

En sık kullanılan pandas veritipleri seriler ve dataframelerdir.

### Seriler

In [2]:
s = pd.Series([3, -5, 7, 4],  index=['a',  'b',  'c',  'd'])
print(s)

a    3
b   -5
c    7
d    4
dtype: int64


### DataFrame

In [3]:
data = {'Country': ['Belgium',  'India',  'Brazil'],
        'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
        'Population': [11190846, 1303171035, 207847528]}

In [4]:
df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

In [5]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


## 6.3 Giriş Çıkış Fonksiyonları

Giriş ve çıkış fonksiyonlarını kullanarak, farklı dosya tiplerindeki dosyaları okuyabiliriz

### CSV
".csv" formatı comma seperated values anlamına gelen virgülle ayrılmış değerler anlamına gelen verileri düzenli bir şekilde tutabilecek bir dosya formatıdır.

In [6]:
pd.read_csv('file.csv', header=None, nrows=5)

Unnamed: 0,0,1,2,3
0,,Country,Capital,Population
1,0.0,Belgium,Brussels,11190846
2,1.0,India,New Delhi,1303171035
3,2.0,Brazil,Brasilia,207847528


In [7]:
df.to_csv('file.csv')

## 6.4 Seçimler

Seçimler oldukça önemlidir, veri üzerinde manipülasyon yapabilmek için onları seçebilmeli, filtreleyebilmeli ve eğer ihtiyacımız yoksa onları kaldırabilmeliyiz.

### Getirmek

In [8]:
s['b']

-5

In [9]:
df[1:]

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


### Seçmek

In [10]:
# Pozisyona Göre

df.iloc[0, 0]

'Belgium'

In [11]:
# Etikete Göre

df.loc[:, 'Country']

0    Belgium
1      India
2     Brazil
Name: Country, dtype: object

In [12]:
# Koşula Göre

s[~(s > 1)]

b   -5
dtype: int64

In [13]:
s[(s < -1) | (s > 2)]

a    3
b   -5
c    7
d    4
dtype: int64

In [14]:
# Filtreleyerek

df[df['Population']>1200000000]

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035


### Düşürmek

In [15]:
s.drop(['a',  'c'])

b   -5
d    4
dtype: int64

In [16]:
df.drop('Country', axis=1) 

Unnamed: 0,Capital,Population
0,Brussels,11190846
1,New Delhi,1303171035
2,Brasilia,207847528


### Sıralamak

In [17]:
df.sort_index()

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


In [18]:
df.sort_values(by='Country') 

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
2,Brazil,Brasilia,207847528
1,India,New Delhi,1303171035


## 6.5 Özelliklerin Görüntülenmesi

Pandas uğraştığımız verisetiyle hızlı bir şekilde bilgi edinebilmemiz için oldukça kullanışlı fonksiyonlar içermektedir. Bu fonksiyonları öğrenerek kararlarımızı hızlı bir şekilde verebiliriz

### Basit Özellikler

In [19]:
df.shape

(3, 3)

In [20]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [21]:
df.columns

Index(['Country', 'Capital', 'Population'], dtype='object')

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Country     3 non-null      object
 1   Capital     3 non-null      object
 2   Population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [23]:
df.count()

Country       3
Capital       3
Population    3
dtype: int64

### Özetler

In [24]:
df.sum()

Country              BelgiumIndiaBrazil
Capital       BrusselsNew DelhiBrasilia
Population                   1522209409
dtype: object

In [25]:
df.describe()

Unnamed: 0,Population
count,3.0
mean,507403100.0
std,696134600.0
min,11190850.0
25%,109519200.0
50%,207847500.0
75%,755509300.0
max,1303171000.0


In [26]:
df.mean()

Population    5.074031e+08
dtype: float64

In [27]:
df.median()

Population    207847528.0
dtype: float64

## 6.6 Kısa Egsersiz

Şimdi basit bir egseriz yaparak, öğrendiklerimizi pekiştirelim. Bunu yapabilmek için oldukça basit bir veriseti kullanacağız.

In [31]:
data = pd.read_csv("iris.csv")

In [33]:
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [35]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [36]:
data.columns

Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

In [37]:
data.drop(labels=[data.columns[0]], axis=1, inplace=True)

In [40]:
data.tail(10)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [42]:
data.describe()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [46]:
data.groupby("Species").agg(["min", "max", "mean"])

Unnamed: 0_level_0,SepalLengthCm,SepalLengthCm,SepalLengthCm,SepalWidthCm,SepalWidthCm,SepalWidthCm,PetalLengthCm,PetalLengthCm,PetalLengthCm,PetalWidthCm,PetalWidthCm,PetalWidthCm
Unnamed: 0_level_1,min,max,mean,min,max,mean,min,max,mean,min,max,mean
Species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Iris-setosa,4.3,5.8,5.006,2.3,4.4,3.418,1.0,1.9,1.464,0.1,0.6,0.244
Iris-versicolor,4.9,7.0,5.936,2.0,3.4,2.77,3.0,5.1,4.26,1.0,1.8,1.326
Iris-virginica,4.9,7.9,6.588,2.2,3.8,2.974,4.5,6.9,5.552,1.4,2.5,2.026
