![Python-for-Data-Analysis-Wes-McKinney.jpg](attachment:Python-for-Data-Analysis-Wes-McKinney.jpg)

# <p style="background-color:#002B5B; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">Getting Started With Pandas</p>

⭐ Pandas, veri temizleme ve analizini hızlı ve kolay hale getirmek için tasarlanmış veri yapılarını ve veri işleme araçlarını içeren ücretsiz bir python kütüphanesidir.

##  <p style="background-color:#002B5B; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:center; border-radius:10px 10px;">1. Introduction to Pandas Data Structures</p>

⭐ Pandas a başlamadan önce iki kavramı iyi bilmek gerekir. Seriler ve Dataframe ler

##  <p style="background-color:#002B5B; font-family:newtimeroman; color:#FFF9ED; font-size:150%; text-align:left; border-radius:10px 10px;">Ders_1 : Series </p>

In [1]:
import pandas as pd
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.set_printoptions(precision=4, suppress=True)

<div class="alert alert-info">Pandas serileri bir boyutlu veri yapılarıdır. İçerisinde objectler, floatlar, stringler ve integerlar gibi bir çok veri tipini barındırabilir. Bunları inexlenmiş halde tutar.  pandas.Series() ifadesi ile seriler oluşturabiliriz. Bir listeden, numpy array inden, veya bir dictionaryden bir pandas series oluşturabiliriz. Ayrica bir scalar değer kullanarka da Series oluşturabiliriz. E hadi oluşturalım o zaman 😀 .</div>

<div class="alert alert-danger">💻 Python lists, Numpy arrays and Pandas series ile ilgili bilgi ve aralarındaki farklar için  

https://towardsdatascience.com/python-lists-numpy-arrays-and-pandas-series-72c4829242bf </div>

## <p style="background-color:#002B5B; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">1.1 Series Oluşturma (4 yolla oluşturulabilir)</p>

## I - Liste veya Tuple Kullanarak Seri Oluşturmak

In [2]:
# Bir listeden seri oluşturabiliriz
items = (1,2,3,4)
pd.Series(items)

0    1
1    2
2    3
3    4
dtype: int64

## II - Numpy Array Kullanarak Seri Oluşturmak

In [3]:
# Numpy array den bir seri oluşturabiliriz.
veri  = np.array(['x','y','z'])
pd.Series(veri)

0    x
1    y
2    z
dtype: object

## III - Dictionary Kullanarak Seri Oluşturmak

In [4]:
# Dictionary den bir seri oluşturur.
veri = { 'uk':'united kingdom'
        ,'fr':'france' }
pd.Series(veri)

uk    united kingdom
fr            france
dtype: object

## IV - Scalar İle Seri Oluşturmak 

<div class="alert alert-info">Scalar deyince aklımıza Lineer Cebir deki veya fizik deki scalar değerler gibi düşünmeyin. Scalar diyince aklımıza list veya tuple gibi yapıların aksine tek bir birimden oluşan yapılar gelmeli. bunlar integer boolean gibi yapılardır</div>

In [5]:
isim = 'Ali'
sc_ser = pd.Series(isim)
sc_ser

0    Ali
dtype: object

In [6]:
sc_ser = pd.Series(isim, index=range(3))
sc_ser

0    Ali
1    Ali
2    Ali
dtype: object

In [7]:
sc_ser = pd.Series(isim, index=['a','b','c'])
sc_ser

a    Ali
b    Ali
c    Ali
dtype: object

## <p style="background-color:#002B5B; font-family:newtimeroman; color:#FFF9ED; font-size:175%; text-align:center; border-radius:10px 10px;">1.2 Series Özellikleri</p>

 <div class="alert alert-danger">pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)</div>

In [8]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [9]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [10]:
obj.index  # like range(4)

RangeIndex(start=0, stop=4, step=1)

⭐ Serideki indexleri kendimiz de belirleyebiliriz. 

In [11]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

⭐ Serilerde index etiketlerine göre veya sırasına göre value ları cağırabiliriz. 

In [13]:
rapor = pd.Series(data=[100,99,98,97,96], index=['Norway','New Zealand','Canada','Denmark','Belgium'])
rapor

Norway         100
New Zealand     99
Canada          98
Denmark         97
Belgium         96
dtype: int64

In [14]:
rapor['Canada']

98

In [15]:
rapor[2]

98

In [16]:
rapor.index[2]

'Canada'

In [17]:
rapor[2:]

Canada     98
Denmark    97
Belgium    96
dtype: int64

In [18]:
rapor['Canada':]

Canada     98
Denmark    97
Belgium    96
dtype: int64

⭐ Birden fazla index seçebilmek için köşeli parantezin içine bir liste yazmamız gereklidir.

In [19]:
rapor[['Norway','Canada','Belgium']]

Norway     100
Canada      98
Belgium     96
dtype: int64

⭐ Serideki değerlere atama yapılabilir.

In [20]:
rapor['Norway'] = 50
rapor

Norway         50
New Zealand    99
Canada         98
Denmark        97
Belgium        96
dtype: int64

⭐ Numpy fonksiyonları ve numpy daki işlemler (filtreleme, bir scalar sayı ile işlem, matematiksel işlemler pandas da da yapılabilir. Bunlar yapılırken index değeri korunur.

In [21]:
rapor<97

Norway          True
New Zealand    False
Canada         False
Denmark        False
Belgium         True
dtype: bool

In [22]:
rapor[rapor<97]

Norway     50
Belgium    96
dtype: int64

In [23]:
rapor * 2

Norway         100
New Zealand    198
Canada         196
Denmark        194
Belgium        192
dtype: int64

In [24]:
rapor

Norway         50
New Zealand    99
Canada         98
Denmark        97
Belgium        96
dtype: int64

   <div class="alert alert-danger">❗❗❗ Burada dikkat edilmesi gereken şey bu işlemler sonunda serinin değeri değişmiyor.</div>

In [25]:
rapor = rapor-60
rapor

Norway        -10
New Zealand    39
Canada         38
Denmark        37
Belgium        36
dtype: int64

⭐ numpy fonksiyonlarini da serilere uygulayabiliyoruz.

In [26]:
np.sqrt(rapor)

  result = getattr(ufunc, method)(*inputs, **kwargs)


Norway              NaN
New Zealand    6.244998
Canada         6.164414
Denmark        6.082763
Belgium        6.000000
dtype: float64

In [27]:
np.power(rapor,2)

Norway          100
New Zealand    1521
Canada         1444
Denmark        1369
Belgium        1296
dtype: int64

⭐ Serileri belirli uzunlukta sirali dictionaryler şeklinde düşünebiliriz. çünkü dictionarylerdeki key value eşleşmesi burada index ve value ler ile olmaktadır.

In [28]:
mydict = {'a':1
         ,'b':2
         ,'c':3}

In [29]:
'a' in mydict

True

In [30]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [31]:
'b' in obj2

True

In [32]:
'e' in obj2

False

❓ indexi belli olan bir seride farklı bir index belirlersek ne olur?

In [33]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [34]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

⭐ sdata bulunan verilerin karşılıkları geldi. ancak California sdata da bulunmadığından değeri NaN (not a number) olarak göründü. sdata da bulunan Utah, indexde yer almadığından sonuç objesinde yer almadı.

⭐ Biz bu NaN tipindeki değerleri bundan sonra missing value olarak ifade edeceğiz.

⭐ missing value leri tespit etmek için isnull veya notnull fonksiyonları kullanabiliriz.

In [35]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [36]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [37]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

🔑 Missing Value ler ile ilgili detaylı çalışmayı kitabın 7. bölümüne geldiğimizde yapacağız.

   <div class="alert alert-danger">❗❗❗ Serilerin en önemli avantajlarından biri de index bazlı aritmetik işlemler yapabiliriz ve pandas iki seride hangi indexlerin ortak olduğunu biliyor ve işlemleri buna göre otomatik olarak yapıyor.</div>

In [38]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [39]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [40]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

💣 Data alingment (veri hizalama ) özelliklerinden ileride detaylıca bahsedeceğiz. Eğer veritabanı hakkında tecrübeniz varsa bunun bir bakıma bir join işlemi olduğunu düşünebilirsiniz.

⭐ Biz hem Series nesnesinin kendisine hem de indexine isim verebiliriz.

In [41]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64