# Pandas

- Data Exploration
- Data Cleaning
- Data Analyzing
- Data Manipulation


- Data types in pandas:
    - **Series**
    - **DataFrame**

In [9]:
# Pandas Series

import pandas as pd

a = [1, 7, 2]

mySeries = pd.Series(a)
mySeries2 = pd.Series(a, index = ["x", "y", "z"]) # indexler artık 0 1 2 değil



mySeries2["z"]



2

In [14]:
calories = {"day1": 420, "day2": 310, "day3": 500}

mySeries = pd.Series(calories)
mySeries["day1":"day2"]

day1    420
day2    310
dtype: int64

In [16]:
# Pandas DataFrame

data = {
    "calories": [420, 310, 500],
    "duration": [40, 30, 55],
    "sleep": [6, 7, 4]
}

df = pd.DataFrame(data)

df

Unnamed: 0,calories,duration,sleep
0,420,40,6
1,310,30,7
2,500,55,4


In [32]:
# Pandas DataFrame

data = [{"calories": 420, "duration": 40, "sleep":6},
        {"calories": 310, "duration": 30, "sleep":7},
        {"calories": 500, "duration": 55, "sleep":4}]

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# .loc : index kullanarak bir satıra ulaşmaya yarar

print(df.loc['day2']) # index vererek tek bir satıra ulaşmak için
print("-"*20)
print(df.loc[['day3', 'day2']]) # index vererek birden fazla satıra ulaşmak için (liste halinde vermek gerekiyor.)

calories    310
duration     30
sleep         7
Name: day2, dtype: int64
--------------------
      calories  duration  sleep
day3       500        55      4
day2       310        30      7


In [36]:
# .iloc index sayısıyla bir satıra ulaşmaya yarar

df.iloc[0:2]

Unnamed: 0,calories,duration,sleep
day1,420,40,6
day2,310,30,7


In [45]:
data = [{"calories": 420, "duration": 40, "sleep":6.1},
        {"calories": 310, "duration": 30, "sleep":7},
        {"calories": 500, "duration": 55, "sleep":4}]

df = pd.DataFrame(data, columns=["calories", "sleep"], dtype=int)
df

Unnamed: 0,calories,sleep
0,420,6.1
1,310,7.0
2,500,4.0


In [112]:
# Selection in pandas

import numpy as np
import pandas as pd


df = pd.DataFrame(np.random.randn(5, 5), index = ["A", "B", "C", "D", "E"], columns=["Col1", "Col2", "Col3", "Col4", "Col5"])


print(df)
print("-"*20)

# Sütun seçme
print(df['Col2']) # Bir sütuna ulaşmak için
print("-"*20)
print(df[['Col2', 'Col5']]) # Birden fazla sütuna ulaşmak için (sütun isimlerini liste olarak vermek gerekiyor)
print("-"*20)
print(df['Col2':'Col5']) #  Birden fazla sütuna ulaşmak için (aralık vererek)
print("-"*20)

#Satır seçme

print(df.loc["A"]) # Bir satıra ulaşmak için
print("-"*20)
print(df.loc[["A", "C"]]) # Birden fazla satıra ulaşmak için (indexleri liste olarak vermek gerekiyor)
print("-"*20)
print(df.loc["B":"E"]) # Birden fazla satıra ulaşmak için (aralık vererek)

#Hem satır hem sütun seçme
print("-"*20)
print(df.loc["A", "Col3"]) # Virgülden önce satır, virgülden sonra sütun indexi
print("-"*20)
print(df.loc[["A", "D"], "Col3": "Col5"])
df

       Col1      Col2      Col3      Col4      Col5
A  0.002410  0.961115  0.596259  1.225870 -0.697839
B  0.460803 -0.908030 -0.604133  0.799278  0.661814
C -0.812836 -0.026470  0.323626  0.711277  0.919638
D  1.223154  0.710099 -1.367561  1.034401  0.889267
E -0.537419  0.851740  0.087541  0.631869  0.004820
--------------------
A    0.961115
B   -0.908030
C   -0.026470
D    0.710099
E    0.851740
Name: Col2, dtype: float64
--------------------
       Col2      Col5
A  0.961115 -0.697839
B -0.908030  0.661814
C -0.026470  0.919638
D  0.710099  0.889267
E  0.851740  0.004820
--------------------
Empty DataFrame
Columns: [Col1, Col2, Col3, Col4, Col5]
Index: []
--------------------
Col1    0.002410
Col2    0.961115
Col3    0.596259
Col4    1.225870
Col5   -0.697839
Name: A, dtype: float64
--------------------
       Col1      Col2      Col3      Col4      Col5
A  0.002410  0.961115  0.596259  1.225870 -0.697839
C -0.812836 -0.026470  0.323626  0.711277  0.919638
--------------------
  

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
A,0.00241,0.961115,0.596259,1.22587,-0.697839
B,0.460803,-0.90803,-0.604133,0.799278,0.661814
C,-0.812836,-0.02647,0.323626,0.711277,0.919638
D,1.223154,0.710099,-1.367561,1.034401,0.889267
E,-0.537419,0.85174,0.087541,0.631869,0.00482


In [113]:
# Arithmetic Operations

df['Col6'] = df ['Col2'] * 2
df['Col7'] = df['Col1'] + df['Col3']
df['Col8'] = df['Col4'] / df['Col3']

df

Unnamed: 0,Col1,Col2,Col3,Col4,Col5,Col6,Col7,Col8
A,0.00241,0.961115,0.596259,1.22587,-0.697839,1.922229,0.598669,2.055934
B,0.460803,-0.90803,-0.604133,0.799278,0.661814,-1.816059,-0.14333,-1.323017
C,-0.812836,-0.02647,0.323626,0.711277,0.919638,-0.052941,-0.48921,2.197838
D,1.223154,0.710099,-1.367561,1.034401,0.889267,1.420199,-0.144407,-0.756384
E,-0.537419,0.85174,0.087541,0.631869,0.00482,1.703481,-0.449878,7.21797


In [114]:
# rename: isimleri değiştirmek için kullanılıyor

df = df.rename(columns={"Col1": "İlk Sütun", "Col4": "Bişey"}) # {"Eski İsim": "Yeni İsim"}

# drop: seçilen satır veya sütunu silmek için kullanılıyor

df['Col9'] = df['Col8']
df['Col10'] = df['Col9']

print(df)
df = df.drop(columns=["Col10", "Col9"])

df = df.drop("B", axis=0) # axis = 0 satırlarda arayıp siliyor, axis = 1 sütunlarda arayıp siliyor
df

   İlk Sütun      Col2      Col3     Bişey      Col5      Col6      Col7  \
A   0.002410  0.961115  0.596259  1.225870 -0.697839  1.922229  0.598669   
B   0.460803 -0.908030 -0.604133  0.799278  0.661814 -1.816059 -0.143330   
C  -0.812836 -0.026470  0.323626  0.711277  0.919638 -0.052941 -0.489210   
D   1.223154  0.710099 -1.367561  1.034401  0.889267  1.420199 -0.144407   
E  -0.537419  0.851740  0.087541  0.631869  0.004820  1.703481 -0.449878   

       Col8      Col9     Col10  
A  2.055934  2.055934  2.055934  
B -1.323017 -1.323017 -1.323017  
C  2.197838  2.197838  2.197838  
D -0.756384 -0.756384 -0.756384  
E  7.217970  7.217970  7.217970  


Unnamed: 0,İlk Sütun,Col2,Col3,Bişey,Col5,Col6,Col7,Col8
A,0.00241,0.961115,0.596259,1.22587,-0.697839,1.922229,0.598669,2.055934
C,-0.812836,-0.02647,0.323626,0.711277,0.919638,-0.052941,-0.48921,2.197838
D,1.223154,0.710099,-1.367561,1.034401,0.889267,1.420199,-0.144407,-0.756384
E,-0.537419,0.85174,0.087541,0.631869,0.00482,1.703481,-0.449878,7.21797


In [125]:
import pandas as pd
import numpy as np


data = np.random.randint(10, 100, (15, 5))
df = pd.DataFrame(data, columns=["Col1", "Col2", "Col3", "Col4","Col5"])

print(df.columns) # dataframe'in sütunları
print("-"*40)

print(df.head()) # İlk 5 satırı veriyor
print("-"*40)
print(df.head(7)) # İlk 7 satırı veriyor
print("-"*40)
print(df.tail()) # Son 5 satırı veriyor
print("-"*40)
print(df.tail(7)) # Son 7 satırı veriyor

Index(['Col1', 'Col2', 'Col3', 'Col4', 'Col5'], dtype='object')
----------------------------------------
   Col1  Col2  Col3  Col4  Col5
0    28    93    33    81    50
1    95    42    57    85    77
2    11    13    72    40    65
3    55    58    88    63    57
4    42    15    30    67    28
----------------------------------------
   Col1  Col2  Col3  Col4  Col5
0    28    93    33    81    50
1    95    42    57    85    77
2    11    13    72    40    65
3    55    58    88    63    57
4    42    15    30    67    28
5    33    29    18    97    62
6    25    75    63    46    29
----------------------------------------
    Col1  Col2  Col3  Col4  Col5
10    56    31    80    29    29
11    10    48    91    71    79
12    12    50    33    32    32
13    95    82    83    53    10
14    63    23    93    13    75
----------------------------------------
    Col1  Col2  Col3  Col4  Col5
8     13    89    68    13    30
9     22    42    96    41    77
10    56    31    80    29 

0    33
1    57
2    72
3    88
4    30
Name: Col3, dtype: int64

In [138]:
# Filtering
data = np.random.randint(10, 100, (15, 5))
df = pd.DataFrame(data, columns=["Col1", "Col2", "Col3", "Col4","Col5"])

print(df)
print("-"*40)
print(df[df > 50])
print("-"*40)
print(df['Col1'] > 50)
print("-"*40)
print(df[df['Col1'] > 50].reset_index()) # Col1'in 50den büyük olduğu satırlar filtreden geçiyor
                                         # .reset_index() demezsek indexler düzgün sıralı olmayabilir
                                         # .reset_index() methodu, 0dan başlayarak tekrar index atıyor.
        
print("-"*40)
print(df[df['Col1'] > 50][["Col2", "Col4"]])
print("-"*40)

df[(df['Col1'] > 50) & (df['Col2'] <= 70)] # & -> and
                                           # | -> or
                                           # (condition1) & (condition2) şeklinde yazılıyor.
        
print("-"*40)
print(df[(df['Col1'] > 50) | (df['Col3'] %2 == 0)])

    Col1  Col2  Col3  Col4  Col5
0     11    92    67    95    86
1     89    99    48    69    72
2     19    44    98    37    79
3     36    83    26    22    54
4     97    13    93    17    33
5     49    38    21    92    46
6     72    99    43    57    87
7     60    46    25    77    30
8     94    39    57    57    36
9     18    27    24    44    10
10    30    29    55    65    73
11    37    24    30    23    28
12    29    27    13    14    50
13    65    94    45    93    35
14    88    50    18    34    33
----------------------------------------
    Col1  Col2  Col3  Col4  Col5
0    NaN  92.0  67.0  95.0  86.0
1   89.0  99.0   NaN  69.0  72.0
2    NaN   NaN  98.0   NaN  79.0
3    NaN  83.0   NaN   NaN  54.0
4   97.0   NaN  93.0   NaN   NaN
5    NaN   NaN   NaN  92.0   NaN
6   72.0  99.0   NaN  57.0  87.0
7   60.0   NaN   NaN  77.0   NaN
8   94.0   NaN  57.0  57.0   NaN
9    NaN   NaN   NaN   NaN   NaN
10   NaN   NaN  55.0  65.0  73.0
11   NaN   NaN   NaN   NaN   NaN
12

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
1,89,99,48,69,72
2,19,44,98,37,79
3,36,83,26,22,54
4,97,13,93,17,33
6,72,99,43,57,87
7,60,46,25,77,30
8,94,39,57,57,36
9,18,27,24,44,10
11,37,24,30,23,28
13,65,94,45,93,35


In [155]:
# Reading files

df = pd.read_csv("grades.csv", sep=",", header=0) # CSV dosyasından bilgileri okuduk
df.columns=["Last Name", "First Name", "SSN", "Test1", "Test2", "Test3", "Test4", "Final", "Grade"] # sütun isimlerini değiştirdik


# Ortalama diye bir sütun oluşturup, test1-test4 + final ortalaması şeklinde hesapladık
df['Ortalama'] = df['Test1'] * 0.15 + df['Test2'] * 0.15 + df['Test3'] * 0.15 + df['Test4'] * 0.15 + df['Final']* 0.4
df = df.drop("Grade", axis=1) # grade sütununu sildik


def harfNotuHesapla(sayi):
    if sayi > 65:
        return "A"
    elif sayi >= 55:
        return "B"
    elif sayi >= 45:
        return "C"
    elif sayi >= 35:
        return "D"
    else:
        return "F"

df['Harf Notu'] = df['Ortalama'].apply(harfNotuHesapla) # Sütunun tamamına verilen fonksiyonu uygulayıp, sonuçları yeni bir sütuna eşitledik.
df

Unnamed: 0,Last Name,First Name,SSN,Test1,Test2,Test3,Test4,Final,Ortalama,Harf Notu
0,Alfalfa,"""Aloysius""","""123-45-6789""",40.0,90.0,100.0,83.0,49.0,66.55,A
1,Alfred,"""University""","""123-12-1234""",41.0,97.0,96.0,97.0,48.0,68.85,A
2,Gerty,"""Gramma""","""567-89-0123""",41.0,80.0,60.0,40.0,44.0,50.75,C
3,Android,"""Electric""","""087-65-4321""",42.0,23.0,36.0,45.0,47.0,40.7,D
4,Bumpkin,"""Fred""","""456-78-9012""",43.0,78.0,88.0,77.0,45.0,60.9,B
5,Rubble,"""Betty""","""234-56-7890""",44.0,90.0,80.0,90.0,46.0,64.0,B
6,Noshow,"""Cecil""","""345-67-8901""",45.0,11.0,-1.0,4.0,43.0,26.05,F
7,Buff,"""Bif""","""632-79-9939""",46.0,20.0,30.0,40.0,50.0,40.4,D
8,Airpump,"""Andrew""","""223-45-6789""",49.0,1.0,90.0,100.0,83.0,69.2,A
9,Backus,"""Jim""","""143-12-1234""",48.0,1.0,97.0,96.0,97.0,75.1,A


In [171]:
# reading json data
#df = pd.read_json("filename.json")

import requests
import json
import pandas as pd

response = requests.get("https://raw.githubusercontent.com/domoritz/maps/master/data/iris.json")
data = json.loads(response.text)

df = pd.DataFrame(data)

# Grouping

grouped_df = df.groupby("species")
print(grouped_df.describe()) # istatistiksel detaylar verir
print("-"*40)
print(grouped_df.mean())

print("-"*40)
print(grouped_df.sum())

print("-"*40)
grouped_df['sepalLength'].mean()


print("-"*40)
for name, group in grouped_df:
    print(name)
    print(group)
    print("-"*40)
    

           sepalLength                                             sepalWidth  \
                 count   mean       std  min    25%  50%  75%  max      count   
species                                                                         
setosa            50.0  5.006  0.352490  4.3  4.800  5.0  5.2  5.8       50.0   
versicolor        50.0  5.936  0.516171  4.9  5.600  5.9  6.3  7.0       50.0   
virginica         50.0  6.588  0.635880  4.9  6.225  6.5  6.9  7.9       50.0   

                   ... petalLength      petalWidth                             \
             mean  ...         75%  max      count   mean       std  min  25%   
species            ...                                                          
setosa      3.428  ...       1.575  1.9       50.0  0.246  0.105386  0.1  0.2   
versicolor  2.770  ...       4.600  5.1       50.0  1.326  0.197753  1.0  1.2   
virginica   2.974  ...       5.875  6.9       50.0  2.026  0.274650  1.4  1.8   

                          

In [217]:
# Handling missing data

data = np.random.randint(10, 100, (5,3))
df = pd.DataFrame(data, index=["a", "c", "e", "f", "h"], columns = ["Col1", "Col2", "Col3"])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df['Col4'] = [np.nan, 30, np.nan, 51, np.nan, 30, np.nan, 10]


#Analiz
result = df.isnull() # NaN olan veya null olan her bir değer için True, diğerleri için False
result = df.isnull().sum() # Her sütunda kaç tane NaN veya null var.
result = df['Col4'].isnull() # Tek bir sütun için isnull

#Handling
#Droping rows or columns containing NaN

result = df.dropna() # NaN veya null olan satırları yok eder (default olarak axis = 0, yanı satırlar)
result = df.dropna(axis = 1) # NaN veya null olan sütunları yok eder
result = df.dropna(how = "any") # en az 1 tane NaN veya null varsa sil
result = df.dropna(how = "all") # satırın veya sütunun tamamı NaN ise, o zaman sil
result = df.dropna(thresh=2) # 2 veya daha fazla NaN veya null varsa sil
result = df.dropna(how="any", subset=["Col1", "Col2"]) # Col1 ve Col2 içerisinde bir tane bile NaN varsa, satırı uçur

#Filling the NaN values

def ortalama(df):
    toplam = df.sum().sum()
    adet = df.size - df.isnull().sum().sum()
    return toplam / adet

result = df.fillna(999)

result = df.fillna(ortalama(df))
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,66.0,35.0,37.0,41.421053
b,41.421053,41.421053,41.421053,30.0
c,23.0,65.0,16.0,41.421053
d,41.421053,41.421053,41.421053,51.0
e,42.0,90.0,11.0,41.421053
f,28.0,20.0,14.0,30.0
g,41.421053,41.421053,41.421053,41.421053
h,79.0,50.0,90.0,10.0


In [10]:
# Merge
import pandas as pd

customers = {
    "CustomerId": [1,2,3,4],
    "FirstName": ["Ahmet", "Ali", "Hasan", "Canan"],
    "LastName": ["Yılmaz", "Korkmaz", "Çelik", "Toprak"]
}

orders = {
    "OrderId": [10,11,12,13],
    "CustomerId": [1,2,5,7],
    "Price": [19.99, 29.99, 39.99, 49.99]
}

df_customers = pd.DataFrame(customers)
df_orders = pd.DataFrame(orders)


# Merge

#result = pd.merge(df_orders, df_customers, how="inner")
#result = pd.merge(df_orders, df_customers, how="outer")
#result = pd.merge(df_orders, df_customers, how="left")
result = pd.merge(df_orders, df_customers, how="right")

result

Unnamed: 0,OrderId,CustomerId,Price,FirstName,LastName
0,10.0,1,19.99,Ahmet,Yılmaz
1,11.0,2,29.99,Ali,Korkmaz
2,,3,,Hasan,Çelik
3,,4,,Canan,Toprak


In [234]:
# Concat 

customers = {
    "CustomerId": [1,2,3,4],
    "FirstName": ["Ahmet", "Ali", "Hasan", "Canan"],
    "LastName": ["Yılmaz", "Korkmaz", "Çelik", "Toprak"]
}

customers2 = {
    "CustomerId": [5,6,7,8],
    "FirstName": ["Süleyman", "Ayşe", "Fatma", "Mahmut"],
    "LastName": ["Karabudak", "Zübük", "Bıdık", "Mahmut"]
}

df1 = pd.DataFrame(customers)
df2 = pd.DataFrame(customers2)

result = pd.concat([df1, df2], axis=0) # yan yana eklemek için axis=1, alt alta eklemek için axis=0
result.reset_index()

Unnamed: 0,index,CustomerId,FirstName,LastName
0,0,1,Ahmet,Yılmaz
1,1,2,Ali,Korkmaz
2,2,3,Hasan,Çelik
3,3,4,Canan,Toprak
4,0,5,Süleyman,Karabudak
5,1,6,Ayşe,Zübük
6,2,7,Fatma,Bıdık
7,3,8,Mahmut,Mahmut


In [253]:
# Special Operations

data = {
    "Col1": [1,2,3,4,5,6],
    "Col2": [10,20,13,20,25,30],
    "Col3": ["abc", "bcaa", "ade", "cb", "dea", "dea"]
}

def kareal(sayi):
    return sayi * sayi

df = pd.DataFrame(data)

result = df.describe() # sayısal sütunlar için istatistiksel veriler çıkartıyor
result = df['Col3'].unique() # her bir elemanı, tekilleştirerek bir liste veriyor
result = df['Col3'].nunique() # üsttekinin kaç adet olduğunu söylüyor.
result = df["Col2"].value_counts() # her bir değerden kaç tane olduğunu söylüyor

result = df['Col1'].apply(kareal) # Col1 sütunundaki bütün sayılara kareal fonksiyonu uygulanır
result = df.sort_values("Col2", ascending = False) # default: küçükten büyüğe, ascending=False diyerek büyükten küçüğe sıralayabiliriz
result = df.sort_values(["Col2", "Col1"], ascending = False) # Col2'ye göre sırala, Col2lerin aynı olduğu durumlarda Col1e göre sırala


result

Unnamed: 0,Col1,Col2,Col3
5,6,30,dea
4,5,25,dea
3,4,20,cb
1,2,20,bcaa
2,3,13,ade
0,1,10,abc


In [257]:
# Pivot Table

data = {
    "Ay": ["Mayıs","Haziran","Nisan","Mayıs","Haziran","Nisan","Mayıs","Haziran","Nisan"],
    "Kategori": ["Elektronik","Elektronik","Elektronik","Kitap","Kitap","Kitap","Giyim","Giyim","Giyim"],
    "Gelir": [20,30,15,14,32,42,12,36,52]
}

df = pd.DataFrame(data)
result = df
result = df.pivot_table(index="Ay",columns="Kategori",values="Gelir")
result

Kategori,Elektronik,Giyim,Kitap
Ay,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Haziran,30,36,32
Mayıs,20,12,14
Nisan,15,52,42
