In [2]:
import numpy as np
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

# Creating a New Column

In [3]:
data = {"isim": ["ali", "elif", "fatma", "mehmet"], "boy": [1.70, 1.55, 1.60, 1.90], "kilo": [70,55,60,80]}
df = pd.DataFrame(data)
df

Unnamed: 0,isim,boy,kilo
0,ali,1.7,70
1,elif,1.55,55
2,fatma,1.6,60
3,mehmet,1.9,80


In [8]:
df["vki"] = round((df["kilo"] / df["boy"] ** 2), 2)

In [7]:
df

Unnamed: 0,isim,boy,kilo,vki
0,ali,1.7,70,24.22
1,elif,1.55,55,22.89
2,fatma,1.6,60,23.44
3,mehmet,1.9,80,22.16


# Conditional Selection

In [55]:
df = pd.DataFrame(np.random.randn(5,4), index="a b c d e".split(), columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,3.605119,-0.791644
c,1.682472,-0.093191,-0.688696,0.306411
d,-1.071492,-0.387478,-0.743863,-1.669998
e,0.183704,0.838177,-0.107634,-1.06605


In [56]:
df > 0

Unnamed: 0,A,B,C,D
a,True,False,False,False
b,False,False,True,False
c,True,False,False,True
d,False,False,False,False
e,True,True,False,False


In [57]:
df[df > 0]

Unnamed: 0,A,B,C,D
a,0.15581,,,
b,,,3.605119,
c,1.682472,,,0.306411
d,,,,
e,0.183704,0.838177,,


In [65]:
df[df < 0]

Unnamed: 0,A,B,C,D
a,,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,,-0.791644
c,,-0.093191,-0.688696,
d,-1.071492,-0.387478,-0.743863,-1.669998
e,,,-0.107634,-1.06605


In [66]:
df[df["A"] < 0] # A da 0 dan küçükleri döndürdü diğerlerinin değeri önemli olmadı 

Unnamed: 0,A,B,C,D
b,-1.180582,-1.067505,3.605119,-0.791644
d,-1.071492,-0.387478,-0.743863,-1.669998


In [67]:
df[df["A"] > 0][["C"]] # # A da 0 dan büyük olan satırların C değerlerini döndürdü

Unnamed: 0,C
a,-0.739725
c,-0.688696
e,-0.107634


In [70]:
df

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,3.605119,-0.791644
c,1.682472,-0.093191,-0.688696,0.306411
d,-1.071492,-0.387478,-0.743863,-1.669998
e,0.183704,0.838177,-0.107634,-1.06605


## &   -   and 
## |   -   or

In [71]:
df[(df["A"] > 0)  &  (df["B"] < 0)] # A da 0 dan büyük olacak ve B de 0 dan küçük olacak. ikisi aynı anda olmalı

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
c,1.682472,-0.093191,-0.688696,0.306411


In [72]:
df[(df["A"] > 0) | (df["B"] < 0)] # A da 0 büyük veya B de 0 dan küçük olanlar

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,3.605119,-0.791644
c,1.682472,-0.093191,-0.688696,0.306411
d,-1.071492,-0.387478,-0.743863,-1.669998
e,0.183704,0.838177,-0.107634,-1.06605


# Some Useful Methods with Titanic Dataset

In [92]:
import seaborn as sns

In [94]:
print(sns.get_dataset_names()) # seaborn'da gömülü dataframeler

['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'dowjones', 'exercise', 'flights', 'fmri', 'geyser', 'glue', 'healthexp', 'iris', 'mpg', 'penguins', 'planets', 'seaice', 'taxis', 'tips', 'titanic']


In [95]:
df = sns.load_dataset("titanic")
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## df.info()  & df.head() & df.tail() & df.sample()

In [98]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [102]:
df.head(5) # deafault ilk 5 satır

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [103]:
df.tail(5) # default olarak son 5 satır

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [101]:
df.sample(3) # rastgele 3 satır getirir

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
38,0,3,female,18.0,2,0,18.0,S,Third,woman,False,,Southampton,no,False
114,0,3,female,17.0,0,0,14.4583,C,Third,woman,False,,Cherbourg,no,True
25,1,3,female,38.0,1,5,31.3875,S,Third,woman,False,,Southampton,yes,False


In [104]:
df.shape

(891, 15)

## df.describe()
Count: Her sütundaki non-null (null olmayan) değerlerin sayısını verir.

Mean: Ortalama (aritmetik ortalama) değeri verir.

Standard Deviation: Standart sapmayı verir, yani değerlerin ortalama etrafındaki yayılımını gösteren bir ölçüdür.

Minimum: En küçük değeri verir.

25th Percentile: Alt çeyrek yüzdeğini verir, yani değerlerin %25'lik kısmının altında kalan değeri verir.

Median (50th Percentile): Medyan değeri verir, yani değerlerin ortanca değerini verir.

75th Percentile: Üst çeyrek yüzdeğini verir, yani değerlerin %75'lik kısmının altında kalan değeri verir.

Maximum: En büyük değeri verir.

Unique: Benzersiz (farklı) değerlerin sayısını verir.

Top: En sık tekrar eden değeri verir.

Frequency: En sık tekrar eden değerin kaç kez tekrar ettiğini verir.

In [105]:
df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [106]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [107]:
df.describe().T #transpose() kısaltma

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [109]:
df.describe(include="O").T # sadece object olanların ölçümlerini getirdi

Unnamed: 0,count,unique,top,freq
sex,891,2,male,577
embarked,889,3,S,644
who,891,3,man,537
embark_town,889,3,Southampton,644
alive,891,2,no,549


In [110]:
df.describe(include="all").T # bütün verileri getirdi

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
survived,891.0,,,,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,,,,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
sex,891.0,2.0,male,577.0,,,,,,,
age,714.0,,,,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,,,,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,,,,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,,,,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292
embarked,889.0,3.0,S,644.0,,,,,,,
class,891.0,3.0,Third,491.0,,,,,,,
who,891.0,3.0,man,537.0,,,,,,,


## df.corr()
"df.corr()" kodu, bir Pandas veri çerçevesinde bulunan sayısal sütunlar arasındaki Pearson korelasyon katsayılarını hesaplayan bir metoddur. Pearson korelasyonu, iki sürekli değişken arasındaki doğrusal ilişkiyi ölçen bir istatistiksel metriktir. Korelasyon katsayısı -1 ile 1 arasında bir değer alabilir ve iki değişken arasındaki ilişkinin yönünü (pozitif, negatif veya ilişkisiz) ve gücünü ifade eder.

"Df.corr()" kodu, veri çerçevesinde bulunan sayısal sütunlar arasındaki Pearson korelasyon katsayılarını bir korelasyon matrisi olarak döndürür. Korelasyon matrisi, veri çerçevesindeki her bir sayısal sütunun diğer sayısal sütunlarla olan korelasyonunu gösterir. Matrisin iki boyutlu yapısı, satır ve sütunlar arasındaki korelasyonu temsil eder. Matrisin çapraz köşeleri genellikle aynı sütunlar arasındaki korelasyonlar olup, diagonali ise sütunların kendi kendine korelasyonlarını içerir.

"Df.corr()" metodu, veri analitiği, keşifsel veri analitiği ve makine öğrenimi modellerinde değişkenler arasındaki ilişkileri değerlendirmek, çoklu değişken analizleri yapmak, özellik seçimi yapmak gibi birçok uygulamada kullanılabilir. Korelasyon katsayıları, değişkenler arasındaki ilişkileri anlamak ve modelleme süreçlerinde daha iyi kararlar vermek için değerli bir araçtır.

In [111]:
df.corr()

  df.corr()


Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0


In [112]:
import warnings

warnings.filterwarnings("ignore") # bu tür uyarıları görmemek için

In [113]:
df.corr()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0


## .value_count()
 bir sütundaki benzersiz değerlerin sayısını ve her bir değerin kaç kez tekrar ettiğini hesaplayan yada oranlarını görebiliriz

In [124]:
df.loc[:,"survived"]

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

In [125]:
df.survived.value_counts() # bü sütunda 0 ve 1 değerleri var ve kaç kere tekrar ettikleri

0    549
1    342
Name: survived, dtype: int64

In [126]:
df.survived.value_counts(normalize=True) # # bü sütunda 0 ve 1 değerleri var ve oranları

0    0.616162
1    0.383838
Name: survived, dtype: float64

## .unique() & .nunique()

In [127]:
df.embark_town.unique() # bü sütundaki unique değerleri gördük

array(['Southampton', 'Cherbourg', 'Queenstown', nan], dtype=object)

In [128]:
df.survived.unique()

array([0, 1], dtype=int64)

In [131]:
df.embark_town.nunique() # bu sütundaki unique değerlerin sayısı

3

# drop()
drop() yöntemi, bir Pandas DataFrame'den belirtilen satır veya sütunu kaldırmak için kullanılır. 

Eğer sütun kaldırılacaksa, axis='columns' parametresi kullanılır ve belirtilen sütun kaldırılır. 

Benzer şekilde, eğer bir satır kaldırılacaksa, axis='index' parametresi kullanılır ve belirtilen satır kaldırılır.

Bu yöntem, DataFrame'den istenmeyen verileri kaldırmak ve veri manipülasyonu yapmak için sıkça kullanılır.

In [9]:
df

Unnamed: 0,isim,boy,kilo,vki
0,ali,1.7,70,24.22
1,elif,1.55,55,22.89
2,fatma,1.6,60,23.44
3,mehmet,1.9,80,22.16


In [10]:
df.drop("vki", axis=1) #kalıcı olarak düşmez

Unnamed: 0,isim,boy,kilo
0,ali,1.7,70
1,elif,1.55,55
2,fatma,1.6,60
3,mehmet,1.9,80


In [12]:
df.drop("vki", axis=1, inplace=True) #kalıcı olarak düştü
df

Unnamed: 0,isim,boy,kilo
0,ali,1.7,70
1,elif,1.55,55
2,fatma,1.6,60
3,mehmet,1.9,80


In [11]:
df.drop(3) # default axis = 0 dır

Unnamed: 0,isim,boy,kilo,vki
0,ali,1.7,70,24.22
1,elif,1.55,55,22.89
2,fatma,1.6,60,23.44


# .loc[] & .iloc[]
loc: label-based

iloc: integer position-based

loc, "location"ın kısaltmasıdır ve satır ve sütun adlarına göre veriye erişmeyi sağlar.

loc, satır ve sütun etiketleri kullanarak belirli bir konumda bulunan veriye erişmek için kullanılır.

iloc, "integer location"ın kısaltmasıdır ve satır ve sütun numaralarına göre veriye erişmeyi sağlar.

iloc, satır ve sütun numaralarını kullanarak belirli bir konumda bulunan veriye erişmek için kullanılır.

1- Etiket veya dizin bağımsızlığı:Geleneksel indexleme yöntemleri, indekslerdeki değişikliklerden etkilenirken, "loc" ve "iloc" yöntemleri, konumlarına göre seçim yaparlar. Bu nedenle, veri setindeki indekslerdeki değişiklikler "loc" ve "iloc" yöntemleriyle yapılan seçimlerde bir sorun yaratmaz.

2-Hızlı performans: "iloc" fonksiyonu, sadece satır ve sütun dizinleri kullanarak veri seçimi yapar, bu nedenle loc fonksiyonuna göre daha hızlı çalışır. Bu özellik, büyük veri kümelerinde veya performans açısından kritik uygulamalarda faydalıdır.

3-Esneklik: Geleneksel indexleme yöntemleri, sadece sıfırdan başlayan, ardışık tam sayılar kullanarak indexlemeye izin verir. "loc" ve "iloc" yöntemleri ise etiket veya dizin değerlerine dayanır ve daha esnek bir seçim yapma imkanı sağlar. "loc" ve "iloc" fonksiyonları, veri çerçevesindeki satır ve sütunların bir arada kullanımına izin verir. Örneğin, belirli bir sütunda belirli bir satırdaki veriyi seçmek için hem satır hem de sütun etiketlerini veya dizinlerini kullanabilirsiniz. Bu esneklik, veri işleme işlemlerinde kullanışlıdır.

4-Daha okunaklı kod: "loc" ve "iloc" fonksiyonları, kodun daha okunaklı hale gelmesine yardımcı olur.

In [13]:
data = np.arange(20).reshape(5,4)

df = pd.DataFrame(data=data, columns=["col1", "col2", "col3", "col4"], index=range(1,6))

df

Unnamed: 0,col1,col2,col3,col4
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15
5,16,17,18,19


In [16]:
df.loc[[1]] # label isimlerine göre getirir

Unnamed: 0,col1,col2,col3,col4
1,0,1,2,3


In [21]:
df.iloc[[0]] # index lere göre getirir

Unnamed: 0,col1,col2,col3,col4
1,0,1,2,3


In [18]:
df[["col1"]]

Unnamed: 0,col1
1,0
2,4
3,8
4,12
5,16


In [24]:
df.iloc[: , 0]

1     0
2     4
3     8
4    12
5    16
Name: col1, dtype: int32

In [25]:
df.loc[2:5]

Unnamed: 0,col1,col2,col3,col4
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15
5,16,17,18,19


In [26]:
df.iloc[2:5]

Unnamed: 0,col1,col2,col3,col4
3,8,9,10,11
4,12,13,14,15
5,16,17,18,19


In [27]:
df.index = "a b c d e".split()   # ["a", "b", "c", "d", "e"]

In [28]:
df

Unnamed: 0,col1,col2,col3,col4
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
e,16,17,18,19


In [30]:
df.loc["b": "d"]

Unnamed: 0,col1,col2,col3,col4
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [35]:
df.iloc[1:4]

Unnamed: 0,col1,col2,col3,col4
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [47]:
df.loc[["b"], ["col2"]]

Unnamed: 0,col2
b,5


In [48]:
df.iloc[[1], [1]]

Unnamed: 0,col2
b,5


In [49]:
df.loc["d": "e"]["col3"]

d    14
e    18
Name: col3, dtype: int32

In [51]:
df.loc["d": "e", ["col3"]]

Unnamed: 0,col3
d,14
e,18


In [53]:
df.loc[["a", "d", "e"], ["col3"]]

Unnamed: 0,col3
a,2
d,14
e,18


# reset_index()   &  set_index
reset_index(), DataFrame indeksini sıfırlar ve bunun yerine default hali kullanır.

set_index(), DataFrame'in belirtilen bir sütununu veya sütunlarını, DataFrame'in yeni bir indeksi olarak ayarlar.

In [73]:
df

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,3.605119,-0.791644
c,1.682472,-0.093191,-0.688696,0.306411
d,-1.071492,-0.387478,-0.743863,-1.669998
e,0.183704,0.838177,-0.107634,-1.06605


In [74]:
df.reset_index() # kalıcı olmaz ve eski indeksleri saklar

Unnamed: 0,index,A,B,C,D
0,a,0.15581,-0.305613,-0.739725,-0.523359
1,b,-1.180582,-1.067505,3.605119,-0.791644
2,c,1.682472,-0.093191,-0.688696,0.306411
3,d,-1.071492,-0.387478,-0.743863,-1.669998
4,e,0.183704,0.838177,-0.107634,-1.06605


In [75]:
df

Unnamed: 0,A,B,C,D
a,0.15581,-0.305613,-0.739725,-0.523359
b,-1.180582,-1.067505,3.605119,-0.791644
c,1.682472,-0.093191,-0.688696,0.306411
d,-1.071492,-0.387478,-0.743863,-1.669998
e,0.183704,0.838177,-0.107634,-1.06605


In [76]:
df.reset_index(drop=True, inplace=True) # eski indeksleri düşürdük ve bu işlemi kalıcı hale getirdik

In [77]:
df

Unnamed: 0,A,B,C,D
0,0.15581,-0.305613,-0.739725,-0.523359
1,-1.180582,-1.067505,3.605119,-0.791644
2,1.682472,-0.093191,-0.688696,0.306411
3,-1.071492,-0.387478,-0.743863,-1.669998
4,0.183704,0.838177,-0.107634,-1.06605


In [78]:
df.set_index("C") # kalıcı olmaz

Unnamed: 0_level_0,A,B,D
C,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-0.739725,0.15581,-0.305613,-0.523359
3.605119,-1.180582,-1.067505,-0.791644
-0.688696,1.682472,-0.093191,0.306411
-0.743863,-1.071492,-0.387478,-1.669998
-0.107634,0.183704,0.838177,-1.06605


In [79]:
df

Unnamed: 0,A,B,C,D
0,0.15581,-0.305613,-0.739725,-0.523359
1,-1.180582,-1.067505,3.605119,-0.791644
2,1.682472,-0.093191,-0.688696,0.306411
3,-1.071492,-0.387478,-0.743863,-1.669998
4,0.183704,0.838177,-0.107634,-1.06605


In [80]:
df.set_index("C", inplace=True) # kalıcı hale geldi
df

Unnamed: 0_level_0,A,B,D
C,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-0.739725,0.15581,-0.305613,-0.523359
3.605119,-1.180582,-1.067505,-0.791644
-0.688696,1.682472,-0.093191,0.306411
-0.743863,-1.071492,-0.387478,-1.669998
-0.107634,0.183704,0.838177,-1.06605


In [88]:
df.reset_index(inplace=True)
df

Unnamed: 0,C,A,B,D
0,-0.739725,0.15581,-0.305613,-0.523359
1,3.605119,-1.180582,-1.067505,-0.791644
2,-0.688696,1.682472,-0.093191,0.306411
3,-0.743863,-1.071492,-0.387478,-1.669998
4,-0.107634,0.183704,0.838177,-1.06605


In [91]:
df = df[["A", "B", "C", "D"]] # tekrar colum isimlerini sıralamak için böyle bir yöntem izledik
df

Unnamed: 0,A,B,C,D
0,0.15581,-0.305613,-0.739725,-0.523359
1,-1.180582,-1.067505,3.605119,-0.791644
2,1.682472,-0.093191,-0.688696,0.306411
3,-1.071492,-0.387478,-0.743863,-1.669998
4,0.183704,0.838177,-0.107634,-1.06605


# df.agg() & agg methods
aggregate() & agg(); bir sütuna veya sütunlara göre gruplandırılmış bir veri kümesinde farklı işlevlerin (örneğin, mean, sum, max) uygulanması için kullanılır.

[aggregate](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html),
[agg](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.core.groupby.DataFrameGroupBy.agg.html),
[SOURCE01](https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/),
[SOURCE02](https://www.analyticsvidhya.com/blog/2020/03/groupby-pandas-aggregating-data-python/)

Pandas'ın aggregation yöntemleri, belirli bir veri kümesi üzerinde işlemler gerçekleştirerek bir sonuç döndürür. 

Bu yöntemler, bir veri kümesindeki değerleri toplama, ortalama alma, en büyük veya en küçük değeri bulma gibi farklı işlemleri gerçekleştirir. 


Pandas'ın aggregation yöntemlerinden bazıları şunlardır:

**sum():** Belirtilen sütunda yer alan tüm değerlerin toplamını döndürür.

**mean():** Belirtilen sütunda yer alan tüm değerlerin ortalamasını döndürür.

**median():** Gruplanmış verilerin medyanını hesaplar.

**mode()** Belirtilen sütunda en çok tekrar eden değerleri döndürür.

**max():** Belirtilen sütunda yer alan en büyük değeri döndürür.

**min():** Belirtilen sütunda yer alan en küçük değeri döndürür.

**count():** Belirtilen sütunda yer alan toplam değer sayısını döndürür.

**std():** Belirtilen sütunda yer alan değerlerin standart sapmasını döndürür.

**var():** Belirtilen sütunda yer alan değerlerin varyansını döndürür.

**describe():** Gruplanmış verilerin istatistiksel özetini hesaplar.

**idxmin():** Belirtilen eksen boyunca minimum değeri içeren ilk indeksi döndürür.

**idxmax():** Belirtilen eksen boyunca maksimum değeri içeren ilk indeksi döndürür.

**corr():** Sütunlar  arasındaki korelasyonu, NA/null değerleri hariç tutarak hesaplar.

Bu yöntemler, bir DataFrame veya Series üzerinde kullanılabilir ve istenilen sütun veya satırlarda işlem yapılabilir. 

Pandas'ın aggregation yöntemleri, verileri hızlı ve etkili bir şekilde analiz etmek için çok kullanışlıdır.

[Pandas Official Documentation](https://pandas.pydata.org/docs/reference/frame.html)

In [157]:
dt = {'Company':['Amazon', 'Amazon', 'OpenAI', 'OpenAI', 'Amazon', 'OpenAI', 'Amazon', 'OpenAI'],
        'Department':['IT', 'HR', 'IT', 'HR', 'IT', 'HR', 'HR', 'IT'],
        'Person':['Ahmet', 'Ece', 'Fatma', 'Mehmet', 'Zeynep', 'Ali', 'Yusuf', 'Elif'],
        'Age':[32, 26, 35, 40, 25, 38, 30, 28],
        'Sales':[180, 160, 150, 180, 240, 200, 220, 160]}

df = pd.DataFrame(dt)
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [158]:
df.agg([sum, min])

Unnamed: 0,Company,Department,Person,Age,Sales
sum,AmazonAmazonOpenAIOpenAIAmazonOpenAIAmazonOpenAI,ITHRITHRITHRHRIT,AhmetEceFatmaMehmetZeynepAliYusufElif,254,1490
min,Amazon,HR,Ahmet,25,150


In [159]:
df.loc[:, ["Age", "Sales"]].agg([sum]) # belirli sütunlara uyguladım

Unnamed: 0,Age,Sales
sum,254,1490


In [160]:
df.agg({"Age": sum, "Sales" : [min]}) # sütunlara ayrı ayrı işlemler atadık

Unnamed: 0,Age,Sales
sum,254.0,
min,,150.0


In [161]:
df.agg({"Age": [sum, np.mean], "Sales" : [min, max]})

Unnamed: 0,Age,Sales
sum,254.0,
mean,31.75,
min,,150.0
max,,240.0


In [162]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [163]:
df.Sales.min()

150

In [165]:
df.Sales.idxmax() # max Sales olanın indexisini döndürdü

4

In [167]:
df.Sales.idxmin() # min Sales olanın indexisini döndürdü

2

# .groupby()
groupby(); bir veri setindeki belirli bir sütuna göre gruplama yapmak için kullanılır ve aggregation metodlarıyla beraber kullanılır

Bu işlev, verileri gruplara ayırmak ve bu gruplar üzerinde çeşitli işlemler yapmak için kullanılır.

Örneğin, bir veri kümesinde müşterilerin isimleri, yaşları ve satın aldıkları ürünler yer alıyor olabilir. groupby() işlevi kullanarak, müşterilerin satın aldıkları ürüne göre gruplandırabilir ve her ürün için ortalama yaşlarını bulabilirsiniz.

[Source01](https://towardsdatascience.com/all-pandas-groupby-you-should-know-for-grouping-data-and-performing-operations-2a8ec1327b5),
[Source02](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html),
[Source03](https://naomi-fridman.medium.com/pandas-groupby-explained-with-titanic-6a1c47eb8182)

In [145]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [146]:
df.groupby("Company") # bu şekilde object döndürür. bir işlem uygulamadık

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000266958E7BE0>

In [147]:
df.groupby("Company").mean() # gruplayıp, grup ortalamalarına baktık. sadece numeric satırlara uyguladı

Unnamed: 0_level_0,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Amazon,28.25,200.0
OpenAI,35.25,172.5


In [148]:
df.groupby("Company")[["Sales"]].mean() #sadece Sales sütununa uyguladık

Unnamed: 0_level_0,Sales
Company,Unnamed: 1_level_1
Amazon,200.0
OpenAI,172.5


In [149]:
df.groupby("Company").count()

Unnamed: 0_level_0,Department,Person,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Amazon,4,4,4,4
OpenAI,4,4,4,4


In [150]:
df.groupby("Company")[["Company"]].count()

Unnamed: 0_level_0,Company
Company,Unnamed: 1_level_1
Amazon,4
OpenAI,4


In [151]:
df.Company.value_counts()

Amazon    4
OpenAI    4
Name: Company, dtype: int64

In [152]:
df.groupby(["Company", "Department"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Sales
Company,Department,Unnamed: 2_level_1,Unnamed: 3_level_1
Amazon,HR,28.0,190.0
Amazon,IT,28.5,210.0
OpenAI,HR,39.0,190.0
OpenAI,IT,31.5,155.0


In [182]:
# Bölümlere (departmanlara) göre toplam sales tutarlarını hesaplamak:

df.groupby('Department').sum()[['Sales']]

Unnamed: 0_level_0,Sales
Department,Unnamed: 1_level_1
HR,760
IT,730


In [175]:
compare = df.groupby(["Company"]) # bir değişkene atayabiliriz

In [177]:
compare.mean()

Unnamed: 0_level_0,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Amazon,28.25,200.0
OpenAI,35.25,172.5


In [178]:
compare.corr()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Amazon,Age,1.0,-0.221032
Amazon,Sales,-0.221032,1.0
OpenAI,Age,1.0,0.593934
OpenAI,Sales,0.593934,1.0


# filter()
filter(): Verileri belirli bir koşula göre filtreler.

belirli bir koşulu karşılayan satırları veya sütunları seçmek için kullanılabilir.

Parametreler: df.filter(items=None, like=None, regex=None, axis=None)

items: Bir liste veya dizin nesnesi olarak belirtilen sütun adlarını içeren bir liste. Sadece bu sütunlar seçilir.

like: String olarak belirtilen bir deseni içeren sütun adları seçilir.

regex: Regex (düzenli ifade) olarak belirtilen bir deseni içeren sütun adları seçilir.

axis: 'columns' veya 1 olarak belirtilirse sütunlarda filtreleme yapar, 'index' veya 0 olarak belirtilirse satırlarda filtreleme yapar.

[Pandas Official Documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.filter.html),
[SOURCE01](https://www.sharpsightlabs.com/blog/pandas-filter/),
[SOURCE02](https://appdividend.com/2020/03/19/pandas-filter-pandas-dataframe-filter-in-python-example/)


In [179]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [184]:
df.filter(['Company', 'Age'])

Unnamed: 0,Company,Age
0,Amazon,32
1,Amazon,26
2,OpenAI,35
3,OpenAI,40
4,Amazon,25
5,OpenAI,38
6,Amazon,30
7,OpenAI,28


In [187]:
df.filter(like='a') # sütun adlarından "a" kelimesini içeren sütunlar seçilecektir.

Unnamed: 0,Company,Department,Sales
0,Amazon,IT,180
1,Amazon,HR,160
2,OpenAI,IT,150
3,OpenAI,HR,180
4,Amazon,IT,240
5,OpenAI,HR,200
6,Amazon,HR,220
7,OpenAI,IT,160


In [188]:
df.filter(regex='^C') # Bu örnekte sütun adlarından "C" harfi ile başlayan sütunlar seçilecektir.

Unnamed: 0,Company
0,Amazon
1,Amazon
2,OpenAI
3,OpenAI
4,Amazon
5,OpenAI
6,Amazon
7,OpenAI


In [196]:
df.filter(like="3", axis=0)

Unnamed: 0,Company,Department,Person,Age,Sales
3,OpenAI,HR,Mehmet,40,180


## groupby - filter

In [197]:
df.groupby("Company").mean()

Unnamed: 0_level_0,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Amazon,28.25,200.0
OpenAI,35.25,172.5


In [202]:
df.groupby("Company").filter(lambda x : x["Age"].mean() < 30) 
# grup yaş ortalaması 30 un altında ise True olur ve o değerler döner

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
4,Amazon,IT,Zeynep,25,240
6,Amazon,HR,Yusuf,30,220


In [201]:
(lambda x : x["Age"].mean() < 30)(df.groupby("Company"))

Company
Amazon     True
OpenAI    False
Name: Age, dtype: bool

# transform()

DataFrame veya Series nesnelerinde gruplama işlemleri sonrası verileri dönüştürmek için kullanılan bir fonksiyondur. "transform()" fonksiyonu, her bir grup için aynı boyutta bir sonuç üretir ve orijinal veri yapısını korur. Gruplanmış veri üzerinde herhangi bir işlem yapabilir ve sonuçları orijinal veri yapısına uygun bir şekilde dönüştürebilir.

transform(), bir pandas DataFrame ya da Serisi'ndeki verileri değiştirmek veya dönüştürmek için kullanılan bir yöntemdir. 

Belirtilen işlevi uygular ve sonucu yeni bir Seri veya DataFrame olarak döndürür.

Özellikle gruplama işlemleri ile birlikte kullanıldığında oldukça yararlıdır.

agg. metodlarla kullanılabilir

[SOUREC01](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.transform.html) & [SOURCE02](https://www.analyticsvidhya.com/blog/2020/03/understanding-transform-function-python/)

In [203]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [204]:
df_num = df.iloc[:, 3:]

In [205]:
df_num

Unnamed: 0,Age,Sales
0,32,180
1,26,160
2,35,150
3,40,180
4,25,240
5,38,200
6,30,220
7,28,160


In [207]:
df_num.Sales.transform(np.sqrt)

0    13.416408
1    12.649111
2    12.247449
3    13.416408
4    15.491933
5    14.142136
6    14.832397
7    12.649111
Name: Sales, dtype: float64

In [208]:
df_num.Sales.agg(np.sqrt)

0    13.416408
1    12.649111
2    12.247449
3    13.416408
4    15.491933
5    14.142136
6    14.832397
7    12.649111
Name: Sales, dtype: float64

## groupby - transform

In [209]:
df.groupby("Company")["Age"].mean()

Company
Amazon    28.25
OpenAI    35.25
Name: Age, dtype: float64

In [210]:
df.groupby("Company")[["Age"]].transform(np.mean) # her satıra grubunun ortalamasını yazdı

Unnamed: 0,Age
0,28.25
1,28.25
2,35.25
3,35.25
4,28.25
5,35.25
6,28.25
7,35.25


# apply() - applymap() - map()

apply(): DataFrame veya Seri üzerinde bir satır veya sütun boyunca bir işlem yapmak için kullanılır.

applymap(): DataFrame'in tamamı üzerinde öğe bazında işlem için kullanılır.her hücreye teker teker uygular

map(): Yalnızca Seri lerde kullanılabilir ve Seri nin her bir elemanına uygulanacak bir işlem için kullanılır.

[apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)
[applymap](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html)
[map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html)

[SOUREC01](https://www.geeksforgeeks.org/python-pandas-apply/), 
[SOURCE02](https://www.datacamp.com/community/tutorials/pandas-apply),
[SOURCE03](https://sparkbyexamples.com/pandas/pandas-apply-function-usage-examples/),
[SOURCE04](https://realpython.com/python-map-function/#:~:text=Python's%20map()%20is%20a,them%20into%20a%20new%20iterable.),
[SOURCE05](https://www.w3resource.com/pandas/series/series-map.php),
[SOURCE06](https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff#:~:text=apply()%20is%20used%20to,a%20Series%20with%20another%20value.),
[SOURCE07](https://stackoverflow.com/questions/19798153/difference-between-map-applymap-and-apply-methods-in-pandas) &
[SOURCE08](https://medium.com/@akaivdo/how-to-use-map-apply-applymap-methods-in-pandas-ddde5f2140bd)

In [212]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [219]:
df[["Company", "Person"]].applymap(lambda x: x.upper()) # bütun satırlara tek tek işlem yaptı

Unnamed: 0,Company,Person
0,AMAZON,AHMET
1,AMAZON,ECE
2,OPENAI,FATMA
3,OPENAI,MEHMET
4,AMAZON,ZEYNEP
5,OPENAI,ALI
6,AMAZON,YUSUF
7,OPENAI,ELIF


In [222]:
df["Company"].map(lambda x: x.upper()) # map sadece Serieslerle çalışır.

0    AMAZON
1    AMAZON
2    OPENAI
3    OPENAI
4    AMAZON
5    OPENAI
6    AMAZON
7    OPENAI
Name: Company, dtype: object

In [223]:
df.Age.map(lambda x: x + 10) # bütün yaşlara 10 ekledi

0    42
1    36
2    45
3    50
4    35
5    48
6    40
7    38
Name: Age, dtype: int64

In [35]:
data = {'Company':['Amazon', 'Amazon', 'OpenAI', 'OpenAI', 'Amazon', 'OpenAI', 'Amazon', 'OpenAI'],
        'Department':['IT', 'HR', 'IT', 'HR', 'IT', 'HR', 'HR', 'IT'],
        'Person':['Ahmet', 'Ece', 'Fatma', 'Mehmet', 'Zeynep', 'Ali', 'Yusuf', 'Elif'],
        'Age':[32, 26, 35, 40, 25, 38, 30, 28],
        'Sales':[180, 160, 150, 180, 240, 200, 220, 160]}

df = pd.DataFrame(data)
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [36]:
df_num = df.iloc[:, 3:]
df_num

Unnamed: 0,Age,Sales
0,32,180
1,26,160
2,35,150
3,40,180
4,25,240
5,38,200
6,30,220
7,28,160


In [37]:
df_num.applymap(lambda x: x * 10)

Unnamed: 0,Age,Sales
0,320,1800
1,260,1600
2,350,1500
3,400,1800
4,250,2400
5,380,2000
6,300,2200
7,280,1600


In [38]:
df_num.transform(lambda x: x * 10)

Unnamed: 0,Age,Sales
0,320,1800
1,260,1600
2,350,1500
3,400,1800
4,250,2400
5,380,2000
6,300,2200
7,280,1600


In [39]:
df_num.Age.map(lambda x: x * 10)

0    320
1    260
2    350
3    400
4    250
5    380
6    300
7    280
Name: Age, dtype: int64

In [40]:
df_num.Age.apply(lambda x: x * 10)

0    320
1    260
2    350
3    400
4    250
5    380
6    300
7    280
Name: Age, dtype: int64

In [41]:
df_num.apply(lambda x: x * 10)

Unnamed: 0,Age,Sales
0,320,1800
1,260,1600
2,350,1500
3,400,1800
4,250,2400
5,380,2000
6,300,2200
7,280,1600


In [42]:
df.groupby("Company")["Age"].transform("mean")

0    28.25
1    28.25
2    35.25
3    35.25
4    28.25
5    35.25
6    28.25
7    35.25
Name: Age, dtype: float64

In [43]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [44]:
df.applymap(lambda x: len(str(x))) 

Unnamed: 0,Company,Department,Person,Age,Sales
0,6,2,5,2,3
1,6,2,3,2,3
2,6,2,5,2,3
3,6,2,6,2,3
4,6,2,6,2,3
5,6,2,3,2,3
6,6,2,5,2,3
7,6,2,4,2,3


In [45]:
df.apply(lambda x: len(str(x)))

Company       124
Department     95
Person        123
Age            87
Sales          97
dtype: int64

In [46]:
df.Company.map(lambda x: len(str(x)))

0    6
1    6
2    6
3    6
4    6
5    6
6    6
7    6
Name: Company, dtype: int64

In [47]:
df_num.applymap(np.sum) # hiç birşey değişmedi çünkü her elemana tek tek uyguladı

Unnamed: 0,Age,Sales
0,32,180
1,26,160
2,35,150
3,40,180
4,25,240
5,38,200
6,30,220
7,28,160


In [48]:
df_num.apply(np.sum) # sütun bazında çalıştığı için. age lerin toplamanı verdi

Age       254
Sales    1490
dtype: int64

## apply - transform farkı

In [49]:
df_num.apply(np.sum, axis=1) # satıları topladık. mantıklı değil ama kullanılabiliyor

0    212
1    186
2    185
3    220
4    265
5    238
6    250
7    188
dtype: int64

In [50]:
df.groupby("Company").transform(np.mean)

Unnamed: 0,Age,Sales
0,28.25,200.0
1,28.25,200.0
2,35.25,172.5
3,35.25,172.5
4,28.25,200.0
5,35.25,172.5
6,28.25,200.0
7,35.25,172.5


In [51]:
df.groupby("Company").apply(np.mean)

Unnamed: 0_level_0,Age,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Amazon,28.25,200.0
OpenAI,35.25,172.5


In [52]:
df.Person

0     Ahmet
1       Ece
2     Fatma
3    Mehmet
4    Zeynep
5       Ali
6     Yusuf
7      Elif
Name: Person, dtype: object

In [53]:
df.Person.map({"Ahmet": "A", "Ece": "E"})

0      A
1      E
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
7    NaN
Name: Person, dtype: object

In [54]:
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,IT,Ahmet,32,180
1,Amazon,HR,Ece,26,160
2,OpenAI,IT,Fatma,35,150
3,OpenAI,HR,Mehmet,40,180
4,Amazon,IT,Zeynep,25,240
5,OpenAI,HR,Ali,38,200
6,Amazon,HR,Yusuf,30,220
7,OpenAI,IT,Elif,28,160


In [55]:
df.Department.map({"IT": 0, "HR": 1})

0    0
1    1
2    0
3    1
4    0
5    1
6    1
7    0
Name: Department, dtype: int64

In [56]:
df.Department = df.Department.map({"IT": 0, "HR": 1})
df

Unnamed: 0,Company,Department,Person,Age,Sales
0,Amazon,0,Ahmet,32,180
1,Amazon,1,Ece,26,160
2,OpenAI,0,Fatma,35,150
3,OpenAI,1,Mehmet,40,180
4,Amazon,0,Zeynep,25,240
5,OpenAI,1,Ali,38,200
6,Amazon,1,Yusuf,30,220
7,OpenAI,0,Elif,28,160


# .pivot() & .pivot_table()
pivot() fonksiyonu, bir DataFrame üzerinde tek bir indeks ve tek bir sütunu kullanarak veri dönüşümü yapar. İlk parametre olarak kullanılan DataFrame'i belirtir ve ardından index, columns ve values parametrelerini kullanarak pivot tablosunun nasıl oluşturulacağını belirleyebiliriz. pivot() fonksiyonu, herhangi bir hesaplama yapmadan sadece verileri yeniden düzenler.

pivot_table() fonksiyonu ise bir DataFrame üzerinde gruplama ve dönüşüm işlemleri yapar. pivot_table() fonksiyonu, daha karmaşık işlemler yapmamıza olanak tanır ve özellikle toplama, ortalama, medyan, maksimum, minimum gibi istatistiksel hesaplamaları yapabiliriz. pivot_table() fonksiyonu, aggfunc parametresi ile hangi hesaplamanın yapılacağını belirleyebiliriz.

Her iki fonksiyon da, veriyi yeniden düzenleyerek farklı bir görünüm elde etmeyi sağlar. Yani, mevcut veriyi farklı bir düzenleme şekli ile sunar.

pivot_table() fonksiyonu, birden fazla indeks ve sütunu desteklerken, pivot() fonksiyonu yalnızca tek bir indeks ve sütunu kullanabilir.

pivot_table() fonksiyonu, eksik değerleri doldurma, çoklu değerlere sahip hücrelerde agregasyon yapma gibi daha gelişmiş dönüşüm ve manipülasyon seçenekleri sunar.

Her iki fonksiyon da, genellikle veri analitiği, raporlama ve veri görselleştirme süreçlerinde kullanılır ve veri setlerini farklı bakış açılarından incelemek için kullanılabilir.

pivot() ve pivot_table() fonksiyonları, pandas kütüphanesindeki güçlü veri dönüşüm ve analiz araçlarından sadece birkaçıdır ve veri manipülasyonunda oldukça kullanışlıdırlar.

In [57]:
data = {'gender':['male', 'female', 'female', 'male', 'female', 'male'],
        'sport':['tennis', 'tennis', 'basketball', 'football', 'voleyball', 'basketball'],
        'status':["professional","professional","professional","amateur","amateur","amateur"],
        'age':[20, 24, 26, 23, 22, 21],
        'height':[185, 172, 175, 178, 182, 196],
        'weight':[83, 58, 62, 80, 65, 90]}

df = pd.DataFrame(data)

df

Unnamed: 0,gender,sport,status,age,height,weight
0,male,tennis,professional,20,185,83
1,female,tennis,professional,24,172,58
2,female,basketball,professional,26,175,62
3,male,football,amateur,23,178,80
4,female,voleyball,amateur,22,182,65
5,male,basketball,amateur,21,196,90


In [63]:
df.pivot_table(index="gender", columns="sport", values=["age"], aggfunc="mean") # mean default tur

Unnamed: 0_level_0,age,age,age,age
sport,basketball,football,tennis,voleyball
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,26.0,,24.0,22.0
male,21.0,23.0,20.0,


In [65]:
df.pivot_table(index="gender", columns="sport", values=["age", "weight", "height"])

Unnamed: 0_level_0,age,age,age,age,height,height,height,height,weight,weight,weight,weight
sport,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
female,26.0,,24.0,22.0,175.0,,172.0,182.0,62.0,,58.0,65.0
male,21.0,23.0,20.0,,196.0,178.0,185.0,,90.0,80.0,83.0,


In [66]:
df.pivot(index="gender", columns="sport", values=["age", "weight", "height"]) # deplicate olmadığı için aynı şeyi verdi

Unnamed: 0_level_0,age,age,age,age,weight,weight,weight,weight,height,height,height,height
sport,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
female,26.0,,24.0,22.0,62.0,,58.0,65.0,175.0,,172.0,182.0
male,21.0,23.0,20.0,,90.0,80.0,83.0,,196.0,178.0,185.0,


In [73]:
df

Unnamed: 0,gender,sport,status,age,height,weight
0,male,tennis,professional,20,185,83
1,female,tennis,professional,24,172,58
2,female,basketball,professional,26,175,62
3,male,football,amateur,23,178,80
4,female,voleyball,amateur,22,182,65
5,male,basketball,amateur,21,196,90


In [71]:
df.pivot_table(index= "gender", columns="sport", values= "status") 
# default aggfunc="mean" olduğu için duplicate str lere çalıştıramadık

sport
gender
female
male


In [72]:
df.pivot(index="gender", columns="sport", values=["status"])

Unnamed: 0_level_0,status,status,status,status
sport,basketball,football,tennis,voleyball
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,professional,,professional,amateur
male,amateur,amateur,professional,


In [77]:
df.loc[2, "sport"] = "tennis"
df

Unnamed: 0,gender,sport,status,age,height,weight
0,male,tennis,professional,20,185,83
1,female,tennis,professional,24,172,58
2,female,tennis,professional,26,175,62
3,male,football,amateur,23,178,80
4,female,voleyball,amateur,22,182,65
5,male,basketball,amateur,21,196,90


In [78]:
df.pivot_table(index="gender", columns="sport", values=["age", "weight", "height"])

Unnamed: 0_level_0,age,age,age,age,height,height,height,height,weight,weight,weight,weight
sport,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball,basketball,football,tennis,voleyball
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
female,,,25.0,22.0,,,173.5,182.0,,,60.0,65.0
male,21.0,23.0,20.0,,196.0,178.0,185.0,,90.0,80.0,83.0,


In [80]:
# df.pivot(index="gender", columns="sport", values=["age", "weight", "height"]) 
# duplicate veriler olduğu için çalışmadı

# Nan Values

NaN = Not-a-Number

np.nan, belirsiz veya tanımlanamaz sayısal değerleri temsil etmek için kullanılır.

np.nan değeri, "sentinel" bir değer olarak kabul edilir ve herhangi bir değerle, hatta kendisiyle bile karşılaştırılamaz.

Sentinel; matematiksel hesaplamalarda belirsiz veya tanımlanamaz değerleri temsil etmek için kullanılır. 

None; sentinel bir değerdir ve bir fonksiyonun veya metodun "boş" veya "tanımsız" bir değeri ifade etmesi için kullanılır. 

Sütunun data tipi object ise "nan", sayısal ise "NaN" olur.

[SOURCE01](https://www.educative.io/edpresso/what-is-the-none-keyword-in-python), 
[SOURCE02](https://stackoverflow.com/questions/21095654/what-is-a-nonetype-object),
[SOURCE03](https://www.skytowner.com/explore/difference_between_none_and_nan_in_pandas), 
[SOURCE04](https://kegui.medium.com/what-is-the-difference-between-nan-none-pd-nan-and-np-nan-a8ee0532e2eb),
[SOURCE05](https://stackoverflow.com/questions/53436339/difference-between-np-nan-and-np-nan),
[SOURCE06](https://stackoverflow.com/questions/40309789/difference-between-nan-and-nan-in-python),
[SOURCE07](https://towardsdatascience.com/navigating-the-hell-of-nans-in-python-71b12558895b)

In [82]:
id_no = ["P001", "P002", "P003", "P004", "P005", "P006", "P007", "P008", "P009", "P010", "P011"]
gender = ["M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M"]
status = ["FT", "PT", "-", "FT", "PT", "PT", "FT", "-", "PT", "FT", np.nan]
dept = ["DS", "FS", "AWS", "AWS", "DS", None, "FS", "FS", np.nan, "DS", "AWS"]
V1 = np.array([2, 3, 5, np.nan, 7, 1, np.nan, 10, 14, "-", 6])
V2 = np.array([8, np.nan, 5, 8, 11, np.nan, np.nan, 2, 3, 7, 9])
salary = np.array([np.nan, 54, 59, 120, 58, 75, None, 136, 60, 125, np.nan])

df0 = pd.DataFrame({
                   "id" : id_no,
                   "gender": gender,
                   "status": status,
                   "dept": dept,
                   "var1" : V1,
                   "var2" : V2,
                   "salary" : salary
                  })
df = df0.copy() # original veriyi korumuş olduk
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2,8.0,
1,P002,F,PT,FS,3,,54.0
2,P003,M,-,AWS,5,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7,11.0,58.0
5,P006,F,PT,,1,,75.0
6,P007,M,FT,FS,,,
7,P008,F,-,FS,10,2.0,136.0
8,P009,M,PT,,14,3.0,60.0
9,P010,F,FT,DS,-,7.0,125.0


In [83]:
df.info() # var1 de str değer olduğu için nan ları göremedi

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      11 non-null     object 
 1   gender  11 non-null     object 
 2   status  10 non-null     object 
 3   dept    9 non-null      object 
 4   var1    11 non-null     object 
 5   var2    8 non-null      float64
 6   salary  8 non-null      object 
dtypes: float64(1), object(6)
memory usage: 744.0+ bytes


In [84]:
type(np.nan)

float

In [86]:
type(np.NaN)

float

In [87]:
type(None)

NoneType

In [88]:
pd.Series([1, np.nan, np.NaN, None, 2])

0    1.0
1    NaN
2    NaN
3    NaN
4    2.0
dtype: float64

In [89]:
print("1", 0 * np.nan)
print("2", np.nan - np.nan)
print("3", np.nan + np.nan)
print("4", np.nan - 10)
print("5", np.nan + 10)
print("6", np.nan == np.nan) 
print("7", 10 > np.nan)
print("8", np.inf > np.nan) #np.inf sonsuz demek
print("9", float('-inf') < np.nan < float('inf'))
print("10", np.nan is np.nan)

1 nan
2 nan
3 nan
4 nan
5 nan
6 False
7 False
8 False
9 False
10 True


## .isnull() & .isna() & .notnull()

In [93]:
df.isnull()

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,False,False,False,False,False,False,True
1,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,True,False,True,False
6,False,False,False,False,False,True,True
7,False,False,False,False,False,False,False
8,False,False,False,True,False,False,False
9,False,False,False,False,False,False,False


In [96]:
df.isna()

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,False,False,False,False,False,False,True
1,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,True,False,True,False
6,False,False,False,False,False,True,True
7,False,False,False,False,False,False,False
8,False,False,False,True,False,False,False
9,False,False,False,False,False,False,False


In [97]:
df.notnull()

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,True,True,True,True,True,True,False
1,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True
5,True,True,True,False,True,False,True
6,True,True,True,True,True,False,False
7,True,True,True,True,True,True,True
8,True,True,True,False,True,True,True
9,True,True,True,True,True,True,True


In [99]:
df.isnull().any() # sütun sütun baktı ve null var mı diye sordu

id        False
gender    False
status     True
dept       True
var1      False
var2       True
salary     True
dtype: bool

In [101]:
df.isnull().any(axis=1) # satır satır baktı ve null var mı diye sordu

0      True
1      True
2     False
3     False
4     False
5      True
6      True
7     False
8      True
9     False
10     True
dtype: bool

In [102]:
df[df.isnull().any(axis=1)]

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
8,P009,M,PT,,14.0,3.0,60.0
10,P011,M,,AWS,6.0,9.0,


In [104]:
df.isnull().sum() # sütunlarda kaç adet null var ?

id        0
gender    0
status    1
dept      2
var1      0
var2      3
salary    3
dtype: int64

In [105]:
df.isnull().sum().sum() #  bütün veride kaç adet null var ?

9

##  Converting Improper Values to NaN Values

In [106]:
df[["var1"]] 

Unnamed: 0,var1
0,2
1,3
2,5
3,
4,7
5,1
6,
7,10
8,14
9,-


In [107]:
df[["var1"]].isnull()

Unnamed: 0,var1
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,False


In [110]:
df["var1"].replace("-", np.nan).astype(float)

0      2.0
1      3.0
2      5.0
3      NaN
4      7.0
5      1.0
6      NaN
7     10.0
8     14.0
9      NaN
10     6.0
Name: var1, dtype: float64

In [112]:
df["var1"] = df["var1"].replace("-", np.nan).astype(float)

In [113]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,-,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,-,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [115]:
df["status"].replace("-", np.nan)

0      FT
1      PT
2     NaN
3      FT
4      PT
5      PT
6      FT
7     NaN
8      PT
9      FT
10    NaN
Name: status, dtype: object

In [116]:
df["status"] = df["status"].replace("-", np.nan)

In [117]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [120]:
df0.isnull().sum().sum()

9

In [121]:
df.isnull().sum().sum()

14

# .dropna() & .drop()

In [122]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [126]:
df.dropna() # bir tane bile null varsa o satırı düşürdü

Unnamed: 0,id,gender,status,dept,var1,var2,salary
4,P005,M,PT,DS,7.0,11.0,58


In [129]:
df.dropna(how="any") # default , bir tane bile null varsa düşür

Unnamed: 0,id,gender,status,dept,var1,var2,salary
4,P005,M,PT,DS,7.0,11.0,58


In [144]:
df.dropna(how="all") # default , bir tane bile dolu varsa düşürme

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [125]:
df.dropna(axis= 1) # bir tane bile null varsa o sütunu düşürdü

Unnamed: 0,id,gender
0,P001,M
1,P002,F
2,P003,M
3,P004,F
4,P005,M
5,P006,F
6,P007,M
7,P008,F
8,P009,M
9,P010,F


In [141]:
df.dropna(thresh=6) # null olmayanlar 6 ve fazlaysa düşürme

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [130]:
df.drop([1, 3, 5]) # index label'ina göre düşürdü

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
2,P003,M,,AWS,5.0,5.0,59.0
4,P005,M,PT,DS,7.0,11.0,58.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0
10,P011,M,,AWS,6.0,9.0,


In [134]:
df.drop(["var1", "var2"], axis=1)

Unnamed: 0,id,gender,status,dept,salary
0,P001,M,FT,DS,
1,P002,F,PT,FS,54.0
2,P003,M,,AWS,59.0
3,P004,F,FT,AWS,120.0
4,P005,M,PT,DS,58.0
5,P006,F,PT,,75.0
6,P007,M,FT,FS,
7,P008,F,,FS,136.0
8,P009,M,PT,,60.0
9,P010,F,FT,DS,125.0


# .fillna()

In [145]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [146]:
df.fillna(0) # bütün nulları 0 ile doldurdu

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,0
1,P002,F,PT,FS,3.0,0.0,54
2,P003,M,0,AWS,5.0,5.0,59
3,P004,F,FT,AWS,0.0,8.0,120
4,P005,M,PT,DS,7.0,11.0,58
5,P006,F,PT,0,1.0,0.0,75
6,P007,M,FT,FS,0.0,0.0,0
7,P008,F,0,FS,10.0,2.0,136
8,P009,M,PT,0,14.0,3.0,60
9,P010,F,FT,DS,0.0,7.0,125


In [149]:
df[["var1"]].fillna(0)

Unnamed: 0,var1
0,2.0
1,3.0
2,5.0
3,0.0
4,7.0
5,1.0
6,0.0
7,10.0
8,14.0
9,0.0


In [151]:
df[["var1"]].fillna(df["var1"].mean()) # boş hücreleri o sütunun ortalamasıyla doldurduk

Unnamed: 0,var1
0,2.0
1,3.0
2,5.0
3,6.0
4,7.0
5,1.0
6,6.0
7,10.0
8,14.0
9,6.0


In [153]:
df.fillna(df.mean())

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,85.875
1,P002,F,PT,FS,3.0,6.625,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,6.0,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,6.625,75.0
6,P007,M,FT,FS,6.0,6.625,85.875
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,6.0,7.0,125.0


In [154]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [156]:
df.fillna({"dept": "Other", "var1": df.var1.mean(), "var2": df.var2.median()}) 
#sözlük yapısıyla istediğimiz sütunlara istediğimi işlemleri ayrı ayrı yaptırabildik

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,7.5,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,6.0,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,Other,1.0,7.5,75.0
6,P007,M,FT,FS,6.0,7.5,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,Other,14.0,3.0,60.0
9,P010,F,FT,DS,6.0,7.0,125.0


In [161]:
df.dept.mode() # en çok tekrar eden eleman

0    AWS
1     DS
2     FS
Name: dept, dtype: object

In [164]:
df.dept.fillna(df.dept.mode()[0])
# 0 yazdık çünkü birden fazla mode olduğu için ilkini aldık

0      DS
1      FS
2     AWS
3     AWS
4      DS
5     AWS
6      FS
7      FS
8     AWS
9      DS
10    AWS
Name: dept, dtype: object

## bfill, dfill

In [166]:
df.dept

0       DS
1       FS
2      AWS
3      AWS
4       DS
5     None
6       FS
7       FS
8      NaN
9       DS
10     AWS
Name: dept, dtype: object

In [168]:
df.dept.fillna(method="bfill") #sonraki gelen deeğerle doldur

0      DS
1      FS
2     AWS
3     AWS
4      DS
5      FS
6      FS
7      FS
8      DS
9      DS
10    AWS
Name: dept, dtype: object

In [167]:
df.dept.fillna(method="ffill") #önceki gelen değerle doldur

0      DS
1      FS
2     AWS
3     AWS
4      DS
5      DS
6      FS
7      FS
8      FS
9      DS
10    AWS
Name: dept, dtype: object

In [169]:
df.dept.fillna(method="ffill", inplace=True)
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [204]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [208]:
df.loc[df["salary"] >= 100, "status"]

3     FT
7    NaN
9     FT
Name: status, dtype: object

In [209]:
df.loc[df["salary"] < 100, "status"]

1     PT
2    NaN
4     PT
5     PT
8     PT
Name: status, dtype: object

In [210]:
df.loc[df["salary"] >= 100, "status"].fillna(df.loc[df["salary"] >= 100, "status"].mode()[0])

3    FT
7    FT
9    FT
Name: status, dtype: object

In [211]:
df.loc[df["salary"] >= 100, "status"] = df.loc[df["salary"] >= 100, "status"].fillna(df.loc[df["salary"] >= 100, "status"].mode()[0])

df.loc[df["salary"] < 100, "status"] = df.loc[df["salary"] < 100, "status"].fillna(df.loc[df["salary"] < 100, "status"].mode()[0])

In [212]:
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,PT,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,FT,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [214]:
df.groupby(["gender", "dept"])["status"].transform(lambda x: x.mode()[0])
# burada gender ve dept göre gruplayıp bu grubların status'unu grupların status değerlerinin mode larına eşitledik
#yani tüm grupların elemanları aynı statuse sahip oldu

0     FT
1     FT
2     PT
3     FT
4     FT
5     FT
6     FT
7     FT
8     FT
9     FT
10    PT
Name: status, dtype: object

In [224]:
df["status"].fillna(df.groupby(["gender", "dept"])["status"].transform(lambda x: x.mode()[0]), inplace=True)
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,PT,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,,,
7,P008,F,FT,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [230]:
df["salary"].fillna(df.groupby(["status", "dept"])["salary"].transform("mean"), inplace=True)
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,125.0
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,PT,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,,,136.0
7,P008,F,FT,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,,7.0,125.0


In [231]:
df["var1"].fillna(df.groupby(["gender", "status"])["var1"].transform("mean"), inplace=True)
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,125.0
1,P002,F,PT,FS,3.0,,54.0
2,P003,M,PT,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,10.0,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,,75.0
6,P007,M,FT,FS,2.0,,136.0
7,P008,F,FT,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,10.0,7.0,125.0


In [232]:
df["var2"].fillna(df.groupby(["status"])["var2"].transform("mean"), inplace=True)
df

Unnamed: 0,id,gender,status,dept,var1,var2,salary
0,P001,M,FT,DS,2.0,8.0,125.0
1,P002,F,PT,FS,3.0,7.0,54.0
2,P003,M,PT,AWS,5.0,5.0,59.0
3,P004,F,FT,AWS,10.0,8.0,120.0
4,P005,M,PT,DS,7.0,11.0,58.0
5,P006,F,PT,DS,1.0,7.0,75.0
6,P007,M,FT,FS,2.0,6.25,136.0
7,P008,F,FT,FS,10.0,2.0,136.0
8,P009,M,PT,FS,14.0,3.0,60.0
9,P010,F,FT,DS,10.0,7.0,125.0


# append() & concat() & merge() & join()

**Difference between merge, join, and concatenate;**

[Source01](https://realpython.com/pandas-merge-join-and-concat/), 
[Source02](https://studymachinelearning.com/difference-between-merge-join-and-concatenate/abs), 
[Source03](https://www.educba.com/pandas-merge-vs-join/),
[Source04](https://pandas.pydata.org/docs/user_guide/merging.html), 
[Source05](https://stackoverflow.com/questions/38256104/differences-between-merge-and-concat-in-pandas)

**append() ve concat()** ile dikey birleştirme yapabiliriz.

**concat(), join() ve merge()** ile yatay birleştirme yapabiliriz.

**append() ve concat()** ile aynı anda iki veya ikiden fazla dataframe i birleştirebiliriz.

**append() ve concat()** da ortak sütun olması gerekmez.

**concat()** ile hem satır hem de sütun bazlı birleştirme yapabiliriz. Yani "axis" sadece concat() de var.

**join()** de aynı anda iki veya daha fazla dataframe i birleştirebiliriz ancak aynı sütun isimleri varsa en fazla iki df birleştirebiliriz.

**merge()** ile aynı anda iki dataframe i birleştirebiliriz.

**merge()** ile birleştirme işlemimizi ortak sütun üzerinden yapıyoruz.

In [2]:
one = pd.DataFrame({
   'name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])

In [3]:
one

Unnamed: 0,name,subject_id,marks_scored
1,Alex,sub1,98
2,Amy,sub2,90
3,Allen,sub4,87
4,Alice,sub6,69
5,Ayoung,sub5,78


In [4]:
two

Unnamed: 0,name,subject_id,marks_scored
1,Billy,sub2,89
2,Brian,sub4,80
3,Bran,sub3,79
4,Bryce,sub6,97
5,Betty,sub5,88


## append()

sadece dikey birleştirme yapabiliriz.

aynı anda iki veya ikiden fazla dataframe i birleştirebiliriz.

ortak sütun olması gerekmez. ortak sütunları tanır

In [5]:
one.append(two)

Unnamed: 0,name,subject_id,marks_scored
1,Alex,sub1,98
2,Amy,sub2,90
3,Allen,sub4,87
4,Alice,sub6,69
5,Ayoung,sub5,78
1,Billy,sub2,89
2,Brian,sub4,80
3,Bran,sub3,79
4,Bryce,sub6,97
5,Betty,sub5,88


In [9]:
one.append(two, ignore_index=True)

Unnamed: 0,name,subject_id,marks_scored
0,Alex,sub1,98
1,Amy,sub2,90
2,Allen,sub4,87
3,Alice,sub6,69
4,Ayoung,sub5,78
5,Billy,sub2,89
6,Brian,sub4,80
7,Bran,sub3,79
8,Bryce,sub6,97
9,Betty,sub5,88


## concat()

hem satır hem de sütun bazlı birleştirme yapabiliriz. Yani "axis" sadece concat() de var.

aynı anda iki veya ikiden fazla dataframe i birleştirebiliriz.

ortak sütun olması gerekmez. ortak sütunları tanır

In [13]:
one

Unnamed: 0,name,subject_id,marks_scored
1,Alex,sub1,98
2,Amy,sub2,90
3,Allen,sub4,87
4,Alice,sub6,69
5,Ayoung,sub5,78


In [14]:
two

Unnamed: 0,name,subject_id,marks_scored
1,Billy,sub2,89
2,Brian,sub4,80
3,Bran,sub3,79
4,Bryce,sub6,97
5,Betty,sub5,88


In [10]:
pd.concat([one, two]) # default axis = 0

Unnamed: 0,name,subject_id,marks_scored
1,Alex,sub1,98
2,Amy,sub2,90
3,Allen,sub4,87
4,Alice,sub6,69
5,Ayoung,sub5,78
1,Billy,sub2,89
2,Brian,sub4,80
3,Bran,sub3,79
4,Bryce,sub6,97
5,Betty,sub5,88


In [11]:
pd.concat([one, two], ignore_index=True)

Unnamed: 0,name,subject_id,marks_scored
0,Alex,sub1,98
1,Amy,sub2,90
2,Allen,sub4,87
3,Alice,sub6,69
4,Ayoung,sub5,78
5,Billy,sub2,89
6,Brian,sub4,80
7,Bran,sub3,79
8,Bryce,sub6,97
9,Betty,sub5,88


In [12]:
pd.concat([one, two], ignore_index=True, axis=1)

Unnamed: 0,0,1,2,3,4,5
1,Alex,sub1,98,Billy,sub2,89
2,Amy,sub2,90,Brian,sub4,80
3,Allen,sub4,87,Bran,sub3,79
4,Alice,sub6,69,Bryce,sub6,97
5,Ayoung,sub5,78,Betty,sub5,88


In [15]:
pd.concat([one.iloc[ : , :2 ], two.iloc[ : , 1: ]])

Unnamed: 0,name,subject_id,marks_scored
1,Alex,sub1,
2,Amy,sub2,
3,Allen,sub4,
4,Alice,sub6,
5,Ayoung,sub5,
1,,sub2,89.0
2,,sub4,80.0
3,,sub3,79.0
4,,sub6,97.0
5,,sub5,88.0


## merge() 

yatay birleştirme yapabiliriz.

ortak sütun olmalı. yoksa sütun eşitlemesi yapmamız gerekir

tek seferde iki dataframe i birleştirebiliriz.

birleştirme işlemimizi ortak sütun üzerinden yapıyoruz.

In [17]:
x = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                     'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']})

y = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [18]:
x

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [19]:
y

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [27]:
pd.merge(x, y) #   how="inner" default değer
# on="key" default çünkü key ikisinde de var. otomatik anladı

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [23]:
pd.merge(x, y, how="outer")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,,,C3,D3


In [25]:
pd.merge(x, y, how="left")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [26]:
pd.merge(x, y, how="right")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,,,C3,D3


In [28]:
df1 = pd.DataFrame({'lkey': ['x', 'y', 'z', 'x'],
                    'lvalue': [2, 3, 5, 7]})

df2 = pd.DataFrame({'rkey': ['a', 'x', 'z', 'b'],
                    'rvalue': [7, 8, 9, 10]})

In [29]:
df1

Unnamed: 0,lkey,lvalue
0,x,2
1,y,3
2,z,5
3,x,7


In [30]:
df2

Unnamed: 0,rkey,rvalue
0,a,7
1,x,8
2,z,9
3,b,10


In [31]:
pd.merge(df1, df2, left_on="lkey", right_on="rkey")
# ortak sütun olmadığı için ikisinin ortak olmasını istediğimiz sütunları tek tek tanımlamamız gerekir

Unnamed: 0,lkey,lvalue,rkey,rvalue
0,x,2,x,8
1,x,7,x,8
2,z,5,z,9


In [32]:
pd.merge(df1, df2, left_on="lkey", right_on="rkey", how="outer")

Unnamed: 0,lkey,lvalue,rkey,rvalue
0,x,2.0,x,8.0
1,x,7.0,x,8.0
2,y,3.0,,
3,z,5.0,z,9.0
4,,,a,7.0
5,,,b,10.0


## join()

 yatay birleştirme yapabiliriz. Ortak sütun zorunluluğu yok

**join()** de aynı anda iki veya daha fazla dataframe i birleştirebiliriz ancak aynı sütun isimleri varsa en fazla iki df birleştirebiliriz.

Daha çok SQL tabanlı veri işleme işlemlerinde kullanılır. 

[Source 01](https://sparkbyexamples.com/pandas/pandas-join-explained-with-examples/), 
[Source 02](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html), 
[Source 03](https://www.w3schools.com/python/pandas/ref_df_join.asp)

In [3]:
df3 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index = ['K0', 'K1', 'K2']) 

df4 = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index = ['K0', 'K2', 'K3'])

In [4]:
df3

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [5]:
df4

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [6]:
df3.join(df4) # default how="left" . 3 teki satırları getirdi, 4teki ortak satırları getirdi

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [7]:
df3.join(df4, how="right")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2
K3,,,C3,D3


In [8]:
df3.join(df4, how="outer")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [9]:
df3.join(df4, how="inner")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


In [10]:
df4.join(df3)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


In [11]:
df5 = pd.DataFrame({'key': ['K0', 'K2', 'K3', 'K4', 'K5', 'K6'],
                   'X': ['X0', 'X2', 'X3', 'X4', 'X5', 'X6']})

df6 = pd.DataFrame({'key': ['K0', 'K2', 'K3'],
                      'Y': ['Y0', 'Y2', 'Y3']})

In [12]:
df5

Unnamed: 0,key,X
0,K0,X0
1,K2,X2
2,K3,X3
3,K4,X4
4,K5,X5
5,K6,X6


In [13]:
df6

Unnamed: 0,key,Y
0,K0,Y0
1,K2,Y2
2,K3,Y3


In [None]:
#df5.join(df6) # aynı isimli sütun olduğu için çalışmaz

In [14]:
df5.join(df6, lsuffix="_5", rsuffix="_6") # bu şekilde aynı sütun isimlerini farklılaştırdık

Unnamed: 0,key_5,X,key_6,Y
0,K0,X0,K0,Y0
1,K2,X2,K2,Y2
2,K3,X3,K3,Y3
3,K4,X4,,
4,K5,X5,,
5,K6,X6,,


In [15]:
df5.set_index("key")

Unnamed: 0_level_0,X
key,Unnamed: 1_level_1
K0,X0
K2,X2
K3,X3
K4,X4
K5,X5
K6,X6


In [16]:
df6.set_index("key")

Unnamed: 0_level_0,Y
key,Unnamed: 1_level_1
K0,Y0
K2,Y2
K3,Y3


In [17]:
df5.set_index("key").join(df6.set_index("key"))

Unnamed: 0_level_0,X,Y
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,X0,Y0
K2,X2,Y2
K3,X3,Y3
K4,X4,
K5,X5,
K6,X6,


# String methods
**str.lower():** Bir stringi küçük harfe dönüştürür

**str.upper():** Bir stringi büyük harfe dönüştürür

**str.capitalize():** İlk karakteri büyük harfe dönüştürür

**str.title():** Her kelimenin ilk karakterini büyük harfe dönüştürür

**str.swapcase():** Büyük harfleri küçük, küçük harfleri büyük harfe dönüştürür

**str.isalpha():** Tüm karakterlerin alfabede yer alıp almadığını kontrol ederek True veya False değeri döndürür

**str.isnumeric():** Tüm karakterlerin sayısal değer içerip içermediğini kontrol ederek True veya False değeri döndürür

**str.isalnum():** Tüm karakterlerin harf veya sayısal değer içerip içermediğini kontrol ederek True veya False değeri döndürür

**str.endswith():** Bir stringin belirtilen değerle bittiğini kontrol ederek True veya False değeri döndürür

**str.startswith():** Bir stringin belirtilen değerle başladığını kontrol ederek True veya False değeri döndürür

**str.contains():** Bir alt dizinin bir dizede bulunup bulunmadığını kontrol ederek her bir öğe için True veya False değeri döndürür

**str.strip():** Bir stringin başındaki ve sonundaki boşlukları temizler ve kırpılmış bir versiyonunu döndürür

**str.replace():** Belirtilen bir değeri başka bir değerle değiştirilmiş bir string döndürür

**str.split():** Bir stringi belirtilen ayraçta böler ve bir liste döndürür

**str.find():** Bir stringde belirtilen bir değeri arar ve bulunduğu konumun indeksini döndürür

**str.findall():** Bir desendeki tüm örneklerin bir listesini döndürür

**str.join():** Bir iterable ın öğelerini bir stringe dönüştürür

[SOURCE01](https://docs.python.org/3/library/stdtypes.html#string-methods),
[SOURCE02](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html),
[SOURCE03](https://www.aboutdatablog.com/post/10-most-useful-string-functions-in-pandas),
[SOURCE04](https://www.tutorialspoint.com/python_pandas/python_pandas_working_with_text_data.htm) &
[Video](https://www.youtube.com/watch?v=6JNwK6hEneg)

In [19]:
df = pd.DataFrame(data=[['Tyler DURDEN', 'HR', "manager", "$180,000", 55],
                        ['MARIA puder', "IT", "data analyst", "150000dolar", 28],
                        ['dorothy gale', "HR", "recruiter", "$120,000", 30],
                        ['Edmond Dantes', "IT", "data scientist", "$170,000","-"], 
                        ['Gregor SAMSA',"IT", "frontend developer", "120000dolar",32]],
                  columns=["name","dept", "job", "sales", "age"])
df

Unnamed: 0,name,dept,job,sales,age
0,Tyler DURDEN,HR,manager,"$180,000",55
1,MARIA puder,IT,data analyst,150000dolar,28
2,dorothy gale,HR,recruiter,"$120,000",30
3,Edmond Dantes,IT,data scientist,"$170,000",-
4,Gregor SAMSA,IT,frontend developer,120000dolar,32


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   dept    5 non-null      object
 2   job     5 non-null      object
 3   sales   5 non-null      object
 4   age     5 non-null      object
dtypes: object(5)
memory usage: 328.0+ bytes


In [21]:
df.name.str.title()

0     Tyler Durden
1      Maria Puder
2     Dorothy Gale
3    Edmond Dantes
4     Gregor Samsa
Name: name, dtype: object

In [26]:
df.name.str.capitalize()

0     Tyler durden
1      Maria puder
2     Dorothy gale
3    Edmond dantes
4     Gregor samsa
Name: name, dtype: object

In [27]:
df

Unnamed: 0,name,dept,job,sales,age
0,Tyler DURDEN,HR,manager,"$180,000",55
1,MARIA puder,IT,data analyst,150000dolar,28
2,dorothy gale,HR,recruiter,"$120,000",30
3,Edmond Dantes,IT,data scientist,"$170,000",-
4,Gregor SAMSA,IT,frontend developer,120000dolar,32


In [28]:
df.job.str.isalpha()

0     True
1    False
2     True
3    False
4    False
Name: job, dtype: bool

In [29]:
df.dept.str.isalpha()

0    True
1    True
2    True
3    True
4    True
Name: dept, dtype: bool

In [30]:
df.age.str.isnumeric()

0      NaN
1      NaN
2      NaN
3    False
4      NaN
Name: age, dtype: object

In [32]:
df.age.astype(str).str.isnumeric()

0     True
1     True
2     True
3    False
4     True
Name: age, dtype: bool

In [34]:
df

Unnamed: 0,name,dept,job,sales,age
0,Tyler DURDEN,HR,manager,"$180,000",55
1,MARIA puder,IT,data analyst,150000dolar,28
2,dorothy gale,HR,recruiter,"$120,000",30
3,Edmond Dantes,IT,data scientist,"$170,000",-
4,Gregor SAMSA,IT,frontend developer,120000dolar,32


In [33]:
df.job.str.contains("data")

0    False
1     True
2    False
3     True
4    False
Name: job, dtype: bool

In [35]:
df[df.job.str.contains("data")]

Unnamed: 0,name,dept,job,sales,age
1,MARIA puder,IT,data analyst,150000dolar,28
3,Edmond Dantes,IT,data scientist,"$170,000",-


In [36]:
df.sales

0       $180,000
1    150000dolar
2       $120,000
3       $170,000
4    120000dolar
Name: sales, dtype: object

In [39]:
df.sales.str.rstrip("dolar").str.lstrip("$")

0    180,000
1     150000
2    120,000
3    170,000
4     120000
Name: sales, dtype: object

In [43]:
df.sales.str.strip("dolar$").str.replace(",", "").astype(float)

0    180000.0
1    150000.0
2    120000.0
3    170000.0
4    120000.0
Name: sales, dtype: float64

In [44]:
df.sales = df.sales.str.strip("dolar$").str.replace(",", "").astype(float)

In [45]:
df

Unnamed: 0,name,dept,job,sales,age
0,Tyler DURDEN,HR,manager,180000.0,55
1,MARIA puder,IT,data analyst,150000.0,28
2,dorothy gale,HR,recruiter,120000.0,30
3,Edmond Dantes,IT,data scientist,170000.0,-
4,Gregor SAMSA,IT,frontend developer,120000.0,32


In [47]:
df.age.replace("-", np.nan)

0    55.0
1    28.0
2    30.0
3     NaN
4    32.0
Name: age, dtype: float64

In [48]:
df.age = df.age.replace("-", np.nan)

In [49]:
df

Unnamed: 0,name,dept,job,sales,age
0,Tyler DURDEN,HR,manager,180000.0,55.0
1,MARIA puder,IT,data analyst,150000.0,28.0
2,dorothy gale,HR,recruiter,120000.0,30.0
3,Edmond Dantes,IT,data scientist,170000.0,
4,Gregor SAMSA,IT,frontend developer,120000.0,32.0


In [54]:
df.name.str.title().str.split(" ").str[0]

0      Tyler
1      Maria
2    Dorothy
3     Edmond
4     Gregor
Name: name, dtype: object

In [55]:
df.name.str.title().str.split(" ").str[1]

0    Durden
1     Puder
2      Gale
3    Dantes
4     Samsa
Name: name, dtype: object

In [56]:
df["first_name"] = df.name.str.title().str.split(" ").str[0]

In [58]:
df["last_name"] = df.name.str.title().str.split(" ").str[1]

In [59]:
df

Unnamed: 0,name,dept,job,sales,age,first_name,last_name
0,Tyler DURDEN,HR,manager,180000.0,55.0,Tyler,Durden
1,MARIA puder,IT,data analyst,150000.0,28.0,Maria,Puder
2,dorothy gale,HR,recruiter,120000.0,30.0,Dorothy,Gale
3,Edmond Dantes,IT,data scientist,170000.0,,Edmond,Dantes
4,Gregor SAMSA,IT,frontend developer,120000.0,32.0,Gregor,Samsa


In [65]:
df.drop("name", inplace=True, axis=1)

In [72]:
df = df[["first_name", "last_name", "dept", "job", "sales", "age"]]
df

Unnamed: 0,first_name,last_name,dept,job,sales,age
0,Tyler,Durden,HR,manager,180000.0,55.0
1,Maria,Puder,IT,data analyst,150000.0,28.0
2,Dorothy,Gale,HR,recruiter,120000.0,30.0
3,Edmond,Dantes,IT,data scientist,170000.0,
4,Gregor,Samsa,IT,frontend developer,120000.0,32.0


In [63]:
df.job.str.find("scient") # -1 yok demek, hangi indexte başlıyorsa onu döndürdü

0   -1
1   -1
2   -1
3    5
4   -1
Name: job, dtype: int64

In [73]:
df.job.str.findall("d")

0        []
1       [d]
2        []
3       [d]
4    [d, d]
Name: job, dtype: object

In [75]:
df.job.str.findall("d").apply(len)

0    0
1    1
2    0
3    1
4    2
Name: job, dtype: int64

In [76]:
df.job.str.findall("d").map(len)

0    0
1    1
2    0
3    1
4    2
Name: job, dtype: int64

In [77]:
df["skills"] = [[], ["Python", "Tableau", "SQL"], [], ["ML", "DL", "NLP"], ["React", "Django"]]
df["Skills"] = [[], "Python, Tableau, SQL", [], ["ML", "DL", "NLP"], ["React", "Django"]]
df

Unnamed: 0,first_name,last_name,dept,job,sales,age,skills,Skills
0,Tyler,Durden,HR,manager,180000.0,55.0,[],[]
1,Maria,Puder,IT,data analyst,150000.0,28.0,"[Python, Tableau, SQL]","Python, Tableau, SQL"
2,Dorothy,Gale,HR,recruiter,120000.0,30.0,[],[]
3,Edmond,Dantes,IT,data scientist,170000.0,,"[ML, DL, NLP]","[ML, DL, NLP]"
4,Gregor,Samsa,IT,frontend developer,120000.0,32.0,"[React, Django]","[React, Django]"


In [78]:
df.skills.str.join(",")

0                      
1    Python,Tableau,SQL
2                      
3             ML,DL,NLP
4          React,Django
Name: skills, dtype: object

In [79]:
df.Skills.str.join(",")

0                                           
1    P,y,t,h,o,n,,, ,T,a,b,l,e,a,u,,, ,S,Q,L
2                                           
3                                  ML,DL,NLP
4                               React,Django
Name: Skills, dtype: object

In [82]:
df.Skills.apply(lambda x: ",".join(x) if type(x) == list else x)

0                        
1    Python, Tableau, SQL
2                        
3               ML,DL,NLP
4            React,Django
Name: Skills, dtype: object

In [83]:
df.Skills = df.Skills.apply(lambda x: ",".join(x) if type(x) == list else x)
df

Unnamed: 0,first_name,last_name,dept,job,sales,age,skills,Skills
0,Tyler,Durden,HR,manager,180000.0,55.0,[],
1,Maria,Puder,IT,data analyst,150000.0,28.0,"[Python, Tableau, SQL]","Python, Tableau, SQL"
2,Dorothy,Gale,HR,recruiter,120000.0,30.0,[],
3,Edmond,Dantes,IT,data scientist,170000.0,,"[ML, DL, NLP]","ML,DL,NLP"
4,Gregor,Samsa,IT,frontend developer,120000.0,32.0,"[React, Django]","React,Django"


# pd.get_dummies

get_dummies(), makine öğrenimi ve veri analizinde yaygın olarak kullanılan bir işlevdir. 

Genellikle kategorik değişkenleri veya text datalarını, makine öğrenimi algoritmaları tarafından kolayca işlenebilen sayısal veya binary dönüştürmek için kullanılır.

[SOURCE01](https://www.sharpsightlabs.com/blog/pandas-get-dummies/),
[SOURCE02](https://dataindependent.com/pandas/pandas-get-dummies-pd-get_dummies/),
[SOURCE03](https://www.educative.io/answers/what-is-the-getdummies-function-in-pandas),
[SOURCE04](https://www.w3resource.com/pandas/get_dummies.php)

In [84]:
df

Unnamed: 0,first_name,last_name,dept,job,sales,age,skills,Skills
0,Tyler,Durden,HR,manager,180000.0,55.0,[],
1,Maria,Puder,IT,data analyst,150000.0,28.0,"[Python, Tableau, SQL]","Python, Tableau, SQL"
2,Dorothy,Gale,HR,recruiter,120000.0,30.0,[],
3,Edmond,Dantes,IT,data scientist,170000.0,,"[ML, DL, NLP]","ML,DL,NLP"
4,Gregor,Samsa,IT,frontend developer,120000.0,32.0,"[React, Django]","React,Django"


In [86]:
pd.get_dummies(df.dept)

Unnamed: 0,HR,IT
0,1,0
1,0,1
2,1,0
3,0,1
4,0,1


In [87]:
pd.get_dummies(df.dept, drop_first=True) # ilk sütunu düşürdü

Unnamed: 0,IT
0,0
1,1
2,0
3,1
4,1


In [90]:
df.Skills.str.get_dummies(sep=",")

Unnamed: 0,SQL,Tableau,DL,Django,ML,NLP,Python,React
0,0,0,0,0,0,0,0,0
1,1,1,0,0,0,0,1,0
2,0,0,0,0,0,0,0,0
3,0,0,1,0,1,1,0,0
4,0,0,0,1,0,0,0,1


In [91]:
df.Skills.str.get_dummies(sep=",").add_prefix("skills_")
# sütun isimlerine ekleme yaptık. nerden geldiğini daha iyi anlamak için

Unnamed: 0,skills_ SQL,skills_ Tableau,skills_DL,skills_Django,skills_ML,skills_NLP,skills_Python,skills_React
0,0,0,0,0,0,0,0,0
1,1,1,0,0,0,0,1,0
2,0,0,0,0,0,0,0,0
3,0,0,1,0,1,1,0,0
4,0,0,0,1,0,0,0,1


In [92]:
skills_dummy = df.Skills.str.get_dummies(sep=",").add_prefix("skills_")

In [94]:
df_final = df[["dept", "job", "sales", "Skills"]]
df_final

Unnamed: 0,dept,job,sales,Skills
0,HR,manager,180000.0,
1,IT,data analyst,150000.0,"Python, Tableau, SQL"
2,HR,recruiter,120000.0,
3,IT,data scientist,170000.0,"ML,DL,NLP"
4,IT,frontend developer,120000.0,"React,Django"


In [96]:
df_final2 = df_final.join(skills_dummy)
df_final2

Unnamed: 0,dept,job,sales,Skills,skills_ SQL,skills_ Tableau,skills_DL,skills_Django,skills_ML,skills_NLP,skills_Python,skills_React
0,HR,manager,180000.0,,0,0,0,0,0,0,0,0
1,IT,data analyst,150000.0,"Python, Tableau, SQL",1,1,0,0,0,0,1,0
2,HR,recruiter,120000.0,,0,0,0,0,0,0,0,0
3,IT,data scientist,170000.0,"ML,DL,NLP",0,0,1,0,1,1,0,0
4,IT,frontend developer,120000.0,"React,Django",0,0,0,1,0,0,0,1


In [100]:
df_final2.drop("Skills", axis=1, inplace=True)

In [101]:
df_final2

Unnamed: 0,dept,job,sales,skills_ SQL,skills_ Tableau,skills_DL,skills_Django,skills_ML,skills_NLP,skills_Python,skills_React
0,HR,manager,180000.0,0,0,0,0,0,0,0,0
1,IT,data analyst,150000.0,1,1,0,0,0,0,1,0
2,HR,recruiter,120000.0,0,0,0,0,0,0,0,0
3,IT,data scientist,170000.0,0,0,1,0,1,1,0,0
4,IT,frontend developer,120000.0,0,0,0,1,0,0,0,1


In [103]:
pd.get_dummies(df_final2, drop_first=True)

Unnamed: 0,sales,skills_ SQL,skills_ Tableau,skills_DL,skills_Django,skills_ML,skills_NLP,skills_Python,skills_React,dept_IT,job_data scientist,job_frontend developer,job_manager,job_recruiter
0,180000.0,0,0,0,0,0,0,0,0,0,0,0,1,0
1,150000.0,1,1,0,0,0,0,1,0,1,0,0,0,0
2,120000.0,0,0,0,0,0,0,0,0,0,0,0,0,1
3,170000.0,0,0,1,0,1,1,0,0,1,1,0,0,0
4,120000.0,0,0,0,1,0,0,0,1,1,0,1,0,0


In [104]:
df_final3 = pd.get_dummies(df_final2, drop_first=True)
df_final3

Unnamed: 0,sales,skills_ SQL,skills_ Tableau,skills_DL,skills_Django,skills_ML,skills_NLP,skills_Python,skills_React,dept_IT,job_data scientist,job_frontend developer,job_manager,job_recruiter
0,180000.0,0,0,0,0,0,0,0,0,0,0,0,1,0
1,150000.0,1,1,0,0,0,0,1,0,1,0,0,0,0
2,120000.0,0,0,0,0,0,0,0,0,0,0,0,0,1
3,170000.0,0,0,1,0,1,1,0,0,1,1,0,0,0
4,120000.0,0,0,0,1,0,0,0,1,1,0,1,0,0


# DataFrame Import and Export