In [55]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt # matplotlib içerisindeki pyplot modülünü plt olarak import ettik
import matplotlib as mpl # sadece matplotlibi import etmek etmek için kullanırız

import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

# Exercise DataSet

Pandas’ın exercise dataset’i, genelde kişilerin spor yapma aktivitelerini içeren küçük ve basit bir örnek veri setidir. Öğrenme amaçlı (özellikle pandas ile veri manipülasyonu ve analiz pratikleri için) kullanılır.

Veri setinde şu sütunlar var:

***Unnamed: 0*** → Otomatik oluşturulmuş index sütunu (gereksiz, drop edebilirsin).

***id*** → Katılımcı numarası (1, 2, 3 …).

***diet*** → Katılımcının diyet tipi (ör: low fat, no fat).

***pulse*** → Nabız (egzersiz sırasında ölçülen).

***time*** → Egzersiz süresi (1 min, 15 min, 30 min).

***kind*** → Egzersiz türü (rest, walking, running).

In [56]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [57]:
exercise = sns.load_dataset('exercise')
exercise # exercise data setini çağırdı

Unnamed: 0.1,Unnamed: 0,id,diet,pulse,time,kind
0,0,1,low fat,85,1 min,rest
1,1,1,low fat,85,15 min,rest
2,2,1,low fat,88,30 min,rest
3,3,2,low fat,90,1 min,rest
4,4,2,low fat,92,15 min,rest
...,...,...,...,...,...,...
85,85,29,no fat,135,15 min,running
86,86,29,no fat,130,30 min,running
87,87,30,no fat,99,1 min,running
88,88,30,no fat,111,15 min,running


In [58]:
exercise.drop('Unnamed: 0', axis = 1, inplace = True)
exercise # unnamed adındaki eski index sütununu drop ile sildik

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest
...,...,...,...,...,...
85,29,no fat,135,15 min,running
86,29,no fat,130,30 min,running
87,30,no fat,99,1 min,running
88,30,no fat,111,15 min,running


In [59]:
exercise.head() # ilk 5 satırı çağırdık

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest


In [60]:
exercise.tail() # son 5 satırı çağırdık

Unnamed: 0,id,diet,pulse,time,kind
85,29,no fat,135,15 min,running
86,29,no fat,130,30 min,running
87,30,no fat,99,1 min,running
88,30,no fat,111,15 min,running
89,30,no fat,150,30 min,running


In [61]:
exercise.sample(3) # rastgele 3 satırı çağırdık

Unnamed: 0,id,diet,pulse,time,kind
28,10,no fat,97,15 min,rest
79,27,no fat,126,15 min,running
81,28,no fat,103,1 min,running


In [62]:
exercise.shape # satır sütun sayısına baktık

(90, 5)

In [63]:
exercise.ndim # boyutuna baktık

2

In [64]:
exercise.size # toplam kaç elemanlı olduğuna baktık

450

In [65]:
exercise.info() # genel değerlendirmesine baktık

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   id      90 non-null     int64   
 1   diet    90 non-null     category
 2   pulse   90 non-null     int64   
 3   time    90 non-null     category
 4   kind    90 non-null     category
dtypes: category(3), int64(2)
memory usage: 2.2 KB


In [66]:
exercise.describe() # özet istatistiksel bilgi aldık

Unnamed: 0,id,pulse
count,90.0,90.0
mean,15.5,99.7
std,8.703932,14.858471
min,1.0,80.0
25%,8.0,90.25
50%,15.5,96.0
75%,23.0,103.0
max,30.0,150.0


In [67]:
exercise.corr(numeric_only = True) # corelasyon hesapladık

Unnamed: 0,id,pulse
id,1.0,0.679012
pulse,0.679012,1.0


In [68]:
exercise.dtypes # sütunların types bilgisini aldık

id          int64
diet     category
pulse       int64
time     category
kind     category
dtype: object

In [69]:
exercise.columns # columns isimlerine baktık

Index(['id', 'diet', 'pulse', 'time', 'kind'], dtype='object')

In [70]:
exercise.index # index bilgisi aldık

RangeIndex(start=0, stop=90, step=1)

In [71]:
exercise.pulse.mean() # pulse değerlerin ortalamasını aldık

np.float64(99.7)

In [72]:
exercise.kind.unique() # kind sütunu unique değerlere baktık

['rest', 'walking', 'running']
Categories (3, object): ['rest', 'walking', 'running']

In [73]:
exercise.diet.unique() # diet sütunu unique değerlere baktık

['low fat', 'no fat']
Categories (2, object): ['no fat', 'low fat']

In [83]:
exercise.diet.value_counts() # diet sütunu değer sayısı 

diet
no fat     45
low fat    45
Name: count, dtype: int64

In [74]:
exercise.kind.value_counts() # kind sütunu değer sayısı 

kind
rest       30
walking    30
running    30
Name: count, dtype: int64

In [75]:
exercise.time = exercise.time.str.strip('min').astype('int')
exercise.sample()

Unnamed: 0,id,diet,pulse,time,kind
64,22,low fat,104,15,running


In [84]:
exercise.id.value_counts() # id sütununda kaç kişi kaç kez çalışmış gösterdi

id
1     3
2     3
3     3
4     3
5     3
6     3
7     3
8     3
9     3
10    3
11    3
12    3
13    3
14    3
15    3
16    3
17    3
18    3
19    3
20    3
21    3
22    3
23    3
24    3
25    3
26    3
27    3
28    3
29    3
30    3
Name: count, dtype: int64

In [77]:
exercise.time.max() #  time serisinde süresi en büyük olan değeri buldu

30

In [78]:
exercise['kind'] == 'running' # egzersiz olarak koşu olanları True/False getirdi

0     False
1     False
2     False
3     False
4     False
      ...  
85     True
86     True
87     True
88     True
89     True
Name: kind, Length: 90, dtype: bool

In [79]:
exercise[(exercise.time == 30) & (exercise['kind'] == 'running')] # en uzun süre koşu egzersizi yapanların listesi

Unnamed: 0,id,diet,pulse,time,kind
62,21,low fat,110,30,running
65,22,low fat,112,30,running
68,23,low fat,99,30,running
71,24,low fat,120,30,running
74,25,low fat,116,30,running
77,26,no fat,143,30,running
80,27,no fat,140,30,running
83,28,no fat,140,30,running
86,29,no fat,130,30,running
89,30,no fat,150,30,running


In [82]:
exercise[exercise['diet'] == 'no fat']['time'].mean() # no fat diet yapanların ort egzersiz süresi

np.float64(15.333333333333334)

In [86]:
exercise[exercise['diet'] == 'no fat']['pulse'].mean() # no fat diet yapanların ort nabız süresi

np.float64(103.44444444444444)

In [87]:
exercise[exercise['diet'] == 'low fat']['pulse'].mean() # low fat diet yapanların ort nabız süresi

np.float64(95.95555555555555)

- low fat diet yapanların ortalama nabzı no fat diyet yapanlardan düşük

In [88]:
exercise[exercise['id'] == 5] # id = 5  olan kişinin tüm egzersizleri

Unnamed: 0,id,diet,pulse,time,kind
12,5,low fat,91,1,rest
13,5,low fat,92,15,rest
14,5,low fat,91,30,rest


In [89]:
exercise[exercise['kind'] == 'walking']['pulse'].max() # walking yapanların arasından en yüksek nabzı buldu

109

In [93]:
exercise.pivot_table(index = 'diet', columns = 'kind', values = 'pulse') # diet ve kind ile ort aldığımız yeni bir tablo oluşturduk

kind,rest,walking,running
diet,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
no fat,92.333333,96.933333,121.066667
low fat,89.333333,93.466667,105.066667


In [94]:
exercise.pivot_table(index = 'diet', columns = 'kind', values = 'pulse', aggfunc = 'max') # diet ve kind ile max değerleri aldığımız yeni bir tablo oluşturduk

kind,rest,walking,running
diet,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
no fat,100,109,150
low fat,97,104,132


In [97]:
exercise.groupby('id')['pulse'].max().sort_values() # Her bir kişinin (id) en yüksek nabzını buldu ve sıraladı

id
4      83
6      84
11     86
1      88
16     89
7      90
5      92
2      93
13     93
8      95
15     96
3      97
9      99
10    100
14    100
19    100
18    101
12    104
20    104
23    105
17    109
21    110
22    112
25    116
24    132
29    135
28    140
27    140
26    143
30    150
Name: pulse, dtype: int64

In [103]:
exercise.groupby(['kind','id'])['pulse'].agg({lambda x: x.max()-x.min()}) # rest → walking → running sırasına göre nabız değişimini her kişi için gözlemledik (farkları bulduk)

Unnamed: 0_level_0,Unnamed: 1_level_0,<lambda>
kind,id,Unnamed: 2_level_1
rest,1,3.0
rest,2,3.0
rest,3,3.0
rest,4,3.0
rest,5,1.0
...,...,...
running,26,48.0
running,27,40.0
running,28,37.0
running,29,41.0


In [117]:
exercise[exercise['pulse'] > 100]['diet'].value_counts()  # Nabzı 100’den yüksek olan satırları seç ve hangi diyet grubunda daha çok olduğunu inceledi

diet
no fat     17
low fat    10
Name: count, dtype: int64