# Chapter 5: Understand Your Data With Descriptive Statistics

## 5.1. Peek at Your Data

In [15]:
# View first 20 rows
from pandas import read_csv
filename = "pima-indians-diabetes-dataset.csv"
data = read_csv(filename)
peek = data.head(20)
print(peek)

    Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin    BMI  DiabetesPedigreeFunction  \
0             6      148             72             35        0 33.600                     0.627   
1             1       85             66             29        0 26.600                     0.351   
2             8      183             64              0        0 23.300                     0.672   
3             1       89             66             23       94 28.100                     0.167   
4             0      137             40             35      168 43.100                     2.288   
5             5      116             74              0        0 25.600                     0.201   
6             3       78             50             32       88 31.000                     0.248   
7            10      115              0              0        0 35.300                     0.134   
8             2      197             70             45      543 30.500                     0.158   


## 5.2. Dimensions of Your Data

In [16]:
# Dimensions of your data
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv' # File thay thế
# Đổi names cho phù hợp với file
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc file CSV, bỏ qua dòng tiêu đề gốc để sử dụng danh sách tên cột đã định nghĩa
data = pd.read_csv(filename, names=names, header=0)
shape = data.shape
print(shape)

(768, 9)


## 5.3. Data Type For Each Attribute

In [17]:
# Data Types for Each Attribute
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv' # File thay thế
# Đổi names cho phù hợp với file
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc file CSV, bỏ qua dòng tiêu đề gốc để sử dụng danh sách tên cột đã định nghĩa
data = pd.read_csv(filename, names=names, header=0)
types = data.dtypes
print(types)

Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object


## 5.4. Descriptive Statistics

In [None]:
# Statistical Summary
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv' # File thay thế
# Đổi names cho phù hợp với file
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc file CSV, bỏ qua dòng tiêu đề gốc
data = pd.read_csv(filename, names=names, header=0)
# Thiết lập hiển thị
pd.set_option('display.width', 100)
pd.set_option('display.float_format', '{:.3f}'.format)  # Thay thế 'precision'
# Hiển thị thống kê mô tả
description = data.describe()
print(description)


       Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin     BMI  \
count      768.000  768.000        768.000        768.000  768.000 768.000   
mean         3.845  120.895         69.105         20.536   79.799  31.993   
std          3.370   31.973         19.356         15.952  115.244   7.884   
min          0.000    0.000          0.000          0.000    0.000   0.000   
25%          1.000   99.000         62.000          0.000    0.000  27.300   
50%          3.000  117.000         72.000         23.000   30.500  32.000   
75%          6.000  140.250         80.000         32.000  127.250  36.600   
max         17.000  199.000        122.000         99.000  846.000  67.100   

       DiabetesPedigreeFunction     Age  Outcome  
count                   768.000 768.000  768.000  
mean                      0.472  33.241    0.349  
std                       0.331  11.760    0.477  
min                       0.078  21.000    0.000  
25%                       0.244  24.000   

## 5.5. Class Distribution (Classification Only)

In [None]:
# Class Distribution
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv'  # File thay thế
# Định nghĩa tên cột theo đúng cấu trúc của file CSV
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu với tiêu đề cột mới
data = pd.read_csv(filename, names=names, header=0)
# Đếm số lượng mẫu theo mỗi lớp trong cột 'Outcome'
class_counts = data.groupby('Outcome').size()
# In kết quả
print(class_counts)

Outcome
0    500
1    268
dtype: int64


## 5.6. Correlations Between Attributes

In [None]:
# Pairwise Pearson correlations
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv'  # File thay thế
# Định nghĩa tên cột theo đúng cấu trúc của file CSV
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
data = read_csv(filename, names=names, header=0)
pd.set_option('display.width', 100)
pd.set_option('display.float_format', '{:.3f}'.format)  # Thay thế 'precision'
correlations = data.corr(method='pearson')
print(correlations)

                          Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
Pregnancies                     1.000    0.129          0.141         -0.082   -0.074 0.018   
Glucose                         0.129    1.000          0.153          0.057    0.331 0.221   
BloodPressure                   0.141    0.153          1.000          0.207    0.089 0.282   
SkinThickness                  -0.082    0.057          0.207          1.000    0.437 0.393   
Insulin                        -0.074    0.331          0.089          0.437    1.000 0.198   
BMI                             0.018    0.221          0.282          0.393    0.198 1.000   
DiabetesPedigreeFunction       -0.034    0.137          0.041          0.184    0.185 0.141   
Age                             0.544    0.264          0.240         -0.114   -0.042 0.036   
Outcome                         0.222    0.467          0.065          0.075    0.131 0.293   

                          DiabetesPedigreeFunctio

## 5.7. Skew of Univariate Distributions

In [23]:
# Skew for each attribute
import pandas as pd
filename = 'pima-indians-diabetes-dataset.csv'  # File thay thế
# Định nghĩa tên cột theo đúng cấu trúc của file CSV
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
data = read_csv(filename, names=names, header=0)
skew = data.skew()
print(skew)

Pregnancies                 0.902
Glucose                     0.174
BloodPressure              -1.844
SkinThickness               0.109
Insulin                     2.272
BMI                        -0.429
DiabetesPedigreeFunction    1.920
Age                         1.130
Outcome                     0.635
dtype: float64
