# 피마 인디언 당뇨병 예측

In [4]:
import numpy as np
import pandas as pd

- 데이터 전처리

In [6]:
df = pd.read_csv('pima-indians-diabetes.csv', skiprows=9, header=None) # csv 파일 내에서, 필요없는 몇 줄을 빼고
                                                                        # 데이터를 불러올 것이다.
                                                                        # 필요없는 줄을 제외하고 나면, 첫 번째 줄을
                                                                        # header로 인식하기 때문에, header=None으로 설정
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
df[1].head()

0    148
1     85
2    183
3     89
4    137
Name: 1, dtype: int64

In [8]:
## 두번째 방법 - 필요없는 줄 불러오고 나서 컬럼으로 설정하기
    ## DF는 만들어나가는 것이다.
# 1. Number of times pregnant
# 2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
# 3. Diastolic blood pressure (mm Hg)
# 4. Triceps skin fold thickness (mm)
# 5. 2-Hour serum insulin (mu U/ml)
# 6. Body mass index (weight in kg/(height in m)^2)
# 7. Diabetes pedigree function
# 8. Age (years)
# 9. Class variable (0 or 1)

df.columns = ['P', 'G', 'BP', 'S', 'I', 'BMI', 'D', 'Age', 'Class']
df.head()

Unnamed: 0,P,G,BP,S,I,BMI,D,Age,Class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [10]:
df.index[:5]

RangeIndex(start=0, stop=5, step=1)

In [20]:
# 결측치 데이터가 있는지 확인 : isna()
df.isna().sum() # 0라면 결측치가 없다는 의미
                # isna() 또는 isnull() 사용하여 결측치 확인

P        0
G        0
BP       0
S        0
I        0
BMI      0
D        0
Age      0
Class    0
dtype: int64

- Class를 기준으로 왼쪽이 X data, Class는 y data
    - X와 y를 나누는 방법
        - df[열 == Series == np.array+index == 맨 왼쪽에 있는 index][행] <- 컬럼 단위
        - np.array[행index, 열index]

In [12]:
# 컬럼 단위로 슬라이싱X -> iloc 사용해서 numpy st.을 쓸 수 있다.
X = df.iloc[:, :-1] # cf. [a,b,c,d]에서 [a,b,c]만 추출하고 싶다면 [0:-1]로 설정
X.head()

Unnamed: 0,P,G,BP,S,I,BMI,D,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [15]:
# values는 DF의 값만 긁어오겠다는 의미
X = df.iloc[:, :-1].values 
type(X)

numpy.ndarray

In [16]:
# .values 사용 -> numpy화: 실수로 데이터 값이 변함
    # DF는 컬럼단위로 동일한 데이터 타입
    # 데이터 안의 BMI와 D는 이미 float type
    # 더 많은 데이터를 표현할 수 있기 때문에
    # 데이터가 numpy, data, Series인지 잘 구분하기
X[:5]

array([[6.000e+00, 1.480e+02, 7.200e+01, 3.500e+01, 0.000e+00, 3.360e+01,
        6.270e-01, 5.000e+01],
       [1.000e+00, 8.500e+01, 6.600e+01, 2.900e+01, 0.000e+00, 2.660e+01,
        3.510e-01, 3.100e+01],
       [8.000e+00, 1.830e+02, 6.400e+01, 0.000e+00, 0.000e+00, 2.330e+01,
        6.720e-01, 3.200e+01],
       [1.000e+00, 8.900e+01, 6.600e+01, 2.300e+01, 9.400e+01, 2.810e+01,
        1.670e-01, 2.100e+01],
       [0.000e+00, 1.370e+02, 4.000e+01, 3.500e+01, 1.680e+02, 4.310e+01,
        2.288e+00, 3.300e+01]])

In [17]:
# y = Class값 구하는 여러가지 방법
y = df['Class'].values
y = df.Class.values
y = df.iloc[:, -1].values

In [18]:
X.shape, y.shape

((768, 8), (768,))

- 참고 사항

In [19]:
# DF 인덱싱 관련 예시
    # 데이터를 꺼내오는 여러가지 방법이 있다. 정수 타입
df2 = pd.DataFrame(np.arange(25).reshape(5,5), index=list('abcde'), columns=list('vwxyz'))
# df2 = pd.DataFrame(np.arange(25).reshape(5,5), index=['a','b','c','d','e'], columns=['v','w','x','y','z'])
df2

Unnamed: 0,v,w,x,y,z
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19
e,20,21,22,23,24


In [24]:
# 결측치 만들기 예시
# np.nan == 실수type
# DF는 컬럼단위로 동일한 데이터 타입이어야 하기 때문에 데이터가 실수로 변한다.
df2['v']['c'] = np.nan # v컬럼의 c 인덱스를 nan 값으로 만듦
df2.z['d'] = np.nan # z 컬럼의 d 인덱스를 nan 값으로 만듦
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['v']['c'] = np.nan # v컬럼의 c 인덱스를 nan 값으로 만듦
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2.z['d'] = np.nan


Unnamed: 0,v,w,x,y,z
a,0.0,1,2,3,4.0
b,5.0,6,7,8,9.0
c,,11,12,13,14.0
d,15.0,16,17,18,
e,20.0,21,22,23,24.0


In [27]:
df2.isna().sum() # sum()를 사용하면, 정수로 변환해서 더해줌 -> 숫자가 있다면 결측치가 있다는 뜻

v    1
w    0
x    0
y    0
z    1
dtype: int64

In [28]:
df2.isna().sum().sum() # DF 안에 null값이 총 2개가 있음을 확인할 수 있다.

2