In [2]:
# UCI(University of California, Irvine) 머신러닝 저장소에서 제공하는 암세포 진단(breast cancer)
# 데이터셋을 사용한다. 샘플 ID, 암세포 조직의 크기와 모양 등 종양 특성을 나타내는 열 9개,
# 악성 종양 여부(2: 양성, 4: 악성)를 나타내는 열로 총 11개의 열로 구성된다.

import pandas as pd 
import numpy as np 

In [3]:
# UCI 저장소에서 암세포 진단(Breast Cancer) 데이터셋 가져오기
uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data'

df = pd.read_csv(uci_path, header=None)
print(df) 

0   1   2   3   4   5   6   7   8   9   10
0    1000025   5   1   1   1   2   1   3   1   1   2
1    1002945   5   4   4   5   7  10   3   2   1   2
2    1015425   3   1   1   1   2   2   3   1   1   2
3    1016277   6   8   8   1   3   4   3   7   1   2
4    1017023   4   1   1   3   2   1   3   1   1   2
..       ...  ..  ..  ..  ..  ..  ..  ..  ..  ..  ..
694   776715   3   1   1   1   3   2   1   1   1   2
695   841769   2   1   1   1   2   1   1   1   1   2
696   888820   5  10  10   3   7   3   8  10   2   4
697   897471   4   8   6   4   3   4  10   6   1   4
698   897471   4   8   8   5   4   5  10   4   1   4

[699 rows x 11 columns]


In [4]:
# 11개의 열 이름 지정
df.columns = ['id','clump','cell_size','cell_shape', 'adhesion','epithlial', 'bare_nuclei','chromatin','normal_nucleoli', 'mitoses', 'class']

# IPython 디스플레이 설정 - 출력한 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)

# 데이터 살펴보기 
print(df.head()) 

id  clump  cell_size  cell_shape  adhesion  epithlial bare_nuclei  \
0  1000025      5          1           1         1          2           1   
1  1002945      5          4           4         5          7          10   
2  1015425      3          1           1         1          2           2   
3  1016277      6          8           8         1          3           4   
4  1017023      4          1           1         3          2           1   

   chromatin  normal_nucleoli  mitoses  class  
0          3                1        1      2  
1          3                2        1      2  
2          3                1        1      2  
3          3                7        1      2  
4          3                1        1      2  


In [5]:
# 데이터 자료형 확인 : bare_nuclei 만 object 이고 나머지는 숫자형 
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
id                 699 non-null int64
clump              699 non-null int64
cell_size          699 non-null int64
cell_shape         699 non-null int64
adhesion           699 non-null int64
epithlial          699 non-null int64
bare_nuclei        699 non-null object
chromatin          699 non-null int64
normal_nucleoli    699 non-null int64
mitoses            699 non-null int64
class              699 non-null int64
dtypes: int64(10), object(1)
memory usage: 60.2+ KB
None


In [7]:
# 데이터 통계 요약정보 확인 - bare_nuclei 열은 출력안됨(10개의 열만 출력)
print(df.describe())

id       clump   cell_size  cell_shape    adhesion  \
count  6.990000e+02  699.000000  699.000000  699.000000  699.000000   
mean   1.071704e+06    4.417740    3.134478    3.207439    2.806867   
std    6.170957e+05    2.815741    3.051459    2.971913    2.855379   
min    6.163400e+04    1.000000    1.000000    1.000000    1.000000   
25%    8.706885e+05    2.000000    1.000000    1.000000    1.000000   
50%    1.171710e+06    4.000000    1.000000    1.000000    1.000000   
75%    1.238298e+06    6.000000    5.000000    5.000000    4.000000   
max    1.345435e+07   10.000000   10.000000   10.000000   10.000000   

        epithlial   chromatin  normal_nucleoli     mitoses       class  
count  699.000000  699.000000       699.000000  699.000000  699.000000  
mean     3.216023    3.437768         2.866953    1.589413    2.689557  
std      2.214300    2.438364         3.053634    1.715078    0.951273  
min      1.000000    1.000000         1.000000    1.000000    2.000000  
25%      2.0

In [13]:
# bare_nuclei 열의 고유값 확인 
print(df['bare_nuclei'].unique())
# 문자열로 출력되고 ? 가 포함되어 있다. 

['1' '10' '2' '4' '3' '9' '7' '?' '5' '8' '6']


In [14]:
# bare_nuclei 열의 자료형 변경 (문자열 -> 숫자)
# bare_nuclei 열의 '?' 를 누락데이터(NaN)으로 변경

df['bare_nuclei'].replace("?", np.nan, inplace=True)        # ?을 np.nan으로 변경  
df.dropna(subset=['bare_nuclei'], axis=0, inplace=True)     # 누락 데이터 행을 삭제
df['bare_nuclei'] = df['bare_nuclei'].astype('int')         # 문자열을 정수형으로 변환

print(df.describe())

id       clump   cell_size  cell_shape    adhesion  \
count  6.830000e+02  683.000000  683.000000  683.000000  683.000000   
mean   1.076720e+06    4.442167    3.150805    3.215227    2.830161   
std    6.206440e+05    2.820761    3.065145    2.988581    2.864562   
min    6.337500e+04    1.000000    1.000000    1.000000    1.000000   
25%    8.776170e+05    2.000000    1.000000    1.000000    1.000000   
50%    1.171795e+06    4.000000    1.000000    1.000000    1.000000   
75%    1.238705e+06    6.000000    5.000000    5.000000    4.000000   
max    1.345435e+07   10.000000   10.000000   10.000000   10.000000   

        epithlial  bare_nuclei   chromatin  normal_nucleoli     mitoses  \
count  683.000000   683.000000  683.000000       683.000000  683.000000   
mean     3.234261     3.544656    3.445095         2.869693    1.603221   
std      2.223085     3.643857    2.449697         3.052666    1.732674   
min      1.000000     1.000000    1.000000         1.000000    1.000000   
25