## 행과 열의 위치 변경하기

In [1]:
!pip install pandas



In [2]:
import pandas as pd

In [3]:
df =pd.DataFrame([['이겨레', 25, '남', 185, 89],
                  ['조약돌', 19, '여', 163, 53]],
                  index = ['이겨레', '조약돌'],      # index를 넣어야 loc 가 출력된다.
                  columns = ['성명', '나이', '성별', '키', '체중'])

df

Unnamed: 0,성명,나이,성별,키,체중
이겨레,이겨레,25,남,185,89
조약돌,조약돌,19,여,163,53


In [4]:
# 데이터 프레임의 행과 열의 위치 변경하기
df_01 = df.transpose()
df_01

Unnamed: 0,이겨레,조약돌
성명,이겨레,조약돌
나이,25,19
성별,남,여
키,185,163
체중,89,53


In [5]:
# 변경된 데이터 프레임의 행과 열에 대해 다시 변경하기

df_02 = df_01.T
df_02

Unnamed: 0,성명,나이,성별,키,체중
이겨레,이겨레,25,남,185,89
조약돌,조약돌,19,여,163,53


## 행 삭제하기
### Missing Value(결측치)란? 
- 누락된 데이터가 있을 때, 제대로 역할을 하지 못할때 사용

In [6]:
# 데이터 프레임의 특정 행을 삭제하는 방법 1
# 데이트 프레임을 복제하여 변수에 대입 => 변수명 df.drop()

df_01 = df.copy()
df_01.drop('조약돌', axis=0, inplace=True)
df_01

Unnamed: 0,성명,나이,성별,키,체중
이겨레,이겨레,25,남,185,89


In [7]:
# 데이터 프레임의 특정 행을 삭제하는 방법 2
# 데이터 프레임 df를 복제하여 변수 df_02에 대입 후 2개의 행 삭제

df_02 = df.copy()
df_02.drop(['이겨레','조약돌'], inplace=True)
df_02

Unnamed: 0,성명,나이,성별,키,체중


## 열 삭제하기

In [8]:
# 데이터 프레임 df를 복제하여 변수 df_01에 대입 후 1개의 열 삭제

df_01 = df.copy()
df_01.drop('나이',axis=1, inplace=True)
df_01

Unnamed: 0,성명,성별,키,체중
이겨레,이겨레,남,185,89
조약돌,조약돌,여,163,53


In [9]:
# 데이터 프레임 df를 복제하여 변수 df_02에 대입 후 2개의 열 삭제

df_02 = df.copy()
df_02.drop(['나이','성별'],axis=1, inplace=True)
df_02

Unnamed: 0,성명,키,체중
이겨레,이겨레,185,89
조약돌,조약돌,163,53


# 데이터 파일 읽기

## 데이터 전처리란
## 레코드와 필드
## 데이터 읽기와 쓰기 함수
- 판다스에서 제공하는 함수 (PDF p.109) : csv, Ms Excel, JSON 가장 많이 사용

### Excel 파일로 저장하기

In [22]:
bio_data = {'성명' : ['이겨레', '조약돌'],
            '나이' : [25, 19], '성별' : ['남', '여'],
             '키' : [185, 163], '체중' : [89, 53]}

df = pd.DataFrame(bio_data)
df.set_index('성명', inplace=True)
df

Unnamed: 0_level_0,나이,성별,키,체중
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
이겨레,25,남,185,89
조약돌,19,여,163,53


In [23]:
# 데이터 프레임을 Excel 파일로 저장하기 (저장 파일명 : df_patient.xlsx)

df.to_excel('df_patient.xlsx')

In [24]:
# 데이터 프레임을 csv 파일로 저장하기 (저장 파일명 : df_patient.csv)

df.to_csv('df_patient.csv')

### Excel 파일로 저장하기

In [25]:
bio_data = {'성명' : ['이겨레', '조약돌'],
            '나이' : [25, 19], '성별' : ['남', '여'],
             '키' : [185, 163], '체중' : [89, 53]}

pulse_data = {'환자코드' : ['A00301', 'D00809'],
              '수축기' : [123, 118], '이완기' : [88, 79]}

In [26]:
# 성명 열을 인덱스로 지정

df_01 = pd.DataFrame(bio_data)
df_01.set_index('성명', inplace=True)
df_01

Unnamed: 0_level_0,나이,성별,키,체중
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
이겨레,25,남,185,89
조약돌,19,여,163,53


In [27]:
# 환자코드 열을 인덱스로 지정

df_02 = pd.DataFrame(pulse_data)
df_02.set_index('환자코드', inplace=True)
df_02

Unnamed: 0_level_0,수축기,이완기
환자코드,Unnamed: 1_level_1,Unnamed: 2_level_1
A00301,123,88
D00809,118,79


In [28]:
# 데이터 프레임 2개를 Excel 파일로 저장

d_save = pd.ExcelWriter('df_blood.xlsx')
df_01.to_excel(d_save, sheet_name='생체 데이터')  # 첫번째 Excel 시트에 저장
df_02.to_excel(d_save, sheet_name='혈압 데이터')  # 두번째 Excel 시트에 저장
d_save.save()

## 미니프로젝트

In [29]:
city_data = {'도시명' : ['서울', '런던'],
             '1/4분기' : [785, 543], '2/4분기' : [693, 608],
             '3/4분기' : [885, 724], '4/4분기' : [697, 815]}

df = pd.DataFrame(city_data)
df

Unnamed: 0,도시명,1/4분기,2/4분기,3/4분기,4/4분기
0,서울,785,693,885,697
1,런던,543,608,724,815


In [34]:
# 데이터 프레임을 df_cp0901.xlsx 파일로 저장하기

c_save = df.to_excel('df_cp0901.xlsx')

In [35]:
# 데이터 프레임을 df_cp0901.csv 파일로 저장하기

df.to_csv('df_cp0901.csv')

In [36]:
# 데이터 프레임을 df_cp0901.json 파일로 저장하기

df.to_json('df_cp0901.json')

## Excel 파일 읽어오기

In [37]:
# Excel 파일명 변수에 대입
data = 'health_data.xlsx'

# 데이터 프레임을 변환
df_01 = pd.read_excel(data)
df_02 = pd.read_excel(data, header=None)  # 인덱스를 열이름으로 자동할당

# 데이터 프레임 출력
print(df_01)
print('\n')
print(df_02)

    코드번호 성별    키  체중    BMI  수축기  이완기
0  33001  남  175  65  21.22  143  110
1  34037  여  165  52  19.10  119   78
2  35123  여  159  67  26.50  130   83


       0   1    2   3      4    5    6
0   코드번호  성별    키  체중    BMI  수축기  이완기
1  33001   남  175  65  21.22  143  110
2  34037   여  165  52   19.1  119   78
3  35123   여  159  67   26.5  130   83


In [38]:
# CSV 파일 읽어오기
data = 'health_data_02.csv'

# 데이터 프레임으로 변환 (환경에 따라 encoding 설정하기)
df = pd.read_csv(data)
df

Unnamed: 0,코드번호,성별,키,체중,BMI,수축기,이완기
0,33001,남,175,65,21.22,143,110
1,34037,여,165,52,19.1,119,78
2,35123,여,159,67,26.5,130,83


In [39]:
# Json 파일 읽어오기
data = 'df_patient.json'

df = pd.read_json(data)
df

Unnamed: 0,나이,성별,키,체중
이겨레,25,남,185,89
조약돌,19,여,163,53


## 행 인덱스 설정
- Set_index() 메소드

In [40]:
bio_data = {'성명' : ['이겨레', '조약돌'],
            '나이' : [25, 19], '성별' : ['남', '여'],
             '키' : [185, 163], '체중' : [89, 53]}

df = pd.DataFrame(bio_data)

In [41]:
# 서로 다른 데이터 프레임

df_01 = df.set_index('성명')
df_01

Unnamed: 0_level_0,나이,성별,키,체중
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
이겨레,25,남,185,89
조약돌,19,여,163,53


In [42]:
# 나이와 성별 - 2개 열을 행 인덱스로 설정

df_02 = df_01.set_index(['나이', '성별'])
df_02

Unnamed: 0_level_0,Unnamed: 1_level_0,키,체중
나이,성별,Unnamed: 2_level_1,Unnamed: 3_level_1
25,남,185,89
19,여,163,53


## 행 인덱스 재배열

In [43]:
# 딕셔너리 정의
dic_data = {'A': [10, 20, 30], 'B' : [40, 50, 60]}

# 딕셔너리를 데이터 프레임으로 변환하고 행 인덱스 3개 지정
df = pd.DataFrame(dic_data, index=['R0', 'R1', 'R2'])
df

Unnamed: 0,A,B
R0,10,40
R1,20,50
R2,30,60


In [44]:
# 행 인덱스를 5개로 재지정
new_index = ['R0', 'R1', 'R2', 'R3', 'R4']
df_01 = df.reindex(new_index)
df_01

Unnamed: 0,A,B
R0,10.0,40.0
R1,20.0,50.0
R2,30.0,60.0
R3,,
R4,,


In [45]:
# 행 인덱스 재배열로 발생한 NaN의 값을 0으로 채우기
# NaN -> Not a Number -> 유효한 값이 존재하지 않는 누락된 데이터

new_index = ['R0', 'R1', 'R2', 'R3', 'R4']
df_02 = df.reindex(new_index, fill_value=0)
df_02

Unnamed: 0,A,B
R0,10,40
R1,20,50
R2,30,60
R3,0,0
R4,0,0


## 행 인덱스 초기화

In [46]:
# 행 인덱스를 정수형 인덱스로 초기화

df_01 = df.reset_index()
df_01

Unnamed: 0,index,A,B
0,R0,10,40
1,R1,20,50
2,R2,30,60


In [47]:
# 행 인덱스를 기준으로 데이터 프레임을 내림차순으로 정렬

df_01 = df.sort_index(ascending=False)
df_01

Unnamed: 0,A,B
R2,30,60
R1,20,50
R0,10,40


In [48]:
data = 'member.csv'

df = pd.read_csv(data)

print(df.head(2))    #데이터 프레임의 앞부분 2행과 뒷부분 5행만 출력
print('\n')

print(df.tail())     #데이터 프레임의 뒷부분 5행만 출력

       코드   이름 성별  연령 혈액형    키  체중   BMI       운동시작일
0  330531  이겨레  남  26   A  181  76  23.2  2021-01-01
1  340037  조약돌  여  25   B  185  89  26.0  2020-12-25


       코드   이름 성별  연령 혈액형    키  체중    BMI       운동시작일
5  341257  송가인  여  45   O  157  48  19.47         NaN
6  472358  성공찬  여  53   B  159  50  19.78  1997-10-24
7  185823  황산성  남  52   B  178  87  27.46         NaN
8  232305  신영웅  남  19  AB  163  53  19.95  2021-05-08
9  489602  최고봉  남  64   A  168  57  20.20  1988-08-15


# 데이터 프레임의 크기

In [49]:
# shape 속성
# 데이터 프레임의 행과 열의 크기에 대한 정보

print('>> (행, 열)의 크기 : ', df.shape)   

>> (행, 열)의 크기 :  (10, 9)


### 특정 열에 대한 자료형 정보 확인

In [50]:
# 지정한 특정 열에 대한 자료형의 정보 출력

print('>> 데이터 프레임의 특정 열에 대한 자료형 정보 출력')
print('>> 1. 이름 열의 자료형 : ', df.이름.dtypes)
print('>> 2. 연령 열의 자료형 : ', df.연령.dtypes) 
print('>> 3. BMI 열의 자료형 : ', df.BMI.dtypes) 

>> 데이터 프레임의 특정 열에 대한 자료형 정보 출력
>> 1. 이름 열의 자료형 :  object
>> 2. 연령 열의 자료형 :  int64
>> 3. BMI 열의 자료형 :  float64


### 산술 데이터의 기술 통계 정보
- describe() 메소드    정말 많이 사용하는 메소드

In [51]:
# describe() 메소드 사용해보기

print('>> 산술 데이터에 대해서만 기술 통계 출력')
df.describe()

>> 산술 데이터에 대해서만 기술 통계 출력


Unnamed: 0,코드,연령,키,체중,BMI
count,10.0,10.0,10.0,10.0,10.0
mean,342056.5,39.0,172.7,67.3,22.163
std,117049.733168,15.202339,11.898179,17.807926,3.086555
min,185823.0,19.0,157.0,48.0,19.47
25%,256861.5,26.25,163.75,53.5,19.9525
50%,335290.0,38.0,172.5,60.0,20.155
75%,439582.75,51.0,180.25,84.25,24.925
max,503546.0,64.0,193.0,95.0,27.46


- describe() 메소드와 include='all' 옵션

In [52]:
df.describe(include='all')      # 산술 데이터가 아닌 열 포함 기술 통계 정보 출력

Unnamed: 0,코드,이름,성별,연령,혈액형,키,체중,BMI,운동시작일
count,10.0,10,10,10.0,10,10.0,10.0,10.0,6
unique,,10,2,,4,,,,6
top,,신영웅,남,,A,,,,1988-08-15
freq,,1,6,,3,,,,1
mean,342056.5,,,39.0,,172.7,67.3,22.163,
std,117049.733168,,,15.202339,,11.898179,17.807926,3.086555,
min,185823.0,,,19.0,,157.0,48.0,19.47,
25%,256861.5,,,26.25,,163.75,53.5,19.9525,
50%,335290.0,,,38.0,,172.5,60.0,20.155,
75%,439582.75,,,51.0,,180.25,84.25,24.925,


## 각 열의 데이터 개수 확인

In [56]:
# count() 메소드
# 데이터 프레임에 존재하는 각 열의 데이터 개수 출력
df.count()

코드       10
이름       10
성별       10
연령       10
혈액형      10
키        10
체중       10
BMI      10
운동시작일     6
dtype: int64

In [32]:
data = 'member.csv'
df = pd.read_csv(data)
# 혈액형 열의 고유값 개수 출력
result = df['혈액형'].value_counts()
result

A     3
B     3
AB    2
O     2
Name: 혈액형, dtype: int64

In [33]:
# 반환되는 객체의 타입 출력
type(result)

pandas.core.series.Series

### 미니 프로젝트
- 1) member.csv 파일을 불러와서 변수 target 에 저장하기
- 2) 불러온 CSV 파일을 데이터 프레임 프레임으로 변환하여 변수 df 에 저장하기
- 3) value_counts ( ) 메소드를 사용하여 ‘BMI’ 열에 대한 고유값 개수 출력하기
- 4) type( ) 메소드를 사용하여 반환되는 객체의 타입 정보 출력하기
- 5) 기타 사항은 실행 결과 화면 참조

In [62]:
# member.csv 파일을 불러와서 변수 target에 저장하기
# 불러온 CSV 파일을 데이터 프레임 프레임으로 변환하여 변수 df 에 저장하기
target = 'member.csv'
df = pd.read_csv(target)

# value_counts ( ) 메소드를 사용하여 ‘BMI’ 열에 대한 고유값 개수 출력하기
result = df['BMI'].value_counts()
result

23.20    1
19.47    1
19.95    1
27.46    1
26.00    1
20.11    1
25.50    1
20.20    1
19.96    1
19.78    1
Name: BMI, dtype: int64

In [61]:
# type() 메소드를 사용하여 반환되는 객체의 타입 정보 출력하기

type(result)

pandas.core.series.Series

# 평균값과 중간값 산출

In [63]:
# 데이터 프레임의 각 열에 대한 평균값 출력

df.mean()

코드     342056.500
연령         39.000
키         172.700
체중         67.300
BMI        22.163
dtype: float64

In [66]:
# 데이터 프레임에서 '열이름'에 대해서만 평균값 출력

print(df['BMI'].mean())

22.163


In [69]:
# 키와 체중 열에 대해서만 평균값 출력

df[['키', '체중']].mean()

키     172.7
체중     67.3
dtype: float64

- 중간값 산출하기

In [70]:
# 데이터 프레임의 각 열에 대한 중간값 출력

df.median()

코드     335290.000
연령         38.000
키         172.500
체중         60.000
BMI        20.155
dtype: float64

In [73]:
# 데이터 프레임에서 ' 열이름 '대해서만 중간값 출력

df['BMI'].median()

20.155

### 미니 프로젝트
- 1) member.csv 파일 불러와서 변수 choice 에 저장하기
- 2) 불러온 CSV 파일을 데이터 프레임으로 변환하여 변수 df 에 저장하기
- 3) mean( ) 메소드를 사용하여 '키' 열에 대한 평균값 산출하기
- 4) 산출한 '키' 열의 평균값을 변수 heigh 에 저장 후 출력하기
- 5) median( ) 메소드를 사용하여 '체중' 열에 대한 중간값 산출하기
- 6) 산출한 '체중' 열의 중간값을 변수 weight 에 저장 후 출력하기
- 7) 기타 사항은 실행 결과 화면 참조

In [84]:
# member.csv 파일 불러와서 변수 choice 에 저장하기
# 불러온 CSV 파일을 데이터 프레임으로 변환하여 변수 df 에 저장하기
choice = 'member.csv'
df = pd.read_csv(choice)

In [87]:
# mean() 메소드를 사용하여 '키' 열에 대한 평균값 산출하기
# 산출한 '키' 열의 평균값을 변수 heigh 에 저장 후 출력하기
height = df['키'].mean()
print('평균값 : ', height)

평균값 :  172.7


In [88]:
# median( ) 메소드를 사용하여 '체중' 열에 대한 중간값 산출하기
# 산출한 '체중' 열의 중간값을 변수 weight 에 저장 후 출력하기

median = df['체중'].median()
print('중간값 : ', median)

중간값 :  60.0


## 최대값과 최소값 산출

In [90]:
# 데이터 프레임의 모든 열에 대한 최대값 출력

df.max()

코드     503546
이름        황산성
성별          여
연령         64
혈액형         O
키         193
체중         95
BMI     27.46
dtype: object

In [93]:
# 연령 열에 대해서만 최대값 출력

df['연령'].max()

64

In [98]:
# 키와 체중 열에 대해서만 최대값 출력

df[['키', '체중']].max()

키     193
체중     95
dtype: int64

## 표준 편차와 상관 계수

In [99]:
# 표준 편차 산출하기
df.std()

코드     117049.733168
연령         15.202339
키          11.898179
체중         17.807926
BMI         3.086555
dtype: float64

In [100]:
#'연령'열에 대해서만 표준 편차 출력

df['연령'].std()

15.20233900132184

In [101]:
# 키와 체중 열에 대해서만 표준 편차 출력

df[['키', '체중']].std()

키     11.898179
체중    17.807926
dtype: float64

In [102]:
# 상관 계수 산출하기

df.corr()

Unnamed: 0,코드,연령,키,체중,BMI
코드,1.0,0.572318,-0.343057,-0.37751,-0.397892
연령,0.572318,1.0,-0.426925,-0.316438,-0.176555
키,-0.343057,-0.426925,1.0,0.942296,0.796228
체중,-0.37751,-0.316438,0.942296,1.0,0.95022
BMI,-0.397892,-0.176555,0.796228,0.95022,1.0


In [103]:
# 연령과 BMI 열에 대한 상관 계수 출력

df[['연령', 'BMI']].corr()

Unnamed: 0,연령,BMI
연령,1.0,-0.176555
BMI,-0.176555,1.0


In [104]:
# 키와 체중 열에 대한 상관 계수 출력

df[['키', '체중']].corr()

Unnamed: 0,키,체중
키,1.0,0.942296
체중,0.942296,1.0


## 미니 프로젝트
- 1) member.csv 파일을 불러와서 변수 select 에 저장하기
- 2) 불러온 CSV 파일을 데이터 프레임 프레임으로 변환하여 변수 df 에 저장하기
- 3) std() 메소드를 사용하여 'BMI' 열에 대한 표준 편차 산출하기
- 4) 산출한 ‘BMI’ 열의 표준 편차를 변수 result_01 에 저장 후 출력하기
- 5) corr() 메소드를 사용하여 '연령'과 '체중' 열에 대한 상관 계수 산출하기
- 6) 산출한 '연령'과 '체중' 열의 상관 계쑤를 변수 result_02 에 저장 후 출력하기
- 7) 기타 사항은 실행 결과 화면 참조

In [105]:
# member.csv 파일을 불러와서 변수 target에 저장하기
# 불러온 CSV 파일을 데이터 프레임 프레임으로 변환하여 변수 df 에 저장하기
select = 'member.csv'
df = pd.read_csv(select)
df

Unnamed: 0,코드,이름,성별,연령,혈액형,키,체중,BMI,운동시작일
0,330531,이겨레,남,26,A,181,76,23.2,2021-01-01
1,340037,조약돌,여,25,B,185,89,26.0,2020-12-25
2,194563,강산애,남,27,A,177,63,20.11,
3,503546,원미연,여,48,O,166,55,19.96,2021-03-05
4,330543,오대양,남,31,AB,193,95,25.5,
5,341257,송가인,여,45,O,157,48,19.47,
6,472358,성공찬,여,53,B,159,50,19.78,1997-10-24
7,185823,황산성,남,52,B,178,87,27.46,
8,232305,신영웅,남,19,AB,163,53,19.95,2021-05-08
9,489602,최고봉,남,64,A,168,57,20.2,1988-08-15


In [107]:
# std() 메소드를 사용하여 'BMI' 열에 대한 표준 편차 산출하기
# 산출한 ‘BMI’ 열의 표준 편차를 변수 result_01 에 저장 후 출력하기

result_01 = df[['BMI']].std()
result_01

BMI    3.086555
dtype: float64

In [109]:
# corr() 메소드를 사용하여 '연령'과 '체중' 열에 대한 상관 계수 산출하기
# 산출한 '연령'과 '체중' 열의 상관 계쑤를 변수 result_02 에 저장 후 출력하기

result_02 = df[['연령', '체중']].corr()
result_02

Unnamed: 0,연령,체중
연령,1.0,-0.316438
체중,-0.316438,1.0
