In [1]:
import pandas as pd
import numpy as np
import random
import seaborn as sns

In [2]:
# 샘플 데이터프레임 생성_1
dict1 = {'이름' : ['Mercury','Venus','Mars','Jupiter','Saturn','Uranus','Neptune']}
dict1['국어'] = random.sample(range(50,100), 7)
dict1['수학'] = random.sample(range(30,100), 7)
dict1['영어'] = random.sample(range(40,100), 7)
dict1['분단'] = [1, 2, 1, 1, 2, 1, 2]
index_list = list(range(10, 24, 2))

df1 = pd.DataFrame(dict1, index=index_list)  # index 파라미터로 인덱스 지정 가능
df1

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
12,Venus,75,82,63,2
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


### 인덱스 지정, 조회, 초기화

In [3]:
# set_index() : 특정 컬럼을 인덱스로 지정
df1.set_index('분단',  # 인덱스로 지정할 컬럼
              drop = True,  # 인덱스로 지정할 컬럼 삭제 여부, *True | False
              append = False,  # 기존 인덱스에 해당 인덱스 추가/대체, True | *False
              inplace = True  # 원본 데이터에 덮어씌울지 여부, True | *False
             )
df1
# 참고 : 인덱스가 반드시 unique할 필요는 없음

Unnamed: 0_level_0,이름,국어,수학,영어
분단,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Mercury,66,30,85
2,Venus,75,82,63
1,Mars,77,38,81
1,Jupiter,88,40,91
2,Saturn,81,50,76
1,Uranus,68,72,66
2,Neptune,96,33,46


In [4]:
# 인덱스로 조회
display(df1.loc[1])
display(df1.loc[1, ['이름','국어']])

Unnamed: 0_level_0,이름,국어,수학,영어
분단,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Mercury,66,30,85
1,Mars,77,38,81
1,Jupiter,88,40,91
1,Uranus,68,72,66


Unnamed: 0_level_0,이름,국어
분단,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Mercury,66
1,Mars,77
1,Jupiter,88
1,Uranus,68


In [5]:
df1

Unnamed: 0_level_0,이름,국어,수학,영어
분단,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Mercury,66,30,85
2,Venus,75,82,63
1,Mars,77,38,81
1,Jupiter,88,40,91
2,Saturn,81,50,76
1,Uranus,68,72,66
2,Neptune,96,33,46


In [6]:
# reset_index() : 인덱스 초기화 
df1.reset_index(drop = False,  # 데이터프레임에 남기지 않고 삭제할지 여부, True | *False
                inplace = True  # 원본 데이터에 덮어씌울지 여부, True | *False
             )
df1

Unnamed: 0,분단,이름,국어,수학,영어
0,1,Mercury,66,30,85
1,2,Venus,75,82,63
2,1,Mars,77,38,81
3,1,Jupiter,88,40,91
4,2,Saturn,81,50,76
5,1,Uranus,68,72,66
6,2,Neptune,96,33,46


In [7]:
# Tip : 인덱스로 지정한 컬럼이 앞으로 오는 것을 활용한 컬럼 순서 변경 (단, 초기 인덱스 사라지므로 유의)
df1 = df1.set_index(['국어','수학','영어']).reset_index()
df1

Unnamed: 0,국어,수학,영어,분단,이름
0,66,30,85,1,Mercury
1,75,82,63,2,Venus
2,77,38,81,1,Mars
3,88,40,91,1,Jupiter
4,81,50,76,2,Saturn
5,68,72,66,1,Uranus
6,96,33,46,2,Neptune


In [8]:
# 멀티 인덱스로 묶어서 보기
df1.set_index(['분단','이름']).sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,수학,영어
분단,이름,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Jupiter,88,40,91
1,Mars,77,38,81
1,Mercury,66,30,85
1,Uranus,68,72,66
2,Neptune,96,33,46
2,Saturn,81,50,76
2,Venus,75,82,63


### 슬라이싱 활용하기

In [9]:
# 샘플 데이터프레임 재호출
df2 = pd.DataFrame(dict1, index=index_list)
df2

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
12,Venus,75,82,63,2
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [10]:
# 인덱스와는 무관하게, 행 순번으로 slicing
df2[1:3]

Unnamed: 0,이름,국어,수학,영어,분단
12,Venus,75,82,63,2
14,Mars,77,38,81,1


In [11]:
# 4번째 줄부터, 끝까지, 2간격마다
df2[4::2]

Unnamed: 0,이름,국어,수학,영어,분단
18,Saturn,81,50,76,2
22,Neptune,96,33,46,2


In [12]:
# 역순 조회
df2[::-1]

Unnamed: 0,이름,국어,수학,영어,분단
22,Neptune,96,33,46,2
20,Uranus,68,72,66,1
18,Saturn,81,50,76,2
16,Jupiter,88,40,91,1
14,Mars,77,38,81,1
12,Venus,75,82,63,2
10,Mercury,66,30,85,1


In [13]:
# 뒤에서부터 n행 조회
df2[-3:]

Unnamed: 0,이름,국어,수학,영어,분단
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [14]:
# iloc는 위의 슬라이싱과 유사
df2.iloc[1:3]

Unnamed: 0,이름,국어,수학,영어,분단
12,Venus,75,82,63,2
14,Mars,77,38,81,1


### loc 활용하기 : 조건 충족하는 행 반환

In [15]:
# 샘플 데이터프레임 재호출
df3 = pd.DataFrame(dict1, index=index_list)
df3

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
12,Venus,75,82,63,2
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [16]:
# 특정 조건 충족하는 행 반환
df3.loc[df3.분단 == 1, :]

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
20,Uranus,68,72,66,1


In [17]:
# 보다 간단히 표현하기
df3[df3.분단 == 1]

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
20,Uranus,68,72,66,1


In [18]:
# and 조건 충족하는 행 반환
print("국어 평균점수 : " + format(df3.국어.mean(), '0.2f'))
df3[(df3.분단 == 1) & (df3.국어>= df3.국어.mean())]

국어 평균점수 : 78.71


Unnamed: 0,이름,국어,수학,영어,분단
16,Jupiter,88,40,91,1


In [19]:
# or 조건 충족하는 행 반환
df3[(df3.분단 == 1) | (df3.국어>= df3.국어.mean())]

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [20]:
# 대칭차집합. 쓸일은 없을듯
df3[(df3.분단 == 1) ^ (df3.국어>= df3.국어.mean())]

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
14,Mars,77,38,81,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [21]:
# isin() : 특정값 포함
df3[df3.이름.isin(['Mercury','Jupyter','Uranus'])]  # 일부러 틀리게 적었음. 정확한 값만 찾아짐

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
20,Uranus,68,72,66,1


In [22]:
# str.contains() : 항목 내 특정문자 포함
df3[df3.이름.str.contains('s')]

Unnamed: 0,이름,국어,수학,영어,분단
12,Venus,75,82,63,2
14,Mars,77,38,81,1
20,Uranus,68,72,66,1


In [23]:
# str.startswith() : 항목 내 특정문자로 시작
df3[df3.이름.str.startswith('S')]

Unnamed: 0,이름,국어,수학,영어,분단
18,Saturn,81,50,76,2


In [24]:
# str.endswith() : 항목 내 특정문자로 종료
df3[df3.이름.str.endswith('r')]

Unnamed: 0,이름,국어,수학,영어,분단
16,Jupiter,88,40,91,1


In [25]:
# str.contains() : 항목 내 특정문자 포함, 메타 문자도 사용 가능
df3[df3.이름.str.contains(r'[A-M]')]

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1


In [26]:
# 반면, startswith에서는 정규식 작동 안하는듯
df3[df3.이름.str.startswith(r'[A-M]')]

Unnamed: 0,이름,국어,수학,영어,분단


In [27]:
df3

Unnamed: 0,이름,국어,수학,영어,분단
10,Mercury,66,30,85,1
12,Venus,75,82,63,2
14,Mars,77,38,81,1
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
20,Uranus,68,72,66,1
22,Neptune,96,33,46,2


In [28]:
# argmax() : 해당 컬럼이 최대값인 행의 위치값, index가 아니므로 loc가 아닌 iloc로 참조해야 함
print(df3.국어.argmax())
df3.iloc[df3.국어.argmax()]

6


이름    Neptune
국어         96
수학         33
영어         46
분단          2
Name: 22, dtype: object

In [29]:
# nlargest(n, col) : col 기준 상위 n위까지 반환
df3.nlargest(3, '국어')

Unnamed: 0,이름,국어,수학,영어,분단
22,Neptune,96,33,46,2
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2


In [30]:
# nsmallest(n, col) : col 기준 하위 n위까지 반환
df3.nsmallest(2, '영어')

Unnamed: 0,이름,국어,수학,영어,분단
22,Neptune,96,33,46,2
12,Venus,75,82,63,2


In [31]:
# select_dtypes() : 해당 데이터타입인 컬럼만 추출
df3.select_dtypes(include=['bool','int64'])

Unnamed: 0,국어,수학,영어,분단
10,66,30,85,1
12,75,82,63,2
14,77,38,81,1
16,88,40,91,1
18,81,50,76,2
20,68,72,66,1
22,96,33,46,2


In [32]:
# 전체 컬럼에 대해 일괄 집계 시, 문자열 등 의도치 않은 결과가 나오므로,,,
display(df3.sum())

# 이와 같이 숫자 컬럼만 지정한 후 집계 가능
display(df1.select_dtypes(include=['int', 'float']).sum())    # sum() 합계 | mean() 평균 | count() 개수 | val() 분산 | std() 표준편차 | max() 최대값 | min() 최소값

이름    MercuryVenusMarsJupiterSaturnUranusNeptune
국어                                           551
수학                                           345
영어                                           508
분단                                            10
dtype: object

국어    551
수학    345
영어    508
분단     10
dtype: int64

In [33]:
# 데이터프레임에서 특정 값 추출하기
print(type(df3.loc[df3.이름=='Mercury', '영어']))  # 시리즈로 나오기 때문에,

print(type(df3.loc[df3.이름=='Mercury', '영어'].item()))  # item() 붙여서 value로 추출함
df3.loc[df3.이름=='Mercury', '영어'].item()

<class 'pandas.core.series.Series'>
<class 'int'>


85

In [34]:
# query() : 쿼리로 인덱싱
df3.query('국어 > 80 and 수학 < 80')

Unnamed: 0,이름,국어,수학,영어,분단
16,Jupiter,88,40,91,1
18,Saturn,81,50,76,2
22,Neptune,96,33,46,2


### 수치형 변수와 범주형 변수 구분하기

In [35]:
# 샘플 데이터프레임 생성
df4 = sns.load_dataset('titanic')

In [36]:
# _get_numeric_data() 활용
all_columns = df4.columns.tolist()
num_columns = df4._get_numeric_data().columns.tolist()  # 숫자 및 bool 형식
cat_columns = list(set(all_columns) - set(num_columns))

print(f'타이타닉 데이터 셋의 모든 컬럼은 아래와 같습니다. \n{all_columns}\n')
print(f'타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. \n{num_columns}\n')
print(f'타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. \n{cat_columns}\n')


타이타닉 데이터 셋의 모든 컬럼은 아래와 같습니다. 
['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']

타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. 
['survived', 'pclass', 'age', 'sibsp', 'parch', 'fare', 'adult_male', 'alone']

타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. 
['alive', 'embark_town', 'deck', 'class', 'who', 'sex', 'embarked']



In [37]:
# select_dtypes() 활용
num_columns = df4.select_dtypes(include=np.number).columns.tolist()  # 숫자 형식
cat_columns = df4.select_dtypes(exclude=np.number).columns.tolist()

print(f'타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. \n{num_columns}\n')
print(f'타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. \n{cat_columns}\n')

타이타닉 데이터 셋의 수치형 컬럼은 아래와 같습니다. 
['survived', 'pclass', 'age', 'sibsp', 'parch', 'fare']

타이타닉 데이터 셋의 범주형 컬럼은 아래와 같습니다. 
['sex', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']

