- 암묵적 인덱스(위치 인덱스) : iloc, 맨 뒤 값을 포함
- 명시적 인덱스 : loc, 맨 뒤 값을 포함x
- 데이터 프레임의 컬럼 선택 : df[col_name] of df[col_name_list]

### 인덱서를 사용해야 하는 이유
- DataFrame의 값을 바꾸는 경우
 - df['A']는 view를 반환, df.loc['A']는 copy를 반환
 - view를 반환하면 원본 자체의 변경이 일어날 수 있음
 - copy를 반환하면 원본에는 변경이 없음
- view를 반환하지 않도록 인덱서를 사용해야 의도대로 변경 가능

### 마스킹 검색
- df.loc[부울 리스트] : True인 요소의 위치에 대응되는 행만 가져옴

In [8]:
import pandas as pd
df = pd.read_csv('./데이터/온라인_판매기록.csv', encoding='euc-kr')
df.head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
1,쿠팡,제품_57,8,439200,쿠팡
2,쿠팡,제품_25,4,495200,쿠팡
3,쿠팡,제품_18,4,578000,쿠팡
4,쿠팡,제품_90,2,75000,쿠팡


In [10]:
df['제품'] == '제품_16'

0        True
1       False
2       False
3       False
4       False
        ...  
5810    False
5811    False
5812    False
5813    False
5814    False
Name: 제품, Length: 5815, dtype: bool

In [9]:
df.loc[df['제품'] == '제품_16'].head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
35,쿠팡,제품_16,7,992600,쿠팡
479,스누피동물병원,제품_16,9,1276200,동물병원
705,딩동이네,제품_16,8,1134400,유통대리점
708,딩동이네,제품_16,5,709000,유통대리점


In [11]:
df['쇼핑몰 유형'].unique()

array(['쿠팡', '온라인II', '온라인사이트', '동물병원', '할인점II', '유통대리점', '전시회', '할인점'],
      dtype=object)

In [12]:
df.loc[df['쇼핑몰 유형'].isin(['온라인||', '온라인사이트'])]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
108,주식회사 펫츠비,제품_39,1,10400,온라인사이트
109,주식회사 펫츠비,제품_06,7,631400,온라인사이트
110,주식회사 펫츠비,제품_30,4,516400,온라인사이트
111,주식회사 펫츠비,제품_56,10,318000,온라인사이트
112,주식회사 펫츠비,제품_90,8,300000,온라인사이트
...,...,...,...,...,...
5604,강아지대통령,제품_88,5,569500,온라인사이트
5605,강아지대통령,제품_01,10,732000,온라인사이트
5606,강아지대통령,제품_76,5,762500,온라인사이트
5607,강아지대통령,제품_68,6,171000,온라인사이트


In [13]:
df.loc[(df['수량']>=5) & (df['쇼핑몰 유형'] == '전시회')]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
918,KPET,제품_71,5,143500,전시회
919,KPET,제품_26,6,478200,전시회
920,KPET,제품_49,8,358400,전시회
921,KPET,제품_33,7,1073100,전시회
923,KPET,제품_45,6,88200,전시회
...,...,...,...,...,...
1345,Kopet,제품_92,7,453600,전시회
1346,Kopet,제품_51,10,277000,전시회
1347,Kopet,제품_91,7,192500,전시회
1348,Kopet,제품_13,8,468800,전시회


### 문자열 검색
- Series.str : 문자열로 구성된 Series에 대해서는 string관련 내장 함수를 자유 자재로 사용할 수 있음
- Series.str.strip() : 앞 뒤 공백 제거
- Series.str.contains(s) : 문자열 s를 포함하고 있는지 여부 반환
- Series.str.split(sep, expand) : sep을 기준으로 Series를 분할
 - expand = True : 새로운 열 생성
 - expand = False : 새로운 열을 생성하지 않고 리스트 반환
- Series.astype : Series의 자료형을 변환

In [14]:
import pandas as pd
df = pd.read_excel('./데이터/불량 기록 데이터.xlsx')
df.head()

Unnamed: 0,시리얼번호,불량 여부
0,S-A-001,양품
1,S-A-002,양품
2,S-A-003,양품
3,S-A-004,양품
4,S-A-005,양품


In [15]:
df['불량 여부'].value_counts()

양품    715
불량     41
Name: 불량 여부, dtype: int64

In [16]:
# 공정이 S인 제품의 개수
df['시리얼번호'].str.contains('S').sum()

325

In [17]:
df['시리얼번호'].str.split('-', expand=True).head() # 하이픈 기준 분할

Unnamed: 0,0,1,2
0,S,A,1
1,S,A,2
2,S,A,3
3,S,A,4
4,S,A,5


In [18]:
# 분할한 데이터 붙이기
merge_df = pd.concat([df, df['시리얼번호'].str.split('-', expand=True)],axis = 1)
merge_df.head()

Unnamed: 0,시리얼번호,불량 여부,0,1,2
0,S-A-001,양품,S,A,1
1,S-A-002,양품,S,A,2
2,S-A-003,양품,S,A,3
3,S-A-004,양품,S,A,4
4,S-A-005,양품,S,A,5


In [20]:
# 컬럼명 변경
merge_df.rename({0:'공정', 1:'제품', 2:'식별자'}, axis = 1, inplace = True)
merge_df.head()

Unnamed: 0,시리얼번호,불량 여부,공정,제품,식별자
0,S-A-001,양품,S,A,1
1,S-A-002,양품,S,A,2
2,S-A-003,양품,S,A,3
3,S-A-004,양품,S,A,4
4,S-A-005,양품,S,A,5


In [23]:
pd.pivot_table(merge_df, values='불량 여부', index='공정', columns='제품', aggfunc = 'count')

제품,A,B
공정,Unnamed: 1_level_1,Unnamed: 2_level_1
S,135,190
T,190,241
