# Ch5 - 2. 인덱서를 활용한 인덱싱(복습)

자주 사용되는 만큼 기억해야 하는 내용!  

판다스의 객체는 암묵적인 인덱스(위치 인덱스)와 명시적인 인덱스라는 두 종류의 인덱스가 있어, 명시적인 인덱스를 참조하는 loc인덱서와 암묵적인 인덱스를 참조하는 iloc 인덱서가 존재한다.  

>암묵적 인덱스(iloc) : 0부터 시작하는 정수로서의 인덱스, 자동적으로 부여됨. 슬라이싱에서는 맨 뒤 값을 포함하지 않음.  
명시적 인덱스(loc) : 직접 정의해놓은 인덱스 역할의 컬럼, **슬라이싱에서는 맨 뒤 값을 포함**. 따로 지정해주지 않으면 명시적 인덱스 = 암묵적 인덱스인 경우가 많음.   

데이터프레임의 컬럼 선택 : `df[col_name] or df[col_name_list]`  

## 인덱서로 값 변경하기 
인덱서를 사용하여 조회한 값을 직접 변경할 수 있다.  
시리즈나 데이터프레임안의 값을 바꿀 때에는 반드시 인덱서를 사용해야 한다. 사용하지 않을 수도 있지만, 오류를 만들 가능성이 크기 때문에 반드시 인덱서를 사용하는 것이 좋다.  

`df.iloc[2,1] = 10` , `df.loc['c', 'Col2'] = 10` 식으로 변경. 

## 인덱서를 사용해야 하는 이유

DataFrame의 값을 바꾸는 경우 가장 흔이 보는 경고로 SettingWithCopyWarning이 있다.  

`df['A']`는 view를 반환하고 `df.loc['A']`는 copy를 반환한다.  
view를 반환한 결과를 바꾸는 경우에는 원본 자체도 변경이 일어날 수 있음 - 이후에 치명적 오류가 생길 가능성이 있음  
copy를 반환한 결과를 바꾸더라도 원본에는 변경이 없음  

따라서 view를 반환하지 않도록 가능하면 인덱서를 사용해야만, 사용자의 의도대로 데이터프레임을 변경할 수 있다.  


# Ch5 - 3. 마스킹 검색

ndarray 하면서 했던 내용이기도 하다.  

Series와 DataFrame의 데이터가 모두 ndarray이기 때문에, 비교연산(`isin([])` 함수 포함) 및 브로드캐스팅이 적용될 수 있다.  
조건에 따라 만족하면 True, 만족하지 않으면 False를 가지게 된다.  

값을 변경할 때에는 loc, iloc를 사용하라고 했지만 여기는 아닌 이유는, 이것으로 값이 변경되는 일은 없기 때문이다. 단순히 이 값을 비교할 뿐이기 때문이다. 값 비교에 loc를 써도 되지만 하지 않아도 된다.  

## bool list 연산

ndarray 타입의 불 리스트에 대해 AND(`&`)연산과 OR(`|`) 연산이 가능하다.  

인덱스를 사용하게 되면 다른 데이터프레임에서는 적용되지 않을 것이다. 그럴 때에는 비교가 정의되지 않을 수 있기 때문에, `.values` 를 사용하여 시리즈를 ndarray로 바꾸어서 작업을 해야 한다.  

## 마스킹 검색
`df.loc[bool_list]` : True인 요소의 위치에 대응되는 행만 가져온다.  
bool_list는 위에서 사용한 것처럼 `df['A'] == 'X'` 와 같은 것. 
인덱스가 0부터 정확하게 정의되어 있다면 iloc를 사용해도 상관 없지만, 그렇지 않은 경우도 있기 때문에 범용적으로는 iloc를 사용하는 것보다, 어느 상황에서도 사용할 수 있는 loc를 사용하는 것이 더 안전할 수 있다.  



## 경로 설정

In [1]:
import os
import pandas as pd

os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터")

In [2]:
df = pd.read_csv("온라인_판매기록.csv", encoding = "cp949")

In [3]:
df.head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
1,쿠팡,제품_57,8,439200,쿠팡
2,쿠팡,제품_25,4,495200,쿠팡
3,쿠팡,제품_18,4,578000,쿠팡
4,쿠팡,제품_90,2,75000,쿠팡


## masking search

In [4]:
# 특정 조건에 맞는 불 리스트

df['제품'] == '제품_16'

0        True
1       False
2       False
3       False
4       False
        ...  
5810    False
5811    False
5812    False
5813    False
5814    False
Name: 제품, Length: 5815, dtype: bool

In [5]:
# 특정 조건인 불 리스트를 df의 loc 인덱스로 쓰면 True인 행들만 가져오게 된다 

df.loc[df['제품'] == '제품_16'].head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
35,쿠팡,제품_16,7,992600,쿠팡
479,스누피동물병원,제품_16,9,1276200,동물병원
705,딩동이네,제품_16,8,1134400,유통대리점
708,딩동이네,제품_16,5,709000,유통대리점


In [6]:
df['쇼핑몰 유형'].unique()

array(['쿠팡', '온라인II', '온라인사이트', '동물병원', '할인점II', '유통대리점', '전시회', '할인점'],
      dtype=object)

In [7]:
# isin 함수로 bool 리스트를 넣어서 검색

df.loc[df['쇼핑몰 유형'].isin(['온라인II', '온라인사이트'])]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
95,위메프,제품_63,3,400800,온라인II
96,위메프,제품_85,7,586600,온라인II
97,위메프,제품_95,3,291900,온라인II
98,위메프,제품_87,5,654000,온라인II
99,위메프,제품_31,10,684000,온라인II
...,...,...,...,...,...
5608,강아지대통령,제품_86,8,1110400,온라인사이트
5654,엔빵,제품_31,9,615600,온라인II
5655,엔빵,제품_96,5,393000,온라인II
5656,엔빵,제품_03,1,39100,온라인II


In [8]:
# 복수의 조건을 사용할 때 - 소괄호 항상 사용하기
df.loc[(df['수량'] >= 5) & (df['쇼핑몰 유형'] == '전시회')]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
918,KPET,제품_71,5,143500,전시회
919,KPET,제품_26,6,478200,전시회
920,KPET,제품_49,8,358400,전시회
921,KPET,제품_33,7,1073100,전시회
923,KPET,제품_45,6,88200,전시회
...,...,...,...,...,...
1345,Kopet,제품_92,7,453600,전시회
1346,Kopet,제품_51,10,277000,전시회
1347,Kopet,제품_91,7,192500,전시회
1348,Kopet,제품_13,8,468800,전시회


In [9]:
df[(df['수량'] >= 5) & (df['쇼핑몰 유형'] == '전시회')]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
918,KPET,제품_71,5,143500,전시회
919,KPET,제품_26,6,478200,전시회
920,KPET,제품_49,8,358400,전시회
921,KPET,제품_33,7,1073100,전시회
923,KPET,제품_45,6,88200,전시회
...,...,...,...,...,...
1345,Kopet,제품_92,7,453600,전시회
1346,Kopet,제품_51,10,277000,전시회
1347,Kopet,제품_91,7,192500,전시회
1348,Kopet,제품_13,8,468800,전시회
