# 1. 리스트 & 튜플 정렬

## 1) sort

- 리스트 및 튜플 자체를 정렬
- return 값이 없음 / inplace = True로 설정한 것과 같음

In [1]:
a_list = [1, 4, 3, 5, 2, 5]
a_list.sort()     # return 값이 없고 리스트 자체가 수정됨

In [2]:
a_list

[1, 2, 3, 4, 5, 5]

In [3]:
a_list = [1, 4, 3, 5, 2, 5]
a_list.sort(reverse = True)     # 내림차순 정렬
a_list

[5, 5, 4, 3, 2, 1]

## 2) sorted

- 정렬된 리스트 및 튜플을 반환
- key: 정렬 기준 함수(주로 lambda 함수를 사용)

In [4]:
t = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(t, key = lambda x: x[1])     # x에서 1번째 요소를 기준으로 정렬

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [5]:
l = [1, 4, 3, 5, 2, 5]
sorted(l, key = lambda x: abs(x - 3))    # (x - 3)의 절대값을 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [6]:
l = ['we', 'use', 'python', 'for', 'data preprocessing']
sorted(l, key = lambda x: len(x), reverse = True)     # 길이를 기준으로 내림차순 정렬

['data preprocessing', 'python', 'use', 'for', 'we']

# 2. series 정렬

- sort_values 사용

In [7]:
import pandas as pd
import numpy as np

s = pd.Series(np.random.randint(1, 10, 100))     # 1과 10 사이의 숫자 100개 랜덤 생성
s.iloc[0:3] = np.nan     # 0부터 3까지를 결측으로 변경
s

0     NaN
1     NaN
2     NaN
3     3.0
4     1.0
     ... 
95    8.0
96    4.0
97    1.0
98    5.0
99    8.0
Length: 100, dtype: float64

In [8]:
s.sort_values()

76    1.0
4     1.0
5     1.0
6     1.0
97    1.0
     ... 
45    9.0
74    9.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

- ascending = True: 디폴트. 오름차순 정렬
- key = None: 디폴트. 정렬 기준 함수(주로 lambda 함수와 사용)
- na_position = last: 디폴트. 결측이 있는 경우 가장 마지막에 배치

In [9]:
s.sort_values(ascending = False)

74    9.0
46    9.0
45    9.0
67    9.0
64    9.0
     ... 
50    1.0
28    1.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

In [10]:
s.sort_values(ascending = False, na_position = 'first')

0     NaN
1     NaN
2     NaN
74    9.0
46    9.0
     ... 
4     1.0
39    1.0
76    1.0
50    1.0
28    1.0
Length: 100, dtype: float64

# 3. series 요약

## 1) value_counts

- series의 구성 요소의 빈도를 순서대로 출력

In [11]:
s.value_counts()

4.0    16
6.0    13
5.0    13
1.0    12
8.0    12
9.0     9
7.0     8
3.0     7
2.0     7
dtype: int64

In [13]:
s.value_counts(ascending = True)     # ascending = True: 오름차순 정렬

3.0     7
2.0     7
7.0     8
9.0     9
1.0    12
8.0    12
6.0    13
5.0    13
4.0    16
dtype: int64

In [14]:
s.value_counts(normalize = True)     # 빈도 대신 비율 출력

4.0    0.164948
6.0    0.134021
5.0    0.134021
1.0    0.123711
8.0    0.123711
9.0    0.092784
7.0    0.082474
3.0    0.072165
2.0    0.072165
dtype: float64

In [15]:
s.value_counts(normalize = True, ascending = True)

3.0    0.072165
2.0    0.072165
7.0    0.082474
9.0    0.092784
1.0    0.123711
8.0    0.123711
6.0    0.134021
5.0    0.134021
4.0    0.164948
dtype: float64

## 2) unique

- series에 포함된 유니크한 값 출력
- 출력 결과의 데이터 타입: ndarray
- 범주형 변수와 연속형 변수를 판단하는데 사용 가능

In [16]:
s.unique()

array([nan,  3.,  1.,  2.,  6.,  5.,  4.,  9.,  8.,  7.])

In [17]:
len(s.unique())

10

# 4. dataframe 정렬

- sort_values 사용
- by: 정렬 기준 칼럼
- ascending: 오름차순 정렬 여부
- key: 정렬 기준 함수(주로 lambda 사용)
- na_position: 결측이 있는 경우 어디에 배치할 것인지 결정(first, last)

In [18]:
df = pd.DataFrame({'a' : [1, 2, 3, 1, 2, 3], 'b' : [3, 2, 1, 3, 2, 1], 'c' : [1, 2, 3, 4, 3, 2]})
df

Unnamed: 0,a,b,c
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [19]:
df.sort_values(by = 'a', ascending = True)     # a를 기준으로 오름차순 정렬

Unnamed: 0,a,b,c
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [20]:
df.sort_values(by = ['c', 'b'], ascending = False)     # c와 b를 기준으로 내림차순 정렬

Unnamed: 0,a,b,c
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


# 5. dataframe 중복 제거

- drop_duplicates 사용(중복이 있는 행 제거)
- subset: 중복 기준을 판단하는 칼럼
- keep: 중복이 있는 행 중 어떤 부분을 남길 것인지 결정(first, last, false)
    - first: 첫 번째 행을 남김
    - last: 마지막 행을 남김
    - false: 중복 행을 모두 제거

In [22]:
df.drop_duplicates(subset = ['a'])     # a 기준 중복 제거, 첫 행 남김(keep = first가 디폴트)

Unnamed: 0,a,b,c
0,1,3,1
1,2,2,2
2,3,1,3


In [24]:
df.drop_duplicates(subset = ['a'], keep = 'last')     # a 기준 중복 제거, 마지막 행 남김

Unnamed: 0,a,b,c
3,1,3,4
4,2,2,3
5,3,1,2


# 6. 마스킹 검색

- df.loc[bool 조건]: True인 요소의 위치에 대응되는 행만 가져옴

In [26]:
df = pd.read_csv('데이터/온라인_판매기록.csv', encoding = 'cp949')
df.head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
1,쿠팡,제품_57,8,439200,쿠팡
2,쿠팡,제품_25,4,495200,쿠팡
3,쿠팡,제품_18,4,578000,쿠팡
4,쿠팡,제품_90,2,75000,쿠팡


In [27]:
df['제품'] == '제품_16'

0        True
1       False
2       False
3       False
4       False
        ...  
5810    False
5811    False
5812    False
5813    False
5814    False
Name: 제품, Length: 5815, dtype: bool

In [29]:
df.loc[df['제품'] == '제품_16'].head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
35,쿠팡,제품_16,7,992600,쿠팡
479,스누피동물병원,제품_16,9,1276200,동물병원
705,딩동이네,제품_16,8,1134400,유통대리점
708,딩동이네,제품_16,5,709000,유통대리점


In [30]:
df['쇼핑몰 유형'].unique()

array(['쿠팡', '온라인II', '온라인사이트', '동물병원', '할인점II', '유통대리점', '전시회', '할인점'],
      dtype=object)

In [31]:
df.loc[df['쇼핑몰 유형'].isin(['온라인II', '온라인사이트'])]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
95,위메프,제품_63,3,400800,온라인II
96,위메프,제품_85,7,586600,온라인II
97,위메프,제품_95,3,291900,온라인II
98,위메프,제품_87,5,654000,온라인II
99,위메프,제품_31,10,684000,온라인II
...,...,...,...,...,...
5608,강아지대통령,제품_86,8,1110400,온라인사이트
5654,엔빵,제품_31,9,615600,온라인II
5655,엔빵,제품_96,5,393000,온라인II
5656,엔빵,제품_03,1,39100,온라인II


In [32]:
df.loc[(df['수량'] >= 5) & (df['쇼핑몰 유형'] == '전시회')]

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
918,KPET,제품_71,5,143500,전시회
919,KPET,제품_26,6,478200,전시회
920,KPET,제품_49,8,358400,전시회
921,KPET,제품_33,7,1073100,전시회
923,KPET,제품_45,6,88200,전시회
...,...,...,...,...,...
1345,Kopet,제품_92,7,453600,전시회
1346,Kopet,제품_51,10,277000,전시회
1347,Kopet,제품_91,7,192500,전시회
1348,Kopet,제품_13,8,468800,전시회


# 7. 문자열 검색

## series.str

- series.str.strip(): 앞 뒤 공백 제거
- series.str.contains(s): 문자열 s를 포함하고 있는지 여부를 반환
- series.str.split(sep, expand): sep을 기준으로 series를 분할
    - expand = True: 새로운 열 생성
    - expand = False: 새로운 열을 생성하지 않고 리스트를 반환
    
## series.astype

- series의 자료형을 변환
- series.astype(str)

In [33]:
df = pd.read_excel('데이터/불량 기록 데이터.xlsx')
df.head()

Unnamed: 0,시리얼번호,불량 여부
0,S-A-001,양품
1,S-A-002,양품
2,S-A-003,양품
3,S-A-004,양품
4,S-A-005,양품


- 시리얼번호 = 공정-제품-식별자

In [34]:
df['불량 여부'].value_counts()

양품    715
불량     41
Name: 불량 여부, dtype: int64

In [36]:
# 공정이 S인 제품의 개수

df['시리얼번호'].str.contains('S').sum()

325

In [37]:
df['시리얼번호'].str.split('-', expand = True)     # - 기준 분할

Unnamed: 0,0,1,2
0,S,A,001
1,S,A,002
2,S,A,003
3,S,A,004
4,S,A,005
...,...,...,...
751,T,B,237
752,T,B,238
753,T,B,239
754,T,B,240


In [38]:
# 분할한 데이터 병합

merged_df = pd.concat([df, df['시리얼번호'].str.split('-', expand = True)], axis = 1)
merged_df.head()

Unnamed: 0,시리얼번호,불량 여부,0,1,2
0,S-A-001,양품,S,A,1
1,S-A-002,양품,S,A,2
2,S-A-003,양품,S,A,3
3,S-A-004,양품,S,A,4
4,S-A-005,양품,S,A,5


In [39]:
# 컬럼명 변경

merged_df.rename({0: '공정', 1: '제품', 2: '식별자'}, axis = 1, inplace = True)
merged_df.head()

Unnamed: 0,시리얼번호,불량 여부,공정,제품,식별자
0,S-A-001,양품,S,A,1
1,S-A-002,양품,S,A,2
2,S-A-003,양품,S,A,3
3,S-A-004,양품,S,A,4
4,S-A-005,양품,S,A,5


In [40]:
merged_df.loc[merged_df['불량 여부'] != '양품']

Unnamed: 0,시리얼번호,불량 여부,공정,제품,식별자
34,S-A-035,불량,S,A,35
50,S-A-051,불량,S,A,51
69,S-A-070,불량,S,A,70
84,S-A-085,불량,S,A,85
92,S-A-093,불량,S,A,93
97,S-A-098,불량,S,A,98
112,S-A-113,불량,S,A,113
119,S-A-120,불량,S,A,120
133,S-A-134,불량,S,A,134
148,S-B-014,불량,S,B,14


In [41]:
pd.pivot_table(merged_df.loc[merged_df['불량 여부'] != '양품'], 
               values = '불량 여부', 
               index = '공정', 
               columns = '제품', 
               aggfunc = 'count')

제품,A,B
공정,Unnamed: 1_level_1,Unnamed: 2_level_1
S,9,12
T,12,8


- 불량 여부가 양품이 아닌 데이터를 대상으로 인덱스는 공정, 칼럼은 제품으로 해서 갯수를 나타내는 pivot_table 생성