
# **1. 판다스(Pandas)**
판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다.

```
pip install pandas
```

```
import pandas as pd
```


In [644]:
import pandas as pd

# **2. Series와 DataFrame**

### **1. Series**

Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다. Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.

In [645]:
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 90, 62, 98]

# pd.Series(데이터, 인덱스, ...)
pd.Series(data)

Unnamed: 0,0
0,67
1,75
2,90
3,62
4,98


In [646]:
pd.Series(data)

Unnamed: 0,0
0,67
1,75
2,90
3,62
4,98


In [647]:
se1 = pd.Series(data, idx)
se1

Unnamed: 0,0
김사과,67
반하나,75
오렌지,90
이메론,62
배애리,98


In [648]:
print(se1.index)
print(se1.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
[67 75 90 62 98]


## **2. DataFrame**

데이터프레임(DataFrame)은 판다스(Pandas) 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로, 2차원의 테이블 형태 데이터를 다루는 데 사용됩니다. 또한 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다.

In [649]:
data = [[67, 93, 91],
        [75, 68, 96],
        [87, 81, 82],
        [62, 70, 75],
        [98, 56, 87]]

idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']

In [650]:
# pd.DataFrame(데이터, 인덱스, 컬럼, ...)
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,67,93,91
1,75,68,96
2,87,81,82
3,62,70,75
4,98,56,87


In [651]:
pd.DataFrame(data=data, columns=col, index=idx)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [652]:
df = pd.DataFrame(index=idx, columns=col, data=data)
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [653]:
print(df.index)
print("=============")
print(df.columns)

print("=============")
print(df.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')
[[67 93 91]
 [75 68 96]
 [87 81 82]
 [62 70 75]
 [98 56 87]]


# **3. CSV 파일 읽어오기**
CSV 파일은 **Comma-Separated Values(쉼표로 구분된 값) 파일**의 약자로, 데이터를 단순한 텍스트 형식으로 저장하는 데 사용되는 파일 형식입니다.



아래 파일을 다운받고 구글드라이브에 업로드합니다.

In [654]:
df = pd.read_csv('/content/drive/MyDrive/랭체인 AI 영상객체탐지분석 플랫폼 구축/9. 데이터 분석/data/idol.csv')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [655]:
type(df)

# **4. 데이터 프레임 기본 정보 알아보기**

In [656]:
df.info() # info라는 메서드

# 20 entries 20개의 데이터가 있다는 뜻 즉 20개가 꽉차있는 것 19 non-null -> 데이터가 한개 비었다는 뜻
# object 형은 string 이라고 생각하면 됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [657]:
df.columns

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [658]:
new_columns = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood', 'brand']
df.columns = new_columns #컬럼 이름을 잘 지어주어야 합니다. 그래야 명칭이 확실히 되기 때문이빈다,
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [659]:
# describe(): 통계 정보를 반환
df.describe()
# std -> 표준편차 / 표준편차를 사용하는 이유? -> 데이터가 많아지고
# mean -> 평균
# 50%.. -> 중위값(가운데 있는 녀석)

Unnamed: 0,height,brand
count,19.0,20.0
mean,170.536842,2700190.0
std,7.225204,1381919.0
min,161.0,1680587.0
25%,164.75,1887423.0
50%,168.0,2074682.0
75%,179.0,2623465.0
max,182.0,6267302.0


In [660]:
df.describe(include=object) # Top: 최빈값, freq: 최빈값의 빈도 동일값이라면 최상단의 값을 출력합니다

Unnamed: 0,name,group,company,gender,birthday,blood
count,20,20,19,20,20,19
unique,20,6,5,2,20,4
top,지민,방탄소년단,빅히트,여자,1995-10-13,A
freq,1,5,7,13,1,11


In [661]:
df.head()  # 상위 5개

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [662]:
df.head(3) # 상위 3개

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [663]:
df.tail(5) # 하위 5개


Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [664]:
df.tail(3) # 하위 3개

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [665]:
# 정렬하기
df.sort_index() # index로 오름차순 정렬: 기본값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [666]:
df.sort_index(ascending=False) # index로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [667]:
df.sort_values(by='height') # 키로 오름차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297


In [668]:
df.sort_values(by='height', ascending=False) # 키로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


In [669]:
df.sort_values(by='height', ascending=False, na_position='first') # 키로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [670]:
df.sort_values(by=['height', 'brand'], ascending=[False, False], na_position='first')

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


# **5. 데이터 다루기**

In [671]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [672]:
df['blood']

Unnamed: 0,blood
0,A
1,A
2,A
3,O
4,AB
5,
6,O
7,A
8,B
9,A


In [673]:
type(df['blood'])

In [674]:
df.blood

Unnamed: 0,blood
0,A
1,A
2,A
3,O
4,AB
5,
6,O
7,A
8,B
9,A


In [675]:
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [676]:
df[:3]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [677]:
# loc 인덱싱: 컬럼 인덱싱
df.loc[:, 'name'] # df['name']

Unnamed: 0,name
0,지민
1,정국
2,민지
3,하니
4,뷔
5,다니엘
6,혜인
7,지수
8,해린
9,태연


In [678]:
df.loc[2:5, 'name'] # loc에서는 5번을 포함 / index의 번호라고 생각하면 됩니다.

Unnamed: 0,name
2,민지
3,하니
4,뷔
5,다니엘


In [679]:
df.loc[2:5, ['name', 'gender', 'height']] # : 콜론으로 이어져 있으므로 2행 부터 5행까지 쪼로록 가져오는 형식

Unnamed: 0,name,gender,height
2,민지,여자,169.0
3,하니,여자,161.7
4,뷔,남자,179.0
5,다니엘,여자,165.0


In [680]:
df.loc[[2,5], ['name', 'gender', 'height']]  # 2행하고 5행 쉼표(,)로 이어져 있으므로

Unnamed: 0,name,gender,height
2,민지,여자,169.0
5,다니엘,여자,165.0


In [681]:
df.loc[2:5, 'name':'gender']

Unnamed: 0,name,group,company,gender
2,민지,뉴진스,어도어,여자
3,하니,뉴진스,어도어,여자
4,뷔,방탄소년단,빅히트,남자
5,다니엘,뉴진스,어도어,여자


In [682]:
# iloc 인덱싱: index로 인덱싱하는 것

df.iloc[:, 0]  # : 모든 행 가져와 대신 0번을! 그래서 name을 가져옵니다.

Unnamed: 0,name
0,지민
1,정국
2,민지
3,하니
4,뷔
5,다니엘
6,혜인
7,지수
8,해린
9,태연


In [683]:
df.iloc[:, 0:3] # 0부터 3이 되기 직전까지! 3을 포함하지 않음

Unnamed: 0,name,group,company
0,지민,방탄소년단,빅히트
1,정국,방탄소년단,빅히트
2,민지,뉴진스,어도어
3,하니,뉴진스,어도어
4,뷔,방탄소년단,빅히트
5,다니엘,뉴진스,어도어
6,혜인,뉴진스,어도어
7,지수,블랙핑크,와이지
8,해린,뉴진스,어도어
9,태연,소녀시대,에스엠


In [684]:
df.iloc[:, [0, 3]]

Unnamed: 0,name,gender
0,지민,남자
1,정국,남자
2,민지,여자
3,하니,여자
4,뷔,남자
5,다니엘,여자
6,혜인,여자
7,지수,여자
8,해린,여자
9,태연,여자


In [685]:
df.iloc[1:5, 0:2]

Unnamed: 0,name,group
1,정국,방탄소년단
2,민지,뉴진스
3,하니,뉴진스
4,뷔,방탄소년단


In [686]:
df['height'] >= 180

Unnamed: 0,height
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,False


In [687]:
df[df['height'] >= 180]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444


In [688]:
df[df['height'] >= 180]['name']   # 강사님은 이게 더 직관적인듯 이라 생각한다고 하심..ㅎㅎ
# df['name'][df['height'] >= 180]


Unnamed: 0,name
10,RM
18,강다니엘


In [689]:
df[df['height'] >= 180]['name'] # df['name'][df['height'] >= 180]

Unnamed: 0,name
10,RM
18,강다니엘


In [690]:
df[df['height'] >= 180][['name', 'gender', 'height']]  # 여러개 일떄는 한번 더 묶어주어야 합니다.

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [691]:
df.loc[df['height'] >= 180, ['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [692]:
company = ['빅히트', '어도어']
 # isin(): 해당 요소가 데이터와 일치하면 True, 아니면 False 빅히트 또는 어도어 인지 아닌지
df['company'].isin(company)

Unnamed: 0,company
0,True
1,True
2,True
3,True
4,True
5,True
6,True
7,False
8,True
9,False


In [693]:
df[df['company'].isin(company)] # df.loc[df['company'].isin(company),:]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514


# **6. 결측값**
결측값은 값이 누락된 데이터를 의미하며, 판다스에서는 일반적으로 NaN으로 표시됩니다.

In [694]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [695]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [696]:
df.isna()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [697]:
df.isnull()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [698]:
df.notnull()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True
5,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True
7,True,True,True,True,True,True,True,True
8,True,True,True,True,True,True,True,True
9,True,True,True,True,True,False,True,True


In [699]:
df['height'].isna()

Unnamed: 0,height
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,True


In [700]:
df[df['height'].isna()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [701]:
df[df['height'].isna()]['name']

Unnamed: 0,name
9,태연


In [702]:
df[df['height'].notnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [703]:
df[~df['height'].isnull()] # df.notnull() => null이 아닌 값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [704]:
df[df['height'].isnull()]  #

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [705]:
df[~df['height'].isnull()] # df[df['height'].notnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [706]:
df.loc[df['height'].notnull(), ['name', 'company', 'gender']]

Unnamed: 0,name,company,gender
0,지민,빅히트,남자
1,정국,빅히트,남자
2,민지,어도어,여자
3,하니,어도어,여자
4,뷔,빅히트,남자
5,다니엘,어도어,여자
6,혜인,어도어,여자
7,지수,와이지,여자
8,해린,어도어,여자
10,RM,빅히트,남자


In [707]:
# fillna(): 결측값을 채워주는 함수
df['height'].fillna(0) # df['height].fillna(0, inplace=True) 적용

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,0.0


In [708]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [709]:
height = df_copy['height'].mean()
height

np.float64(170.53684210526316)

In [710]:
df_copy['height'] = df_copy['height'].fillna(height)
df_copy['height']

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,170.536842


In [711]:
df_copy = df.copy()   # 깨끗하게 덮어주는 작업
df_copy['height']     # 돌려놓는 작입?

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,


In [712]:
height = df_copy['height'].median() # 50%값, 중위
height

168.0

In [713]:
df_copy['height'].fillna(height, inplace=True)
df_copy['height']

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,168.0


In [714]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [715]:
# dropna(): 결측값이 있는 행 또는 열을 제거. 결측값이 한개라도 있는 경우 삭제
# axis=0 (행 삭제)
df_copy.dropna()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250


In [716]:
df_copy.dropna(axis=1)

Unnamed: 0,name,group,gender,birthday,brand
0,지민,방탄소년단,남자,1995-10-13,6267302
1,정국,방탄소년단,남자,1997-09-01,5805844
2,민지,뉴진스,여자,2004-05-07,4437081
3,하니,뉴진스,여자,2004-10-06,4161153
4,뷔,방탄소년단,남자,1995-12-30,3470048
5,다니엘,뉴진스,여자,2005-04-11,2341271
6,혜인,뉴진스,여자,2008-04-21,2301785
7,지수,블랙핑크,여자,1995-01-03,2227460
8,해린,뉴진스,여자,2006-05-15,2173376
9,태연,소녀시대,여자,1989-03-09,2079866


# **7. 행, 열 추가 및 삭제하기**

In [717]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [718]:
dic = {
    'name': '김사과',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '2000-01-01',
    'height': 160.0,
    'blood': 'A',
    'brand': 1234567
}

In [719]:
df_copy = pd.concat([df_copy, pd.DataFrame(dic, index=[0])], ignore_index=True) # 인덱스가 혼자 0이 됩니다.  -> 뒤에 ignore_index=True 를 작성해주면 인덱스를 마지막요소의 다음 인덱스부터 채워넣음
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [720]:
dic = {
    'name': '반하나',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '1995-12-30',
    'height': 175.0,
    'blood': 'B',
    'brand': 1000000
}

In [721]:
df_copy.loc[len(df_copy)] = dic  # 전체 프레임의 갯수를 세서 loc에 dic을 넣는것 그러나 이 방법은 컬럼명이 정확히 같아야 추가가 됩니다.
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [722]:
df_copy['nation'] = "대한민국"
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [723]:
df_copy.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,대한민국
21,반하나,과수원,애플,여자,1995-12-30,175.0,B,1000000,대한민국


In [724]:
df_copy.loc[df_copy['name'] == '김사과', 'nation'] = '미국'
df_copy.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,미국
21,반하나,과수원,애플,여자,1995-12-30,175.0,B,1000000,대한민국


In [725]:
# 행 제거하기
df_copy.drop(20, axis=0) # 0: 행, 1: 열

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [726]:
df_copy.drop([1, 3, 5, 7, 20, 21], axis=0)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,대한민국
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,대한민국
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,대한민국
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,대한민국


In [727]:
# 열 제거하기
df_copy.drop('nation', axis=1)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [728]:
df_copy.drop(['nation', 'group'], axis=1)

Unnamed: 0,name,company,gender,birthday,height,blood,brand
0,지민,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,에스엠,여자,1989-03-09,,A,2079866


# **8. 통계 함수**

In [729]:
df_copy.describe() # 통계치라고 보면 된다..?

Unnamed: 0,height,brand
count,21.0,22.0
mean,170.247619,2556290.0
std,7.310446,1395015.0
min,160.0,1000000.0
25%,164.5,1844210.0
50%,168.0,2069374.0
75%,179.0,2331400.0
max,182.0,6267302.0


In [730]:
df_copy['height'].sum() # 합계

np.float64(3575.2)

In [731]:
df_copy['height'].count() # 개수, NaN은 포함하지 않음

np.int64(21)

In [732]:
df_copy['height'].mean() # 평균

np.float64(170.24761904761903)

In [733]:
df_copy['height'].median() # 중앙값

168.0

**※ 평균과 중앙값**

평균은 모든 데이터를 더한 후, 데이터 개수로 나눈 값입니다. 데이터를 고르게 분배했을 때, 한 데이터가 가질 수 있는 이론적인 중심값을 의미합니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때, 가운데 위치하는 값입니다. 데이터의 순서에만 영향을 받고, 값의 크기에는 영향을 받지 않습니다. 데이터가 고르게 분포된 경우 평균과 중앙값이 비슷하거나 같습니다. 하지만 데이터에 극단값(Outlier)이 있는 경우 평균은 극단값의 영향을 받아 왜곡될 수 있지만, 중앙값은 비교적 안정적입니다.

극단값 => 이상치라고도 하는 극단값은 사분위수로 계산하는데 그 이상으로 치고 나가는 값



In [734]:
df_copy['height'].max() # 최대값

182.0

In [735]:
df_copy['height'].min() # 최소값

160.0

In [736]:
df_copy['height'].var() # 분산

53.44261904761906

In [737]:
df_copy['height'].std() # 표준편차

7.310445885691177

**※ 분산과 표준편차**

분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다. 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다. 평균에서 각 데이터의 거리를 제곱한 값들의 평균입니다. 표준편차는 분산의 제곱근입니다. 분산은 제곱 값이기 때문에 단위가 커질 수 있는데, 이를 원래 데이터와 같은 단위로 변환하기 위해 제곱근을 씌웁니다.

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FlSDKp%2FbtsLh5aU1e8%2FAAAAAAAAAAAAAAAAAAAAALLo-v9lCG02Pjz21LsA2v3fa3ieSoACoMfBNnkw9FCc%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1767193199%26allow_ip%3D%26allow_referer%3D%26signature%3DxwMZhWgOxQ2CmRKqwvQnZ%252FlQUro%253D">

# **9. 그룹**

In [738]:
# groupby(): 데이터를 그룹으로 묶어 분석할 때 사용
df_copy.groupby('group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x780a163fe990>

In [739]:
# 그룹을 맺으면 통계함수를 사용할 수 있음
df_copy.groupby('group').count()

Unnamed: 0_level_0,name,company,gender,birthday,height,blood,brand,nation
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
과수원,2,2,2,2,2,2,2,2
뉴진스,5,5,5,5,5,4,5,5
레드벨벳,2,2,2,2,2,2,2,2
방탄소년단,5,5,5,5,5,5,5,5
블랙핑크,4,4,4,4,4,4,4,4
소녀시대,2,2,2,2,1,2,2,2
워너원,2,1,2,2,2,2,2,2


In [740]:
df_copy.groupby('group').mean(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,167.5,1117283.5
뉴진스,166.04,3082933.2
레드벨벳,164.5,1786140.5
방탄소년단,178.4,3858656.0
블랙핑크,165.0,2024410.5
소녀시대,168.0,1982581.5
워너원,180.5,1830385.5


In [741]:
df_copy.groupby('group').sum(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,335.0,2234567
뉴진스,830.2,15414666
레드벨벳,329.0,3572281
방탄소년단,892.0,19293280
블랙핑크,660.0,8097642
소녀시대,168.0,3965163
워너원,361.0,3660771


In [742]:
df_copy.groupby('gender').mean(numeric_only=True)

Unnamed: 0_level_0,height,brand
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,179.0,3279150.0
여자,165.871429,2218955.0


In [743]:
df_copy.groupby(['blood','gender']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,height,brand
blood,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
A,남자,179.0,3560683.0
A,여자,164.5,2209151.0
AB,남자,179.0,3470048.0
B,여자,167.7,1803211.0
O,남자,179.0,1680587.0
O,여자,165.85,3231469.0


In [744]:
df_copy.groupby(['blood','gender'])['height'].mean()  # 파이썬에서 그룹을 맺을 때는 리스트로 묶어야 합니다! numeric은 숫자이기 때문에 작성하지 않아도 됩니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,height
blood,gender,Unnamed: 2_level_1
A,남자,179.0
A,여자,164.5
AB,남자,179.0
B,여자,167.7
O,남자,179.0
O,여자,165.85


# **10. 중복값 제거하기**

In [745]:
df_copy['blood']

Unnamed: 0,blood
0,A
1,A
2,A
3,O
4,AB
5,
6,O
7,A
8,B
9,A


In [746]:
# drop_duplicates(): 중복된 데이터를 제거
df_copy['blood'].drop_duplicates()   # 유니크한 값

Unnamed: 0,blood
0,A
3,O
4,AB
5,
8,B


In [747]:
df_copy['blood'].drop_duplicates(keep='last')  # 이건 많이 사용하지 않습니다.

Unnamed: 0,blood
4,AB
5,
19,O
20,A
21,B


In [748]:
# value_counts(): 열의 각 값에 대한 데이터의 개수를 반환. 기본은 NaN을 생략
# 많이 사용! 합니다.
df_copy['blood'].value_counts()

Unnamed: 0_level_0,count
blood,Unnamed: 1_level_1
A,12
B,5
O,3
AB,1


In [749]:
df_copy['company'].value_counts()  # NaN값을 생략합니다.

Unnamed: 0_level_0,count
company,Unnamed: 1_level_1
빅히트,7
어도어,5
와이지,4
에스엠,2
애플,2
판타지오,1


In [750]:
df_copy['company'].value_counts(dropna=False) # NaN를 포함

Unnamed: 0_level_0,count
company,Unnamed: 1_level_1
빅히트,7
어도어,5
와이지,4
에스엠,2
애플,2
판타지오,1
,1


# **11. 데이터프레임 합치기**

In [751]:
df1 = pd.read_csv('/content/drive/MyDrive/랭체인 AI 영상객체탐지분석 플랫폼 구축/9. 데이터 분석/data/idol.csv')

In [752]:
df2 = pd.read_csv('/content/drive/MyDrive/랭체인 AI 영상객체탐지분석 플랫폼 구축/9. 데이터 분석/data/idol2.csv')

In [753]:
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [754]:
df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,정국,3500,3
2,민지,3200,4
3,하니,3050,4
4,뷔,4300,3
5,다니엘,2900,5
6,혜인,3400,6
7,지수,4500,5
8,해린,4200,4
9,태연,4300,4


In [755]:
df_copy = df1.copy()

pd.concat([df1, df_copy])  # 축을 생략했으니까 axis = 0 (기본값) 행!으로 합쳐지게 됩니다.

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [756]:
df_concat = pd.concat([df1, df_copy])

# reset_index(): index를 새롭게 적용
# drop=True 옵션을 사용하여 기존 index가 컬럼으로 만들어지는 것을 방지할 수 있다!
df_concat.reset_index(drop=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [757]:
# 열 합치기
pd.concat([df1, df2], axis=1)  # 같은 index와 결합

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,정국,3500,3
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,하니,3050,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,다니엘,2900,5
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400,6
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,지수,4500,5
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200,4
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,태연,4300,4


In [758]:
df3 = df2.drop([1, 3, 5, 7, 9])
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3
14,로제,4150,3


In [759]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,,,


In [760]:
df_right = df2.drop([1, 3, 5, 7, 9], axis=0)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3
14,로제,4150,3


In [761]:
df_right = df_right.reset_index(drop=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [762]:
dic = {
    '이름': '김사과',
    '연봉': 9000,
    '가족수': 10
}

In [763]:
df_right = pd.concat([df_right, pd.DataFrame(dic, index=[0])], ignore_index=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [764]:
pd.concat([df1, df_right], axis=1)  # index가 다를 경우에 데이터가 틀어집니다. 같아야 합칠 수 있습니다.

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,민지,3200.0,4.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,뷔,4300.0,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,혜인,3400.0,6.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,해린,4200.0,4.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,RM,3700.0,3.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,제니,3850.0,5.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,옹성우,3900.0,4.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,리사,4100.0,3.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,로제,4150.0,3.0


In [765]:
# merge(): 특정 고유한 키(unique, id)값을 기준으로 합침
# merge(데이터프레임1, 데이터프레임2, on='유니크값', how='병합의 기준')
# 병합의 기준: left, right, inner, cross

pd.merge(df1, df_right, on='이름', how='left')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,,


In [766]:
pd.merge(df1, df_right, on='이름', how='right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302.0,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081.0,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048.0,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785.0,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376.0,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499.0,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250.0,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327.0,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800.0,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132.0,4150,3


In [767]:
pd.merge(df1, df_right, on='이름', how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,4150,3


In [768]:
pd.merge(df1, df_right, how='cross')  # 뭘로 합칠지의 조건이 필요 없습니다. 다 비교해보기 때문입니다.

Unnamed: 0,이름_x,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름_y,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,민지,3200,4
2,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,뷔,4300,3
3,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,혜인,3400,6
4,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,해린,4200,4
...,...,...,...,...,...,...,...,...,...,...,...
315,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,조이,3500,3
316,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,슬기,3200,4
317,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,강다니엘,3050,4
318,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,진,4300,3


In [769]:
df_right.columns = ['성함', '연봉', '가족수']
df_right

Unnamed: 0,성함,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [770]:
# pd.merge(df1, df_right, on='이름', how='inner') KeyError: '이름'
pd.merge(df1, df_right, left_on='이름', right_on='성함', how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성함,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,RM,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,제니,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,옹성우,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,리사,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,로제,4150,3


# **12. 등수 매기기**

In [771]:
df1['브랜드평판지수'].rank()

Unnamed: 0,브랜드평판지수
0,20.0
1,19.0
2,18.0
3,17.0
4,16.0
5,15.0
6,14.0
7,13.0
8,12.0
9,11.0


In [772]:
# rank(): 데이터프레임 또는 시리즈의 순위를 매기는 함수. 기본값은 ascending
df1['브랜드순위'] = df1['브랜드평판지수'].rank()
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,20.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,19.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,18.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,17.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,16.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,15.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,14.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,13.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,12.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,11.0


In [773]:
df1['브랜드순위'] = df1['브랜드평판지수'].rank(ascending=False)
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,2.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,4.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,5.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,6.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,7.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,8.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,9.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,10.0


In [774]:
# astype(): 특정열의 자료형을 변경
df1['브랜드순위'] = df1['브랜드순위'].astype(int)
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,2
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,5
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,6
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,7
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,8
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,9
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,10


In [775]:
df1['브랜드순위'].dtypes

dtype('int64')

# **13. 날짜타입 사용하기**

In [776]:
df_copy = df.copy()  # object에서
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [777]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [778]:
# to_datatime(): object타입에서 datetime타입으로 변환
df_copy['birthday'] = pd.to_datetime(df_copy['birthday'])
print(type(df_copy['birthday']))
print(df_copy['birthday'].dtypes)

<class 'pandas.core.series.Series'>
datetime64[ns]


In [779]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   name      20 non-null     object        
 1   group     20 non-null     object        
 2   company   19 non-null     object        
 3   gender    20 non-null     object        
 4   birthday  20 non-null     datetime64[ns]
 5   height    19 non-null     float64       
 6   blood     19 non-null     object        
 7   brand     20 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 1.4+ KB


In [780]:
df_copy['birthday'].dt.year

Unnamed: 0,birthday
0,1995
1,1997
2,2004
3,2004
4,1995
5,2005
6,2008
7,1995
8,2006
9,1989


In [781]:
df_copy['birthday'].dt.month

Unnamed: 0,birthday
0,10
1,9
2,5
3,10
4,12
5,4
6,4
7,1
8,5
9,3


In [782]:
df_copy['birthday'].dt.day

Unnamed: 0,birthday
0,13
1,1
2,7
3,6
4,30
5,11
6,21
7,3
8,15
9,9


In [783]:
df_copy['birthday'].dt.hour

Unnamed: 0,birthday
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0


In [784]:
df_copy['birthday'].dt.minute

Unnamed: 0,birthday
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0


In [785]:
df_copy['birthday'].dt.second

Unnamed: 0,birthday
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0


In [786]:
df_copy['birthday'].dt.dayofweek # 요일: 0(월요일) ~ 6(일요일)

Unnamed: 0,birthday
0,4
1,0
2,4
3,2
4,5
5,0
6,0
7,1
8,0
9,3


In [787]:
df_copy['birthday'].dt.isocalendar().week

Unnamed: 0,week
0,41
1,36
2,19
3,41
4,52
5,15
6,17
7,1
8,20
9,10


# **14. apply 사용하기**
Pandas의 apply() 함수는 데이터프레임이나 시리즈의 데이터를 사용자 정의 함수 또는 내장 함수에 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. 데이터를 행(row) 또는 열(column) 단위로 처리할 수 있는 강력한 도구입니다.

In [788]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [789]:
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [790]:
# 성별을 남자는 1, 여자는 0으로 변환(loc를 사용)
df_copy.loc[df_copy['gender'] == '남자', 'gender'] = 1
df_copy.loc[df_copy['gender'] == '여자', 'gender'] = 0
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,1,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,1,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,0,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,0,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,1,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,0,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,0,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,0,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,0,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,0,1989-03-09,,A,2079866


In [791]:
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,1,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,1,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,0,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,0,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,1,1995-12-30,179.0,AB,3470048


In [792]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [793]:
def male_or_female(x):
    if x == '남자':
        return 1
    elif x == '여자':
        return 0
    else:
        return None

In [794]:
print(male_or_female('남자'))
print(male_or_female('여자'))

1
0


In [795]:
df_copy['gender'].apply(male_or_female)

Unnamed: 0,gender
0,1
1,1
2,0
3,0
4,1
5,0
6,0
7,0
8,0
9,0


In [796]:
df_copy['gender'].apply(lambda x: 1 if x == '남자' else 0)

Unnamed: 0,gender
0,1
1,1
2,0
3,0
4,1
5,0
6,0
7,0
8,0
9,0


In [797]:
df_copy['NewGender'] = df_copy['gender'].apply(lambda x: 1 if x == '남자' else 0)
df_copy.head()  # apply 중요! 많이 쓰이는 방법 중 하나입니다!


Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,NewGender
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,1
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,1


# **15. map 사용하기**
Pandas의 map() 함수는 Series 객체에서 사용할 수 있는 함수로, 각 요소에 대해 함수나 매핑 규칙을 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. map()은 데이터의 각 요소를 순회하며 특정 작업을 수행하므로, 데이터를 가공하거나 변환하는 데 유용합니다.
map에서 편한건 딕셔너리를 사용할 수 있다는 것입니다!

In [798]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [799]:
map_gender = {'남자':1, '여자':0}

df_copy['gender'].map(map_gender)

Unnamed: 0,gender
0,1
1,1
2,0
3,0
4,1
5,0
6,0
7,0
8,0
9,0


In [800]:
df_copy['NewGender'] = df_copy['gender'].map(map_gender)
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,NewGender
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,1
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,1


# **16. 데이터프레임의 산술연산**


In [801]:
df1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 90, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df1

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,60,40,35
1,70,60,40
2,80,70,30
3,90,55,70
4,95,87,55


In [802]:
df1['파이썬'].dtypes

dtype('int64')

In [803]:
type(df1['파이썬'])

In [804]:
df1['파이썬'] + df1['데이터분석'] + df1['머신러닝딥러닝']  # int이기 때문에 가능합니다.

Unnamed: 0,0
0,135
1,170
2,180
3,215
4,237


In [805]:
# df1에 총점, 평균이라는 파생변수를 만들고 파생변수에 총점, 평균을 구해서 저장
df1['총점'] = df1['파이썬'] + df1['데이터분석'] + df1['머신러닝딥러닝']
df1['평균'] = df1['총점'] / 3
df1

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝,총점,평균
0,60,40,35,135,45.0
1,70,60,40,170,56.666667
2,80,70,30,180,60.0
3,90,55,70,215,71.666667
4,95,87,55,237,79.0


In [806]:
df1['파이썬'].sum() # df1['파이썬'].sum(axis=0)

np.int64(395)

In [807]:
df1['파이썬'].mean()

np.float64(79.0)

In [808]:
df1.mean()

Unnamed: 0,0
파이썬,79.0
데이터분석,62.4
머신러닝딥러닝,46.0
총점,187.4
평균,62.466667


In [809]:
df1.sum()

Unnamed: 0,0
파이썬,395.0
데이터분석,312.0
머신러닝딥러닝,230.0
총점,937.0
평균,312.333333


In [810]:
df1.mean()

Unnamed: 0,0
파이썬,79.0
데이터분석,62.4
머신러닝딥러닝,46.0
총점,187.4
평균,62.466667


In [811]:
df1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 90, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df2 = pd.DataFrame({
    '파이썬':['C', 'B', 'B', 'A', 'A'],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

In [812]:
# df1 + df2 데이터 타입이 다르기 때문에 에러
df1 + 10
# df2 + 10 데이터 타입이 다르기 때문에 에러

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,70,50,45
1,80,70,50
2,90,80,40
3,100,65,80
4,105,97,65


In [813]:
df1 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df2 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55],
    '머신러닝딥러닝':[35, 40, 30, 70]
})

In [814]:
df1 + df2 # 행의 갯수가 다를 경우 빠진 데이터를 NaN으로 취급하기 때문에 결과는 NaN

Unnamed: 0,데이터분석,머신러닝딥러닝
0,80.0,70.0
1,120.0,80.0
2,140.0,60.0
3,110.0,140.0
4,,


# **17. select_dtypes**

In [815]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [816]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [817]:
df.select_dtypes(include='object') # 문자열 컬럼만 가져오기

Unnamed: 0,name,group,company,gender,birthday,blood
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


In [818]:
df.select_dtypes(exclude='object') # 문자열 컬럼만 빼고 가져오기

Unnamed: 0,height,brand
0,174.0,6267302
1,179.0,5805844
2,169.0,4437081
3,161.7,4161153
4,179.0,3470048
5,165.0,2341271
6,170.0,2301785
7,162.0,2227460
8,164.5,2173376
9,,2079866


In [819]:
# 문자열을 가지고 있는 컬럼의 이름만 변수에 저장하여 출력
# 숫자로 변환해야 하는 문자형의 대한 데이터를 추출 그래서 통째로 바꾸면 됩니다.
str_cols = df.select_dtypes(include='object').columns
str_cols

Index(['name', 'group', 'company', 'gender', 'birthday', 'blood'], dtype='object')

In [820]:
df[str_cols]

Unnamed: 0,name,group,company,gender,birthday,blood
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


# **18. get_dummies**
get_dummies()는 Pandas에서 범주형 데이터를 원-핫 인코딩(one-hot encoding) 방식으로 변환하는 데 사용됩니다.

이 파트를 잘 알고 있다면 ADSP와 빅데이터분석기사에 있는 어느정도 점수가 어느정도 먹고 들어갑니다!

### **1. 데이터의 종류**
<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FvmnOx%2FdJMcacnX56W%2FAAAAAAAAAAAAAAAAAAAAAGpDja0-RlnxiVyllwjgZkpmqk9189V9r98SJ6LIeOsy%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1767193199%26allow_ip%3D%26allow_referer%3D%26signature%3DxW93p%252B%252FdQJ6DxVBH5dtFyZ3UwV8%253D'>

특히 데이터의 종류!! 정확히 알고 가기!
눈여겨 볼것 > 범주형 <




### **2. 데이터 분석에서 범주형 컬럼 판단 기준**
데이터 분석 또는 머신러닝 모델을 만들 때, 각 컬럼(특징)을 범주형 데이터로 변환할지, 또는 삭제해야 할지 판단하는 과정은 매우 중요합니다. 특히 실제 데이터는 숫자처럼 보이지만 의미가 없는 것들도 많고, 범주형으로 처리하지 않으면 분석 결과가 왜곡되는 경우도 많습니다.

**1. 값의 종류가 적고 의미 있는 그룹을 형성할 때**
- 성별, 지역, 직급, 요일, 날씨

> 이런 값들은 자연스럽게 “그룹 분석”이 가능하고, 평균·합계를 내는 것보다 범주별 비교가 더 의미 있는 케이스입니다.



**2. 숫자처럼 보이지만 수학적 의미가 없을 때**
- 회원번호. 상품 코드, 우편번호, 전화번호

> 겉으로는 숫자이지만, 덧셈∙평균 같은 연산은 전혀 의미가 없습니다. 따라서 문자열 또는 범주형으로 변환해야 분석에 적합합니다.



**3. 머신러닝 입력을 위해 인코딩이 필요한 경우**
- 컬러(color): red / blue / green,
- 브라우저(browser): chrome / edge / safari

> 머신러닝은 문자열을 직접 다루지 못하므로, 범주형으로 변환한 뒤 원-핫 인코딩(One-Hot Encoding) 또는 레이블 인코딩(Label Encoding)을 적용합니다.



**4. 연속 값이지만 범주로 나누는 것이 더 의미 있을 때**
- 나이 → 10대/20대/30대, 매출 → 고/중/저, 위험등급 → Low / Medium / High

>이처럼 의미 있는 구간(bin)을 만들어 카테고리화하면 분석 인사이트가 더 명확해집니다.

### **3. 어떤 컬럼은 제거(drop)하는 것이 좋을까?**

**1. 고유값(Unique)이 너무 많아 패턴이 없는 경우**
- 주문번호, 주민번호, UUID, 세션 ID, 상세주소
> 이런 컬럼들은 대부분 값이 전부 다르기 때문에 모델이 패턴을 학습할 수 없고 오히려 노이즈로 작용합니다.

**2. 지나치게 상세한 정보(과도한 해상도)**
- 초 단위 timestamp, 도로명 + 상세 주소 (건물번호, 호수까지 포함)
> 이런 값들은 정보는 많지만 분석에서 의미 있는 패턴을 제공하지 않습니다. 일반적으로 다음처럼 가공해야 합니다.




```
시간 → year, month, hour, weekday,
주소 → 시/구 단위
```









**3. 결측치가 지나치게 많아 의미가 없을 때**
- 예: 전체의 80% 이상이 null

> 대부분의 경우 해당 컬럼은 과감히 삭제하는 것이 모델의 성능에 이롭습니다.

**4. 원-핫 인코딩**
> **원-핫 인코딩은 각 범주를 별도의 열로 변환하고, 해당 범주에 해당하는 곳에 1을, 나머지에는 0을 채우는 방식**입니다. 예를 들어, 데이터가 "Red", "Green", "Blue"와 같은 문자열이라면, 모델은 이를 이해하지 못합니다. 범주형 데이터를 숫자로 변환해야 모델이 계산할 수 있습니다. 원-핫 인코딩은 범주형 데이터를 숫자로 변환하면서도 각 범주 간의 순서나 크기를 부여하지 않습니다.

In [821]:
blood_map = {'A':0, 'B':1, 'AB':2, 'O':3}
df['blood_code'] = df['blood'].map(blood_map) # 라벨 인코딩
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,blood_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,0.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,0.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,3.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,2.0


In [822]:
pd.get_dummies(df['blood'])

Unnamed: 0,A,AB,B,O
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,False,True
4,False,True,False,False
5,False,False,False,False
6,False,False,False,True
7,True,False,False,False
8,False,False,True,False
9,True,False,False,False


In [823]:
df = pd.get_dummies(df, columns=['blood'])
df

Unnamed: 0,name,group,company,gender,birthday,height,brand,blood_code,blood_A,blood_AB,blood_B,blood_O
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,6267302,0.0,True,False,False,False
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,5805844,0.0,True,False,False,False
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,4437081,0.0,True,False,False,False
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,4161153,3.0,False,False,False,True
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,3470048,2.0,False,True,False,False
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,2341271,,False,False,False,False
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,2301785,3.0,False,False,False,True
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,2227460,0.0,True,False,False,False
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,2173376,1.0,False,False,True,False
9,태연,소녀시대,에스엠,여자,1989-03-09,,2079866,0.0,True,False,False,False


In [824]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   name        20 non-null     object 
 1   group       20 non-null     object 
 2   company     19 non-null     object 
 3   gender      20 non-null     object 
 4   birthday    20 non-null     object 
 5   height      19 non-null     float64
 6   brand       20 non-null     int64  
 7   blood_code  19 non-null     float64
 8   blood_A     20 non-null     bool   
 9   blood_AB    20 non-null     bool   
 10  blood_B     20 non-null     bool   
 11  blood_O     20 non-null     bool   
dtypes: bool(4), float64(2), int64(1), object(5)
memory usage: 1.5+ KB
