## **1. 판다스(Pandas)**
판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다.

In [113]:
!pip -q install pandas


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [114]:
import pandas as pd

### 2. Series와 DataFrame
**1. Series**

Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다. Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.


In [115]:
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 90, 62, 98]

# pd.Series(데이터, 인덱스, ...)
pd.Series(data)

0    67
1    75
2    90
3    62
4    98
dtype: int64

In [116]:
se1 = pd.Series(data, idx)
se1

김사과    67
반하나    75
오렌지    90
이메론    62
배애리    98
dtype: int64

In [117]:
print(se1.index)
print(se1.values)
print(type(se1.values))

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
[67 75 90 62 98]
<class 'numpy.ndarray'>


**2. DataFrame**

데이터프레임(DataFrame)은 판다스(Pandas) 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로, 2차원의 테이블 형태 데이터를 다루는 데 사용됩니다. 또한 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다.

In [118]:
data = [[67, 93, 91],
        [75, 68, 96],
        [87, 81, 82],
        [62, 70, 75],
        [98, 56, 87]]

idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']

In [119]:
# pd.DataFrame(데이터, 인덱스, 컬럼, ...)
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,67,93,91
1,75,68,96
2,87,81,82
3,62,70,75
4,98,56,87


In [120]:
pd.DataFrame(data, idx)

Unnamed: 0,0,1,2
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [121]:
pd.DataFrame(data, idx, col) # 순서 필수 (데이터, 인덱스, 컬럼, ...)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [122]:
df = pd.DataFrame(index=idx, columns=col, data=data) # 순서 무관하게 변수로 선언 가능
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [123]:
print(df.index)
print(df.columns)
print(df.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')
[[67 93 91]
 [75 68 96]
 [87 81 82]
 [62 70 75]
 [98 56 87]]


In [124]:
# 딕셔너리를 사용하여 데이터프레임을 생성하기
dic = {
    '국어':[67, 75, 76, 62, 98],
    '영어':[93, 68, 81, 70, 56],
    '수학':[91, 96, 82, 75, 87]
}

df = pd.DataFrame(data=dic, index=idx)
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


# **3. CSV 파일 읽어오기**
CSV 파일은 Comma-Separated Values(쉼표로 구분된 값) 파일의 약자로, 데이터를 단순한 텍스트 형식으로 저장하는 데 사용되는 파일 형식입니다.



아래 파일을 다운받고 구글드라이브에 업로드합니다.

In [125]:
df = pd.read_csv('data/idol.csv')
df
type(df)

pandas.core.frame.DataFrame

# 4. 데이터프레임 기본 정보 알아보기

In [126]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [127]:
df.columns

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [128]:
new_columns = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood', 'brand']
df.columns = new_columns
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [129]:
df.describe()

Unnamed: 0,height,brand
count,19.0,20.0
mean,170.536842,2700190.0
std,7.225204,1381919.0
min,161.0,1680587.0
25%,164.75,1887423.0
50%,168.0,2074682.0
75%,179.0,2623465.0
max,182.0,6267302.0


In [130]:
df.describe(include=object) # top: 최빈값, freq: 최신값의 빈도

Unnamed: 0,name,group,company,gender,birthday,blood
count,20,20,19,20,20,19
unique,20,6,5,2,20,4
top,지민,방탄소년단,빅히트,여자,1995-10-13,A
freq,1,5,7,13,1,11


In [131]:
# 원하는 개수의 데이터 보기
df.head() # 상위 5개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [132]:
df.head(3) # 상위 3개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [133]:
df.tail() # 하위 5개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [134]:
df.tail(2) # 하위 2개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [135]:
# 정렬하기
df.sort_index() # index로 오름차순 정렬: 기본값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [136]:
df.sort_index(ascending=False) # index로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [137]:
df.sort_values(by='height') # 키로 오름차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297


In [138]:
df.sort_values(by='height', ascending=False) # 키로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


In [139]:
df.sort_values(by='height', ascending=False, na_position='first') # 키로 내림차순 정렬. NaN을 위로 올림

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [140]:
# 1차 정렬: 키(내림차순), 2차 정렬: 브랜드(내림차순)
df.sort_values(by=['height', 'brand'], ascending=[False, False], na_position='first')

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


## **5. 데이터 다루기**

In [141]:
df .head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [142]:
df['blood'] # df.blood
# type(df['blood']) # Series

0       A
1       A
2       A
3       O
4      AB
5     NaN
6       O
7       A
8       B
9       A
10      A
11      B
12      A
13      A
14      B
15      B
16      A
17      A
18      A
19      O
Name: blood, dtype: object

In [143]:
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [144]:
# loc dlseprtld
df.loc[:, 'name'] # df['name']

0       지민
1       정국
2       민지
3       하니
4        뷔
5      다니엘
6       혜인
7       지수
8       해린
9       태연
10      RM
11      제니
12     옹성우
13      리사
14      로제
15      윤아
16      조이
17      슬기
18    강다니엘
19       진
Name: name, dtype: object

In [145]:
df.loc[2:5, 'name'] # 행 열로 부를 범위를 정할 수 있음 단 n:n에서는 :n번을 포함함

2     민지
3     하니
4      뷔
5    다니엘
Name: name, dtype: object

In [146]:
df.loc[2:5, ['name','gender', 'height']] # 여러게의 value 뽑을때

Unnamed: 0,name,gender,height
2,민지,여자,169.0
3,하니,여자,161.7
4,뷔,남자,179.0
5,다니엘,여자,165.0


In [147]:
df.loc[[2,5], ['name','gender', 'height']] # loc[n,n] 범위가 아닌 특정 인덱싱을 뽑아올 수 있음

Unnamed: 0,name,gender,height
2,민지,여자,169.0
5,다니엘,여자,165.0


In [148]:
df.loc[2:5, 'name':'gender'] # value도 범위로 뽑을 수 있음 'name':'gender'

Unnamed: 0,name,group,company,gender
2,민지,뉴진스,어도어,여자
3,하니,뉴진스,어도어,여자
4,뷔,방탄소년단,빅히트,남자
5,다니엘,뉴진스,어도어,여자


In [149]:
# iloc 인덱싱
df.iloc[:,0] # value를 번호로 뽑을 수 있음 loc과 다른 점은 value 이름을 쓰는게 아니라 "숫자"로 뽑을 수 있음

0       지민
1       정국
2       민지
3       하니
4        뷔
5      다니엘
6       혜인
7       지수
8       해린
9       태연
10      RM
11      제니
12     옹성우
13      리사
14      로제
15      윤아
16      조이
17      슬기
18    강다니엘
19       진
Name: name, dtype: object

In [150]:
df.iloc[1:5, 0:2] # iloc 에 i는 index의 약자라고 생각해보자

Unnamed: 0,name,group
1,정국,방탄소년단
2,민지,뉴진스
3,하니,뉴진스
4,뷔,방탄소년단


In [151]:
df['height'] >= 180 # 비교 연산자를 통하여 참,거짓 추출 가능

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18     True
19    False
Name: height, dtype: bool

In [152]:
df[df['height'] >= 180] # 키 180 이상을 참,거짓 나누어 참만 뽑아오기

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444


In [153]:
df[df['height'] >= 180]['name'] # 180의 참이면서 그 중 'name' value 만 뽑아오기

10      RM
18    강다니엘
Name: name, dtype: object

In [154]:
df[df['height'] >= 180][['name', 'gender', 'height']] # value를 여러게를 호출 할 수 있으나, 단 리스트 형태로 묶어야 에러가 안남. [] 를 한번 더 사용

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [155]:
df.loc[df['height'] >= 180, ['name','gender', 'height']] # 위에랑 다른 형태

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [156]:
company = ['빅히트', '어도어'] # 소속사를 변수로 담고
df['company'].isin(company) # isin 으로 변수에 해당되는 내용을 참,거짓을 추출

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7     False
8      True
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16     True
17     True
18    False
19     True
Name: company, dtype: bool

In [157]:
df[df['company'].isin(company)]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514


# **6. 결측값**
결측값은 값이 누락된 데이터를 의미하며, 판다스에서 일반적으로 NaN으로 표시됩니다.

In [158]:
df.info() # df는 데이터프레임 Data Frame 의 약자

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [159]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [160]:
df.isna() # isna를 사용하면 값이 있다면 false, 없다면(NaN)이라면 true

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [161]:
df.notnull() # 위와 반대로 값이 있으면 True, 없으면 false

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True
5,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True
7,True,True,True,True,True,True,True,True
8,True,True,True,True,True,True,True,True
9,True,True,True,True,True,False,True,True


In [162]:
df[df['height'].isna()] # height value중에 NaN도 호출 가능 (isna를 사용해서 true를 호출하기 때문에 가능)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [163]:
df[df['height'].notnull()] # 위에 소스랑 반대로 호출

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [164]:
df.loc[df['company'].notnull(), ['name', 'gender']] # 소속사가 없는 강다니엘은 제외하고 나머지 name, gender 만 호출

Unnamed: 0,name,gender
0,지민,남자
1,정국,남자
2,민지,여자
3,하니,여자
4,뷔,남자
5,다니엘,여자
6,혜인,여자
7,지수,여자
8,해린,여자
9,태연,여자


In [165]:
df['height']

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       NaN
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [166]:
# fillna() : 결측값을 채워주는 함수
df['height'].fillna(0) # '0'이란걸 넣고 확인만

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       0.0
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [167]:
df_copy = df.copy() # 데이터를 복사하는 메서드 .copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [168]:
height = df_copy['height'].mean() # 평균 구하기 .mean()
height

np.float64(170.53684210526316)

In [169]:
df_copy['height'] = df_copy['height'].fillna(height) # 키가 NaN 인 사람에게 평균값으로 채워 데이터를 변경
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,170.536842,A,2079866


In [170]:
df_copy = df.copy() # 또 복사

In [171]:
# df_copy['height'].median()
df_copy['height'] = df_copy['height'].median() # NaN 값을 중앙값으로 삽입
df_copy # 호출

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,168.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,168.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,168.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,168.0,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,168.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,168.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,168.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,168.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,168.0,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,168.0,A,2079866


In [172]:
df_copy = df.copy() # 또또 복사

In [173]:
# dropna(): 결측값이 있는 행 또는 열을 제거. 겵측값이 한개라도 있는 경우 삭제
# axis=0 (행 삭제)
df_copy.dropna()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250


In [174]:
df_copy.dropna(axis=1) # NaN이 있는 열을 삭제한다

Unnamed: 0,name,group,gender,birthday,brand
0,지민,방탄소년단,남자,1995-10-13,6267302
1,정국,방탄소년단,남자,1997-09-01,5805844
2,민지,뉴진스,여자,2004-05-07,4437081
3,하니,뉴진스,여자,2004-10-06,4161153
4,뷔,방탄소년단,남자,1995-12-30,3470048
5,다니엘,뉴진스,여자,2005-04-11,2341271
6,혜인,뉴진스,여자,2008-04-21,2301785
7,지수,블랙핑크,여자,1995-01-03,2227460
8,해린,뉴진스,여자,2006-05-15,2173376
9,태연,소녀시대,여자,1989-03-09,2079866


### axis

1. NumPy는 수학적 배열 연산에서 출발했기 때문에, 축(axis) 개념이 배열의 모양과 연산 방향에 초점을 맞춥니다.

    - axis=0: 배열의 세로 방향(열), axis=1: 배열의 가로 방향(행)



2. Pandas는 데이터 분석에 특화된 라이브러리로, 행(row)과 열(column)을 명시적으로 구분하여 작업을 수행합니다.

    - axis=0: 행(row)을 대상으로 작업(열 간 연산). axis=1: 열(column)을 대상으로 작업(행 간 연산)

# 7. 행, 열 추가 및 삭제하기

In [175]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [176]:
dic = {
    'name': '김사과',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '2000-01-01',
    'height': 160.0,
    'blood': 'A',
    'brand': 1234567
}

In [177]:
# concat(): 데이터를 합침. axis=0 (기본값)
df_copy = pd.concat([df_copy, pd.DataFrame(dic, index=[0])], ignore_index=True)
df_copy
# 참고 : 인덱스를 리셋하면서 값을 추가하는 과정까지 추가됨

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [178]:
df_copy['nation'] = '대한민국' # 또또또 복사한 데이터에서 nation value 를 추가하여 모두 대한민국으로 부여함
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


In [179]:
df_copy.tail() # 확인용

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514,대한민국
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,대한민국


In [180]:
df_copy.loc[df_copy['name'] == '김사과', 'nation'] = '미국' # 김사과씨를 찾아서 notion 에다 미국으로 변경함
df_copy.tail() # 미국용

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514,대한민국
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,미국


In [181]:
# 행 제거하기
df_copy.drop(20, axis=0) # 0: 행. 1: 열 이되는 것

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [182]:
df_copy.tail() # 아직 김사과를 지운것이 아니라는 확인용

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514,대한민국
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,미국


In [183]:
df_copy.drop([1, 3, 5, 7, 20], axis=0)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,대한민국
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,대한민국
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,대한민국
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,대한민국


In [184]:
df_copy.drop('nation', axis=1) # nation 지우기

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [185]:
df_copy.drop(['nation', 'group'], axis=1)

Unnamed: 0,name,company,gender,birthday,height,blood,brand
0,지민,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,에스엠,여자,1989-03-09,,A,2079866


# **8. 통계 함수**

In [186]:
df_copy.describe()

Unnamed: 0,height,brand
count,20.0,21.0
mean,170.01,2630399.0
std,7.416688,1384378.0
min,160.0,1234567.0
25%,164.125,1885297.0
50%,168.0,2069499.0
75%,179.0,2341271.0
max,182.0,6267302.0


In [187]:
df_copy['height'].sum() # 키 합계

np.float64(3400.2)

In [188]:
df_copy['height'].count() # 개수, NaN은 포함 되지 않음

np.int64(20)

In [189]:
df_copy['height'].mean() # 평균 NaN은 역시 평균에 들어가지 않음

np.float64(170.01)

In [190]:
df_copy['height'].median() # 중앙값

np.float64(168.0)

### ※ 평균과 중앙값

평균은 모든 데이터를 더한 후, 데이터 개수로 나눈 값입니다. 데이터를 고르게 분배했을 때, 한 데이터가 가질 수 있는 이론적인 중심값을 의미합니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때, 가운데 위치하는 값입니다. 데이터의 순서에만 영향을 받고, 값의 크기에는 영향을 받지 않습니다. 데이터가 고르게 분포된 경우 평균과 중앙값이 비슷하거나 같습니다. 하지만 데이터에 극단값(Outlier)이 있는 경우 평균은 극단값의 영향을 받아 왜곡될 수 있지만, 중앙값은 비교적 안정적입니다.

In [191]:
df_copy['height'].max()

np.float64(182.0)

In [192]:
df_copy['height'].min()

np.float64(160.0)

In [193]:
df_copy['height'].var() # 분산

np.float64(55.00726315789475)

In [194]:
df_copy['height'].std() # 표준편차

np.float64(7.416688152935564)

### ※ 분산과 표준편차

분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다. 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다. 평균에서 각 데이터의 거리를 제곱한 값들의 평균입니다. 표준편차는 분산의 제곱근입니다. 분산은 제곱 값이기 때문에 단위가 커질 수 있는데, 이를 원래 데이터와 같은 단위로 변환하기 위해 제곱근을 씌웁니다.

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FlSDKp%2FbtsLh5aU1e8%2FAAAAAAAAAAAAAAAAAAAAALLo-v9lCG02Pjz21LsA2v3fa3ieSoACoMfBNnkw9FCc%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1764514799%26allow_ip%3D%26allow_referer%3D%26signature%3D%252F%252FyoVoFTBwK9w9C3TykG0cuPFgQ%253D">

# 9. 그룹

In [195]:
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [196]:
# groupby(): 데이터를 그룹으로 묶어 분석할 때 사용
df_copy.groupby('group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020886491E10>

In [197]:
# 그룹을 맺으면 통계함수를 사용할 수 있음
df_copy.groupby('group').count()

Unnamed: 0_level_0,name,company,gender,birthday,height,blood,brand,nation
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
과수원,1,1,1,1,1,1,1,1
뉴진스,5,5,5,5,5,4,5,5
레드벨벳,2,2,2,2,2,2,2,2
방탄소년단,5,5,5,5,5,5,5,5
블랙핑크,4,4,4,4,4,4,4,4
소녀시대,2,2,2,2,1,2,2,2
워너원,2,1,2,2,2,2,2,2


In [198]:
df_copy.groupby('group').mean(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,160.0,1234567.0
뉴진스,166.04,3082933.2
레드벨벳,164.5,1786140.5
방탄소년단,178.4,3858656.0
블랙핑크,165.0,2024410.5
소녀시대,168.0,1982581.5
워너원,180.5,1830385.5


In [199]:
df_copy.groupby('group').sum(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,160.0,1234567
뉴진스,830.2,15414666
레드벨벳,329.0,3572281
방탄소년단,892.0,19293280
블랙핑크,660.0,8097642
소녀시대,168.0,3965163
워너원,361.0,3660771


In [200]:
df_copy.groupby('gender').sum(numeric_only=True)

Unnamed: 0_level_0,height,brand
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,1253.0,22954051
여자,2147.2,32284319


In [201]:
df_copy.groupby(['blood','gender']).sum(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,height,brand
blood,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
A,남자,895.0,17803416
A,여자,987.0,15464055
AB,남자,179.0,3470048
B,여자,663.5,8016055
O,남자,179.0,1680587
O,여자,331.7,6462938


In [202]:
df_copy.groupby(['blood','gender'])['height'].mean()

blood  gender
A      남자        179.000
       여자        164.500
AB     남자        179.000
B      여자        165.875
O      남자        179.000
       여자        165.850
Name: height, dtype: float64

# **10. 중복값 제거하기**

In [203]:
df_copy['blood']

0       A
1       A
2       A
3       O
4      AB
5     NaN
6       O
7       A
8       B
9       A
10      A
11      B
12      A
13      A
14      B
15      B
16      A
17      A
18      A
19      O
20      A
Name: blood, dtype: object

In [204]:
# drop_duplicates(): 중복된 데이터를 제거
df_copy['blood'].drop_duplicates()

0      A
3      O
4     AB
5    NaN
8      B
Name: blood, dtype: object

In [205]:
# 중복된 데이터를 제거 하고 거꾸로 읽게 함 (별루! 안씀)
df_copy['blood'].drop_duplicates(keep='last')

4      AB
5     NaN
15      B
19      O
20      A
Name: blood, dtype: object

In [206]:
# value_counts(): 열의 각 값에 대한 데이터의 개수를 반환. 기본은 NaN을 생략 (정말 많이 쓰임)
df_copy['blood'].value_counts()

blood
A     12
B      4
O      3
AB     1
Name: count, dtype: int64

In [207]:
df_copy['company'].value_counts()

company
빅히트     7
어도어     5
와이지     4
에스엠     2
판타지오    1
애플      1
Name: count, dtype: int64

In [208]:
df_copy['company'].value_counts(dropna=False) # NaN을 포함

company
빅히트     7
어도어     5
와이지     4
에스엠     2
판타지오    1
NaN     1
애플      1
Name: count, dtype: int64

# **11. 데이터프레임 합치기**

In [209]:
df1 = pd.read_csv('./data/idol.csv')
df2 = pd.read_csv('./data/idol2.csv')

In [210]:
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [211]:
df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,정국,3500,3
2,민지,3200,4
3,하니,3050,4
4,뷔,4300,3
5,다니엘,2900,5
6,혜인,3400,6
7,지수,4500,5
8,해린,4200,4
9,태연,4300,4


In [212]:
df_copy = df1.copy()

In [213]:
pd.concat([df1, df_copy]) # axis=0 (기본값)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [214]:
df_concat = pd.concat([df1, df_copy])
# reset_index(): index를 새롭게 적용
# drop=True 옵션을 사용하여 기존 index가 컬럼으로 만들어지는 것을 방지
df_concat.reset_index(drop="True")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [215]:
pd.concat([df1, df2], axis=1) # 같은 index와 결합 데이터가 좋아서 잘 붙은거임

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,정국,3500,3
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,하니,3050,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,다니엘,2900,5
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400,6
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,지수,4500,5
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200,4
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,태연,4300,4


In [216]:
df3 = df2.drop([1,3,5,7,9])
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3
14,로제,4150,3


In [217]:
pd.concat([df1,df3], axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,,,


In [218]:
df_right = df2.drop([1,3,5,7,9], axis=0)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3
14,로제,4150,3


In [219]:
df_right = df_right.reset_index(drop=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [220]:
dic = {
    '이름': '김사과',
    '연봉': 9000,
    '가족수': 10
}

df_right = pd.concat([df_right, pd.DataFrame(dic, index=[0])], ignore_index=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [221]:
pd.concat([df1, df_right], axis=1) # 인덱스 끼리 합쳐지기 때문에 엉망이 된다 (합치는걸 조심히 해야한다는 교훈을 주는 셀|)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,민지,3200.0,4.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,뷔,4300.0,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,혜인,3400.0,6.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,해린,4200.0,4.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,RM,3700.0,3.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,제니,3850.0,5.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,옹성우,3900.0,4.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,리사,4100.0,3.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,로제,4150.0,3.0


In [222]:
# merge(): 특정 고유한 키(unique, id)값을 기준으로 합침
# merge(데이터프레임1, 데이터프레임2, on='유니크값', how='병합의 기준')
# 병합의 기준: left, right, inner, cross
pd.merge(df1, df_right, on='이름', how='left')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,,


In [223]:
pd.merge(df1, df_right, on='이름', how='right') # df2 테이블 기준으로 들어갔고 1,3,5,7,9 셀이 빠짐

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302.0,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081.0,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048.0,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785.0,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376.0,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499.0,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250.0,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327.0,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800.0,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132.0,4150,3


In [224]:
pd.merge(df1, df_right, on='이름', how='inner') # 양쪽 둘다 있는것만 나옴. 교집합

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,4150,3


In [225]:
pd.merge(df1, df_right, how='cross') # 각각 모든 셀에 전부 합친 내용

Unnamed: 0,이름_x,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름_y,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,민지,3200,4
2,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,뷔,4300,3
3,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,혜인,3400,6
4,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,해린,4200,4
...,...,...,...,...,...,...,...,...,...,...,...
315,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,조이,3500,3
316,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,슬기,3200,4
317,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,강다니엘,3050,4
318,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,진,4300,3


In [226]:
df_right.columns = ['성함', '연봉', '가족수']
df_right

Unnamed: 0,성함,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [227]:
# pd.merge(df1, df_right, on='이름', how='inner') KeyError: '이름'
pd.merge(df1, df_right, left_on='이름', right_on='성함', how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성함,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,RM,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,제니,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,옹성우,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,리사,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,로제,4150,3


# **12. 등수 매기기**

In [228]:
# rank(): 데이터프레임 또는 시리즈의 순위를 매기는 함수. 기본값은 ascending
df1['브랜드순위'] = df1['브랜드평판지수'].rank() # '브랜드순위' 를 보고 파생변수 라고 함
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,20.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,19.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,18.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,17.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,16.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,15.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,14.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,13.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,12.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,11.0


In [229]:
df1['브랜드순위'] = df1['브랜드평판지수'].rank(ascending=False) # '브랜드순위' 를 보고 파생변수 라고 함
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,2.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,4.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,5.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,6.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,7.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,8.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,9.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,10.0


In [230]:
# astype(): 특정열의 자료형을 변경
df1['브랜드순위'] = df1['브랜드순위'].astype(int)
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,2
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,5
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,6
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,7
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,8
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,9
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,10


In [231]:
type(df1['브랜드순위']), df1['브랜드순위'].dtypes # type은 Series로 표현되나, 원래 타입을 보고싶다면 dtypes 로 보면 됨

(pandas.core.series.Series, dtype('int64'))

# **13. 날짜타입 사용하기**

In [232]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [233]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [234]:
df_copy['birthday']

0     1995-10-13
1     1997-09-01
2     2004-05-07
3     2004-10-06
4     1995-12-30
5     2005-04-11
6     2008-04-21
7     1995-01-03
8     2006-05-15
9     1989-03-09
10    1994-09-12
11    1996-01-16
12    1995-08-25
13    1997-03-27
14    1997-02-11
15    1990-05-30
16    1996-09-03
17    1994-02-10
18    1996-12-10
19    1992-12-04
Name: birthday, dtype: object

In [235]:
# to_datetime(): object타입에서 datetime타입으로 변환
df_copy['birthday'] = pd.to_datetime(df_copy['birthday']) # datetime64 으로 dtypes를 변환함으로서 날짜 계산 및 추출이 가능
print(type(df_copy['birthday']))
print(df_copy['birthday'].dtypes)

<class 'pandas.core.series.Series'>
datetime64[ns]


In [236]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   name      20 non-null     object        
 1   group     20 non-null     object        
 2   company   19 non-null     object        
 3   gender    20 non-null     object        
 4   birthday  20 non-null     datetime64[ns]
 5   height    19 non-null     float64       
 6   blood     19 non-null     object        
 7   brand     20 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 1.4+ KB


In [237]:
df_copy['birthday'].dt.year # 년도로 뽑음

0     1995
1     1997
2     2004
3     2004
4     1995
5     2005
6     2008
7     1995
8     2006
9     1989
10    1994
11    1996
12    1995
13    1997
14    1997
15    1990
16    1996
17    1994
18    1996
19    1992
Name: birthday, dtype: int32

In [238]:
df_copy['birthday'].dt.month # 월로 뽑음

0     10
1      9
2      5
3     10
4     12
5      4
6      4
7      1
8      5
9      3
10     9
11     1
12     8
13     3
14     2
15     5
16     9
17     2
18    12
19    12
Name: birthday, dtype: int32

In [239]:
df_copy['birthday'].dt.day # 날짜로 뽑음

0     13
1      1
2      7
3      6
4     30
5     11
6     21
7      3
8     15
9      9
10    12
11    16
12    25
13    27
14    11
15    30
16     3
17    10
18    10
19     4
Name: birthday, dtype: int32

In [240]:
df_copy['birthday'].dt.hour # 시간으로 호출
# df_copy['birthday'].dt.minute # 분으로 호출
# df_copy['birthday'].dt.second # 초로 호출

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
Name: birthday, dtype: int32

In [241]:
df_copy['birthday'].dt.dayofweek # 요일: 0(월요일) ~ 6(일요일)

0     4
1     0
2     4
3     2
4     5
5     0
6     0
7     1
8     0
9     3
10    0
11    1
12    4
13    3
14    1
15    2
16    1
17    3
18    1
19    4
Name: birthday, dtype: int32

In [242]:
df_copy['birthday'].dt.isocalendar().week # 몇 번째 주 였는지 호출 가능

0     41
1     36
2     19
3     41
4     52
5     15
6     17
7      1
8     20
9     10
10    37
11     3
12    34
13    13
14     7
15    22
16    36
17     6
18    50
19    49
Name: week, dtype: UInt32

# **14. apply 사용하기**
Pandas의 apply() 함수는 데이터프레임이나 시리즈의 데이터를 사용자 정의 함수 또는 내장 함수에 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. 데이터를 행(row) 또는 열(column) 단위로 처리할 수 있는 강력한 도구입니다.

In [243]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [244]:
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [245]:
# 라벨 인코딩
# 성별을 남자는 1, 여자는 0으로 변환(loc를 사용)
df_copy.loc[df_copy['gender'] == '남자', 'gender'] = 1
df_copy.loc[df_copy['gender'] == '여자', 'gender'] = 0

In [246]:
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,1,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,1,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,0,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,0,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,1,1995-12-30,179.0,AB,3470048


In [247]:
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,1,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,1,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,0,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,0,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,1,1995-12-30,179.0,AB,3470048


In [248]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [249]:
def male_or_female(x):
    if x == '남자':
        return 1
    elif x == '여자':
        return 0
    else:
        return None

In [250]:
print(male_or_female('남자'))
print(male_or_female('여자'))

1
0


In [251]:
df_copy['gender'].apply(male_or_female)

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: gender, dtype: int64

In [252]:
df_copy['gender'].apply(lambda x: 1 if x == '남자' else 0)

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: gender, dtype: int64

In [253]:
# df_copy['NewGender'] = df_copy['성별'].apply(lambda x: 1 if x == '남자' else 0) 에러남
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


# **15. map 사용하기**
Pandas의 map() 함수는 Series 객체에서 사용할 수 있는 함수로, 각 요소에 대해 함수나 매핑 규칙을 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. map()은 데이터의 각 요소를 순회하며 특정 작업을 수행하므로, 데이터를 가공하거나 변환하는 데 유용합니다.

In [254]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [255]:
map_gender = {'남자':1, '여자':0}

In [256]:
df_copy['gender'].map(map_gender)

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: gender, dtype: int64

In [257]:
# df_copy['NewGender'] = df_copy['성별'].map(map_gender) 에러남
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


# **16. 데이터프레임의 산술연산**

In [258]:
df1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 90, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})


In [259]:
df1

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,60,40,35
1,70,60,40
2,80,70,30
3,90,55,70
4,95,87,55


In [260]:
df1['파이썬'].dtypes

dtype('int64')

In [261]:
type(df1['파이썬'])

pandas.core.series.Series

In [262]:
df1['파이썬'] + df1['데이터분석'] + df1['머신러닝딥러닝']

0    135
1    170
2    180
3    215
4    237
dtype: int64

In [263]:
# df1에 총점, 평균이라는 파생변수를 만들고 파생변수에 총점, 평균을 구해서 저장
df1['총점'] = df1['파이썬'] + df1['데이터분석'] + df1['머신러닝딥러닝']
df1['평균'] = df1['총점'] / 3
df1

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝,총점,평균
0,60,40,35,135,45.0
1,70,60,40,170,56.666667
2,80,70,30,180,60.0
3,90,55,70,215,71.666667
4,95,87,55,237,79.0


In [264]:
df1['파이썬'].sum() # df1['파이썬'].sum(axis=0)

np.int64(395)

In [265]:
df1['파이썬'].mean()

np.float64(79.0)

In [266]:
df1.sum()

파이썬        395.000000
데이터분석      312.000000
머신러닝딥러닝    230.000000
총점         937.000000
평균         312.333333
dtype: float64

In [267]:
df1.mean()

파이썬         79.000000
데이터분석       62.400000
머신러닝딥러닝     46.000000
총점         187.400000
평균          62.466667
dtype: float64

In [268]:
df1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 90, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df2 = pd.DataFrame({
    '파이썬':['C', 'B', 'B', 'A', 'A'],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

In [269]:
# df1 + df2 # 에러가 발생함. df2의 파이썬 변수에 있는 값들은 문자열이기 때문에 TypeError: unsupported operand type(s) for +: 'int' and 'str'
df1 + 10
# df2 + 10 # 에러가 발생함 df2의 파이썬 변수에 있는 값들은 문자열이기 때문에 TypeError: can only concatenate str (not "int") to str

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,70,50,45
1,80,70,50
2,90,80,40
3,100,65,80
4,105,97,65


In [270]:
df1 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df2 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55],
    '머신러닝딥러닝':[35, 40, 30, 70]
})

In [271]:
df1 + df2 # 행의 갯수가 다를 경우 빠진 데이터를 NaN으로 취급하기 때문에 결과는 NaN이 나온다

Unnamed: 0,데이터분석,머신러닝딥러닝
0,80.0,70.0
1,120.0,80.0
2,140.0,60.0
3,110.0,140.0
4,,


# **17. select_dtypes**

In [272]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [273]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [274]:
df_copy.select_dtypes(include='object') # 문자열 컬럼만 가져오기 (object)

Unnamed: 0,name,group,company,gender,birthday,blood
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


In [275]:
df_copy.select_dtypes(exclude='object') # 문자열 컬럼만 빼고!! 가져오기

Unnamed: 0,height,brand
0,174.0,6267302
1,179.0,5805844
2,169.0,4437081
3,161.7,4161153
4,179.0,3470048
5,165.0,2341271
6,170.0,2301785
7,162.0,2227460
8,164.5,2173376
9,,2079866


In [276]:
# 문자가 아닌 컬럼에만 10을 더함
df_copy.select_dtypes(exclude='object') + 10

Unnamed: 0,height,brand
0,184.0,6267312
1,189.0,5805854
2,179.0,4437091
3,171.7,4161163
4,189.0,3470058
5,175.0,2341281
6,180.0,2301795
7,172.0,2227470
8,174.5,2173386
9,,2079876


In [277]:
# 문자열을 가지고 있는 컬럼의 이름만 변수에 저장하여 출력
str_cols = df_copy.select_dtypes(include='object').columns
str_cols

Index(['name', 'group', 'company', 'gender', 'birthday', 'blood'], dtype='object')

In [278]:
df[str_cols]

Unnamed: 0,name,group,company,gender,birthday,blood
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


# **18. get_dummies**
get_dummies()는 Pandas에서 **범주형 데이터를 원-핫 인코딩(one-hot encoding) 방식으로 변환하는 데 사용됩니다.
* 범주형 데이터란: 숫자는 숫자인데 숫자에 의미가 부여된 것<br>
    Ex) 주민번호 7자리는 1:남자 2:여자 이나 이것을 산술 할 수 없<br>
    Ex) 혈액형 으로 A형은 1, B형은 2 이런식일 때 이것을 더하면 데이터가 틀림

### 원-핫 인코딩

원-핫 인코딩은 각 범주를 별도의 열로 변환하고, 해당 범주에 해당하는 곳에 1을, 나머지에는 0을 채우는 방식입니다. 예를 들어, 데이터가 "Red", "Green", "Blue"와 같은 문자열이라면, 모델은 이를 이해하지 못합니다. 범주형 데이터를 숫자로 변환해야 모델이 계산할 수 있습니다. 원-핫 인코딩은 범주형 데이터를 숫자로 변환하면서도 각 범주 간의 순서나 크기를 부여하지 않습니다.

In [279]:
blood_map = {'A':0, 'B':1, 'AB':2, 'O':3} # <- 딱 이렇게만 저장하면 서로 관계성을 지닐 수도 있다.
df_copy['blood_code'] = df_copy['blood'].map(blood_map) # 라벨 인코딩
df_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,blood_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,0.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,0.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,3.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,2.0


In [280]:
pd.get_dummies(df_copy['blood'])

Unnamed: 0,A,AB,B,O
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,False,True
4,False,True,False,False
5,False,False,False,False
6,False,False,False,True
7,True,False,False,False
8,False,False,True,False
9,True,False,False,False


In [281]:
df_copy = pd.get_dummies(df_copy, columns=['blood'])
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,brand,blood_code,blood_A,blood_AB,blood_B,blood_O
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,6267302,0.0,True,False,False,False
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,5805844,0.0,True,False,False,False
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,4437081,0.0,True,False,False,False
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,4161153,3.0,False,False,False,True
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,3470048,2.0,False,True,False,False
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,2341271,,False,False,False,False
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,2301785,3.0,False,False,False,True
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,2227460,0.0,True,False,False,False
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,2173376,1.0,False,False,True,False
9,태연,소녀시대,에스엠,여자,1989-03-09,,2079866,0.0,True,False,False,False


In [282]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   name        20 non-null     object 
 1   group       20 non-null     object 
 2   company     19 non-null     object 
 3   gender      20 non-null     object 
 4   birthday    20 non-null     object 
 5   height      19 non-null     float64
 6   brand       20 non-null     int64  
 7   blood_code  19 non-null     float64
 8   blood_A     20 non-null     bool   
 9   blood_AB    20 non-null     bool   
 10  blood_B     20 non-null     bool   
 11  blood_O     20 non-null     bool   
dtypes: bool(4), float64(2), int64(1), object(5)
memory usage: 1.5+ KB


In [283]:
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,brand,blood_code,blood_A,blood_AB,blood_B,blood_O
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,6267302,0.0,True,False,False,False
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,5805844,0.0,True,False,False,False
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,4437081,0.0,True,False,False,False
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,4161153,3.0,False,False,False,True
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,3470048,2.0,False,True,False,False
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,2341271,,False,False,False,False
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,2301785,3.0,False,False,False,True
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,2227460,0.0,True,False,False,False
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,2173376,1.0,False,False,True,False
9,태연,소녀시대,에스엠,여자,1989-03-09,,2079866,0.0,True,False,False,False
