# **1. 판다스(Pandas)**
* 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 테이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
* 데이터프레임(DataFrame)이라는 자료구조를 제공

In [7]:
!pip install pandas



In [8]:
import pandas as pd

# **2. Series 와 DataFrame**

### 2-1. Series
* Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄
* Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음
* 값은 넘파이의 ndarray 기반으로 저장됨
* Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수 , 문자열 등 다양한 형태의 데이터를 담을 수 있음

In [9]:
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 75, 62, 98]

In [10]:
# Series(데이터, 인덱스)  #인덱스 생략가능
pd.Series(data)

0    67
1    75
2    75
3    62
4    98
dtype: int64

In [11]:
se1 = pd.Series(data, index=idx)
se1

김사과    67
반하나    75
오렌지    75
이메론    62
배애리    98
dtype: int64

In [12]:
print(se1.index)
print(se1.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
[67 75 75 62 98]


### 2-2. DataFrame
* 데이터프레임은 판다스 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로 2차원의 테이블 형태 데이터를 다룸
* 데이터프레임의 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있음
* 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있음
* 값은 넘파이의 ndarray 기반으로 저장

In [13]:
data = [[67, 93, 91],
        [75, 69, 96],
        [76, 81, 82],
        [62, 70, 75],
        [98, 56, 87]]

idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']

In [14]:
# DataFrame(데이터, 인덱스, 컬럼, ...)
pd.DataFrame(data)  # 컬럼 인덱스 자동을 붙음

Unnamed: 0,0,1,2
0,67,93,91
1,75,69,96
2,76,81,82
3,62,70,75
4,98,56,87


In [15]:
# 인덱스 추가
pd.DataFrame(data,idx)

Unnamed: 0,0,1,2
김사과,67,93,91
반하나,75,69,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


In [16]:
# 컬럼 추가
pd.DataFrame(data,idx, col)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,69,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


In [17]:
# 순서 중요해서 적고 넣어줌
pd.DataFrame(data=data,index=idx, columns=col)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,69,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


In [18]:
df = pd.DataFrame(data=data,index=idx, columns=col)
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,69,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


In [19]:
# print 찍으면 안 예쁨 ㅠㅠ
print(df)

     국어  영어  수학
김사과  67  93  91
반하나  75  69  96
오렌지  76  81  82
이메론  62  70  75
배애리  98  56  87


In [20]:
print(df.index)
print(df.columns)
print(df.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')
[[67 93 91]
 [75 69 96]
 [76 81 82]
 [62 70 75]
 [98 56 87]]


### 2-3. 딕셔너리를 사용하여 데이터프레임을 생성하기

In [21]:
dic = {
    '국어': [67, 75, 75, 72, 98],
    '영어': [93, 69, 81, 70, 45],
    '수학': [91, 96, 82, 75, 87]
}

In [22]:
df = pd.DataFrame(data=dic, index=idx)
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,69,96
오렌지,75,81,82
이메론,72,70,75
배애리,98,45,87


# **3. CSV파일 읽어오기**
* csv(Comma Seperated Value)의 약자로 데이터를 쉼표로 구분한 파일

In [23]:
df = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol.csv')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [24]:
type(df)

# **4. 데이터프레임 기본정보 알아보기**

In [25]:
# info(): 행(row), 열(column)의 기본적인 정보와 데이터 타입을 반환해줌
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [26]:
# 컬럼명 변경하기
print(df.columns)
new_columns = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood', 'brand']
df.columns = new_columns
print(df.columns)

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')
Index(['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood',
       'brand'],
      dtype='object')


In [27]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [28]:
# describe(): 통계 정보를 반환
df.describe()

Unnamed: 0,height,brand
count,19.0,20.0
mean,170.536842,2700190.0
std,7.225204,1381919.0
min,161.0,1680587.0
25%,164.75,1887423.0
50%,168.0,2074682.0
75%,179.0,2623465.0
max,182.0,6267302.0


In [29]:
# 숫자 궁금하면
2.700190e+06

2700190.0

In [30]:
# 문자열 object 데이터 통계 정보 보기 => # top: 최빈값, freq: 최빈값의 빈도
df.describe(include = object)

Unnamed: 0,name,group,company,gender,birthday,blood
count,20,20,19,20,20,19
unique,20,6,5,2,20,4
top,지민,방탄소년단,빅히트,여자,1995-10-13,A
freq,1,5,7,13,1,11


In [31]:
# 원하는 갯수의 데이터 보기
df.head()  # 상위 5개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [32]:
df.head(3)  # 상위 3개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [33]:
df.tail()  # 하위 5개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [34]:
df.tail(2)  # 하위 2개의 row를 출력

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [35]:
# 정렬하기
df.sort_index()  # index로 오른차순 정렬: 기본값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [36]:
df.sort_index(ascending=False)  # index로 내림차순로 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [37]:
df.sort_values(by='height')   # 갑(키)으로 오름차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


In [38]:
df.sort_values(by='height', ascending=False)  # 갑(키)에 따른 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


In [39]:
df.sort_values(by='height', ascending=False, na_position='first')  # 널값 제일 위로

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [40]:
# 1차 정렬: 키(내림차순), 2차 정렬: 브랜드(내림차순)
df.sort_values(by=['height', 'brand'], ascending=[False, False])

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


# **5. 데이터 다루기**

In [41]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [42]:
# 방법1: 혈액형만 뽑기
df['blood']   # series 모습

0       A
1       A
2       A
3       O
4      AB
5     NaN
6       O
7       A
8       B
9       A
10      A
11      B
12      A
13      A
14      B
15      B
16      A
17      A
18      A
19      O
Name: blood, dtype: object

In [43]:
type(df['blood'] )

In [44]:
# 방법2: 혈액형만 뽑기
df.blood

0       A
1       A
2       A
3       O
4      AB
5     NaN
6       O
7       A
8       B
9       A
10      A
11      B
12      A
13      A
14      B
15      B
16      A
17      A
18      A
19      O
Name: blood, dtype: object

In [45]:
# 방법 1: 상위 3개
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [46]:
# 방법 2: 상위 3개
# 범위 선택
df[:3]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [47]:
# loc 인덱싱: 이름 인덱싱, 행과 열 모두 인덱싱과 슬라이싱이 가능
# df.loc[행범위, 열지정]
df.loc[:, 'name']   # df['name'] 과 같음

0       지민
1       정국
2       민지
3       하니
4        뷔
5      다니엘
6       혜인
7       지수
8       해린
9       태연
10      RM
11      제니
12     옹성우
13      리사
14      로제
15      윤아
16      조이
17      슬기
18    강다니엘
19       진
Name: name, dtype: object

In [48]:
# 5포함 => 2에서5 까지
df.loc[2:5, 'name']  # 5번을 포함

2     민지
3     하니
4      뷔
5    다니엘
Name: name, dtype: object

In [49]:
# 여러개 컬럼 지정할꺼면 list에 넣기
df.loc[2:5,['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
2,민지,여자,169.0
3,하니,여자,161.7
4,뷔,남자,179.0
5,다니엘,여자,165.0


In [50]:
# name 부터 gender 까지 t슬라이싱
df.loc[2:5, 'name':'gender']

Unnamed: 0,name,group,company,gender
2,민지,뉴진스,어도어,여자
3,하니,뉴진스,어도어,여자
4,뷔,방탄소년단,빅히트,남자
5,다니엘,뉴진스,어도어,여자


In [51]:
# iloc인댁싱: index로 인덱싱, 행과 열 모두 인덱싱과 슬라이싱이 가능

# 0번쨰 열의 모든 값 불어오기
df.iloc[:, 0]

0       지민
1       정국
2       민지
3       하니
4        뷔
5      다니엘
6       혜인
7       지수
8       해린
9       태연
10      RM
11      제니
12     옹성우
13      리사
14      로제
15      윤아
16      조이
17      슬기
18    강다니엘
19       진
Name: name, dtype: object

In [52]:
df.iloc[:, [0,2]]

Unnamed: 0,name,company
0,지민,빅히트
1,정국,빅히트
2,민지,어도어
3,하니,어도어
4,뷔,빅히트
5,다니엘,어도어
6,혜인,어도어
7,지수,와이지
8,해린,어도어
9,태연,에스엠


In [53]:
# 0번째컬럼 부터 1번째 컬럼 까지의 모든 값 불어오기
df.iloc[:, 0:2]  # 2번 컬럼은 포함 하지 않음

Unnamed: 0,name,group
0,지민,방탄소년단
1,정국,방탄소년단
2,민지,뉴진스
3,하니,뉴진스
4,뷔,방탄소년단
5,다니엘,뉴진스
6,혜인,뉴진스
7,지수,블랙핑크
8,해린,뉴진스
9,태연,소녀시대


In [54]:
# 1 부터 5가 되기 전까지 => 1 부터 4까지의 값 불어오기
df.iloc[1:5, 0:2]

Unnamed: 0,name,group
1,정국,방탄소년단
2,민지,뉴진스
3,하니,뉴진스
4,뷔,방탄소년단


In [55]:
df['height'] >= 180

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18     True
19    False
Name: height, dtype: bool

In [56]:
# 방법1: 180이상 이름
df['name'][df['height'] >= 180]  # df[df['height'] >= 180]['name'] 같음

10      RM
18    강다니엘
Name: name, dtype: object

In [57]:
# 방법2: 180이상 이름
df[df['height'] >= 180]['name']  # df['name'][df['height'] >= 180] 같음

10      RM
18    강다니엘
Name: name, dtype: object

In [58]:
# 시리즈에서 180이상 모든 데이터
df[df['height'] >= 180]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444


In [59]:
df[df['height'] >= 180][['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


### 문제
* 키가 180cm이상인 연예인의 이름, 성별, 키, 브랜드평판지수를 출력
* 단, loc를 사용

In [60]:
df.loc[df['height'] >= 180, ['name', 'gender', 'height', 'brand']]

Unnamed: 0,name,gender,height,brand
10,RM,남자,181.0,2069499
18,강다니엘,남자,182.0,1706444


In [61]:
# isin(): 정의한 list에 있는 데이터를 불린으로 반환
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [62]:
company = ['빅히트', '어도어']
df['company'].isin(company)

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7     False
8      True
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16     True
17     True
18    False
19     True
Name: company, dtype: bool

In [63]:
# '빅히트', '어도어'인 사람만
df[df['company'].isin(company)]  # df[df['company'].isin(company), :]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514


In [64]:
# 위랑 같음
# df[df['company'].isin(company), :] 안됌.. 이상함

# **6. 결측값(NULL, NaN)**
* 비어있는 값, 판다스에는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급

In [65]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [66]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [67]:
# 방법1: 비어있는 값확인
df.isna()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [68]:
# 방법2: 비어있는 값확인
df.isnull()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [69]:
df['height'].isna()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
Name: height, dtype: bool

In [70]:
df[df['height'].isna()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [71]:
df[df['height'].isna()]['name']

9    태연
Name: name, dtype: object

In [72]:
# 널이 아닌 => notnull()
df[df['height'].notnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


### 문제
* 회사가 있는 연예인의 이름, 회사, 키를 출력
* 단, loc를 사용

In [73]:
df.loc[df['company'].notnull(), ['name', 'company', 'height']]

Unnamed: 0,name,company,height
0,지민,빅히트,174.0
1,정국,빅히트,179.0
2,민지,어도어,169.0
3,하니,어도어,161.7
4,뷔,빅히트,179.0
5,다니엘,어도어,165.0
6,혜인,어도어,170.0
7,지수,와이지,162.0
8,해린,어도어,164.5
9,태연,에스엠,


In [74]:
# fillna(): 결측값을 채워주는 함수
df['height']

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       NaN
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [75]:
df['height'].fillna(0) # df['height'].fillna(0, inplace=True) # 적용

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       0.0
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [76]:
# 저장안해서 넑값 남아있음
df['height']

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       NaN
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [77]:
# 반영 할라면
# df['height'].fillna(0, inplace=True)

In [78]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [79]:
height = df_copy['height'].mean()
height

170.53684210526316

In [80]:
df_copy['height'] = df_copy['height'].fillna(height)
df_copy['height']

0     174.000000
1     179.000000
2     169.000000
3     161.700000
4     179.000000
5     165.000000
6     170.000000
7     162.000000
8     164.500000
9     170.536842
10    181.000000
11    163.000000
12    179.000000
13    167.000000
14    168.000000
15    168.000000
16    168.000000
17    161.000000
18    182.000000
19    179.000000
Name: height, dtype: float64

In [81]:
df_copy = df.copy()
df_copy['height']  # 9 NaN 들어있음

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9       NaN
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [82]:
height = df_copy['height'].median()  # 50%값, 중위
height

168.0

In [83]:
df_copy['height'].fillna(height, inplace=True)
df_copy['height']  # 9  168.0 들어감

0     174.0
1     179.0
2     169.0
3     161.7
4     179.0
5     165.0
6     170.0
7     162.0
8     164.5
9     168.0
10    181.0
11    163.0
12    179.0
13    167.0
14    168.0
15    168.0
16    168.0
17    161.0
18    182.0
19    179.0
Name: height, dtype: float64

In [84]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [85]:
# dropna(): 결측값이 있는 행, 열 제거, 결측값이 한개라도 있는 경우 삭제
df_copy.dropna()   # axis=0 (행 삭제 생략)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250


In [86]:
# 결측값이 있는 열을 제거
df_copy.dropna(axis=1)

Unnamed: 0,name,group,gender,birthday,brand
0,지민,방탄소년단,남자,1995-10-13,6267302
1,정국,방탄소년단,남자,1997-09-01,5805844
2,민지,뉴진스,여자,2004-05-07,4437081
3,하니,뉴진스,여자,2004-10-06,4161153
4,뷔,방탄소년단,남자,1995-12-30,3470048
5,다니엘,뉴진스,여자,2005-04-11,2341271
6,혜인,뉴진스,여자,2008-04-21,2301785
7,지수,블랙핑크,여자,1995-01-03,2227460
8,해린,뉴진스,여자,2006-05-15,2173376
9,태연,소녀시대,여자,1989-03-09,2079866


# **7. 행, 열 추가 및 삭제하기**
* 행을 추가할 때 dict 형태의 데이터를 만들고 append() 메서드를 사용하여 데이터를 추가
* ignore_index=True 옵션을 추가해야 에러가 발생하기 않음

In [87]:
dic = {
    'name' : '김사과',
    'group' : '과수원',
    'company' : '애플',
    'gender': '여자',
    'birthday' : '2000-01-01',
    'height' : 160.0,
    'blood' : 'A',
    'brand' : 1234567
}

In [88]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [89]:
# 행 추가하기
#concat() : 데이터를 합침, axis = 0 (기본값)
df = pd.concat([df, pd.DataFrame(dic, index=[0])], ignore_index=True)
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [90]:
# 열 추가하기
df['nation'] = '대한민국'
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


### 문제
* '김사과'님의 국적을 '미국'으로 변경
* 단, loc를 사용

In [91]:
df.loc[df['name'] == '김사과', 'nation'] = '미국'
df.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514,대한민국
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,미국


In [92]:
df.loc[df['name'] == '김사과', 'nation']

20    미국
Name: nation, dtype: object

In [93]:
# 행 제거하기
df.drop(20, axis=0)  # 인플레이스 안됨

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [94]:
df.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514,대한민국
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,미국


In [95]:
df.drop([1, 3, 5, 20], axis=0)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,대한민국
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,대한민국
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,대한민국


In [96]:
# 열 제거하기
df.drop('nation', axis=1)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [97]:
df.drop(['group', 'nation'], axis=1)

Unnamed: 0,name,company,gender,birthday,height,blood,brand
0,지민,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,에스엠,여자,1989-03-09,,A,2079866


# **8. 통계 함수**

In [98]:
df.describe()

Unnamed: 0,height,brand
count,20.0,21.0
mean,170.01,2630399.0
std,7.416688,1384378.0
min,160.0,1234567.0
25%,164.125,1885297.0
50%,168.0,2069499.0
75%,179.0,2341271.0
max,182.0,6267302.0


In [99]:
df['height'].sum() # 합계

3400.2

In [100]:
df['height'].count() # 개수, NaN은 포함하지 않은

20

In [101]:
df['height'].mean() # 평균

170.01

In [102]:
df['height'].median() # 중앙값

168.0

In [103]:
df['height'].max() # 최대값

182.0

In [104]:
df['height'].min() # 최소값

160.0

In [105]:
# 분산: 확률 분호에서 데이터가 퍼져 있는 정도 (데이터가 평균으로부터 얼마나 퍼져 있는지 정도)
# (데이터-평균)**2을 모두 다 더한 값 / 데이터의 개수
df['height'].var()

55.00726315789475

In [106]:
# 표준편차: 분산에 루트를 씌움
df['height'].std()

7.416688152935564

# **9. 그룹**

In [107]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [108]:
# groupby(): 데이터를 그룹으로 묶어 분석할 때 사용
df.groupby('group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ae1d87f1e10>

In [109]:
df.groupby('group').count()

Unnamed: 0_level_0,name,company,gender,birthday,height,blood,brand,nation
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
과수원,1,1,1,1,1,1,1,1
뉴진스,5,5,5,5,5,4,5,5
레드벨벳,2,2,2,2,2,2,2,2
방탄소년단,5,5,5,5,5,5,5,5
블랙핑크,4,4,4,4,4,4,4,4
소녀시대,2,2,2,2,1,2,2,2
워너원,2,1,2,2,2,2,2,2


In [110]:
df.groupby('group').mean(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,160.0,1234567.0
뉴진스,166.04,3082933.2
레드벨벳,164.5,1786140.5
방탄소년단,178.4,3858656.0
블랙핑크,165.0,2024410.5
소녀시대,168.0,1982581.5
워너원,180.5,1830385.5


In [111]:
df.groupby('group').sum(numeric_only=True)

Unnamed: 0_level_0,height,brand
group,Unnamed: 1_level_1,Unnamed: 2_level_1
과수원,160.0,1234567
뉴진스,830.2,15414666
레드벨벳,329.0,3572281
방탄소년단,892.0,19293280
블랙핑크,660.0,8097642
소녀시대,168.0,3965163
워너원,361.0,3660771


In [112]:
df.groupby('gender').mean(numeric_only=True)

Unnamed: 0_level_0,height,brand
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,179.0,3279150.0
여자,165.169231,2306023.0


In [113]:
df.groupby('gender').mean('height', 'brand')

Unnamed: 0_level_0,height,brand
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,179.0,3279150.0
여자,165.169231,2306023.0


### **문제1**
* 혈액형별로 그룹을 맺어, 키의 평균값을 확인

In [114]:
df.groupby('blood')['height'].mean()

blood
A     171.090909
AB    179.000000
B     165.875000
O     170.233333
Name: height, dtype: float64

### **문제2**
* 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인


In [115]:
df.groupby(['blood', 'gender'])['height'].mean()

blood  gender
A      남자        179.000
       여자        164.500
AB     남자        179.000
B      여자        165.875
O      남자        179.000
       여자        165.850
Name: height, dtype: float64

# **10. 중복값 제거하기**

In [116]:
df['blood']

0       A
1       A
2       A
3       O
4      AB
5     NaN
6       O
7       A
8       B
9       A
10      A
11      B
12      A
13      A
14      B
15      B
16      A
17      A
18      A
19      O
20      A
Name: blood, dtype: object

In [117]:
# drop_duplicates(): 중복된 데이터를 제거
df['blood'].drop_duplicates()  # 중복 제거 후 가장 먼저 나온 인덱스가 나옴

0      A
3      O
4     AB
5    NaN
8      B
Name: blood, dtype: object

In [118]:
df['blood'].drop_duplicates(keep='last')

4      AB
5     NaN
15      B
19      O
20      A
Name: blood, dtype: object

In [119]:
# value_counts(): 열의 각 값에 대한 데이터의 개수를 반환. NaN은 생략
df['blood'].value_counts()

blood
A     12
B      4
O      3
AB     1
Name: count, dtype: int64

In [120]:
df['company'].value_counts()

company
빅히트     7
어도어     5
와이지     4
에스엠     2
판타지오    1
애플      1
Name: count, dtype: int64

In [121]:
df['company'].value_counts(dropna=False)   # NaN  1 표시

company
빅히트     7
어도어     5
와이지     4
에스엠     2
판타지오    1
NaN     1
애플      1
Name: count, dtype: int64

# **11. 데이터프레임 합치기**

In [124]:
df1 = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol.csv')
df2 = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol2.csv')

In [125]:
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [126]:
df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,정국,3500,3
2,민지,3200,4
3,하니,3050,4
4,뷔,4300,3
5,다니엘,2900,5
6,혜인,3400,6
7,지수,4500,5
8,해린,4200,4
9,태연,4300,4


In [127]:
df_copy = df1.copy()

In [128]:
pd.concat([df1, df_copy])

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [129]:
df_concat = pd.concat([df1, df_copy])

In [130]:
# reset_index(): index를 새롭게 적용
# drop=True 옵션을 사용하여 기준 index가 컬럼으로 만들어지는 것을 방지
df_concat.reset_index()

Unnamed: 0,index,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [132]:
pd.concat([df1, df2], axis=1)  # 같은 index와 결합

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,정국,3500,3
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,하니,3050,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,다니엘,2900,5
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400,6
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,지수,4500,5
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200,4
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,태연,4300,4


In [133]:
df3 = df2.drop([1, 3, 5, 7])
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
9,태연,4300,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3


In [134]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,혜인,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,해린,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,태연,4300.0,4.0


In [135]:
df_right = df2.drop([1, 3, 5, 7, 9], axis=0)
df_right  # 데이터 1, 3, 5, 7, 9 없음

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,민지,3200,4
4,뷔,4300,3
6,혜인,3400,6
8,해린,4200,4
10,RM,3700,3
11,제니,3850,5
12,옹성우,3900,4
13,리사,4100,3
14,로제,4150,3


In [136]:
df_right = df_right.reset_index(drop=True)
df_right  # 빈 구멍없이 index가 리셋

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [137]:
pd.concat([df1, df_right], axis=1)  # 인덱스 기준으로 합쳐져서 이상하게됨

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,민지,3200.0,4.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,뷔,4300.0,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,혜인,3400.0,6.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,해린,4200.0,4.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,RM,3700.0,3.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,제니,3850.0,5.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,옹성우,3900.0,4.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,리사,4100.0,3.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,로제,4150.0,3.0


In [138]:
# merge(): 특정 고유한 키(unique, id)값을 기준으로 합침
# merge(데이터프레임1, 데이터프레임2, on='유니크값', how='병합의 기준')
# 병합의 기준: left, right, inner, cross
pd.merge(df1, df_right, on='이름', how='left')  # 잘 합쳐짐

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000.0,3.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,,
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200.0,4.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,,
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300.0,3.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,,
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400.0,6.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,,
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200.0,4.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,,


In [139]:
pd.merge(df1, df_right, on='이름', how='right')  # 잘 합쳐짐 => 정국 하니 없어짐(1,3,5,7,9 사라짐)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,4150,3


In [140]:
pd.merge(df1, df_right, on='이름', how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132,4150,3


In [142]:
# pd.merge(df1, df_right, on='이름', how='cross' ) # 에러

In [143]:
pd.merge(df1, df_right, how='cross' )  # on='이름' 빼면 에러 안남

Unnamed: 0,이름_x,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름_y,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,민지,3200,4
2,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,뷔,4300,3
3,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,혜인,3400,6
4,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,해린,4200,4
...,...,...,...,...,...,...,...,...,...,...,...
295,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,윤아,3000,3
296,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,조이,3500,3
297,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,슬기,3200,4
298,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,강다니엘,3050,4


### 문제
* df_right 데이터프레임에 아래와 같은 데이터를 추가하고 df1과 merge하여 출력
* "이름: 김사과, 연봉:7000, 가족수:10"
* 단, how=right로 함

In [144]:
dic = {"이름":"김사과", "연봉":7000, "가족수":10}
df_right = pd.concat([df_right, pd.DataFrame(dic, index=[0])], ignore_index=True)
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [146]:
pd.merge(df1, df_right, how='right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302.0,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081.0,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048.0,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785.0,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376.0,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499.0,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250.0,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327.0,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800.0,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132.0,4150,3


In [151]:
df_right.columns = ['성함', '연봉', '가족수']
df_right

Unnamed: 0,성함,연봉,가족수
0,지민,3000,3
1,민지,3200,4
2,뷔,4300,3
3,혜인,3400,6
4,해린,4200,4
5,RM,3700,3
6,제니,3850,5
7,옹성우,3900,4
8,리사,4100,3
9,로제,4150,3


In [152]:
# pd.merge(df1, df_right, on='이름', how='right')  # KeyError: '이름'=>  이름이 없어서 에러
pd.merge(df1, df_right, left_on='이름', right_on='성함', how='right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성함,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302.0,지민,3000,3
1,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081.0,민지,3200,4
2,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048.0,뷔,4300,3
3,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785.0,혜인,3400,6
4,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376.0,해린,4200,4
5,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499.0,RM,3700,3
6,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250.0,제니,3850,5
7,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327.0,옹성우,3900,4
8,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800.0,리사,4100,3
9,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132.0,로제,4150,3


# **12. 등수 매기기**

In [153]:
# rank(): 데이터프레임 또는 시리즈이 순위를 매기는 함수. 기본값은 ascending
df1['브랜딩순위'] = df1['브랜드평판지수'].rank()
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜딩순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,20.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,19.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,18.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,17.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,16.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,15.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,14.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,13.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,12.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,11.0


In [154]:
df1['브랜드순위'] = df1['브랜드평판지수'].rank(ascending=False)
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜딩순위,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,20.0,1.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,19.0,2.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,18.0,3.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,17.0,4.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,16.0,5.0
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,15.0,6.0
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,14.0,7.0
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,13.0,8.0
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,12.0,9.0
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,11.0,10.0


In [155]:
# 타입 바꾸기
# astype(): 특정열의 자료형을 변경
df1['브랜드순위'] = df1['브랜드순위'].astype(int)
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜딩순위,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,20.0,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,19.0,2
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,18.0,3
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,17.0,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,16.0,5
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,15.0,6
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,14.0,7
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,13.0,8
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,12.0,9
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,11.0,10


In [156]:
df1['브랜드순위'].dtypes

dtype('int64')

# **13. 날짜타입 사용하기**

In [174]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   name      21 non-null     object        
 1   group     21 non-null     object        
 2   company   20 non-null     object        
 3   gender    21 non-null     object        
 4   birthday  21 non-null     datetime64[ns]
 5   height    20 non-null     float64       
 6   blood     20 non-null     object        
 7   brand     21 non-null     int64         
 8   nation    21 non-null     object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(6)
memory usage: 1.6+ KB


In [175]:
df['birthday']

0    1995-10-13
1    1997-09-01
2    2004-05-07
3    2004-10-06
4    1995-12-30
5    2005-04-11
6    2008-04-21
7    1995-01-03
8    2006-05-15
9    1989-03-09
10   1994-09-12
11   1996-01-16
12   1995-08-25
13   1997-03-27
14   1997-02-11
15   1990-05-30
16   1996-09-03
17   1994-02-10
18   1996-12-10
19   1992-12-04
20   2000-01-01
Name: birthday, dtype: datetime64[ns]

In [176]:
# to_datetime(): object타입에서 datetime타임으로 변환
df['birthday'] = pd.to_datetime(df['birthday'])
df['birthday']

0    1995-10-13
1    1997-09-01
2    2004-05-07
3    2004-10-06
4    1995-12-30
5    2005-04-11
6    2008-04-21
7    1995-01-03
8    2006-05-15
9    1989-03-09
10   1994-09-12
11   1996-01-16
12   1995-08-25
13   1997-03-27
14   1997-02-11
15   1990-05-30
16   1996-09-03
17   1994-02-10
18   1996-12-10
19   1992-12-04
20   2000-01-01
Name: birthday, dtype: datetime64[ns]

In [177]:
# 년도 year
df['birthday'].dt.year

0     1995
1     1997
2     2004
3     2004
4     1995
5     2005
6     2008
7     1995
8     2006
9     1989
10    1994
11    1996
12    1995
13    1997
14    1997
15    1990
16    1996
17    1994
18    1996
19    1992
20    2000
Name: birthday, dtype: int32

In [178]:
# 월 month
df['birthday'].dt.month

0     10
1      9
2      5
3     10
4     12
5      4
6      4
7      1
8      5
9      3
10     9
11     1
12     8
13     3
14     2
15     5
16     9
17     2
18    12
19    12
20     1
Name: birthday, dtype: int32

In [179]:
# 날짜 day
df['birthday'].dt.day

0     13
1      1
2      7
3      6
4     30
5     11
6     21
7      3
8     15
9      9
10    12
11    16
12    25
13    27
14    11
15    30
16     3
17    10
18    10
19     4
20     1
Name: birthday, dtype: int32

In [180]:
# 시간 hour
df['birthday'].dt.hour

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
Name: birthday, dtype: int32

In [181]:
# 분 minute
df['birthday'].dt.minute

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
Name: birthday, dtype: int32

In [182]:
# 초 second
df['birthday'].dt.second

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
Name: birthday, dtype: int32

In [183]:
# 요일
df['birthday'].dt.dayofweek # 요일: 0(월요일) ~ 6(일요일)

0     4
1     0
2     4
3     2
4     5
5     0
6     0
7     1
8     0
9     3
10    0
11    1
12    4
13    3
14    1
15    2
16    1
17    3
18    1
19    4
20    5
Name: birthday, dtype: int32

In [184]:
# 주
df['birthday'].dt.isocalendar().week  # 일년중에 몇번째 주였는지

0     41
1     36
2     19
3     41
4     52
5     15
6     17
7      1
8     20
9     10
10    37
11     3
12    34
13    13
14     7
15    22
16    36
17     6
18    50
19    49
20    52
Name: week, dtype: UInt32

# **14. apply 사용하기**
* Series나 DataFrame에 구체적인 로직을 적용하고 싶을 때 사용
* apply를 적용하기 위해서는 별도의 함수를 먼저 정의해야 함
* 작성된 함수를 apply 에 매개변수로 전달함

In [170]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


In [185]:
# 성별이 남자는 1, 여자는 0으로 변환(loc를 사용)
df.loc[df['gender'] == '남자', 'gender'] = 1
df.loc[df['gender'] == '여자', 'gender'] = 0

In [186]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,1,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,1,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,0,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,0,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,1,1995-12-30,179.0,AB,3470048,대한민국


In [187]:
df = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol.csv')
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [188]:
def male_or_female(x):
    if x == '남자':
        return 1
    elif x == '여자':
        return 0
    else:
        return None

In [190]:
df['성별'].apply(male_or_female)

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: 성별, dtype: int64

In [191]:
df['성별'].apply(lambda x: 1 if x == '남자' else 0)

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: 성별, dtype: int64

In [192]:
df['New성별'] = df['성별'].apply(lambda x: 1 if x == '남자' else 0)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,New성별
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,1
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,1


# **15. map사용하기**
* 딕셔너리를 통해 데이터와 같은 키의 값을 적용

In [193]:
df = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol.csv')
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [194]:
map_gender = {'남자': 1, '여자':0}

In [196]:
df['성별'].map(map_gender)  # map이 자동을 바꿔줌

0     1
1     1
2     0
3     0
4     1
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    1
13    0
14    0
15    0
16    0
17    0
18    1
19    1
Name: 성별, dtype: int64

In [197]:
df['New성별'] = df['성별'].map(map_gender)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,New성별
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,1
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,1


# **16. 데이터프레임의 산술연산**

In [201]:
df = pd.DataFrame({
    '파이썬':[60, 70, 80, 86, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 80, 55]
})

In [202]:
df

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,60,40,35
1,70,60,40
2,80,70,30
3,86,55,80
4,95,87,55


In [203]:
df['파이썬'].dtypes

dtype('int64')

In [205]:
type(df['파이썬'])   # series

In [206]:
df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝']

0    135
1    170
2    180
3    221
4    237
dtype: int64

In [211]:
# df에 총점, 평균이라는 파생변수를 만들고 파생변수에 총점, 평균을 구해서 저장
df['총점'] = df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝']
df['평균'] = df['총점'] / 3
df

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝,총점,평균
0,60,40,35,135,45.0
1,70,60,40,170,56.666667
2,80,70,30,180,60.0
3,86,55,80,221,73.666667
4,95,87,55,237,79.0


In [212]:
df['파이썬'].sum()  # df['파이썬'].sum(axis=0)  => 행끼리 더한거

391

In [213]:
df['파이썬'].mean()  # 행끼리 평균

78.2

In [214]:
df.sum()

파이썬        391.000000
데이터분석      312.000000
머신러닝딥러닝    240.000000
총점         943.000000
평균         314.333333
dtype: float64

In [215]:
df.mean()

파이썬         78.200000
데이터분석       62.400000
머신러닝딥러닝     48.000000
총점         188.600000
평균          62.866667
dtype: float64

In [216]:
# 타입 다를때
df1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 86, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 80, 55]
})

df2 = pd.DataFrame({
    '파이썬':['C', 'A', 'B', 'B', 'A'],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 80, 55]
})

In [218]:
# df1 + df2  # 에러 => 일치하지 않아서 'int' and 'str'
df1 + 10

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,70,50,45
1,80,70,50
2,90,80,40
3,96,65,90
4,105,97,65


In [221]:
# df2 + 10  # 에러 => 문자열 있어서

In [222]:
# 갯수 다름
df1 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 80, 55]
})

df2 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55],
    '머신러닝딥러닝':[35, 40, 30, 80]
})

In [224]:
# 행의 개수가 다를 경우 빠진 데이터를 NaN으로 취급하기 때문에 연산이 안됨
df1 + df2

Unnamed: 0,데이터분석,머신러닝딥러닝
0,80.0,70.0
1,120.0,80.0
2,140.0,60.0
3,110.0,160.0
4,,


# **17. select_dtypes**

In [225]:
df = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/idol.csv')
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [226]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [228]:
df.select_dtypes(include='object')  # 문자열 컬럼만 가져오기

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


In [230]:
df.select_dtypes(exclude='object')  # 문자열 컬럼만 빼고 가져오기

Unnamed: 0,키,브랜드평판지수
0,174.0,6267302
1,179.0,5805844
2,169.0,4437081
3,161.7,4161153
4,179.0,3470048
5,165.0,2341271
6,170.0,2301785
7,162.0,2227460
8,164.5,2173376
9,,2079866


In [231]:
# 문자가 아닌 컬럼에만 10을 더함
df.select_dtypes(exclude='object') + 10

Unnamed: 0,키,브랜드평판지수
0,184.0,6267312
1,189.0,5805854
2,179.0,4437091
3,171.7,4161163
4,189.0,3470058
5,175.0,2341281
6,180.0,2301795
7,172.0,2227470
8,174.5,2173386
9,,2079876


### 문제
* 문자열을 가지고 있는 컬럼의 이름만 저장하여 출력

In [233]:
str_cols = df.select_dtypes(include='object').columns
str_cols

Index(['이름', '그룹', '소속사', '성별', '생년월일', '혈액형'], dtype='object')

In [234]:
df[str_cols]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
5,다니엘,뉴진스,어도어,여자,2005-04-11,
6,혜인,뉴진스,어도어,여자,2008-04-21,O
7,지수,블랙핑크,와이지,여자,1995-01-03,A
8,해린,뉴진스,어도어,여자,2006-05-15,B
9,태연,소녀시대,에스엠,여자,1989-03-09,A


# **18. 원 핫 인코딩(One Hot Encoding)**
* 원 핫 인코딩은 한개의 요소는 1, 나머지 요소는 0으로 만들어 카테고리형을 표현하는 방법
* 예) df['혈액형']
    * 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 한다면 라벨 인코딩을 하여 수치 데이터로 변환
    * 컴퓨터는 값 들간의 관계를 스스로 형성하게 될 수 있음
    * 만약 B형은 1, AB형이 2라는 값을 가지고 있다면 컴퓨터는 'B형 + AB형 = O형'라는 이상한 관계를 맺을 수 있음
    * 별도의 column들을 형성해주고 1개의 column에는 1, 나머지 column에는 0으로 넣어줌으로 'A, B, AB, O'형의 관계는 서로 독립적이다 라는 카테고리로 표현하는 방식(원 핫 인코딩)

In [242]:
blood_map = {'A':0, 'B':1, 'AB':2, 'O':3}
df['혈액형_code'] = df['혈액형'].map(blood_map)
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,혈액형_code_0.0,혈액형_code_1.0,혈액형_code_2.0,혈액형_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,True,False,False,0.0
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,True,False,False,0.0
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,True,False,False,0.0
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,False,False,False,3.0
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,False,False,True,2.0


In [243]:
# get_dummies(): 원 핫 인코딩을 적용
pd.get_dummies(df['혈액형_code'])

Unnamed: 0,0.0,1.0,2.0,3.0
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,False,True
4,False,False,True,False
5,False,False,False,False
6,False,False,False,True
7,True,False,False,False
8,False,True,False,False
9,True,False,False,False


In [244]:
df = pd.get_dummies(df, columns=['혈액형_code'])
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,혈액형_code_0.0,혈액형_code_1.0,혈액형_code_2.0,혈액형_code_0.0.1,혈액형_code_1.0.1,혈액형_code_2.0.1,혈액형_code_3.0
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,True,False,False,True,False,False,False
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,True,False,False,True,False,False,False
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,True,False,False,True,False,False,False
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,False,False,False,False,False,False,True
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,False,False,True,False,False,True,False
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,False,False,False,False,False,False,False
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,False,False,False,False,False,False,True
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,True,False,False,True,False,False,False
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,False,True,False,False,True,False,False
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,True,False,False,True,False,False,False


In [245]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 15 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   이름            20 non-null     object 
 1   그룹            20 non-null     object 
 2   소속사           19 non-null     object 
 3   성별            20 non-null     object 
 4   생년월일          20 non-null     object 
 5   키             19 non-null     float64
 6   혈액형           19 non-null     object 
 7   브랜드평판지수       20 non-null     int64  
 8   혈액형_code_0.0  20 non-null     bool   
 9   혈액형_code_1.0  20 non-null     bool   
 10  혈액형_code_2.0  20 non-null     bool   
 11  혈액형_code_0.0  20 non-null     bool   
 12  혈액형_code_1.0  20 non-null     bool   
 13  혈액형_code_2.0  20 non-null     bool   
 14  혈액형_code_3.0  20 non-null     bool   
dtypes: bool(7), float64(1), int64(1), object(6)
memory usage: 1.5+ KB
