# **1. Pandas**
- 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 데이터 구조를 제공하는 모듈

In [1]:
!pip install pandas



In [2]:
import pandas as pd

In [3]:
pd

<module 'pandas' from '/usr/local/lib/python3.10/dist-packages/pandas/__init__.py'>

### 1-1. Series 와 DataFrame

- 1차원, 1개의 column은 Series라고 부름
- 데이터프레임 : 가로축, 세로축이 있는 2차원의 다양한 데이터 타입을 저장하는 자료구조

In [4]:
# 시리즈
pd.Series([1, 2, 3, 4])

0    1
1    2
2    3
3    4
dtype: int64

In [5]:
# 데이터프레임
product1 = [['삼성', 10000, '갤럭시S23U'],
            ['애플', 15000, '아이폰14'],
            ['엘지', 8000, 'G2']]

In [6]:
product1

[['삼성', 10000, '갤럭시S23U'], ['애플', 15000, '아이폰14'], ['엘지', 8000, 'G2']]

In [7]:
df1 = pd.DataFrame(product1)

In [8]:
df1

Unnamed: 0,0,1,2
0,삼성,10000,갤럭시S23U
1,애플,15000,아이폰14
2,엘지,8000,G2


In [9]:
# df1.columns
# 컬럼의 이름 수정
df1.columns = ['회사명', '가격', '상품명']

In [10]:
df1

Unnamed: 0,회사명,가격,상품명
0,삼성,10000,갤럭시S23U
1,애플,15000,아이폰14
2,엘지,8000,G2


In [11]:
# 컬럼 이름을 지정하면서
# 데이터 프레임 만들기
# 딕셔너리 활용
product2 = {
    '회사명' : ['삼성', '애플', '엘지'],
    '가격' : [10000, 15000, 8000],
    '상품명' : ['갤럭시', '아이폰', '옵티머스']
}

In [12]:
df2 = pd.DataFrame(product2)

In [13]:
df2

Unnamed: 0,회사명,가격,상품명
0,삼성,10000,갤럭시
1,애플,15000,아이폰
2,엘지,8000,옵티머스


In [14]:
# 하나의 값에 접근하기
df2['회사명'][0]

'삼성'

In [15]:
# 열 하나를 때 오면 시리즈
type(df2['상품명'])

pandas.core.series.Series

# **2. CSV 파일**
- Comma Separated Value 의 약자로써 데이터를 쉼표로 구분한 파일
- 엑셀로 로딩할 수 있지만, 쉼표로 구분된 파일이 훨씬 가볍기 때문에 표준 csv를 많이 사용
- 공공데이터 포털에서도 csv 포멧의 파일을 많이 제공


In [16]:
# 1. csv 파일 자체를 코랩 환경에 추가하여 읽어오기

# pd.read_csv('korean-idol.csv')
# pd.read_csv('korean-idol.csv', encoding = 'utf-8')

In [17]:
# 2. url 을 이용하여 읽어오기

pd.read_csv('http://bit.ly/ds-korean-idol')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [18]:
# 다음에 접속할 때마다 올려놓은 파일이 없어지기 때문에
# 구글 드라이브에 파일 추가 후, 구글 드라이브와 코랩을 연결

from google.colab import drive

In [19]:
drive.mount('/content/drive')

Mounted at /content/drive


In [20]:
pd.read_csv('/content/drive/MyDrive/파이썬AI프로젝트202307/3_데이터 분석/korean-idol.csv')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# **3. 엑셀파일 읽어오기**

In [21]:
pd.read_excel('/content/drive/MyDrive/파이썬AI프로젝트202307/3_데이터 분석/korean-idol.xlsx')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# **4. 데이터 기본 정보 알아보기**

In [22]:
df = pd.read_excel('/content/drive/MyDrive/파이썬AI프로젝트202307/3_데이터 분석/korean-idol.xlsx')

In [23]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [24]:
type(df)

pandas.core.frame.DataFrame

### 4-1. column(열)

In [25]:
df.columns

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [26]:
new_column = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'bloodType', 'brand']

In [27]:
df.columns = new_column

In [28]:
# df.columns.values[2] = 'test'

In [29]:
print(type(df.columns))
print(type(df.columns.values))

<class 'pandas.core.indexes.base.Index'>
<class 'numpy.ndarray'>


In [30]:
df

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### 4-2. row(행)

In [31]:
df.index

RangeIndex(start=0, stop=15, step=1)

In [32]:
# 기본적인 row(행)의 정보와 데이터타입을 리턴
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   name       15 non-null     object        
 1   group      14 non-null     object        
 2   company    15 non-null     object        
 3   gender     15 non-null     object        
 4   birthday   15 non-null     datetime64[ns]
 5   height     13 non-null     float64       
 6   bloodType  15 non-null     object        
 7   brand      15 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 1.1+ KB


### 4-3. 통계정보 알아보기

In [33]:
# 정수 또는 실수의 필드 데이터만 가져와서 통계 정보를 출력

# e
# 너무 크거나, 너무 작은 숫자를 표현할 때 사용함
# e+06 -> 10의 6승

df.describe()

Unnamed: 0,height,brand
count,13.0,15.0
mean,175.792308,5655856.0
std,5.820576,2539068.0
min,162.1,2925442.0
25%,174.0,3712344.0
50%,177.0,4668615.0
75%,179.2,7862214.0
max,183.0,10523260.0


### 4-4. 형태(Shape) 알아보기

In [34]:
df.shape

(15, 8)

### 4-5. 원하는 갯수의 데이터 보기
- head() : 상위 5개의 row를 출력
- head(n) : 상위 n개의 row를 출력
- tail() : 하위 5개의 row를 출력
- tail(n) : 하위 n개의 row를 출력

In [35]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [36]:
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [37]:
df.tail()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


In [38]:
df.tail(10)

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


### 4-6. 정렬하기

In [39]:
# index로 오름차순 정렬
df.sort_index()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [40]:
# index로 내림차순 정렬
df.sort_index(ascending = False)

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335


In [41]:
# 값에 따른 정렬(오름차순)
df.sort_values(by = 'height')

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


In [42]:
# 값에 따른 정렬(내림차순)
df.sort_values(by = 'height', ascending = False)

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


In [43]:
# NaN을 가장 위로 올리고 싶어요!
df.sort_values(by = 'height', na_position = 'first')

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501


In [44]:
# 1차 정렬 : 키 (오름차순), 2차 정렬 : 브랜드(오름차순)
df.sort_values(by = ['height', 'brand'], na_position = 'first')

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335


In [45]:
# 1차 정렬 : 키 (내림차순), 2차 정렬 : 브랜드(오름차순)
df.sort_values(by = ['height', 'brand'], ascending = [False, True], na_position = 'first')

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137


# **5. 컬럼으로 데이터 다루기**

In [46]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [47]:
type(df['bloodType'])

pandas.core.series.Series

In [48]:
# 열 이름으로 값에 접근 할 때에는
# 대괄호를 생략하고, . 을 찍어서 접근할 수 있다.
df.bloodType

0      A
1      A
2      A
3     AB
4      A
5      A
6      O
7      B
8      O
9      A
10     A
11     B
12    AB
13     O
14     O
Name: bloodType, dtype: object

### 5-1. 범위 선택

In [49]:
df[:3] # df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [50]:
# label location
# 데이터프레임의 범위 선택
df.loc[:, 'name']

0       지민
1     지드래곤
2     강다니엘
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: name, dtype: object

In [51]:
# :3 (index 3을 포함)
df.loc[:3, 'name']

0      지민
1    지드래곤
2    강다니엘
3       뷔
Name: name, dtype: object

In [52]:
# loc 를 쓰지 않고도 할 수는 있지만,
# 불편하기 때문에 잘 사용하지 않는다.
df[:3][['name', 'height']]

Unnamed: 0,name,height
0,지민,173.6
1,지드래곤,177.0
2,강다니엘,180.0


In [53]:
df.loc[:3, ['name', 'height']]

Unnamed: 0,name,height
0,지민,173.6
1,지드래곤,177.0
2,강다니엘,180.0
3,뷔,178.0


In [54]:
# 8까지 포함된다.
df.loc[3:8, ['name', 'height']]

Unnamed: 0,name,height
3,뷔,178.0
4,화사,162.1
5,정국,178.0
6,민현,182.3
7,소연,
8,진,179.2


In [55]:
# 열 이름을 활용해서 슬라이싱도 가능
# loc 는 뒤에 거 까지 포함!
df.loc[3:8, 'name':'height']

Unnamed: 0,name,group,company,gender,birthday,height
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0
4,화사,마마무,RBW,여자,1995-07-23,162.1
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3
7,소연,아이들,큐브,여자,1998-08-26,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2


In [56]:
# index label location
# 0:2 (index 2를 포함하지 않는다.)
df.iloc[:, 0:2]

Unnamed: 0,name,group
0,지민,방탄소년단
1,지드래곤,빅뱅
2,강다니엘,
3,뷔,방탄소년단
4,화사,마마무
5,정국,방탄소년단
6,민현,뉴이스트
7,소연,아이들
8,진,방탄소년단
9,하성운,핫샷


In [57]:
# 끝 인덱스를 포함하지 않는다.
df.iloc[1:3, 0:2]

Unnamed: 0,name,group
1,지드래곤,빅뱅
2,강다니엘,


In [58]:
# 연속되지 않는 인덱스를 따로 전달 할 수 있다.
df.iloc[1:3, [0, 5]]

Unnamed: 0,name,height
1,지드래곤,177.0
2,강다니엘,180.0


# **6. Boolean Indexing**

In [59]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [60]:
# boolean 타입의 값만 가진 시리즈를 구함
df.height >= 180

0     False
1     False
2      True
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10    False
11     True
12    False
13    False
14    False
Name: height, dtype: bool

In [61]:
# 행 번호를 전달할 자리에, 시리즈를 전달한 것.
# boolean 타입의 값을 가진 시리즈
# True 에 해당하는 행만 가지고 온다.
df[df.height >= 180]

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


In [62]:
df[df.height >= 180].name

2     강다니엘
6       민현
11     차은우
Name: name, dtype: object

In [63]:
# [실습]
# 키가 180 이상인 친구들의
# 이름, 생일, 혈액형 가지고 오기
df.loc[df.height >= 180, ['name', 'birthday', 'bloodType']]

Unnamed: 0,name,birthday,bloodType
2,강다니엘,1996-12-10,A
6,민현,1995-08-09,O
11,차은우,1997-03-30,B


# **7. isin 활용하기**

- isin은 조건을 걸고자 하는 값이 정의한 list에 있을 때만 색인하려는 경우에 활용

In [64]:
company = ['SM', 'YG']

In [65]:
df.company.isin(company)

0     False
1      True
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
Name: company, dtype: bool

In [66]:
df[df.company.isin(company)]

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


In [67]:
# 모든 열을 보고 싶을 때, , : 생략할 수 있다.
df.loc[df.company.isin(company)]

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


In [68]:
df.loc[df.company.isin(company), ['name', 'company']]

Unnamed: 0,name,company
1,지드래곤,YG
10,태연,SM


# **8. 결측값**

- Null은 비어있는 값 또는 결측값이라고 부름
- pandas에서는 NaN(Not a Number)로 표기된 것은 결측값으로 취급

In [69]:
df

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [70]:
# null 이 있는지 없는지 파악할 수 있다.
# group 컬럼에 결측값 1개
# height 컬럼에 결측값 2개
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   name       15 non-null     object        
 1   group      14 non-null     object        
 2   company    15 non-null     object        
 3   gender     15 non-null     object        
 4   birthday   15 non-null     datetime64[ns]
 5   height     13 non-null     float64       
 6   bloodType  15 non-null     object        
 7   brand      15 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 1.1+ KB


In [71]:
# 결측값인지 아닌지 여부를 판단
# 야! 너~ na 니?
# 응! -> 결측값(True)
# df.isna()
df.isnull()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,True,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


In [72]:
# 시리즈로 isnull() 을 사용하면 결과도 시리즈!(논리타입 값만 가지는)
df['group'].isnull()

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
Name: group, dtype: bool

In [73]:
# boolean indexing!
# True 인 행만 가지고 온다.
# 즉, group 컬럼이 결측값인 행을 가지고 온다.
df[df['group'].isnull()]

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [74]:
df[df['group'].isnull()]['name']

2    강다니엘
Name: name, dtype: object

In [75]:
# 논리 타입의 값을 가지고 있는 시리즈일 뿐이다!
# 전체 데이터셋과 너무 연결하려는 자세는 별로!
df['name'][df['group'].isnull()]

2    강다니엘
Name: name, dtype: object

In [76]:
# notnull()
# 결측값인 요소는 False,
# 데이터가 있다면 True
print(df['group'].notnull())

df['name'][df['group'].notnull()]

0      True
1      True
2     False
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
Name: group, dtype: bool


0       지민
1     지드래곤
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: name, dtype: object

In [77]:
# [실습]
# 그룹이 있는 연예인의 이름, 키, 혈액형을 출력(단, loc를 사용)
df.loc[df['group'].notnull(), ['name', 'height', 'bloodType']]

Unnamed: 0,name,height,bloodType
0,지민,173.6,A
1,지드래곤,177.0,A
3,뷔,178.0,AB
4,화사,162.1,A
5,정국,178.0,A
6,민현,182.3,O
7,소연,,B
8,진,179.2,O
9,하성운,167.1,A
10,태연,,A


# **9. 데이터 복사**

In [78]:
# 데이터가 잘 있는지 확인
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [79]:
new_df = df

In [80]:
new_df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [81]:
# 해당 컬럼의 모든 값을 변경
new_df['name'] = '류호근'

In [82]:
new_df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,류호근,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,류호근,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,류호근,,커넥트,남자,1996-12-10,180.0,A,8273745
3,류호근,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,류호근,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [83]:
# df 과 new_df, 둘 다 같은 주소를 참조하고 있다.
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,bloodType,brand
0,류호근,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,류호근,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,류호근,,커넥트,남자,1996-12-10,180.0,A,8273745
3,류호근,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,류호근,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [84]:
# 같은 주소를 참조하고 있다는 것을 확인!
# 정확한 주소는 절대 아니다!
print(hex(id(new_df)))
print(hex(id(df)))

0x79938bf4a230
0x79938bf4a230


In [85]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [86]:
copy_df = df.copy()

In [87]:
# 값 자체가 복사된 것을 확인!
print(hex(id(copy_df)))
print(hex(id(df)))

0x79938d205060
0x79938d206950


In [88]:
copy_df['이름'] = '류호근'

In [89]:
copy_df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,류호근,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,류호근,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,류호근,,커넥트,남자,1996-12-10,180.0,A,8273745
3,류호근,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,류호근,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [90]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


# **10. row, column 추가 및 삭제하기**

### 10-1. row 추가
- dict 형태의 데이터를 만들어주고 append() 함수를 사용하여 데이터를 추가
- 반드시 ignore_index = True 옵션을 추가해야 에러가 나지 않음

In [91]:
# 이름	그룹	소속사	성별	생년월일	키	혈액형	브랜드평판지수
df.append({'이름' : '류호근', '그룹' : '리베로', '소속사' : '창원', '성별' : '남자', '생년월일' : '2002-08-29',
           '키' : 175, '혈액형' : 'B', '브랜드평판지수' : 12345678}, ignore_index = True)

  df.append({'이름' : '류호근', '그룹' : '리베로', '소속사' : '창원', '성별' : '남자', '생년월일' : '2002-08-29',


Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [92]:
# 추가가 되지 않았다.
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


In [93]:
df = df.append({'이름' : '류호근', '그룹' : '리베로', '소속사' : '창원', '성별' : '남자', '생년월일' : '2002-08-29',
           '키' : 175, '혈액형' : 'B', '브랜드평판지수' : 12345678}, ignore_index = True)

  df = df.append({'이름' : '류호근', '그룹' : '리베로', '소속사' : '창원', '성별' : '남자', '생년월일' : '2002-08-29',


In [94]:
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
15,류호근,리베로,창원,남자,2002-08-29,175.0,B,12345678


### 10-2. column 추가

In [95]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [96]:
# 새로 추가하고 싶은 컬럼 이름을 사용하여
# 간편하게 추가할 수 있다.
# 값과 저장공간에 대한 이해!
df['국적'] = '대한민국'

In [97]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국


In [98]:
# [실습]
# 류호근의 국적을 싱가폴로 바꿔보세요!
df.loc[df['이름'] == '류호근', '국적'] = '싱가폴'

In [99]:
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,대한민국
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,대한민국
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,대한민국
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,대한민국
15,류호근,리베로,창원,남자,2002-08-29,175.0,B,12345678,싱가폴


# **11. 통계값 다루기**

In [100]:
df.describe()

Unnamed: 0,키,브랜드평판지수
count,14.0,16.0
mean,175.735714,6073970.0
std,5.596236,2968869.0
min,162.1,2925442.0
25%,174.25,3815502.0
50%,176.5,4829204.0
75%,178.9,8123562.0
max,183.0,12345680.0


In [101]:
# 컬럼의 모든 수를 더하는 함수
df['키'].sum()

2460.3

In [102]:
# 컬럼의 평균
df['키'].mean()

175.7357142857143

In [103]:
df['키'].count()

14

In [104]:
print('최솟값 : ', df['키'].min())
print('최댓값 : ', df['키'].max())

최솟값 :  162.1
최댓값 :  183.0


In [105]:
# 분산 : 데이터가 평균으로부터 얼마나 떨어져 있는지 정도
# 식 : (데이터 - 평균) ** 2 을 모두 합한 값 / 데이터의 갯수
# 표준편차 : 분산에 루트를 씌움
print(df['키'].var()) # 분산(variance)
print(df['키'].std()) # 표준편차

31.31785714285717
5.596235979911603


In [106]:
import numpy as np

data = np.array([1, 3, 5, 7, 9])

In [107]:
# 분산
print(((1-5) ** 2 + (3-5) ** 2 + (5-5) ** 2 + (7-5) ** 2 + (9-5) ** 2) / 5)

8.0


In [108]:
# 표준편차
print(np.sqrt(((1-5) ** 2 + (3-5) ** 2 + (5-5) ** 2 + (7-5) ** 2 + (9-5) ** 2) / 5))

2.8284271247461903


In [109]:
print(data.var())
print(data.std())

8.0
2.8284271247461903


# **12. 그룹으로 묶기**
- groupby() 는 데이터를 그룹으로 묶어 분석할 때 사용

In [110]:
# 그룹화는 되었다.
# 하지만, 그룹화 후 알고싶은 정보를 전달해야한다.
df.groupby('소속사')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x79938bc71a80>

In [111]:
df.groupby('소속사').count()

Unnamed: 0_level_0,이름,그룹,성별,생년월일,키,혈액형,브랜드평판지수,국적
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
RBW,1,1,1,1,1,1,1,1
SM,1,1,1,1,0,1,1,1
YG,1,1,1,1,1,1,1,1
빅히트,5,5,5,5,5,5,5,5
스타크루이엔티,1,1,1,1,1,1,1,1
창원,1,1,1,1,1,1,1,1
커넥트,1,0,1,1,1,1,1,1
큐브,1,1,1,1,0,1,1,1
판타지오,1,1,1,1,1,1,1,1
플레디스,3,3,3,3,3,3,3,3


In [112]:
df.groupby('성별').mean()

  df.groupby('성별').mean()


Unnamed: 0_level_0,키,브랜드평판지수
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,176.784615,6226563.0
여자,162.1,5412735.0


In [113]:
# [실습]
# 혈액형별로 그룹을 맺어 키의 평균값을 확인하자.
df.groupby('혈액형')['키'].mean()

혈액형
A     172.966667
AB    176.500000
B     179.000000
O     177.875000
Name: 키, dtype: float64

In [114]:
# 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인
df.groupby(['혈액형', '성별'])['키'].mean()

혈액형  성별
A    남자    175.140
     여자    162.100
AB   남자    176.500
B    남자    179.000
     여자        NaN
O    남자    177.875
Name: 키, dtype: float64

# **13. 결측값 채우기**

In [115]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       16 non-null     object 
 1   그룹       15 non-null     object 
 2   소속사      16 non-null     object 
 3   성별       16 non-null     object 
 4   생년월일     16 non-null     object 
 5   키        14 non-null     float64
 6   혈액형      16 non-null     object 
 7   브랜드평판지수  16 non-null     int64  
 8   국적       16 non-null     object 
dtypes: float64(1), int64(1), object(7)
memory usage: 1.2+ KB


In [116]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
15    175.0
Name: 키, dtype: float64

In [117]:
# fillna() : 결측값을 채워주는 함수
df['키'].fillna(-1)

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
15    175.0
Name: 키, dtype: float64

In [118]:
df2 = df.copy()

In [119]:
# 항상 확인하면서 넘어가는 습관!
df2.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국


In [120]:
# df2['키'] = df2['키'].fillna(-1)
# inplace 옵션
# 데이터에 바로 수정사항 반영
df2['키'].fillna(-1, inplace = True)

In [121]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,대한민국
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,대한민국


In [122]:
df3 = df.copy()

In [123]:
height_avg = df3['키'].mean()
height_avg

175.7357142857143

In [124]:
df3['키'] = df3['키'].fillna(height_avg)
df3['키']

0     173.600000
1     177.000000
2     180.000000
3     178.000000
4     162.100000
5     178.000000
6     182.300000
7     175.735714
8     179.200000
9     167.100000
10    175.735714
11    183.000000
12    175.000000
13    176.000000
14    174.000000
15    175.000000
Name: 키, dtype: float64

# **14. 결측값 제거**

In [125]:
# 결측값이 있는 행을 제거
df.dropna(axis = 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,대한민국
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,대한민국
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,대한민국


In [126]:
# 결측값이 있는 열을 제거
df.dropna(axis = 1)

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,브랜드평판지수,국적
0,지민,빅히트,남자,1995-10-13,A,10523260,대한민국
1,지드래곤,YG,남자,1988-08-18,A,9916947,대한민국
2,강다니엘,커넥트,남자,1996-12-10,A,8273745,대한민국
3,뷔,빅히트,남자,1995-12-30,AB,8073501,대한민국
4,화사,RBW,여자,1995-07-23,A,7650928,대한민국
5,정국,빅히트,남자,1997-09-01,A,5208335,대한민국
6,민현,플레디스,남자,1995-08-09,O,4989792,대한민국
7,소연,큐브,여자,1998-08-26,B,4668615,대한민국
8,진,빅히트,남자,1992-12-04,O,4570308,대한민국
9,하성운,스타크루이엔티,남자,1994-03-22,A,4036489,대한민국


In [127]:
# inplace 옵션 테스트
df2.dropna(axis = 0, inplace = True)
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,대한민국
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,대한민국
10,태연,소녀시대,SM,여자,1989-03-09,-1.0,A,3918661,대한민국


In [128]:
# dropna() : 결측값이 있는 행을 제거 (기본값 : axis = 0, how = 'any')
# how = 'any' : NaN이 한 개라도 있을 경우 삭제
df.dropna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,대한민국
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,대한민국
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,대한민국


In [129]:
# 행의 데이터가 모두 NaN인 경우 삭제
df.dropna(how = 'all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,대한민국
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,대한민국


In [130]:
df.iloc[15] = np.nan  # NaN 삽입

In [131]:
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0,대한민국
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0,대한민국
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137.0,대한민국
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442.0,대한민국
15,,,,,,,,,


In [132]:
# 행의 데이터가 모두 NaN인 경우 삭제
df.dropna(how = 'all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,대한민국
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,대한민국


# **15. 중복값 제거**

In [133]:
df['혈액형']

0       A
1       A
2       A
3      AB
4       A
5       A
6       O
7       B
8       O
9       A
10      A
11      B
12     AB
13      O
14      O
15    NaN
Name: 혈액형, dtype: object

In [134]:
# drop_duplicates() : 중복된 데이터를 제거 (keep = 'first')
df['혈액형'].drop_duplicates()

0       A
3      AB
6       O
7       B
15    NaN
Name: 혈액형, dtype: object

In [135]:
df['혈액형'].drop_duplicates(keep = 'last')

10      A
11      B
12     AB
14      O
15    NaN
Name: 혈액형, dtype: object

# **16. 로우/컬럼 제거하기**

In [136]:
# 우리가 행의 이름은 설정하지 않지만,
# 행과 열의 이름은 중복이 될 수 있다.
# 그렇기 때문에 axis 를 무조건 전달해줘야한다.
df.drop('그룹', axis = 1)

Unnamed: 0,이름,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,빅히트,남자,1995-10-13,173.6,A,10523260.0,대한민국
1,지드래곤,YG,남자,1988-08-18,177.0,A,9916947.0,대한민국
2,강다니엘,커넥트,남자,1996-12-10,180.0,A,8273745.0,대한민국
3,뷔,빅히트,남자,1995-12-30,178.0,AB,8073501.0,대한민국
4,화사,RBW,여자,1995-07-23,162.1,A,7650928.0,대한민국
5,정국,빅히트,남자,1997-09-01,178.0,A,5208335.0,대한민국
6,민현,플레디스,남자,1995-08-09,182.3,O,4989792.0,대한민국
7,소연,큐브,여자,1998-08-26,,B,4668615.0,대한민국
8,진,빅히트,남자,1992-12-04,179.2,O,4570308.0,대한민국
9,하성운,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,대한민국


In [137]:
df.drop(['그룹', '키'], axis = 1)

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,브랜드평판지수,국적
0,지민,빅히트,남자,1995-10-13,A,10523260.0,대한민국
1,지드래곤,YG,남자,1988-08-18,A,9916947.0,대한민국
2,강다니엘,커넥트,남자,1996-12-10,A,8273745.0,대한민국
3,뷔,빅히트,남자,1995-12-30,AB,8073501.0,대한민국
4,화사,RBW,여자,1995-07-23,A,7650928.0,대한민국
5,정국,빅히트,남자,1997-09-01,A,5208335.0,대한민국
6,민현,플레디스,남자,1995-08-09,O,4989792.0,대한민국
7,소연,큐브,여자,1998-08-26,B,4668615.0,대한민국
8,진,빅히트,남자,1992-12-04,O,4570308.0,대한민국
9,하성운,스타크루이엔티,남자,1994-03-22,A,4036489.0,대한민국


In [138]:
df.drop(15, axis = 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,대한민국
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,대한민국
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,대한민국


In [139]:
df.drop([1, 3, 5], axis = 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,대한민국
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,대한민국
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0,대한민국
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,대한민국
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,대한민국
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661.0,대한민국
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0,대한민국
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0,대한민국


# **17. 데이터프레임 병합하기**

In [140]:
df1 = pd.read_csv('https://bit.ly/ds-korean-idol')
df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2')

In [141]:
df1

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [142]:
df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
3,뷔,3050,4
4,화사,4300,3
5,정국,2900,5
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4


In [143]:
df_copy = df1.copy()

In [144]:
# concat() : 데이터프레임을 합친다.
# sort  옵션은 컬럼이 정렬되는 것을 컨트롤 할 수 있다.
# axis 옵션을 통해 행으로 붙일 지, 열로 붙일 지 설정 가능
pd.concat([df1, df_copy], sort = False, axis = 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [145]:
df_concat = pd.concat([df1, df_copy], sort = False) # axis = 0

In [146]:
df_concat

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [147]:
# reset_index() : index를 새롭게 적용
# drop = True 기존 index 는 삭제!
df_concat.reset_index()

Unnamed: 0,index,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [148]:
# reset_index() : index를 새롭게 적용
# drop = True 기존 index 는 삭제!
df_concat.reset_index(drop = True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [149]:
df_copy2 = df_copy.drop('이름', axis = 1)

In [150]:
# 열의 이름을 보고, 매칭되어 데이터가 합쳐진다.
# 없으면 NaN이 들어간다.
# 매치가 안된다하더라도 데이터가 없어지지는 않는다.
pd.concat([df_copy2, df1])

Unnamed: 0,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름
0,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,
1,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,
2,,커넥트,남자,1996-12-10,180.0,A,8273745,
3,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,
4,마마무,RBW,여자,1995-07-23,162.1,A,7650928,
5,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,
6,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,
7,아이들,큐브,여자,1998-08-26,,B,4668615,
8,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,
9,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,


In [151]:
# axis = 1 을 추가하면 열 방향으로 병합된다.
# 기본적으로 같은 인덱스끼리 병합된다.
pd.concat([df1, df2], axis = 1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000,3
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500,3
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200,4
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,뷔,3050,4
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300,3
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,정국,2900,5
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400,6
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500,5
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200,4
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300,4


In [152]:
# 테스트를 위해 3, 5행을 날린다.
df3 = df2.drop([3,5])

In [153]:
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
4,화사,4300,3
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4
10,태연,3700,3
11,차은우,3850,5


In [154]:
# concat은 index에 의해 데이터를 합침
pd.concat([df1, df3], axis = 1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500.0,3.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500.0,5.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300.0,4.0


In [181]:
df_right = df2.drop([1,3,5,7,9], axis = 0)

In [182]:
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
2,강다니엘,3200,4
4,화사,4300,3
6,민현,3400,6
8,진,4200,4
10,태연,3700,3
11,차은우,3850,5
12,백호,3900,4
13,JR,4100,3
14,슈가,4150,3


In [183]:
df_right = df_right.reset_index(drop = True)

In [184]:
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [162]:
pd.concat([df1, df_right], axis = 1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,강다니엘,3200.0,4.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,화사,4300.0,3.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,민현,3400.0,6.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,진,4200.0,4.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,태연,3700.0,3.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,차은우,3850.0,5.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,백호,3900.0,4.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,JR,4100.0,3.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,슈가,4150.0,3.0


In [163]:
# merge() : 특정 고유한 키(unique id)값을 기준으로 병합
# merge(데이터프레임1, 데이터프레임2, on = 'unique id', how = '병합의 기준')
# 병합의 기준 : left, right, inner, outer
pd.merge(df1, df_right, on = '이름', how = 'left') # df1을 기준으로 데이터를 병합

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


In [164]:
# 두번째 적어준 데이터프레임을 기준으로 병합된다.
pd.merge(df1, df_right, on = '이름', how = 'right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


In [165]:
# 데이터가 같은 친구들이 있는 행만 남으면서 병합
pd.merge(df1, df_right, on = '이름', how = 'inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


In [166]:
# 매칭이 되는 값이 없다하더라도 데이터를 삭제하지 않는다.
pd.merge(df1, df_right, on = '이름', how = 'outer')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


In [185]:
df_right = df_right.append({'이름' : '류호근', '연봉' : '3333', '가족수' : 3}, ignore_index = True)

  df_right = df_right.append({'이름' : '류호근', '연봉' : '3333', '가족수' : 3}, ignore_index = True)


In [186]:
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [187]:
pd.merge(df1, df_right, on = '이름', how = 'left')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


In [188]:
pd.merge(df1, df_right, on = '이름', how = 'right')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661.0,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027.0,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654.0,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137.0,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442.0,4150,3


In [189]:
pd.merge(df1, df_right, on = '이름', how = 'outer')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,,


In [190]:
df_right.columns = ['성함', '연봉', '가족수']

In [191]:
df_right

Unnamed: 0,성함,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [193]:
# 중복되는 컬럼이 없다면 다른 별도의 작업이 필요하다.
pd.merge(df1, df_right, on = '이름', how = 'left')

KeyError: ignored

In [194]:
# 서로 다른 이름을 가진 컬럼으로 병합을 하고 싶다면
# 어떤 컬럼들로 병합을 할 지 각각 알려주면 된다.
pd.merge(df1, df_right, left_on = '이름', right_on = '성함', how = 'inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성함,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,태연,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,차은우,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,백호,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,JR,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,슈가,4150,3


# **18. Series의 Type**

In [195]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     float64
 8   국적       15 non-null     object 
dtypes: float64(2), object(7)
memory usage: 1.2+ KB


In [196]:
df['키'].dtypes

dtype('float64')

In [197]:
# astype() : 데이터의 타입을 변환
# 결측값이 있으면 형변환이 되지 않는다.
df['키'].astype(int)

IntCastingNaNError: ignored

In [199]:
df['키'] = df['키'].fillna(-1)

In [200]:
# 반영하고 싶다면, 다시 저장해주면 된다.
df['키'].astype(int)

0     173
1     177
2     180
3     178
4     162
5     178
6     182
7      -1
8     179
9     167
10     -1
11    183
12    175
13    176
14    174
15     -1
Name: 키, dtype: int64

In [201]:
df['키'].dtypes

dtype('float64')

# **19. 날짜 변환하기**

In [202]:
df['생년월일']

0     1995-10-13
1     1988-08-18
2     1996-12-10
3     1995-12-30
4     1995-07-23
5     1997-09-01
6     1995-08-09
7     1998-08-26
8     1992-12-04
9     1994-03-22
10    1989-03-09
11    1997-03-30
12    1995-07-21
13    1995-06-08
14    1993-03-09
15           NaN
Name: 생년월일, dtype: object

In [207]:
# to_datetime() : 매개변수로 전달된 시리즈의 타입을 날짜 타입으로 변경
# object -> datetime 으로!
df['생년월일'] = pd.to_datetime(df['생년월일'])

In [208]:
df['생년월일']

0    1995-10-13
1    1988-08-18
2    1996-12-10
3    1995-12-30
4    1995-07-23
5    1997-09-01
6    1995-08-09
7    1998-08-26
8    1992-12-04
9    1994-03-22
10   1989-03-09
11   1997-03-30
12   1995-07-21
13   1995-06-08
14   1993-03-09
15          NaT
Name: 생년월일, dtype: datetime64[ns]

In [209]:
df['생년월일'].dt.year

0     1995.0
1     1988.0
2     1996.0
3     1995.0
4     1995.0
5     1997.0
6     1995.0
7     1998.0
8     1992.0
9     1994.0
10    1989.0
11    1997.0
12    1995.0
13    1995.0
14    1993.0
15       NaN
Name: 생년월일, dtype: float64

In [210]:
df['생년월일'].dt.month

0     10.0
1      8.0
2     12.0
3     12.0
4      7.0
5      9.0
6      8.0
7      8.0
8     12.0
9      3.0
10     3.0
11     3.0
12     7.0
13     6.0
14     3.0
15     NaN
Name: 생년월일, dtype: float64

In [211]:
df['생년월일'].dt.day

0     13.0
1     18.0
2     10.0
3     30.0
4     23.0
5      1.0
6      9.0
7     26.0
8      4.0
9     22.0
10     9.0
11    30.0
12    21.0
13     8.0
14     9.0
15     NaN
Name: 생년월일, dtype: float64

In [212]:
df['생년월일'].dt.hour

0     0.0
1     0.0
2     0.0
3     0.0
4     0.0
5     0.0
6     0.0
7     0.0
8     0.0
9     0.0
10    0.0
11    0.0
12    0.0
13    0.0
14    0.0
15    NaN
Name: 생년월일, dtype: float64

In [213]:
df['생년월일'].dt.minute

0     0.0
1     0.0
2     0.0
3     0.0
4     0.0
5     0.0
6     0.0
7     0.0
8     0.0
9     0.0
10    0.0
11    0.0
12    0.0
13    0.0
14    0.0
15    NaN
Name: 생년월일, dtype: float64

In [214]:
df['생년월일'].dt.second

0     0.0
1     0.0
2     0.0
3     0.0
4     0.0
5     0.0
6     0.0
7     0.0
8     0.0
9     0.0
10    0.0
11    0.0
12    0.0
13    0.0
14    0.0
15    NaN
Name: 생년월일, dtype: float64

In [215]:
# 요일 : 0(월요일) ~ 6(일요일)
df['생년월일'].dt.dayofweek

0     4.0
1     3.0
2     1.0
3     5.0
4     6.0
5     0.0
6     2.0
7     2.0
8     4.0
9     1.0
10    3.0
11    6.0
12    4.0
13    3.0
14    1.0
15    NaN
Name: 생년월일, dtype: float64

In [216]:
# 파생변수 만들어 넣기
df['년도'] = df['생년월일'].dt.year
df['월'] = df['생년월일'].dt.month
df['일'] = df['생년월일'].dt.day

In [217]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적,년도,월,일
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0,대한민국,1995.0,10.0,13.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0,대한민국,1988.0,8.0,18.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0,대한민국,1996.0,12.0,10.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0,대한민국,1995.0,12.0,30.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0,대한민국,1995.0,7.0,23.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0,대한민국,1997.0,9.0,1.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0,대한민국,1995.0,8.0,9.0
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615.0,대한민국,1998.0,8.0,26.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0,대한민국,1992.0,12.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0,대한민국,1994.0,3.0,22.0


# **20. apply**

- Series나 DataFrame에 좀 더 구체적인 로직을 적용하고 싶은 경우에 사용
- apply 적용하기 위해서는 별도의 함수가 먼저 정의되야 함
- 함수를 매개변수로 넘겨줌

In [218]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [219]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [223]:
# 성별, 남자는 1, 여자는 0으로 변경
df.loc[df['성별'] == '남자', '성별'] = 1
df.loc[df['성별'] == '여자', '성별'] = 0

In [224]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,1,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,1,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,1,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,1,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,0,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,1,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,1,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,0,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,1,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,1,1994-03-22,167.1,A,4036489


In [225]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [226]:
def change_gender(x):
  if x == '남자':
    return 1
  elif x == '여자' :
    return 0

In [227]:
df['성별'].apply(change_gender)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [229]:
df['성별'].apply(lambda x: 0 if x == '여자' else 1)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [230]:
df['NEW_성별'] = df['성별'].apply(lambda x: 0 if x == '여자' else 1)

In [231]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,NEW_성별
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,1
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,1
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,1
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,1


# **21. map**

In [232]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,NEW_성별
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


In [233]:
map_gender = {'남자':1, '여자':0}

In [235]:
map_gender = {'남자':'male', '여자':'female'}

In [236]:
df['성별'].map(map_gender)

0       male
1       male
2       male
3       male
4     female
5       male
6       male
7     female
8       male
9       male
10    female
11      male
12      male
13      male
14      male
Name: 성별, dtype: object

# **22. 데이터프레임의 산술연산**

In [237]:
df = pd.DataFrame({
    '파이썬' : [60, 70, 80, 85, 75],
    '자료구조' : [50, 40, 45, 70, 60],
    '데이터분석' : [80, 75, 100, 90, 85]
})

In [238]:
df

Unnamed: 0,파이썬,자료구조,데이터분석
0,60,50,80
1,70,40,75
2,80,45,100
3,85,70,90
4,75,60,85


In [240]:
# 시리즈의 산술 연산
# 사칙연산 전부 다 가능
df['파이썬'] + df['자료구조'] + df['데이터분석']

0    190
1    185
2    225
3    245
4    220
dtype: int64

In [241]:
# 총점 컬럼 만들기(파생 변수 만들기)
df['총점'] = df['파이썬'] + df['자료구조'] + df['데이터분석']

In [242]:
df

Unnamed: 0,파이썬,자료구조,데이터분석,총점
0,60,50,80,190
1,70,40,75,185
2,80,45,100,225
3,85,70,90,245
4,75,60,85,220


In [243]:
df['평균'] = df['총점'] / 3

In [244]:
df

Unnamed: 0,파이썬,자료구조,데이터분석,총점,평균
0,60,50,80,190,63.333333
1,70,40,75,185,61.666667
2,80,45,100,225,75.0
3,85,70,90,245,81.666667
4,75,60,85,220,73.333333


In [248]:
# loc 를 활용해서 평균 구하기
df.loc[:, ['파이썬', '자료구조', '데이터분석']].mean(axis = 1)

0    63.333333
1    61.666667
2    75.000000
3    81.666667
4    73.333333
dtype: float64

In [249]:
df1 = pd.DataFrame({
    '파이썬' : [60, 70, 80, 85, 75],
    '자료구조' : [50, 40, 45, 70, 60],
    '데이터분석' : [80, 75, 100, 90, 85]
})

df2 = pd.DataFrame({
    '파이썬' : [60, 70, 80, 85, 75],
    '자료구조' : [50, 40, 45, 70, 60],
    '데이터분석' : [80, 75, 100, 90, 85]
})

In [250]:
# 사칙연산 가능
df1 + df2

Unnamed: 0,파이썬,자료구조,데이터분석
0,120,100,160
1,140,80,150
2,160,90,200
3,170,140,180
4,150,120,170


In [251]:
df1 = pd.DataFrame({
    '파이썬' : [60, 70, 80, 85, 75],
    '자료구조' : [50, 40, 45, 70, 60],
    '데이터분석' : [80, 75, 100, 90, 85]
})

df2 = pd.DataFrame({
    '파이썬' : ['pass', 'non-pass', 'pass', 'non-pass', 'pass'],
    '자료구조' : [50, 40, 45, 70, 60],
    '데이터분석' : [80, 75, 100, 90, 85]
})

In [252]:
# 매치되는 값의 타입의 따라서
# 연산이 안될 수도 있다.
df1 + df2

TypeError: ignored

In [254]:
df1 + 10

Unnamed: 0,파이썬,자료구조,데이터분석
0,70,60,90
1,80,50,85
2,90,55,110
3,95,80,100
4,85,70,95


In [256]:
# 각 요소를 보고 데이터프레임의 연산의 가능여부가 결정된다.
df2 + 10

TypeError: ignored

# **23. select_dtypes**

In [257]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [259]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [261]:
# 문자열 컬럼만 가지고 온다.
df.select_dtypes(include = 'object')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


In [262]:
# 여러개의 자료형을 셀렉하고 싶으면 감싸준다.
df.select_dtypes(include = ['object', 'float64'])

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB
4,화사,마마무,RBW,여자,1995-07-23,162.1,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O
7,소연,아이들,큐브,여자,1998-08-26,,B
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A


In [263]:
# 문자열 컬럼만 제외하고 가져온다.
df.select_dtypes(exclude = 'object')

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


In [266]:
# df 에서 숫자데이터만 가지고 있는 컬럼 이름을 저장
num_cols = df.select_dtypes(exclude = 'object').columns

In [267]:
df[num_cols]

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


In [271]:
# round(표현하고 싶은 소수점자리)
df.브랜드평판지수.mean().round(3)

5655856.067

In [273]:
df[num_cols].mean().round(1)

키              175.8
브랜드평판지수    5655856.1
dtype: float64

# **24. 원 핫 인코딩(One-Hot-Encoding)**

- 원 핫 인코딩은 한 개의 요소는 True, 나머지 요소는 False로 만들어 카테고리형으로 표현하는 기법

In [274]:
blood_map = {'A' : 0, 'B' : 1, 'AB' : 2, 'O' : 3}

In [275]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [276]:
df['혈액형_code'] = df['혈액형'].map(blood_map)

In [277]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,혈액형_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,2
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


In [278]:
# 각 데이터의 갯수를 알려주는 함수
df['혈액형_code'].value_counts()

0    7
3    4
2    2
1    2
Name: 혈액형_code, dtype: int64

- df['혈액형_code']를 머신러닝 알고리즘에 넣어 데이터를 예측할려고 지시를 하면 컴퓨터는 값들간의 관계를 스스로 형성하게 됨
- 만약 B형은 1, AB형은 2라는 값을 가지고 있을 때, 컴퓨터는 'B형 + AB형 = O형'이라고 이상한 관계를 맺을 수 있게 됨
- 별도의 column을 형성해주고 1개의 column에는 True, 나머지는 False라고 넣어줌으로 'A, B, AB, O형의 관계는 독립적이다.'라는 카테고리로 표현해주는 방식 -> 원 핫 인코딩

In [279]:
# 원 핫 인코딩의 방식을 간단하게 알아보자!
pd.get_dummies(df['혈액형_code'])

Unnamed: 0,0,1,2,3
0,1,0,0,0
1,1,0,0,0
2,1,0,0,0
3,0,0,1,0
4,1,0,0,0
5,1,0,0,0
6,0,0,0,1
7,0,1,0,0
8,0,0,0,1
9,1,0,0,0
