# **1. 판다스 모듈(Pandas module)**

* 쉽게 직관적으로 데이터작업을 할 수 있도록 설계된 빠르고 유연한 데이터 구조를 제공하는 모듈
* 생산성, 효율성이 중요!


In [1]:
import pandas

In [2]:
pandas

<module 'pandas' from '/usr/local/lib/python3.7/dist-packages/pandas/__init__.py'>

In [3]:
import pandas as pd

In [4]:
pd

<module 'pandas' from '/usr/local/lib/python3.7/dist-packages/pandas/__init__.py'>

### <strong>1-1. pandas의 Series와 DataFrame </strong>

* 1차원. 1개의 column은 Series라고 함
* DataFrame: 가로축, 세로축이 있는 2차원 데이터를 저장하는 자료구조(like excel)
  * 데이터 타입을 여러가지 저장할 수 있다
  * pandas 모듈안에 구현되어 있으므로 사용시 pandas를 import

In [21]:
pd.Series([1,2,3,4])

0    1
1    2
2    3
3    4
dtype: int64

In [22]:
# 데이터프레임을 만드는 방법 1 : list로 만들기

company1 = [['삼성', 1000000, '스마트폰'],
            ['애플', 1500000, '맥북에서'],
            ['엘지', 1200000, '그램']]

In [23]:
pd.DataFrame(company1)

Unnamed: 0,0,1,2
0,삼성,1000000,스마트폰
1,애플,1500000,맥북에서
2,엘지,1200000,그램


In [24]:
df1 = pd.DataFrame(company1)

In [25]:
df1

Unnamed: 0,0,1,2
0,삼성,1000000,스마트폰
1,애플,1500000,맥북에서
2,엘지,1200000,그램


In [33]:
# 컬럼제목 만들기
df1.columns = ['회사명', '가격', '상품']
df1

Unnamed: 0,회사명,가격,상품
0,삼성,1000000,스마트폰
1,애플,1500000,맥북에서
2,엘지,1200000,그램


In [34]:
# 데이터프레임을 만드는 방법 2 : dict로 만들기
company2 = {'회사명' : ['삼성','애플', '엘지'],
             '가격' : [1000000, 15000000,12000000],
             '상품' : ['스마트폰', '맥북에어', '그램']}

In [35]:
df2 = pd.DataFrame(company2)

In [36]:
df2

Unnamed: 0,회사명,가격,상품
0,삼성,1000000,스마트폰
1,애플,15000000,맥북에어
2,엘지,12000000,그램


In [37]:
#index를 특정 column으로 지정
df1

Unnamed: 0,회사명,가격,상품
0,삼성,1000000,스마트폰
1,애플,1500000,맥북에서
2,엘지,1200000,그램


In [38]:
df1.index = df1['회사명']

In [39]:
df1

Unnamed: 0_level_0,회사명,가격,상품
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,1000000,스마트폰
애플,애플,1500000,맥북에서
엘지,엘지,1200000,그램


In [40]:
df1['상품']

회사명
삼성    스마트폰
애플    맥북에서
엘지      그램
Name: 상품, dtype: object

In [41]:
type(df1['상품'])

pandas.core.series.Series

# **2. CSV파일 읽어오기**

csv파일이란?
* Comma Separated Value의 약어로써 쉼표로 구분된 파일
* 엑셀로 로딩할 수 있지만, 쉼표로 구분된 파일이 훨씬 가벼움
* 공공데이터 포털에서도 CSV포멧의 파일을 많이 제공

In [42]:
# 1. 로컬에서 파일 읽어오기
from google.colab import files
myfile = files.upload()

In [43]:
pd.read_csv('./korean-idol.csv', sep = ',')

FileNotFoundError: ignored

In [44]:
# 2. 구글 드라이브에서 불러오기
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [45]:
filename = '/content/drive/MyDrive/1900_AI/AI_3/korean-idol.csv'

In [46]:
pd.read_csv(filename,)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [47]:
# 3. 웹에서 읽어오기
pd.read_csv("http://bit.ly/ds-korean-idol")

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# **3. 엑셀 파일 읽어오기**

In [48]:
# 1. 로컬에서 파일 읽어오기
pd.read_excel('./korean-idol.xlsx')

FileNotFoundError: ignored

In [49]:
#2 구글 드라이브에서 불러오기
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [50]:
filename= '/content/drive/MyDrive/1900_AI/AI_3/korean-idol.xlsx'

In [51]:
pd.read_excel(filename)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [52]:
df = pd.read_excel(filename)

In [53]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# **4. 기본 정보 알아보기**

### **4-1. column(열)**

In [54]:
df.columns

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [58]:
new_col = ['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수']

In [59]:
df.columns = new_col

In [60]:
df.columns

Index(['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [61]:
df

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### **4-2. index(행) 출력**

In [62]:
df.index

RangeIndex(start=0, stop=15, step=1)

In [63]:
# info는 기본적인 row(행)의 정보와 데이터타입을 알려줌
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   name     15 non-null     object        
 1   그룹       14 non-null     object        
 2   소속사      15 non-null     object        
 3   성별       15 non-null     object        
 4   생년월일     15 non-null     datetime64[ns]
 5   키        13 non-null     float64       
 6   혈액형      15 non-null     object        
 7   브랜드평판지수  15 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 1.1+ KB


### **4-3. 통계 정보 알아보기**

In [64]:
df.describe()

Unnamed: 0,키,브랜드평판지수
count,13.0,15.0
mean,175.792308,5655856.0
std,5.820576,2539068.0
min,162.1,2925442.0
25%,174.0,3712344.0
50%,177.0,4668615.0
75%,179.2,7862214.0
max,183.0,10523260.0


### **4-4. 형태(shape) 알아보기**
* shape는 tuple 형태로 반환되며, 첫번째는 row, 두번째는 columns의 숫자를 의

In [65]:
df.shape

(15, 8)

In [66]:
df

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


### **4-5. 원하는 개수의 데이터보기**
* head() : 상위 5개 row 출력
* tail() : 하위 5개 row 출력
* head(3) : 상위 3개 row 출력
* tail(3) : 하위 3개 row 출력

In [67]:
df.head(3)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [68]:
df.tail()

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442


### **4-6. 정렬하기**

In [69]:
# 오름차순 정렬(default) 
# 인덱스 별로 정렬
df.sort_index()

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [70]:
# 내림차순 정렬(index)
df.sort_index(ascending = False)

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335


In [71]:
# column 별로 정렬
# 오름차순 정렬
df.sort_values(by='키')

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308


In [72]:
# 내림차순 정렬
df.sort_values(by='키', ascending=False,na_position='first')

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137


In [75]:
# 2차 정렬
df.sort_values(by=['혈액형','키'],ascending=[True, False])

Unnamed: 0,name,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


In [76]:
import pandas as pd

df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [77]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


# **5. 컬럼을 선택하는 방법**

In [78]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [79]:
type(df['혈액형'])

pandas.core.series.Series

In [100]:
df["이름"]

0      지민
1    지드래곤
2    강다니엘
Name: 이름, dtype: object

In [81]:
df.이름 # 잘 사용하지 않는다. space가 있으면 사용불가

0       지민
1     지드래곤
2     강다니엘
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: 이름, dtype: object

### **5-1. 범위 선택(range selection)**

In [82]:
df[:3] # 인덱스 범위 설정가능하다

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [86]:
df.head(3)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [88]:
df.loc[:,'이름'] # 인덱스 범위와 출력하고 싶은 속성

0       지민
1     지드래곤
2     강다니엘
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: 이름, dtype: object

In [89]:
df.loc[:,['이름','생년월일']]

Unnamed: 0,이름,생년월일
0,지민,1995-10-13
1,지드래곤,1988-08-18
2,강다니엘,1996-12-10
3,뷔,1995-12-30
4,화사,1995-07-23
5,정국,1997-09-01
6,민현,1995-08-09
7,소연,1998-08-26
8,진,1992-12-04
9,하성운,1994-03-22


In [90]:
df.loc[3:8, ['이름','생년월일']] 

Unnamed: 0,이름,생년월일
3,뷔,1995-12-30
4,화사,1995-07-23
5,정국,1997-09-01
6,민현,1995-08-09
7,소연,1998-08-26
8,진,1992-12-04


In [91]:
df.loc[3:8,'이름':'생년월일'] # 속성도 범위 가능

Unnamed: 0,이름,그룹,소속사,성별,생년월일
3,뷔,방탄소년단,빅히트,남자,1995-12-30
4,화사,마마무,RBW,여자,1995-07-23
5,정국,방탄소년단,빅히트,남자,1997-09-01
6,민현,뉴이스트,플레디스,남자,1995-08-09
7,소연,아이들,큐브,여자,1998-08-26
8,진,방탄소년단,빅히트,남자,1992-12-04


In [94]:
df.iloc[:,[0,2]] #인덱스처럼 컬럼도 숫자로 지정가능 

Unnamed: 0,이름,소속사
0,지민,빅히트
1,지드래곤,YG
2,강다니엘,커넥트
3,뷔,빅히트
4,화사,RBW
5,정국,빅히트
6,민현,플레디스
7,소연,큐브
8,진,빅히트
9,하성운,스타크루이엔티


In [95]:
df.iloc[1:5,[0,2]] # 1부터 5미만의 인스턴스 # iloc와 다른다

Unnamed: 0,이름,소속사
1,지드래곤,YG
2,강다니엘,커넥트
3,뷔,빅히트
4,화사,RBW


In [96]:
df.iloc[1:5,1:4] 
#loc는 그 번호까지 포함
#iloc는 그 번호 전까지 포함

Unnamed: 0,그룹,소속사,성별
1,빅뱅,YG,남자
2,,커넥트,남자
3,방탄소년단,빅히트,남자
4,마마무,RBW,여자


# **6. Boolean Indexing - 조건을 활용한 색인**

In [97]:
df['키'] >= 180

0     False
1     False
2      True
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10    False
11     True
12    False
13    False
14    False
Name: 키, dtype: bool

In [101]:
df[df['키'] >= 180]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


In [102]:
# df[df['키'] >= 180, '이름'] # X
df[df['키'] >= 180]['이름']

2     강다니엘
6       민현
11     차은우
Name: 이름, dtype: object

In [103]:
df[df['키'] >= 180][['이름','혈액형']]

Unnamed: 0,이름,혈액형
2,강다니엘,A
6,민현,O
11,차은우,B


In [104]:
df.loc[df['키'] >= 180,'이름']

2     강다니엘
6       민현
11     차은우
Name: 이름, dtype: object

In [105]:
df.loc[df['키'] >= 180,['이름','혈액형','키']]

Unnamed: 0,이름,혈액형,키
2,강다니엘,A,180.0
6,민현,O,182.3
11,차은우,B,183.0


In [106]:
df.loc[df['키'] >= 180,'이름':'키']

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키
2,강다니엘,,커넥트,남자,1996-12-10,180.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0


# **7. isin을 활용한 색인**

* isin을 활용한 색인은 내가 조건을 걸고자 하는 값이 정의한 list에 있을 때만 색인하려는 경우 사용

In [118]:
company = ['플레디스', 'SM']

In [119]:
df['소속사'].isin(company)

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
11    False
12     True
13     True
14    False
Name: 소속사, dtype: bool

In [120]:
df.loc[df['소속사'].isin(company)]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137


In [121]:
df.loc[df['소속사'].isin(company),'소속사']

6     플레디스
10      SM
12    플레디스
13    플레디스
Name: 소속사, dtype: object

In [122]:
df.loc[df['소속사'].isin(company),['소속사','이름']]

Unnamed: 0,소속사,이름
6,플레디스,민현
10,SM,태연
12,플레디스,백호
13,플레디스,JR


# **8. 결측값(Null) 알아보기**

### **8-1. NaN 값이란?**
* Null값은 비어있는 값 또느 결측값이라고 함
* pandas에서는 NaN(Not a Number)로 표기 된 것은 결측값으로 취급


In [123]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [124]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


### **8-2. 결측 값 다루기**

In [125]:
df.isna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,True,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


In [126]:
df['그룹'].isnull()

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
Name: 그룹, dtype: bool

In [127]:
df.loc[df['그룹'].isnull(),'이름']

2    강다니엘
Name: 이름, dtype: object

In [128]:
df.loc[df['그룹'].notnull(),'이름']

0       지민
1     지드래곤
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: 이름, dtype: object

In [129]:
df['이름'][df['그룹'].isnull()]

2    강다니엘
Name: 이름, dtype: object

In [130]:
df['이름'][df['그룹'].isna()]

2    강다니엘
Name: 이름, dtype: object

In [131]:
df['이름'][df['그룹'].notnull()]

0       지민
1     지드래곤
3        뷔
4       화사
5       정국
6       민현
7       소연
8        진
9      하성운
10      태연
11     차은우
12      백호
13      JR
14      슈가
Name: 이름, dtype: object

In [132]:
# 그룹이 있는 연예인의 이름,키,혈액형을 출력
df.loc[df['그룹'].notnull(),['이름','키','혈액형']]

Unnamed: 0,이름,키,혈액형
0,지민,173.6,A
1,지드래곤,177.0,A
3,뷔,178.0,AB
4,화사,162.1,A
5,정국,178.0,A
6,민현,182.3,O
7,소연,,B
8,진,179.2,O
9,하성운,167.1,A
10,태연,,A


In [133]:
df[['이름','키','혈액형']][df['그룹'].notnull()]

Unnamed: 0,이름,키,혈액형
0,지민,173.6,A
1,지드래곤,177.0,A
3,뷔,178.0,AB
4,화사,162.1,A
5,정국,178.0,A
6,민현,182.3,O
7,소연,,B
8,진,179.2,O
9,하성운,167.1,A
10,태연,,A


# **9. 복사(Copy)**

In [134]:
new_df = df

In [135]:
new_df['이름'] = '무명'

In [136]:
new_df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,무명,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,무명,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,무명,,커넥트,남자,1996-12-10,180.0,A,8273745
3,무명,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,무명,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,무명,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,무명,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,무명,아이들,큐브,여자,1998-08-26,,B,4668615
8,무명,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,무명,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [137]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,무명,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,무명,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,무명,,커넥트,남자,1996-12-10,180.0,A,8273745
3,무명,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,무명,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [138]:
hex(id(new_df))

'0x7fa03af956d0'

In [139]:
hex(id(df))

'0x7fa03af956d0'

In [140]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [141]:
copy_df = df.copy()

In [142]:
print(hex(id(df)))
print(hex(id(copy_df)))
# 다른 주소값

0x7fa035b83910
0x7fa035c14c10


In [143]:
copy_df['이름'] = '김사과'

In [144]:
copy_df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,김사과,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,김사과,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,김사과,,커넥트,남자,1996-12-10,180.0,A,8273745
3,김사과,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,김사과,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [145]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


# **10. row, column 추가 및 삭제**

### **10-1. row의 추가**
* dict 형태의 데이터를 만들어 준 다음 데이터를 추가
* 반드시 ignore_index = True 옵션을 같이 추가해 줘야 에러가 나지 않음

In [149]:
# append사용,(딕셔너리 구조)
df.append({'이름':'김사과', '그룹':'애플그룹', '소속사':'애플', '성별':'여자', '생년월일':'2000-01-01', '키':160, '혈액형':'A', '브랜드평판지수':12345678}, ignore_index=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [147]:
df = df.append({'이름':'김사과', '그룹':'애플그룹', '소속사':'애플', '성별':'여자', '생년월일':'2000-01-01', '키':160, '혈액형':'A', '브랜드평판지수':12345678}, ignore_index=True)

In [150]:
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442
15,김사과,애플그룹,애플,여자,2000-01-01,160.0,A,12345678


### **10-2. column의 추가**

In [155]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국


In [159]:
df['aa'] = 'as'

In [160]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적,aa
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국,as
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국,as
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국,as
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국,as
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국,as


In [161]:
df.loc[ df['이름']== '김사과','국적'] = '호주'

In [162]:
df.tail()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적,aa
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,대한민국,as
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,대한민국,as
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,대한민국,as
14,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,대한민국,as
15,김사과,애플그룹,애플,여자,2000-01-01,160.0,A,12345678,호주,as


# **11. 통계값 다루기**

In [163]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,국적,aa
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,대한민국,as
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,대한민국,as
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,대한민국,as
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,대한민국,as
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,대한민국,as


In [164]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       16 non-null     object 
 1   그룹       15 non-null     object 
 2   소속사      16 non-null     object 
 3   성별       16 non-null     object 
 4   생년월일     16 non-null     object 
 5   키        14 non-null     float64
 6   혈액형      16 non-null     object 
 7   브랜드평판지수  16 non-null     int64  
 8   국적       16 non-null     object 
 9   aa       16 non-null     object 
dtypes: float64(1), int64(1), object(8)
memory usage: 1.4+ KB


In [165]:
df.describe()

Unnamed: 0,키,브랜드평판지수
count,14.0,16.0
mean,174.664286,6073970.0
std,7.006218,2968869.0
min,160.0,2925442.0
25%,173.7,3815502.0
50%,176.5,4829204.0
75%,178.9,8123562.0
max,183.0,12345680.0


In [166]:
df['키'].min()

160.0

In [167]:
df['키'].max()

183.0

In [168]:
df['키'].sum()

2445.3

In [169]:
df['키'].mean()

174.66428571428574

In [170]:
# 분산과 표준편차는 데이터가 평균으로부터 얼마나 떨어져 있는지 정도
# 분산 : (데이터-평균)**2 모두 합한 값 / n
# 표준편차 : 분산의 루트
import numpy as np

data_01= np.array([1,3,5,7,9])
data_02= np.array([3,4,5,6,7])

In [172]:
np.sqrt(((1-5)**2+(3-5)**2+(5-5)**2+(7-5)**2+(9-5)**2)/5)

2.8284271247461903

In [178]:
data_01.mean()

5.0

In [179]:
data_02.mean()

5.0

In [180]:
data_01.var(), data_02.var()
np.sqrt(data_01.var()), np.sqrt(data_02.var())

(2.8284271247461903, 1.4142135623730951)

In [181]:
data_01.std(), data_02.std()

(2.8284271247461903, 1.4142135623730951)

> 주로 표준편차(std)를 많이 사용하며, 데이터가 평균으로부터 얼마나 퍼저있는지 정도를 나타내는 지표

In [182]:
df['키'].var()

49.08708791208793

In [183]:
df['키'].std()

7.0062178036432705

In [184]:
df['키'].count()

14

In [185]:
df['키'].median()

176.5

In [186]:
df['키'].mode()

0    178.0
dtype: float64

# **12. 피벗테이블(pivot_table)**

* 피벗테이블은 엑셀의 피벗테이블과 동일
* 데이터 열 중에서 두개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하고 펼쳐놓은 것을 의미
* 왼쪽에 나타나는 인덱스를 행 인덱스, 상단에 나타나는 인덱스를 열 인덱스라고 부름

In [187]:
# index는 행 인덱스
# columns는 열 인덱스
# values는 조회하고 싶은 값
pd.pivot_table(df, index ='소속사',columns='혈액형',values='키')

혈액형,A,AB,B,O
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RBW,162.1,,,
YG,177.0,,,
빅히트,175.8,178.0,,176.6
스타크루이엔티,167.1,,,
애플,160.0,,,
커넥트,180.0,,,
판타지오,,,183.0,
플레디스,,175.0,,179.15


In [189]:
# aggfunc(argument function)에는 추가 계산 옵션(np.sum, np.mean)
pd.pivot_table(df, index='그룹', columns='혈액형', values='브랜드평판지수', aggfunc=np.mean)

혈액형,A,AB,B,O
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
뉴이스트,,3301654.0,,4131964.5
마마무,7650928.0,,,
방탄소년단,7865797.5,8073501.0,,3747875.0
빅뱅,9916947.0,,,
소녀시대,3918661.0,,,
아스트로,,,3506027.0,
아이들,,,4668615.0,
애플그룹,12345678.0,,,
핫샷,4036489.0,,,


# **13. GroupBy(그룹으로 묶기)**

* groupby는 데이터를 그룹으로 묶어 분석할 때 활용
* 소속사별 키의 평균, 성별 키의 평균 등 특정, 그룹별 통계 및 데이터의 성질을 확인하고자 할 때 활용

In [195]:
df.groupby('소속사')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa035bb91d0>

In [196]:
df.groupby('소속사').count()

Unnamed: 0_level_0,이름,그룹,성별,생년월일,키,혈액형,브랜드평판지수,국적,aa
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
RBW,1,1,1,1,1,1,1,1,1
SM,1,1,1,1,0,1,1,1,1
YG,1,1,1,1,1,1,1,1,1
빅히트,5,5,5,5,5,5,5,5,5
스타크루이엔티,1,1,1,1,1,1,1,1,1
애플,1,1,1,1,1,1,1,1,1
커넥트,1,0,1,1,1,1,1,1,1
큐브,1,1,1,1,0,1,1,1,1
판타지오,1,1,1,1,1,1,1,1,1
플레디스,3,3,3,3,3,3,3,3,3


In [197]:
df.groupby('그룹').mean()

Unnamed: 0_level_0,키,브랜드평판지수
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1
뉴이스트,177.766667,3855194.0
마마무,162.1,7650928.0
방탄소년단,176.56,6260169.0
빅뱅,177.0,9916947.0
소녀시대,,3918661.0
아스트로,183.0,3506027.0
아이들,,4668615.0
애플그룹,160.0,12345680.0
핫샷,167.1,4036489.0


In [198]:
df.groupby('성별').sum()

Unnamed: 0_level_0,키,브랜드평판지수
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,2123.2,68599637
여자,322.1,28583882


In [199]:
# 혈액형별로 그룹을 맺어 키의 평균값을 확인
df.groupby('혈액형')['키'].mean()

혈액형
A     171.114286
AB    176.500000
B     183.000000
O     177.875000
Name: 키, dtype: float64

In [200]:
df.groupby(['혈액형', '성별']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,키,브랜드평판지수
혈액형,성별,Unnamed: 2_level_1,Unnamed: 3_level_1
A,남자,175.14,7591755.0
A,여자,161.05,7971756.0
AB,남자,176.5,5687578.0
B,남자,183.0,3506027.0
B,여자,,4668615.0
O,남자,177.875,3939920.0


# **14. 결측값(Null, NaN) 채우기**

In [201]:
import pandas as pd

df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [202]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [203]:
# 결측값을 채워주는 fillna()

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


* null 값 처리방법
  * 계산하는 컬럼의 null값이 있는 row를 제거하거나
  * 평균값을 넣어서 계산하거나 한다

In [204]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [205]:
df['키'].fillna(-1) # 바뀐 것은 저장이 안된다

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [206]:
df2 = df.copy()

In [207]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [208]:
df2['키'] = df2['키'].fillna(-1) # 이거를 더 추천
# df2['키'].fillna(-1, inplace = True)

In [209]:
df2

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,-1.0,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [210]:
df2 = df.copy()

In [211]:
height = df2['키'].mean()

In [212]:
height

175.7923076923077

In [213]:
df2['키'] = df2['키'].fillna(height)

In [214]:
df2['키']

0     173.600000
1     177.000000
2     180.000000
3     178.000000
4     162.100000
5     178.000000
6     182.300000
7     175.792308
8     179.200000
9     167.100000
10    175.792308
11    183.000000
12    175.000000
13    176.000000
14    174.000000
Name: 키, dtype: float64

# **15. 결측값(Null, NaN) 제거**

In [215]:
# dropna()
# axis = 0 행을 삭제
df.dropna(axis = 0,)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [216]:
df.dropna(axis = 1) # 한개의 NaN을 포함한 column 삭제

Unnamed: 0,이름,소속사,성별,생년월일,혈액형,브랜드평판지수
0,지민,빅히트,남자,1995-10-13,A,10523260
1,지드래곤,YG,남자,1988-08-18,A,9916947
2,강다니엘,커넥트,남자,1996-12-10,A,8273745
3,뷔,빅히트,남자,1995-12-30,AB,8073501
4,화사,RBW,여자,1995-07-23,A,7650928
5,정국,빅히트,남자,1997-09-01,A,5208335
6,민현,플레디스,남자,1995-08-09,O,4989792
7,소연,큐브,여자,1998-08-26,B,4668615
8,진,빅히트,남자,1992-12-04,O,4570308
9,하성운,스타크루이엔티,남자,1994-03-22,A,4036489


In [217]:
df.dropna() # NaN이 있는 row 삭제

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [218]:
# how='any' : NaN가 한개라도 있는 경우 삭제
df.dropna(axis=0, how='any')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654


In [219]:
# how='all' : 모두 NaN인 경우 삭제
df.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [221]:
import numpy as np
# 10번쨰 index를 NaN으로 변경
df.iloc[10] = np.nan 

In [222]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


In [223]:
df.dropna(axis=0, how='all')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489.0


# **16. 중복값 제거**

In [224]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [225]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7       NaN
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [227]:
# 중복값제거, 3번 인덱스와 5번 인덱스, 7번과 10번
df['키'].drop_duplicates()

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
6     182.3
7       NaN
8     179.2
9     167.1
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [228]:
# keep : fist / last, default = first
df['키'].drop_duplicates(keep='last')

0     173.6
1     177.0
2     180.0
4     162.1
5     178.0
6     182.3
8     179.2
9     167.1
10      NaN
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

# **17. 컬럼/로우 제거하기**

In [229]:
df.drop('그룹',axis = 1)

Unnamed: 0,이름,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,큐브,여자,1998-08-26,,B,4668615
8,진,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [232]:
df.drop(['그룹', '소속사'],axis = 1)

Unnamed: 0,이름,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,남자,1995-10-13,173.6,A,10523260
1,지드래곤,남자,1988-08-18,177.0,A,9916947
2,강다니엘,남자,1996-12-10,180.0,A,8273745
3,뷔,남자,1995-12-30,178.0,AB,8073501
4,화사,여자,1995-07-23,162.1,A,7650928
5,정국,남자,1997-09-01,178.0,A,5208335
6,민현,남자,1995-08-09,182.3,O,4989792
7,소연,여자,1998-08-26,,B,4668615
8,진,남자,1992-12-04,179.2,O,4570308
9,하성운,남자,1994-03-22,167.1,A,4036489


In [233]:
df.drop(3, axis = 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


In [None]:
df.drop([3,12], axis= 0)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661


# **18. 데이터 프레임**

In [234]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')
df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2')

### **18-1. DataFrame 합치기**

In [235]:
df_copy = df.copy()

In [236]:
# row에 합칠 때는 pd.concat에 합칠 데이터프레임을 list로 합쳐줌
# row기준으로 합칠 때는 sort = False 옵션을 주어 순서가 유지되도록 함
pd.concat([df, df_copy], sort=False)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [238]:
#index라는 column이 추가됨
df_concat = pd.concat([df,df_copy], sort = False)
df_concat.reset_index()

Unnamed: 0,index,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
#drop = True 옵션으로 새로 index column이 생성되지 않도록 만듬
df_concat.reset_index(drop=True)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [None]:
# column을 기준으로 합치려면 axis=1 옵션을 설정
pd.concat([df, df2], axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000,3
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500,3
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200,4
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,뷔,3050,4
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300,3
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,정국,2900,5
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400,6
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500,5
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200,4
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300,4


In [242]:
df3 = df2.drop([3,5])

In [243]:
df3

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
4,화사,4300,3
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4
10,태연,3700,3
11,차은우,3850,5


In [244]:
pd.concat([df,df3],axis=1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,지드래곤,3500.0,3.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,소연,4500.0,5.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,하성운,4300.0,4.0


### **18-2. DataFrame 병합하기**

* concat : row나 column기준으로 단순하게 이어붙이기
* merge : 특정 고유한 키(unique id) 값을 기준으로 병합하기

In [245]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')
df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2')

In [246]:
# pd.merge(left, right, on='기준column', how='left')
# left와 right는 병합할 두 DataFreme을 대입
# on에는 병합의 기준이 되는 column을 넣어줌
# how에는 'left, right, inner, outer'라는 4가지의 병합 방식중 한가지 선택

df2

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,지드래곤,3500,3
2,강다니엘,3200,4
3,뷔,3050,4
4,화사,4300,3
5,정국,2900,5
6,민현,3400,6
7,소연,4500,5
8,진,4200,4
9,하성운,4300,4


In [None]:
df_right = df2.drop([1,3,5,7,9], axis = 0)

In [None]:
df_right = df_right.reset_index(drop=True)

In [None]:
df_right

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [None]:
pd.concat([df, df_right], axis = 1)

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,강다니엘,3200.0,4.0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,화사,4300.0,3.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,민현,3400.0,6.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,진,4200.0,4.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,태연,3700.0,3.0
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,차은우,3850.0,5.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,백호,3900.0,4.0
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,JR,4100.0,3.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,슈가,4150.0,3.0


In [None]:
pd.merge(df, df_right, on='이름', how='left') # left join

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


In [None]:
pd.merge(df, df_right, on='이름', how='right') # right join

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


In [None]:
# inner 방식은 두 DataFrame에 모두 키 값이 존재하는 경우만 병합
# outer 방식은 하나의 DataFrame에 키 값이 존재하는 경우 모두 병합
# outer 방식에서는 없는 값은 NaN으로 대입

pd.merge(df,df_right, on='이름',how='inner')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000,3
1,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200,4
2,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300,3
3,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400,6
4,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200,4
5,태연,소녀시대,SM,여자,1989-03-09,,A,3918661,3700,3
6,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027,3850,5
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654,3900,4
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137,4100,3
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,2925442,4150,3


In [None]:
pd.merge(df,df_right, on='이름',how='outer')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,


In [None]:
df_right.columns = ['성함','연봉', '가족수']

In [None]:
df_right

Unnamed: 0,성함,연봉,가족수
0,지민,3000,3
1,강다니엘,3200,4
2,화사,4300,3
3,민현,3400,6
4,진,4200,4
5,태연,3700,3
6,차은우,3850,5
7,백호,3900,4
8,JR,4100,3
9,슈가,4150,3


In [None]:
# df와 df_right를 병합하려면 df에는 '이름, df_right에는 '성함'으로 표기되어 기준을 지정할 수 없음
# 이때 사용하는 옵션은 left_on, right_on을 사용
pd.merge(df, df_right, left_on='이름', right_on='성함', how='outer')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,성함,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,지민,3000.0,3.0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,,,
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,강다니엘,3200.0,4.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,,,
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,화사,4300.0,3.0
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335,,,
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792,민현,3400.0,6.0
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615,,,
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308,진,4200.0,4.0
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489,,,


# **19. Series의 type**

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


* object : 일반 문자열 타입
* float : 실수
* int : 정수
* category: 카테고리
* datetime : 시간

In [248]:
# astype() : type을 변환
df['키'].dtypes

dtype('float64')

In [249]:
# NaN 값이 들어있어서 변경이 안됨
df['키'].astype(int)

ValueError: ignored

In [250]:
df['키'] = df['키'].fillna(-1)

In [251]:
df['키'].astype(int)

0     173
1     177
2     180
3     178
4     162
5     178
6     182
7      -1
8     179
9     167
10     -1
11    183
12    175
13    176
14    174
Name: 키, dtype: int64

# **20. 날짜 변환하기**

In [252]:
df['생년월일']

0     1995-10-13
1     1988-08-18
2     1996-12-10
3     1995-12-30
4     1995-07-23
5     1997-09-01
6     1995-08-09
7     1998-08-26
8     1992-12-04
9     1994-03-22
10    1989-03-09
11    1997-03-30
12    1995-07-21
13    1995-06-08
14    1993-03-09
Name: 생년월일, dtype: object

In [253]:
pd.to_datetime(df['생년월일'])

0    1995-10-13
1    1988-08-18
2    1996-12-10
3    1995-12-30
4    1995-07-23
5    1997-09-01
6    1995-08-09
7    1998-08-26
8    1992-12-04
9    1994-03-22
10   1989-03-09
11   1997-03-30
12   1995-07-21
13   1995-06-08
14   1993-03-09
Name: 생년월일, dtype: datetime64[ns]

In [254]:
df['생년월일'] = pd.to_datetime(df['생년월일'])

In [255]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [256]:
df['생년월일'].dt.dayofweek 
# 요일 : 0(월요일) ~ 6(일요일)

0     4
1     3
2     1
3     5
4     6
5     0
6     2
7     2
8     4
9     1
10    3
11    6
12    4
13    3
14    1
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.year

0     1995
1     1988
2     1996
3     1995
4     1995
5     1997
6     1995
7     1998
8     1992
9     1994
10    1989
11    1997
12    1995
13    1995
14    1993
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.month

0     10
1      8
2     12
3     12
4      7
5      9
6      8
7      8
8     12
9      3
10     3
11     3
12     7
13     6
14     3
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.day

0     13
1     18
2     10
3     30
4     23
5      1
6      9
7     26
8      4
9     22
10     9
11    30
12    21
13     8
14     9
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.hour

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.minute

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.second

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

In [None]:
df['생년월일'].dt.weekofyear

  """Entry point for launching an IPython kernel.


0     41
1     33
2     50
3     52
4     29
5     36
6     32
7     35
8     49
9     12
10    10
11    13
12    29
13    23
14    10
Name: 생년월일, dtype: int64

In [None]:
df['생일_년'] = df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day

In [None]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,생일_년,생일_월,생일_일
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1995,10,13
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1988,8,18
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1996,12,10
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1995,12,30
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,1995,7,23


내가 그냥 해보는거


In [258]:
date = '1999-05-13'

In [259]:
date = pd.to_datetime(date)

# **21. apply**

In [260]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

* apply는 Series나 DataFrame에 좀 더 구체적인 로직을 적용하고 싶은 경우 활용
* apply를 적용하기 위해서는 함수가 먼저 정의되야합니다.

In [261]:
df.loc[df['성별']=='남자', '성별'] = 1
df.loc[df['성별']=='여자', '성별'] = 0

In [262]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,1,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,1,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,1,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,1,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,0,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,1,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,1,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,0,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,1,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,1,1994-03-22,167.1,A,4036489


In [263]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [264]:
# 남자는 1, 여자는 0으로 변경
# 함수를 작성, apply() 사용
# df[성별].apply(함수명)
def male_or_female(x):
  if(x == '남자'):
    return 1
  elif x=='여자':
    return 0

df['성별'].apply(male_or_female,)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [265]:
df['성별'] = df['성별'].apply(male_or_female)

In [266]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,1,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,1,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,1,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,1,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,0,1995-07-23,162.1,A,7650928


In [267]:
# cm당 브랜드 평판지수를 구해보자(브랜드평판지수/키)
import pandas as pd
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [268]:
def cm_to_brand(df):
  value = df['브랜드평판지수']/df['키']
  return value

In [269]:
df.apply(cm_to_brand, axis = 1)

0     60617.857143
1     56027.949153
2     45965.250000
3     45356.747191
4     47198.815546
5     29260.308989
6     27371.321997
7              NaN
8     25503.950893
9     24156.128067
10             NaN
11    19158.617486
12    18866.594286
13    18603.051136
14    16812.885057
dtype: float64

# **22. lambda 함수**

* lambda는 한 줄로 작성하는 간단한 함수식
* return을 별도로 명시하지 않음


In [270]:
f = lambda x : 1 if x == '남자' else 0

In [271]:
df['성별'].apply(f)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [None]:
# 키/2를 적용한 필드를 생성
df['키/2'] = df['키'].apply(lambda x: x/2)

In [None]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,new,키/2
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,86.8,86.8
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,88.5,88.5
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,90.0,90.0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,89.0,89.0
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,81.05,81.05


> apply에 함수식을 만들어서 적용해주는 것과 동일하기 때문에, 복잡한 조건식은 함수로 만들고, 간단한 계산식은 lambda

# **23. map**

In [None]:
my_map = {
    '남자' : 1,
    '여자' : 0
}

In [None]:
df['성별'].map(my_map)

0     1
1     1
2     1
3     1
4     0
5     1
6     1
7     0
8     1
9     1
10    0
11    1
12    1
13    1
14    1
Name: 성별, dtype: int64

In [None]:
my_map = {
    '남자' : 'Male',
    '여자' : 'Female'
}

In [None]:
df['성별'].map(my_map)

0       Male
1       Male
2       Male
3       Male
4     Female
5       Male
6       Male
7     Female
8       Male
9       Male
10    Female
11      Male
12      Male
13      Male
14      Male
Name: 성별, dtype: object

# **24. 데이터프레임의 산술연산**

In [None]:
df = pd.DataFrame({'파이썬':[60, 70, 80, 85, 75], 
                   '자바':[50, 55, 80, 100, 95],
                   'C언어':[70, 65, 50, 95, 100]})

In [None]:
df

Unnamed: 0,파이썬,자바,C언어
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


In [None]:
type(df['파이썬'])

pandas.core.series.Series

In [272]:
type(df)

pandas.core.frame.DataFrame

In [None]:
df['파이썬'] + df['자바'] + df['C언어']

0    180
1    190
2    210
3    280
4    270
dtype: int64

In [None]:
df['파이썬'] - df['자바'] - df['C언어']

0    -60
1    -50
2    -50
3   -110
4   -120
dtype: int64

In [None]:
df['파이썬'] * df['자바'] * df['C언어']

0    210000
1    250250
2    320000
3    807500
4    712500
dtype: int64

In [None]:
df['파이썬'] / df['자바'] / df['C언어']

0    0.017143
1    0.019580
2    0.020000
3    0.008947
4    0.007895
dtype: float64

In [None]:
df['파이썬'] % df['자바'] % df['C언어']

0    10
1    15
2     0
3    85
4    75
dtype: int64

In [None]:
df['파이썬'] + 10

0    70
1    80
2    90
3    95
4    85
Name: 파이썬, dtype: int64

In [None]:
df['파이썬'] - 10

0    50
1    60
2    70
3    75
4    65
Name: 파이썬, dtype: int64

In [None]:
df['파이썬'] * 10

0    600
1    700
2    800
3    850
4    750
Name: 파이썬, dtype: int64

In [None]:
df['파이썬'] / 10

0    6.0
1    7.0
2    8.0
3    8.5
4    7.5
Name: 파이썬, dtype: float64

In [None]:
df['파이썬'] % 10

0    0
1    0
2    0
3    5
4    5
Name: 파이썬, dtype: int64

In [None]:
df = pd.DataFrame({'파이썬':[60, 70, 80, 85, 75], 
                   '자바':[50, 55, 80, 100, 95],
                   'C언어':[70, 65, 50, 95, 100]})

In [None]:
df

Unnamed: 0,파이썬,자바,C언어
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


In [None]:
df['파이썬자바+10'] = df['파이썬']+df['자바']+10

In [None]:
df

Unnamed: 0,파이썬,자바,C언어,파이썬자바+10
0,60,50,70,120
1,70,55,65,135
2,80,80,50,170
3,85,100,95,195
4,75,95,100,180


In [None]:
df.mean(axis=0)

파이썬          74.0
자바           76.0
C언어          76.0
파이썬자바+10    160.0
dtype: float64

In [None]:
import numpy as np

df = pd.DataFrame({'파이썬':[60, 70, np.nan, 85, 75], 
                   '자바':[50, np.nan, 80, 100, 95],
                   'C언어':[70, 65, 50, np.nan, 100]})

In [None]:
df['파이썬']/2 # NaN은 무조건 NaN

0    30.0
1    35.0
2     NaN
3    42.5
4    37.5
Name: 파이썬, dtype: float64

In [None]:
df['파이썬']/np.nan

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
Name: 파이썬, dtype: float64

In [None]:
df1 = pd.DataFrame({'파이썬':[60, 70, 80, 85, 75], 
                   '자바':[50, 55, 80, 100, 95],
                   'C언어':[70, 65, 50, 95, 100]})

In [None]:
df2 = pd.DataFrame({'파이썬':['good', 'bad', 'ok', 'good', 'ok'],
                    '자바':[50, 55, 80, 100, 95],
                    'C언어':[70, 65, 50, 95, 100]})

In [None]:
df1 + df2

TypeError: ignored

In [None]:
df1 + 10

Unnamed: 0,파이썬,자바,C언어
0,70,60,80
1,80,65,75
2,90,90,60
3,95,110,105
4,85,105,110


In [None]:
df2+10

TypeError: ignored

In [None]:
df1 = pd.DataFrame({'파이썬':[60, 70, 80, 85, 75], 
                   '자바':[50, 55, 80, 100, 95]})
df2 = pd.DataFrame({'자바':[50, 55, 80, 100],
                    '파이썬':[60, 70, 80, 85]})

In [None]:
df1*df2

Unnamed: 0,자바,파이썬
0,2500.0,3600.0
1,3025.0,4900.0
2,6400.0,6400.0
3,10000.0,7225.0
4,,


> 행의 갯수가 다른 경우 빠지 데이터는 NaN으로 취급

# **25. Select**

In [None]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [None]:
# 문자열이 있는 column만 선택
df.select_dtypes(include='object')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


In [None]:
# 문자열이 없는 column만 선택
df.select_dtypes(exclude='object')

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


In [None]:
df.select_dtypes(exclude = 'object')+10

Unnamed: 0,키,브랜드평판지수
0,183.6,10523270
1,187.0,9916957
2,190.0,8273755
3,188.0,8073511
4,172.1,7650938
5,188.0,5208345
6,192.3,4989802
7,,4668625
8,189.2,4570318
9,177.1,4036499


In [None]:
num_cols = df.select_dtypes(exclude = 'object').columns

In [None]:
df[num_cols]

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


In [None]:
obj_cols = df.select_dtypes(include = 'object').columns

In [None]:
df[obj_cols]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


# **26. 원핫인코딩(One-hot-encoding)**

* 원핫인코딩은 한개의 요소는 True, 나머지 요소는 False로 만들어주는 기법

In [274]:
blood_map={
    'A' : 0,
    'B' : 1,
    'AB' : 2,
    'O' : 3
}

In [275]:
df['혈액형_code'] = df['혈액형'].map(blood_map)

In [276]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,혈액형_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,2
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


In [None]:
df['혈액형_code'].value_counts()

0    7
3    4
2    2
1    2
Name: 혈액형_code, dtype: int64

* df['혈액형_code']를 머신러닝 알고리즘에 넣어 데이터를 예측하라고 지시한다면, 컴퓨터는 값들간의 관계를 스스로 형성하게 됨
* 만약 B형은 1, AB형은 2라는 값을 가지고 있을 때, 컴퓨터는 'B형 + AB형 = O형이다'라고 잘못된 관계를 맺을 수 있게 됨
* 별도의 column을 형성해주고 1개의 column에는 True, 나머지는 모두 False를 넣어줌으로 'A, B, AB, O형의 관계는 독립적이다'라는 카테고리로 표현

In [None]:
df['혈액형_code']

0     0
1     0
2     0
3     2
4     0
5     0
6     3
7     1
8     3
9     0
10    0
11    1
12    2
13    3
14    3
Name: 혈액형_code, dtype: int64

In [None]:
pd.get_dummies(df['혈액형_code'])

Unnamed: 0,0,1,2,3
0,1,0,0,0
1,1,0,0,0
2,1,0,0,0
3,0,0,1,0
4,1,0,0,0
5,1,0,0,0
6,0,0,0,1
7,0,1,0,0
8,0,0,0,1
9,1,0,0,0


In [None]:
pd.get_dummies(df['혈액형_code'],prefix = '혈액형')

Unnamed: 0,혈액형_0,혈액형_1,혈액형_2,혈액형_3
0,1,0,0,0
1,1,0,0,0
2,1,0,0,0
3,0,0,1,0
4,1,0,0,0
5,1,0,0,0
6,0,0,0,1
7,0,1,0,0
8,0,0,0,1
9,1,0,0,0


# **27. 데이터 전처리 활용**

* https://www.data.go.kr/ 에서 제공하는 공공데이터를 활용

* [민간 아파트 가격동향](https://bit.ly/ds-house-price)


In [278]:
df = pd.read_csv('https://bit.ly/ds-house-price')

In [279]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,전용면적 60㎡이하,2020,2,4039
4502,제주,전용면적 60㎡초과 85㎡이하,2020,2,3962
4503,제주,전용면적 85㎡초과 102㎡이하,2020,2,


In [280]:
# 분양가격 column의 이름을 재정의
df= df.rename(columns={'분양가격(㎡)':'분양가격'})

In [281]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [282]:
# 통계값 확인
df.describe()

Unnamed: 0,연도,월
count,4505.0,4505.0
mean,2017.45283,6.566038
std,1.311432,3.595519
min,2015.0,1.0
25%,2016.0,3.0
50%,2017.0,7.0
75%,2019.0,10.0
max,2020.0,12.0


In [283]:
df['분양가격'].astype(int) # 공백이 있기 때문에 숫자로 바꾸지 못한다

ValueError: ignored

In [289]:
# strip()를 사용하여 공백이 있는 데이터 공백없애기
df.loc[df['분양가격']== '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [290]:
df['분양가격']=df['분양가격'].str.strip()

In [291]:
df.loc[df['분양가격']== '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [294]:
df.loc[df['분양가격']== '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,전용면적 85㎡초과 102㎡이하,2015,10,
29,광주,전용면적 102㎡초과,2015,10,
34,대전,전용면적 102㎡초과,2015,10,
81,제주,전용면적 60㎡이하,2015,10,
113,광주,전용면적 85㎡초과 102㎡이하,2015,11,
114,광주,전용면적 102㎡초과,2015,11,
119,대전,전용면적 102㎡초과,2015,11,
166,제주,전용면적 60㎡이하,2015,11,
198,광주,전용면적 85㎡초과 102㎡이하,2015,12,
199,광주,전용면적 102㎡초과,2015,12,


In [297]:
df['분양가격'].astype(int) # 빈값이 존재해서 안됨

ValueError: ignored

In [298]:
# 빈 공백이 있는 데이터는 0을 넣어줌
df.loc[df['분양가격']=='','분양가격'] = 0

In [299]:
df['분양가격'].astype(int) # NaN이 존재함

ValueError: ignored

In [300]:
df['분양가격'] = df['분양가격'].fillna(0)

In [301]:
df['분양가격'].astype(int) # 잘못들어간 데이터

ValueError: ignored

In [302]:
df.loc[df['분양가격']=='6,657']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
2125,서울,전체,2017,11,6657


In [303]:
# 콤마를 제거
df['분양가격']=df['분양가격'].str.replace(',','')

In [304]:
df.iloc[2125]

지역명       서울
규모구분      전체
연도      2017
월         11
분양가격    6657
Name: 2125, dtype: object

In [305]:
df['분양가격'].astype(int)

ValueError: ignored

In [306]:
df['분양가격'] = df['분양가격'].fillna(0)

In [307]:
df['분양가격'].astype(int)

ValueError: ignored

In [308]:
# '-' 삭제
df['분양가격'] = df['분양가격'].str.replace('-','')

In [309]:
df['분양가격'].astype(int)

ValueError: ignored

In [310]:
df['분양가격'] = df['분양가격'].fillna(0)

In [311]:
df['분양가격'].astype(int)

ValueError: ignored

In [312]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격
3683,광주,전용면적 85㎡초과 102㎡이하,2019,5,
3686,대전,전용면적 60㎡이하,2019,5,
3688,대전,전용면적 85㎡초과 102㎡이하,2019,5,
3690,울산,전체,2019,5,
3691,울산,전용면적 60㎡이하,2019,5,
3692,울산,전용면적 60㎡초과 85㎡이하,2019,5,
3693,울산,전용면적 85㎡초과 102㎡이하,2019,5,
3694,울산,전용면적 102㎡초과,2019,5,
3696,세종,전용면적 60㎡이하,2019,5,


In [313]:
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [314]:
df['분양가격'] = df['분양가격'].astype(int)

In [315]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [317]:
# 규모구분 column에 불필요한 '전용면적 글자 삭제
df['규모구분'] = df['규모구분'].str.replace('전용면적','')

In [319]:
df['규모구분'] = df['규모구분'].str.strip()

In [321]:
df['규모구분'].value_counts()

102㎡초과          901
60㎡이하           901
전체              901
60㎡초과 85㎡이하     901
85㎡초과 102㎡이하    901
Name: 규모구분, dtype: int64

In [322]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [323]:
# 지역명 별로 평균 분양가격을 확인
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

In [324]:
# 분양가격이 100보다 작은 행을 제거
df.loc[df['분양가격']<100]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,85㎡초과 102㎡이하,2015,10,0
29,광주,102㎡초과,2015,10,0
34,대전,102㎡초과,2015,10,0
81,제주,60㎡이하,2015,10,0
113,광주,85㎡초과 102㎡이하,2015,11,0
...,...,...,...,...,...
4461,세종,60㎡이하,2020,2,0
4488,전남,85㎡초과 102㎡이하,2020,2,0
4493,경북,85㎡초과 102㎡이하,2020,2,0
4499,경남,102㎡초과,2020,2,0


### **특정 조건에 만족하는 행을 제거하는 방법**
1. index를 list로 가져옴
2. drop을 활용하여 행을 제거

In [325]:
idx = df.loc[df['분양가격']<100].index

In [326]:
idx

Int64Index([  28,   29,   34,   81,  113,  114,  119,  166,  198,  199,
            ...
            4418, 4448, 4453, 4458, 4459, 4461, 4488, 4493, 4499, 4503],
           dtype='int64', length=320)

In [327]:
df = df.drop(idx,axis = 0)

In [328]:
df.count

<bound method DataFrame.count of      지역명          규모구분    연도   월  분양가격
0     서울            전체  2015  10  5841
1     서울         60㎡이하  2015  10  5652
2     서울   60㎡초과 85㎡이하  2015  10  5882
3     서울  85㎡초과 102㎡이하  2015  10  5721
4     서울        102㎡초과  2015  10  5879
...   ..           ...   ...  ..   ...
4498  경남  85㎡초과 102㎡이하  2020   2  3247
4500  제주            전체  2020   2  3955
4501  제주         60㎡이하  2020   2  4039
4502  제주   60㎡초과 85㎡이하  2020   2  3962
4504  제주        102㎡초과  2020   2  3601

[4185 rows x 5 columns]>

In [329]:
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2412.642023
경기    4072.667925
경남    2814.376923
경북    2547.486166
광주    3049.028169
대구    3663.335938
대전    3128.433333
부산    3679.920755
서울    7225.762264
세종    2984.004000
울산    3043.503145
인천    3633.275862
전남    2304.969349
전북    2348.648855
제주    3432.795652
충남    2501.604743
충북    2316.871698
Name: 분양가격, dtype: float64

In [330]:
# count()로 데이터의 갯수 확인
df.groupby('지역명')['분양가격'].count()

지역명
강원    257
경기    265
경남    260
경북    253
광주    213
대구    256
대전    210
부산    265
서울    265
세종    250
울산    159
인천    261
전남    261
전북    262
제주    230
충남    253
충북    265
Name: 분양가격, dtype: int64

In [331]:
# 지역별 최고 비싼 분양가
df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

In [332]:
#연도별 분양가격의 평균
df.groupby('연도')['분양가격'].mean()

연도
2015    2788.707819
2016    2934.250000
2017    3143.311795
2018    3326.951034
2019    3693.422149
2020    3853.960526
Name: 분양가격, dtype: float64

In [333]:
# 피벗 테이블
# 행인덱스 : 연도
# 열 인덱스 : 규모구분
# 값 : 분양가격 

df.pivot_table(index = '연도', columns='규모구분', values= '분양가격')

규모구분,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2980.977778,2712.583333,2694.490196,2884.395833,2694.862745
2016,3148.099476,2848.144279,2816.965686,3067.380435,2816.073529
2017,3427.649746,3112.538071,2981.95098,3204.075145,3008.279412
2018,3468.355932,3286.184783,3227.458128,3467.184211,3235.098522
2019,4039.854839,3486.910112,3538.545918,3933.538462,3515.97449
2020,4187.566667,3615.96875,3594.852941,4532.090909,3603.911765


In [334]:
pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.977778
2015,60㎡이하,2712.583333
2015,60㎡초과 85㎡이하,2694.490196
2015,85㎡초과 102㎡이하,2884.395833
2015,전체,2694.862745
2016,102㎡초과,3148.099476
2016,60㎡이하,2848.144279
2016,60㎡초과 85㎡이하,2816.965686
2016,85㎡초과 102㎡이하,3067.380435
2016,전체,2816.073529


In [335]:
pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())
df.groupby(['연도','규모구분'])[]

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.977778
2015,60㎡이하,2712.583333
2015,60㎡초과 85㎡이하,2694.490196
2015,85㎡초과 102㎡이하,2884.395833
2015,전체,2694.862745
2016,102㎡초과,3148.099476
2016,60㎡이하,2848.144279
2016,60㎡초과 85㎡이하,2816.965686
2016,85㎡초과 102㎡이하,3067.380435
2016,전체,2816.073529
