# 데이터 다루기

---
---

# **1. 라이브러리 활용하기**

## 1)넘파이 이용하기

- 참고 : https://numpy.org/doc/stable/reference/index.html
- 넘파이 배열 구조 : https://wikidocs.net/205910

In [None]:
## numpy 배열 정의하기

# 넘파이 불러오기
import numpy as np

# [1,4,5,8] 넘파이 데이터로 만들기
data = [1,4,5,8]
print( type(data) )
data = np.array(data)
print( type(data) )
data.shape

# 데이터 타입지정하여 배열 정의하기
a = np.array([1,4,5,8], dtype='str')
a

# 타입 확인하기
a.dtype

### numpy 배열 구조

In [None]:
## numpy 배열 구조 확인하기

# 1차원 배열 만들기 [1, 2, 5, 8]
test_array = np.array([1, 2, 5, 8])

# 2차원 배열 만들기
matrix = np.array([[1, 2, 5, 8],[1, 2, 5, 8]])

# 3차원 배열 만들기
tensor_rank3 = np.array([
                    [[1, 2, 5, 8],[1, 2, 5, 8]],
                    [[1, 2, 5, 8],[1, 2, 5, 8]],
                    [[1, 2, 5, 8],[1, 2, 5, 8]]
                    ])

print('shape:',  tensor_rank3.shape  )         # 배열 구조 shape
print('ndim:',   tensor_rank3.ndim  )           # 배열 차원 ndim
print('size:',   tensor_rank3.size  )           # 배열 크기 size
print('itemsize:', tensor_rank3.itemsize)       # 메모리 크기 itemsize (차지하는 바이트(byte)수 )
print('dtype:',   tensor_rank3.dtype )         # 데이터 타입 dtype

### numpy 배열 구조 다루기

In [None]:
## numpy 배열 구조 다루기

# 1차원 배열로 변경하기  reshape
x = np.array([[1, 2, 5, 8], [1, 2, 5, 8]])
print(x.shape)
print(x.reshape(-1,))

# 배열 구조 다양하게 변경하기 reshape
x = np.array(range(8)).reshape(4,2)
print( x )
print( x.reshape(2,-1) )   # 고정 2행 배열로
print( x.reshape(2,2,-1) ) # 고정 2면, 2행 배열로 만들기
print( x.flatten() )       # 1차원 배열로 만들기

### 인덱싱 & 슬라이싱

In [None]:
## 인덱싱
x = np.array([[1, 2, 3], [4, 5, 6]])
print( x )
print( x[0][0] ) # [행][열]
print( x[0, 2] ) # [행, 열]
x[0, 2] = 100
print( x )


In [None]:
## 슬라이싱
print( x[:, 2:] )  # 전체 행의 2열 이상
print( x[1, 1:3] ) # 1행의 1열 ~ 2열
print( x[1:3] )   # 1행 ~ 2행의 전체


### 통계 분석 함수

In [None]:
## 통계 분석 함수
np.random.uniform(0, 5, 10)  # 균등분포 함수 (시작값, 끝값, 데이터개수)
np.random.normal(0, 2, 10)   # 정규분포 함수 (평균값, 분산, 데이터개수)


### numpy 배열 연산

In [None]:
## numpy 배열 연산
print( np.arange(3) )
print('-' * 30)
print( np.arange(3) + 5 )
print('-' * 30)
print( np.ones((3, 3), int) + np.arange(3) )
print('-' * 30)
print( np.arange(3).reshape(3, 1) + np.arange(3) )

In [None]:
np.eye(3)

In [None]:
x = np.arange(1,13).reshape(3,4)
print( x )
print('행 합:', x.sum(axis=0) )
print('열 합:', x.sum(axis=1) )
print('열 평균:', x.mean(axis=1) )
print('열 표준편차:', x.std(axis=1) )

-------------------------

## 2)판다스 이용하기

- https://pandas.pydata.org/pandas-docs/stable/
- https://pandas.pydata.org/pandas-docs/stable/reference/index.html#api

### Series객체 정의

In [None]:
# 판다스(Pandas)불러오기
import pandas as pd

# 시리즈(Series)생성하기
s = pd.Series(['대한민국','포르투칼','가나','우르과이'],
              index=['가','나','다','라'],
              name='2022년 카타르 월드컵 H조')
s

In [None]:
## 시리즈 구조
print(s.index)
print(s.values)
print(s.dtype)
type(s)

### DataFrame객체 정의

In [None]:
# 딕셔너리(Dictionary)형으로 데이터프레임(DataFrame) 생성하기
a1 = pd.DataFrame({"a" : [1,2,3],
                   "b" : [4,5,6],
                   "c" : [7,8,9]})
a1

In [None]:
# 2차원 리스트(LIST)형으로 데이터프레임(DataFrame) 생성하기
a2 = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], ["a","b","c"])
a2

$ x + y = z $

------------

# **2. 데이터 불러오기**

- 참고 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
- 데이터셋 출처 : https://www.kaggle.com/datasets/shubhambathwal/flight-price-prediction
- 항공권 가격 예측 데이터(Flight Price Prediction)

### CSV 파일 읽어서 데이터프레임 만들기

In [None]:
# 넘파이(Numpy), 판다스(pandas)불러오기
import numpy as np
import pandas as pd

# Clean_Dataset.csv 읽어서 Pandas DataFrame으로 만들고 그 결과를 flight 변수에 지정하기
flight = pd.read_csv('Clean_Dataset.csv')
flight

# flight 결과  (순서대로) 5건 출력하기
flight.head(2)  # 앞에서
flight.tail(2)  # 맨 뒤

### [실습] URL 링크로 되어 있는 json 파일 읽어서  Pandas 데이터로 표현하기
- 파일 위치 URL :  https://raw.githubusercontent.com/khw11044/csv_dataset/master/A0007IT.json

In [None]:
# json 파일  읽어서 Pandas DataFrame으로 만들고 그 결과를 df 변수에 지정하기
url = 'https://raw.githubusercontent.com/khw11044/csv_dataset/master/A0007IT.json'
df = pd.read_json(url)
df

# df 데이터  (순서대로) 3건 출력하기
df.head(3)


-----------

# **3. 데이터 저장하기**

- CSV 파일 저장하기 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html  


In [None]:
# a2 데이터프레임 만들기
a2 = pd.DataFrame([[1,2,3],
                   [4,5,6],
                   [7,8,9]], ['a','b','c'])
a2

### 데이터프레임 파일로 저장하기

In [None]:
# a2 데이터셋을 to_csv함수 활용하여 result_a2.csv 이름으로 저장하기

flight.to_csv('flight_x.csv')


In [None]:
# result_a2.csv을 불러오기
flight_x = pd.read_csv('flight_x.csv')
flight_x.head()

In [None]:
flight_x = pd.read_csv("flight_x.csv")
flight_x = flight_x.drop(columns=["Unnamed: 0.1",	"Unnamed: 0"])


In [None]:
flight_x.head(1)

In [None]:
# 불러온 후 컬럼 제거하기
flight_x = pd.read_csv("flight_x.csv")
flight_x = flight_x.drop(columns=["Unnamed: 0"])


### 파일에서 원하는 컬럼만 데이터프레임으로 만들기

In [None]:
# read_csv 함수의 파라미터를 활용하여 원하는 칼럼만 가지고 데이터 프레임 만들기
# - usecols 컬럼은 index_col로 설정한 컬럼을 반드시 포함시켜야 한다.
flight2 = pd.read_csv('./Clean_Dataset.csv',
                      index_col='stops',
                      usecols=['stops', 'departure_time','arrival_time','destination_city'])
flight2

### 범주형 컬럼 2개 비교하기
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html
* 범주형 컬럼 확인하기
    - df.info()
    - df.select_dtypes('object').columns

In [None]:
# flight의 범주형 컬럼 목록을 출력하기
flight.info()


In [None]:
flight.columns    # 컬럼 이름 보기

In [None]:
flight.select_dtypes('object').columns  # object 타입의 컬럼 이름 보기

In [None]:
flight['source_city']     # 동일한 기능 --> flight.source_city : Series 구조로 출력됨

In [None]:
flight[['source_city']]   # DataFrame 구조로 출력됨

In [None]:
# crosstab확인하기
# - 범주형 컬럼 2개를 비교할 때 사용
pd.crosstab(index=flight['airline'] , columns=flight['flight']  )
pd.crosstab(index=flight.airline , columns=flight.flight  )



---



# **4. 데이터 구조확인**

### 데이터 살펴보기

In [None]:
# head 확인하기
flight.head(1)

In [None]:
# tail 확인하기 : 뒤에서 5개
flight.tail(1)

In [None]:
# head로 상위 10개의 데이터 확인하기
flight.head(n=3)

In [None]:
# tail로 하위 3개의 데이터 확인하기
flight.tail(n=3)

### DataFrame 기본 속성(Attribute)

In [None]:
# shape 확인하기 : 구조
flight.shape

In [None]:
# columns 확인하기 : 컬럼 이름
flight.columns

In [None]:
# index 확인하기
flight.index

In [None]:
# dtypes 확인하기
flight.dtypes

In [None]:
flight['airline'].dtypes
flight.airline.dtypes
# flight['비행기'].dtypes  : 컬럼 이름이 한글일 수 있다.

### DataFrame 기본 함수

In [None]:
# info 확인하기
flight.info()


In [None]:
# describe 통계 요약정보 보기:  수치형
flight.describe()

In [None]:
flight.airline.value_counts()

In [None]:
# describe 통계 요약정보 보기(include='all'):  수치형 + 범주형 컬럼 정보 포함해서 보여줌
# top : 빈도수가 가장 많은 값
flight.describe(include='all')

In [None]:
# value_counts 확인하기 : 값들의 빈도수
flight.value_counts()
flight['source_city'].value_counts()      # 'source_city' 컬럼 값의 빈도수 출력

----

# **5. 필요 데이터 선택하기**

### 칼럼명으로 데이터 선택하기

In [None]:
flight['departure_time']   # 시리즈 데이터로 출력

In [None]:
# DataFrame 데이터로 출력 : 하나의 칼럼만 선택하기
flight[['departure_time']]

In [None]:
# 여러 개의 칼럼 선택하기
# flight[['airline','departure_time','source_city']].head(2)
변수 = flight[['airline','departure_time','source_city']]
변수.head(2)

### 행 범위를 지정하여 데이터 선택하기

In [None]:
# 시작값 <= 인덱스 < 끝값
flight[10:21]   # 슬라이싱을 이용하여 10행부터 20행까지의 데이터를 가져오기

### 특정 행, 열의 범위를 선택하여 데이터 선택하기

In [None]:
# 인덱스 새롭게 지정하기 (0~300153)
flight.index = np.arange(100,300253)
flight

In [None]:
# loc 사용하기
flight.loc[[102, 202, 302]]  # 레이블 값 (행 데이터)

In [None]:
# loc를 사용하여 행과 열의 범위 지정하기
flight.loc[[102, 202, 302], ['airline', 'flight', 'source_city', 'price']]

In [None]:
# iloc 사용하기 (inter : 인덱스로 접근)
flight.iloc[[2, 102, 202]]   # 인덱스 (행 데이터)

In [None]:
# iloc를 사용하여 행과 열의 범위 지정하기
flight.iloc[[2, 102, 202], [1, 2, 3, 11]]   # 행&열 : inter 인덱스로 접근

In [None]:
# iloc를 사용하였을 때 칼럼값을 그대로 사용시 에러 발생
flight.iloc[[2, 102, 202], ['airline', 'flight', 'source_city', 'price']]

### 조건으로 데이터 선택하기

- ※ 앞서 진행한 실습을 이어서 진행하실 경우 실습을 진행하실 수 있으나, 실습 코드가 반영되어 결과 값의 차이가 있을 수 있습니다.
- 실습 데이터를 다시 불러온 후 데이터프레임을 만들어 실습을 진행합니다.

In [None]:
# flight DataFrame을 만들기
flight = pd.read_csv('./Clean_Dataset.csv', encoding = "cp949")
flight

## 조건 : price가 12000 초과 이고, airline이 Air_India인 항목만 추출

In [None]:
# 방법1: boolean 연산으로 조건을 만족하는 데이터만 추출하기
# flight[(flight['price'] > 12000) & (flight['airline']=='Air_India')]


flight_extract = flight[(flight['price']>12000) & (flight['airline']=='Air_India')]
flight_extract.head(2)

##### ## 조건1. : price가 12000 초과

In [None]:
# 가격: 12000 초과
price_tag =  flight['price']>12000

##### ## 조건2. : airline이 Air_India

In [None]:
# 항공사 이름: Air_India
airline_tag =  flight['airline']=='Air_India'

flight_extract2 = flight[price_tag & airline_tag]
flight_extract2.head(2)

In [None]:
# 방법3: query() 함수 사용
flight_extract3 =  flight.query(" price >12000 & airline=='Air_India' ")
flight_extract3.head(2)



---

# **6. 필요 데이터 변경하기**

## 데이터 추가하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.insert.html

In [None]:
# 새로운 칼럼 만들기
flight['price2'] = flight['price'] * 2
flight.head(2)

In [None]:
# 기존 칼럼 연산으로 새로운 칼럼 만들기
flight['price3'] = flight['price'] + flight['price2']
flight.head(2)

In [None]:
# 새로운 칼럼 원하는 위치에 넣기 :
# - insert(들어갈 위치 컬럼인덱스, 신규컬럼이름, 컬럼값)
flight.insert(2, 'duration3', flight['duration'] *10)
# 처음 0부터 시작하여 10번 칼럼으로 insert
flight.head(2)

## 데이터 삭제하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html

In [None]:
# drop 메소드 사용하여 데이터 삭제 하기
# 'price3' 컬럼 삭제하기, 반드시, (2차원 일 경우) 컬럼 삭제시 axis=1을 지정해야한다.
flight.drop('price3', axis=1)

In [None]:
# axis 속성 이해하기
# 특정 행(index=2) 삭제
flight.drop(index=2, axis=0)


In [None]:
# 여러 행 삭제
flight.drop(index=[1,2,5], axis=0)  # 여러 특정 행 삭제 : 인덱스 1,2,5
flight.drop(flight.index[0:10], axis=0)  # 여러 행 범위로 삭제 : 인덱스 0~10

In [None]:
# 데이터 삭제('price3') 후 새로운 데이터프레임(flight1)에 저장하기
flight1 = flight.drop('price3', axis=1)


In [None]:
# drop 메소드의 inplace 속성 확인하기
flight.drop('price3', axis=1, inplace=True)
flight.head()

In [None]:
flight.drop(['price2', 'duration3'], axis=1, inplace=True)
flight.head()

## 칼럼명 변경하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html

In [None]:
flight.rename(columns = {"airline" : 'airline_name',"source_city":'departure_city'},
              inplace=True)       # 컬럼명 변경, 영구 반영
flight.rename(index=str).head(2)  # 인덱스를 문자열 형태로 변경하기

In [None]:
# rename 이용하여 칼럼명 변경하기
flight=flight.rename(columns = {"airline" : 'airline_name',"source_city":'departure_city'})
flight.head()

## 데이터프레임 정렬하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

In [None]:
flight.head()

In [None]:
# sort_values 메소드와 ascending 매개변수 지정하여 데이터 프레임 역순으로 정렬하기
# flight.sort_values(by ='Unnamed: 0', ascending=False, inplace=True)
flight=flight.sort_values(by ='Unnamed: 0', ascending=False)
flight.head()

In [None]:
# sort_values 메소드와 ascending 매개변수 지정하여 데이터 프레임 순차로 정렬하기
flight.sort_values(by='Unnamed: 0', ascending=True, inplace=True)
flight.head(2)

In [None]:
## 여러 개의 컬럼 정렬하기
flight=flight.sort_values(by=['airline_name','flight'], ascending=True)
flight.head(2)

In [None]:
# 컬럼 전체를 이용해서 컬럼명 변경 가능
flight.columns
flight.columns = ['Unnamed: 0', 'airline_name', 'flight', 'departure_city',
       'departure_time', 'stops', 'arrival_time', 'destination_city', 'class',
       'duration', 'days_left', 'price']



---


# **7. 데이터 프레임 변경하기**


- ※ 앞서 진행한 실습을 이어서 진행하실 경우 실습을 진행하실 수 있으나, 실습코드가 반영되어 결과값의 차이가 있을 수 있습니다.
- 실습 데이터를 다시 불러온 후 데이터프레임을 만들어 실습을 진행 합니다.

In [None]:
# flight DataFrame 만들기 : Clean_Dataset.csv 다시 불러와 flight 변수에 저장
import numpy as np
import pandas as pd
flight = pd.read_csv('Clean_Dataset.csv')
flight.head(2)

## 그룹화 하기

### 1) groupby 활용하기

In [None]:
# airline 칼럼 기준으로 그룹화하기
airline_group = flight.groupby('airline')
airline_group

In [None]:
# 수행 결과 확인하기
airline_group.groups

In [None]:
airline_group.index   # 오류

In [None]:
# 데이터 수 확인하기 : count()
airline_group.count()

In [None]:
# 최솟값 확인하기 : min()
airline_group.min()

In [None]:
# 평균값 확인하기 :  mean()
# airline_group.mean()
airline_group.mean(numeric_only=True)

In [None]:
# 특정 칼럼 값만 확인하기  : 'price'의 평균값
# airline_group.mean()[['price']]
# airline_group.mean(numeric_only=True)[['price']]
alirline_group_mean = flight.groupby('airline').mean(numeric_only=True)
alirline_group_mean[['price']]

In [None]:
# groupby를 활용하여 다중 인덱싱(multi-indexing)설정하기 :
# 'airline', 'arrival_time' 기준으로 평균 구하기
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True)

In [None]:
# 여러 개의 칼럼을 groupby하여 새로운 데이터프레임 생성하기
mul_airline_group=flight.groupby(['airline', 'arrival_time'])
mul_airline_group.mean(numeric_only=True)

In [None]:
# groupby 후 원하는 데이터만(행) 가지고 오기
# - loc()은 인덱스를 레이블로 접근한다.
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True).loc[[('AirAsia','Evening')]]

In [None]:
# groupby 후 원하는 데이터만(행) 가지고 오기
# - loc()은 인덱스를 레이블로 접근한다.
# flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True).loc[[('AirAsia', 'Afternoon')]][['price']]

# 1.'airline', 'arrival_time'기준으로 그룹핑하여 평균을 구한다.
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True)

# 2. 1번 결과에서 특정 인덱스('AirAsia', 'Afternoon')에 해당하는 데이터 추출
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True).loc[[('AirAsia', 'Afternoon')]]

# 3. 2번 결과에서 특정 컬럼 값(price) 추출하기
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True).loc[[('AirAsia', 'Afternoon')]][['price']]

In [None]:
flight.groupby(['airline', 'arrival_time']).mean(numeric_only=True)[['price','days_left']]

### 2) 인덱스로 그룹화하기

In [None]:
# set_index로 인덱스 지정하기 : 'airline','arrival_time'
flight.index
flight.head(2)
flight.set_index(['airline','arrival_time'])

In [None]:
# 다중 인덱스(multi-index) 셋팅 후 해당 인덱스 기준으로 groupby하기
flight.set_index(['airline','arrival_time']).groupby(level=[0]).mean(numeric_only=True)
flight.groupby('airline').mean(numeric_only=True)

In [None]:
# 인덱스 모두 선택하여 groupby 하기
flight.set_index(['airline','arrival_time']).groupby(level=[0,1]).mean(numeric_only=True)
flight.groupby(['airline','arrival_time']).mean(numeric_only=True)

In [None]:
# 인덱스 초기화하기
flight.reset_index()            # 인덱스 초기화되고, index라는 컬럼이 새로 생긴다.
# flight.reset_index(drop=True)   # 인덱스 초기화

### 3) Aggregate로 집계하기
집계함수를 여러 개 한꺼번에 사용할 수 있다.

In [None]:
flight.groupby('airline').mean(numeric_only=True)
flight.groupby('airline').aggregate(['min', 'max'])  # min&max: 문자 & 숫자 가능, mean 숫자만 가능

In [None]:
# aggregate 메소드 이용하여 groupby 후 평균값과 최댓값 확인하기
# (상향 버전에서는 오류 발생함, AICE Jupyterlab에서는 warning메시지 발생)
flight.set_index(['airline','arrival_time']).groupby(level=[0,1]).aggregate([np.mean, np.max])

In [None]:
## 숫자 타입 컬럼 추출해서 사용
flight.select_dtypes(include='number')
flight_number = flight.set_index(['airline','arrival_time']).select_dtypes(include='number')
flight_number.groupby(level=[0,1]).aggregate([np.mean, np.max])

In [None]:
flight_number = flight.set_index(['airline','arrival_time']).select_dtypes(include='number')
flight_number.aggregate(['max', 'mean'])

In [None]:
## 숫자 타입 컬럼을 추출하여 행으로 집계하기
## - DataFrame.aggregate()
## - DataFrame.agg()
flight_number = flight.select_dtypes(include='number')   ## 숫자 타입 컬럼 추출
flight_number.aggregate(['max', 'mean'])
# flight_number.agg(['max', 'mean'])

In [None]:
flight_number.agg({'duration' : ['sum', 'max'], 'price' : ['max', 'mean']})

## 피벗테이블 생성하기

In [None]:
# pivot / pivot_table을 위한 데이터프레임 만들기
import numpy as np
import pandas as pd
pivot_data = pd.DataFrame({'cust_id': ['cust_1', 'cust_1', 'cust_1', 'cust_2', 'cust_2', 'cust_2', 'cust_3', 'cust_3', 'cust_3'],
                  'prod_cd': ['p1', 'p2', 'p3', 'p1', 'p2', 'p3', 'p1', 'p2', 'p3'],
                  'grade' : ['A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B'],
                  'purch_amt': [30, 10, 0, 40, 15, 30, 0, 0, 10]})
pivot_data.head()

In [None]:
print(pivot_data['cust_id'].unique())
print(pivot_data['prod_cd'].unique())
print(pivot_data['grade'].unique())

In [None]:
# pivot 활용하기
# pivot_data.pivot(columns ='prod_cd')
pivot_data.pivot(index = 'cust_id', columns ='prod_cd', values ='purch_amt')

# 해당 pivot data는 아래와 같이 코드를 작성할 수도 있습니다.
# pivot_data('cust_id', 'prod_cd', 'purch_amt')

In [None]:
# 중복값이 존재하는 경우 에러 메시지
pivot_data.pivot(index='grade', columns='prod_cd', values='purch_amt')

In [None]:
# pivot_table 활용하기
pivot_data.pivot_table(values='purch_amt', index='grade', columns='prod_cd')

In [None]:
# pivot_table의 aggfunc 지정하기
pivot_data.pivot_table(index='grade', columns='prod_cd', values='purch_amt', aggfunc=np.sum)

## 인덱스 및 칼럼 레벨 변경하기

In [None]:
# stack/unstack을 위한 데이터프레임 만들기
import numpy as np
import pandas as pd
stack_data = pd.DataFrame({
    'Location': ['Seoul', 'Seoul', 'Seoul', 'kyounggi', 'kyounggi', 'Busan', 'Seoul', 'Seoul', 'Busan', 'kyounggi', 'kyounggi', 'kyounggi'],
    'Day': ['Mon', 'Tue', 'Wed', 'Mon', 'Tue', 'Mon', 'Thu', 'Fri', 'Tue', 'Wed', 'Thu', 'Fri'],
    'Ranfall': [100, 80, 1000, 200, 200, 100, 50, 100, 200, 100, 50, 100],
    'Rainfall_precipitation': [80, 70, 90, 10, 20, 30, 50, 90, 20, 80, 50, 10],
    'Temp' : [32, 27, 32, 31, 30, 28, 27, 25, 26, 33, 34, 31]})

stack_data

In [None]:
print('Location:', stack_data['Location'].unique())
print('Day:', stack_data['Day'].unique())

In [None]:
# 인덱스 설정하기 : 'Location','Day'
new_stack_data = stack_data.set_index(['Location','Day'])
new_stack_data

- **unstack** : 인덱스 레벨에서 컬럼 레벨로 위치 변경하여 데이터 쌓아 올리는 방법
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html

In [None]:
# unstack 확인하기 :
new_stack_data.unstack(0)

In [None]:
new_stack_data.unstack(1)

- **stack**: 컬럼 레벨에서 인덱스 레벨로 위치 변경하는 방법
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html

In [None]:
new_stack_data2 = new_stack_data.unstack(1)
new_stack_data2.stack(1)



---



# **8. 데이터 프레임 병합하기**

## 1. concat 활용하여 병합하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

### 1) 칼럼명이 같은 경우

In [None]:
# concat 실행을 위한 데이터프레임 만들기
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'col1' : ['사과','배','감','수박','메론'], 'col2' : [500, 1000, 2500, 5000,3000]}, index=[0,1,2,3,4])
df2 = pd.DataFrame({'col1' : ['수박','메론','딸기','키위','오렌지'], 'col2' : [5000,3000,1000,600,700]}, index=[3,4,5,6,7])

In [None]:
df1

In [None]:
df2

In [None]:
# 컬럼명이 같을 경우 : ignore_index 확인하기
pd.concat([df1, df2], ignore_index=False)  # 기존 인덱스 사용

In [None]:
pd.concat([df1, df2], ignore_index=True)   # 신규 인덱스 부여

In [None]:
# concat axis 이해하기
pd.concat([df1, df2], axis = 0)

In [None]:
pd.concat([df1, df2])

### 2) 칼럼명이 다른 경우

In [None]:
df3 = pd.DataFrame({'item':['item0','item1','item2', 'item3'], 'count':['count0','count1','count2','count3'],
                    'price':['price0','price1','price2','price3']}, index = [0,1,2,3])
df4 = pd.DataFrame({'item':['item2','item3','item4', 'item5'], 'count':['count2','count3','count4','count5'],
                    'price':['price2','price3','price4','price5'], 'var':['var2','var3','var4','var5']}, index = [2,3,4,5])

In [None]:
df3

In [None]:
df4

In [None]:
# join의 outer 방식
pd.concat([df3, df4], join='outer')

In [None]:
# join의 inner 방식
pd.concat([df3, df4], join='inner')

### 3) 인덱스가 중복인 경우

In [None]:
df5 = pd.DataFrame({'A':['A0','A1','A2'], 'B':['B0','B1','B2'], 'C':['C0','C1','C2'], 'D':['D0','D1','D2']}, index=['I0','I1','I2'])
df6 = pd.DataFrame({'A':['AA2','A3','A4'], 'B':['BB2','B3','B4'], 'C':['CC2','C3','C4'], 'D':['DD2','D3','D4']}, index=['I2','I3','I4'])

In [None]:
df5

In [None]:
df6

In [None]:
# 인덱스가 중복인 경우 : verify_integrity 확인하기 (에러 메시지)
pd.concat([df5, df6], verify_integrity=True)

## 2. merge/ join 활용하여 병합하기
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html

In [None]:
# merge / join 실행을 위한 데이터프레임 만들기
import pandas as pd
import numpy as np
customer = pd.DataFrame({'customer_id' : np.arange(6),
                    'name' : ['James', 'Elly', 'Tom', 'Givert', 'Aiden', 'Brody'],
                    '나이' : [40, 20, 21, 30, 31, 18]})

orders = pd.DataFrame({'customer_id' : [1, 1, 2, 2, 2, 3, 3, 1, 4, 9],
                    'item' : ['마우스', '충전기', '이어폰', '헤드셋', '전자펜', '키보드', '전자펜', '마우스', '키보드', '케이스'],
                    'quantity' : [1, 2, 1, 1, 3, 2, 2, 3, 2, 1]})


In [None]:
customer

In [None]:
orders

In [None]:
# merge 함수의 on 속성 이해하기
pd.merge(customer, orders, on='customer_id')

In [None]:
# merge 함수의 how 속성 이해하기
pd.merge(customer, orders, on='customer_id', how='inner')  # 교집합

In [None]:
pd.merge(customer, orders, on='customer_id', how='left')   # 왼쪽중심

In [None]:
pd.merge(customer, orders, on='customer_id', how='right')  # 오른쪽중심

In [None]:
pd.merge(customer, orders, on='customer_id', how='outer')  # 합집합

In [None]:
# 인덱스를 지정하여 데이터프레임 합치기
cust1=customer.set_index('customer_id')
order1=orders.set_index('customer_id')
pd.merge(cust1, order1, left_index=True, right_index=True)

In [None]:
cust1
order1

------------------------

## [실습] 확인문제

- **문제1**. 데이터프레임 병합하기에서 customer, orders 데이터프레임을 사용할 경우 가장 많이 팔린 아이템은 무엇인가?

In [None]:
# 1. item별 합 구하기
sales = pd.merge(customer, orders, on='customer_id', how='outer')
sales.groupby('item').sum()
# pd.merge(customer, orders, on='customer_id', how='outer').groupby('item').sum()

# orders.groupby('item').sum()

In [None]:
# 2. 오름차순으로 데이터를 정렬하기
items = pd.merge(customer, orders, on='customer_id', how='outer').groupby('item').sum()
items.sort_values(by='quantity', ascending=True)

# pd.merge(customer, orders, on='customer_id', how='outer').groupby('item').sum().sort_values(by='quantity', ascending=True)

- **문제2**. 가장 많이 구매한 물건은?
데이터프레임 병합하기에서 custoemr, orders 데이터프레임을 사용할 경우 Elly가 가장 많이 구매한 물건은 무엇인가?

In [None]:
# 문제2
pd.merge(customer, orders, on='customer_id', how='outer').groupby(['name','item']).sum().loc['Elly']
