## Agenda
- 리인덱싱
- 삭제
- 연산
- 정렬

In [2]:
import pandas as pd
import numpy as np

## 1.2 핵심 기능

### 1.2.1 리인덱싱

#### 시리즈 리인덱싱

In [2]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

- 새로운 인덱스가 추가되면 `NaN`이 사용

In [5]:
obj2=obj.reindex(["a","b","c","d","e"])

- 지정되지 않은 인덱스는 무시

In [7]:
obj.reindex(["a","c","d","e"]) 

a   -5.3
c    3.6
d    4.5
e    NaN
dtype: float64

#### 결측치 채우기 1: `method` 키워드 인자

- 리인덱싱 과정에서 결측치가 발생할 때 여러 방식으로 채울 수 있다.
- `method='fill'` 키워드 인자는 결측치를 위쪽에 위치한 값으로 채운다.

__주의사항:__ 인덱스가 오름 또는 내림 차순으로 정렬되어 있는 경우에만 가능하다.

In [8]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 5])
obj3

0      blue
2    purple
5    yellow
dtype: object

In [11]:
# obj3.reindex(range(6))
obj3.reindex(range(6), method="bfill") #ffill 은 앞쪽에 있는 값으로 채워지는 것임 포워드 필
# bfill은 백 필 / nearest는 가까운 거리에 있는 애로 채워준다 아래에 있는 애들의 기준

0      blue
1    purple
2    purple
3    yellow
4    yellow
5    yellow
dtype: object

- 아랫쪽에 있는 값으로 채울 수도 있다.
- `method='bfill'`

- 아니면 가장 가까운 곳에 있는 값으로 채울 수도 있다.
- `method='nearest'`

#### 결측치 채우기 2: `fill_value` 키워드 인자

- 리인덱싱 과정에서 발생하는 모든 결측치를 지정된 값으로 대체
- 기본값은 `NaN` 이다.

In [12]:
obj3.reindex(range(6), fill_value="Color")

0      blue
1     Color
2    purple
3     Color
4     Color
5    yellow
dtype: object

- 리인덱싱은 항상 새로운 시리즈를 생성한다.
- 따라서 `obj3` 자체는 변하지 않는다.

In [14]:
obj3.reindex(range(6), fill_value="Color") #inplace =True가 없다. 그래서 재할당을 해줘야한다

NameError: name 'Ture' is not defined

#### 데이터프레임 리인덱싱

- 데이터프레임은 `index`와 `columns` 속성에 대해 리인덱싱이 가능하며 작동법은 Series의 인덱싱과 동일하다.

In [15]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


- `reindex()` 메서드는 기본적으로 행의 `index` 에 대해 작동

In [16]:
frame.reindex(["a","c","d"])

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


- 열의 `columns`에 대해서는 `columns` 키워드 인자를 활용

In [17]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states) #columns는 값을 넣어줘야한다.

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 5.2.2 `drop()` 메서드

- 특정 행 또는 열의 인덱스를 제외한 나머지로 이루어진 시리즈/데이터프레임을 구할 때 사용
- 시리즈의 경우 인덱스를 한 개 또는 여러 개 지정하면 나머지로 이루어진 시리즈를 얻을수 있다. 

In [19]:
obj = pd.Series(np.arange(5),index=["a","b","c","d","e"])

- `inplace=True` 키워드 인자를 이용하여 원본 수정 가능
- 사용시 주의 

In [23]:
obj.drop(["c","d"], inplace=True)

In [24]:
obj

a    0
b    1
e    4
dtype: int64

- 데이터프레임의 경우도 기본적으로 행의 인덱스를 기준으로 작동한다.

In [25]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [27]:
data.drop(["Colorado","Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


- 열을 기준으로 작동하게 하려면 `axis=1`로 지정한다.

In [29]:
data.drop(["two"],axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


- `axis='columns'` 지정

In [31]:
data.drop(["one"],axis="columns")

Unnamed: 0,two,three,four
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
New York,13,14,15


### 1.2.3 인덱싱, 슬라이싱, 필터링(부울 인덱싱)



#### 시리즈의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

시리즈의 경우 1차원 넘파이 어레이와 거의 동일하게 작동한다.
다만 정수 대신에 지정된 인덱스를 사용할 때 조금 차이가 있다.

In [32]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [33]:
obj["b"]

1.0

- 여러 개의 인덱스를 리스트로 지정하여 인덱싱을 진행

In [36]:
obj[["b","a"]] #그냥 ["a","b"]이면 tuple이라 안되고 []를 하나 더 넣어줘야 동작이 된다.

b    1.0
a    0.0
dtype: float64

- 필터링(부울 인덱싱)은 동일하게 작동

In [37]:
obj[obj<2] #True인 애들만 나옴

a    0.0
b    1.0
dtype: float64

- Label 슬라이싱

In [39]:
# 라벨 슬라이싱은 양쪽 구간 끝부분을 모두 포함한다.
obj["b":"c"] #0:4라면 0부터3까지 값이 나왔는데 이거는 포함해서 4 까지 나온다.


b    1.0
c    2.0
dtype: float64

__주의사항:__ 
- 라벨 슬라이싱은 기본적으로 알파벳 순서를 따르며시리즈에 사용된 순서와 상관 없다.

In [40]:
obj["b":"c"] =10

In [42]:
obj.reindex(["b","d","c","a"])

b    10.0
d     3.0
c    10.0
a     0.0
dtype: float64

In [43]:
obj2=obj.reindex(["b","d","c","a"])

In [47]:
obj2["c":"b"] #값이 나오지 않는다. 슬라이싱할때 굉장히 중요한건 순서이다.

Series([], dtype: float64)

#### 데이터프레임의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

In [75]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [49]:
data["two"] #기본적으로 열을 기준으로 indexing

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [50]:
data[["two","one"]]

Unnamed: 0,two,one
Ohio,1,0
Colorado,5,4
Utah,9,8
New York,13,12


In [51]:
data[:2] #슬라이싱은 행이 기준

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [53]:
mask = data["three"]>2 #필터링
data[mask]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [54]:
#필터링을 이용한 항목 업데이트
data[~mask]=0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [76]:
mask = data <7


In [77]:
data[mask]=-1


In [78]:
data

Unnamed: 0,one,two,three,four
Ohio,-1,-1,-1,-1
Colorado,-1,-1,-1,7
Utah,8,9,10,11
New York,12,13,14,15


#### 행 단위 인덱싱/슬라이싱

`loc()` 또는 `iloc()` 메서드를 이용한다.

- `loc()` 메서드: 라벨을 이용할 경우
- `iloc()` 메서드: 정수 인덱스를 이용할 경우

In [64]:
data.loc["Colorado"] # 행 -> 이 방향이면 loc쓰고 열 | 이 방향이면 loc 안써줘도 된다.

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [66]:
data.loc["Colorado",["two","three"]] #Colorado의 two,three값만 나옴

two      5
three    6
Name: Colorado, dtype: int64

In [70]:
data.iloc[1,[2,3]]

three    6
four     7
Name: Colorado, dtype: int64

In [71]:
data.loc[:"Colorado"]

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,4,5,6,7


### 5.2.5 산술 연산

시리즈/데이터프레임의 사칙 연산은 기본적으로 아래 원칙을 따른다.

- 연산에 사용된 모든 인덱스는 포함
- 공통으로 사용되는 인덱스의 항목에 대해서만 연산 적용. 그렇지 않으면 `NaN`으로 처리.

In [2]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [3]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [4]:
s1 + s2 

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [5]:
df_1 = pd.DataFrame(np.arange(9). reshape((3,3)),
                    columns=list("bcd"),
                    index = ['Ohio', 'Colorado', "Texas"])

In [6]:
df_2 = pd.DataFrame(np.arange(12).reshape((4,3)),
                    columns=list("bde"),
                    index = ['Ohio', 'Utah', 'New York',"Texas"])


In [None]:
df_2

In [None]:
df_1

In [7]:
df_1 + df_2 #덧셈뺄셈할때 shape을 잘 봐줘야함

#dataframe은 행 단위로 연산이 이루어진다.


Unnamed: 0,b,c,d,e
Colorado,,,,
New York,,,,
Ohio,0.0,,3.0,
Texas,15.0,,18.0,
Utah,,,,


- 기본적으로 사용되는 산술 연산 기호에 해당하는 메서드가 존재한다.

| 메서드 | 설명 |
| :--- | :--- |
| `add()` | 덧셈(`+`) 계산 메서드 | 
| `sub()` | 뺄셈(`-`) 계산 메서드 | 
| `mul()` | 곱셈(`*`) 계산 메서드 | 
| `div()` | 나눗셈(`/`) 계산 메서드 | 
| `floordiv()` | 몫 (`//`) 계산 메서드 | 
| `pow()` | 거듭제곱(`**`) 메서드 | 

#### 연산 과정에서 결측치 채우기
- 공통 인덱스가 아니거나 결측치가 이미 존재하는 경우 기본적으로 결측치로 처리됨.
- `fill_value` 키워드 인자를 이용하여 지정된 값으로 처리하게 만들 수도 있다.

In [39]:
# df_1.add(df_2)
df_1.add(df_2, fill_value=10)
# df_1.sub(df_2, fill_value=10)

Unnamed: 0,b,c,d,e
Colorado,13.0,14.0,15.0,
New York,16.0,,17.0,18.0
Ohio,0.0,11.0,3.0,12.0
Texas,15.0,17.0,18.0,21.0
Utah,13.0,,14.0,15.0


#### 데이터프레임과 시리즈 사이의 연산

넘파이에서 2차원 어레이와 1차원 어레이 사이에
브로드캐스팅이 가능한 경우,
즉, 차원을 맞출 수 있는 경우에 연산이 가능했다.

In [29]:
arr = np.arange(12).reshape((3,4))
arr #df x 

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
arr.shape

In [None]:
arr[:, 1].shape

In [None]:
arr.reshape(4,3) - arr[:, 1]

In [None]:
arr[:, 1][:, np.newaxis].shape

In [None]:
arr - arr[:, 1][:, np.newaxis]

In [30]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame.shape

(4, 3)

In [31]:
series = frame.iloc[0]
series.shape

(3,)

In [33]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,1.805311,-2.499547,0.837077
Texas,0.060742,1.406317,0.636661
Oregon,2.321303,-1.06267,1.164702


In [34]:
#공통의 인덱스가 존재하면 두 인자 모두에 대해 브로드 캐스팅 적용
sur_1 = pd.Series(range(3),index=list("bef"))
sur_1

b    0
e    1
f    2
dtype: int64

In [35]:
frame + sur_1

Unnamed: 0,b,d,e,f
Utah,-0.262222,,0.168389,
Ohio,1.543089,,1.005466,
Texas,-0.20148,,0.805049,
Oregon,2.059081,,1.33309,


In [37]:
frame.sub(series)

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,1.805311,-2.499547,0.837077
Texas,0.060742,1.406317,0.636661
Oregon,2.321303,-1.06267,1.164702


In [36]:
# 열 단위로 연산을 하고 싶으면 axis = 0으로 진행하면 된다.
frame.sub(series, axis = 0)

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


### 1.2.6 함수 적용

#### 유니버설 함수

유니버설 함수는 넘파이의 경우와 동일하게 작동한다.

In [14]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.150991,1.036367,1.369624
Ohio,0.713467,-0.426692,-1.157304
Texas,-1.23091,-0.76824,-1.457039
Oregon,2.60212,0.718885,0.131171


- 넘파이의 `abs()` 함수를 적용하면 항목별로 이루어진다.

In [15]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.150991,1.036367,1.369624
Ohio,0.713467,0.426692,1.157304
Texas,1.23091,0.76824,1.457039
Oregon,2.60212,0.718885,0.131171


- 시리즈에 대해서도 동일하게 동작

In [16]:
np.abs(frame["b"])# 각 연산들은 각원소에 적용되는 경우도 존재한다.

Utah      0.150991
Ohio      0.713467
Texas     1.230910
Oregon    2.602120
Name: b, dtype: float64

#### `map()`과 `applymap()` 메서드 

- 유니버설 함수가 아닌 함수를 `Series`의 항목별 적용 하기위해선 `map()`를 사용한다

__예__ 
- 람다(lambda) 함수를 이용해 부동소수점을 소수점 이하 셋째 자리에서 반올림한 값만 보여주도록 한다.

In [18]:
# np.round(1.2321, 3) #소수점 셋째자리까지 숫자로 출력
# map과 applymap이 중요하다

"%.3f"%1.245547 #소수점 셋째자리까지 문자로 출력

'1.246'

In [29]:
# 굳이 lambda로 쓰는 이유는 lambda는 한번쓰이고 잘 안쓰인다.
# 여기서 쓰이는 것도 한번쓰이고 재활용이 잘 안되기 때문에 람다 쓰는 둣?

format_0 = lambda x: np.round(x, 5) 

In [20]:
format_1 = lambda x: np.round(x, 5)
(12.3435345)

12.3435345

In [30]:
format_1 = lambda x: "%.3f"%x

In [24]:
format_1(1.2444542342)

'1.244'

- 시리즈에 적용

In [35]:
# frame["e"] # series

# 진짜 많이 쓰인다고 한다.
# 시리즈를 한번에 바꾸기!

frame["e"].map(format_1)

Utah       1.370
Ohio      -1.157
Texas     -1.457
Oregon     0.131
Name: e, dtype: object

In [34]:
frame["e"].map(format_0)

Utah      1.36962
Ohio     -1.15730
Texas    -1.45704
Oregon    0.13117
Name: e, dtype: float64

- 유니버설 함수가 아닌 함수를 `데이터프레임`의 항목별로 적용하려면 `applymap()`를 사용한다.

In [37]:
frame.applymap(format_0)

Unnamed: 0,b,d,e
Utah,-0.15099,1.03637,1.36962
Ohio,0.71347,-0.42669,-1.1573
Texas,-1.23091,-0.76824,-1.45704
Oregon,2.60212,0.71889,0.13117


In [38]:
frame.applymap(format_1)

Unnamed: 0,b,d,e
Utah,-0.151,1.036,1.37
Ohio,0.713,-0.427,-1.157
Texas,-1.231,-0.768,-1.457
Oregon,2.602,0.719,0.131


#### `apply()` 메서드

- DataFrame의 행 또는 열 단위로 함수를 적용하려면 `apply()` 메서드를 활용한다.
- 기본은 열 단위로 함수가 적용되며 반환값이 스칼라 값이면 시리즈가 반환

__예__ 
- 최댓값과 최소값의 차이를 반환하는 함수를 적용해 보자

In [49]:
# 시리즈에서 사용할 수 있는 메서드를 적어줘야 동작하는 것임
# series 객체가 arg로 입력된다.
f_1 = lambda x: x.max() - x.min()

In [43]:
frame

Unnamed: 0,b,d,e
Utah,-0.150991,1.036367,1.369624
Ohio,0.713467,-0.426692,-1.157304
Texas,-1.23091,-0.76824,-1.457039
Oregon,2.60212,0.718885,0.131171


- 행 별로 함수 적용
    - `axis=1` 또는 `axis='columls'` 지정

In [50]:
# 뭐든 어떤 식으로 적용할건지 생각을 해야한다. map,apply, applymap 중 어떤걸 쓸 지
# 열 별로 적용이 되어있음
frame.apply(f_1)

b    3.833030
d    1.804607
e    2.826662
dtype: float64

In [52]:
# 둘 다 똑같은 결과

# frame.apply(f_1, axis="columns")
frame.apply(f_1, axis =1)

Utah      1.520615
Ohio      1.870771
Texas     0.688798
Oregon    2.470948
dtype: float64

In [56]:
def f_2(x:pd.Series) -> pd.DataFrame:
    return pd.Series([x.min(), x.max()], index=["min","max"])


### 1.2.7 정렬

- 행과 열의 인덱스 또는 항목을 대상으로 정렬할 수 있다.

#### `sort_index()` 메서드
- 시리즈의 경우 인덱스를 기준으로 정렬

In [5]:
ser_1 = pd.Series(range(4), index= list("jnsd"))

In [None]:
ser_1.sort_index()

내림차순으로 정렬 : `ascending=False` 키워드 인자 사용

In [None]:
ser_1.sort_index(ascending=False)

데이터프레임의 경우 행 또는 열의 인덱스를 기준으로 정렬
- 기본은 행의 인데스를 기준으로 정렬
- 열의 인덱스를 기준으로 정렬하려면 `axis=1` 또는 `axis='columns'` 키워드 인자를 사용

In [7]:
df_2 = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=["three", "one"],
                    columns=list("dabc"))

In [None]:
df_2.sort_index()

In [None]:
df_2.sort_index(axis = 1)

In [None]:
df_2.sort_index(axis = "columns")

- 내림차순으로 정렬하려면 `ascending=False` 키워드 인자를 함께 사용한다.

In [8]:
df_2.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


#### `sort_values()` 메서드
- 지정된 열 또는 행에 속한 값들을 기준으로 정렬할 때 사용
- 데이터프레임의 경우 `by` 키워드 인자를 이용하여 열의 label을 지정

In [10]:
ser_3 = pd.Series([4,7,-2,3])
ser_3

0    4
1    7
2   -2
3    3
dtype: int64

In [11]:
ser_3.sort_values()

2   -2
3    3
0    4
1    7
dtype: int64

In [12]:
#DataFrame에서 sort
df_4 = pd.DataFrame({"b":[4,6,-2,1], "a":[0,1,2,3]})

In [14]:
df_4.sort_values(by="b") # b를 기준으로 정렬을 해준다.


Unnamed: 0,b,a
2,-2,2
3,1,3
0,4,0
1,6,1


In [15]:
# a를 기준으로 정렬한 다음에 같은 값이면 b열의 항목들 순서로 정렬
df_4.sort_values(by=["a","b"])

Unnamed: 0,b,a
0,4,0
1,6,1
2,-2,2
3,1,3


__참고__ 
- `axis=1`을 이용하여 특정 행의 값을 기준으로 정렬 가능

In [18]:
df_4.sort_values(by=2, axis=1)

Unnamed: 0,b,a
0,4,0
1,6,1
2,-2,2
3,1,3


### 1.2.8 Groupby
- 데이터를 특정 기준으로 그룹핑할 때 활용
- groupby()를 사용할 때는 반드시 aggregate 하는 통계함수와 일반적으로 같이 적용
<img src="https://www.w3resource.com/w3r_images/pandas-groupby-split-apply-combine.svg">

In [19]:
df = pd.DataFrame({
    'city': ['busan', 'busan', 'busan', 'busan', 'seoul', 'seoul', 'seoul'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

In [20]:
df

Unnamed: 0,city,fruits,price,quantity
0,busan,apple,100,1
1,busan,orange,200,2
2,busan,banana,250,3
3,busan,banana,300,4
4,seoul,apple,150,5
5,seoul,apple,200,6
6,seoul,banana,400,7


- city를 기준으로 price의 평균과 quantity의 평균

In [23]:
# series에서 사용되는 함수를 쓸 수 있다.
df.groupby("city").mean()

  df.groupby("city").mean()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,212.5,2.5
seoul,250.0,6.0


In [24]:
df.groupby("city").sum()

  df.groupby("city").sum()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,850,10
seoul,750,18


- `arrtrgate()`를 이용해 여러 통계함수를 동시에 사용가능

In [25]:
#numpy에서 쓰는 함수도 가능함
df.groupby("city").aggregate(["mean","sum"])
# df.groupby("city").aggregate([np.mean,np.sum])

  df.groupby("city").aggregate(["mean","sum"])


Unnamed: 0_level_0,price,price,quantity,quantity
Unnamed: 0_level_1,mean,sum,mean,sum
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
busan,212.5,850,2.5,10
seoul,250.0,750,6.0,18


- 2개 이상의 컬럼으로 그룹핑

In [27]:
df.groupby(["city", "fruits"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
busan,apple,100.0,1.0
busan,banana,275.0,3.5
busan,orange,200.0,2.0
seoul,apple,175.0,5.5
seoul,banana,400.0,7.0
