##  Pandas - Data 분석 때, 가장 중요할 것으로 보임

- https://pandas.pydata.org/(https://pandas.pydata.org/)
- Data 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python Lib
- Series
    - Index, Value로 이루어진 데이터
- DataFrame
    - Index, Value, Column으로 이루어진 데이터
   

In [1]:
import numpy as np
import pandas as pd

#### Series
- Index와 value로 되어 있는 형태

In [2]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만듦
# Index는 0에서 1씩 증가하는 index가 자동으로 들어감
data = pd.Series(np.random.randint(10, size=5))
data

0    2
1    3
2    9
3    5
4    1
dtype: int32

In [4]:
# Series를 만들 떄, index를 키워드 파라미터로 
# 리스트 데이터를 넘기면 인덱스를 설정 할 수 있음
data = pd.Series(np.random.randint(10, size=5), index=['A','B','C','D','E'])
data

A    8
B    5
C    3
D    0
E    7
dtype: int32

In [5]:
# Index로 값 데이터 보기
data.A

8

In [6]:
data.B

5

In [7]:
data.E

7

In [8]:
# Series를 만들 때, index를 키워드 파라미터로 리스트 데이터를 넘기면, 
# 인덱스 설정할 수 있음
data_tmp = pd.Series(np.random.randint(10, size=5), index=['1','2','3','4','5'])
data_tmp

1    9
2    7
3    3
4    8
5    6
dtype: int32

In [9]:
# 숫자로 인덱스가 되어 있는 Series는 . 으로 호출이 안됨
data.1

SyntaxError: invalid syntax (<ipython-input-9-5bd103afa3e4>, line 2)

In [12]:
# Series의 이름과 인덱스에 이름을 붙여 줄 수 있다.
data.name = 'RandomNumber'
data.index.name = 'Alphabet'
data.name, data.index.name

('RandomNumber', 'Alphabet')

In [13]:
data

Alphabet
A    8
B    5
C    3
D    0
E    7
Name: RandomNumber, dtype: int32

In [14]:
# 값을 계산해 줄 수 있다. (broadcasting으로 계산됨)
data * 10

Alphabet
A    80
B    50
C    30
D     0
E    70
Name: RandomNumber, dtype: int32

In [15]:
# 여러개의 데이터 출력
data[['B', 'C','E']]

Alphabet
B    5
C    3
E    7
Name: RandomNumber, dtype: int32

In [16]:
# offset으로 출력
data[1:3]

Alphabet
B    5
C    3
Name: RandomNumber, dtype: int32

In [17]:
# 3이상 되는 데이터 출력하라
data[data>3] # Filtering 기능 # 나에게는 가장 중요할 것 같은 기능

Alphabet
A    8
B    5
E    7
Name: RandomNumber, dtype: int32

In [19]:
# items를 이용해 key, val를 반복문에서 사용가능
for idx, val in data.items():
    print(idx,val)

A 8
B 5
C 3
D 0
E 7


In [20]:
# Dictinary 데이터 타입의 데이터로 Series 생성 가능
dic = {'D': 7, 'E':5, 'F':9}
data2 = pd.Series(dic)
data2

D    7
E    5
F    9
dtype: int64

In [21]:
data

Alphabet
A    8
B    5
C    3
D    0
E    7
Name: RandomNumber, dtype: int32

In [23]:
# Series끼리 계산
result = data + data2
result

A     NaN
B     NaN
C     NaN
D     7.0
E    12.0
F     NaN
dtype: float64

In [24]:
# Null 값 제거
print(result.notnull())

A    False
B    False
C    False
D     True
E     True
F    False
dtype: bool


In [26]:
result = result[result.notnull()]
result

D     7.0
E    12.0
dtype: float64

In [27]:
result[0]

7.0

#### Dataframe
    - index, column, value로 이루어진 데이터
    - create
    - insert
        - rows
        - columns
    - append
    - concat
    - groupby, aggregate
    - select
    - merge

#### create

In [28]:
# create 1
# column을 만들고 컬럼에 리스트 데이터를 추가하여 DataFrame만들기
df = pd.DataFrame(columns = ['price', 'time'])
df['price'] = ['101792', '101793', '101795']
df['time'] = ['090000', '090001', '090002']
df

Unnamed: 0,price,time
0,101792,90000
1,101793,90001
2,101795,90002


In [30]:
# create 2 
# dictionary 사용
price = ['101792', '101793', '101795']
time = ['090000', '090001', '090002']
dic = {'price' : price, 'time' : time}
df = pd.DataFrame(dic)
df

Unnamed: 0,price,time
0,101792,90000
1,101793,90001
2,101795,90002


In [32]:
# create 3
# index 추가해서 만들기
# create 1 을 이용해서 만들기
index = ['1', '2', '3']
data = pd.DataFrame(columns=['price', 'time'], index=(index))
data['price'] = ['101792', '101793', '101795']
data['time'] = ['090000', '090001', '090002']


In [33]:
data

Unnamed: 0,price,time
1,101792,90000
2,101793,90001
3,101795,90002


In [35]:
# create 2를 이용해서 만들기
price = ['101792', '101793', '101795']
time = ['090000', '090001', '090002']
dic = {'price':price, 'time':time}
data = pd.DataFrame(dic, index = ['1','2','3'])
data

Unnamed: 0,price,time
1,101792,90000
2,101793,90001
3,101795,90002


In [37]:
# Data Frame에 대한 인덱스, 컬럼, 값 가져오기
df.index

RangeIndex(start=0, stop=3, step=1)

In [38]:
df.columns

Index(['price', 'time'], dtype='object')

In [39]:
df.values

array([['101792', '090000'],
       ['101793', '090001'],
       ['101795', '090002']], dtype=object)

In [44]:
df.loc[1]

price    101793
time     090001
Name: 1, dtype: object

In [45]:
df['price']

0    101792
1    101793
2    101795
Name: price, dtype: object

In [41]:
df

Unnamed: 0,price,time
0,101792,90000
1,101793,90001
2,101795,90002


In [47]:
df.loc[3] = {'price':'101440', 'time':'090003'}
df

Unnamed: 0,price,time
0,101792,90000
1,101793,90001
2,101795,90002
3,101440,90003


In [48]:
len(df)

4

In [49]:
# 가장 마지막에 자동으로 데이터 넣기
df.loc[len(df)] = {'price':'101441', 'time':'090004'}
df

Unnamed: 0,price,time
0,101792,90000
1,101793,90001
2,101795,90002
3,101440,90003
4,101441,90004


In [50]:
# Insert Column
df['quantity'] = ''
df

Unnamed: 0,price,time,quantity
0,101792,90000,
1,101793,90001,
2,101795,90002,
3,101440,90003,
4,101441,90004,


In [51]:
# Column에 data insert
df['quantity'] = ['20', '30', '40', '10','100']
df

Unnamed: 0,price,time,quantity
0,101792,90000,20
1,101793,90001,30
2,101795,90002,40
3,101440,90003,10
4,101441,90004,100


In [59]:
# apply
# 함수 사용해서 column데이터 넣기

def A3_code_count(A3_code_count):
    return "{}({})".format(A3_code_count, time)

df['product_code'] = df['product_code'].apply(A3_code_count)
df


Unnamed: 0,price,time,quantity,product_code
0,101792,90000,20,G7(G7)(<function count_nonzero at 0x0000000006...
1,101793,90001,30,A3(G7)(<function count_nonzero at 0x0000000006...
2,101795,90002,40,G7(G7)(<function count_nonzero at 0x0000000006...
3,101440,90003,10,A3(G7)(<function count_nonzero at 0x0000000006...
4,101441,90004,100,G7(G7)(<function count_nonzero at 0x0000000006...


In [63]:
# make data functions
# 사람 이름과 나이가 들어간 데이터 만들기

import random, string

def get_product():
    products = ['K200', 'KM3', 'KM10', 'K200Mini', 'Call_Option', 'Put_option']
    return random.choice(products)

def get_price(start=10170, end = 10300):
    return random.randint(start, end)

def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {'Product': get_product(), 'Price': get_price()}
        datas.append(data)
    return datas

In [64]:
make_data()

[{'Price': 10179, 'Product': 'Call_Option'},
 {'Price': 10291, 'Product': 'Call_Option'},
 {'Price': 10236, 'Product': 'KM3'},
 {'Price': 10201, 'Product': 'KM3'},
 {'Price': 10250, 'Product': 'K200'},
 {'Price': 10233, 'Product': 'K200Mini'},
 {'Price': 10254, 'Product': 'KM10'},
 {'Price': 10247, 'Product': 'K200Mini'},
 {'Price': 10231, 'Product': 'K200'},
 {'Price': 10226, 'Product': 'K200'}]

In [73]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Price,Product
0,10263,K200Mini
1,10206,KM3
2,10285,KM3
3,10232,Put_option
4,10170,K200Mini
5,10210,Call_Option
6,10239,KM10
7,10191,K200Mini
8,10276,Put_option
9,10277,Call_Option


In [74]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Price,Product
0,10197,K200
1,10265,K200Mini
2,10217,Put_option
3,10288,Call_Option
4,10242,KM3
5,10228,KM3
6,10255,KM3
7,10229,KM3
8,10206,KM3
9,10243,KM3


In [67]:
# append
# df1에 df2데이터 추가하기
df3 = df1.append(df2)
df3

Unnamed: 0,Price,Product
0,10209,K200Mini
1,10236,KM3
2,10282,KM3
3,10200,K200
4,10277,K200Mini
5,10194,K200Mini
6,10267,K200
7,10281,KM3
8,10254,Call_Option
9,10170,K200


In [68]:
# index값 리셋하기
# inplace =True는 수정된 데이터가 해당 변수에 바로 적용된다.
# inplace = True를 사용하지 않으면 결과 데이터를 받아서 저장해야 함.
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Price,Product
0,10209,K200Mini
1,10236,KM3
2,10282,KM3
3,10200,K200
4,10277,K200Mini
5,10194,K200Mini
6,10267,K200
7,10281,KM3
8,10254,Call_Option
9,10170,K200


In [69]:
# ignore_index를 통해서 인덱스를 리셋해 줄수 있다.
df3 = df1.append(df2, ignore_index=True)
df3

Unnamed: 0,Price,Product
0,10209,K200Mini
1,10236,KM3
2,10282,KM3
3,10200,K200
4,10277,K200Mini
5,10194,K200Mini
6,10267,K200
7,10281,KM3
8,10254,Call_Option
9,10170,K200


#### concat
- rows
- columns

In [75]:
# concat rows
# df1 데이터와 df2 데이터를 concat을 이용하여 rows를 합치고
# reset_index를 이용하여 index를 재정렬함.
# df3 = pd.concat([df1, df2]).reset_index(drop=True)
# df3
df3 = df1.append(df2).reset_index(drop=True)
df3

Unnamed: 0,Price,Product
0,10263,K200Mini
1,10206,KM3
2,10285,KM3
3,10232,Put_option
4,10170,K200Mini
5,10210,Call_Option
6,10239,KM10
7,10191,K200Mini
8,10276,Put_option
9,10277,Call_Option


In [77]:
# concat columns
# axis=1 설정하여 df1, df2데이터를 컬럼을 합쳐준다.
df4 = pd.concat([df1, df2], axis=1, join='outer')
df4

Unnamed: 0,Price,Product,Price.1,Product.1
0,10263,K200Mini,10197,K200
1,10206,KM3,10265,K200Mini
2,10285,KM3,10217,Put_option
3,10232,Put_option,10288,Call_Option
4,10170,K200Mini,10242,KM3
5,10210,Call_Option,10228,KM3
6,10239,KM10,10255,KM3
7,10191,K200Mini,10229,KM3
8,10276,Put_option,10206,KM3
9,10277,Call_Option,10243,KM3


In [78]:
df4 = pd.concat([df1, df2], axis=1, join='inner')
df4

Unnamed: 0,Price,Product,Price.1,Product.1
0,10263,K200Mini,10197,K200
1,10206,KM3,10265,K200Mini
2,10285,KM3,10217,Put_option
3,10232,Put_option,10288,Call_Option
4,10170,K200Mini,10242,KM3
5,10210,Call_Option,10228,KM3
6,10239,KM10,10255,KM3
7,10191,K200Mini,10229,KM3
8,10276,Put_option,10206,KM3
9,10277,Call_Option,10243,KM3


#### Groupby
- 이름별 평균 나이를 나타내는 데이터 프레임을 만들기

In [240]:
# Make DataFrame
# 20개의 데이터를 만들어 데이터 프레임을 만들고 아래 5개의 데이터만 확인함.
import random, string

def get_product():
    products = ['samsung', 'hyundai', 'samwha', 'kia', 'dunamis']
    return random.choice(products)

def get_price(start=10000, end=40000):
    return random.randint(start,end)

def make_data(rows=20):
    datas=[]
    for i in range(rows):
        data = {'product': get_product(), 'price': get_price()}
        datas.append(data)
    return datas

In [195]:
df4 = make_data()
df4 = pd.DataFrame(df4)
df4

Unnamed: 0,price,product
0,18,hyundai
1,20,dunamis
2,38,hyundai
3,29,kia
4,36,samsung
5,28,samwha
6,39,samsung
7,22,samwha
8,35,hyundai
9,36,dunamis


In [196]:
df4

Unnamed: 0,price,product
0,18,hyundai
1,20,dunamis
2,38,hyundai
3,29,kia
4,36,samsung
5,28,samwha
6,39,samsung
7,22,samwha
8,35,hyundai
9,36,dunamis


In [197]:
df4.head()

Unnamed: 0,price,product
0,18,hyundai
1,20,dunamis
2,38,hyundai
3,29,kia
4,36,samsung


In [198]:
# Unique name list 1
# set을 이용한 형변환으로 유니크 이름을 뽑는다.
result1 = np.array(list(set(df4['product'].values)))
len(result1), result1

(5, array(['samwha', 'samsung', 'kia', 'dunamis', 'hyundai'], dtype='<U7'))

In [199]:
# Unique name list 2
# unique 함수를 이용하여 유니크 이름을 뽑는다.
result2 = df4['product'].unique()
len(result2), result2

(5, array(['hyundai', 'dunamis', 'kia', 'samsung', 'samwha'], dtype=object))

In [200]:
# groupby (size)
# groupby를 이용하여 각 이름별로 몇번 나왔는지에 대한 counts칼럼으로 데이터 만들기

# Name Column의 데이터를 size로 groupby 해주고 counts라는 컬럼 이름으로 index리셋
result_df4 = df4.groupby('product').size().reset_index(name='counts')

# sort_values를 이용하여 counts로 내림차순으로 정렬한다.
result_df4 = result_df4.sort_values(by=['counts'], ascending=False)

# Index를 다시 리셋한다.
result_df4.reset_index(drop=True, inplace=True)
result_df4

Unnamed: 0,product,counts
0,hyundai,7
1,dunamis,4
2,samsung,4
3,kia,3
4,samwha,2


In [201]:
# groupby (agg:min)
# product에서 price의 최소값으로 groupby해주고 index를 리셋해준다.
df4.groupby('product').agg('min').reset_index().reset_index(drop=True)

Unnamed: 0,product,price
0,dunamis,12
1,hyundai,11
2,kia,11
3,samsung,10
4,samwha,22


In [202]:
# groupby (agg:max)
# product에서 price의 max값으로 groupby해주고 index를 리셋해준다.
df4.groupby('product').agg('max').reset_index().reset_index(drop=True)

Unnamed: 0,product,price
0,dunamis,36
1,hyundai,39
2,kia,31
3,samsung,39
4,samwha,28


In [203]:
# groupby (agg:mean)
# product에서 price의 mean값으로 groupby해주고 index를 리셋해준다.
df4.groupby('product').agg('mean').reset_index().reset_index(drop=True)

Unnamed: 0,product,price
0,dunamis,22.5
1,hyundai,28.857143
2,kia,23.666667
3,samsung,30.75
4,samwha,25.0


In [204]:
# groupby (agg:sum)
# product에서 price의 sum값으로 groupby해주고 index를 리셋해준다.
df4.groupby('product').agg('sum').reset_index().reset_index(drop=True)

Unnamed: 0,product,price
0,dunamis,90
1,hyundai,202
2,kia,71
3,samsung,123
4,samwha,50


In [205]:
# groupby (agg:median)
# product에서 price의 median값으로 groupby해주고 index를 리셋해준다.
df4.groupby('product').agg('median').reset_index().reset_index(drop=True)

Unnamed: 0,product,price
0,dunamis,21
1,hyundai,35
2,kia,29
3,samsung,37
4,samwha,25


In [206]:
# Product 별 최소 최대 가격 출력 하기
df4.groupby('product').agg(['min', 'max', 'mean']).reset_index().reset_index(drop=True)

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,dunamis,12,36,22.5
1,hyundai,11,39,28.857143
2,kia,11,31,23.666667
3,samsung,10,39,30.75
4,samwha,22,28,25.0


#### Select

In [207]:
df = _

In [208]:
df.head()

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,dunamis,12,36,22.5
1,hyundai,11,39,28.857143
2,kia,11,31,23.666667
3,samsung,10,39,30.75
4,samwha,22,28,25.0


In [209]:
# 2 ~ 4 데이터 출력
df[2:5]

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
2,kia,11,31,23.666667
3,samsung,10,39,30.75
4,samwha,22,28,25.0


In [210]:
# 1 부터 끝까지 출력
df[1:]

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
1,hyundai,11,39,28.857143
2,kia,11,31,23.666667
3,samsung,10,39,30.75
4,samwha,22,28,25.0


In [211]:
# 시작부터 3까지 출력
df[:4]

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,dunamis,12,36,22.5
1,hyundai,11,39,28.857143
2,kia,11,31,23.666667
3,samsung,10,39,30.75


In [212]:
# data reverse하게 출력하기
df[::-1]

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
4,samwha,22,28,25.0
3,samsung,10,39,30.75
2,kia,11,31,23.666667
1,hyundai,11,39,28.857143
0,dunamis,12,36,22.5


In [213]:
df

Unnamed: 0_level_0,product,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,dunamis,12,36,22.5
1,hyundai,11,39,28.857143
2,kia,11,31,23.666667
3,samsung,10,39,30.75
4,samwha,22,28,25.0


In [214]:
# 2번 데이터 나이 최소값
df.loc[2]['price']['min']
# 하나의 row를 select하고 싶다면, df.loc[#]를 사용해야 함. df[#] X - 안됨.

11

In [215]:
# 3번 데이터 price
df.loc[3]['price']

min        10
max        39
mean    30.75
Name: 3, dtype: object

In [216]:
df.loc[3]['product']['']

'samsung'

In [217]:
# Product, Min, Max, Mean Column의 df로 만들기
data = {
    "product_name": df['product'],
    'Min': df['price']['min'],
    'Max': df['price']['max'],
    'Mean': df['price']['mean']
}
n_df = pd.DataFrame(data)
n_df

Unnamed: 0,Max,Mean,Min,product_name
0,36,22.5,12,dunamis
1,39,28.857143,11,hyundai
2,31,23.666667,11,kia
3,39,30.75,10,samsung
4,28,25.0,22,samwha


In [218]:
# 평균 price가 20000 이상인 데이터를 mean values로 내림차수 정렬하고 인덱스 재설정
n_df[n_df['Mean'] > 20000].sort_values(by=['Mean'], ascending=False).reset_index(drop=True)

Unnamed: 0,Max,Mean,Min,product_name


In [219]:
list(df4.groupby('product').size()), df4

([4, 7, 3, 4, 2],     price  product
 0      18  hyundai
 1      20  dunamis
 2      38  hyundai
 3      29      kia
 4      36  samsung
 5      28   samwha
 6      39  samsung
 7      22   samwha
 8      35  hyundai
 9      36  dunamis
 10     10  samsung
 11     38  samsung
 12     39  hyundai
 13     11  hyundai
 14     22  hyundai
 15     12  dunamis
 16     11      kia
 17     22  dunamis
 18     31      kia
 19     39  hyundai)

In [220]:
# 각 Product별 몇개가 있는지에 대한 데이터 컬럼 추가/
n_df['Counts'] = list(df4.groupby('product').size())
n_df

Unnamed: 0,Max,Mean,Min,product_name,Counts
0,36,22.5,12,dunamis,4
1,39,28.857143,11,hyundai,7
2,31,23.666667,11,kia,3
3,39,30.75,10,samsung,4
4,28,25.0,22,samwha,2


## 중요함!!! - 원하는 Column을 맨끝으로 이동하기

In [221]:
# Mean Data를 가장 뒤로 이동하기
mean = n_df['Mean'] #  Mean 열, mean에 저장
n_df.drop('Mean', axis=1, inplace=True) # 일단, Mean 열 삭제
n_df

Unnamed: 0,Max,Min,product_name,Counts
0,36,12,dunamis,4
1,39,11,hyundai,7
2,31,11,kia,3
3,39,10,samsung,4
4,28,22,samwha,2


In [222]:
mean

0    22.500000
1    28.857143
2    23.666667
3    30.750000
4    25.000000
Name: Mean, dtype: float64

In [223]:
n_df['Mean'] = mean # 저장해둔 mean 가져오기
n_df

Unnamed: 0,Max,Min,product_name,Counts,Mean
0,36,12,dunamis,4,22.5
1,39,11,hyundai,7,28.857143
2,31,11,kia,3,23.666667
3,39,10,samsung,4,30.75
4,28,22,samwha,2,25.0


In [224]:
# Rename Column
n_df.rename(columns = {'Mean':'product_mean', 'Min':'product_min', 'Max':'product_max', 'Counts':'counts'})

Unnamed: 0,product_max,product_min,product_name,counts,product_mean
0,36,12,dunamis,4,22.5
1,39,11,hyundai,7,28.857143
2,31,11,kia,3,23.666667
3,39,10,samsung,4,30.75
4,28,22,samwha,2,25.0


#### Merge

In [241]:
user_df = pd.DataFrame(columns=['UserID', "product", 'price'])

for i in range(1,6):
    product = get_product()
    
    while product in list(user_df['product']):
        product = get_product()
        
    data = {'product':product, 'UserID':i, "price":get_price()}
    user_df.loc[len(user_df)] = data
    
user_df

Unnamed: 0,UserID,product,price
0,1,samsung,26840
1,2,hyundai,13091
2,3,samwha,37159
3,4,dunamis,11440
4,5,kia,32696


In [242]:
# ID 와 money 데이터가 있는 데이터 프레임 생성
money_df = pd.DataFrame(columns=['ID','Money'])

for i in range(15):
    money = random.randint(1,20) * 1000
    data = {'Money':money, "ID":random.randint(1,10)}
    money_df.loc[len(money_df)] = data
    
money_df

Unnamed: 0,ID,Money
0,8,1000
1,5,12000
2,10,17000
3,3,2000
4,8,7000
5,10,10000
6,10,13000
7,3,12000
8,7,2000
9,6,6000


In [None]:
# money_df의 ID컬럼과 user_df의 

In [243]:
# money_df의 ID컬럼과 user_df의 UserID를 매칭시켜 merge
# UserID와 ID 데이터는 같지만, 컬럼명이 다르기 때문에, 두개의 컬럼 모두 데이터 프레임에 들어감
money_df.merge(user_df, left_on = "ID", right_on = "UserID")

Unnamed: 0,ID,Money,UserID,product,price
0,5,12000,5,kia,32696
1,5,5000,5,kia,32696
2,3,2000,3,samwha,37159
3,3,12000,3,samwha,37159


In [248]:
# user_df에 UserID를 ID로 컬럼명을 변경한후에 merge
# left_on 과 right_on을 적어줄 필요가 없다.
user_df.rename(columns={'UserID':"ID"}, inplace=True)
user_df

Unnamed: 0,ID,product,price
0,1,samsung,26840
1,2,hyundai,13091
2,3,samwha,37159
3,4,dunamis,11440
4,5,kia,32696


In [256]:
money_df

Unnamed: 0,ID,Money
0,8,1000
1,5,12000
2,10,17000
3,3,2000
4,8,7000
5,10,10000
6,10,13000
7,3,12000
8,7,2000
9,6,6000


In [257]:
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,product,price
0,5,12000,kia,32696
1,5,5000,kia,32696
2,3,2000,samwha,37159
3,3,12000,samwha,37159


In [259]:
# 각 이름으로 groupby하고 Money 데이터를 모두 sum한 결과의 인덱스를 리셋한다.
money_list = result_df.groupby('product').sum()['Money'].reset_index()
money_list

Unnamed: 0,product,Money
0,kia,17000
1,samwha,14000


In [260]:
# MOney 데이터를 내림차순으로 정렬하고 index를 리셋한다.
money_list = money_list.sort_values(by=['Money'], ascending=True).reset_index(drop=True)
money_list

Unnamed: 0,product,Money
0,samwha,14000
1,kia,17000


In [264]:
# how에 outer를 사용하면 데이터가 없는 사람은 Money가 0으로 출력된다.
# fillna(value=0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_df, how='outer').fillna(value=0)
result = result.sort_values(by=['Money'], ascending=False).reset_index(drop=True)
result

Unnamed: 0,ID,product,price,Money
0,10.0,0,0,20000
1,10.0,0,0,17000
2,10.0,0,0,13000
3,3.0,samwha,37159,12000
4,5.0,kia,32696,12000
5,10.0,0,0,10000
6,7.0,0,0,8000
7,8.0,0,0,7000
8,6.0,0,0,6000
9,8.0,0,0,5000


#### 중요한 DataType 변환

In [267]:
# Change data type
# float 데이터인 Money 컬럼을 int로 형변환
result['Money'] = result['Money'].astype('int')
result['ID'] = result['ID'].astype('int')
result

Unnamed: 0,ID,product,price,Money
0,10,0,0,20000
1,10,0,0,17000
2,10,0,0,13000
3,3,samwha,37159,12000
4,5,kia,32696,12000
5,10,0,0,10000
6,7,0,0,8000
7,8,0,0,7000
8,6,0,0,6000
9,8,0,0,5000


In [272]:
# Name: A, B, C, D, E
# Point : random 60 ~ 100 
# DataFrame 만들어 보세요
df = pd.DataFrame(columns=['Name', 'Point'])
df['Name'] = ['A', 'B','C','D','E']
df['Point'] = np.random.randint(60, 100, size=5)
df

Unnamed: 0,Name,Point
0,A,78
1,B,72
2,C,65
3,D,86
4,E,65


In [273]:
# 학점을 나타내는 컬럼을 추가해주세요
def chg(point):
    if point >= 90:
        return 'A'
    elif point>= 80:
        return 'B'
    elif point>=70:
        return 'C'
    elif point>=60:
        return 'D'
    else:
        return 'F'
    
df['Result'] = df['Point'].apply(chg)
df

Unnamed: 0,Name,Point,Result
0,A,78,C
1,B,72,C
2,C,65,D
3,D,86,B
4,E,65,D


In [274]:
# input/output

In [277]:
# csv
df.to_csv('foo.csv', index=False)
pd.read_csv('foo.csv')

Unnamed: 0,Name,Point,Result
0,A,78,C
1,B,72,C
2,C,65,D
3,D,86,B
4,E,65,D


In [278]:
# excel
df.to_excel('foo.xlsx', sheet_name='Sheet1')
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0,Name,Point,Result
0,A,78,C
1,B,72,C
2,C,65,D
3,D,86,B
4,E,65,D
