### Pandas

- 데이터 분석을 위한 python 오픈소스 라이브러리
- 사용이 쉽고 성능이 좋다.(R보다 빠르다)
- numpy를 이용해서 계산을 한다. 
- 2가지 데이터 타입이 있다.
    - Series
        - index, Value로 이루어진 데이터 타입
    - DataFrame
        - Index, Value, Column으로 이루어진 데이터 타입
        - Column은 Series로 이루어져 있다 *
        - 엑셀의 테이블 형태로 구성이 되며, Column 별로 같은 데이터 타입을 가진다
        



#### Series

In [2]:
import numpy as np
import pandas as pd

In [42]:
# 0 ~ 9까지 Series 생성
# 앞 숫자는 Index, 뒷 숫자는 Value이다. 
# int64 : 하나의 데이터가 64bit로 이루어져 있다는 것을 의미한다.

data = pd.Series(np.random.randint(10, size=(5)))
data

0    6
1    7
2    6
3    5
4    5
dtype: int64

In [43]:
# Index 설정 : Index 값을 고정한다

data = pd.Series(np.random.randint(10, size=(5)), index = ["A", "B", "C", "D", "1"])
data

A    3
B    3
C    1
D    6
1    8
dtype: int64

In [44]:
# 전체 Index, Value 값 확인

data.index, data.values

(Index(['A', 'B', 'C', 'D', '1'], dtype='object'), array([3, 3, 1, 6, 8]))

In [45]:
# 개별 Value 값 확인
data.A, data.C

(3, 1)

In [46]:
# 숫자 데이터는 위 형태로 확인이 불가능하다

data = pd.Series(np.random.randint(10, size=(5)), index = ["1", "2", "3", "4", "5"])
data

1    0
2    5
3    6
4    5
5    9
dtype: int64

In [47]:
# Series에 이름과 인덱스에 이름을 설정할 수 있다

data.name = "random"
data.index.name = "index"
data

index
1    0
2    5
3    6
4    5
5    9
Name: random, dtype: int64

In [48]:
# pandas의 브로드캐스팅

data = data * 10
data

index
1     0
2    50
3    60
4    50
5    90
Name: random, dtype: int64

In [49]:
# 특정 인덱스의 Values만 가져오고 싶은 경우

data[["1", "2", "3"]]

index
1     0
2    50
3    60
Name: random, dtype: int64

In [50]:
# Offset으로 Values를 가져오고 싶은 경우

data[::-1]

index
5    90
4    50
3    60
2    50
1     0
Name: random, dtype: int64

In [51]:
# pandas는 비교 연산도 가능하다. 또한, 필터링한 출력도 가능하다

print(data > 400)
print(data[data > 400])

index
1    False
2    False
3    False
4    False
5    False
Name: random, dtype: bool
Series([], Name: random, dtype: int64)


In [52]:
# for, list comprehention 
# 어느 경우에 사용하는가? 데이터 수정, 삭제할 때 사용한다. 그러나 브로드 캐스팅을 사용하는 방법이 더욱 좋다
# 브로드캐스팅 > list comprehention > for

data
for idx, val in data.items():
    print(idx, val)

1 0
2 50
3 60
4 50
5 90


In [53]:
# list comprehention으로도 사용 가능

[idx for idx in data.items()]

[('1', 0), ('2', 50), ('3', 60), ('4', 50), ('5', 90)]

In [54]:
# dictionary 데이터 타입의 데이터로 Series 생성 가능
# Series의 , Value는 Dictionary의 Key, Value와 유사한 관계를 가진다

dic = {"1":3,"2":5,"3":7,}
data2 = pd.Series(dic)
data2

1    3
2    5
3    7
dtype: int64

In [55]:
data

index
1     0
2    50
3    60
4    50
5    90
Name: random, dtype: int64

In [59]:
# Series의 덧셈
# 없는 인덱스는 NaN으로 나온다. 
# dtype이 float가 된다.

result = data + data2
result

1     3.0
2    55.0
3    67.0
4     NaN
5     NaN
dtype: float64

In [82]:
# NaN 데이터 제거와 출력

print(result.notnull())
result[result.notnull()]

1     True
2     True
3     True
4    False
5    False
dtype: bool


1    33.0
2    35.0
3    47.0
dtype: float64

### DataFrame ***

- 데이터과학에서, 데이터 전처리 가정에서 주로 사용된다
- row(Index), value, column으로 이루어져 있다
- make
- insert : row, column
- append
- concat
- groupby, aggregate
- select
- merge

#### make

In [14]:
# 1. column을 만들고 column에 list 데이터를 추가해서 만드는 방법

# column만 있고 Value가 없는 상태
# 항목을 부여해주는 상황은 어떤 경우인가? 데이터 값을 누락하지 않고 입력해야 하는 상황이다.

df = pd.DataFrame(columns = ["Email", "Name"])
df

Unnamed: 0,Email,Name


In [15]:
# 각 데이터의 dtype은 obj. Series.

df["Name"] = ["fastcampus", "data", "science"]
df["Email"] = ["fcamp@gmail.com", "dss@gmail.com", "sci@gmail.com"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fastcampus
1,dss@gmail.com,data
2,sci@gmail.com,science


In [85]:
# 2. 딕셔너리 데이터 타입을 DataFrame으로 만들기

name = ["fcamp", "dss", "data"]
email = ["fcamp@gmail.com", "dss@gmail.com", "data@gmail.com"]
dic = {"Name":name, "Email":email}
df = pd.DataFrame(dic)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data


In [86]:
# 3. 인덱스를 설정해서 만들기

index_list = ["one", "two", "three"]
pd.DataFrame(dic, index = index_list)

Unnamed: 0,Email,Name
one,fcamp@gmail.com,fcamp
two,dss@gmail.com,dss
three,data@gmail.com,data


In [87]:
# Index, Value 값 가져오기

df.index, df.columns, df.values

(RangeIndex(start=0, stop=3, step=1),
 Index(['Email', 'Name'], dtype='object'),
 array([['fcamp@gmail.com', 'fcamp'],
        ['dss@gmail.com', 'dss'],
        ['data@gmail.com', 'data']], dtype=object))

#### Insert

In [88]:
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
dic = {"Name":name, "Email":email}
df = pd.DataFrame(dic)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [89]:
# 첫번째 데이터를 가져오고 싶다면. location 함수를 쓴다.
# 이처럼 location을 지정해서, 데이터를 삽입할 수 있다.

df.loc[0]

Email    fcamp@gmail.com
Name               fcamp
Name: 0, dtype: object

In [90]:
df.loc[1] = {"Email":"syh602@gmail.com", "Name":"seok",}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,syh602@gmail.com,seok


In [91]:
# location 함수 응용
# 일일이 숫자를 넣어줄 수 없다. 그래서 loc를 이용해서 항상 가장 마지막에 넣는 방법을 알아보자.
# len(df)의 loc을 찾으면 항상 마지막 값에 데이터를 넣게 된다. 
print(len(df))
df.loc[len(df)] = {"Email":"su@gmail.com", "Name":"jin",}
df

2


Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,syh602@gmail.com,seok
2,su@gmail.com,jin


In [92]:
# 1. 직접 추가해주는 방법. 
# column 생성 후, 해당 칼럼에 데이터 추가하기
# df에 인덱스 값을 넣듯, string을 넣어주면, 기존 항목 값을 변경하거나 새로운 항목을 생성한다.

df["Address"] = ""
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,
1,syh602@gmail.com,seok,
2,su@gmail.com,jin,


In [93]:
# 새로운 column에 데이터 추가하는 방법

df["Address"] = ["Seoul", "Busan", "Jeju", "Deagu", "Paju", "Deajeon", "Gwangju", "Wonju"]
df

ValueError: Length of values does not match length of index

In [21]:
# 2. apply 
# 함수를 사용해서 함수의 리턴값을 데이터로 입력하도록 하는 방법

# 함수 만들기
def count_char(name):
    return "{}({})".format(name, len(name))

df["Address_Count"] = df["Address"].apply(count_char)
df

KeyError: 'Address'

In [22]:
# lambda 사용하기

df["Name_Count"] = df["Name"].apply(lambda addr:"{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Name_Count
0,fcamp@gmail.com,fastcampus,fastcampus(10)
1,dss@gmail.com,data,data(4)
2,sci@gmail.com,science,science(7)


In [23]:
# 3.append
# 사람의 이름과 나이가 들어간 데이터 만들기

import random, string

def get_name():
    names = ["Adam", "Alan", "Alex", "Alvin", "Andrew", "Anthony", "Arnold", "Jin", "Billy", "Anchal"]
    return random.choice(names)

def get_age(start = 20, end = 40):
    return random.randint(start, end)

In [24]:
# list 형태로 만든 다음, pd.DataFrame을 사용하여 구현. 

def make_data(rows = 10):
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas
make_data()

[{'Age': 35, 'Name': 'Andrew'},
 {'Age': 25, 'Name': 'Andrew'},
 {'Age': 40, 'Name': 'Andrew'},
 {'Age': 21, 'Name': 'Anthony'},
 {'Age': 26, 'Name': 'Billy'},
 {'Age': 36, 'Name': 'Adam'},
 {'Age': 23, 'Name': 'Anchal'},
 {'Age': 23, 'Name': 'Andrew'},
 {'Age': 35, 'Name': 'Andrew'},
 {'Age': 37, 'Name': 'Anchal'}]

In [25]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


In [26]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,32,Anchal
1,20,Jin
2,34,Alan
3,33,Alvin
4,34,Alvin
5,23,Adam
6,25,Alan
7,39,Anthony
8,34,Andrew
9,28,Alan


In [27]:
# append를 이용하여, df1과 df2를 합칠 수 있다

df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


In [28]:
# df1, df2를 합치는 과정에서 엉킨 인덱스를 리셋하는 방법

df3.reset_index() # 기존의 인덱스가, "index"라는 항목으로 생성되어 잔존한다

Unnamed: 0,index,Age,Name
0,0,28,Anchal
1,1,36,Adam
2,2,30,Anchal
3,3,34,Billy
4,4,37,Alex
5,5,31,Anthony
6,6,21,Alan
7,7,26,Alan
8,8,29,Andrew
9,9,40,Arnold


In [29]:
# index를 지우고 싶은 경우. 
# (i) drop(True) - 잔존하는 인덱스 항목을 제거한다
# (ii) inplace(True) - 함수를 사용하는 객체 자체 인덱스를 리셋한다

df3.reset_index(drop = True, inplace = True)
df3

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


In [30]:
# append를 할 때, index를 리셋하는 방법

df1.append(df2, ignore_index = True)

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


#### concat

- rows
- columns

In [31]:
# concat rows

df1

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


In [32]:
df2

Unnamed: 0,Age,Name
0,32,Anchal
1,20,Jin
2,34,Alan
3,33,Alvin
4,34,Alvin
5,23,Adam
6,25,Alan
7,39,Anthony
8,34,Andrew
9,28,Alan


In [33]:
df3 = pd.concat([df1, df2], ignore_index = True)
df3

Unnamed: 0,Age,Name
0,28,Anchal
1,36,Adam
2,30,Anchal
3,34,Billy
4,37,Alex
5,31,Anthony
6,21,Alan
7,26,Alan
8,29,Andrew
9,40,Arnold


In [34]:
# concat columns
# axis = 1로 설정하면 가로로 합쳐진다.

pd.concat([df3, df1], axis=1, join='inner')

Unnamed: 0,Age,Name,Age.1,Name.1
0,28,Anchal,28,Anchal
1,36,Adam,36,Adam
2,30,Anchal,30,Anchal
3,34,Billy,34,Billy
4,37,Alex,37,Alex
5,31,Anthony,31,Anthony
6,21,Alan,21,Alan
7,26,Alan,26,Alan
8,29,Andrew,29,Andrew
9,40,Arnold,40,Arnold


In [105]:
# concat _ join
# join = 'inner' 인 경우, None 데이터는 출력하지 않는다 > 특정, 공통 데이터만 출력하고 싶은 경우
# join = 'outer' 인 경우, None 데이터까지 출력한다(default) > 모든 데이터를 출력하고 싶은 경우

pd.concat([df3, df1], axis = 1, join = 'outer')

Unnamed: 0,Age,Name,Age.1,Name.1
0,22,Billy,22.0,Billy
1,39,Alex,39.0,Alex
2,34,Anthony,34.0,Anthony
3,30,Alex,30.0,Alex
4,22,Arnold,22.0,Arnold
5,25,Andrew,25.0,Andrew
6,20,Alex,20.0,Alex
7,31,Billy,31.0,Billy
8,22,Alan,22.0,Alan
9,32,Jin,32.0,Jin


#### Group By

- 이름 별 평균 나이를 나타내는 데이터 프레임을 만든다
- 특정 데이터 값에 대한, 다른 항목의 특정 데이터 값. 

In [106]:
# 사전 작업 : 20명에 대한 이름과 나이를 나타내는 데이터 프레임 만들기 

g_df = pd.DataFrame(make_data(20))
g_df.tail()

Unnamed: 0,Age,Name
15,34,Alex
16,29,Arnold
17,30,Adam
18,29,Jin
19,37,Adam


In [107]:
# column "Name" 안에서 중복된 값 제거하기
# 1. list, set을 이용하여 출력

result1 = np.array(list(set(g_df["Name"].values)))
result1

array(['Arnold', 'Andrew', 'Anchal', 'Jin', 'Adam', 'Alex', 'Alan',
       'Billy'], dtype='<U6')

In [108]:
# 2. unique 함수를 사용하여 출력

result2 = g_df["Name"].unique()
result2

array(['Alan', 'Jin', 'Anchal', 'Adam', 'Billy', 'Andrew', 'Arnold',
       'Alex'], dtype=object)

In [109]:
g_df

Unnamed: 0,Age,Name
0,37,Alan
1,20,Jin
2,37,Anchal
3,31,Adam
4,40,Billy
5,21,Alan
6,35,Alan
7,29,Billy
8,34,Andrew
9,22,Anchal


In [110]:
# Group By 설명.

# 카테고리 데이터가 아닌, 범위 데이터(?)를 사용해서 데이터값을 찾거나 수정할 수 있는가? 
# 특정 value를 중심으로, 다른 value가 수정된다

# df.groupby({Column}) ****
result_df = g_df.groupby("Name").size().reset_index(name = "Counts")
result_df

Unnamed: 0,Name,Counts
0,Adam,3
1,Alan,4
2,Alex,1
3,Anchal,2
4,Andrew,1
5,Arnold,2
6,Billy,4
7,Jin,3


In [111]:
# sort values

result_sort = result_df.sort_values(by = "Counts", ascending = False)
result_sort.reset_index(drop = True, inplace = True)
result_sort

Unnamed: 0,Name,Counts
0,Alan,4
1,Billy,4
2,Adam,3
3,Jin,3
4,Anchal,2
5,Arnold,2
6,Alex,1
7,Andrew,1


In [112]:
g_df

Unnamed: 0,Age,Name
0,37,Alan
1,20,Jin
2,37,Anchal
3,31,Adam
4,40,Billy
5,21,Alan
6,35,Alan
7,29,Billy
8,34,Andrew
9,22,Anchal


In [38]:
# aggregate : 종합하다

# agg : min
# age가 가장 어린 나이로 name으로 groupy한다

g_df.groupby("Name").agg("min").reset_index() # index가 없기 때문에, index를 reset해주면 좋다

NameError: name 'g_df' is not defined

In [114]:
# agg : max
# 이름 별 age가 가장 많은 사람의 나이를 제공 

g_df.groupby("Name").agg("max").reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,37
2,Alex,34
3,Anchal,37
4,Andrew,34
5,Arnold,31
6,Billy,40
7,Jin,32


In [115]:
# agg : mean
# 이름 별 나이의 평균 값을 데이터화한다. 

g_df.groupby("Name").agg("mean").reset_index()

Unnamed: 0,Name,Age
0,Adam,32.666667
1,Alan,29.5
2,Alex,34.0
3,Anchal,29.5
4,Andrew,34.0
5,Arnold,30.0
6,Billy,28.75
7,Jin,27.0


In [116]:
# agg : sum
# 이름 별 나이를 모두 더한다

g_df.groupby("Name").agg("sum").reset_index()

Unnamed: 0,Name,Age
0,Adam,98
1,Alan,118
2,Alex,34
3,Anchal,59
4,Andrew,34
5,Arnold,60
6,Billy,115
7,Jin,81


In [117]:
# agg : median
# 이름 별 나이들의 중간값을 입력한다

g_df.groupby("Name").agg("median").reset_index()

Unnamed: 0,Name,Age
0,Adam,31.0
1,Alan,30.0
2,Alex,34.0
3,Anchal,29.5
4,Andrew,34.0
5,Arnold,30.0
6,Billy,26.0
7,Jin,29.0


In [118]:
# agg으로 여러 개 컬럼 생성

df = g_df.groupby("Name").agg(["min", "max", "sum", "mean", "median"]).reset_index()
df
# min, max, sum, mean은 Age의 하위 index. index도 여러 개의 항목을 사용할 수 있다

Unnamed: 0_level_0,Name,Age,Age,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,sum,mean,median
0,Adam,30,37,98,32.666667,31.0
1,Alan,21,37,118,29.5,30.0
2,Alex,34,34,34,34.0,34.0
3,Anchal,22,37,59,29.5,29.5
4,Andrew,34,34,34,34.0,34.0
5,Arnold,29,31,60,30.0,30.0
6,Billy,23,40,115,28.75,26.0
7,Jin,20,32,81,27.0,29.0


#### select

- head() : 위 다섯 개를 출력한다
- tail() : 아래 다섯 개를 출력한다
- 출력 숫자는 parameter에 따라 달라질 수 있다


In [59]:
df

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,25,3000
1,2,Alan,21,20000
2,3,Jin,39,0
3,4,Billy,40,58000
4,5,Alex,27,24000
5,6,Andrew,26,5000
6,7,Adam,27,6000
7,8,Arnold,23,41000


In [60]:
df.head(3)

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,25,3000
1,2,Alan,21,20000
2,3,Jin,39,0


In [61]:
# Offset을 사용해서 특정 범위 데이터를 출력할 수 있다 

df[-1:]

Unnamed: 0,ID,Name,Age,Money
7,8,Arnold,23,41000


In [62]:
# row 데이터 하나를 가져오기 위해서는 loc를 사용한다

df.loc[0]

ID            1
Name     Anchal
Age          25
Money      3000
Name: 0, dtype: object

In [63]:
df.loc[0]["Name"]

'Anchal'

In [119]:
df.loc[0]["Age"]["min"] # 두 column에서 값을 불러올 때 index를 맞춰줘야 한다 [][] 두 개를 넣어야. 

30

In [120]:
df.loc[0]["Name"][""]

'Adam'

In [121]:
df

Unnamed: 0_level_0,Name,Age,Age,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,sum,mean,median
0,Adam,30,37,98,32.666667,31.0
1,Alan,21,37,118,29.5,30.0
2,Alex,34,34,34,34.0,34.0
3,Anchal,22,37,59,29.5,29.5
4,Andrew,34,34,34,34.0,34.0
5,Arnold,29,31,60,30.0,30.0
6,Billy,23,40,115,28.75,26.0
7,Jin,20,32,81,27.0,29.0


In [122]:
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Sum":df["Age"]["sum"],
    "Mean":df["Age"]["mean"],
}
n_df = pd.DataFrame(data)
n_df["Mean"]

0    32.666667
1    29.500000
2    34.000000
3    29.500000
4    34.000000
5    30.000000
6    28.750000
7    27.000000
Name: Mean, dtype: float64

In [123]:
# 평균 나이가 30세 이상인 데이터를 내림차순으로 정렬하고 인덱스를 재설정
# 데이터를 가공하는 코드를 작성해서, 특정 데이터값만 따로 출력할 수 있다. 
# 결과 값은 가장 마지막 column에 오는 게 좋다. 

n_df[n_df["Mean"] > 30].sort_values(by = ["Mean"], ascending = False)

Unnamed: 0,Max,Mean,Min,Name,Sum
2,34,34.0,34,Alex,34
4,34,34.0,34,Andrew,34
0,37,32.666667,30,Adam,98


In [124]:
# 필요한 column을 마지막 column이 되도록 하는 방법 ****
# drop을 이용해서 Mean data를 가장 뒤로 이동시킨다

mean = n_df["Mean"]
n_df.drop("Mean", axis = 1, inplace = True) # column데이터를 없애기 위해서는 axis = 1이어야 한다
n_df

Unnamed: 0,Max,Min,Name,Sum
0,37,30,Adam,98
1,37,21,Alan,118
2,34,34,Alex,34
3,37,22,Anchal,59
4,34,34,Andrew,34
5,31,29,Arnold,60
6,40,23,Billy,115
7,32,20,Jin,81


In [125]:
n_df["Mean"] = mean
n_df

Unnamed: 0,Max,Min,Name,Sum,Mean
0,37,30,Adam,98,32.666667
1,37,21,Alan,118,29.5
2,34,34,Alex,34,34.0
3,37,22,Anchal,59,29.5
4,34,34,Andrew,34,34.0
5,31,29,Arnold,60,30.0
6,40,23,Billy,115,28.75
7,32,20,Jin,81,27.0


In [126]:
# rename column

n_df.rename(columns = {"Max":"Maximum", "Name":"Unique_Name"}) # 키 값을 Value 값으로 바꾸는 식

Unnamed: 0,Maximum,Min,Unique_Name,Sum,Mean
0,37,30,Adam,98,32.666667
1,37,21,Alan,118,29.5
2,34,34,Alex,34,34.0
3,37,22,Anchal,59,29.5
4,34,34,Andrew,34,34.0
5,31,29,Arnold,60,30.0
6,40,23,Billy,115,28.75
7,32,20,Jin,81,27.0


#### Merge = join(sql)

- 아이디, 이름, 나이 DF 생성
- 아이디, 돈 DF 생성



In [35]:
# 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 DF 생성

user_df = pd.DataFrame(columns = ["UserID", "Name", "Age"])

for idx in range(1, 9):
    name = get_name()
    
    # 중복 이름 제거
    while name in list(user_df["Name"]):
        name = get_name()
        
    # 데이터 name_df insert
    
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data

user_df

Unnamed: 0,UserID,Name,Age
0,1,Arnold,37
1,2,Jin,21
2,3,Alvin,23
3,4,Anthony,34
4,5,Andrew,25
5,6,Billy,35
6,7,Adam,30
7,8,Alex,21


In [36]:
money_df = pd.DataFrame(columns = ["ID", "Money"])

for idx in range(15):
    money = random.randint(1, 20) * 1000
    data = {"Money":money, "ID":random.randint(1,8)}
    money_df.loc[len(money_df)] = data
    
money_df

Unnamed: 0,ID,Money
0,2,19000
1,8,5000
2,2,15000
3,4,4000
4,2,2000
5,7,3000
6,2,14000
7,5,1000
8,3,15000
9,8,17000


In [None]:
# Merge가 동작하는 방식

# step1: n * n 만큼의 중복 데이터를 만든다
# step2: ID가 같은 데이터만 출력한다


In [37]:
# merge - user_df, money_df - key:ID, UserID
# money 데이터 기준으로 merge
money_df.merge(user_df, left_on="ID", right_on="UserID")

Unnamed: 0,ID,Money,UserID,Name,Age
0,2,19000,2,Jin,21
1,2,15000,2,Jin,21
2,2,2000,2,Jin,21
3,2,14000,2,Jin,21
4,2,1000,2,Jin,21
5,8,5000,8,Alex,21
6,8,17000,8,Alex,21
7,4,4000,4,Anthony,34
8,7,3000,7,Adam,30
9,5,1000,5,Andrew,25


In [None]:
# usr 데이터 기준으로 merge
user_df.merge(money_df, left_on="UserID", right_on="ID")

In [None]:
# left_on / right_on 사용하지 않기

user_df.rename(columns = {"UserID":"ID"}, inplace = True)

In [None]:
result_df = pd.merge(money_df, user_df)
result_df

In [None]:
# money data 활용

money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

In [None]:
# merge - outer
# fillna - NaN을 특정 데이터로 채워주는 함수

result = pd.merge(user_df, money_list, how = 'outer').fillna(value = 0)
result

In [None]:
# change data type 

# Series 별로 dtype을 바꿀 수 있기 때문이다

result["Money"] = result["Money"].astype("int")
result

#### Dataframe Input / Output 

- csv : DB 데이터를 뽑아낼 때 sql으로도 뽑아내지만, csv 파일로 얻는 경우가 많다
- excel
- excel 파일을 읽고 쓰기 위해서는 xlrd을 해야 한다 

In [None]:
result

In [56]:
# save csv
# result.to_csv('{filename}.csv', index = false) # index = True 인 경우 index 값이 추가되어 저장된다

result.to_csv('foo.csv', index = False)

In [57]:
# load csv

df = pd.read_csv('foo.csv')
df

Unnamed: 0,63.0
0,15.0
1,17.0
2,
3,


In [None]:
!pwd

In [None]:
# excel은 utf8을 사용하지 않아, 저장하고 불러올 때 인코딩 타입을 확인해야 한다

df.to_excel('foo.xlsx', sheet_name = 'Sheet1')

In [58]:
df = pd.read_excel('foo.xlsx', 'Sheet1')
df

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,25,3000
1,2,Alan,21,20000
2,3,Jin,39,0
3,4,Billy,40,58000
4,5,Alex,27,24000
5,6,Andrew,26,5000
6,7,Adam,27,6000
7,8,Arnold,23,41000


### 김도형 박사님 웹사이트 따라하기

- 데이터 입출력
- 데이터프레임 인덱서
- 

In [4]:
dir(pd)

['Categorical',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'ExcelFile',
 'ExcelWriter',
 'Expr',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int64Index',
 'Interval',
 'IntervalIndex',
 'MultiIndex',
 'NaT',
 'Panel',
 'Panel4D',
 'Period',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseArray',
 'SparseDataFrame',
 'SparseList',
 'SparseSeries',
 'Term',
 'TimeGrouper',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt64Index',
 'WidePanel',
 '_DeprecatedModule',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_hashtable',
 '_lib',
 '_libs',
 '_np_version_under1p10',
 '_np_version_under1p11',
 '_np_version_under1p12',
 '_np_version_under1p13',
 '_np_version_under1p14',
 '_np_version_under1p15',
 '_tslib',
 '_version',
 'api',
 'bdate_range',
 'compat',
 'concat',
 'core',
 'crosstab',
 'cut',
 'date_range',
 'dateti

### pandas visualization

[판다스 시각화](http://pandas.pydata.org/pandas-docs/stable/visualization.html)