##  DataFrame

1) 정의 : index, column, value로 이루어진 데이터

2) 종류

- create
- insert
    - rows
    - columns
- append
- concat
- groupby, aggregate
- select
- merge
- pivot

### 00. Setting

In [1]:
import numpy as np
import pandas as pd

### 01. Create (생성)

#### 1) Column 생성 후 list 추가

In [2]:
# create 1
# 컬럼을 만들고 컬럼에 리스트 데이터를 추가하여 DataFrame 만들기
df = pd.DataFrame(columns=["Name","Region"])
df["Name"] = ["KIM", "TOM"]
df["Region"] = ["Seoul", "Newyork"]
df

Unnamed: 0,Name,Region
0,KIM,Seoul
1,TOM,Newyork


#### 2) 각 컬럼값을 만들고 결합

In [3]:
# create 2
# 딕셔너리 데이터 타입으로 DataFrame 만들기
name = ["KIM", "TOM"]
region = ["Seoul", "Newyork"]
df = pd.DataFrame({"Name":name, "Region":region})
df

Unnamed: 0,Name,Region
0,KIM,Seoul
1,TOM,Newyork


#### 3) 인덱스 추가

In [4]:
# create 3
# 인덱스 추가해서 만들기
index = ["1st", "2nd"]
data = {"Name": ["KIM", "TOM"], "Region": ["Seoul", "Newyork"]}
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,Name,Region
1st,KIM,Seoul
2nd,TOM,Newyork


In [5]:
# 데이터 프레임에 대한 인덱스, 컬럼, 값 데이터 가져오기
df.index, df.columns, df.values

(Index(['1st', '2nd'], dtype='object'),
 Index(['Name', 'Region'], dtype='object'),
 array([['KIM', 'Seoul'],
        ['TOM', 'Newyork']], dtype=object))

### 02. Insert (삽입)

#### 1) Insert rows

In [6]:
# 데이터 프레임 생성
data = {'Names' : ["KIM", "Tom"], "Region" : ["Seoul", "Newyork"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Names,Region
0,KIM,Seoul
1,Tom,Newyork


In [7]:
# 특정 row 지정해서 데이터 넣기
df.loc[2] = {"Names":"James", "Region":"Paris"}
df

Unnamed: 0,Names,Region
0,KIM,Seoul
1,Tom,Newyork
2,James,Paris


In [8]:
# 가장 마지막에 자동으로 데이터 넣기
df.loc[len(df)] = {"Names":"Sophia", "Region":"London"}
df

Unnamed: 0,Names,Region
0,KIM,Seoul
1,Tom,Newyork
2,James,Paris
3,Sophia,London


#### 2) Insert columns

(1) 기본적인 방법

In [9]:
# 컬럼 추가 (공백으로 global 선언)
df["National"] = ""
df

Unnamed: 0,Names,Region,National
0,KIM,Seoul,
1,Tom,Newyork,
2,James,Paris,
3,Sophia,London,


In [10]:
# 컬럼 데이터 추가
df["National"] = ["KOR", "USA", "FRA", "ENG"]
df

Unnamed: 0,Names,Region,National
0,KIM,Seoul,KOR
1,Tom,Newyork,USA
2,James,Paris,FRA
3,Sophia,London,ENG


(2) Apply 함수 이용

In [11]:
# apply 함수 사용해서 column 데이터 넣기
def name(name):
    
    return "{}({})".format(name, len(name)) # 이름의 길이를 표시하는 함수 생성

df["New_Names"] = df["Names"].apply(name) # apply(함수)
df

Unnamed: 0,Names,Region,National,New_Names
0,KIM,Seoul,KOR,KIM(3)
1,Tom,Newyork,USA,Tom(3)
2,James,Paris,FRA,James(5)
3,Sophia,London,ENG,Sophia(6)


(3) Lambda 이용

In [12]:
# lambda 사용해서 column 데이터 넣기
df["New_Region"] = df["Region"].apply(lambda x: "{}({})".format(x, len(x)))
df

Unnamed: 0,Names,Region,National,New_Names,New_Region
0,KIM,Seoul,KOR,KIM(3),Seoul(5)
1,Tom,Newyork,USA,Tom(3),Newyork(7)
2,James,Paris,FRA,James(5),Paris(5)
3,Sophia,London,ENG,Sophia(6),London(6)


### 03. Append

#### 1) Append 선언 (list 이용)

In [13]:
# make data functions
# 사람 이름과 나이가 들어간 데이터를 만들기

import random, string

def get_name(): # 이름을 랜덤으로 뽑는 함수 생성
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Baldy', 'Baron', 'Billy', 'Boris', 'Bruno', 'Caley', 'Champ', 'Charlie', 'Clark']
    return random.choice(names)

def get_age(start=20, end=40): # 나이를 랜덤으로 뽑는 함수 생성
    return random.randint(start, end)

def make_data(rows=5): # 두 데이터를 결합한 함수
    datas = [] # 데이터에 리스트 선언
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data) # 리스트 데이터를 차곡차곡 쌓기
    return datas

In [14]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,31,Alvin
1,26,Boris
2,21,Billy
3,39,Arnold
4,20,Charlie


In [15]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,25,Bruno
1,26,Boris
2,32,Andrew
3,31,Alan
4,35,Alex


#### 2) Append 결합

In [16]:
# append
# df1에 df2 데이터를 추가하기 (10개 + 10개 = 20개)
df3 = df1.append(df2)
df3 # 두 데이터프레임을 합치면 인덱스의 문제가 발생

Unnamed: 0,Age,Name
0,31,Alvin
1,26,Boris
2,21,Billy
3,39,Arnold
4,20,Charlie
0,25,Bruno
1,26,Boris
2,32,Andrew
3,31,Alan
4,35,Alex


#### 3) Index 재정의

In [17]:
# index값 리셋하기
# drop = True는 기존의 인덱스를 버린다는 의미
# inplace=True는 수정된 데이터가 해당 변수에 바로 적용된다
df3.reset_index(drop=True, inplace=True) 
df3

Unnamed: 0,Age,Name
0,31,Alvin
1,26,Boris
2,21,Billy
3,39,Arnold
4,20,Charlie
5,25,Bruno
6,26,Boris
7,32,Andrew
8,31,Alan
9,35,Alex


### 04. Concat

Concatenation의 줄임말로 연결을 의미

#### 1) Concat rows

In [18]:
# df1 데이터와 df2 데이터를 concat을 이용하여 rows로 합치고 reset_index를 이용하여 index를 재정렬
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,31,Alvin
1,26,Boris
2,21,Billy
3,39,Arnold
4,20,Charlie
5,25,Bruno
6,26,Boris
7,32,Andrew
8,31,Alan
9,35,Alex


#### 2) Concat columns

In [19]:
# axis=1 설정하여 df1과 df2 데이터의 컬럼을 합쳐준다
df4 = pd.concat([df2, df1], axis=1)
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,25,Bruno,31,Alvin
1,26,Boris,26,Boris
2,32,Andrew,21,Billy
3,31,Alan,39,Arnold
4,35,Alex,20,Charlie


### 05. Groupby

이름별 평균 나이를 나타내는 데이터 프레임을 만들기

In [55]:
# make DataFrame
# 40개의 데이터를 만들어 데이터 프레임을 만들고 아래 5개의 데이터만 확인함
g_df = pd.DataFrame(make_data(40))
g_df.tail()

Unnamed: 0,Age,Name
35,25,Charlie
36,25,Billy
37,29,Arnold
38,38,Anthony
39,40,Arnold


#### 1) Unique

In [56]:
# unique name list 1
# set을 이용한 형변환으로 유니크 이름을 뽑는다.
result1 = np.array(list(set(g_df["Name"].values)))
len(result1), result1

(16, array(['Andrew', 'Baldy', 'Billy', 'Champ', 'Clark', 'Caley', 'Charlie',
        'Baron', 'Bruno', 'Arnold', 'Adam', 'Anthony', 'Boris', 'Alan',
        'Alvin', 'Alex'], dtype='<U7'))

In [57]:
# unique name list 2
# unique 함수를 이용하여 유니크 이름을 뽑는다.
result2 = g_df["Name"].unique()
len(result2), result2

(16, array(['Andrew', 'Alex', 'Baron', 'Alvin', 'Bruno', 'Charlie', 'Arnold',
        'Baldy', 'Adam', 'Anthony', 'Clark', 'Caley', 'Champ', 'Alan',
        'Boris', 'Billy'], dtype=object))

#### 2) Sorting

(1) Groupby Size

In [58]:
# groupby (size)
# groupby를 이용하여 각 이름별로 몇번 나왔는지에 대한 counts컬럼으로 데이터 프레임으로 만들기

# Name 컬럼의 데이터를 size(갯수)로 groupby를 해주고 counts라는 컬럼 이름으로 index를 리셋
result_df = g_df.groupby("Name").size().reset_index(name='counts') 
result_df

Unnamed: 0,Name,counts
0,Adam,4
1,Alan,1
2,Alex,2
3,Alvin,2
4,Andrew,2
5,Anthony,5
6,Arnold,4
7,Baldy,5
8,Baron,1
9,Billy,1


In [59]:
# sort_values를 이용하여 counts로 내림차순으로 정렬
result_df = result_df.sort_values(by=['counts'], ascending=False)
result_df

Unnamed: 0,Name,counts
5,Anthony,5
7,Baldy,5
0,Adam,4
6,Arnold,4
12,Caley,4
11,Bruno,3
2,Alex,2
3,Alvin,2
4,Andrew,2
10,Boris,2


In [60]:
# 인덱스를 다시 리셋
result_df = result_df.reset_index(drop=True)
result_df

Unnamed: 0,Name,counts
0,Anthony,5
1,Baldy,5
2,Adam,4
3,Arnold,4
4,Caley,4
5,Bruno,3
6,Alex,2
7,Alvin,2
8,Andrew,2
9,Boris,2


(2) Groupby agg

In [61]:
# groupby (agg : min)
# 이름에서 나이의 최소값으로 groupby해주고 index를 리셋
g_df.groupby("Name").agg('min').reset_index().reset_index(drop=True)

Unnamed: 0,Name,Age
0,Adam,20
1,Alan,28
2,Alex,30
3,Alvin,21
4,Andrew,20
5,Anthony,29
6,Arnold,26
7,Baldy,27
8,Baron,40
9,Billy,25


In [62]:
# groupby (agg : max)
# 각이름의 나이 최대값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('max').reset_index()

Unnamed: 0,Name,Age
0,Adam,38
1,Alan,28
2,Alex,33
3,Alvin,24
4,Andrew,39
5,Anthony,40
6,Arnold,40
7,Baldy,34
8,Baron,40
9,Billy,25


In [63]:
# groupby (agg : mean)
# 각이름의 나이 평균값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('mean').reset_index()

Unnamed: 0,Name,Age
0,Adam,29.25
1,Alan,28.0
2,Alex,31.5
3,Alvin,22.5
4,Andrew,29.5
5,Anthony,35.2
6,Arnold,32.5
7,Baldy,31.4
8,Baron,40.0
9,Billy,25.0


In [64]:
# groupby (agg : mean)
# 각이름의 나이 데이터를 합해서 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('sum').reset_index()

Unnamed: 0,Name,Age
0,Adam,117
1,Alan,28
2,Alex,63
3,Alvin,45
4,Andrew,59
5,Anthony,176
6,Arnold,130
7,Baldy,157
8,Baron,40
9,Billy,25


In [65]:
# groupby (agg : median)
# 각이름의 나이 중간값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('median').reset_index()

Unnamed: 0,Name,Age
0,Adam,29.5
1,Alan,28.0
2,Alex,31.5
3,Alvin,22.5
4,Andrew,29.5
5,Anthony,38.0
6,Arnold,32.0
7,Baldy,33.0
8,Baron,40.0
9,Billy,25.0


In [66]:
# 이름별 최소 최대 나이 출력
g_df.groupby("Name").agg(["min","max","mean"]).reset_index()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,20,38,29.25
1,Alan,28,28,28.0
2,Alex,30,33,31.5
3,Alvin,21,24,22.5
4,Andrew,20,39,29.5
5,Anthony,29,40,35.2
6,Arnold,26,40,32.5
7,Baldy,27,34,31.4
8,Baron,40,40,40.0
9,Billy,25,25,25.0


### 06. select

In [67]:
# 바로 위에 있는 데이터 가져옴
df = _

In [68]:
# 위에 5개 출력
df.head()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,20,38,29.25
1,Alan,28,28,28.0
2,Alex,30,33,31.5
3,Alvin,21,24,22.5
4,Andrew,20,39,29.5


In [69]:
# 아래에 5개 출력
df.tail()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
11,Bruno,23,39,30.333333
12,Caley,20,37,27.5
13,Champ,31,31,31.0
14,Charlie,25,39,32.0
15,Clark,40,40,40.0


In [70]:
# 3~5데이터 출력
df[3:5+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,21,24,22.5
4,Andrew,20,39,29.5
5,Anthony,29,40,35.2


In [72]:
# 10~끝 데이터 출력
df[10:]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
10,Boris,25,38,31.5
11,Bruno,23,39,30.333333
12,Caley,20,37,27.5
13,Champ,31,31,31.0
14,Charlie,25,39,32.0
15,Clark,40,40,40.0


In [73]:
# 시작~3 데이터 출력
df[:3+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,20,38,29.25
1,Alan,28,28,28.0
2,Alex,30,33,31.5
3,Alvin,21,24,22.5


In [74]:
# 데이터 거꾸로 출력
df[::-1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
15,Clark,40,40,40.0
14,Charlie,25,39,32.0
13,Champ,31,31,31.0
12,Caley,20,37,27.5
11,Bruno,23,39,30.333333
10,Boris,25,38,31.5
9,Billy,25,25,25.0
8,Baron,40,40,40.0
7,Baldy,27,34,31.4
6,Arnold,26,40,32.5


In [75]:
# 2번 데이터 나이 최소값, 3번 데이터 이름
df.loc[2]["Age"]["min"], df.loc[3]["Name"][""]

(30, 'Alvin')

In [77]:
# Name, Min, Max, Mean column의 df로 만들기
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
    }
n_df = pd.DataFrame(data)
n_df.tail()

Unnamed: 0,Max,Mean,Min,Name
11,39,30.333333,23,Bruno
12,37,27.5,20,Caley
13,31,31.0,31,Champ
14,39,32.0,25,Charlie
15,40,40.0,40,Clark


In [78]:
# 평균 나이가 30살 이상인 데이터를 Mean values로 내림차수으로 정렬하고 인덱스를 재설정
n_df[n_df["Mean"]>30].sort_values(by=["Mean"], ascending=False).reset_index(drop=True)

Unnamed: 0,Max,Mean,Min,Name
0,40,40.0,40,Baron
1,40,40.0,40,Clark
2,40,35.2,29,Anthony
3,40,32.5,26,Arnold
4,39,32.0,25,Charlie
5,33,31.5,30,Alex
6,38,31.5,25,Boris
7,34,31.4,27,Baldy
8,31,31.0,31,Champ
9,39,30.333333,23,Bruno


In [79]:
# 각 이름별 몇명이 있는지에 대한 데이터 컬럼 추가
n_df["Count"] = list(g_df.groupby("Name").size())
n_df

Unnamed: 0,Max,Mean,Min,Name,Count
0,38,29.25,20,Adam,4
1,28,28.0,28,Alan,1
2,33,31.5,30,Alex,2
3,24,22.5,21,Alvin,2
4,39,29.5,20,Andrew,2
5,40,35.2,29,Anthony,5
6,40,32.5,26,Arnold,4
7,34,31.4,27,Baldy,5
8,40,40.0,40,Baron,1
9,25,25.0,25,Billy,1


In [80]:
# Mean 데이터를 가장 뒤로 이동하기
mean = n_df["Mean"] # Mean 데이터를 저장
n_df.drop('Mean', axis=1, inplace=True) # Mean 데이터를 삭제
n_df["Mean"] = mean # Mean 데이터를 생성
n_df

Unnamed: 0,Max,Min,Name,Count,Mean
0,38,20,Adam,4,29.25
1,28,28,Alan,1,28.0
2,33,30,Alex,2,31.5
3,24,21,Alvin,2,22.5
4,39,20,Andrew,2,29.5
5,40,29,Anthony,5,35.2
6,40,26,Arnold,4,32.5
7,34,27,Baldy,5,31.4
8,40,40,Baron,1,40.0
9,25,25,Billy,1,25.0


In [81]:
# rename column
n_df.rename(columns={"Name":"Unique_Name"}) 

Unnamed: 0,Max,Min,Unique_Name,Count,Mean
0,38,20,Adam,4,29.25
1,28,28,Alan,1,28.0
2,33,30,Alex,2,31.5
3,24,21,Alvin,2,22.5
4,39,20,Andrew,2,29.5
5,40,29,Anthony,5,35.2
6,40,26,Arnold,4,32.5
7,34,27,Baldy,5,31.4
8,40,40,Baron,1,40.0
9,25,25,Billy,1,25.0


### 07. Merge

- 아이디, 이름 나이 데이터 프레임 생성
- 아이디, 돈으로 데이터 프레임 생성

In [82]:
# 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 데이터 프레임 생성
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

for idx in range(1,11):
    name = get_name()
    
    # 이름이 중복이면 다시 뽑기
    while name in list(user_df["Name"]):
        name = get_name()
    
    # 데이터 name_df에 insert
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data
        
user_df

Unnamed: 0,UserID,Name,Age
0,1,Adam,40
1,2,Andrew,23
2,3,Alan,21
3,4,Arnold,34
4,5,Billy,31
5,6,Baron,20
6,7,Alex,23
7,8,Baldy,25
8,9,Champ,32
9,10,Bruno,32


In [83]:
# ID와 Money 데이터가 있는 데이터 프레임 생성
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):        
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,10)}
    money_df.loc[len(money_df)] = data
    
# money_df.sort_values("ID", inplace=True)    
money_df

Unnamed: 0,ID,Money
0,5,6000
1,5,14000
2,3,19000
3,3,12000
4,2,4000
5,4,9000
6,5,1000
7,7,5000
8,8,8000
9,3,14000


In [84]:
# money_df의 ID 컬럼과 user_df의 UserID를 매칭 시켜 merge
# UserID와 ID 데이터는 같지만 컬럼명이 다르기 때문에 두개의 컬럼 모두 데이터 프레임에 들어감
money_df.merge(user_df, left_on="ID", right_on="UserID")

Unnamed: 0,ID,Money,UserID,Name,Age
0,5,6000,5,Billy,31
1,5,14000,5,Billy,31
2,5,1000,5,Billy,31
3,5,19000,5,Billy,31
4,5,13000,5,Billy,31
5,3,19000,3,Alan,21
6,3,12000,3,Alan,21
7,3,14000,3,Alan,21
8,3,5000,3,Alan,21
9,2,4000,2,Andrew,23


In [85]:
# user_df에 UserID를 ID로 컬럼명을 변경한후에 merge
# left_on과 right_on을 적어줄 필요가 없다.
user_df.rename(columns={"UserID":"ID"}, inplace=True)
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,5,6000,Billy,31
1,5,14000,Billy,31
2,5,1000,Billy,31
3,5,19000,Billy,31
4,5,13000,Billy,31
5,3,19000,Alan,21
6,3,12000,Alan,21
7,3,14000,Alan,21
8,3,5000,Alan,21
9,2,4000,Andrew,23


In [86]:
# 각 이름으로 groubpy하고 Money 데이터를 모두sum한 결과의 인덱스를 리셋한다.
money_list = result_df.groupby("Name").sum()["Money"].reset_index()

# Money데이터를 내림차순으로 정렬하고 index를 리셋한다.
money_list = money_list.sort_values(by=['Money'], ascending=False).reset_index(drop=True)

money_list

Unnamed: 0,Name,Money
0,Billy,53000
1,Alan,50000
2,Baldy,21000
3,Adam,19000
4,Arnold,9000
5,Alex,5000
6,Andrew,4000


In [87]:
# how에 outer를 사용하면 데이터가 없는 사람은 Money가 0으로 출력된다.
# fillna(value=0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)

result = result.sort_values(by=['Money'], ascending=False).reset_index(drop=True)

result

Unnamed: 0,ID,Name,Age,Money
0,5,Billy,31,53000.0
1,3,Alan,21,50000.0
2,8,Baldy,25,21000.0
3,1,Adam,40,19000.0
4,4,Arnold,34,9000.0
5,7,Alex,23,5000.0
6,2,Andrew,23,4000.0
7,6,Baron,20,0.0
8,9,Champ,32,0.0
9,10,Bruno,32,0.0


In [88]:
# change data type
# float 데이터인 Money 컬럼을 int로 형변환 시켜준다.
result["Money"] = result["Money"].astype("int")
result

Unnamed: 0,ID,Name,Age,Money
0,5,Billy,31,53000
1,3,Alan,21,50000
2,8,Baldy,25,21000
3,1,Adam,40,19000
4,4,Arnold,34,9000
5,7,Alex,23,5000
6,2,Andrew,23,4000
7,6,Baron,20,0
8,9,Champ,32,0
9,10,Bruno,32,0
