### Pandas
- https://pandas.pydata.org/
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python 라이브러리
- Series
    - index, value로 이루어진 데이터
- DataFrame
    - index, column, value로 이루어진 데이터

In [2]:
import numpy as np
import pandas as pd

##### Series
- index와 value로 되어 있는 데이터 형태


- pandas --> 하나의 테이블 형태

```
     | value|      |     |   
------------------------------
index|      |      |     |      
샘플  |      |      |     |      
------------------------------
     |      |      |     |
```

In [7]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만듦
# index는 0에서 1씩증가하는 index가 자동으로 들어감

# index = row = 한 개의 샘플
# size = 5 --> row의 갯수
# 왼쪽 : index, 오른쪽 : 값
data = pd.Series(np.random.randint(10, size=5))
data

0    0
1    9
2    6
3    4
4    8
dtype: int64

In [10]:
# series를 만들때 index를 키워드 파라미터로 리스트 데이터를 넘기면 인덱스를 설정할수 있음
data = pd.Series(np.random.randint(10, size=5), index=['a', 'b', 'c', 'd', 'e'])
data

a    9
b    0
c    8
d    2
e    1
dtype: int64

In [11]:
# Series의 인덱스와 값 데이터 보기
data.index, data.values

(Index(['a', 'b', 'c', 'd', 'e'], dtype='object'), array([9, 0, 8, 2, 1]))

In [12]:
# 인덱스로 값 데이터 보기
data.c, data.c

(8, 8)

In [13]:
# Series의 이름과 인덱스에 이름을 붙여 줄수 있다
data.name = "랜덤숫자"
data.index.name = "알파벳"
data.name, data.index.name

('랜덤숫자', '알파벳')

In [14]:
data

알파벳
a    9
b    0
c    8
d    2
e    1
Name: 랜덤숫자, dtype: int64

In [15]:
#값 계산
data * 100

알파벳
a    900
b      0
c    800
d    200
e    100
Name: 랜덤숫자, dtype: int64

In [17]:
# 여러개의 데이터 출력
data[["b","c","e"]]

알파벳
b    0
c    8
e    1
Name: 랜덤숫자, dtype: int64

In [19]:
# offset으로 출력
data[1:3]

알파벳
b    0
c    8
Name: 랜덤숫자, dtype: int64

In [21]:
data[:-1]

알파벳
a    9
b    0
c    8
d    2
Name: 랜덤숫자, dtype: int64

In [22]:
# 비교연산 boolean 출력
data > 3

알파벳
a     True
b    False
c     True
d    False
e    False
Name: 랜덤숫자, dtype: bool

In [24]:
data[data > 3] #True 인 데이터만 남게 된다

알파벳
a    9
c    8
Name: 랜덤숫자, dtype: int64

In [27]:
# items를 이용해 key, val를 반복문에서 사용가능
# items가 기능이 다를 수 있으니 주의한다. 
for idx, val in data.items():
    print(idx, val)

a 9
b 0
c 8
d 2
e 1


In [30]:
# dictionary 데이터 타입의 데이터로 Series 생성 가능

dic = {"d":7, "e":5, "f":9}
data2 = pd.Series(dic)
data2

d    7
e    5
f    9
dtype: int64

In [32]:
# series 끼리 계산
result = data + data2
result

# 적용 받지 않는 것들은 null로 표기

a    NaN
b    NaN
c    NaN
d    9.0
e    6.0
f    NaN
dtype: float64

In [34]:
# null 데이터 제거
print(result.notnull())
result = result[result.notnull()]
result

a    False
b    False
c    False
d     True
e     True
f    False
dtype: bool


d    9.0
e    6.0
dtype: float64

##### Dataframe
- index, column, value로 이루어진 데이터
- create
- insert
    - rows
    - columns
- append
- concat
- groupby, aggregate
- select
- merge
- pivot

In [42]:
# create 1
# 컬럼을 만들고 컬럼에 리스트 데이터를 추가하여 DataFrame 만들기
# 컬럼에 대한 데이터의 갯수를 맞춰야 한다.
df = pd.DataFrame(columns=["Email", "Name"])
df["Name"] = ["fcamp", "dss"]
df["Email"] = ["fcamp@gmail.com", "dss@gmailcom"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmailcom,dss


In [43]:
# create 2
# 딕셔너리 데이터 타입으로 DataFrame 만들기
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
df2 = pd.DataFrame({"Name":name, "Email":email})
df2

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [61]:
# create 3
# 인덱스 추가해서 만들기
index = ["first", "second"]
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,Email,Name
first,fcamp@gmail.com,fcamp
second,dss@gmail.com,dss


In [62]:
# 데이터 프레임에 대한 인덱스, 컬럼, 값 데이터 가져오기
df.index, df.columns, df.values

(Index(['first', 'second'], dtype='object'),
 Index(['Email', 'Name'], dtype='object'),
 array([['fcamp@gmail.com', 'fcamp'],
        ['dss@gmail.com', 'dss']], dtype=object))

In [63]:
df2.index, df2.columns, df2.values

(RangeIndex(start=0, stop=2, step=1),
 Index(['Email', 'Name'], dtype='object'),
 array([['fcamp@gmail.com', 'fcamp'],
        ['dss@gmail.com', 'dss']], dtype=object))


행에 대한 데이터 접근

In [66]:
# df.loc[]
df.loc[1]

Email    data@gmail.com
Name                dss
Name: 1, dtype: object

In [71]:
# row의 수
len(df)

2

열에 대한 데이터 접근

In [70]:
df["Email"]

0    fcamp@gmail.com
1     data@gmail.com
Name: Email, dtype: object

##### Insert rows

In [100]:
# 데이터 프레임 생성 (딕셔너리 형식)
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [101]:
# 특정 row 지정해서 데이터 추가하기
# loc[n]?????
df.loc[2] = {"Email": "data@gmail.com", "Name": "data"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data


In [102]:
# 가장 마지막에 자동으로 데이터 넣기
df.loc[len(df)] = {"Email":"science@gmail.com", "Name":"science"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data
3,science@gmail.com,science


##### Insert columns

In [103]:
# 컬럼 추가
df["Address"] = ""  #broadcasting이 적용되서 "" 공백이 일괄 적용
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,
1,dss@gmail.com,dss,
2,data@gmail.com,data,
3,science@gmail.com,science,


In [104]:
# 컬럼 추가
df["Country"] = ["KOR", "USA", "JPN", "GER"]
df

Unnamed: 0,Email,Name,Address,Country
0,fcamp@gmail.com,fcamp,,KOR
1,dss@gmail.com,dss,,USA
2,data@gmail.com,data,,JPN
3,science@gmail.com,science,,GER


In [105]:
df["Address"] = ["Seoul", "New York", "Tokyo", "Berlin"]
df

Unnamed: 0,Email,Name,Address,Country
0,fcamp@gmail.com,fcamp,Seoul,KOR
1,dss@gmail.com,dss,New York,USA
2,data@gmail.com,data,Tokyo,JPN
3,science@gmail.com,science,Berlin,GER


In [106]:
# apply : apply 안에 함수, lambda를 넣는다
# 함수 사용해서 column 데이터 넣기

def name(name):
    
    return "{}({})".format(name, len(name))

In [107]:
# apply를 통해 함수의 데이터가 하나하나 들어간다 "map"의 개념과 비슷
df["New_Name"] = df["Name"].apply(name)
df

Unnamed: 0,Email,Name,Address,Country,New_Name
0,fcamp@gmail.com,fcamp,Seoul,KOR,fcamp(5)
1,dss@gmail.com,dss,New York,USA,dss(3)
2,data@gmail.com,data,Tokyo,JPN,data(4)
3,science@gmail.com,science,Berlin,GER,science(7)


In [108]:
# lambda 사용해서 column 데이터 넣기
df["New_Address"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,Country,New_Name,New_Address
0,fcamp@gmail.com,fcamp,Seoul,KOR,fcamp(5),Seoul(5)
1,dss@gmail.com,dss,New York,USA,dss(3),New York(8)
2,data@gmail.com,data,Tokyo,JPN,data(4),Tokyo(5)
3,science@gmail.com,science,Berlin,GER,science(7),Berlin(6)


In [109]:
# apply는 전처리(preprocessing)할 때 많이 사용한다
# 복잡한 데이터를 하나의 컬럼을 만들어서 정리를 할 때

# 예) 남녀 데이터를 남->0, 여->1로 바꿔서 새 컬럼에 정리할 때
# 예) 점수 데이터를 새 컬럼에 범위를 지정해서 학점으로 또 정리할 때

##### append

In [132]:
# make data functions
# 사람 이름과 나이가 들어간 데이터를 만들기

import random, string

def get_name():
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Baldy', 'Baron', 'Billy', 'Boris', 'Bruno', 'Caley', 'Champ', 'Charlie', 'Clark']
    return random.choice(names)

def get_age(start=20, end=40):
    return random.randint(start, end)

def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas

    

In [133]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,21,Arnold
1,36,Alvin
2,34,Billy
3,36,Boris
4,30,Alvin
5,39,Anthony
6,33,Andrew
7,36,Anthony
8,26,Arnold
9,29,Boris


In [134]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,39,Arnold
1,24,Baron
2,36,Clark
3,38,Champ
4,32,Boris
5,32,Clark
6,36,Alan
7,28,Caley
8,36,Champ
9,22,Alvin


In [136]:
# append
# df1에 df2 eㅔ이터를 추가하기
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,21,Arnold
1,36,Alvin
2,34,Billy
3,36,Boris
4,30,Alvin
5,39,Anthony
6,33,Andrew
7,36,Anthony
8,26,Arnold
9,29,Boris


In [131]:
# index값 리셋하기 0부터 다시 정렬
# inplace=True는 수정된 데이터가 해당 변수에 바로 적용된다
# inplace=True를 사용하지 않으면 결과 데이터를 받아서 저장해야함
# drop=True라고 하면 기존의 indexf를 버리거 새로 index를 정렬한다.
# drop=False라고 하면 index가 컬럼화 되고 새로 index를 정렬한다.
df3.reset_index(drop=False, inplace=True)
df3

Unnamed: 0,index,Age,Name
0,0,24,Boris
1,1,22,Caley
2,2,28,Charlie
3,3,40,Alvin
4,4,36,Clark
5,5,23,Champ
6,6,36,Alex
7,7,40,Bruno
8,8,38,Andrew
9,9,21,Champ


In [None]:
# inplace = False라면, 결과 데이터를 받아 다시 지정해야함
# df3 = df3.reset_index(drop=True, inplace=True)
# df3

In [137]:
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,21,Arnold
1,36,Alvin
2,34,Billy
3,36,Boris
4,30,Alvin
5,39,Anthony
6,33,Andrew
7,36,Anthony
8,26,Arnold
9,29,Boris


##### concat
- rows
- columns

In [138]:
# concat rows
# df1 데이터와 df2 데이터를 concat을 이용하여 rows로 합치고 
# reset_index를 이용하여 index를 재정렬해줌
# pd.concat([x, y])
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,21,Arnold
1,36,Alvin
2,34,Billy
3,36,Boris
4,30,Alvin
5,39,Anthony
6,33,Andrew
7,36,Anthony
8,26,Arnold
9,29,Boris


In [139]:
# concat columns
# axis=1 설정하여 df1과 df2 데이터의 컬럼을 합쳐준다
df4 = pd.concat([df2, df1], axis=1)
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,39,Arnold,21,Arnold
1,24,Baron,36,Alvin
2,36,Clark,34,Billy
3,38,Champ,36,Boris
4,32,Boris,30,Alvin
5,32,Clark,39,Anthony
6,36,Alan,33,Andrew
7,28,Caley,36,Anthony
8,36,Champ,26,Arnold
9,22,Alvin,29,Boris


In [141]:
df4 = pd.concat([df3, df1], axis=1)
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,21,Arnold,21.0,Arnold
1,36,Alvin,36.0,Alvin
2,34,Billy,34.0,Billy
3,36,Boris,36.0,Boris
4,30,Alvin,30.0,Alvin
5,39,Anthony,39.0,Anthony
6,33,Andrew,33.0,Andrew
7,36,Anthony,36.0,Anthony
8,26,Arnold,26.0,Arnold
9,29,Boris,29.0,Boris


In [None]:
# join='inner' : 없는 데이터에 대한 merge는 사라진ㄴ다
df5 = pd.concat([df3, df1], axis=1, join='inner')
df5

##### Groupby
- 이름별 평균 나이를 나타내는 데이터 프레임을 만들기

In [144]:
# make DataFrame
# 20개의 데이터를 만들어 데이터 프레임을 만들고 아래 5개의 데이터만 확인함
g_df = pd.DataFrame(make_data(20))
g_df.tail() # --> 아래 5개의 데이터만 확인함. 반대는 .head

Unnamed: 0,Age,Name
15,32,Alex
16,38,Alan
17,23,Andrew
18,30,Andrew
19,23,Clark


In [156]:
g_df

Unnamed: 0,Age,Name
0,22,Adam
1,35,Baldy
2,20,Baldy
3,38,Clark
4,35,Alvin
5,33,Baron
6,28,Charlie
7,35,Bruno
8,20,Arnold
9,24,Clark


In [145]:
# unique name list 1
# set을 이용한 형변환으로 유니크 이름을 뽑는다.
result1 = np.array(list(set(g_df["Name"].values)))
len(result1), result1

(14, array(['Adam', 'Baldy', 'Charlie', 'Andrew', 'Boris', 'Caley', 'Baron',
        'Billy', 'Clark', 'Alvin', 'Bruno', 'Arnold', 'Alex', 'Alan'],
       dtype='<U7'))

In [146]:
# unique name list 2 [권장]
# unique 함수를 이용하여 유니크 이름을 뽑는다.
result2 = g_df["Name"].unique()
len(result2), result2

(14, array(['Adam', 'Baldy', 'Clark', 'Alvin', 'Baron', 'Charlie', 'Bruno',
        'Arnold', 'Alex', 'Billy', 'Boris', 'Caley', 'Alan', 'Andrew'], dtype=object))

**groupby**

In [None]:
# groupby (size)
# groupby를 이용하여 각 이름별로 몇번 나왔는지에 대한 counts컬럼으로 데이터 프레임으로 만들기

In [148]:
# Name 컬럼의 데이터를 size(갯수)로 groupby를 해주고 counts라는 컬럼 이름으로 index를 리셋한다.
result_df = g_df.groupby("Name").size().reset_index(name='counts') 
result_df

Unnamed: 0,Name,counts
0,Adam,2
1,Alan,1
2,Alex,2
3,Alvin,1
4,Andrew,2
5,Arnold,1
6,Baldy,2
7,Baron,1
8,Billy,1
9,Boris,1


In [149]:
# sort_values를 이용하여 counts로 내림차순으로 정렬한다. False : 내림차순, True : 오름차순 
result_df = result_df.sort_values(by=['counts'], ascending=False)
result_df

Unnamed: 0,Name,counts
13,Clark,3
0,Adam,2
2,Alex,2
4,Andrew,2
6,Baldy,2
1,Alan,1
3,Alvin,1
5,Arnold,1
7,Baron,1
8,Billy,1


In [158]:
# 인덱스를 다시 리셋한다.
result_df = result_df.reset_index(drop=True)
result_df

Unnamed: 0,Name,counts
0,Clark,3
1,Adam,2
2,Alex,2
3,Andrew,2
4,Baldy,2
5,Alan,1
6,Alvin,1
7,Arnold,1
8,Baron,1
9,Billy,1


**agregate**

In [161]:
# groupby (agg : min)
# 이름에서 나이의 최소값으로 groupby해주고 index를 리셋해준다.
g_df.groupby("Name").agg('min').reset_index()

Unnamed: 0,Name,Age
0,Adam,22
1,Alan,38
2,Alex,32
3,Alvin,35
4,Andrew,23
5,Arnold,20
6,Baldy,20
7,Baron,33
8,Billy,29
9,Boris,40


In [163]:
g_df.groupby("Name").agg('min').reset_index().reset_index(drop=True)

Unnamed: 0,Name,Age
0,Adam,22
1,Alan,38
2,Alex,32
3,Alvin,35
4,Andrew,23
5,Arnold,20
6,Baldy,20
7,Baron,33
8,Billy,29
9,Boris,40


In [164]:
g_df.groupby("Name").agg('max').reset_index().reset_index(drop=True)

Unnamed: 0,Name,Age
0,Adam,32
1,Alan,38
2,Alex,32
3,Alvin,35
4,Andrew,30
5,Arnold,20
6,Baldy,35
7,Baron,33
8,Billy,29
9,Boris,40


In [165]:
# 이름별 최소 최대 나이 출력
g_df.groupby("Name").agg(["min","max","mean"]).reset_index()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,22,32,27.0
1,Alan,38,38,38.0
2,Alex,32,32,32.0
3,Alvin,35,35,35.0
4,Andrew,23,30,26.5
5,Arnold,20,20,20.0
6,Baldy,20,35,27.5
7,Baron,33,33,33.0
8,Billy,29,29,29.0
9,Boris,40,40,40.0


##### select

In [166]:
df = _

# 위에 있는 값들을 전부 받아서 df에 저장한다

In [169]:
df.head()   # default = 5

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,22,32,27.0
1,Alan,38,38,38.0
2,Alex,32,32,32.0
3,Alvin,35,35,35.0
4,Andrew,23,30,26.5


In [170]:
# 아래에 3개 출력
df.tail(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
11,Caley,30,30,30.0
12,Charlie,28,28,28.0
13,Clark,23,38,28.333333


In [171]:
# 3~5데이터 출력
df[3:5+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,35,35,35.0
4,Andrew,23,30,26.5
5,Arnold,20,20,20.0


In [172]:
# 3~끝 데이터 출력
df[3:]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,35,35,35.0
4,Andrew,23,30,26.5
5,Arnold,20,20,20.0
6,Baldy,20,35,27.5
7,Baron,33,33,33.0
8,Billy,29,29,29.0
9,Boris,40,40,40.0
10,Bruno,35,35,35.0
11,Caley,30,30,30.0
12,Charlie,28,28,28.0


In [173]:
df[:3+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,22,32,27.0
1,Alan,38,38,38.0
2,Alex,32,32,32.0
3,Alvin,35,35,35.0


In [176]:
# 거꾸로
df[::-1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
13,Clark,23,38,28.333333
12,Charlie,28,28,28.0
11,Caley,30,30,30.0
10,Bruno,35,35,35.0
9,Boris,40,40,40.0
8,Billy,29,29,29.0
7,Baron,33,33,33.0
6,Baldy,20,35,27.5
5,Arnold,20,20,20.0
4,Andrew,23,30,26.5


In [183]:

df.loc[2]["Age"]["min"], df.loc[3]["Name"][""]

(32, 'Alvin')

In [184]:
# Name, Min, Max, Mean column의 df로 만들기 (딕셔너리 형태)
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
    }
n_df = pd.DataFrame(data)
n_df

# Name을 제일 앞에 넣었는데 제일 뒤에 나오는 이유는 ?
# column데이터를 알파벳 순으로 정렬을 하기 때문

Unnamed: 0,Max,Mean,Min,Name
0,32,27.0,22,Adam
1,38,38.0,38,Alan
2,32,32.0,32,Alex
3,35,35.0,35,Alvin
4,30,26.5,23,Andrew
5,20,20.0,20,Arnold
6,35,27.5,20,Baldy
7,33,33.0,33,Baron
8,29,29.0,29,Billy
9,40,40.0,40,Boris


In [189]:
# 평균 나이가 30살 이상인 데이터를 Mean values로 내림차수으로 정렬하고 인덱스를 재설정
n_df[n_df["Mean"] > 30].sort_values(by=["Mean"], ascending=False).reset_index(drop=True)

Unnamed: 0,Max,Mean,Min,Name
0,40,40.0,40,Boris
1,38,38.0,38,Alan
2,35,35.0,35,Alvin
3,35,35.0,35,Bruno
4,33,33.0,33,Baron
5,32,32.0,32,Alex


In [190]:
# 각 이름별 몇명이 있는지에 대한 데이터 컬럼 추가
n_df["Count"] = list(g_df.groupby("Name").size())
n_df

Unnamed: 0,Max,Mean,Min,Name,Count
0,32,27.0,22,Adam,2
1,38,38.0,38,Alan,1
2,32,32.0,32,Alex,2
3,35,35.0,35,Alvin,1
4,30,26.5,23,Andrew,2
5,20,20.0,20,Arnold,1
6,35,27.5,20,Baldy,2
7,33,33.0,33,Baron,1
8,29,29.0,29,Billy,1
9,40,40.0,40,Boris,1


In [191]:
# Mean 데이터를 가장 뒤로 이동하기
mean = n_df["Mean"] # Mean 데이터를 저장
n_df.drop('Mean', axis=1, inplace=True) # Mean 데이터를 삭제
n_df["Mean"] = mean # Mean 데이터를 생성
n_df

Unnamed: 0,Max,Min,Name,Count,Mean
0,32,22,Adam,2,27.0
1,38,38,Alan,1,38.0
2,32,32,Alex,2,32.0
3,35,35,Alvin,1,35.0
4,30,23,Andrew,2,26.5
5,20,20,Arnold,1,20.0
6,35,20,Baldy,2,27.5
7,33,33,Baron,1,33.0
8,29,29,Billy,1,29.0
9,40,40,Boris,1,40.0


In [192]:
# rename column
n_df.rename(columns={"Name":"Unique_NAme"})

Unnamed: 0,Max,Min,Unique_NAme,Count,Mean
0,32,22,Adam,2,27.0
1,38,38,Alan,1,38.0
2,32,32,Alex,2,32.0
3,35,35,Alvin,1,35.0
4,30,23,Andrew,2,26.5
5,20,20,Arnold,1,20.0
6,35,20,Baldy,2,27.5
7,33,33,Baron,1,33.0
8,29,29,Billy,1,29.0
9,40,40,Boris,1,40.0


##### Merge
- 아이디, 이름 나이 데이터 프레임 생성
- 아이디, 돈으로 데이터 프레임 생성

In [194]:
# 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 데이터 프레임 생성
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

for idx in range(1,10+1):
    name = get_name()
    
    # 이름이 중복이라면 다시 뽑기
    while name in list(user_df["Name"]):
        name = get_name()
    
    # 데이터 name_df에 insert
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data # df의 하단 마지막에 하나씩 차곡차곡 insert
        
user_df

Unnamed: 0,UserID,Name,Age
0,1,Adam,23
1,2,Champ,37
2,3,Baron,26
3,4,Arnold,28
4,5,Baldy,35
5,6,Alex,36
6,7,Charlie,28
7,8,Boris,37
8,9,Caley,30
9,10,Alvin,34


In [198]:
# ID와 Money 데이터가 있는 데이터 프레임 생성
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):        
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,10)}
    money_df.loc[len(money_df)] = data
    
# money_df.sort_values("ID", inplace=True)    
money_df

Unnamed: 0,ID,Money
0,8,4000
1,4,18000
2,9,18000
3,4,8000
4,10,20000
5,8,17000
6,4,20000
7,7,17000
8,10,4000
9,10,18000


In [199]:
# money_df의 ID 컬럼과 user_df의 UserID를 매칭 시켜 merge
# UserID와 ID 데이터는 같지만 컬럼명이 다르기 때문에 두개의 컬럼 모두 데이터 프레임에 들어감
# left on: Key, right on: value
money_df.merge(user_df, left_on="ID", right_on="UserID")

Unnamed: 0,ID,Money,UserID,Name,Age
0,8,4000,8,Boris,37
1,8,17000,8,Boris,37
2,8,4000,8,Boris,37
3,4,18000,4,Arnold,28
4,4,8000,4,Arnold,28
5,4,20000,4,Arnold,28
6,9,18000,9,Caley,30
7,10,20000,10,Alvin,34
8,10,4000,10,Alvin,34
9,10,18000,10,Alvin,34


In [201]:
# user_df에 UserID를 ID로 컬럼명을 변경한후에 merge
# left_on과 right_on을 적어줄 필요가 없다.
user_df.rename(columns={"UserID":"ID"}, inplace=True)
user_df

Unnamed: 0,ID,Name,Age
0,1,Adam,23
1,2,Champ,37
2,3,Baron,26
3,4,Arnold,28
4,5,Baldy,35
5,6,Alex,36
6,7,Charlie,28
7,8,Boris,37
8,9,Caley,30
9,10,Alvin,34


In [202]:
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,8,4000,Boris,37
1,8,17000,Boris,37
2,8,4000,Boris,37
3,4,18000,Arnold,28
4,4,8000,Arnold,28
5,4,20000,Arnold,28
6,9,18000,Caley,30
7,10,20000,Alvin,34
8,10,4000,Alvin,34
9,10,18000,Alvin,34


In [204]:
# 각 이름으로 groubpy하고 Money 데이터를 모두sum한 결과의 인덱스를 리셋한다.
money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

Unnamed: 0,Name,Money
0,Adam,14000
1,Alvin,42000
2,Arnold,46000
3,Baron,30000
4,Boris,25000
5,Caley,18000
6,Charlie,22000


In [206]:
# Money데이터를 내림차순으로 정렬하고 index를 리셋한다.
money_list = money_list.sort_values(by=['Money'], ascending=False).reset_index(drop=True)
money_list

Unnamed: 0,Name,Money
0,Arnold,46000
1,Alvin,42000
2,Baron,30000
3,Boris,25000
4,Charlie,22000
5,Caley,18000
6,Adam,14000


In [209]:
# how에 outer를 사용하면 데이터가 없는 사람은 Money가 0으로 출력된다.
result = pd.merge(user_df, money_list, how='outer')
result

Unnamed: 0,ID,Name,Age,Money
0,1,Adam,23,14000.0
1,2,Champ,37,
2,3,Baron,26,30000.0
3,4,Arnold,28,46000.0
4,5,Baldy,35,
5,6,Alex,36,
6,7,Charlie,28,22000.0
7,8,Boris,37,25000.0
8,9,Caley,30,18000.0
9,10,Alvin,34,42000.0


In [210]:
# fillna(value=0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)
result

Unnamed: 0,ID,Name,Age,Money
0,1,Adam,23,14000.0
1,2,Champ,37,0.0
2,3,Baron,26,30000.0
3,4,Arnold,28,46000.0
4,5,Baldy,35,0.0
5,6,Alex,36,0.0
6,7,Charlie,28,22000.0
7,8,Boris,37,25000.0
8,9,Caley,30,18000.0
9,10,Alvin,34,42000.0


In [213]:
result= result.sort_values(by=['Money'], ascending=False).reset_index(drop=True)
result

Unnamed: 0,ID,Name,Age,Money
0,4,Arnold,28,46000.0
1,10,Alvin,34,42000.0
2,3,Baron,26,30000.0
3,8,Boris,37,25000.0
4,7,Charlie,28,22000.0
5,9,Caley,30,18000.0
6,1,Adam,23,14000.0
7,2,Champ,37,0.0
8,5,Baldy,35,0.0
9,6,Alex,36,0.0


In [214]:
# change data type
# float 데이터인 Money 컬럼을 int로 형변환 시켜준다.
result["Money"] = result["Money"].astype("int")
result

Unnamed: 0,ID,Name,Age,Money
0,4,Arnold,28,46000
1,10,Alvin,34,42000
2,3,Baron,26,30000
3,8,Boris,37,25000
4,7,Charlie,28,22000
5,9,Caley,30,18000
6,1,Adam,23,14000
7,2,Champ,37,0
8,5,Baldy,35,0
9,6,Alex,36,0


pop quiz

In [238]:
# Name : a, b, c, d, e
# Point : random 60 ~ 100
# DataFrame을 만들어 보세요

In [239]:
df = pd.DataFrame(columns=["Name", "Points"])
df["Name"]=["A", "B", "C", "D", "E", "F", "G"]
df["Points"] = np.random.randint(40, 100, size=7)
df

Unnamed: 0,Name,Points
0,A,80
1,B,57
2,C,82
3,D,83
4,E,72
5,F,54
6,G,64


In [240]:
def create_grade(point):
    if point >= 90:
        return "A"
    elif point >= 80:
        return "B"
    elif point >= 70:
        return "C"
    elif point >= 60:
        return "D"
    else:
        return "F"
    
df["Result"] = df["Points"].apply(create_grade)
df

Unnamed: 0,Name,Points,Result
0,A,80,B
1,B,57,F
2,C,82,B
3,D,83,B
4,E,72,C
5,F,54,F
6,G,64,D
