### Pandas
- https://pandas.pydata.org/
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python 라이브러리
- Series
    - index, value로 이루어진 데이터
- DataFrame
    - index, column, value로 이루어진 데이터

In [1]:
import numpy as np
import pandas as pd

##### Series
- index와 value로 되어 있는 데이터 형태

In [2]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만듦
# index는 0에서 1씩증가하는 index가 자동으로 들어감
# 하나의 데이터타입만 사용가능
data = pd.Series(np.random.randint(10, size=5))   # 오른쪽라인은 value : random하게 들어간 0~9사이의 숫자 
data

0    4
1    0
2    3
3    9
4    5
dtype: int64

In [3]:
# series를 만들때 index를 키워드 파라미터로 리스트 데이터를 넘기면 인덱스를 설정할수 있음
data = pd.Series(np.random.randint(10, size=5), index=['A','B','C','D','E'])
data

A    2
B    3
C    7
D    8
E    3
dtype: int64

In [4]:
# Series의 인덱스와 값 데이터 보기
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([2, 3, 7, 8, 3]))

In [5]:
# 인덱스로 값 데이터 보기
data.A, data.C

(2, 7)

In [6]:
# Series의 이름과 인덱스에 이름을 붙여 줄수 있다
data.name = "랜덤숫자"
data.index.name = "알파벳"
data.name, data.index.name

('랜덤숫자', '알파벳')

In [7]:
data

알파벳
A    2
B    3
C    7
D    8
E    3
Name: 랜덤숫자, dtype: int64

In [8]:
# 값을 계산해줄수 있다. (broadcasting으로 계산됨)
data * 10

알파벳
A    20
B    30
C    70
D    80
E    30
Name: 랜덤숫자, dtype: int64

In [9]:
# 여러개의 데이터 출력 --> index명으로 호출
data[["B","C","E"]]

알파벳
B    3
C    7
E    3
Name: 랜덤숫자, dtype: int64

In [10]:
# offset으로 출력 --> 연속된 데이터일 때
data[1:3]

알파벳
B    3
C    7
Name: 랜덤숫자, dtype: int64

In [11]:
# 역순 출력
data[::-1]

알파벳
E    3
D    8
C    7
B    3
A    2
Name: 랜덤숫자, dtype: int64

In [12]:
# 3이상 되는 데이터 T/F로 출력
data > 3

알파벳
A    False
B    False
C     True
D     True
E    False
Name: 랜덤숫자, dtype: bool

In [13]:
# 3이상 되는 데이터 출력
data[data > 3]

알파벳
C    7
D    8
Name: 랜덤숫자, dtype: int64

In [14]:
# items를 이용해 key, val를 반복문에서 사용가능     # dictionary 의 items함수와는 다르다
for idx, val in data.items():
    print(idx, val)

A 2
B 3
C 7
D 8
E 3


In [15]:
# dictionary 데이터 타입의 데이터로 Series 생성 가능
dic = {"D":7, "E":5, "F":9}
data2 = pd.Series(dic)
data2

D    7
E    5
F    9
dtype: int64

In [16]:
data

알파벳
A    2
B    3
C    7
D    8
E    3
Name: 랜덤숫자, dtype: int64

In [18]:
# series 끼리 계산          # NAN : 데이터 값이 없음. --> 두 데이터 모두 중복된 index의 value를 가지고 있어야 더한 데이터가 나옴.
result = data + data2
result

A     NaN
B     NaN
C     NaN
D    15.0
E     8.0
F     NaN
dtype: float64

In [19]:
# null 데이터 제거
print(result.notnull())            # T/F 로 반환
result = result[result.notnull()]  # True인 값만 출력
result

A    False
B    False
C    False
D     True
E     True
F    False
dtype: bool


D    15.0
E     8.0
dtype: float64

In [20]:
result[1]      # 인덱스의 value 값이 출력

8.0

##### Dataframe     *엄청 중요!!
- index, column, value로 이루어진 데이터
- index 안에 여러 value값이 들어가서 이를 구분해주기 위해서 column이 추가됨.
- create
- insert
    - rows
    - columns
- append
- concat
- groupby, aggregate
- select
- merge

##### Create

In [21]:
# create 1
# 컬럼을 만들고 컬럼에 리스트 데이터를 추가하여 DataFrame 만들기
# 자동적으로 알파벳순으로 컬럼이 정렬
df = pd.DataFrame(columns=["Email","Name"])
df["Name"] = ["fcamp", "dss"]
df["Email"] = ["fcamp@gmail.com", "dss@gmail.com"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [22]:
# create 2
# 딕셔너리 데이터 타입으로 DataFrame 만들기
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
df = pd.DataFrame({"Name":name, "Email":email})
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [23]:
# create 3
# 인덱스 추가해서 만들기
index = ["first", "second"]
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,Email,Name
first,fcamp@gmail.com,fcamp
second,dss@gmail.com,dss


In [24]:
# 데이터 프레임에 대한 인덱스, 컬럼, 값 데이터 가져오기
df.index, df.columns, df.values

(Index(['first', 'second'], dtype='object'),
 Index(['Email', 'Name'], dtype='object'),
 array([['fcamp@gmail.com', 'fcamp'],
        ['dss@gmail.com', 'dss']], dtype=object))

##### Insert rows

In [25]:
# 데이터 프레임 생성
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [26]:
df.loc[1]

Email    dss@gmail.com
Name               dss
Name: 1, dtype: object

In [27]:
# 특정 row 지정해서 데이터 넣기
df.loc[2] = {"Email":"data@gmail.com", "Name":"data"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data


In [28]:
len(df)    # row 수

3

In [29]:
# 가장 마지막에 자동으로 데이터 넣기  *** 많이 쓰임!!
df.loc[len(df)] = {"Email":"science@gmail.com", "Name":"science"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data
3,science@gmail.com,science


##### Insert columns

In [30]:
# 컬럼 추가  (broadcasting 적용)
df["Address"] = "1"
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,1
1,dss@gmail.com,dss,1
2,data@gmail.com,data,1
3,science@gmail.com,science,1


In [31]:
# 컬럼 데이터 추가
df["Address"] = ["Seoul", "Busan", "Jeju", "Deagu"]
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,Seoul
1,dss@gmail.com,dss,Busan
2,data@gmail.com,data,Jeju
3,science@gmail.com,science,Deagu


In [32]:
# apply  ***중요!!! 복습!!!
# 함수 사용해서 column 데이터 넣기
def name(name):
    
    return "{}({})".format(name, len(name))

df["New_Name"] = df["Name"].apply(name)    # .apply( 함수명 )
df

Unnamed: 0,Email,Name,Address,New_Name
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5)
1,dss@gmail.com,dss,Busan,dss(3)
2,data@gmail.com,data,Jeju,data(4)
3,science@gmail.com,science,Deagu,science(7)


In [33]:
# lambda 사용해서 column 데이터 넣기
df["New_Address"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,New_Name,New_Address
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5),Seoul(5)
1,dss@gmail.com,dss,Busan,dss(3),Busan(5)
2,data@gmail.com,data,Jeju,data(4),Jeju(4)
3,science@gmail.com,science,Deagu,science(7),Deagu(5)


##### append

In [34]:
# make data functions
# 사람 이름과 나이가 들어간 데이터를 만들기

import random, string

def get_name():
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Baldy', 'Baron', 'Billy', 'Boris', 'Bruno', 'Caley', 'Champ', 'Charlie', 'Clark']
    return random.choice(names)

def get_age(start=20, end=40):
    return random.randint(start, end)

def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas

In [35]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,39,Arnold
1,22,Adam
2,34,Arnold
3,22,Bruno
4,36,Alvin
5,20,Charlie
6,31,Billy
7,28,Baron
8,30,Champ
9,22,Billy


In [36]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,38,Baron
1,33,Caley
2,34,Alex
3,37,Alvin
4,25,Bruno
5,23,Anthony
6,26,Anthony
7,37,Baron
8,38,Anthony
9,26,Charlie


In [37]:
# append
# df1에 df2 데이터를 추가하기
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,39,Arnold
1,22,Adam
2,34,Arnold
3,22,Bruno
4,36,Alvin
5,20,Charlie
6,31,Billy
7,28,Baron
8,30,Champ
9,22,Billy


In [38]:
# index값 리셋하기
# inplace=True는 수정된 데이터가 해당 변수에 바로 적용된다
# inplace=True를 사용하지 않으면 결과 데이터를 받아서 저장해야함 (할당을 다시 해줘서 출력해야함)
# drop=True는 이전 인덱스 값을 안보이게 함
# drop=False 하거나 사용하지 않으면 이전 인덱스값이 컬럼이 된다
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,39,Arnold
1,22,Adam
2,34,Arnold
3,22,Bruno
4,36,Alvin
5,20,Charlie
6,31,Billy
7,28,Baron
8,30,Champ
9,22,Billy


##### concat
- rows
- columns

In [39]:
# concat rows
# df1 데이터와 df2 데이터를 concat을 이용하여 rows로 합치고 reset_index를 이용하여 index를 재정렬해줌
df3 = pd.concat((df1, df2)).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,39,Arnold
1,22,Adam
2,34,Arnold
3,22,Bruno
4,36,Alvin
5,20,Charlie
6,31,Billy
7,28,Baron
8,30,Champ
9,22,Billy


In [40]:
# concat columns
# axis=1 설정하여 df1과 df2 데이터의 컬럼을 합쳐준다
df4 = pd.concat([df2, df1], axis=1)
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,38,Baron,39,Arnold
1,33,Caley,22,Adam
2,34,Alex,34,Arnold
3,37,Alvin,22,Bruno
4,25,Bruno,36,Alvin
5,23,Anthony,20,Charlie
6,26,Anthony,31,Billy
7,37,Baron,28,Baron
8,38,Anthony,30,Champ
9,26,Charlie,22,Billy


In [41]:
df5 = pd.concat([df3, df1], axis=1, join='inner') # 기본적으로 join='outer'이고 outer를 하면 모든 데이터가 나옴. 없는 데이터는 'NaN' 
df5                                               # inner는 공통된것만 나옴. 

Unnamed: 0,Age,Name,Age.1,Name.1
0,39,Arnold,39,Arnold
1,22,Adam,22,Adam
2,34,Arnold,34,Arnold
3,22,Bruno,22,Bruno
4,36,Alvin,36,Alvin
5,20,Charlie,20,Charlie
6,31,Billy,31,Billy
7,28,Baron,28,Baron
8,30,Champ,30,Champ
9,22,Billy,22,Billy


##### Groupby
- 이름별 평균 나이를 나타내는 데이터 프레임을 만들기

In [42]:
# make DataFrame
# 20개의 데이터를 만들어 데이터 프레임을 만들고 아래 5개의 데이터만 확인함
g_df = pd.DataFrame(make_data(20))
g_df.tail()

Unnamed: 0,Age,Name
15,23,Bruno
16,23,Adam
17,20,Alex
18,38,Alvin
19,21,Charlie


In [43]:
g_df

Unnamed: 0,Age,Name
0,32,Alex
1,20,Arnold
2,36,Baldy
3,26,Alex
4,29,Alan
5,36,Andrew
6,34,Bruno
7,27,Alan
8,38,Alex
9,26,Andrew


In [44]:
# unique name list 1
# set을 이용한 형변환으로 유니크 이름을 뽑는다.  --> 중복제거
result1 = np.array(list(set(g_df["Name"].values)))
len(result1), result1

(11, array(['Arnold', 'Charlie', 'Baldy', 'Alex', 'Alvin', 'Baron', 'Andrew',
        'Alan', 'Adam', 'Boris', 'Bruno'], dtype='<U7'))

In [45]:
# unique name list 2
# unique 함수를 이용하여 유니크 이름을 뽑는다.
result2 = g_df["Name"].unique()
len(result2), result2

(11, array(['Alex', 'Arnold', 'Baldy', 'Alan', 'Andrew', 'Bruno', 'Boris',
        'Baron', 'Adam', 'Alvin', 'Charlie'], dtype=object))

In [46]:
# groupby (size)
# groupby를 이용하여 각 이름별로 몇번 나왔는지에 대한 counts컬럼으로 데이터 프레임을 만들기

# Name 컬럼의 데이터를 size(갯수)로 groupby를 해주고 counts라는 컬럼 이름으로 index를 리셋한다.
result_df = g_df.groupby("Name").size().reset_index(name='counts') 

# sort_values를 이용하여 counts로 내림차순으로 정렬한다.
result_df = result_df.sort_values(by=['counts'], ascending=False)   # ascending = T: 오름차순, F: 내림차순

# 인덱스를 다시 리셋한다.
result_df = result_df.reset_index(drop=True)
result_df

Unnamed: 0,Name,counts
0,Alex,4
1,Baldy,3
2,Alan,2
3,Andrew,2
4,Arnold,2
5,Bruno,2
6,Adam,1
7,Alvin,1
8,Baron,1
9,Boris,1


In [50]:
# groupby (agg : min)   agg: 여러 숫자값 컬럼이 있을 때는 전부 다 해줌. 문자 데이터는 제외.
# 이름에서 나이의 최소값으로 groupby해주고 index를 리셋해준다.
g_df.groupby("Name").agg('min').reset_index()

Unnamed: 0,Name,Age
0,Adam,23
1,Alan,27
2,Alex,20
3,Alvin,38
4,Andrew,26
5,Arnold,20
6,Baldy,25
7,Baron,29
8,Boris,31
9,Bruno,23


In [51]:
# groupby (agg : max)
# 각이름의 나이 최대값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('max').reset_index()

Unnamed: 0,Name,Age
0,Adam,23
1,Alan,29
2,Alex,38
3,Alvin,38
4,Andrew,36
5,Arnold,30
6,Baldy,38
7,Baron,29
8,Boris,31
9,Bruno,34


In [52]:
# groupby (agg : mean)
# 각이름의 나이 평균값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('mean').reset_index()

Unnamed: 0,Name,Age
0,Adam,23.0
1,Alan,28.0
2,Alex,29.0
3,Alvin,38.0
4,Andrew,31.0
5,Arnold,25.0
6,Baldy,33.0
7,Baron,29.0
8,Boris,31.0
9,Bruno,28.5


In [53]:
# groupby (agg : sum)
# 각이름의 나이 데이터를 합해서 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('sum').reset_index()

Unnamed: 0,Name,Age
0,Adam,23
1,Alan,56
2,Alex,116
3,Alvin,38
4,Andrew,62
5,Arnold,50
6,Baldy,99
7,Baron,29
8,Boris,31
9,Bruno,57


In [54]:
# groupby (agg : median)
# 각이름의 나이 중간값으로 groupby해주고 인덱스를 리셋해준다.
g_df.groupby("Name").agg('median').reset_index()

Unnamed: 0,Name,Age
0,Adam,23.0
1,Alan,28.0
2,Alex,29.0
3,Alvin,38.0
4,Andrew,31.0
5,Arnold,25.0
6,Baldy,36.0
7,Baron,29.0
8,Boris,31.0
9,Bruno,28.5


In [61]:
# 이름별 최소 최대 평균 나이 출력
df = g_df.groupby("Name").agg(["min","max","mean"]).reset_index()
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,23,23,23.0
1,Alan,27,29,28.0
2,Alex,20,38,29.0
3,Alvin,38,38,38.0
4,Andrew,26,36,31.0
5,Arnold,20,30,25.0
6,Baldy,25,38,33.0
7,Baron,29,29,29.0
8,Boris,31,31,31.0
9,Bruno,23,34,28.5


##### select

In [62]:
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,23,23,23.0
1,Alan,27,29,28.0
2,Alex,20,38,29.0
3,Alvin,38,38,38.0
4,Andrew,26,36,31.0
5,Arnold,20,30,25.0
6,Baldy,25,38,33.0
7,Baron,29,29,29.0
8,Boris,31,31,31.0
9,Bruno,23,34,28.5


In [63]:
# 위에 5개 출력
df.head()  # 기본적으로 5개 출력

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,23,23,23.0
1,Alan,27,29,28.0
2,Alex,20,38,29.0
3,Alvin,38,38,38.0
4,Andrew,26,36,31.0


In [64]:
# 위에 3개 출력
df.head(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,23,23,23.0
1,Alan,27,29,28.0
2,Alex,20,38,29.0


In [65]:
# 아래에 5개 출력
df.tail()   # 기본적으로 5개 출력

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
6,Baldy,25,38,33.0
7,Baron,29,29,29.0
8,Boris,31,31,31.0
9,Bruno,23,34,28.5
10,Charlie,21,21,21.0


In [66]:
# 아래에 3개 출력
df.tail(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
8,Boris,31,31,31.0
9,Bruno,23,34,28.5
10,Charlie,21,21,21.0


In [67]:
# 3~5데이터 출력 : offset 이용
df[3:5+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,38,38,38.0
4,Andrew,26,36,31.0
5,Arnold,20,30,25.0


In [68]:
# 3~끝 데이터 출력
df[3:]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,38,38,38.0
4,Andrew,26,36,31.0
5,Arnold,20,30,25.0
6,Baldy,25,38,33.0
7,Baron,29,29,29.0
8,Boris,31,31,31.0
9,Bruno,23,34,28.5
10,Charlie,21,21,21.0


In [69]:
# 시작~3 데이터 출력
df[:3+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,23,23,23.0
1,Alan,27,29,28.0
2,Alex,20,38,29.0
3,Alvin,38,38,38.0


In [70]:
# 데이터 거꾸로 출력
df[::-1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
10,Charlie,21,21,21.0
9,Bruno,23,34,28.5
8,Boris,31,31,31.0
7,Baron,29,29,29.0
6,Baldy,25,38,33.0
5,Arnold,20,30,25.0
4,Andrew,26,36,31.0
3,Alvin,38,38,38.0
2,Alex,20,38,29.0
1,Alan,27,29,28.0


In [71]:
# 2번 데이터 나이 최소값, 3번 데이터 이름
df.loc[2]["Age"]["min"], df.loc[3]["Name"][""]  # [""] 넣어주어야 깨끗하게 출력

(20, 'Alvin')

In [72]:
# Name, Min, Max, Mean column의 df로 만들기
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
    }
n_df = pd.DataFrame(data)
n_df

Unnamed: 0,Max,Mean,Min,Name
0,23,23.0,23,Adam
1,29,28.0,27,Alan
2,38,29.0,20,Alex
3,38,38.0,38,Alvin
4,36,31.0,26,Andrew
5,30,25.0,20,Arnold
6,38,33.0,25,Baldy
7,29,29.0,29,Baron
8,31,31.0,31,Boris
9,34,28.5,23,Bruno


In [73]:
# 평균 나이가 30살 이상인 데이터를 Mean values로 내림차수으로 정렬하고 인덱스를 재설정
n_df[n_df["Mean"]>30].sort_values(by=["Mean"], ascending=False).reset_index(drop=True)

Unnamed: 0,Max,Mean,Min,Name
0,38,38.0,38,Alvin
1,38,33.0,25,Baldy
2,36,31.0,26,Andrew
3,31,31.0,31,Boris


In [74]:
list(g_df.groupby("Name").size())

[1, 2, 4, 1, 2, 2, 3, 1, 1, 2, 1]

In [75]:
# 각 이름별 몇명이 있는지에 대한 데이터 컬럼 추가
n_df["Count"] = list(g_df.groupby("Name").size())
n_df

Unnamed: 0,Max,Mean,Min,Name,Count
0,23,23.0,23,Adam,1
1,29,28.0,27,Alan,2
2,38,29.0,20,Alex,4
3,38,38.0,38,Alvin,1
4,36,31.0,26,Andrew,2
5,30,25.0,20,Arnold,2
6,38,33.0,25,Baldy,3
7,29,29.0,29,Baron,1
8,31,31.0,31,Boris,1
9,34,28.5,23,Bruno,2


In [76]:
# Mean 데이터를 가장 뒤로 이동하기 (컬럼 순서 이동방법)
mean = n_df["Mean"] # Mean 데이터를 저장 --> ndarray형태로 저장
n_df.drop('Mean', axis=1, inplace=True) # Mean 데이터를 삭제
n_df["Mean"] = mean # Mean 데이터를 생성
n_df

Unnamed: 0,Max,Min,Name,Count,Mean
0,23,23,Adam,1,23.0
1,29,27,Alan,2,28.0
2,38,20,Alex,4,29.0
3,38,38,Alvin,1,38.0
4,36,26,Andrew,2,31.0
5,30,20,Arnold,2,25.0
6,38,25,Baldy,3,33.0
7,29,29,Baron,1,29.0
8,31,31,Boris,1,31.0
9,34,23,Bruno,2,28.5


In [77]:
# rename column
n_df.rename(columns={"Name":"Unique_Name", "Min":"MIN"}) # 여러개를 한번에 바꾸고 싶으면 dictionary 형태로 추가해서 써줌

Unnamed: 0,Max,MIN,Unique_Name,Count,Mean
0,23,23,Adam,1,23.0
1,29,27,Alan,2,28.0
2,38,20,Alex,4,29.0
3,38,38,Alvin,1,38.0
4,36,26,Andrew,2,31.0
5,30,20,Arnold,2,25.0
6,38,25,Baldy,3,33.0
7,29,29,Baron,1,29.0
8,31,31,Boris,1,31.0
9,34,23,Bruno,2,28.5


##### Merge
- 아이디, 이름 나이 데이터 프레임 생성
- 아이디, 돈으로 데이터 프레임 생성

In [79]:
# 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 데이터 프레임 생성      이해제대로!!!
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

for idx in range(1,11):
    name = get_name()
    
    # 이름이 중복이면 다시 뽑기
    while name in list(user_df["Name"]):
        name = get_name()
    
    # 데이터 name_df에 insert
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data
        
user_df

Unnamed: 0,UserID,Name,Age
0,1,Alex,37
1,2,Clark,26
2,3,Alvin,35
3,4,Adam,33
4,5,Charlie,28
5,6,Baron,24
6,7,Arnold,25
7,8,Billy,21
8,9,Champ,32
9,10,Bruno,24


In [80]:
# ID와 Money 데이터가 있는 데이터 프레임 생성
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):        
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,10)}
    money_df.loc[len(money_df)] = data
    
# money_df.sort_values("ID", inplace=True)    
money_df

Unnamed: 0,ID,Money
0,6,16000
1,1,10000
2,6,3000
3,10,19000
4,2,8000
5,7,17000
6,7,8000
7,2,5000
8,8,7000
9,10,4000


In [162]:
# money_df의 ID 컬럼과 user_df의 UserID를 매칭 시켜 merge
# UserID와 ID 데이터는 같지만 컬럼명이 다르기 때문에 두개의 컬럼 모두 데이터 프레임에 들어감
money_df.merge(user_df, left_on="ID", right_on="UserID") # --> 각각을 key값으로 지정

Unnamed: 0,ID,Money,UserID,Name,Age
0,2,15000,2,Clark,36
1,2,7000,2,Clark,36
2,2,12000,2,Clark,36
3,6,10000,6,Arnold,36
4,7,10000,7,Alan,36
5,7,5000,7,Alan,36
6,7,13000,7,Alan,36
7,9,2000,9,Caley,22
8,9,12000,9,Caley,22
9,8,16000,8,Charlie,31


In [81]:
# user_df에 UserID를 ID로 컬럼명을 변경
# merge 할 때 left_on과 right_on을 적어줄 필요가 없다. (컬럼명이 같으므로)
user_df.rename(columns={"UserID":"ID"}, inplace=True)
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,6,16000,Baron,24
1,6,3000,Baron,24
2,1,10000,Alex,37
3,1,2000,Alex,37
4,10,19000,Bruno,24
5,10,4000,Bruno,24
6,10,10000,Bruno,24
7,2,8000,Clark,26
8,2,5000,Clark,26
9,7,17000,Arnold,25


In [82]:
# 각 이름으로 groubpy하고 Money 데이터를 모두sum한 결과의 인덱스를 리셋한다.
money_list = result_df.groupby("Name").sum()["Money"].reset_index()

# Money데이터를 내림차순으로 정렬하고 index를 리셋한다.
money_list = money_list.sort_values(by=['Money'], ascending=False).reset_index(drop=True)

money_list

Unnamed: 0,Name,Money
0,Bruno,33000
1,Arnold,25000
2,Baron,19000
3,Clark,13000
4,Alex,12000
5,Billy,9000
6,Charlie,6000
7,Champ,3000


In [83]:
# how에 outer를 사용하면 데이터가 없는 사람은 Money가 0으로 출력된다.
# fillna(value=0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)   # 디폴트값이 'inner'

result = result.sort_values(by=['Money'], ascending=False).reset_index(drop=True)

result

Unnamed: 0,ID,Name,Age,Money
0,10,Bruno,24,33000.0
1,7,Arnold,25,25000.0
2,6,Baron,24,19000.0
3,2,Clark,26,13000.0
4,1,Alex,37,12000.0
5,8,Billy,21,9000.0
6,5,Charlie,28,6000.0
7,9,Champ,32,3000.0
8,3,Alvin,35,0.0
9,4,Adam,33,0.0


In [84]:
# change data type
# float 데이터인 Money 컬럼을 int로 형변환 시켜준다. --> .astype("int")
result["Money"] = result["Money"].astype("int")
result

Unnamed: 0,ID,Name,Age,Money
0,10,Bruno,24,33000
1,7,Arnold,25,25000
2,6,Baron,24,19000
3,2,Clark,26,13000
4,1,Alex,37,12000
5,8,Billy,21,9000
6,5,Charlie,28,6000
7,9,Champ,32,3000
8,3,Alvin,35,0
9,4,Adam,33,0


In [87]:
# quiz
# Name : A, B, C, D, E
# Point : random 60-100
# DataFrame 만들어보세요

df = pd.DataFrame(columns=["Name", "Point"])
df["Name"] = ["A", "B", "C", "D", "E"]
df["Point"] = np.random.randint(60, 100, size=5)
df

Unnamed: 0,Name,Point
0,A,81
1,B,98
2,C,74
3,D,72
4,E,90


In [88]:
# 학점을 나타내는 컬럼을 추가해주세요 --> 함수 만들고 apply 이용!
def chg(point):
    if point >= 90:
        return 'A'
    elif point >= 80:
        return 'B'
    elif point >= 70:
        return 'C'
    else:
        return 'F'

df["Grade"] = df["Point"].apply(chg)
df

Unnamed: 0,Name,Point,Grade
0,A,81,B
1,B,98,A
2,C,74,C
3,D,72,C
4,E,90,A


##### Input / Output
- 엑셀파일 저장을 위해 아래 모듈이 필요
- pip install xlrd

In [13]:
!pip3 install openpyxl

Collecting openpyxl
  Using cached openpyxl-2.5.0.tar.gz
Collecting jdcal (from openpyxl)
  Using cached jdcal-1.3.tar.gz
Collecting et_xmlfile (from openpyxl)
  Using cached et_xmlfile-1.0.1.tar.gz
Building wheels for collected packages: openpyxl, jdcal, et-xmlfile
  Running setup.py bdist_wheel for openpyxl ... [?25ldone
[?25h  Stored in directory: /Users/macbook/Library/Caches/pip/wheels/a7/88/96/29c1f91ba5a9b94dfc39a9f6f72d0eb92d6f0d917cf2341a3f
  Running setup.py bdist_wheel for jdcal ... [?25ldone
[?25h  Stored in directory: /Users/macbook/Library/Caches/pip/wheels/0f/63/92/19ac65ed64189de4d662f269d39dd08a887258842ad2f29549
  Running setup.py bdist_wheel for et-xmlfile ... [?25ldone
[?25h  Stored in directory: /Users/macbook/Library/Caches/pip/wheels/99/f6/53/5e18f3ff4ce36c990fa90ebdf2b80cd9b44dc461f750a1a77c
Successfully built openpyxl jdcal et-xmlfile
Installing collected packages: jdcal, et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.0.1 jdcal-1.3 openpyxl-2.5.

In [17]:
!pip3 install xlrd

Collecting xlrd
  Downloading xlrd-1.1.0-py2.py3-none-any.whl (108kB)
[K    100% |████████████████████████████████| 112kB 1.0MB/s ta 0:00:01
[?25hInstalling collected packages: xlrd
Successfully installed xlrd-1.1.0


In [89]:
import openpyxl

In [90]:
# csv
df.to_csv('foo.csv', index=False)
pd.read_csv('foo.csv').tail()

Unnamed: 0,Name,Point,Grade
0,A,81,B
1,B,98,A
2,C,74,C
3,D,72,C
4,E,90,A


In [91]:
# excel
df.to_excel('foo.xlsx', sheet_name='Sheet1')
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0,Name,Point,Grade
0,A,81,B
1,B,98,A
2,C,74,C
3,D,72,C
4,E,90,A
