#### Pandas
- 데이터 분석을 위한 사용이 쉽고, 성능이 좋은 오픈소스 python 라이브러리
- MAC OS : `$ pip3 install pandas` 설치
- 크게 두가지 데이터 타입이 있습니다
    - Series
        - Index와 Value로 이루어진 데이터 타입입니다.
    - DataFrame
        - Index와 Value와 Column으로 이루어진 데이터 타입입니다.
        - Column은 Series로 이루어져 있습니다.
        - 엑셀의 테이블 형태로 구성이 되고, Column별로 같은 데이터 타입을 갖습니다.

##### Series

In [1]:
import pandas as pd

In [2]:
# 0~9까지 Series생성
data = pd.Series(np.random.randint(10, size=(5)))
data #앞에 열이 index, 뒷열이 value

0    5
1    8
2    9
3    7
4    8
dtype: int32

In [3]:
# index 설정
data = pd.Series(np.random.randint(10,size=5), index=["A","B","C","D","E"])
data

A    3
B    4
C    0
D    2
E    1
dtype: int32

In [4]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([3, 4, 0, 2, 1]))

In [5]:
# value 값 확인 (숫자, 숫자string으로된 index로는 확인 불가)
data.A, data.D

(3, 2)

In [6]:
# Series에 이름과 index에 이름을 설정할 수 있습니다.
data.name = "random number"
data.index.name = "index number"
data

index number
A    3
B    4
C    0
D    2
E    1
Name: random number, dtype: int32

In [7]:
data * 10

index number
A    30
B    40
C     0
D    20
E    10
Name: random number, dtype: int32

In [8]:
data[["B","C","D"]]

index number
B    4
C    0
D    2
Name: random number, dtype: int32

In [9]:
data[0:3], data[::-1]

(index number
 A    3
 B    4
 C    0
 Name: random number, dtype: int32, index number
 E    1
 D    2
 C    0
 B    4
 A    3
 Name: random number, dtype: int32)

In [10]:
# 비교연산도 가능
data > 5

index number
A    False
B    False
C    False
D    False
E    False
Name: random number, dtype: bool

In [11]:
# 필터링도 가능
data[data > 5]

Series([], Name: random number, dtype: int32)

In [12]:
# for문 사용 - list comprehension으로도 사용가능
# [idx, val for idx, val in data.items()]
for idx, val in data.items():
    print(idx, val)

A 3
B 4
C 0
D 2
E 1


In [13]:
# dictionary 타입의 데이터로 Series생성 가능
dic = {"D":3,"E":5,"F":7}
data2 = pd.Series(dic)
data2 # key값으로 자동 sorting되어서 나옴

D    3
E    5
F    7
dtype: int64

In [14]:
result = data + data2
result # 공통된 것만 계산, 나머지는 None, float로 타입변경

A    NaN
B    NaN
C    NaN
D    5.0
E    6.0
F    NaN
dtype: float64

In [15]:
# NaN 데이터 제거
print(result.notnull())
result[result.notnull()]

A    False
B    False
C    False
D     True
E     True
F    False
dtype: bool


D    5.0
E    6.0
dtype: float64

##### DataFrame
- row(index), column(value)로 이루어져 있습니다.
- make
- insert
    - row
    - column
- append
- concat
- groupby, aggregate
- select
- merge

###### make

In [16]:
# column을 만들고, column에 리스트 데이터를 추가해서 만드는 방법
df = pd.DataFrame(columns=["Email","Name"])
df

Unnamed: 0,Email,Name


In [17]:
df["Name"] = ["fcamp","dss"]
df["Email"] = ["fcamp@gmail.com","dss@gmail.com"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [18]:
df["Name"] # Series가 모여 DataFrame이 된다.

0    fcamp
1      dss
Name: Name, dtype: object

In [19]:
# 딕셔너리 타입을 DataFrame으로
name = ["fcamp","dss"]
email = ["fcamp@gmail.com","dss@gmail.com"]
dic = {"Name":name, "Email":email} #value값에 리스트로 넣어줘도 반영된다.

df = pd.DataFrame(dic)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [20]:
# index를 추가해서 만들기
index_list = ["one","two"]
df = pd.DataFrame(dic, index=index_list)
df

Unnamed: 0,Email,Name
one,fcamp@gmail.com,fcamp
two,dss@gmail.com,dss


In [21]:
df.index

Index(['one', 'two'], dtype='object')

In [22]:
df.columns

Index(['Email', 'Name'], dtype='object')

In [23]:
df.values

array([['fcamp@gmail.com', 'fcamp'],
       ['dss@gmail.com', 'dss']], dtype=object)

##### insert
- row
- column

In [24]:
name = ["fcamp","dss"]
email = ["fcamp@gmail.com","dss@gmail.com"]
dic = {"Name":name, "Email":email}

df_1 = pd.DataFrame(dic)
df_1

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [25]:
df_1.loc[0] # row 데이터 추출

Email    fcamp@gmail.com
Name               fcamp
Name: 0, dtype: object

In [26]:
# loc 지정해서 데이터 넣는 방법
df_1.loc[2] = {"Email":"data@gmail.com", "Name":"data"}
df_1

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data


In [27]:
# loc를 이용해서 항상 가장 마지막에 넣는 방법

df_1.loc[len(df_1)] = {"Email":"data1@gmail.com", "Name":"data4"}
df_1.loc[len(df_1)] = {"Email":"data2@gmail.com", "Name":"data2"}
df_1.loc[len(df_1)] = {"Email":"data3@gmail.com", "Name":"data3"}


In [28]:
# column 추가
df["Address"] = "5"
df

Unnamed: 0,Email,Name,Address
one,fcamp@gmail.com,fcamp,5
two,dss@gmail.com,dss,5


In [29]:
df["Address"] = ["Seoul","Busan","Jeju","Daegu","Incheon"]
df

ValueError: Length of values does not match length of index

In [32]:
# apply
# 함수를 사용해서 함수의 리턴값이 데이터로 들어값니다.
def count_char(name):
    return "{}({})".format(name, len(name))

df["Name_count"] = df["Name"].apply(count_char)
df

Unnamed: 0,Email,Name,Address,Name_count
one,fcamp@gmail.com,fcamp,5,fcamp(5)
two,dss@gmail.com,dss,5,dss(3)


In [33]:
# lambda 이용
df["Address_count"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,Name_count,Address_count
one,fcamp@gmail.com,fcamp,5,fcamp(5),5(1)
two,dss@gmail.com,dss,5,dss(3),5(1)


In [34]:
# append
# 사람의 이름과 나이가 들어간 데이터를 만듭니다.
import random, string

def get_name():
    names = ["Adam","Alan","Alex","Alvin","Andrew","Anthony","Arnold","Jin","Billy","Anchal"]
    return random.choice(names)

get_name()

'Alex'

In [35]:
def get_age(start=20, end=40):
    return random.randint(start, end)

get_age()

32

In [36]:
def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(),"Name":get_name()}
        datas.append(data)
    return datas

make_data()

[{'Age': 25, 'Name': 'Anchal'},
 {'Age': 30, 'Name': 'Anchal'},
 {'Age': 36, 'Name': 'Andrew'},
 {'Age': 20, 'Name': 'Anthony'},
 {'Age': 29, 'Name': 'Andrew'},
 {'Age': 29, 'Name': 'Arnold'},
 {'Age': 30, 'Name': 'Anchal'},
 {'Age': 34, 'Name': 'Alex'},
 {'Age': 30, 'Name': 'Adam'},
 {'Age': 33, 'Name': 'Alan'}]

In [37]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,21,Anchal
1,39,Andrew
2,20,Jin
3,32,Alex
4,27,Anchal
5,28,Adam
6,30,Alan
7,27,Arnold
8,39,Anthony
9,33,Andrew


In [38]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,22,Anthony
1,20,Billy
2,27,Adam
3,28,Anchal
4,22,Billy
5,37,Anthony
6,20,Anthony
7,31,Jin
8,32,Alex
9,30,Adam


In [39]:
# df1과 df2를 합치고 싶을때 append를 이용
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,21,Anchal
1,39,Andrew
2,20,Jin
3,32,Alex
4,27,Anchal
5,28,Adam
6,30,Alan
7,27,Arnold
8,39,Anthony
9,33,Andrew


In [40]:
# index 리셋
# drop - 새로 생성되는 인덱스 컬럼을 삭제 
# inplace - 함수를 사용하는 객체 자체 인덱스를 리셋
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,21,Anchal
1,39,Andrew
2,20,Jin
3,32,Alex
4,27,Anchal
5,28,Adam
6,30,Alan
7,27,Arnold
8,39,Anthony
9,33,Andrew


In [41]:
# append를 할때 인덱스를 리셋
df3 = df1.append(df2,ignore_index=True)
df3

Unnamed: 0,Age,Name
0,21,Anchal
1,39,Andrew
2,20,Jin
3,32,Alex
4,27,Anchal
5,28,Adam
6,30,Alan
7,27,Arnold
8,39,Anthony
9,33,Andrew


##### concat
- rows
- columns

In [42]:
# concat rows
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,21,Anchal
1,39,Andrew
2,20,Jin
3,32,Alex
4,27,Anchal
5,28,Adam
6,30,Alan
7,27,Arnold
8,39,Anthony
9,33,Andrew


In [43]:
# concat columns
# axis=1로 하면 세로로 합쳐짐
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,21,Anchal,21.0,Anchal
1,39,Andrew,39.0,Andrew
2,20,Jin,20.0,Jin
3,32,Alex,32.0,Alex
4,27,Anchal,27.0,Anchal
5,28,Adam,28.0,Adam
6,30,Alan,30.0,Alan
7,27,Arnold,27.0,Arnold
8,39,Anthony,39.0,Anthony
9,33,Andrew,33.0,Andrew


In [44]:
# inner join : 교집합 뽑는다.(교집합만 뽑는다.)
# outer join : 합집합으로 뽑는다, 부족한 데이터는 NaN으로 채워짐.
df4 = pd.concat([df3, df1], axis=1, join='inner')
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,21,Anchal,21,Anchal
1,39,Andrew,39,Andrew
2,20,Jin,20,Jin
3,32,Alex,32,Alex
4,27,Anchal,27,Anchal
5,28,Adam,28,Adam
6,30,Alan,30,Alan
7,27,Arnold,27,Arnold
8,39,Anthony,39,Anthony
9,33,Andrew,33,Andrew


##### Group by
- 이름별 평균 나이를 나타내는 데이터 프레임을 만든다.

In [45]:
# 20명에 대한 이름과 나이를 나타내는 데이터 프레임을 만듭니다.
g_df = pd.DataFrame(make_data(20))
print(g_df.head())
print(g_df.tail())

   Age    Name
0   27  Arnold
1   39  Arnold
2   31    Adam
3   23   Billy
4   22   Alvin
    Age   Name
15   26  Alvin
16   36  Alvin
17   25   Adam
18   21    Jin
19   28   Alan


In [46]:
# 이름을 unique로 출력
result1 = np.array(list(set(g_df["Name"].values)))
result1, len(result1)

(array(['Arnold', 'Anchal', 'Alex', 'Alvin', 'Adam', 'Andrew', 'Jin',
        'Alan', 'Billy', 'Anthony'], dtype='<U7'), 10)

In [47]:
# pandas의 unique를 이용하여 유니크한 이름을 출력
result2 = g_df["Name"].unique()
result2, len(result2)

(array(['Arnold', 'Adam', 'Billy', 'Alvin', 'Alex', 'Alan', 'Anthony',
        'Jin', 'Anchal', 'Andrew'], dtype=object), 10)

In [48]:
# groupby
g_df.groupby("Name").size() # 각 이름이 같은사람이 몇명인지

Name
Adam       3
Alan       2
Alex       1
Alvin      3
Anchal     1
Andrew     1
Anthony    1
Arnold     4
Billy      2
Jin        2
dtype: int64

In [49]:
result_df = g_df.groupby("Name").size().reset_index(name="counts")
result_df

Unnamed: 0,Name,counts
0,Adam,3
1,Alan,2
2,Alex,1
3,Alvin,3
4,Anchal,1
5,Andrew,1
6,Anthony,1
7,Arnold,4
8,Billy,2
9,Jin,2


In [50]:
# sort values
result_df = result_df.sort_values(by=["counts"], ascending=False)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,counts
0,Arnold,4
1,Adam,3
2,Alvin,3
3,Alan,2
4,Billy,2
5,Jin,2
6,Alex,1
7,Anchal,1
8,Andrew,1
9,Anthony,1


In [51]:
# aggregation(agg) : min
# 제일 어린 나이로 name 그룹핑
g_df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,25
1,Alan,23
2,Alex,23
3,Alvin,22
4,Anchal,25
5,Andrew,31
6,Anthony,21
7,Arnold,20
8,Billy,23
9,Jin,21


In [52]:
g_df.groupby("Name").agg("max").reset_index()

Unnamed: 0,Name,Age
0,Adam,38
1,Alan,28
2,Alex,23
3,Alvin,36
4,Anchal,25
5,Andrew,31
6,Anthony,21
7,Arnold,39
8,Billy,33
9,Jin,32


In [53]:
# agg : mean
g_df.groupby("Name").agg("mean").reset_index()

Unnamed: 0,Name,Age
0,Adam,31.333333
1,Alan,25.5
2,Alex,23.0
3,Alvin,28.0
4,Anchal,25.0
5,Andrew,31.0
6,Anthony,21.0
7,Arnold,27.5
8,Billy,28.0
9,Jin,26.5


In [54]:
# agg : sum
g_df.groupby("Name").agg("sum").reset_index()

Unnamed: 0,Name,Age
0,Adam,94
1,Alan,51
2,Alex,23
3,Alvin,84
4,Anchal,25
5,Andrew,31
6,Anthony,21
7,Arnold,110
8,Billy,56
9,Jin,53


In [55]:
# agg : median
g_df.groupby("Name").agg("median").reset_index()

Unnamed: 0,Name,Age
0,Adam,31.0
1,Alan,25.5
2,Alex,23.0
3,Alvin,26.0
4,Anchal,25.0
5,Andrew,31.0
6,Anthony,21.0
7,Arnold,25.5
8,Billy,28.0
9,Jin,26.5


In [56]:
# agg으로 여러개 칼럼 생성
df = g_df.groupby("Name").agg(["min","max","mean"]).reset_index()
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,25,38,31.333333
1,Alan,23,28,25.5
2,Alex,23,23,23.0
3,Alvin,22,36,28.0
4,Anchal,25,25,25.0
5,Andrew,31,31,31.0
6,Anthony,21,21,21.0
7,Arnold,20,39,27.5
8,Billy,23,33,28.0
9,Jin,21,32,26.5


In [57]:
# select
df.head(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,25,38,31.333333
1,Alan,23,28,25.5
2,Alex,23,23,23.0


In [58]:
df.tail(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
7,Arnold,20,39,27.5
8,Billy,23,33,28.0
9,Jin,21,32,26.5


In [59]:
# offset이용
df[3:6] 

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,22,36,28.0
4,Anchal,25,25,25.0
5,Andrew,31,31,31.0


In [60]:
df[3] # error뜸

KeyError: 3

In [61]:
df.loc[3]

Name          Alvin
Age   min        22
      max        36
      mean       28
Name: 3, dtype: object

In [62]:
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,25,38,31.333333
1,Alan,23,28,25.5
2,Alex,23,23,23.0
3,Alvin,22,36,28.0
4,Anchal,25,25,25.0
5,Andrew,31,31,31.0
6,Anthony,21,21,21.0
7,Arnold,20,39,27.5
8,Billy,23,33,28.0
9,Jin,21,32,26.5


In [63]:
df.loc[2]["Age"]["min"]

23

In [64]:
df.loc[3]["Name"][""]

'Alvin'

In [65]:
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
}
n_df = pd.DataFrame(data)
n_df

Unnamed: 0,Max,Mean,Min,Name
0,38,31.333333,25,Adam
1,28,25.5,23,Alan
2,23,23.0,23,Alex
3,36,28.0,22,Alvin
4,25,25.0,25,Anchal
5,31,31.0,31,Andrew
6,21,21.0,21,Anthony
7,39,27.5,20,Arnold
8,33,28.0,23,Billy
9,32,26.5,21,Jin


In [None]:
# 평균나이가 30세 이상인 데이터를 내림차순으로 정렬하고 인덱스를 재설정
n_df[n_df["Mean"]>30].sort_values(by=["Mean"], ascending=False).reset_index(drop=True)

In [None]:
n_df["Counts"] = list(g_df.groupby("Name").size())
n_df

In [None]:
# drop : column 이동 - mean 데이터를 가장 뒤로 이동
mean = n_df["Mean"]
n_df.drop("Mean", axis=1, inplace=True)
n_df

In [None]:
n_df["Mean"] = mean
n_df

In [None]:
# rename column
n_df.rename(columns={"Max":"Maximum","Name":"Uinque_Name"})

##### Merge
- SQL에서 join하고 같다
- user_df : 아이디, 이름, 나이 데이터 프레임 생성
- money_df: 아이디, 돈 데이터 프레임을 생성

In [2]:
user_df = pd.DataFrame(columns=["UserID","Name","Age"])
for idx in range(1,9):
    name = get_name()
    
    # 중복 이름 제거
    while name in list(user_df["Name"]):
        name = get_name()
        
    # 데이터 name_df insert
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data
    
user_df

NameError: name 'get_name' is not defined

In [None]:
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,8)} # randint는 마지막 숫자를 포함함...ㅡㅡ
    money_df.loc[len(money_df)] = data

money_df

- 두 데이터 프레임을 merge
- 먼저 모든 경우의 수를 펼쳐놓고, 기준이 같은 것을 뽑아서 merge!

In [None]:
# merge - user_df, money_df - key:ID, UserID
# money 데이터 기준으로 merge
money_df.merge(user_df,left_on="ID", right_on="UserID")

In [None]:
# user 데이터 기준으로 merge
user_df.merge(money_df,left_on="UserID", right_on="ID")

In [None]:
user_df.rename(columns={"UserID":"ID"}, inplace=True)
user_df

In [None]:
result_df = money_df.merge(user_df)
result_df

In [None]:
money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

In [None]:
# merge - outer
# fillna - NaN을 특정 데이터로 채워줍니다.
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)
result

In [None]:
# change data type
result["Money"] = result["Money"].astype("int")
result

##### dataframe Input / Output 
- csv, excel
- `pip3 install xlrd`
- `pip3 install openpyxl`

In [None]:
result

In [None]:
# csv로 저장하기
result.to_csv('foo.csv',index=False) #index = False로 해야 그대로 저장, True면 인덱스가 새로 생김

In [None]:
# csv 불러오기
df = pd.read_csv('foo.csv')
df

In [None]:
# excel로 저장하기 : excel은 저장되는 인코딩 타입을 확인해야합니다. (utf-8을 사용하지 않습니다.)
df.to_excel('foo.xlsx', sheet_name='Sheet1')

In [None]:
# excel 불러오기
df = pd.read_excel('foo.csv')

#### Pivot
- 데이터 프레임 컬럼데이터에서 특정 컬럼의 데이터를 index, columns, values를 선택하여 프레임을 만드는 방법입니다.
- df.pivot(index, columns, values)