### pandas
- 데이터 분석을 위한 상용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 pandas의 특징
    - R보다 pandas가 학습이 쉬움
    - R보다 pandas가 성능이 좋음
    - R보다 Python이 활용분야가 넓음
- 데이터 타입은 크게 두가지 사용
    - Series : index, value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [67]:
import numpy as np
import pandas as pd

# series
# 동일한 데이터 타입을 갖는다
data = pd.Series(np.random.randint(10, size = 5))
data


0    0
1    3
2    0
3    5
4    5
dtype: int32

In [68]:
#index 설정
data = pd.Series(np.random.randint(10, size = 5),
                index=list("ABCDE") 
                )
data


A    0
B    9
C    2
D    2
E    1
dtype: int32

In [69]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 9, 2, 2, 1]))

In [70]:
data["B"]

9

In [71]:
#index 가 int 가 아니면 . 으로 호출가능
data.B

9

In [72]:
data["C"] = 10
data

A     0
B     9
C    10
D     2
E     1
dtype: int32

In [73]:
#브로드캐스팅 가능
data * 10

A      0
B     90
C    100
D     20
E     10
dtype: int32

In [74]:
data[["B","E"]]

B    9
E    1
dtype: int32

In [75]:
# offset index
data[2:], data[2::2]


(C    10
 D     2
 E     1
 dtype: int32,
 C    10
 E     1
 dtype: int32)

In [76]:
# Series 연산
data1 = data
data2 = pd.Series({"D" : 3, "E" : 5, "F" : 7 })

In [77]:
result = data1 + data2

In [78]:
result[result.isnull()] = data
result[result.isnull()] = data2

In [79]:
result

A     0.0
B     9.0
C    10.0
D     5.0
E     6.0
F     7.0
dtype: float64

### 2. Data Frame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value는 같은 데이터 타입


In [80]:
# 데이터 프레임 생성
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"]
}

In [81]:
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [82]:
df = pd.DataFrame(datas)

In [83]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [84]:
datas2 = [
    {"name" : "dss", "email":"dss@gmail.com"},
    {"name" : "fcamp", "email":"fcamp@daum.net"}
]

In [85]:
df2 = pd.DataFrame(datas2)

In [86]:
df2

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [87]:
df3 = pd.DataFrame(datas2, index = ("one", "two"))

In [88]:
df3

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [89]:
df3.index, df3.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['name', 'email'], dtype='object'),
 array([['dss', 'dss@gmail.com'],
        ['fcamp', 'fcamp@daum.net']], dtype=object))

### 데이터 프레임에서 데이터의 선택
- row, column, (row, column)

In [98]:
df
df.append([{"name":12, "email":"test"}])




Unnamed: 0,name,email,id,Age,Name
0,dss,dss@gmail.com,,,
1,fcamp,fcamp@daum.net,,,
2,andy,andy@naver.com,,,
0,,,,12.0,test


In [91]:
# row 선택
df.loc[1]

name              fcamp
email    fcamp@daum.net
Name: 1, dtype: object

In [92]:
df.loc[2] = {"name" : "andy", "email":"andy@naver.com"}
# loc[]안의 인덱스가 기존에 있으면 수정, 없으면 신규추가

In [93]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [94]:
# column 선택
df["name"].id

AttributeError: 'Series' object has no attribute 'id'

In [95]:
df["id"] = ""

In [96]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [54]:
df["id"] = range(1, 4) #np.arrange(1,4)

ValueError: Length of values (3) does not match length of index (10)

In [99]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [56]:
df.dtypes

Age     float64
Name     object
id       object
dtype: object

In [57]:
# (row,column) 선택
df.loc[[0, 2], ["email", "id"]], df.loc[[0], ["email"]]

KeyError: "['email'] not in index"

In [58]:
df[["id", "email"]]

KeyError: "['email'] not in index"

In [59]:
# head, tail

In [60]:
df.head(2) # 디폴트는 5

Unnamed: 0,Age,Name,id
0,37.0,Alan,
1,23.0,Arnold,


In [61]:
df.tail(2)

Unnamed: 0,Age,Name,id
8,39.0,Billy,
9,32.0,Adam,


### 3. apply
- numpy의 map 함수와 비슷

In [62]:
# email 칼럼에서 메일의 도메인만 가져와서 새로운 domain 칼럼을 생성
df

Unnamed: 0,Age,Name,id
0,37.0,Alan,
1,23.0,Arnold,
2,,,
3,26.0,Jin,
4,38.0,Andrew,
5,25.0,Anchal,
6,39.0,Alex,
7,34.0,Adam,
8,39.0,Billy,
9,32.0,Adam,


In [63]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

KeyError: 'email'

In [64]:
df["domain"] = df["email"].apply(domain)

KeyError: 'email'

In [100]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [66]:
df["m-company"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[1])

KeyError: 'email'

In [92]:
df

Unnamed: 0,name,email,id,domain,m-company
0,dss,dss@gmail.com,1,gmail,com
1,fcamp,fcamp@daum.net,2,daum,net
2,andy,andy@naver.com,3,naver,com


In [101]:
from makedata import *

In [102]:
get_name()

'Anchal'

In [103]:
get_age()

38

In [104]:
make_data()

[{'Age': 25, 'Name': 'Billy'},
 {'Age': 30, 'Name': 'Anthony'},
 {'Age': 21, 'Name': 'Alex'},
 {'Age': 37, 'Name': 'Alex'},
 {'Age': 35, 'Name': 'Alex'},
 {'Age': 24, 'Name': 'Anthony'},
 {'Age': 40, 'Name': 'Billy'},
 {'Age': 32, 'Name': 'Alan'},
 {'Age': 22, 'Name': 'Alex'},
 {'Age': 32, 'Name': 'Jin'}]

In [105]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))



In [106]:
df1

Unnamed: 0,Age,Name
0,27,Alvin
1,20,Alvin
2,31,Billy
3,28,Arnold
4,29,Jin


In [107]:
df2

Unnamed: 0,Age,Name
0,30,Arnold
1,26,Alex
2,33,Jin
3,35,Arnold
4,32,Jin


In [108]:
df3 = df1.append(df2)

In [109]:
df3[2:7]

Unnamed: 0,Age,Name
2,31,Billy
3,28,Arnold
4,29,Jin
0,30,Arnold
1,26,Alex


In [110]:
#인덱스 재정렬 reset_index 인덱스 재정렬
df3.reset_index(drop = True, inplace=True)


In [111]:
df3[2:7].reset_index()


Unnamed: 0,index,Age,Name
0,2,31,Billy
1,3,28,Arnold
2,4,29,Jin
3,5,30,Arnold
4,6,26,Alex


In [112]:
df3[2:7].reset_index(drop = True)


Unnamed: 0,Age,Name
0,31,Billy
1,28,Arnold
2,29,Jin
3,30,Arnold
4,26,Alex


In [116]:
df3
df3.max()["Age"]

35

### 5. concat
- row나 column으로 데이터 프레임을 합칠때 사용


In [15]:
df3 = pd.concat((df1, df2)).reset_index(drop = True)
df3

Unnamed: 0,Age,Name
0,38,Jin
1,29,Alvin
2,23,Arnold
3,23,Anthony
4,36,Alex
5,39,Arnold
6,22,Andrew
7,39,Anthony
8,38,Jin
9,31,Anthony


In [16]:
pd.concat([df3, df1], axis = 1) ##default 가 join = outer

Unnamed: 0,Age,Name,Age.1,Name.1
0,38,Jin,38.0,Jin
1,29,Alvin,29.0,Alvin
2,23,Arnold,23.0,Arnold
3,23,Anthony,23.0,Anthony
4,36,Alex,36.0,Alex
5,39,Arnold,,
6,22,Andrew,,
7,39,Anthony,,
8,38,Jin,,
9,31,Anthony,,


In [17]:
pd.concat([df3, df1], axis = 1, join = "inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,38,Jin,38,Jin
1,29,Alvin,29,Alvin
2,23,Arnold,23,Arnold
3,23,Anthony,23,Anthony
4,36,Alex,36,Alex


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [18]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,37,Alan
1,23,Arnold
2,37,Arnold
3,26,Jin
4,38,Andrew
5,25,Anchal
6,39,Alex
7,34,Adam
8,39,Billy
9,32,Adam


In [19]:
# size|
df4 = pd.DataFrame(df.groupby("Name").size().reset_index(name = "count"))
df4

Unnamed: 0,Name,count
0,Adam,2
1,Alan,1
2,Alex,1
3,Anchal,1
4,Andrew,1
5,Arnold,2
6,Billy,1
7,Jin,1


In [20]:
# sort
df4.sort_values(["count", "Name"], ascending=False, inplace=True) # asc, des 둘다쓰려면 두번 정렬해야함
df4.reset_index(drop = True, inplace=True)
df4

Unnamed: 0,Name,count
0,Arnold,2
1,Adam,2
2,Jin,1
3,Billy,1
4,Andrew,1
5,Anchal,1
6,Alex,1
7,Alan,1


In [32]:
# agg()
# size, min, max, mean
df2.groupby("Name").agg("count").reset_index() ## 여기서 drop = True를 하면 Name컬럼이 사라진다

Unnamed: 0,Name,Age
0,Andrew,1
1,Anthony,2
2,Arnold,1
3,Jin,1


In [22]:
# 데이터를 요약해서 보여주는 함수
df2.describe()

Unnamed: 0,Age
count,5.0
mean,33.8
std,7.395945
min,22.0
25%,31.0
50%,38.0
75%,39.0
max,39.0


### 6. merge
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법

In [None]:
# merge
