### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 (i.e. numpy로 실행되는) 오픈소스 python 라이브러리 (다른 언어로 사용 불가)
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python이 활용할 수 있는 분야가 많습니다.
- 크게 두 가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입 (한 시리즈 당 동일 데이터 타입만 사용 가능)
    - DataFrame : index, column, value로 이루어진 데이터 타입 (테이블 형태 - 여러 시리즈로 이루어짐)

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [1]:
# Series : value만 설정하면 index는 0부터 자동으로 설정됩니다.
data = pd.Series(np.random.randint(10,size=5))
data

0    3
1    2
2    6
3    8
4    2
dtype: int32

In [2]:
# index 설정
data = pd.Series(np.random.randint(10,size=5),
                index=list("ABCDE"))
data

A    4
B    1
C    8
D    0
E    4
dtype: int32

In [3]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([4, 1, 8, 0, 4]))

In [4]:
data["B"], data.B   # 인덱스가 정수가 아닌 경우에는 .도 활용 가능

(1, 1)

In [5]:
data["C"] = 10
data

A     4
B     1
C    10
D     0
E     4
dtype: int32

In [6]:
# 브로드캐스팅
data * 10

A     40
B     10
C    100
D      0
E     40
dtype: int32

In [7]:
data[["B", "E"]]

B    1
E    4
dtype: int32

In [8]:
# offset index
data[2::2]

C    10
E     4
dtype: int32

In [9]:
data[::-1]

E     4
D     0
C    10
B     1
A     4
dtype: int32

### 1. Series 연산

In [10]:
data

A     4
B     1
C    10
D     0
E     4
dtype: int32

In [11]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [12]:
# 같은 인덱스끼리 연산 가능
result = data + data2
result    # NaN은 숫자 데이터에서의 None과 동일

A    NaN
B    NaN
C    NaN
D    3.0
E    9.0
F    NaN
dtype: float64

In [13]:
result[result.isnull()] = data
result

A     4.0
B     1.0
C    10.0
D     3.0
E     9.0
F     NaN
dtype: float64

In [14]:
result[result.isnull()] = data2
result

A     4.0
B     1.0
C    10.0
D     3.0
E     9.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러 개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.

In [15]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트 (column)

In [16]:
data = {
    "name": ["dss", "fcamp"],                         # column
    "email": ["dss@gmail.com", "fcamp@daum.net"],     # column
}
data

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [17]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [18]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리 (row)

In [19]:
data = [
    {"name": "dss", "email": "dss@gmail.com"},       # row
    {"name": "fcamp", "email": "fcamp@daum.net"},    # row
]
data

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [20]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [21]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(data, index=["one", "two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [22]:
df.index

Index(['one', 'two'], dtype='object')

In [23]:
df.columns

Index(['name', 'email'], dtype='object')

In [24]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [25]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [26]:
data = [
    {"name": "dss", "email": "dss@gmail.com"},       # row
    {"name": "fcamp", "email": "fcamp@daum.net"},    # row
]

In [27]:
# row 선택
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [28]:
df.loc[1]['email']

'fcamp@daum.net'

In [29]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name": "andy", "email": "andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [30]:
# column 선택

In [31]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [32]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [33]:
df['id'] = range(1, 4)   # np.arange(1, 4)도 무방함 - 단, 데이터 타입은 다름
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [34]:
df.dtypes

name     object
email    object
id        int32
dtype: object

In [35]:
# row, column 선택

In [36]:
df.loc[[0,2],['email', 'id']]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [37]:
# 컬럼 데이터 순서 설정

In [38]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [39]:
# head, tail

In [40]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2


In [41]:
df.tail(2)

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷함

In [42]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [43]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]['email'])

'gmail'

In [44]:
df['domain'] = df['email'].apply(domain)
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [45]:
# alternatively, using lambda :
df['domain'] = df['email'].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [46]:
from makedata import *

In [47]:
get_name()

'Anthony'

In [48]:
get_age()

34

In [49]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,27,Anthony
1,38,Alex
2,23,Arnold
3,33,Anthony
4,20,Arnold


### 4. append : 데이터 프레임 합치기

In [50]:
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,38,Alvin
3,34,Anthony
4,40,Alan
0,27,Anthony
1,38,Alex


In [51]:
# ignore_index : append 실행 시 index 재정렬
df3 = df1.append(df2, ignore_index=True)
df3

Unnamed: 0,Age,Name
0,23,Adam
1,35,Alvin
2,38,Alvin
3,34,Anthony
4,40,Alan
5,27,Anthony
6,38,Alex
7,23,Arnold
8,33,Anthony
9,20,Arnold


In [52]:
# reset_index : 데이터 프레임 변형 후 인덱스 재정렬
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,23,Adam
1,35,Alvin
2,38,Alvin
3,34,Anthony
4,40,Alan
5,27,Anthony
6,38,Alex
7,23,Arnold
8,33,Anthony
9,20,Arnold


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [53]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,33,Anthony
9,20,Arnold


In [54]:
pd.concat([df3, df1], axis=1)                  # outer : 합집합 (default)

Unnamed: 0,Age,Name,Age.1,Name.1
0,23,Adam,23.0,Adam
1,35,Alvin,35.0,Alvin
2,38,Alvin,38.0,Alvin
3,34,Anthony,34.0,Anthony
4,40,Alan,40.0,Alan
5,27,Anthony,,
6,38,Alex,,
7,23,Arnold,,
8,33,Anthony,,
9,20,Arnold,,


In [55]:
pd.concat([df3, df1], axis=1, join="inner")    # inner : 교집합

Unnamed: 0,Age,Name,Age.1,Name.1
0,23,Adam,23,Adam
1,35,Alvin,35,Alvin
2,38,Alvin,38,Alvin
3,34,Anthony,34,Anthony
4,40,Alan,40,Alan


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [56]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,30,Alan
1,21,Alvin
2,40,Alex
3,23,Anthony
4,28,Alex
5,23,Alan
6,33,Anthony
7,35,Billy
8,24,Adam
9,28,Anchal


In [57]:
# size
result_df = df.groupby("Name").size().reset_index(name="Count")
result_df

Unnamed: 0,Name,Count
0,Adam,1
1,Alan,2
2,Alex,2
3,Alvin,1
4,Anchal,1
5,Anthony,2
6,Billy,1


In [58]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
result_df.sort_values(["Count", "Name"], ascending=False, inplace=True) # Name으로 두번째 sort & ascending=True는 불가능
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,Count
0,Anthony,2
1,Alex,2
2,Alan,2
3,Billy,1
4,Anchal,1
5,Alvin,1
6,Adam,1


In [59]:
# agg : 
# size(), min(), max(), mean()

In [60]:
df.groupby('Name').agg('min').reset_index()

Unnamed: 0,Name,Age
0,Adam,24
1,Alan,23
2,Alex,28
3,Alvin,21
4,Anchal,28
5,Anthony,23
6,Billy,35


In [61]:
df.groupby('Name').agg('max').reset_index()

Unnamed: 0,Name,Age
0,Adam,24
1,Alan,30
2,Alex,40
3,Alvin,21
4,Anchal,28
5,Anthony,33
6,Billy,35


In [62]:
df.groupby('Name').agg('mean').reset_index()

Unnamed: 0,Name,Age
0,Adam,24.0
1,Alan,26.5
2,Alex,34.0
3,Alvin,21.0
4,Anchal,28.0
5,Anthony,28.0
6,Billy,35.0


In [63]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,28.5
std,6.096447
min,21.0
25%,23.25
50%,28.0
75%,32.25
max,40.0


### 7. merge = sql(join)
- 두 개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법