### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python이 활용할 수 있는 분야가 많습니다.
- 크게 2가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index와 column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [2]:
# Series : value만 설정하면 index는 0부터 자동으로 설정됩니다.
data = pd.Series(np.random.randint(10, size = 5))
data

0    7
1    7
2    2
3    7
4    9
dtype: int32

In [3]:
# index 설정
data = pd.Series(np.random.randint(10, size = 5),
                index = list("ABCDE"))
data

A    0
B    6
C    1
D    9
E    8
dtype: int32

In [4]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 6, 1, 9, 8]))

In [7]:
data["B"], data.B #.B는 인덱스 값이 숫자가 아닐 경우에만 사용 가능

(6, 6)

In [9]:
data["C"] = 10
data

A     0
B     6
C    10
D     9
E     8
dtype: int32

In [10]:
# 브로드 캐스팅
data * 10

A      0
B     60
C    100
D     90
E     80
dtype: int32

In [11]:
data[["B", "E"]]

B    6
E    8
dtype: int32

In [14]:
# offset index
data[2::2]

C    10
E     8
dtype: int32

In [15]:
data[::-1]

E     8
D     9
C    10
B     6
A     0
dtype: int32

### Series 연산

In [16]:
data

A     0
B     6
C    10
D     9
E     8
dtype: int32

In [19]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [23]:
result = data + data2
result # 같은 인덱스끼리 연산됨

A     NaN
B     NaN
C     NaN
D    12.0
E    13.0
F     NaN
dtype: float64

In [25]:
result[result.isnull()] = data
result

A     0.0
B     6.0
C    10.0
D    12.0
E    13.0
F     NaN
dtype: float64

In [28]:
result[result.isnull()] = data2
result

A     0.0
B     6.0
C    10.0
D    12.0
E    13.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러 개의 Series로 구성됨
- 같은 column에 있는 value값은 같은 데이터 타입을 갖습니다.

In [29]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [32]:
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [34]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [31]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [35]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [36]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [37]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [38]:
df.index

Index(['one', 'two'], dtype='object')

In [39]:
df.columns

Index(['name', 'email'], dtype='object')

In [40]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [42]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [56]:
# row 선택 : loc
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"},
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [57]:
df.loc[1]["email"]

'fcamp@daum.net'

In [58]:
# index가 있으면 수정, 없으면 새로 데이터 추가
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [49]:
# column 선택

In [59]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [60]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [63]:
df["id"] = range(1, 4) # np.arange(1, 4)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [62]:
df.dtypes

name     object
email    object
id        int32
dtype: object

In [64]:
# row, column 선택

In [67]:
df.loc[[0, 2],["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [68]:
# column 데이터 순서 설정

In [69]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [70]:
# head, tail

In [72]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2


In [73]:
df.tail(1)

Unnamed: 0,name,email,id
2,andy,andy@naver.com,3


### 3. apply 함수
- map함수와 비슷함

In [74]:
# email column에서 메일의 도메인만 가져와서 새로운 도메인 column을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [76]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [78]:
df["domain"] = df["email"].apply(domain)

In [79]:
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [80]:
df["domain"] = df["email"].apply(lambda email : email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


### 4. append

In [81]:
from makedata import *

In [86]:
get_name()

'Billy'

In [85]:
get_age()

31

In [94]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df1

Unnamed: 0,Age,Name
0,32,Alvin
1,24,Anchal
2,35,Adam
3,22,Alex
4,26,Jin


In [96]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,35,Adam
3,22,Alex
4,26,Jin
0,31,Andrew
1,38,Billy


In [103]:
# reset_index 인덱스 재정렬
df3.reset_index(drop = True, inplace = True)
df3.tail(2)

Unnamed: 0,Age,Name
8,31,Alex
9,36,Andrew


In [104]:
df3 = df1.append(df2, ignore_index = True)
df3

Unnamed: 0,Age,Name
0,32,Alvin
1,24,Anchal
2,35,Adam
3,22,Alex
4,26,Jin
5,31,Andrew
6,38,Billy
7,36,Billy
8,31,Alex
9,36,Andrew


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [109]:
df3 = pd.concat([df1, df2]).reset_index(drop = True)
df3.tail(2)

Unnamed: 0,Age,Name
8,31,Alex
9,36,Andrew


In [111]:
pd.concat([df3, df1], axis = 1, join = "inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,32,Alvin,32,Alvin
1,24,Anchal,24,Anchal
2,35,Adam,35,Adam
3,22,Alex,22,Alex
4,26,Jin,26,Jin


### 6. group by
- 특정 column의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [112]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,28,Billy
1,32,Anthony
2,28,Anchal
3,34,Alex
4,31,Billy
5,32,Arnold
6,28,Alvin
7,30,Billy
8,27,Andrew
9,22,Anchal


In [116]:
# size
result_df = df.groupby("Name").size().reset_index(name = "count")
result_df

Unnamed: 0,Name,count
0,Alex,1
1,Alvin,1
2,Anchal,2
3,Andrew,1
4,Anthony,1
5,Arnold,1
6,Billy,3


In [None]:
# sort_values : 설정한 column으로 데이터 프레임을 정렬

In [121]:
result_df.sort_values(["count"], ascending = False, inplace = True)
result_df.reset_index(drop = True, inplace = True)
result_df

Unnamed: 0,Name,count
0,Billy,3
1,Anchal,2
2,Alex,1
3,Alvin,1
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [122]:
# agg()
# size(), min(), max(), mean()

In [124]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Alex,34
1,Alvin,28
2,Anchal,22
3,Andrew,27
4,Anthony,32
5,Arnold,32
6,Billy,28


In [126]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.2
std,3.392803
min,22.0
25%,28.0
50%,29.0
75%,31.75
max,34.0


### 7. Merge = sql(join)
- 두 개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법