## Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽다.
    - R보다 Pandas가 성능이 좋다.
    - R보다 Python은 활용할 수 있는 분야가 많다.
- 크게 두가지 데이터 타입을 사용
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index와 column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖는다.

In [4]:
# Series - value만 설정하면 index는 자동으로 설정된다.
data = pd.Series(np.random.randint(10, size=5))
data

0    3
1    5
2    1
3    4
4    5
dtype: int32

In [5]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list("ABCDE"))
data

A    1
B    0
C    2
D    5
E    6
dtype: int32

In [8]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([1, 0, 2, 5, 6]))

In [11]:
data["B"], data.B # index가 숫자가 아닌경우에는 두번째 방식으로도 볼수있다.

(0, 0)

In [13]:
data["C"] = 10
data

A     1
B     0
C    10
D     5
E     6
dtype: int32

In [16]:
# 브로드 캐스팅
data * 10

A     10
B      0
C    100
D     50
E     60
dtype: int32

In [20]:
data[["B", "E"]]

B    0
E    6
dtype: int32

In [24]:
# offset index
data[2::2]

C    10
E     6
dtype: int32

In [25]:
data[::-1]

E     6
D     5
C    10
B     0
A     1
dtype: int32

### Series 연산

In [31]:
data

A     1
B     0
C    10
D     5
E     6
dtype: int32

In [32]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [33]:
result = data + data2 # 같은 인덱스끼리 연산이 된다.
result

A     NaN
B     NaN
C     NaN
D     8.0
E    11.0
F     NaN
dtype: float64

In [36]:
# NaN이 아니고 더할값이 없으면 그냥 값이 들어가게 작성
result[result.isnull()] = data # isnull() : null인 데이터만 True
result

A     1.0
B     0.0
C    10.0
D     8.0
E    11.0
F     NaN
dtype: float64

In [38]:
result[result.isnull()] = data2
result

A     1.0
B     0.0
C    10.0
D     8.0
E    11.0
F     7.0
dtype: float64

## 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖는다.

### DataFrame 생성 1
- 딕셔너리의 리스트
- column으로 들어간다.

In [39]:
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [40]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


### DataFrame 생성 2
- 리스트의 딕셔너리
- row로 들어간다.

In [41]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"}
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [42]:
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp


In [44]:
# index를 추가하는 방법
df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,email,name
one,dss@gmail.com,dss
two,fcamp@daum.net,fcamp


In [45]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['email', 'name'], dtype='object'),
 array([['dss@gmail.com', 'dss'],
        ['fcamp@daum.net', 'fcamp']], dtype=object))

In [46]:
# DataFrame에서 데이터의 선택 : row, column, (row, column)

In [49]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"}
]
datas

df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp


In [54]:
# row 선택 방법
# loc
df.loc[1]["email"]

'fcamp@daum.net'

In [57]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp
2,andy@naver.com,andy


In [62]:
# column 선택 방법
df["name"][1]

'fcamp'

In [64]:
df["id"] = ""
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,
1,fcamp@daum.net,fcamp,
2,andy@naver.com,andy,


In [66]:
df["id"] = np.arange(1, 4) # range(1, 4)도 가능
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


In [67]:
df.dtypes

email    object
name     object
id        int32
dtype: object

In [71]:
# (row, column) 선택 방법
df.loc[[0, 2], ["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [74]:
# 컬럼 데이터 순서 설정
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [75]:
# head, tail

In [87]:
df.head(2)

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2


In [88]:
df.tail(2)

Unnamed: 0,email,name,id
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


### 3. apply 함수
- map함수와 비슷

In [90]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain컬럼을 생성
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


In [91]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [94]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcamp@daum.net,fcamp,2,daum
2,andy@naver.com,andy,3,naver


In [95]:
from makedata import *

In [96]:
get_name()

'Jin'

In [102]:
get_age()

23

In [149]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,40,Andrew
1,21,Anthony
2,25,Andrew
3,40,Alvin
4,20,Billy


### 4. append

In [152]:
# 데이터 프레임끼리 합치기
# append 사용
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,20,Andrew
3,24,Jin
4,30,Alan
0,40,Andrew
1,21,Anthony


In [162]:
# index를 재정렬
# reset_index : 인덱스 재정렬
df3.reset_index(drop=True, inplace=True) # inplace : reset_index를 실행후 저장까지 해준다.
df3.tail(2)

Unnamed: 0,Age,Name
8,40,Alvin
9,20,Billy


In [163]:
# ignore_index : True로 해주면 인덱스가 재정렬이 된다.
df3 = df1.append(df2, ignore_index=True)
df3

Unnamed: 0,Age,Name
0,33,Alvin
1,24,Anthony
2,20,Andrew
3,24,Jin
4,30,Alan
5,40,Andrew
6,21,Anthony
7,25,Andrew
8,40,Alvin
9,20,Billy


### 5. concat
- row나 column으로 데이터 프레임을 합칠때 사용

In [168]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,40,Alvin
9,20,Billy


In [171]:
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,33,Alvin,33.0,Alvin
1,24,Anthony,24.0,Anthony
2,20,Andrew,20.0,Andrew
3,24,Jin,24.0,Jin
4,30,Alan,30.0,Alan
5,40,Andrew,,
6,21,Anthony,,
7,25,Andrew,,
8,40,Alvin,,
9,20,Billy,,


In [172]:
pd.concat([df3, df1], axis=1, join="inner") # inner:교집합, outer:합집합느낌으로 생각하면된다.

Unnamed: 0,Age,Name,Age.1,Name.1
0,33,Alvin,33,Alvin
1,24,Anthony,24,Anthony
2,20,Andrew,20,Andrew
3,24,Jin,24,Jin
4,30,Alan,30,Alan


### 6. groupby
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터프레임을 만드는 방법

In [173]:
df = pd.DataFrame(make_data(10))
df

Unnamed: 0,Age,Name
0,20,Anchal
1,20,Adam
2,28,Andrew
3,20,Anthony
4,40,Billy
5,31,Anthony
6,26,Arnold
7,21,Arnold
8,31,Jin
9,38,Andrew


In [191]:
# size 사용
# Series를 DataFrame으로 만드는 방법 : reset_index를 사용
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Anchal,1
2,Andrew,2
3,Anthony,2
4,Arnold,2
5,Billy,1
6,Jin,1


In [196]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
result_df.sort_values(["count", "Name"], ascending=False, inplace=True) # count가 같으면 2차적으로 Name으로 정렬한다.
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Arnold,2
1,Anthony,2
2,Andrew,2
3,Jin,1
4,Billy,1
5,Anchal,1
6,Adam,1


In [None]:
# agg() : 결과가 데이터 프레임으로 나온다
# size(), min(), max(), mean()

In [199]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,20
1,Anchal,20
2,Andrew,28
3,Anthony,20
4,Arnold,21
5,Billy,40
6,Jin,31


In [200]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,27.5
std,7.487026
min,20.0
25%,20.25
50%,27.0
75%,31.0
max,40.0


### 7. Merge
- 두개이상의 데이터프레임을 합쳐서 결과를 출력하는 방법