### pandas 
- 데이터 분석을 위한 사용이 쉽고, 성능이 좋은 오픈 소스 python 라이브러리
- R과 Pandas 의 특징
    - R 보다 pandas가 학습이 쉽다.
    - R 보다 pandas가 성능이 좋다.
    - R 보다 Python은 활용 할 수 있는 분야가 많다.
- 크게 두가지 데이터 타입을 사용한다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖는다.

In [1]:
# Series : Value만 설정하면 index는 0부터 자동으로 설정된다.
data = pd.Series(np.random.randint(10, size=5))
data

0    8
1    2
2    9
3    2
4    4
dtype: int32

In [2]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), index=list("ABCDE"))
data

A    6
B    5
C    1
D    3
E    7
dtype: int32

In [3]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([6, 5, 1, 3, 7]))

In [4]:
data["B"],  data.B  # 인덱스가 숫자가 아닌경우 data."" 로 출력가능

(5, 5)

In [5]:
data["C"] = 10
data

A     6
B     5
C    10
D     3
E     7
dtype: int32

In [6]:
# 브로드 캐스팅
data * 10

A     60
B     50
C    100
D     30
E     70
dtype: int32

In [7]:
data[["B", "E"]]

B    5
E    7
dtype: int32

In [8]:
# offset index
data[2:], data[2::2], data[::-1]

(C    10
 D     3
 E     7
 dtype: int32,
 C    10
 E     7
 dtype: int32,
 E     7
 D     3
 C    10
 B     5
 A     6
 dtype: int32)

### Series 연산

In [9]:
data

A     6
B     5
C    10
D     3
E     7
dtype: int32

In [10]:
data2 = pd.Series({"D": 3, "E": 5, "F": 7})
data2

D    3
E    5
F    7
dtype: int64

In [11]:
result = data + data2  # 같은 인덱스끼리만 연산이 된다.
result

A     NaN
B     NaN
C     NaN
D     6.0
E    12.0
F     NaN
dtype: float64

In [12]:
result[result.isnull()] = data
result

A     6.0
B     5.0
C    10.0
D     6.0
E    12.0
F     NaN
dtype: float64

In [13]:
result[result.isnull()] = data2
result

A     6.0
B     5.0
C    10.0
D     6.0
E    12.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖는다

In [14]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [15]:
# 칼럼형식으로 데이터가 추가됨.
datas = {
    "name": ["dss", "fcamp"],
    "email": ["dss@gmail.com", "fcamp@daum.com"]
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.com']}

In [16]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [17]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [18]:
# row 로 데이터가 추가됨
datas = [
    {"name": "dss", "email": "dss@gmail.com"},
    {"name": "fcamp", "email": "fcamp@daum.com"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.com'}]

In [19]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [20]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one","two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.com


In [21]:
df.index

Index(['one', 'two'], dtype='object')

In [22]:
df.columns

Index(['name', 'email'], dtype='object')

In [23]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.com']], dtype=object)

In [24]:
#df.index = ["one", "two"]
df.index = [1, 2]

df

Unnamed: 0,name,email
1,dss,dss@gmail.com
2,fcamp,fcamp@daum.com


In [25]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [26]:
# row 선택 : loc
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [27]:
df.loc[1]["email"]

'fcamp@daum.com'

In [28]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name" : "andy", "email" : "andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com
2,andy,andy@naver.com


In [29]:
# column 선택

In [30]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [31]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.com,
2,andy,andy@naver.com,


In [32]:
df["id"] = range(1,4) # = np.arange(1, 4)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.com,2
2,andy,andy@naver.com,3


In [33]:
df.dtypes

name     object
email    object
id        int32
dtype: object

In [34]:
# row , column 선택

# DataFrame.loc[row, column]
# offset index 사용가능
# 콤마로 필요한 데이터만 추출 가능

In [35]:
df.loc[[0,2],["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [36]:
# 컬럼 데이터 순서 설정

In [37]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.com,2
2,andy,andy@naver.com,3


In [38]:
df[["id", "name", "email"]] # 칼럼 순서변경

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.com
2,3,andy,andy@naver.com


In [39]:
# head , tail / default 값은 5

In [40]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.com,2


In [41]:
df.tail(2)

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.com,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷한 역할

In [42]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 칼럼만 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.com,2
2,andy,andy@naver.com,3


In [43]:
def domain(email) :
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [44]:
df["domain"] = df["email"].apply(domain) #df["email"] => series 데이터 타입
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.com,2,daum
2,andy,andy@naver.com,3,naver


In [45]:
df["domain2"] = df["email"].apply(lambda email : email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain,domain2
0,dss,dss@gmail.com,1,gmail,gmail
1,fcamp,fcamp@daum.com,2,daum,daum
2,andy,andy@naver.com,3,naver,naver


In [46]:
from makedata import *

In [47]:
get_name()

'Billy'

In [48]:
get_age()

24

In [49]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2


Unnamed: 0,Age,Name
0,29,Billy
1,29,Jin
2,29,Alvin
3,36,Alex
4,34,Alvin


### 4. append

In [50]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,29,Andrew
3,34,Anchal
4,28,Arnold
0,29,Billy
1,29,Jin


In [51]:
# 자동인덱스 
df4 = df1.append(df2, ignore_index=True)
df4

Unnamed: 0,Age,Name
0,30,Billy
1,40,Anthony
2,29,Andrew
3,34,Anchal
4,28,Arnold
5,29,Billy
6,29,Jin
7,29,Alvin
8,36,Alex
9,34,Alvin


In [52]:
# 인덱스 재정렬 함수 reset_index
df3.reset_index(drop=True, inplace=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,36,Alex
9,34,Alvin


### 5. concat
- row나 column 으로 데이터 프레임을 합칠때 사용

In [53]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,30,Billy
1,40,Anthony
2,29,Andrew
3,34,Anchal
4,28,Arnold
5,29,Billy
6,29,Jin
7,29,Alvin
8,36,Alex
9,34,Alvin


In [54]:
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,30,Billy,30.0,Billy
1,40,Anthony,40.0,Anthony
2,29,Andrew,29.0,Andrew
3,34,Anchal,34.0,Anchal
4,28,Arnold,28.0,Arnold
5,29,Billy,,
6,29,Jin,,
7,29,Alvin,,
8,36,Alex,,
9,34,Alvin,,


In [55]:
pd.concat([df3, df1], axis=1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,30,Billy,30,Billy
1,40,Anthony,40,Anthony
2,29,Andrew,29,Andrew
3,34,Anchal,34,Anchal
4,28,Arnold,28,Arnold


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [56]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,40,Alvin
1,33,Anthony
2,32,Alex
3,20,Anchal
4,37,Anchal
5,36,Alvin
6,25,Jin
7,28,Adam
8,21,Anchal
9,30,Alan


In [65]:
# size
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alex,1
3,Alvin,2
4,Anchal,3
5,Anthony,1
6,Jin,1


In [58]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [59]:
result_df.sort_values(["count", "Name"], ascending=False, inplace=True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Anchal,3
1,Alvin,2
2,Jin,1
3,Anthony,1
4,Alex,1
5,Alan,1
6,Adam,1


In [60]:
# agg()
# size(), min(), max(), mean()

In [61]:
df.groupby("Name").agg("mean").reset_index()

Unnamed: 0,Name,Age
0,Adam,28
1,Alan,30
2,Alex,32
3,Alvin,38
4,Anchal,26
5,Anthony,33
6,Jin,25


In [62]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,30.2
std,6.729702
min,20.0
25%,25.75
50%,31.0
75%,35.25
max,40.0


### 7. Merge = slq(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법