### pandas
- 데이터 분석을 위한 상용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 pandas의 특징
    - R보다 pandas가 학습이 쉬움
    - R보다 pandas가 성능이 좋음
    - R보다 Python이 활용분야가 넓음
- 데이터 타입은 크게 두가지 사용
    - Series : index, value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [44]:
import numpy as np
import pandas as pd

# series
# 동일한 데이터 타입을 갖는다
data = pd.Series(np.random.randint(10, size = 5))
data


0    1
1    3
2    8
3    8
4    5
dtype: int32

In [9]:
#index 설정
data = pd.Series(np.random.randint(10, size = 5),
                index=list("ABCDE") 
                )
data


A    8
B    8
C    0
D    1
E    4
dtype: int32

In [10]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([8, 8, 0, 1, 4]))

In [11]:
data["B"]

8

In [13]:
#index 가 int 가 아니면 . 으로 호출가능
data.B

8

In [15]:
data["C"] = 10
data

A     8
B     8
C    10
D     1
E     4
dtype: int32

In [16]:
#브로드캐스팅 가능
data * 10

A     80
B     80
C    100
D     10
E     40
dtype: int32

In [21]:
data[["B","E"]]

B    8
E    4
dtype: int32

In [24]:
# offset index
data[2:], data[2::2]


(C    10
 D     1
 E     4
 dtype: int32,
 C    10
 E     4
 dtype: int32)

In [28]:
# Series 연산
data1 = data
data2 = pd.Series({"D" : 3, "E" : 5, "F" : 7 })

In [29]:
result = data1 + data2

In [34]:
result[result.isnull()] = data
result[result.isnull()] = data2

In [35]:
result

A     8.0
B     8.0
C    10.0
D     4.0
E     9.0
F     7.0
dtype: float64

### 2. Data Frame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value는 같은 데이터 타입


In [37]:
# 데이터 프레임 생성
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"]
}

In [38]:
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [39]:
df = pd.DataFrame(datas)

In [40]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [43]:
datas2 = [
    {"name" : "dss", "email":"dss@gmail.com"},
    {"name" : "fcamp", "email":"fcamp@daum.net"}
]

In [44]:
df2 = pd.DataFrame(datas2)

In [45]:
df2

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [46]:
df3 = pd.DataFrame(datas2, index = ("one", "two"))

In [47]:
df3

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [48]:
df3.index, df3.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['name', 'email'], dtype='object'),
 array([['dss', 'dss@gmail.com'],
        ['fcamp', 'fcamp@daum.net']], dtype=object))

### 데이터 프레임에서 데이터의 선택
- row, column, (row, column)

In [52]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [53]:
# row 선택
df.loc[1]

name              fcamp
email    fcamp@daum.net
Name: 1, dtype: object

In [56]:
df.loc[2] = {"name" : "andy", "email":"andy@naver.com"}
# loc[]안의 인덱스가 기존에 있으면 수정, 없으면 신규추가

In [55]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [58]:
# column 선택
df["name"].id

AttributeError: 'Series' object has no attribute 'id'

In [61]:
df["id"] = ""

In [62]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [63]:
df["id"] = range(1, 4) #np.arrange(1,4)

In [64]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [65]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [72]:
# (row,column) 선택
df.loc[[0, 2], ["email", "id"]], df.loc[[0], ["email"]]

(            email  id
 0   dss@gmail.com   1
 2  andy@naver.com   3,
            email
 0  dss@gmail.com)

In [73]:
df[["id", "email"]]

Unnamed: 0,id,email
0,1,dss@gmail.com
1,2,fcamp@daum.net
2,3,andy@naver.com


In [74]:
# head, tail

In [79]:
df.head(2) # 디폴트는 5

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2


In [80]:
df.tail(2)

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


### 3. apply
- numpy의 map 함수와 비슷

In [81]:
# email 칼럼에서 메일의 도메인만 가져와서 새로운 domain 칼럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [82]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [86]:
df["domain"] = df["email"].apply(domain)

In [87]:
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [91]:
df["m-company"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[1])

In [92]:
df

Unnamed: 0,name,email,id,domain,m-company
0,dss,dss@gmail.com,1,gmail,com
1,fcamp,fcamp@daum.net,2,daum,net
2,andy,andy@naver.com,3,naver,com


In [2]:
from makedata import *

In [8]:
get_name()

'Arnold'

In [11]:
get_age()

23

In [20]:
make_data()

[{'Age': 39, 'Name': 'Alex'},
 {'Age': 22, 'Name': 'Arnold'},
 {'Age': 35, 'Name': 'Adam'},
 {'Age': 25, 'Name': 'Billy'},
 {'Age': 21, 'Name': 'Jin'},
 {'Age': 20, 'Name': 'Anthony'},
 {'Age': 32, 'Name': 'Anthony'},
 {'Age': 26, 'Name': 'Anthony'},
 {'Age': 22, 'Name': 'Andrew'},
 {'Age': 28, 'Name': 'Adam'}]

In [45]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))



In [49]:
df1

Unnamed: 0,Age,Name
0,27,Jin
1,40,Billy
2,27,Alan
3,38,Billy
4,37,Billy


In [50]:
df2

Unnamed: 0,Age,Name
0,29,Jin
1,28,Anchal
2,32,Andrew
3,35,Alan
4,38,Jin


In [47]:
df3 = df1.append(df2)

In [48]:
df3[2:7]

Unnamed: 0,Age,Name
2,27,Alan
3,38,Billy
4,37,Billy
0,29,Jin
1,28,Anchal


In [54]:
#인덱스 재정렬 reset_index 인덱스 재정렬
df3.reset_index(drop = True, inplace=True)


In [60]:
df3[2:7].reset_index()


Unnamed: 0,index,Age,Name
0,2,27,Alan
1,3,38,Billy
2,4,37,Billy
3,5,29,Jin
4,6,28,Anchal


In [61]:
df3[2:7].reset_index(drop = True)


Unnamed: 0,Age,Name
0,27,Alan
1,38,Billy
2,37,Billy
3,29,Jin
4,28,Anchal


In [56]:
df3

Unnamed: 0,Age,Name
0,27,Jin
1,40,Billy
2,27,Alan
3,38,Billy
4,37,Billy
5,29,Jin
6,28,Anchal
7,32,Andrew
8,35,Alan
9,38,Jin


### 5. concat
- row나 column으로 데이터 프레임을 합칠때 사용


In [64]:
df3 = pd.concat((df1, df2)).reset_index(drop = True)
df3

Unnamed: 0,Age,Name
0,27,Jin
1,40,Billy
2,27,Alan
3,38,Billy
4,37,Billy
5,29,Jin
6,28,Anchal
7,32,Andrew
8,35,Alan
9,38,Jin


In [65]:
pd.concat([df3, df1], axis = 1) ##default 가 join = outer

Unnamed: 0,Age,Name,Age.1,Name.1
0,27,Jin,27.0,Jin
1,40,Billy,40.0,Billy
2,27,Alan,27.0,Alan
3,38,Billy,38.0,Billy
4,37,Billy,37.0,Billy
5,29,Jin,,
6,28,Anchal,,
7,32,Andrew,,
8,35,Alan,,
9,38,Jin,,


In [67]:
pd.concat([df3, df1], axis = 1, join = "inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,27,Jin,27,Jin
1,40,Billy,40,Billy
2,27,Alan,27,Alan
3,38,Billy,38,Billy
4,37,Billy,37,Billy


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [70]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,33,Alex
1,37,Anthony
2,25,Alan
3,36,Anthony
4,26,Adam
5,39,Billy
6,32,Andrew
7,23,Alex
8,29,Jin
9,38,Jin


In [81]:
# size|
df4 = pd.DataFrame(df.groupby("Name").size().reset_index(name = "count"))
df4

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alex,2
3,Andrew,1
4,Anthony,2
5,Billy,1
6,Jin,2


In [95]:
# sort
df4.sort_values(["count", "Name"], ascending=False, inplace=True) # asc, des 둘다쓰려면 두번 정렬해야함
df4.reset_index(drop = True, inplace=True)
df4

Unnamed: 0,Name,count
0,Jin,2
1,Anthony,2
2,Alex,2
3,Billy,1
4,Andrew,1
5,Alan,1
6,Adam,1


In [103]:
# agg()
# size(), min(), max(), mean()
df2.groupby("Name").agg("min").reset_index() ## 여기서 drop = True를 하면 Name컬럼이 사라진다

Unnamed: 0,Name,Age
0,Alan,35
1,Anchal,28
2,Andrew,32
3,Jin,29


In [105]:
# 데이터를 요약해서 보여주는 함수
df2.describe()

Unnamed: 0,Age
count,5.0
mean,32.4
std,4.159327
min,28.0
25%,29.0
50%,32.0
75%,35.0
max,38.0


### 6. merge
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법

In [None]:
# merge
