### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas 비교
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python이 활용 분야가 더 많음
- 크게 두가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [3]:
# Series
data = pd.Series(np.random.randint(10, size=5))
data

0    0
1    5
2    8
3    5
4    3
dtype: int32

In [5]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), 
                index = list("ABCDE"))
data

A    3
B    7
C    2
D    4
E    3
dtype: int32

In [6]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([3, 7, 2, 4, 3]))

In [9]:
data["B"], data.B # index가 문자인 경우는 .B 가능

(7, 7)

In [10]:
data["C"] = 10
data

A     3
B     7
C    10
D     4
E     3
dtype: int32

In [12]:
# 브로드캐스팅
data*10
data

A     30
B     70
C    100
D     40
E     30
dtype: int32

In [13]:
data[["B","E"]]

B    7
E    3
dtype: int32

In [17]:
# offset index
data[2::2], data[::-1]

(C    10
 E     3
 dtype: int32,
 E     3
 D     4
 C    10
 B     7
 A     3
 dtype: int32)

In [19]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [21]:
result = data + data2
result # None : 같은 인덱스끼리 더해짐

A    NaN
B    NaN
C    NaN
D    7.0
E    8.0
F    NaN
dtype: float64

In [22]:
result.isnull()

A     True
B     True
C     True
D    False
E    False
F     True
dtype: bool

In [24]:
result[result.isnull()] = data # result.isnull() : True인 데이터만 뽑고 data와 같은 인덱스인 값 넣어줌
result

A     3.0
B     7.0
C    10.0
D     7.0
E     8.0
F     NaN
dtype: float64

In [27]:
result[result.isnull()] = data2 # F 인덱스값만 대입됨
result

A     3.0
B     7.0
C    10.0
D     7.0
E     8.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.

In [None]:
# 데이터 프레임 생성 1: 딕셔너리의 리스트

In [28]:
datas = {
    "name" : ["dss", "fcmp"],
    "email" : ["dss@gmail.com", "fcmp@daum.net"],
}
datas

{'name': ['dss', 'fcmp'], 'email': ['dss@gmail.com', 'fcmp@daum.net']}

In [29]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcmp,fcmp@daum.net


In [None]:
# 데이터 프레임 생성 2: 리스트의 딕셔너리

In [33]:
datas = [
    {"name":"dss","email":"dss.gmail.com"},
    {"name":"fcmp","email":"fcmp@gmail.com"},
]
datas

[{'name': 'dss', 'email': 'dss.gmail.com'},
 {'name': 'fcmp', 'email': 'fcmp@gmail.com'}]

In [35]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss.gmail.com
1,fcmp,fcmp@gmail.com


In [36]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index = ["one","two"])
df

Unnamed: 0,name,email
one,dss,dss.gmail.com
two,fcmp,fcmp@gmail.com


In [38]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['name', 'email'], dtype='object'),
 array([['dss', 'dss.gmail.com'],
        ['fcmp', 'fcmp@gmail.com']], dtype=object))

In [39]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [67]:
# row 선택
datas = [
    {"name":"dss","email":"dss@gmail.com"},
    {"name":"fcmp","email":"fcmp@gmail.com"},
]
df = pd.DataFrame(datas)
df.loc[1]["email"]

'fcmp@gmail.com'

In [68]:
# index가 있으면 데이터 수정, 없으면 데이터 추가
df.loc[2] = {"name":"andy","email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcmp,fcmp@gmail.com
2,andy,andy@naver.com


In [49]:
# column 선택
df["name"]

0     dss
1    fcmp
2    andy
Name: name, dtype: object

In [55]:
df["id"] = "" # 컬럼 추가
df["id"] = range(1,4) # 컬럼 치환
df
# df.dtypes : 데이터 타입

name     object
email    object
id        int32
dtype: object

In [56]:
# row, column 선택

In [57]:
df.loc[[0,2],["email","id"]]

Unnamed: 0,email,id
0,dss.gmail.com,1
2,andy@naver.com,3


In [58]:
# 컬럼 데이터 순서 설정

In [59]:
df[["id","name","email"]]

Unnamed: 0,id,name,email
0,1,dss,dss.gmail.com
1,2,fcmp,fcmp@gmail.com
2,3,andy,andy@naver.com


In [62]:
# head, tail : 가장 위/밑의 n개의 데이터만 뽑아옴
df.head(2), df.tail(2)

(   name           email  id
 0   dss   dss.gmail.com   1
 1  fcmp  fcmp@gmail.com   2,
    name           email  id
 1  fcmp  fcmp@gmail.com   2
 2  andy  andy@naver.com   3)

### 3. apply
- map 함수와 비슷한 역할

In [69]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼 생성
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcmp,fcmp@gmail.com
2,andy,andy@naver.com


In [70]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [73]:
df["domain"] = df["email"].apply(domain) # df["email"] : series 객체 
df

Unnamed: 0,name,email,domain
0,dss,dss@gmail.com,gmail
1,fcmp,fcmp@gmail.com,gmail
2,andy,andy@naver.com,naver


In [75]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,domain
0,dss,dss@gmail.com,gmail
1,fcmp,fcmp@gmail.com,gmail
2,andy,andy@naver.com,naver


In [2]:
from makedata import *

In [77]:
get_name()

'Jin'

In [78]:
get_age()

21

In [80]:
make_data()

[{'Age': 36, 'Name': 'Alvin'},
 {'Age': 27, 'Name': 'Arnold'},
 {'Age': 29, 'Name': 'Andrew'},
 {'Age': 25, 'Name': 'Adam'},
 {'Age': 30, 'Name': 'Arnold'},
 {'Age': 24, 'Name': 'Alan'},
 {'Age': 23, 'Name': 'Alvin'},
 {'Age': 38, 'Name': 'Andrew'},
 {'Age': 39, 'Name': 'Anchal'},
 {'Age': 21, 'Name': 'Anthony'}]

In [5]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,37,Alvin
1,39,Adam
2,27,Andrew
3,31,Anchal
4,35,Anthony


In [15]:
# append 데이터 프레임 합치기
df3 = df1.append(df2, ignore_index = True) # ignore_index=True : 재정렬 해줌
df3[2:7]

Unnamed: 0,Age,Name
2,30,Anchal
3,31,Jin
4,32,Alvin
5,37,Alvin
6,39,Adam


In [14]:
# reset_index : 인덱스 재정렬
df3.reset_index(drop=True) # drop=True : 원래 인덱스 삭제
df3.reset_index(drop=True, inplace=True) # inplace=True : 인덱스 데이터 입력


Unnamed: 0,Age,Name
0,32,Alan
1,20,Jin
2,30,Anchal
3,31,Jin
4,32,Alvin
5,37,Alvin
6,39,Adam
7,27,Andrew
8,31,Anchal
9,35,Anthony


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [27]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,31,Anchal
9,35,Anthony


In [22]:
pd.concat([df3,df1], axis=1, join="inner") # join=outer 합집합, inner: 교집합으로 합쳐짐

Unnamed: 0,Age,Name,Age.1,Name.1
0,32,Alan,32,Alan
1,20,Jin,20,Jin
2,30,Anchal,30,Anchal
3,31,Jin,31,Jin
4,32,Alvin,32,Alvin


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [28]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,37,Adam
1,29,Arnold
2,21,Anthony
3,37,Billy
4,29,Jin
5,36,Anthony
6,20,Anchal
7,38,Alex
8,39,Adam
9,20,Alvin


In [33]:
# group by : size
#df.groupby("Name").size() # 개수출력, 시리즈 타입
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,2
1,Alex,1
2,Alvin,1
3,Anchal,1
4,Anthony,2
5,Arnold,1
6,Billy,1
7,Jin,1


In [42]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
result_df.sort_values(["count"], ascending=False, inplace=True) # ascending : 오름차순, inplace : 변경된 데이터 저장
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Adam,2
1,Anthony,2
2,Alex,1
3,Alvin,1
4,Anchal,1
5,Arnold,1
6,Billy,1
7,Jin,1


In [43]:
# agg()
# size(), min(), max(), mean()는 결과가 시리즈이지만 agg()는 데이터 프레임

In [46]:
df.groupby("Name").agg("mean").reset_index()

Unnamed: 0,Name,Age
0,Adam,38.0
1,Alex,38.0
2,Alvin,20.0
3,Anchal,20.0
4,Anthony,28.5
5,Arnold,29.0
6,Billy,37.0
7,Jin,29.0


In [47]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,30.6
std,7.87683
min,20.0
25%,23.0
50%,32.5
75%,37.0
max,39.0


### 7. Merge = sql(join)
- 두 개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법