### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python은 활용할수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [0]:
import numpy as np
import pandas as pd

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [0]:
# Series : value 만 설정하면 index는 0부터 자동으로 설정 됩니다.
data = pd.Series(np.random.randint(10, size=5))
data

0    5
1    5
2    3
3    0
4    3
dtype: int64

In [0]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), #'data'는 series로 생성된 객체
                index=list("ABCDE"))
data

A    3
B    7
C    3
D    3
E    6
dtype: int64

In [0]:
data.index, data.values #values에 ndarray형태의 데이터가 저장되어 있음

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([3, 7, 3, 3, 6]))

In [0]:
data["B"], data.B

(7, 7)

In [0]:
data["C"] = 10
data

A     3
B     7
C    10
D     3
E     6
dtype: int64

In [0]:
# 브로드 캐스팅
data * 10

A     30
B     70
C    100
D     30
E     60
dtype: int64

In [0]:
data[["B","E"]]

B    7
E    6
dtype: int64

In [0]:
# offset index
data[2::2] # 2번째부터 끝까지, 2칸씩 점프

C    10
E     6
dtype: int64

In [0]:
data[::-1] #역순으로 출력

E     6
D     3
C    10
B     7
A     3
dtype: int64

Series 연산

In [0]:
data

A     3
B     7
C    10
D     3
E     6
dtype: int64

In [0]:
data2 = pd.Series({"D":3, "E":5, "F":7}) # dictionary로도 생성 가능
data2

D    3
E    5
F    7
dtype: int64

In [0]:
# 같은 index끼리 연산이 됨
result = data + data2
result # NaN : 숫자 데이터에서의 None

A     NaN
B     NaN
C     NaN
D     6.0
E    11.0
F     NaN
dtype: float64

In [0]:
result[result.isnull()] = data #isnull(): NaN인 데이터만 True
result

A     3.0
B     7.0
C    10.0
D     6.0
E    11.0
F     NaN
dtype: float64

In [0]:
result[result.isnull()] = data2
result

A     3.0
B     7.0
C    10.0
D     6.0
E    11.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.

In [0]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트 (열로 생성됨)

In [0]:
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [0]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [0]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리 (행으로 생성됨)

In [0]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [0]:
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp


In [0]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,email,name
one,dss@gmail.com,dss
two,fcamp@daum.net,fcamp


In [0]:
df.index

Index(['one', 'two'], dtype='object')

In [0]:
df.columns

Index(['email', 'name'], dtype='object')

In [0]:
df.values

array([['dss@gmail.com', 'dss'],
       ['fcamp@daum.net', 'fcamp']], dtype=object)

In [0]:
# 데이터 프레임에서 데이터의 선택 : row, colunm, (row,column)

In [0]:
# row 선택 : loc
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp


In [0]:
df.loc[1]["email"]

'fcamp@daum.net'

In [0]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp
2,andy@naver.com,andy


In [0]:
# column 선택

In [0]:
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcamp@daum.net,fcamp
2,andy@naver.com,andy


In [0]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [0]:
df["id"] = ""
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,
1,fcamp@daum.net,fcamp,
2,andy@naver.com,andy,


In [0]:
df["id"] = range(1, 4) # np.arange(1, 4)
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


In [0]:
df.dtypes

email    object
name     object
id        int64
dtype: object

In [0]:
# row, column 선택

In [0]:
df.loc[[0, 2], ["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [0]:
# 컬럼 데이터 순서 설정

In [0]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [0]:
# head, tail

In [0]:
df.head(2)

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2


In [0]:
df.tail(2)

Unnamed: 0,email,name,id
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


### 3. apply 함수
- map 함수와 비슷

In [0]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcamp@daum.net,fcamp,2
2,andy@naver.com,andy,3


In [0]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [0]:
df["domain"] = df["email"].apply(domain) # series 객체(df["email"]) 안에 apply 함수가 있는 것
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcamp@daum.net,fcamp,2,daum
2,andy@naver.com,andy,3,naver


In [0]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0]) # 함수 선언 없이 하는 방법
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcamp@daum.net,fcamp,2,daum
2,andy@naver.com,andy,3,naver


In [0]:
from makedata import *

In [0]:
get_name()

'Alan'

In [0]:
get_age()

20

In [0]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,21,Andrew
1,21,Alex
2,34,Billy
3,28,Alan
4,27,Alvin


### 4. append
- 데이터를 추가해서 넣을 때 주로 사용

In [0]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,33,Jin
3,35,Alex
4,38,Billy
0,21,Andrew
1,21,Alex


In [0]:
# reset_index 인덱스 재정렬
df3.reset_index(drop=True, inplace=True) # drop : 자동으로 생성된 index 없애기, inplace : df 객체 안에 있는 데이터를 바꿔 저장 
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,27,Alvin


In [0]:
df3 = df1.append(df2, ignore_index=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,27,Alvin


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [0]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,27,Alvin


In [0]:
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,32,Alex,32.0,Alex
1,39,Anchal,39.0,Anchal
2,33,Jin,33.0,Jin
3,35,Alex,35.0,Alex
4,38,Billy,38.0,Billy
5,21,Andrew,,
6,21,Alex,,
7,34,Billy,,
8,28,Alan,,
9,27,Alvin,,


In [0]:
pd.concat([df3, df1], axis=1, join="inner") # 교집합으로 데이터 합치기

Unnamed: 0,Age,Name,Age.1,Name.1
0,32,Alex,32,Alex
1,39,Anchal,39,Anchal
2,33,Jin,33,Jin
3,35,Alex,35,Alex
4,38,Billy,38,Billy


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [0]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,24,Anthony
1,36,Anthony
2,40,Billy
3,25,Anthony
4,34,Alan
5,23,Alvin
6,26,Arnold
7,31,Billy
8,33,Alvin
9,40,Anthony


In [0]:
# size
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Alan,1
1,Alvin,2
2,Anthony,4
3,Arnold,1
4,Billy,2


In [0]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [0]:
result_df.sort_values(["count", "Name"], ascending=False, inplace=True) # ascending : 오름차순(True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Anthony,4
1,Alvin,2
2,Billy,2
3,Alan,1
4,Arnold,1


In [0]:
# agg() 
# size(), min(), max(), mean()

In [0]:
df.groupby("Name").agg("mean").reset_index() # reset_index : Name열이 column으로 들어감

Unnamed: 0,Name,Age
0,Alan,34.0
1,Alvin,28.0
2,Anthony,31.25
3,Arnold,26.0
4,Billy,35.5


In [0]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,31.2
std,6.442912
min,23.0
25%,25.25
50%,32.0
75%,35.5
max,40.0


### 7. Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법