### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 학습이 쉽다.
    - R보다 성능이 좋다.
    - R보다 Python이 활용 분야가 많다.
- 크게 두 가지 데이터 타입을 사용한다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖는다

In [2]:
# Series : value만 설정하면 index는 0부터 자동으로 설정된다.
data = pd.Series(np.random.randint(10, size = 5))
data

0    8
1    4
2    8
3    4
4    2
dtype: int32

In [30]:
# index 설정
data = pd.Series(np.random.randint(10, size = 5),
                index=list("ABCDE"))

data

A    6
B    8
C    0
D    6
E    8
dtype: int32

In [31]:
data.index, data.values
# data라는 객체의 values 함수 안에 np ndarray 타입의 데이터가 저장되어 있음

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([6, 8, 0, 6, 8]))

In [32]:
data["B"], data.B

(8, 8)

In [33]:
data.C = 10
data.C

10

In [34]:
# 브로드캐스팅
data * 10

A     60
B     80
C    100
D     60
E     80
dtype: int32

In [35]:
data[["B", "E"]]

B    8
E    8
dtype: int32

In [36]:
# offset index 
data[2::2]

C    10
E     8
dtype: int32

In [37]:
data[::-1]

E     8
D     6
C    10
B     8
A     6
dtype: int32

In [38]:
data

A     6
B     8
C    10
D     6
E     8
dtype: int32

### series 연산

In [29]:
data2 = pd.Series({"D":3, "E": 5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [39]:
result = data + data2
result # 같은 인덱스끼리 연산됨

A     NaN
B     NaN
C     NaN
D     9.0
E    13.0
F     NaN
dtype: float64

In [43]:
result[result.isnull()] = data # True인 데이터만 뽑음(마스킹)
result

A     6.0
B     8.0
C    10.0
D     9.0
E    13.0
F     NaN
dtype: float64

In [46]:
result[result.isnull()] = data2
result

A     6.0
B     8.0
C    10.0
D     9.0
E    13.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 칼럼에 있는 value 값은 같은 데이터 타입을 갖는다.

In [48]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트(column으로 정렬)

In [49]:
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [50]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [None]:
# 데이트 프레임 생성 2 : 리스트의 딕셔너리(row로 정렬)

In [58]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [59]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [61]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [75]:
df.columns = ["이름", "이메일"]

In [73]:
df.index=["three", "four"]

In [83]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [80]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [84]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [86]:
# row 선택 loc[]

datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"},
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [89]:
df.loc[1]["email"]

'fcamp@daum.net'

In [90]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [91]:
# column 선택

In [92]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [94]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [95]:
df["id"] = range(1, 4) # range (1, 4)는 lsit고 np.arange(1, 4)는 ndarray
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [96]:
df.dtypes
# 객체는 모든 변수의 상위 형태임, 문자열이라고 생각하셈

name     object
email    object
id        int32
dtype: object

In [97]:
# row, column 선택

In [98]:
df.loc[[0, 2], ["email", "id"]] # row index가 0, 2인 데이터 선택, column에서 선택

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [99]:
# 컬럼 데이터 순서 설정

In [101]:
df[["id", "name", "email"]]
# 컬럼을 리스트로 순서대로 쓰면 순서 지정됨

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [106]:
df.loc[[2], ["name", "email"]] = {"송지민", "thdwlals41@naver.com"}

In [107]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,송지민,thdwlals41@naver.com,3


In [108]:
# head, tail

In [109]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,송지민,thdwlals41@naver.com,3


In [111]:
df.tail(2) # 총 데이터 양이 몇 개인지 알 수 있음

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.net,2
2,송지민,thdwlals41@naver.com,3


### 3. apply 함수
- map 함수와 비슷

In [112]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,송지민,thdwlals41@naver.com,3


In [113]:
# 함수를 하나 만들어 준다.
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [115]:
df ["domain"]=df["email"].apply(domain)

In [116]:
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,송지민,thdwlals41@naver.com,3,naver


In [118]:
df["domain"] = df["email"].apply(lambda email : email.split("@")[1].split(".")[0])
# 아까 email object라고 했던 거 생각해보면 이해 됨
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,송지민,thdwlals41@naver.com,3,naver


In [119]:
from makedata import *

In [120]:
get_name()

'Anchal'

In [121]:
get_age()

21

In [122]:
make_data()

[{'Age': 27, 'Name': 'Alan'},
 {'Age': 34, 'Name': 'Anthony'},
 {'Age': 30, 'Name': 'Alvin'},
 {'Age': 28, 'Name': 'Anthony'},
 {'Age': 40, 'Name': 'Jin'},
 {'Age': 40, 'Name': 'Anthony'},
 {'Age': 32, 'Name': 'Alvin'},
 {'Age': 30, 'Name': 'Andrew'},
 {'Age': 39, 'Name': 'Alvin'},
 {'Age': 36, 'Name': 'Jin'}]

### 4. append

In [127]:
# append 데이터 프레임 합치기
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df3 = df1.append(df2)

In [129]:
df3[2:7]

Unnamed: 0,Age,Name
2,36,Alan
3,24,Jin
4,32,Alex
0,29,Adam
1,23,Adam


In [131]:
# reset_index 인덱스 재정렬
df3.reset_index()

Unnamed: 0,index,Age,Name
0,0,23,Anchal
1,1,34,Anchal
2,2,36,Alan
3,3,24,Jin
4,4,32,Alex
5,0,29,Adam
6,1,23,Adam
7,2,40,Anthony
8,3,27,Jin
9,4,22,Anchal


In [132]:
df3.reset_index(drop=True)

Unnamed: 0,Age,Name
0,23,Anchal
1,34,Anchal
2,36,Alan
3,24,Jin
4,32,Alex
5,29,Adam
6,23,Adam
7,40,Anthony
8,27,Jin
9,22,Anchal


In [133]:
df3 # 바뀌지 않음

Unnamed: 0,Age,Name
0,23,Anchal
1,34,Anchal
2,36,Alan
3,24,Jin
4,32,Alex
0,29,Adam
1,23,Adam
2,40,Anthony
3,27,Jin
4,22,Anchal


In [137]:
df3.reset_index(drop=True, inplace=True) # 바꾼 것을 df3 객체에 저장
df3.tail(3)

Unnamed: 0,Age,Name
7,40,Anthony
8,27,Jin
9,22,Anchal


In [138]:
df3 = df1.append(df2, ignore_index=True) # 추가할 때 인덱스 자동으로 줄 수도 있음
df3

Unnamed: 0,Age,Name
0,23,Anchal
1,34,Anchal
2,36,Alan
3,24,Jin
4,32,Alex
5,29,Adam
6,23,Adam
7,40,Anthony
8,27,Jin
9,22,Anchal


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [141]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,27,Jin
9,22,Anchal


In [142]:
pd.concat([df3, df1], axis=1)
# join = outer 합집합
# join = inner 교집합

Unnamed: 0,Age,Name,Age.1,Name.1
0,23,Anchal,23.0,Anchal
1,34,Anchal,34.0,Anchal
2,36,Alan,36.0,Alan
3,24,Jin,24.0,Jin
4,32,Alex,32.0,Alex
5,29,Adam,,
6,23,Adam,,
7,40,Anthony,,
8,27,Jin,,
9,22,Anchal,,


In [143]:
pd.concat([df3, df1], axis=1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,23,Anchal,23,Anchal
1,34,Anchal,34,Anchal
2,36,Alan,36,Alan
3,24,Jin,24,Jin
4,32,Alex,32,Alex


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [144]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,34,Alvin
1,37,Anchal
2,20,Andrew
3,27,Billy
4,40,Billy
5,21,Anthony
6,38,Alex
7,25,Billy
8,31,Jin
9,21,Alan


In [146]:
# size
df.groupby("Name").size() # 개수 출력

Name
Alan       1
Alex       1
Alvin      1
Anchal     1
Andrew     1
Anthony    1
Billy      3
Jin        1
dtype: int64

In [148]:
result_df = df.groupby("Name").size().reset_index(name="count") 
# 인덱스를 추가해서 시리즈를 데이터 프레임으로 만듦

In [149]:
# sort_values : 설정한 컬럼으로 데이트 프레임을 정렬

In [156]:
result_df.sort_values(["count", "Name"], ascending=False, inplace=True)
# 기본이 오름차순, ascending으로 조절
# 내림차순으로 정렬하는데, count를 기준으로 정렬하고 값이 같으면 Name으로 정렬

In [157]:
result_df.reset_index(drop=True, inplace=True)

In [158]:
result_df

Unnamed: 0,Name,count
0,Billy,3
1,Jin,1
2,Anthony,1
3,Andrew,1
4,Anchal,1
5,Alvin,1
6,Alex,1
7,Alan,1


In [159]:
# agg()
# size(), min(), max(), mean()

In [163]:
df.groupby("Name").agg("min").reset_index() # 이름별로 나이 최소값 구하기

Unnamed: 0,Name,Age
0,Adam,33
1,Alan,30
2,Alvin,37
3,Anchal,32
4,Andrew,24
5,Anthony,38
6,Arnold,35
7,Billy,28
8,Jin,26


In [164]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,31.4
std,4.575296
min,24.0
25%,28.5
50%,31.5
75%,34.5
max,38.0


### 7. Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법