### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은(numpy로 작성됨) 오픈소스(공개된) python 라이브러리(파이썬으로만 사용가능)
- R과 Pandas의 차이점
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python은 활용할수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입, Value는 동일한 데이터 타입을 가져야함
    - DataFrame : index, column, value로 이루어진 데이터 타입(테이블형태) column 데이터는 Series, Series들이 모여서 DataFrame이 됨
    

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [4]:
# Series : Value만 설정하면 index는 자동으로 0부터 설정 됩니다.
data = pd.Series(np.random.randint(10, size =5))
data

0    9
1    7
2    3
3    3
4    3
dtype: int32

In [5]:
# index 설정
data = pd.Series(np.random.randint(10, size =5),
                index = list("ABCDE"))
data

A    8
B    8
C    9
D    2
E    7
dtype: int32

In [6]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([8, 8, 9, 2, 7]))

In [7]:
data["B"] # index로 데이터 확인

8

In [9]:
data.B # index가 숫자가 아닐땐 앞에서처럼 가능함

8

In [11]:
data["C"] = 10 # index 데이터를 불러와, 10으로 변경도 가능함
data

A     8
B     8
C    10
D     2
E     7
dtype: int32

In [14]:
# 브로드 캐스팅
data * 10 # data의 모든 value에 10을 곱해줄수 있음,(브로드 캐스팅 개념)

A     80
B     80
C    100
D     20
E     70
dtype: int32

In [15]:
data[["B","E"]] # index를 여러개 지정하여 출력도 가능함

B    8
E    7
dtype: int32

In [16]:
# offset index (1)
data[2:] # 2부터 끝까지

C    10
D     2
E     7
dtype: int32

In [17]:
# offset index (2)
data[2::2] # 2부터 끝까지 2칸씩 점프해서

C    10
E     7
dtype: int32

In [18]:
# offset index (3)
data[::-1] # 역순으로 출력

E     7
D     2
C    10
B     8
A     8
dtype: int32

In [20]:
# Series 연산

In [21]:
data

A     8
B     8
C    10
D     2
E     7
dtype: int32

In [22]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [25]:
result = data +data2 # 같은 index끼리 더해짐으로 index가 없는 데이터는 NaN으로 나옴
result # NaN == None 

A     NaN
B     NaN
C     NaN
D     5.0
E    12.0
F     NaN
dtype: float64

In [None]:
# NaN 데이터를 기존의 데이터에 넣어주는 법

In [30]:
result[result.isnull()] = data # isnull로 없는 result에 없는 데이터를 True로 만든 뒤, reusl[]를 해주어, True값만 가져오고, data에 True값을 넣어줌
result

A     8.0
B     8.0
C    10.0
D     5.0
E    12.0
F     NaN
dtype: float64

In [35]:
result[result.isnull()] = data2 # 위와 같은 방법으로 F의 NaN값도 넣어줌
result

A     8.0
B     8.0
C    10.0
D     5.0
E    12.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Seires로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.

In [38]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트 (딕셔너리의 value값에 리스트가 있음)

In [42]:
datas ={
    "name" :["dss", "fcamp"], # 딕셔너리의 value 값에 리스트, key값은 column이 됨
    "email" :["dss@gmail.com","fcamp@daum.net"] # 딕셔너리의 value 값에 리스트, key값은 column이 됨
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [43]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [None]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [57]:
datas = [
    {"name":"dss", "email" : "dss@gamil.com"}, # 딕셔너리 1개는 1row, 딕셔너리의 key는 colum, value는 값
    {"name" : "fcamp", "email" : "fcamp@daum.net"} # 딕셔너리 1개는 1row, 딕셔너리의 key는 colum, value는 값
]
datas

[{'name': 'dss', 'email': 'dss@gamil.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [58]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [48]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index={"one","two"})
df

Unnamed: 0,name,email
two,dss,dss@gamil.com
one,fcamp,fcamp@daum.net


In [52]:
df.index # index값을 불러옴

Index(['two', 'one'], dtype='object')

In [53]:
df.columns # column값을 불러옴

Index(['name', 'email'], dtype='object')

In [54]:
df.values # value값을 불러옴

array([['dss', 'dss@gamil.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [56]:
# 데이터 프레임에서 데이터의 선택 : row, column, row + column

In [60]:
# row 선택
datas = [
    {"name":"dss", "email" : "dss@gamil.com"}, # 딕셔너리 1개는 1row, 딕셔너리의 key는 colum, value는 값
    {"name" : "fcamp", "email" : "fcamp@daum.net"} # 딕셔너리 1개는 1row, 딕셔너리의 key는 colum, value는 값
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [63]:
df.loc[1] # row data 선택, series 데이터가 나옴

name              fcamp
email    fcamp@daum.net
Name: 1, dtype: object

In [64]:
df.loc[1]["email"] # row data 선택, series 데이터가 나옴, 특정 컬럼만 가져올수 있음

'fcamp@daum.net'

In [68]:
# loc[2] index가 있으면 수정되며, 없으면 추가 됨
df.loc[2] = {"name" : "andy", "email" : "andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [70]:
# column 선택
df["name"] # []마스킹을 사용하며, 컬럼명을 쓰면됨

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [71]:
# column 생성 ,
df["id"] = "" 
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [73]:
# 없던 컬럼 값을 생성하면 추가, 원래있던 컬럼을 선택하면 수정
df["id"] = range(1,4) # np.arange(1,4)
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [76]:
# column별 데이터 타입 확인, objet는 데이터 타입의 상위 객체(무엇이든 될수있음?)
df.dtypes

name     object
email    object
id        int32
dtype: object

In [79]:
# row, column 선택
df.loc[[0, 2], ["email", "id"]]  # df.loc[[row] ,[column]] offset index 개념도 가능

Unnamed: 0,email,id
0,dss@gamil.com,1
2,andy@naver.com,3


In [82]:
# column data 순서 설정
# 두개 이상의 컬럼 선택시 리스트 데이터 타입으로, 쓴 순서대로 컬럼명이 정렬되어 나옴
df[["id", "name", "email"]] 

Unnamed: 0,id,name,email
0,1,dss,dss@gamil.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [88]:
# head, tail
# 많은 데이터의 미리보기 용도

In [90]:
# 앞의 5개 데이터를 미리 보여줌() 안에 숫자를 넣으면 해당 숫자만큼 보여줌
df.head() 

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [91]:
# 뒤 의 5개 데이터를 미리 보여줌() 안에 숫자를 넣으면 해당 숫자만큼 보여줌
# 뒤의 데이터를 보기 때문에 헤당 데이터가 몇개 인지 확인할수 있음
df.tail() 

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [98]:
# shape 데이터의 크기 확인. 보통 분석 시 merge나 join, duplicated(중복제거) 등 사용할때 확인함
print(df.shape) # 보통은 코드 중간에 print 함수를 써서 확인
df.shape

(3, 3)


(3, 3)

### 3. apply 함수
- map 함수와 비슷한 역할

In [101]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [103]:
def domain(email) : # 함수를 생성
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gamil'

In [106]:
df["domain"] = df["email"].apply(domain) # apply(함수) 로 사용
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [112]:
# 람다를 사용해서 apply 사용가능, 함수를 선언하지 않아도 되서, 자원을 아낄수 있음
df["domain"] = df["email"].apply(lambda email : email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [113]:
# makedata.py 다운 후 임포트

In [118]:
from makedata import *

In [119]:
make_data(5)

[{'Age': 25, 'Name': 'Adam'},
 {'Age': 36, 'Name': 'Jin'},
 {'Age': 37, 'Name': 'Anchal'},
 {'Age': 35, 'Name': 'Alvin'},
 {'Age': 34, 'Name': 'Jin'}]

In [121]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))

In [122]:
df1

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony


In [123]:
df2

Unnamed: 0,Age,Name
0,33,Alvin
1,24,Billy
2,39,Arnold
3,39,Anchal
4,21,Adam


## 4. append 
- 데이터 프레임 합치기 offsetindex 사용 가능

In [139]:
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
0,33,Alvin
1,24,Billy
2,39,Arnold
3,39,Anchal
4,21,Adam


In [130]:
# reset_index 인덱스 재정렬
df3.reset_index() # 기존에 있던 index가 컬럼으로 바뀌면서 새로 나옴

Unnamed: 0,index,Age,Name
0,0,31,Billy
1,1,31,Alvin
2,2,34,Alan
3,3,37,Jin
4,4,34,Anthony
5,0,33,Alvin
6,1,24,Billy
7,2,39,Arnold
8,3,39,Anchal
9,4,21,Adam


In [131]:
# 기존의 index를 컬럼으로 저장하지 않음
df3.reset_index(drop = True) 

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
5,33,Alvin
6,24,Billy
7,39,Arnold
8,39,Anchal
9,21,Adam


In [132]:
# reset_index를 하였으나, 실제론 df3에 저장되지 않았음
df3

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
0,33,Alvin
1,24,Billy
2,39,Arnold
3,39,Anchal
4,21,Adam


In [134]:
# 저장되지 않은 df3를 inplace = True의 옵션을 주어서 저장시킴
df3.reset_index(drop = True, inplace = True)
df3

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
5,33,Alvin
6,24,Billy
7,39,Arnold
8,39,Anchal
9,21,Adam


In [137]:
# index를 재정렬 하지 않고 append로 정리할때 ignore_index = True의 옵션을 주어, index를 생성할수 있다
df3 = df.append(df2, ignore_index=True)
df3

Unnamed: 0,Age,Name
0,27,Anthony
1,38,Alex
2,23,Adam
3,37,Jin
4,39,Alex
5,33,Alvin
6,24,Billy
7,39,Arnold
8,39,Anchal
9,21,Adam


### 5. concat
- row, column으로 데이터 프레임을 합칠때 사용
- append보다 기능이 더 많음

In [141]:
# concat 사용
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
0,33,Alvin
1,24,Billy
2,39,Arnold
3,39,Anchal
4,21,Adam


In [143]:
# reset_index(drop = True)를 사용하여 인덱스를 재 생성
df3 = pd.concat([df1, df2]).reset_index(drop = True)
df3

Unnamed: 0,Age,Name
0,31,Billy
1,31,Alvin
2,34,Alan
3,37,Jin
4,34,Anthony
5,33,Alvin
6,24,Billy
7,39,Arnold
8,39,Anchal
9,21,Adam


In [147]:
# column에 추가 axis = 1 옵션을 주면됨
# outer로 joind되어 5 ~ 9 index는 NaN값이 나옴 (합집합)
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,31,Billy,31.0,Billy
1,31,Alvin,31.0,Alvin
2,34,Alan,34.0,Alan
3,37,Jin,37.0,Jin
4,34,Anthony,34.0,Anthony
5,33,Alvin,,
6,24,Billy,,
7,39,Arnold,,
8,39,Anchal,,
9,21,Adam,,


In [149]:
# join = inner의 옵션을 주어 NaN 값은 join안됨 (교집합)
pd.concat([df3, df1], axis=1, join = "inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,31,Billy,31,Billy
1,31,Alvin,31,Alvin
2,34,Alan,34,Alan
3,37,Jin,37,Jin
4,34,Anthony,34,Anthony


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [155]:
# groupby를 사용하면, name의 중복되는 데이터를 합쳐서 age의 평균, 중앙, 최소, 최대값 등을 볼수 있음 
# Ex, 이름별 평균 나이
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,40,Alvin
1,28,Alvin
2,40,Alex
3,23,Arnold
4,34,Adam
5,27,Alan
6,28,Andrew
7,39,Alex
8,26,Anthony
9,26,Alan


In [158]:
# groupby size
df.groupby("Name").size()

Name
Adam       1
Alan       2
Alex       2
Alvin      2
Andrew     1
Anthony    1
Arnold     1
dtype: int64

In [160]:
# groupby size
# name은 index, 1,2등의 숫자는 value값으로, reset_index의 함수를 이용하여 DataFrame을 생성함
# reset_index의 기존 인덱스는 컬럼으로 재 생성하는 원리를 이용함
df.groupby("Name").size().reset_index()

Unnamed: 0,Name,0
0,Adam,1
1,Alan,2
2,Alex,2
3,Alvin,2
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [162]:
# Name 옆의 0 컬럼의 이름을 변경하기 위해 reset_index에서 name 옵션을 주었음
result_df = df.groupby("Name").size().reset_index(name = "count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Alan,2
2,Alex,2
3,Alvin,2
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [164]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
# count를 오름차순으로 정렬
result_df.sort_values(["count"])

Unnamed: 0,Name,count
0,Adam,1
4,Andrew,1
5,Anthony,1
6,Arnold,1
1,Alan,2
2,Alex,2
3,Alvin,2


In [165]:
# count를 내림차순으로 정렬
result_df.sort_values(["count"], ascending=False)

Unnamed: 0,Name,count
1,Alan,2
2,Alex,2
3,Alvin,2
0,Adam,1
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [167]:
# inplace로 저장
result_df.sort_values(["count"], ascending=False, inplace=True)
result_df

Unnamed: 0,Name,count
1,Alan,2
2,Alex,2
3,Alvin,2
0,Adam,1
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [169]:
# index 순서 정리 후 inplace로 저장
result_df.reset_index(drop = True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Alan,2
1,Alex,2
2,Alvin,2
3,Adam,1
4,Andrew,1
5,Anthony,1
6,Arnold,1


In [170]:
# agg() 을 사용하면 데이터 프레임으로 결과가 출력됨
# size(), min(), max(), mean()

In [174]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,34
1,Alan,26
2,Alex,39
3,Alvin,28
4,Andrew,28
5,Anthony,26
6,Arnold,23


In [175]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,31.1
std,6.52261
min,23.0
25%,26.25
50%,28.0
75%,37.75
max,40.0


### 7. merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법