### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특정
    - R 보다 Pandas가 학습이 쉽습니다.
    - R 보다 Pandas가 성능이 좋습니다.
    - R 보다 python이 활용할 수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index와 column, value로 이루어진 데이터 타입
    

### 1. Series
- 동일한 데이터 타입의 값을 갖는다.

In [3]:
# Series: value만 설정하면 index는 0부터 자동으로 설정 됩니다.
data = pd.Series(np.random.randint(10, size=5))
data

0    8
1    1
2    4
3    8
4    0
dtype: int64

In [4]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index=list("ABCDE"))

data

A    9
B    5
C    5
D    4
E    1
dtype: int64

In [5]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([9, 5, 5, 4, 1]))

In [7]:
data["B"], data.B

(5, 5)

In [8]:
data["C"] = 10
data

A     9
B     5
C    10
D     4
E     1
dtype: int64

In [10]:
# 브로드 캐스팅
data * 10

A     90
B     50
C    100
D     40
E     10
dtype: int64

In [11]:
data[["B","E"]]

B    5
E    1
dtype: int64

In [14]:
# offset index
data[2::2]

C    10
E     1
dtype: int64

In [15]:
data[::-1]

E     1
D     4
C    10
B     5
A     9
dtype: int64

### Series 연산

In [16]:
data

A     9
B     5
C    10
D     4
E     1
dtype: int64

In [17]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [19]:
result = data + data2

In [21]:
result # None

A    NaN
B    NaN
C    NaN
D    7.0
E    6.0
F    NaN
dtype: float64

In [24]:
result[result.isnull()] = data
result

A     9.0
B     5.0
C    10.0
D     7.0
E     6.0
F     NaN
dtype: float64

In [26]:
result[result.isnull()] = data2
result

A     9.0
B     5.0
C    10.0
D     7.0
E     6.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value 값은 같은 데이터 타입을 갖는다.

In [45]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"]
}

datas

# 컬럼으로 데이터가 들어감

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [46]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [47]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [48]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"}
]
datas

# 로우로 데이터가 들어감

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [49]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [59]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one","two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@daum.net


In [60]:
df.index

Index(['one', 'two'], dtype='object')

In [61]:
df.columns

Index(['name', 'email'], dtype='object')

In [62]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [63]:
# 데이터 프레임에서 데이터의 선택: row, column, (row, column)

In [67]:
# row 선택 : loc
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"}
]


In [68]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [71]:
df.loc[1]["email"]

'fcamp@daum.net'

In [74]:
# 인덱스가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"andy", "email":"andy@naver,com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net
2,andy,"andy@naver,com"


In [75]:
# column 데이터 선책

In [76]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [81]:
df["id"] = range(1,4) # np.arange(1,4)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,"andy@naver,com",3


In [82]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [83]:
# row, column 선택

In [88]:
df.loc[[0,2],["email","id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,"andy@naver,com",3


In [89]:
# 컬럼 데이터 순서 설정

In [90]:
df[["id", "email", "name"]]

Unnamed: 0,id,email,name
0,1,dss@gmail.com,dss
1,2,fcamp@daum.net,fcamp
2,3,"andy@naver,com",andy


In [91]:
# head, tail

In [95]:
df.head(n=1)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1


In [96]:
df.tail(n=1)

Unnamed: 0,name,email,id
2,andy,"andy@naver,com",3


### 3. apply 함수
- map 함수와 비슷한 역할

In [98]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.net,2
2,andy,"andy@naver,com",3


In [99]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [101]:
df["domain"] = df["email"].apply(domain)
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,"andy@naver,com",3,"naver,com"


In [105]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.net,2,daum
2,andy,"andy@naver,com",3,"naver,com"


In [106]:
 from makedata import *

In [114]:
get_name()

'Adam'

In [121]:
get_age()

26

In [131]:
make_data()

[{'Age': 40, 'Name': 'Adam'},
 {'Age': 21, 'Name': 'Arnold'},
 {'Age': 27, 'Name': 'Andrew'},
 {'Age': 30, 'Name': 'Adam'},
 {'Age': 38, 'Name': 'Anchal'},
 {'Age': 22, 'Name': 'Alan'},
 {'Age': 23, 'Name': 'Adam'},
 {'Age': 34, 'Name': 'Alan'},
 {'Age': 22, 'Name': 'Andrew'},
 {'Age': 32, 'Name': 'Anthony'}]

In [134]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,27,Adam
1,25,Andrew
2,24,Anchal
3,33,Adam
4,22,Arnold


In [135]:
# append 함수를 이용해 데이터 프레임 합치기
df3 = df1.append(df2)

In [137]:
df3[2:7]

Unnamed: 0,Age,Name
2,33,Anchal
3,21,Alvin
4,32,Anchal
0,27,Adam
1,25,Andrew


In [138]:
# reset_index : index 재정렬하는 함수

In [144]:
df3.reset_index(drop=True, inplace=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,33,Adam
9,22,Arnold


In [145]:
df3 = df1.append(df2, ignore_index=True)

In [147]:
df3.tail(2)

Unnamed: 0,Age,Name
8,33,Adam
9,22,Arnold


### 5. concat
- row 나 column으로 데이터 프레임을 합칠때 사용

In [156]:
df3 = pd.concat([df1,df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,33,Adam
9,22,Arnold


In [157]:
pd.concat([df3,df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,29,Billy,29.0,Billy
1,32,Adam,32.0,Adam
2,33,Anchal,33.0,Anchal
3,21,Alvin,21.0,Alvin
4,32,Anchal,32.0,Anchal
5,27,Adam,,
6,25,Andrew,,
7,24,Anchal,,
8,33,Adam,,
9,22,Arnold,,


In [159]:
# join="inner"는 교집합 개념으로 합치는 것
# join="outer"는 합집합 개념으로 합치는 것
pd.concat([df3,df1], axis=1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,29,Billy,29,Billy
1,32,Adam,32,Adam
2,33,Anchal,33,Anchal
3,21,Alvin,21,Alvin
4,32,Anchal,32,Anchal


### 6. group by
- 특정  컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [160]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,28,Billy
1,27,Jin
2,38,Alvin
3,21,Andrew
4,27,Anthony
5,34,Anthony
6,35,Jin
7,30,Adam
8,20,Alan
9,28,Jin


In [165]:
# size
df.groupby("Name").size()

Name
Adam       1
Alan       1
Alvin      1
Andrew     1
Anthony    2
Billy      1
Jin        3
dtype: int64

In [170]:
# Series 를 df으로
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,2
5,Billy,1
6,Jin,3


In [168]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬할 수 있다.

In [177]:
# ascending 오름차순
result_df.sort_values(["count"], ascending=False, inplace=True)
result_df.reset_index(drop=True, inplace=True)

In [178]:
result_df

Unnamed: 0,Name,count
0,Jin,3
1,Anthony,2
2,Adam,1
3,Alan,1
4,Alvin,1
5,Andrew,1
6,Billy,1


In [179]:
# agg()
# size(), min(), max(), maen()

In [185]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,30
1,Alan,20
2,Alvin,38
3,Andrew,21
4,Anthony,27
5,Billy,28
6,Jin,27


In [186]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,28.8
std,5.750362
min,20.0
25%,27.0
50%,28.0
75%,33.0
max,38.0


### Summary
- pandas
    - 데이터 분석: 데이터 전처리 파트
    - 테이블 형태의 데이터를 처리할때 사용하는 python 라이브러리
    - Series(인덱스와 벨류), DataFrame(인덱스와 컬럼, 벨류)
    - Series
        - 생성, 선택, 수정 방법
    - DataFrame
        - 생성 방법1 : 딕셔너리의 리스트 : 리스트 -> 컬럼 데이터
        - 생성 방법2 : 리스트의 딕셔너리 : 딕셔너리 -> 로우 데이터
        - row 선택 : ` df.loc[inx]`
        - column 선택: `df[column name]`
        - row, column 선택 : `df.loc[[idx], column]`
        - 함수
            - apply, append, concat
            - groupby, merge

In [3]:
import makedata

In [4]:
makedata.get_age(), makedata.get_name()

(25, 'Alan')

In [5]:
makedata.make_data()

[{'Age': 32, 'Name': 'Jin'},
 {'Age': 26, 'Name': 'Anchal'},
 {'Age': 36, 'Name': 'Jin'},
 {'Age': 39, 'Name': 'Billy'},
 {'Age': 33, 'Name': 'Adam'},
 {'Age': 34, 'Name': 'Arnold'},
 {'Age': 24, 'Name': 'Andrew'},
 {'Age': 28, 'Name': 'Alan'},
 {'Age': 33, 'Name': 'Arnold'},
 {'Age': 40, 'Name': 'Alvin'}]

### quiz
- makedata 모듈을 이용해서 데이터 프레임을 만들기
- user_df
    - 8명의 데이터가 있는 데이터 프레임을 만들기
    - UserID : 1 ~ 8
    - Name : makedata.get_name()
    - Age : makedata.get_age()
    - 중복되는 Name 값이 없도록

In [10]:
# 딕셔너리의 리스트
datas = {}
datas["UserID"] = range(1,9)
datas["Age"] = [makedata.get_age() for _ in range(8)]

names = []
while True:
    
    name = makedata.get_name()
    if name not in names:
        names.append(name)
    if len(names)>=8:
        break
        
datas["Name"] = names

user_df = pd.DataFrame(datas)
user_df

Unnamed: 0,UserID,Age,Name
0,1,24,Anthony
1,2,20,Anchal
2,3,30,Jin
3,4,35,Alvin
4,5,35,Alex
5,6,20,Arnold
6,7,25,Andrew
7,8,20,Alan


In [19]:
# 리스트의 딕셔너리
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

datas = []

for idx in range(1, 9):
    name = makedata.get_name()
    
    while name in list(user_df["Name"]):
        name = makedata.get_name()
    
    data = {"Name": name, "UserID": idx, "Age": makedata.get_age()}
    
    user_df.loc[len(user_df)]=data
    

user_df

Unnamed: 0,UserID,Name,Age
0,1,Anchal,39
1,2,Billy,24
2,3,Alvin,31
3,4,Andrew,21
4,5,Arnold,28
5,6,Jin,38
6,7,Anthony,30
7,8,Alex,30


### quiz
- money_df 만들기
    - 15개의 데이터가 있다.
    - ID : 1~8 랜덤한 숫자 데이터
    - Money : 1000원 단위로 1000~ 20000원까지의 숫자가 저장

In [43]:
# 딕셔너리 데이터를 데이터 프레임에 하나씩 추가하기
money_df = pd.DataFrame(columns=["ID", "Money"])
# np.random.randint(1,9)

for _ in range(15):
    money_df.loc[len(money_df)] = {
        "ID": np.random.randint(1,9),
        "Money": np.random.randint(1,21)*1000,
    }
# 컬럼데이터에서 유니크 값 확인
ids = money_df["ID"].unique()
ids.sort()
ids

array([1, 2, 4, 5, 6, 8], dtype=object)

In [44]:
money_df

Unnamed: 0,ID,Money
0,2,10000
1,4,6000
2,2,19000
3,1,2000
4,1,1000
5,1,15000
6,6,8000
7,5,18000
8,6,20000
9,6,12000


In [45]:
user_df

Unnamed: 0,UserID,Name,Age
0,1,Anchal,39
1,2,Billy,24
2,3,Alvin,31
3,4,Andrew,21
4,5,Arnold,28
5,6,Jin,38
6,7,Anthony,30
7,8,Alex,30


### 7. Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법

In [47]:
# merge
user_df.merge(money_df, left_on="UserID", right_on="ID")

Unnamed: 0,UserID,Name,Age,ID,Money
0,1,Anchal,39,1,2000
1,1,Anchal,39,1,1000
2,1,Anchal,39,1,15000
3,1,Anchal,39,1,8000
4,1,Anchal,39,1,20000
5,2,Billy,24,2,10000
6,2,Billy,24,2,19000
7,2,Billy,24,2,8000
8,4,Andrew,21,4,6000
9,4,Andrew,21,4,3000


In [48]:
# 컬럼명 변경
user_df.rename(columns={"UserID":"ID"}, inplace=True)

In [49]:
user_df

Unnamed: 0,ID,Name,Age
0,1,Anchal,39
1,2,Billy,24
2,3,Alvin,31
3,4,Andrew,21
4,5,Arnold,28
5,6,Jin,38
6,7,Anthony,30
7,8,Alex,30


In [50]:
user_df.merge(money_df)

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,39,2000
1,1,Anchal,39,1000
2,1,Anchal,39,15000
3,1,Anchal,39,8000
4,1,Anchal,39,20000
5,2,Billy,24,10000
6,2,Billy,24,19000
7,2,Billy,24,8000
8,4,Andrew,21,6000
9,4,Andrew,21,3000


In [51]:
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,2,10000,Billy,24
1,2,19000,Billy,24
2,2,8000,Billy,24
3,4,6000,Andrew,21
4,4,3000,Andrew,21
5,1,2000,Anchal,39
6,1,1000,Anchal,39
7,1,15000,Anchal,39
8,1,8000,Anchal,39
9,1,20000,Anchal,39


In [54]:
# groupby: sum, size, min ... 함수 사용 : Series
money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

Unnamed: 0,Name,Money
0,Alex,14000
1,Anchal,46000
2,Andrew,9000
3,Arnold,18000
4,Billy,37000
5,Jin,40000


In [57]:
# groupby: agg("sum"), agg("mean") ... : DataFrame
money_list = result_df.groupby("Name").agg("sum").reset_index()[["Name", "Money"]]
money_list

Unnamed: 0,Name,Money
0,Alex,14000
1,Anchal,46000
2,Andrew,9000
3,Arnold,18000
4,Billy,37000
5,Jin,40000


In [58]:
result = pd.merge(user_df, money_list, how="outer")
result

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,39,46000.0
1,2,Billy,24,37000.0
2,3,Alvin,31,
3,4,Andrew,21,9000.0
4,5,Arnold,28,18000.0
5,6,Jin,38,40000.0
6,7,Anthony,30,
7,8,Alex,30,14000.0


In [59]:
# fillna: NaN을 특정 데이터로 채워줌

In [60]:
result.fillna(value=0, inplace=True)

In [61]:
result

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,39,46000.0
1,2,Billy,24,37000.0
2,3,Alvin,31,0.0
3,4,Andrew,21,9000.0
4,5,Arnold,28,18000.0
5,6,Jin,38,40000.0
6,7,Anthony,30,0.0
7,8,Alex,30,14000.0


In [62]:
# money 컬럼을 정수형태로 데이터 타입을 변경
result.dtypes

ID         int64
Name      object
Age        int64
Money    float64
dtype: object

In [63]:
result["Money"] = result["Money"].astype("int")

In [64]:
result

Unnamed: 0,ID,Name,Age,Money
0,1,Anchal,39,46000
1,2,Billy,24,37000
2,3,Alvin,31,0
3,4,Andrew,21,9000
4,5,Arnold,28,18000
5,6,Jin,38,40000
6,7,Anthony,30,0
7,8,Alex,30,14000


In [68]:
result.sort_values("Money", ascending=False, inplace=True)
result[:3]["Money"]

0    46000
5    40000
1    37000
Name: Money, dtype: int64

In [70]:
# load: encodin
df = pd.read_csv("datas/2014_p.csv", encoding="euc-kr")
df.tail(2)

Unnamed: 0,ID,RCTRCK,RACE_DE,RACE_NO,PARTCPT_NO,RANK,RCHOSE_NM,HRSMN,RCORD,ARVL_DFFRNC,EACH_SCTN_PASAGE_RANK,A_WIN_SYTM_EXPECT_ALOT,WIN_STA_EXPECT_ALOT
27216,27217,제주,2014-11-29,9,7,6.0,미주여행,김경휴,0:01:31.1,13.0,2 - - - 2 - 3 - 6,6.2,9.4
27217,27218,제주,2014-11-29,9,6,1.0,철옹성,장우성,0:01:26.6,,1 - - - 1 - 1 - 1,3.9,2.9


### kaggle
- 데이터 분석, 모델을 경쟁할 수 있도록 만든 서비스


### 1. 성별, 좌석 등급에 따른 데이터의 수


In [74]:
titanic = pd.read_csv("datas/train.csv")

In [76]:
# groupby
df1 = titanic.groupby(["Sex", "Pclass"]).size().reset_index(name="counts")
df1

Unnamed: 0,Sex,Pclass,counts
0,female,1,94
1,female,2,76
2,female,3,144
3,male,1,122
4,male,2,108
5,male,3,347


In [80]:
# pivot
result = df1.pivot("Sex", "Pclass", "counts")
result

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [82]:
# pivot table 이용
titanic["counts"] = 1
titanic.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,counts
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,1
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,1


In [85]:
result = titanic.pivot_table("counts",["Pclass"],["Survived"], aggfunc=np.sum)
result

Survived,0,1
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80,136
2,97,87
3,372,119


In [90]:
result["Total"] = result[0] + result[1]
result

Survived,0,1,Total
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80,136,216
2,97,87,184
3,372,119,491


In [94]:
result.loc["Total"] = result.loc[1] + result.loc[2] + result.loc[3]
result

Survived,0,1,Total
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80,136,216
2,97,87,184
3,372,119,491
total,549,342,891
Total,549,342,891


In [95]:
df = pd.read_csv("datas/2014_p.csv", encoding="euc-kr")
df.tail(2)

Unnamed: 0,ID,RCTRCK,RACE_DE,RACE_NO,PARTCPT_NO,RANK,RCHOSE_NM,HRSMN,RCORD,ARVL_DFFRNC,EACH_SCTN_PASAGE_RANK,A_WIN_SYTM_EXPECT_ALOT,WIN_STA_EXPECT_ALOT
27216,27217,제주,2014-11-29,9,7,6.0,미주여행,김경휴,0:01:31.1,13.0,2 - - - 2 - 3 - 6,6.2,9.4
27217,27218,제주,2014-11-29,9,6,1.0,철옹성,장우성,0:01:26.6,,1 - - - 1 - 1 - 1,3.9,2.9


In [96]:
df = pd.read_csv("datas/2014_s.csv", encoding="euc-kr")
df.tail(2)

Unnamed: 0,ID,RCTRCK,RACE_DE,PRDCTN_NATION_NM,SEX,AGE,BND_WT,TRNER,RCHOSE_OWNR_NM,RCHOSE_BDWGH
27216,27217,제주,2014-11-29,한,거,,53.0,강대은,김기준,281
27217,27218,제주,2014-11-29,한,거,,57.5,박병진,강상우,314
