### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python은 활용할 수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, colum, value로 이루어진 데이터 타입

# series 

```
index value
1        A
2        B
3        C
4        D
5        E
-> 동일한 데이터 타입만 가능
Data Frame
Index   column
1         A B C
2         D E F
3         G H I
4         K L M
Data Frame -> series 여러개 모여서 만들어짐
-> 컬럼별로 동일한 데이터 타입만 가능함
```

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Series
data = pd.Series(np.random.randint(10, size = 5))
data

0    9
1    4
2    6
3    4
4    5
dtype: int32

In [14]:
# indes 설정
data = pd.Series(np.random.randint(10, size = 5), index = list("ABCDE"))
data

A    0
B    1
C    3
D    2
E    8
dtype: int32

In [15]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 1, 3, 2, 8]))

In [18]:
data["B"], data.B # data.1 일경우는 결과가 나오지 않음

(1, 1)

In [19]:
data["C"] = 10
data

A     0
B     1
C    10
D     2
E     8
dtype: int32

In [21]:
# 브로드 캐스팅
data *10

A      0
B     10
C    100
D     20
E     80
dtype: int32

In [22]:
data[["B","E"]]

B    1
E    8
dtype: int32

In [24]:
# offset index
data[2::2]

C    10
E     8
dtype: int32

In [28]:
data[::-1]

E     8
D     2
C    10
B     1
A     0
dtype: int32

### Serise 연산

In [26]:
data

A     0
B     1
C    10
D     2
E     8
dtype: int32

In [31]:
data2 = pd.Series({"D":3, "E":5,"F":7})
data2

D    3
E    5
F    7
dtype: int64

In [33]:
result = data + data2
result
#NaN = None과 같음

A     NaN
B     NaN
C     NaN
D     5.0
E    13.0
F     NaN
dtype: float64

In [37]:
result[result.isnull()] = data
result

A     0.0
B     1.0
C    10.0
D     5.0
E    13.0
F     NaN
dtype: float64

In [41]:
result[result.isnull()] = data2
result

A     0.0
B     1.0
C    10.0
D     5.0
E    13.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value 값은 같은 데이터 타입을 갖습니다.

In [42]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [45]:
datas = {
    "name":["dss","fcamp"],
    "email":["dss@gmail.com", "fcamp@daum.net"],
}
datas
# 하나의 키 값이 하나의 컬럼

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [46]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [None]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [47]:
datas = [
    {"name":"dss","email":"dss@gamil.com"},
    {"name":"fcamp","email":"fcamp@daum.net"},    
]
datas
# 딕셔너리 하나는 raw

[{'name': 'dss', 'email': 'dss@gamil.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [48]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [50]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas,index =["one","two"])
df

Unnamed: 0,name,email
one,dss,dss@gamil.com
two,fcamp,fcamp@daum.net


In [52]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['name', 'email'], dtype='object'),
 array([['dss', 'dss@gamil.com'],
        ['fcamp', 'fcamp@daum.net']], dtype=object))

In [53]:
df.values

array([['dss', 'dss@gamil.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [55]:
# 데이터 프레임에서 데이터의 선택 : raw, colums, (raw,column)

In [58]:
# row 선택 : loc
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [59]:
df.loc[1] #raw선택, loc =location약자

name              fcamp
email    fcamp@daum.net
Name: 1, dtype: object

In [60]:
df.loc[1]["email"]

'fcamp@daum.net'

In [61]:
df.loc[2] = {"name":"andy","email":"andy@naver.com"}
df
#df.loc[1] = {"name":"andy","email":"andy@naver.com"}할 경우 수정이 됨
# index가 있으면 수정, 없으면 추가

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [65]:
# column 선택

In [66]:
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [64]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [69]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [70]:
df["id"] = range(1,4) #np.arrange(1,4로 넣어도 됨)
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [71]:
df.dtypes #object= 문자열로 생각하면 됨

name     object
email    object
id        int32
dtype: object

In [72]:
# row, column 선택

In [78]:
df.loc[[0,2], ["email","id"]]
#앞은 row 뒤는column

Unnamed: 0,email,id
0,dss@gamil.com,1
2,andy@naver.com,3


In [80]:
# 컬럼 데이터 순서 설정

In [82]:
df[["id","name","email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gamil.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [83]:
# head, tail

In [85]:
df.head()
# 최대 5개가 나옴

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [86]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2


In [87]:
df.tail(2)

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷

In [89]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [91]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gamil'

In [97]:
df["domain"]=df["email"].apply(domain)
# series 타입
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [99]:
df["domain"]=df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [100]:
from makedata import *

In [111]:
get_name()

'Anthony'

In [119]:
get_age()

38

In [141]:
make_data(5)

[{'Age': 24, 'Name': 'Alan'},
 {'Age': 37, 'Name': 'Jin'},
 {'Age': 24, 'Name': 'Anthony'},
 {'Age': 24, 'Name': 'Adam'},
 {'Age': 33, 'Name': 'Alex'}]

In [142]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,28,Billy
1,40,Alvin
2,29,Billy
3,40,Jin
4,38,Jin


### 4. append

In [150]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,39,Billy
1,31,Alex
2,35,Anchal
3,28,Anchal
4,26,Arnold
0,28,Billy
1,40,Alvin
2,29,Billy
3,40,Jin
4,38,Jin


In [152]:
df3 = df1.append(df2, ignore_index = True)
df3

Unnamed: 0,Age,Name
0,39,Billy
1,31,Alex
2,35,Anchal
3,28,Anchal
4,26,Arnold
5,28,Billy
6,40,Alvin
7,29,Billy
8,40,Jin
9,38,Jin


In [144]:
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,35,Anchal
3,28,Anchal
4,26,Arnold
0,28,Billy
1,40,Alvin


In [146]:
# reset_index 인덱스 재정렬
df3.reset_index()

Unnamed: 0,index,Age,Name
0,0,39,Billy
1,1,31,Alex
2,2,35,Anchal
3,3,28,Anchal
4,4,26,Arnold
5,0,28,Billy
6,1,40,Alvin
7,2,29,Billy
8,3,40,Jin
9,4,38,Jin


In [147]:
df3.reset_index(drop=True)

Unnamed: 0,Age,Name
0,39,Billy
1,31,Alex
2,35,Anchal
3,28,Anchal
4,26,Arnold
5,28,Billy
6,40,Alvin
7,29,Billy
8,40,Jin
9,38,Jin


In [186]:
df3.reset_index(drop=True,inplace = True)
df3

Unnamed: 0,Age,Name
0,39,Billy
1,31,Alex
2,35,Anchal
3,28,Anchal
4,26,Arnold
5,28,Billy
6,40,Alvin
7,29,Billy
8,40,Jin
9,38,Jin


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [157]:
df3 = pd.concat([df1,df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,39,Billy
1,31,Alex
2,35,Anchal
3,28,Anchal
4,26,Arnold
5,28,Billy
6,40,Alvin
7,29,Billy
8,40,Jin
9,38,Jin


### Join 중요

In [158]:
pd.concat([df3,df1],axis =1)
#NaN으로 나오지 않게 하기 위해서는 join =outer부분을 inner로 바꾸면 됨

Unnamed: 0,Age,Name,Age.1,Name.1
0,39,Billy,39.0,Billy
1,31,Alex,31.0,Alex
2,35,Anchal,35.0,Anchal
3,28,Anchal,28.0,Anchal
4,26,Arnold,26.0,Arnold
5,28,Billy,,
6,40,Alvin,,
7,29,Billy,,
8,40,Jin,,
9,38,Jin,,


In [159]:
pd.concat([df3,df1],axis =1,join = "inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,39,Billy,39,Billy
1,31,Alex,31,Alex
2,35,Anchal,35,Anchal
3,28,Anchal,28,Anchal
4,26,Arnold,26,Arnold


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [161]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,31,Arnold
1,20,Alvin
2,35,Jin
3,40,Anchal
4,24,Jin
5,35,Anthony
6,25,Alex
7,26,Alex
8,21,Arnold
9,23,Andrew


In [165]:
# size
result_df = df.groupby("Name").size().reset_index(name = "count")
result_df

Unnamed: 0,Name,count
0,Alex,2
1,Alvin,1
2,Anchal,1
3,Andrew,1
4,Anthony,1
5,Arnold,2
6,Jin,2


In [None]:
# sort_values :  설정한 컬럼으로 데이터 프레임을 정렬

In [188]:
result_df.sort_values(["count"], ascending = False,inplace =True)
result_df

Unnamed: 0,Name,count
0,Alex,2
1,Arnold,2
2,Jin,2
3,Alvin,1
4,Anchal,1
5,Andrew,1
6,Anthony,1


In [189]:
result_df.sort_values(["count"], ascending = False,inplace =True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Alex,2
1,Arnold,2
2,Jin,2
3,Alvin,1
4,Anchal,1
5,Andrew,1
6,Anthony,1


In [172]:
# agg
# size(),min(),max(),mean()

In [191]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Alex,25
1,Alvin,20
2,Anchal,40
3,Andrew,23
4,Anthony,35
5,Arnold,21
6,Jin,24


In [177]:
df.groupby("Name").agg("max").reset_index()

Unnamed: 0,Name,Age
0,Alex,26
1,Alvin,20
2,Anchal,40
3,Andrew,23
4,Anthony,35
5,Arnold,31
6,Jin,35


In [179]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,28.0
std,6.815016
min,20.0
25%,23.25
50%,25.5
75%,34.0
max,40.0


### 7. Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법