### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징 
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다. 
    - R보다 python이 활용할 수 있는 분야가 많습니다. 
- 크게 두가지 데이터 타입을 사용합니다. 
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame: index, column, values로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [9]:
# Series : vlaue만 설정하면 index는 0부터 자동으로 설정 됩니다.
data = pd.Series(range(3,12,2))
data.index, data.values

(RangeIndex(start=0, stop=5, step=1), array([ 3,  5,  7,  9, 11]))

In [10]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                 index=list("ABCDE"))
data

A    5
B    4
C    4
D    1
E    7
dtype: int64

In [11]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([5, 4, 4, 1, 7]))

In [12]:
data["B"], data.B # data.B의 형태는 인덱스가 문자일때만 가능

(4, 4)

In [13]:
data["C"] = 10
data

A     5
B     4
C    10
D     1
E     7
dtype: int64

In [14]:
# 브로드캐스팅
data*10 

A     50
B     40
C    100
D     10
E     70
dtype: int64

In [15]:
type(data[[2,4]])

pandas.core.series.Series

In [16]:
# offset index
data[2::2]

C    10
E     7
dtype: int64

In [17]:
data[::-1]

E     7
D     1
C    10
B     4
A     5
dtype: int64

Series 연산

In [18]:
data

A     5
B     4
C    10
D     1
E     7
dtype: int64

In [19]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [20]:
result = data + data2
result #NaN = None

A     NaN
B     NaN
C     NaN
D     4.0
E    12.0
F     NaN
dtype: float64

In [21]:
result.isnull()


A     True
B     True
C     True
D    False
E    False
F     True
dtype: bool

In [22]:
result[result.isnull()]
result

A     NaN
B     NaN
C     NaN
D     4.0
E    12.0
F     NaN
dtype: float64

In [23]:
result[result.isnull()] = data2
result

A     NaN
B     NaN
C     NaN
D     4.0
E    12.0
F     7.0
dtype: float64

In [24]:
result[result.isnull()] = data
result

A     5.0
B     4.0
C    10.0
D     4.0
E    12.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 values값은 같은 데이터 값을 갖습니다.

In [117]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [25]:
datas = {
    "name" : ["dss", "fcamp"],
    "email": ["dss@gmail.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gmail.com', 'fcamp@daum.net']}

In [26]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [27]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [28]:
data = [
    {"name" : "dss", "email":"dss@gmail.com"},
    {"name" : "fcamp", "email":"fcamp@daum.com"},
        
]
data

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.com'}]

In [11]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [28]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [32]:
df.index = ["a", "b"]
df

Unnamed: 0,name,email
a,dss,dss@gmail.com
b,fcamp,fcamp@daum.net


In [33]:
df.columns

Index(['name', 'email'], dtype='object')

In [34]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [35]:
# 데이터 프레임에서 데이터의 선택: row, column, (row,column) , index가 있으면 수정, 없으면 추가

In [36]:
datas = [
    {"name" : "dss", "email":"dss@gmail.com"},
    {"name" : "fcamp", "email":"fcamp@daum.com"},
        
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.com'}]

In [37]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com


In [38]:
# row 선택
df.loc[1]

name              fcamp
email    fcamp@daum.com
Name: 1, dtype: object

In [39]:
# row 데이터 추가
df.loc["c"] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.com
c,andy,andy@naver.com


In [132]:
# column 선택

In [133]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [43]:
# column데이터 추가
df["id"] = range(203,206)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,203
1,fcamp,fcamp@daum.com,204
c,andy,andy@naver.com,205


In [44]:
df["id"] = range(1,4)
df.index = range(0,3)

In [25]:
# row, column 선택

In [55]:
df.loc[[1],['id']]

Unnamed: 0,id
1,2


In [138]:
# 컬럼 데이터 순서 설정

In [140]:
df[['id', 'name']]

Unnamed: 0,id,name
0,1,dss
1,2,fcamp
2,3,andy


In [40]:
# head, tail

In [41]:
df.head()

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@daum.com,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷

In [42]:
# email 컬럼에서 메일의 도메인만 가져와서 domain 컬럼을 생성 
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,203
1,fcamp,fcamp@daum.com,204
2,andy,andy@naver.com,205


In [57]:
# 복습
df.loc[0]["email"].split("@")[1]

'gmail.com'

In [59]:
df["email"][0], df.loc[0]["email"]

('dss@gmail.com', 'dss@gmail.com')

In [58]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [67]:
def domain(email):
    return email.split("@")[1].split(".")[0]


domain(df.loc[0]["email"])

'gmail'

In [59]:
df["domain"] = df["email"].apply(lambda email:email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@daum.com,2,daum
2,andy,andy@naver.com,3,naver


In [110]:
df["domain"] = df["email"].apply(lambda a: a.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,203,gmail
1,fcamp,fcamp@daum.com,204,daum
2,andy,andy@naver.com,205,naver


In [94]:
from makedata import *

In [62]:
get_name()

'Anthony'

In [63]:
get_age()

20

In [64]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))

In [65]:
df1

Unnamed: 0,Age,Name
0,32,Jin
1,34,Billy
2,27,Jin
3,22,Anthony
4,39,Anthony


In [66]:
df2

Unnamed: 0,Age,Name
0,32,Anchal
1,34,Billy
2,29,Andrew
3,21,Alvin
4,23,Alan


In [72]:
df3 = df1.append(df2).reset_index(drop=True)
df3


Unnamed: 0,Age,Name
0,32,Jin
1,34,Billy
2,27,Jin
3,22,Anthony
4,39,Anthony
5,32,Anchal
6,34,Billy
7,29,Andrew
8,21,Alvin
9,23,Alan


In [94]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,33,Jin
3,32,Adam
4,24,Arnold
0,26,Jin
1,32,Adam


In [91]:
# reset_index: index를 재정렬
df3.reset_index( drop = True, inplace = True)
df3

Unnamed: 0,Age,Name
0,32,Jin
1,34,Billy
2,27,Jin
3,22,Anthony
4,39,Anthony
5,32,Anchal
6,34,Billy
7,29,Andrew
8,21,Alvin
9,23,Alan


### 5. concat
- row나 column으로 데이터 프레임을 합칠때 사용

In [74]:
df3 = pd.concat([df1,df2]).reset_index(drop = True)
df3

Unnamed: 0,Age,Name
0,32,Jin
1,34,Billy
2,27,Jin
3,22,Anthony
4,39,Anthony
5,32,Anchal
6,34,Billy
7,29,Andrew
8,21,Alvin
9,23,Alan


In [77]:
pd.concat([df3,df1], axis=1, join = "outer")

Unnamed: 0,Age,Name,Age.1,Name.1
0,32,Jin,32.0,Jin
1,34,Billy,34.0,Billy
2,27,Jin,27.0,Jin
3,22,Anthony,22.0,Anthony
4,39,Anthony,39.0,Anthony
5,32,Anchal,,
6,34,Billy,,
7,29,Andrew,,
8,21,Alvin,,
9,23,Alan,,


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [95]:
df = pd.DataFrame(make_data())

df

Unnamed: 0,Age,Name
0,29,Anthony
1,40,Alex
2,37,Arnold
3,24,Billy
4,38,Alvin
5,30,Alex
6,33,Andrew
7,22,Andrew
8,38,Alex
9,21,Jin


In [127]:
# size
result_df = df.groupby(["Name"]).size().reset_index(name="counts")
result_df

Unnamed: 0,Name,counts
0,Alex,3
1,Alvin,1
2,Andrew,2
3,Anthony,1
4,Arnold,1
5,Billy,1
6,Jin,1


In [89]:
# sort_values: 설정한 컬럼으로 데이터 프레임을 정렬

In [109]:
result_df.sort_values(["counts"], ascending=False, inplace = True)
result_df.reset_index(drop = True, inplace = True)
result_df.size

14

In [125]:
# agg -> Series 가 아닌 DataFrame으로 가져오는 함수
# size(), min(), max(), mean()
df.agg

<bound method DataFrame.aggregate of    Age     Name
0   29  Anthony
1   40     Alex
2   37   Arnold
3   24    Billy
4   38    Alvin
5   30     Alex
6   33   Andrew
7   22   Andrew
8   38     Alex
9   21      Jin>

In [124]:
df.groupby("Name").agg("max").reset_index()

Unnamed: 0,Name,Age
0,Alex,40
1,Alvin,38
2,Andrew,33
3,Anthony,29
4,Arnold,37
5,Billy,24
6,Jin,21


In [97]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.4
std,5.25357
min,22.0
25%,26.0
50%,29.0
75%,31.75
max,38.0


### 7. Merge = sql(join)
-  두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법