# Table
- [1. Series](#Series)
- [2. DataFrame](#DataFrame)
- [3. Apply](#Apply-함수)
- [4. Concat](#concat)
- [5. Group By](#Group-By)
- [6. Merge](#Merge)


### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas 특징
    - R보다 Pandas가 학습이 쉽다
    - R보다 Pandas가 성능이 좋다
    - R보다 Python은 활용할 수 있는 분야가 많다
- 크게 두가지 데이터 타입을 사용
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [1]:
import pandas as pd
import numpy as np

### Series
- 동일한 데이터 타입의 값을 갖는다

In [8]:
# Series
data = pd.Series(np.random.randint(10, size=5))
data

0    8
1    0
2    3
3    2
4    5
dtype: int64

In [9]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list("ABCDE"))
data

A    8
B    4
C    6
D    0
E    2
dtype: int64

#### Series Attribute

In [10]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([8, 4, 6, 0, 2]))

In [11]:
data['B'], data.B

(4, 4)

In [13]:
data["C"] = 111
data

A      8
B      4
C    111
D      0
E      2
dtype: int64

In [14]:
# 브로드 캐스팅
data * 10

A      80
B      40
C    1110
D       0
E      20
dtype: int64

In [16]:
data[["B", "E"]]

B    4
E    2
dtype: int64

In [20]:
# offset index
data[2::2]

C    111
E      2
dtype: int64

#### Series 연산

In [21]:
data

A      8
B      4
C    111
D      0
E      2
dtype: int64

In [23]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [25]:
result = data + data2  # 같은 인덱스끼리만 연산이 이루어진다
result # None

A    NaN
B    NaN
C    NaN
D    3.0
E    7.0
F    NaN
dtype: float64

In [27]:
is_null = result.isnull()
result[is_null]

A   NaN
B   NaN
C   NaN
F   NaN
dtype: float64

In [28]:
result[is_null] = data
result

A      8.0
B      4.0
C    111.0
D      3.0
E      7.0
F      NaN
dtype: float64

In [29]:
result[result.isnull()] = data2

In [30]:
result

A      8.0
B      4.0
C    111.0
D      3.0
E      7.0
F      7.0
dtype: float64

### DataFrame
- 데이터프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value 값은 같은 데이터 타입을 갖습니다.

In [2]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [3]:
data = {
    "name":["dss", "fcamp"],
    "eamil":["dss@gmail.com", "fcamp@daum.net"],
}
data

{'name': ['dss', 'fcamp'], 'eamil': ['dss@gmail.com', 'fcamp@daum.net']}

In [4]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,eamil
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [5]:
# 데이터프레임 생성 2 : 리스트의 딕셔너리

In [6]:
data = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"camp", "email":"fcamp@daum.net"}
]

df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,camp,fcamp@daum.net


In [7]:
# 인덱스 추가하는 방법
df = pd.DataFrame(data, index=["one", "two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,camp,fcamp@daum.net


In [8]:
df.index

Index(['one', 'two'], dtype='object')

In [9]:
df.columns

Index(['name', 'email'], dtype='object')

In [10]:
df.values  # 행 데이터값을 가져온다

array([['dss', 'dss@gmail.com'],
       ['camp', 'fcamp@daum.net']], dtype=object)

#### 데이터 프레임에서 데이터의 선택
- row
- column
- (row, column)


In [11]:
# row
df = pd.DataFrame(data)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,camp,fcamp@daum.net


In [12]:
df.loc[1]

name               camp
email    fcamp@daum.net
Name: 1, dtype: object

In [13]:
df.loc[1]["email"]

'fcamp@daum.net'

In [14]:
# index 있으면 수정, 없으면 데이터 생성
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,camp,fcamp@daum.net
2,andy,andy@naver.com


In [15]:
df["name"]

0     dss
1    camp
2    andy
Name: name, dtype: object

In [16]:
# id column 생성하고 empty string 모두 넣어주기
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,camp,fcamp@daum.net,
2,andy,andy@naver.com,


In [17]:
df["id"] = range(1,4)  #전부 다 바꿀 경우, 해당 컬럼의 데이터타입을 바꾸면서 수정
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,camp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [18]:
df['id'].dtype

dtype('int64')

In [19]:
# (row, column)

In [22]:
df.loc[[0, 2], ["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [24]:
df.loc[:, ["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
1,fcamp@daum.net,2
2,andy@naver.com,3


In [25]:
df[["id", "name", "email"]] # 호출한 순서대로 정렬되어 df 반환

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,camp,fcamp@daum.net
2,3,andy,andy@naver.com


In [26]:
# head, tail

In [27]:
df.head()

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,camp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [28]:
df.tail(3)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,camp,fcamp@daum.net,2
2,andy,andy@naver.com,3


### Apply 함수
- map 함수와 비슷한 역할
- Series 객체 메소드

In [29]:
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,camp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [30]:
def domain(email):
    return email.split('@')[1].split(".")[0]

In [31]:
domain(df.loc[0]["email"])

'gmail'

In [32]:
df["email"].apply(domain)

0    gmail
1     daum
2    naver
Name: email, dtype: object

In [35]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,camp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [36]:
from makedata import *

In [37]:
%whos

Variable    Type         Data/Info
----------------------------------
data        list         n=2
df          DataFrame       name           email  <...>andy@naver.com   3  naver
domain      function     <function domain at 0x11acf9040>
get_age     function     <function get_age at 0x11aadc550>
get_name    function     <function get_name at 0x11acf93a0>
make_data   function     <function make_data at 0x11aadc670>
np          module       <module 'numpy' from '/op<...>kages/numpy/__init__.py'>
pd          module       <module 'pandas' from '/o<...>ages/pandas/__init__.py'>
random      module       <module 'random' from '/o<...>lib/python3.8/random.py'>


In [38]:
get_name()

'Alan'

In [39]:
get_age()

36

In [40]:
# 실행할 때마다 랜덤 딕셔너리 생성
make_data()

[{'Age': 20, 'Name': 'Anthony'},
 {'Age': 36, 'Name': 'Alan'},
 {'Age': 22, 'Name': 'Alan'},
 {'Age': 35, 'Name': 'Jin'},
 {'Age': 22, 'Name': 'Billy'},
 {'Age': 25, 'Name': 'Anthony'},
 {'Age': 30, 'Name': 'Andrew'},
 {'Age': 36, 'Name': 'Alvin'},
 {'Age': 28, 'Name': 'Adam'},
 {'Age': 27, 'Name': 'Jin'}]

In [41]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,33,Andrew
1,30,Anthony
2,34,Billy
3,23,Billy
4,25,Alex


In [42]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,22,Adam
1,34,Alvin
2,21,Anthony
3,26,Jin
4,27,Alex
0,33,Andrew
1,30,Anthony
2,34,Billy
3,23,Billy
4,25,Alex


In [45]:
# reset_index 인덱스 재정렬
# 인덱스 초기화하고, 초기화한 결과를 새 칼럼으로 생성시킨다 (default)

In [46]:
df3.reset_index()

Unnamed: 0,index,Age,Name
0,0,22,Adam
1,1,34,Alvin
2,2,21,Anthony
3,3,26,Jin
4,4,27,Alex
5,0,33,Andrew
6,1,30,Anthony
7,2,34,Billy
8,3,23,Billy
9,4,25,Alex


In [49]:
df3.reset_index(drop=True, inplace=True)

In [50]:
df3

Unnamed: 0,Age,Name
0,22,Adam
1,34,Alvin
2,21,Anthony
3,26,Jin
4,27,Alex
5,33,Andrew
6,30,Anthony
7,34,Billy
8,23,Billy
9,25,Alex


#### append의 파라미터 ignore_index

In [52]:
df4 = df1.append(df2, ignore_index = True)
df4

Unnamed: 0,Age,Name
0,22,Adam
1,34,Alvin
2,21,Anthony
3,26,Jin
4,27,Alex
5,33,Andrew
6,30,Anthony
7,34,Billy
8,23,Billy
9,25,Alex


### concat

In [53]:
df3 = pd.concat([df1, df2]).reset_index(drop=1)

In [54]:
df3

Unnamed: 0,Age,Name
0,22,Adam
1,34,Alvin
2,21,Anthony
3,26,Jin
4,27,Alex
5,33,Andrew
6,30,Anthony
7,34,Billy
8,23,Billy
9,25,Alex


In [55]:
# 합집합으로 합치고, 존재하지 않을 경우 NaN으로 채운다
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,22,Adam,22.0,Adam
1,34,Alvin,34.0,Alvin
2,21,Anthony,21.0,Anthony
3,26,Jin,26.0,Jin
4,27,Alex,27.0,Alex
5,33,Andrew,,
6,30,Anthony,,
7,34,Billy,,
8,23,Billy,,
9,25,Alex,,


In [56]:
# 교집합으로 합친다
pd.concat([df3, df1], axis=1, join='inner')

Unnamed: 0,Age,Name,Age.1,Name.1
0,22,Adam,22,Adam
1,34,Alvin,34,Alvin
2,21,Anthony,21,Anthony
3,26,Jin,26,Jin
4,27,Alex,27,Alex


### Group By
- 특정 컬럼의 중복 데이터를 합쳐서 새 데이터 프레임을 만드는 방법

In [57]:
df = pd.DataFrame(make_data())

In [58]:
df

Unnamed: 0,Age,Name
0,40,Andrew
1,40,Jin
2,35,Jin
3,34,Anthony
4,30,Jin
5,26,Billy
6,28,Alvin
7,21,Alan
8,22,Billy
9,37,Adam


In [60]:
# size
df.groupby('Name').size()

Name
Adam       1
Alan       1
Alvin      1
Andrew     1
Anthony    1
Billy      2
Jin        3
dtype: int64

In [62]:
df.groupby('Name').size().reset_index()

Unnamed: 0,Name,0
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,1
5,Billy,2
6,Jin,3


In [63]:
df.groupby('Name').size().reset_index(name="count")

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,1
5,Billy,2
6,Jin,3


In [65]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
result = df.groupby('Name').size().reset_index(name="count")

result.sort_values(['count'], ascending=False)

Unnamed: 0,Name,count
6,Jin,3
5,Billy,2
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,1


In [66]:
result.sort_values(['count'], ascending=True)

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,1
5,Billy,2
6,Jin,3


#### count 소팅하고, count 같다면 Name으로 내림차정렬

In [72]:
result.sort_values(['count', 'Name'], ascending=True)

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alvin,1
3,Andrew,1
4,Anthony,1
5,Billy,2
6,Jin,3


In [69]:
# agg()
# size(), min(), max(), mean()

In [70]:
df.groupby("Name").agg("min")

Unnamed: 0_level_0,Age
Name,Unnamed: 1_level_1
Adam,37
Alan,21
Alvin,28
Andrew,40
Anthony,34
Billy,22
Jin,30


In [71]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,21
2,Alvin,28
3,Andrew,40
4,Anthony,34
5,Billy,22
6,Jin,30


In [74]:
# 데이터를 요약해서 보여주는 함수// 수치 칼럼만
df.describe()

Unnamed: 0,Age
count,10.0
mean,31.3
std,6.976946
min,21.0
25%,26.5
50%,32.0
75%,36.5
max,40.0


### Merge
- join(sql)
- 두개 이상의 데이터 프레임을 합쳐서 결과 출력