### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R 보다 Pandas가 학습이 쉽습니다.
    - R 보다 Pandas가 성능이 좋습니다.
    - R 보다 Python은 활용할 수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용합니다.
    - Series : index 와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [166]:
import pandas as pd
import numpy as np

### 1. Series
- 동일한 데이터 타입의 값을 갖습니다.

In [4]:
# Series : value만 설정하면 index는 0부터 자동으로 설정 됩니다
data = pd.Series(np.random.randint(10, size = 5))
data

0    1
1    8
2    4
3    4
4    5
dtype: int64

In [7]:
# index 설정
data = pd.Series(np.random.randint(10, size = 5), index = list('ABCDE'))
data

A    9
B    2
C    4
D    1
E    2
dtype: int64

In [10]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([9, 2, 4, 1, 2]))

In [13]:
data['B'], data.B

(2, 2)

In [14]:
data['C'] = 10
data

A     9
B     2
C    10
D     1
E     2
dtype: int64

In [16]:
# 브로드 캐스팅
data * 10

A     90
B     20
C    100
D     10
E     20
dtype: int64

In [17]:
data[['B','E']]

B    2
E    2
dtype: int64

In [22]:
# offset index
data[::-1]

E     2
D     1
C    10
B     2
A     9
dtype: int64

### Series 연산

In [23]:
data

A     9
B     2
C    10
D     1
E     2
dtype: int64

In [24]:
data2 = pd.Series({'D' : 3, 'E' : 5, 'F' : 7})
data2

D    3
E    5
F    7
dtype: int64

In [25]:
result = data + data2
result # None

A    NaN
B    NaN
C    NaN
D    4.0
E    7.0
F    NaN
dtype: float64

In [30]:
result[result.isnull()] = data
result

A     9.0
B     2.0
C    10.0
D     4.0
E     7.0
F     NaN
dtype: float64

In [34]:
result = result.fillna(data2)
result

A     9.0
B     2.0
C    10.0
D     4.0
E     7.0
F     7.0
dtype: float64

### 2.DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.


In [37]:
# 데이터 프레임 생성1 : 딕셔너리의 리스트
datas = {
    'name' : ['dss', 'fcamp'],
    'email' : ['dss@gmail.com', 'fcamp@daum.net']
}
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@daum.net


In [46]:
# 데이터 프레임 생성2 : 리스트의 딕셔너리
datas = [
    {'name' : 'dss', 'email' : 'dss@gmail.com'},
    {'name' : 'fcamp', 'email' : 'fcamp@gmail.com'}
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com


In [60]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index = ['one', 'two'])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,fcamp,fcamp@gmail.com


In [61]:
df.index

Index(['one', 'two'], dtype='object')

In [62]:
df.columns

Index(['name', 'email'], dtype='object')

In [64]:
df.values

array([['dss', 'dss@gmail.com'],
       ['fcamp', 'fcamp@gmail.com']], dtype=object)

In [65]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [110]:
# row 선택
datas = [
    {'name' : 'dss', 'email' : 'dss@gmail.com'},
    {'name' : 'fcamp', 'email' : 'fcamp@gmail.com'}
]
df = pd.DataFrame(datas)

df.loc[1]

name               fcamp
email    fcamp@gmail.com
Name: 1, dtype: object

In [72]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {'name' : 'andy', 'email' : 'andy@naver.com'}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com
2,andy,andy@naver.com


In [76]:
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com
2,andy,andy@naver.com


In [74]:
# column 선택
df['name']

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [77]:
df['id'] = ''
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,fcamp,fcamp@gmail.com,
2,andy,andy@naver.com,


In [78]:
df['id'] = range(1,4)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


In [81]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [87]:
# row, column 선택
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


In [88]:
df.loc[[0,2],['email','id']]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,andy@naver.com,3


In [89]:
# 컬럼 데이터 순서 설정
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


In [90]:
df[['id', 'name', 'email']]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcamp,fcamp@gmail.com
2,3,andy,andy@naver.com


In [92]:
# head, tail

In [98]:
df.head() #위에서 5개

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


In [99]:
df.tail() #아래에서 5개

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷

In [100]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,fcamp,fcamp@gmail.com,2
2,andy,andy@naver.com,3


In [101]:
def domain(email):
    return email.split('@')[1].split('.')[0]

domain(df.loc[0]['email'])

'gmail'

In [103]:
df['domain'] = df['email'].apply(domain)
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@gmail.com,2,gmail
2,andy,andy@naver.com,3,naver


In [104]:
df['domain'] = df['email'].apply(lambda email : email.split('@')[1].split('.')[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gmail.com,1,gmail
1,fcamp,fcamp@gmail.com,2,gmail
2,andy,andy@naver.com,3,naver


In [108]:
# append 데이터 프레임 합치기

In [111]:
df1 = df
df1

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com


In [112]:
df3 = df.append(df1)
df3

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com


In [115]:
# reset_index 인덱스 재정렬
df3.reset_index()

Unnamed: 0,index,name,email
0,0,dss,dss@gmail.com
1,1,fcamp,fcamp@gmail.com
2,0,dss,dss@gmail.com
3,1,fcamp,fcamp@gmail.com


In [119]:
df3.reset_index(drop = True, inplace = True)
df3

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com
2,dss,dss@gmail.com
3,fcamp,fcamp@gmail.com


### concat
- row나 column으로 데이터 프레임을 합칠때 사용

In [127]:
df3 = pd.concat([df, df1]).reset_index(drop = True)
df3

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com
2,dss,dss@gmail.com
3,fcamp,fcamp@gmail.com


In [128]:
pd.concat([df3, df1], axis = 1)

Unnamed: 0,name,email,name.1,email.1
0,dss,dss@gmail.com,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com,fcamp,fcamp@gmail.com
2,dss,dss@gmail.com,,
3,fcamp,fcamp@gmail.com,,


In [131]:
pd.concat([df3, df1], axis = 1,join = 'inner')

Unnamed: 0,name,email,name.1,email.1
0,dss,dss@gmail.com,dss,dss@gmail.com
1,fcamp,fcamp@gmail.com,fcamp,fcamp@gmail.com


### group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [142]:
datas = {
    'Age' : [24,36,40,25,34,23,26],
    'Name' : ['Moon', 'Jo', 'Kim', 'Yang', 'Lee', 'Jo', "Moon"]
}
df = pd.DataFrame(datas)
df

Unnamed: 0,Age,Name
0,24,Moon
1,36,Jo
2,40,Kim
3,25,Yang
4,34,Lee
5,23,Jo
6,26,Moon


In [144]:
# size
df.groupby('Name').size()

Name
Jo      2
Kim     1
Lee     1
Moon    2
Yang    1
dtype: int64

In [149]:
result_df = df.groupby('Name').size().reset_index(name = 'count') # Series를 DataFrame으로
result_df

Unnamed: 0,Name,count
0,Jo,2
1,Kim,1
2,Lee,1
3,Moon,2
4,Yang,1


In [154]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬
result_df.sort_values(['count'], ascending=False, inplace= True)
result_df.reset_index(drop = True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Jo,2
1,Moon,2
2,Kim,1
3,Lee,1
4,Yang,1


In [None]:
# agg : 데이터 프레임으로 결과가 나옴
# size(), min(), max(), mean()

In [157]:
df.groupby('Name').agg('min').reset_index()

Unnamed: 0,Name,Age
0,Jo,23
1,Kim,40
2,Lee,34
3,Moon,24
4,Yang,25


In [158]:
df

Unnamed: 0,Age,Name
0,24,Moon
1,36,Jo
2,40,Kim
3,25,Yang
4,34,Lee
5,23,Jo
6,26,Moon


In [159]:
# 데이터를 요약해서 보여주는 
df.describe()

Unnamed: 0,Age
count,7.0
mean,29.714286
std,6.79986
min,23.0
25%,24.5
50%,26.0
75%,35.0
max,40.0


### summary
- pandas
    - 데이처 분석 : 데이터 전처리 파트
    - 테이블 형태의 데이터를 처리할때 사용하는 python 라이브러리
    - Series, DataFrame
    - Series
        - 생성, 선택, 수정 방법
    - DataFrame
        - 생성 방법 1 : 딕셔너리의 리스트 : 리스트 -> 컬럼 데이터
        - 생성 방법 2 : 리스트의 딕셔너리 : 딕셔너리 -> 로우 데이터
        - row 선택 : df.loc[idx]
        - column 선택 : df[column name]
        - row, column 선택 : df.loc[idx, column]
        - 함수
            - apply, append, concat
            - groupby, merge
            

### quiz
- money_df 만들기
    - 15개의 데이터
    - ID : 1~8 랜덤한 숫자 데이터
    - Money : 1000원 단위로 1000원 ~ 20000원까지의 숫자를 저장

In [183]:
# 딕셔너리 데이터를 데이터 프레임에 하나씩 추가하기
money_df = pd.DataFrame(columns=["ID", 'Money'])

for _ in range(15):
    money_df.loc[len(money_df)] = {
        'ID' : np.random.randint(1, 9),
        'Money' : np.random.randint(1,21) * 1000
    }
money_df

Unnamed: 0,ID,Money
0,3,1000
1,5,4000
2,7,13000
3,3,15000
4,3,18000
5,4,16000
6,3,20000
7,6,12000
8,2,11000
9,6,3000


In [182]:
#컬럼 데이터에서 unique 값 확인
ids = money_df['ID'].unique()
ids.sort()
ids

array([1, 2, 3, 4, 5, 6, 7, 8], dtype=object)