## 1. pandas
- pannel data 의 약자
- 1. 다양한 파일 형식 지원 가능 >> csv, excel, sql, json 등등
- 2. 데이터 정제 및 조작 특화 라이브러리
- 3. DataFrame과 Series는 기본적으로 np.array(ndarray) 구조
    - numpy 라이브러리 호환성이 높음
    

### pandas에서 제공하는 데이터 구조
- Series : 1차원 배열 형태의 데이터 구조
    - index + value
    
- DataFrame : 2차원 배열 형태의 데이터 구조
    - Series들의 모음
    - column(열) + row(행) 구조
    - 서로 다른 자료형을 저장하여 활용 할 수 있다
    
- 궁극적인 목적은 '데이터분석'

In [3]:
import numpy as np
import pandas as pd

### Series

In [4]:
# Series 생성
pop = pd.Series([9668465,3391946,2942828,1450062])
print(pop, end='\n\n')

# index 명 생성하기
# pd.Series([시퀀스], index = ['인덱스명1','인덱스명2', .....])
pop = pd.Series([9668465,3391946,2942828,1450062], 
                index=['서울','부산','인천','광주'])
print(pop)

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64


In [14]:
print(pop['서울'])
print(pop[0])

9668465
9668465


In [6]:
#Series index 확인
pop.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [8]:
#Series 데이터 타입 확인
print(pop.dtype) #요소들의 타입 확인
print(type(pop)) #Series 타입 확인

int64
<class 'pandas.core.series.Series'>


In [26]:
# Series에 이름 지정
# Series에 큰 타이틀 이름 지정

pop.name = '인구'
pop.index.name = '지역'

In [10]:
pop

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [11]:
#Series 연산
pop / 1000000

서울    9.668465
부산    3.391946
인천    2.942828
광주    1.450062
Name: 인구, dtype: float64

In [18]:
print(pop[1]) # 정수 인덱싱
print(pop['부산']) # index 별명 인덱싱
print(pop[[0,3,1]]) # 다중 인덱싱(정수)
print(pop[['서울', '광주', '부산']]) # 다중 인덱싱 (index 별명)

3391946
3391946
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64


### 'iloc' 와 ' loc'속성
- iloc : integer location(정수 위치) >> '행번호'를 가지고 값을 인덱싱/슬라이싱 하는 방법
- loc : location(위치) >> 'index 별명'을 가지고 값을 인덱싱/슬라이싱 하는 방법

In [19]:
print(pop.iloc[0]) # iloc 인덱싱
print(pop.iloc[0:2]) # iloc 슬라이싱

9668465
서울    9668465
부산    3391946
Name: 인구, dtype: int64


In [21]:
print(pop.loc['서울']) # loc 인덱싱
print(pop.loc['서울' : '부산']) # loc 슬라이싱 (끝값을 포함)

9668465
서울    9668465
부산    3391946
Name: 인구, dtype: int64


### Series boolean indexing
- 특정 조건을 만족하는 값들의 인덱싱
- Series[boolean mask]

In [27]:
pop[pop >= 2500000]

지역
서울    9668465
부산    3391946
인천    2942828
Name: 인구, dtype: int64

## Series Boolean indexing,연산실습
- average monthly wage : 월 평균임금
- average daily wage : 일 평균임금

In [30]:
data = {'IT기획자':8644000, '데이터분석가':7158000,
       '응용SW개발자':6426000, 'IT품질관리자':8294000}

# 딕셔너리 자료형을 Series로 변환
sw_M_wage = pd.Series(data)
sw_M_wage

IT기획자      8644000
데이터분석가     7158000
응용SW개발자    6426000
IT품질관리자    8294000
dtype: int64

In [31]:
data2 = {'IT기획자':9543000, '데이터분석가':11226000,
       '시스템SW개발자':5100000, 'IT마케터':7801000}
sw_M_wage2 = pd.Series(data2)
sw_M_wage2

IT기획자        9543000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
dtype: int64

In [35]:
# 일평균임금 계산
# 실제 계산시 3개월간의 총 임금을 그 기간의 총 일수로 나눠서 산정

sw_D_wage = (sw_M_wage/23).astype(int)
sw_D_wage

IT기획자      375826
데이터분석가     311217
응용SW개발자    279391
IT품질관리자    360608
dtype: int32

In [37]:
# 두 회사의 차이를 비교하기 위해 연산 실행
# Series끼리의 연산(가능하나, inner join으로만 나오게 된다.)
# NaN : 결측치(비어있는 값)

wage_minus = sw_M_wage2 - sw_M_wage
wage_minus

IT기획자        899000.0
IT마케터             NaN
IT품질관리자           NaN
데이터분석가      4068000.0
시스템SW개발자          NaN
응용SW개발자           NaN
dtype: float64

In [40]:
# 비어있지 않는 데이터만 보는 경우
# notnull()

wage_minus[wage_minus.notnull()].astype(int)

IT기획자      899000
데이터분석가    4068000
dtype: int32

In [41]:
# 비어있는 데이터만 보는 경우
# isnull()

wage_minus[wage_minus.isnull()]

IT마케터      NaN
IT품질관리자    NaN
시스템SW개발자   NaN
응용SW개발자    NaN
dtype: float64

### Series 데이터 추가, 수정, 삭제

In [46]:
# 수정
print(sw_M_wage2)

IT기획자        9543000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
dtype: int64


In [51]:
sw_M_wage2['IT기획자'] = 97420000
sw_M_wage2

IT기획자       97420000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
IT 기획자      97420000
dtype: int64

In [54]:
# 추가
sw_M_wage2['IT컨설턴트'] = 9805000
sw_M_wage2

IT기획자       97420000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
IT컨설턴트       9805000
dtype: int64

In [55]:
# 삭제
del sw_M_wage2['시스템SW개발자']

In [56]:
sw_M_wage2

IT기획자     97420000
데이터분석가    11226000
IT마케터      7801000
IT컨설턴트     9805000
dtype: int64

## 2.DataFrame
- 2차원 데이터에서 사용되는 자료구조
- excel, CSV, DB, API 등등 불러오되, 다시 재구성해야 함

In [91]:
# 첫번쨰 방법 : 딕셔너리를 통한 컬럼 단위로 생성

data = {'ITPM':[463,9543,57],
        '업무분석가':[544,11226,68],
       'IT아키텍트':[518,10672,64],
       'UIUX개발자':[291,6003,36]}
data

{'ITPM': [463, 9543, 57],
 '업무분석가': [544, 11226, 68],
 'IT아키텍트': [518, 10672, 64],
 'UIUX개발자': [291, 6003, 36]}

In [92]:
# DataFrame화
df = pd.DataFrame(data)
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자
0,463,544,518,291
1,9543,11226,10672,6003
2,57,68,64,36


In [93]:
# DataFrame index 별명 수정
df.index = ['일 평균임금', '월 평균임금', '시간 평균임금']
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자
일 평균임금,463,544,518,291
월 평균임금,9543,11226,10672,6003
시간 평균임금,57,68,64,36


In [94]:
# Data Frame화
df1 = pd.DataFrame(data, index = ['일 평균임금', '월 평균임금', '시간 평균임금'])
df1

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자
일 평균임금,463,544,518,291
월 평균임금,9543,11226,10672,6003
시간 평균임금,57,68,64,36


In [99]:
# 두번째 방법 : raw단위로 list 활용

data2 = [[463,9543,57],
         [544,11226,68],
         [518,10672,64],
         [291,6003,36]]

columns = ['일 평균임금', '월 평균임금', '시간 평균임금']
raw = ['ITPM', '업무분석가', 'IT아키텍트', 'UXUI개발자']
df2 = pd.DataFrame(data2, index=raw, columns = columns)
df2

Unnamed: 0,일 평균임금,월 평균임금,시간 평균임금
ITPM,463,9543,57
업무분석가,544,11226,68
IT아키텍트,518,10672,64
UXUI개발자,291,6003,36


In [100]:
# index와 columns의 전치(위치를 바꿈)
# Transpose의 약자 >> T
df2 = df2.T
df2

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자
일 평균임금,463,544,518,291
월 평균임금,9543,11226,10672,6003
시간 평균임금,57,68,64,36


In [101]:
df2.values

array([[  463,   544,   518,   291],
       [ 9543, 11226, 10672,  6003],
       [   57,    68,    64,    36]], dtype=int64)

In [102]:
df.index

Index(['일 평균임금', '월 평균임금', '시간 평균임금'], dtype='object')

In [103]:
df.columns

Index(['ITPM', '업무분석가', 'IT아키텍트', 'UIUX개발자'], dtype='object')

## DataFrame indexing/slicing
- DataFrame은 'Series의 모임'이라고 생각하면 편함
- DataFrame 인덱싱 : 하나의 Series를 가져옴
- DataFrame 슬라이싱 : 여러개의 원하는 부분을 가져옴

#### 열접근(컬럼선택)
- DataFrame명.['컬럼명']

In [104]:
# Series >> 1차원
df2['ITPM']

일 평균임금      463
월 평균임금     9543
시간 평균임금      57
Name: ITPM, dtype: int64

In [108]:
# Series >> 2차원
df2[['ITPM', '업무분석가']]

Unnamed: 0,ITPM,업무분석가
일 평균임금,463,544
월 평균임금,9543,11226
시간 평균임금,57,68


In [109]:
# DataFrame 추가
df2['정보보안전문가'] = [362, 7426, 45]
df2

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자,정보보안전문가
일 평균임금,463,544,518,291,362
월 평균임금,9543,11226,10672,6003,7426
시간 평균임금,57,68,64,36,45


In [111]:
# 행 슬라이싱
df2[0:2]

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자,정보보안전문가
일 평균임금,463,544,518,291,362
월 평균임금,9543,11226,10672,6003,7426


## DataFrame 슬라이싱 >> 인덱서(indexer)활용
- 인덱서란?
    - DataFrame 객체에 대해서 "함수"가 아닌 "속성[ ]"으로써, 
      행과 열을 한번에 인덱싱/슬라이싱 할 수 있는 기능
<br><br>      
- loc[ ] indexer
    - "인덱스명"과 "컬럼명"을 가지고 값을 인덱싱/슬라이싱하는 방법<br>
    - DataFrame명.loc["인덱스명"{,"컬럼명"}]
    - "컬럼명" 생략 시 해당 행의 모든 열을 출력
<br><br>

- iloc[ ] indexer
    - "행 번호"와 "열 번호"를 가지고 값을 인덱싱/슬라이싱 하는 방법<br>
    - DataFrame명.loc["행 번호"{,"열 번호"}]
    - "열 번호" 생략 시 해당 행의 모든 열을 출력

In [112]:
df2

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자,정보보안전문가
일 평균임금,463,544,518,291,362
월 평균임금,9543,11226,10672,6003,7426
시간 평균임금,57,68,64,36,45


In [118]:
display(df2.loc[['시간 평균임금']])
display(df2.iloc[[2]])

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자,정보보안전문가
시간 평균임금,57,68,64,36,45


Unnamed: 0,ITPM,업무분석가,IT아키텍트,UXUI개발자,정보보안전문가
시간 평균임금,57,68,64,36,45


In [120]:
display(df2.loc['시간 평균임금', 'ITPM'])
display(df2.iloc[2,0])

57

57

In [122]:
display(df2.iloc[0:2,2:4])

Unnamed: 0,IT아키텍트,UXUI개발자
일 평균임금,518,291
월 평균임금,10672,6003
