## 1. pandas
- pannel data의 약자
- 1. 다양한 파일 형식 지원 가능 → csv, excel, SQL, JSON 등등
- 2. 데이터 정재와 조작 특화된 라이브러리
- 3. DataFrame과 Series는 기본적으로 np.array(ndarray) 구조
    - numpy 라이브러리 호환 잘됨    

### 1.1 pandas에서 제공하는 데이터 구조
- Series : 1차원 배열 형태의 데이터 구조
    - index + value
- DataFrame : 2차원 배열 형태의 데이터 구조
    - Series들의 모음
    - column(열) + row(행) 구조
    - 서로 다른 자료형을 저장하여 활용할 수 있다

- 우리 궁극적인 목적은 "데이터 분석"이다!!

In [1]:
import numpy as np
import pandas as pd

### 1 Series 다루기

### 1.1 Series 생성

In [2]:
# Series 생성
pop = pd.Series([9668465,3391946,2942828,1450062])
print(pop, end='\n\n')

# index 명 지어주기
# pd.Series([시퀀스 자료구조, index=['인덱스명1','인덱스명2'...]])
pop = pd.Series([9668465,3391946,2942828,1450062],
                index=['서울','부산','인천','광주'])
print(pop)

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64


In [3]:
# index 명을 부여해도 index 값이 사라지지는 않는다
pop[0] == pop['서울']

True

In [4]:
# Series 값 확인
print(pop.values, end='\n\n')
print(pop.array)

[9668465 3391946 2942828 1450062]

<PandasArray>
[9668465, 3391946, 2942828, 1450062]
Length: 4, dtype: int64


In [5]:
# Series index 확인
pop.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [6]:
# Series 데이터 타입 확인
print(pop.dtype) # 요소들의 타입 확인
print(type(pop)) # Series 타입 확인

int64
<class 'pandas.core.series.Series'>


In [7]:
# Series에 이름 지정
# Series에 큰 타이틀 이름 지정

pop.name = '인구'

#Series에 index 이름 지정
pop.index.name = '지역'

In [8]:
pop

지역
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### 1.2 Series 인덱싱, 슬라이싱
- 인덱싱 : 1개의 요소를 가리키는 것
= 슬라이싱 : 여러개의 요소를 잘라내는 것

In [9]:
print(pop[1]) # 정수 인덱싱
print(pop['부산']) # index 병멸 인데싱
print(pop[[0,3,1]]) # 다중 인덱싱(정수)
print(pop[['서울','광주','부산']]) #다중 인덱싱(정수)

3391946
3391946
지역
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64
지역
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64


### 1.3 "iloc"와 "loc"속성
    - iloc : integer location(정수 위치) → "행번호"를 가지고 값을 인덱싱 하는 방법
    - loc : location(위치) →"index 별명"을 가지고 값을 인덱싱, 슬라이싱 하는 방법

In [10]:
print(pop.iloc[0])
print(pop.iloc[0:2])

9668465
지역
서울    9668465
부산    3391946
Name: 인구, dtype: int64


### 1.4 Series Boolean 인덱싱
- 특정 조건을 만족하는 값들의 인덱싱
- Series[Boolean mask]

In [11]:
pop[pop >= 2500000]

지역
서울    9668465
부산    3391946
인천    2942828
Name: 인구, dtype: int64

## Series Boolean 인덱싱, 연산 실습!
- average monthly wage : 월 평균임금
- average daily wage : 일 평균임금

In [12]:
data = {'IT기획자':8644000, '데이터분석가':7158000,
       '응용SW개발자':6426000, 'IT품질관리자':8294000}

# 딕셔너리 자료형을 Series로 변환
sw_M_wage = pd.Series(data)
sw_M_wage

IT기획자      8644000
데이터분석가     7158000
응용SW개발자    6426000
IT품질관리자    8294000
dtype: int64

In [13]:
data2 = {'IT기획자':9543000, '데이터분석가':11226000,
       '시스템SW개발자':5100000, 'IT마케터':7801000}

sw_M_wage2 = pd.Series(data2)
sw_M_wage2

IT기획자        9543000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
dtype: int64

In [14]:
# 일 평균임금 계산
# 실제로는 3개월 간의 총 임금을 그 기간의 총 일수로 나눠서 산정
# 대충 일한 일 수로만 계산해보자(23일)

sw_D_wage = (sw_M_wage/23).astype(int)
sw_D_wage

IT기획자      375826
데이터분석가     311217
응용SW개발자    279391
IT품질관리자    360608
dtype: int32

In [15]:
# 두 회사의 차이를 비교하기 위해 연산 실행
# Series끼리의 연산(가능하나 inner join으로만 나오게 된다)
# NaN : 결측치(비어있는 값)

wage_minus = sw_M_wage2 - sw_M_wage
wage_minus

IT기획자        899000.0
IT마케터             NaN
IT품질관리자           NaN
데이터분석가      4068000.0
시스템SW개발자          NaN
응용SW개발자           NaN
dtype: float64

In [16]:
# 비어있지 않는 데이터만 보는 경우
# notnull()
wage_minus[wage_minus.notnull()].astype(int)

IT기획자      899000
데이터분석가    4068000
dtype: int32

In [17]:
# 비어있는 데이터만 보는 경우
# isnull()
wage_minus[wage_minus.isnull()]

IT마케터      NaN
IT품질관리자    NaN
시스템SW개발자   NaN
응용SW개발자    NaN
dtype: float64

### 1.5 Series 데이터 추가, 수정, 삭제

In [19]:
# 수정
sw_M_wage2

IT기획자        9543000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
dtype: int64

In [21]:
sw_M_wage2['IT기획자'] = 9742000
sw_M_wage2

IT기획자        9742000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
dtype: int64

In [22]:
# 추가
sw_M_wage2['IT컨설턴트'] = 9805000
sw_M_wage2

IT기획자        9742000
데이터분석가      11226000
시스템SW개발자     5100000
IT마케터        7801000
IT컨설턴트       9805000
dtype: int64

In [24]:
# 삭제
del sw_M_wage2['시스템SW개발자']

In [25]:
sw_M_wage2

IT기획자      9742000
데이터분석가    11226000
IT마케터      7801000
IT컨설턴트     9805000
dtype: int64

## 2. DataFrame
- 2차원 데이터에서 사용되는 자료구조
- 엑셀, Csv, DB, API 등등 불러오되, 다시 재구성해야 함

In [26]:
# 첫번쨰 방법 : 딕셔너리를 통한 컬럼 단위로 생성

data = {'ITPM':[463,9543,57],
        '업무분석가':[544,11226,68],
       'IT아키텍트':[518,10672,64],
       'UIUX개발자':[291,6003,36]}
data

{'ITPM': [463, 9543, 57],
 '업무분석가': [544, 11226, 68],
 'IT아키텍트': [518, 10672, 64],
 'UIUX개발자': [291, 6003, 36]}

In [29]:
# DataFrame 화
df = pd.DataFrame(data)
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자
0,463,544,518,291
1,9543,11226,10672,6003
2,57,68,64,36


In [31]:
# DataFrame index 별명 수정
df.index = ['일 평균임금','월 평균 임금', '시간 평균임금']
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자
일 평균임금,463,544,518,291
월 평균 임금,9543,11226,10672,6003
시간 평균임금,57,68,64,36


In [63]:
# 두번쨰 방법 : row 단위로 list 활동
data2 = [[463,9543,57],
         [544,11226,68],
         [518,10672,64],
         [291,6003,36]]

columns = ['일평균임금','월평균임금','시간평균임금']
row = ['ITPM','업무분석가','IT아키텍트','UIUX개발자']
df = pd.DataFrame(data2, index=row, columns=columns)
df

Unnamed: 0,일평균임금,월평균임금,시간평균임금
ITPM,463,9543,57
업무분석가,544,11226,68
IT아키텍트,518,10672,64
UIUX개발자,291,6003,36


In [68]:
# index와 columns의 전치(위치를 뒤바꿈)
# Transpose의 약자 → T
df =df.T

In [65]:
df.values

array([[  463,  9543,    57],
       [  544, 11226,    68],
       [  518, 10672,    64],
       [  291,  6003,    36]], dtype=int64)

In [66]:
df.index

Index(['ITPM', '업무분석가', 'IT아키텍트', 'UIUX개발자'], dtype='object')

In [67]:
df.columns

Index(['일평균임금', '월평균임금', '시간평균임금'], dtype='object')

## 2.1 DataFrame 인덱싱, 슬라이싱
- DataFrame은 "Series의 모임"이라고 생각하면 편함
- DataFrame 인덱싱 : 하나의 시리즈를 가져옴
- DataFrame 슬라이싱 : 여러 개의 원하는 부분을 가져옴

#### 2.1.1 열접근(컬럼 선택)
- DataFrame명['컬럼명']

In [71]:
# Series → 1차원 → []
df['ITPM']

일평균임금      463
월평균임금     9543
시간평균임금      57
Name: ITPM, dtype: int64

In [74]:
# DataFrame → 2차원 → [[]]
df[['ITPM','업무분석가']]

Unnamed: 0,ITPM,업무분석가
일평균임금,463,544
월평균임금,9543,11226
시간평균임금,57,68


In [75]:
# DataFrame 추가
df['정보보안전문가']=[362,7426,45]
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자,정보보안전문가
일평균임금,463,544,518,291,362
월평균임금,9543,11226,10672,6003,7426
시간평균임금,57,68,64,36,45


In [77]:
# 행 슬라이싱
df[0:2]

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자,정보보안전문가
일평균임금,463,544,518,291,362
월평균임금,9543,11226,10672,6003,7426


In [None]:
# 매우 헷갈림...
# DataFrame은 컬럼은 인덱싱으로 접근하고,
# row는 슬라이싱으로만 접근이 가능하냐...?
# 이건 아니다!

## 2.2 DataFrame 슬라이싱 → 인덱서(indexer) 활용
- 인덱서란?
    - DataFrame 객체에 대해서 "함수"가 아닌 "속성"으로써 행과 열을 한번에 인덱싱/슬라이싱 할 수 있는 기능
    - "속성"이라서 [] 대괄호 사용
<br><br>
- loc[] 인덱서
    - "인덱스 명"과 "컬럼 명"을 가지고 값을 인덱싱/슬라이싱하는 방법
<br><br>

- iloc[] 인덱서
    - "행 번호"와 "열 번호"를 가지고 값을 인덱싱/슬라이싱하는 방법 
    

In [78]:
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자,정보보안전문가
일평균임금,463,544,518,291,362
월평균임금,9543,11226,10672,6003,7426
시간평균임금,57,68,64,36,45


In [83]:
display(df.loc['시간평균임금'])
display(df.iloc[2])

ITPM       57
업무분석가      68
IT아키텍트     64
UIUX개발자    36
정보보안전문가    45
Name: 시간평균임금, dtype: int64

ITPM       57
업무분석가      68
IT아키텍트     64
UIUX개발자    36
정보보안전문가    45
Name: 시간평균임금, dtype: int64


- loc 인덱서
    - DataFrame명.loc['인덱스 명'{,'컬럼 명'}] {생략가능}
    - 컬럼 명 생략시 전체 해당 행의 모든 열을 출력
- iloc 인덱서
    - DataFrame명.iloc['행 번호'{,'열 번호'}]
    - 열 번호 생략시 전체 해당 행의 모든 열을 출력

In [84]:
df

Unnamed: 0,ITPM,업무분석가,IT아키텍트,UIUX개발자,정보보안전문가
일평균임금,463,544,518,291,362
월평균임금,9543,11226,10672,6003,7426
시간평균임금,57,68,64,36,45


In [87]:
display(df.loc['시간평균임금','ITPM'])
display(df.iloc[2,0])

57

57

In [90]:
# 권장하지 않음. 컬럼명이 숫자로 시작하면 정수로 인식함
df.ITPM

일평균임금      463
월평균임금     9543
시간평균임금      57
Name: ITPM, dtype: int64