### Series: 1차원 데이터 자료 형식
- 인덱스 + 값으로 구성

In [8]:
import pandas as pd

In [12]:
# Series 만들기
# Pandas의 Series 함수 사용

pop = pd.Series([9901232, 3441423, 2891323, 2462123])
pop

0    9901232
1    3441423
2    2891323
3    2462123
dtype: int64

In [18]:
# 인덱스 각각에 이름을 부여
# Series.index = [값, 값, ...]

pop.index = ['서울', '부산', '인천', '대구']
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [24]:
# 이름을 재설정
# Series.rename({기존값:바꿀값})

pop.rename({'서울':'써울'})


써울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [30]:
# Series의 인덱스 이름을 부여해서 만들기

pop = pd.Series([9901232, 3441423, 2891323, 2462123],
               index = ['서울', '부산', '인천', '대구']
               )

pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [34]:
# 딕셔너리로 Series 생성
# 딕셔너리의 키값이 인덱스의 이름으로 들어감
pop = pd.Series({'서울' : 9901232, '부산': 3441423, '인천': 2891323, '대구': 2462123})
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
dtype: int64

In [38]:
# Series에 이름을 부여하기

pop.name = '인구수'
pop

서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [40]:
# Series의 인덱스 전체(그룹)에 이름을 부여하기

pop.index.name = '도시'
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

### Series의 데이터 확인 (속성 확인)

In [43]:
# Series의 값들 확인
# Series.values

pop.values

array([9901232, 3441423, 2891323, 2462123])

In [49]:
type(pop.values) # pandas 라이브러리가 numpy를 바탕으로 만들어졌기 때문

numpy.ndarray

In [51]:
# Series의 인덱스 확인하기
# Series.index

pop.index

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')

In [53]:
# Series의 데이터 타입 확인하기
# Series.dtype

pop.dtype

dtype('int64')

### 인덱싱

In [56]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [58]:
# 인덱스의 이름으로 인덱싱

pop['서울']

9901232

In [60]:
# 인덱스 번호로 인덱싱
pop[1]

  pop[1]


3441423

In [68]:
# 여러 도시를 인덱싱
# 인덱스를 '리스트'의 형태로 입력

pop[['부산', '대구']]

도시
부산    3441423
대구    2462123
Name: 인구수, dtype: int64

### 슬라이싱

In [71]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [75]:
# 인덱스 번호로 슬라이싱
pop[1 : 3]

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

In [83]:
# 인덱스 이름으로 슬라이싱
# 인덱스 이름으로 슬라이싱 하는 경우에는 끝값 포함
pop['부산':'인천']

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

### 불리언 인덱싱
- 특정 조건에 맞는 데이터를 가져올 때 사용
- 인덱스 번호 대신, 조건식을 입력

In [90]:
# Series에서 불리언 값을 불러와보기
# 인구가 300만 미만인가?

pop[pop < 3000000]

도시
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [96]:
# 인구가 250만 초과이고, 500만 미만인 도시들을 가져오기

pop[(pop < 5000000) & (pop > 2500000)]

도시
부산    3441423
인천    2891323
Name: 인구수, dtype: int64

#### Series 데이터 변경, 추가, 삭제

In [99]:
pop

도시
서울    9901232
부산    3441423
인천    2891323
대구    2462123
Name: 인구수, dtype: int64

In [113]:
# 데이터 변경
# 인덱싱으로 값을 불러와서 새로운 값을 넣어줌

pop['부산'] = 3400000
pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
대전    2400000
Name: 인구수, dtype: int64

In [111]:
# 데이터 추가
# 기존에 입력한 적 없는 인덱스에 데이터를 삽입

pop['대전'] = 2400000
pop

도시
서울    9901232
부산    3400000
인천    2891323
대구    2462123
대전    2400000
Name: 인구수, dtype: int64

In [121]:
# 데이터 삭제

del pop['대전']

pop

### DataFrame(2차원 데이터) 만들기

In [134]:
# 딕셔너리를 이용해 데이터 프레임 생성 하기
# 자료
data = {
    '서울': [9904312, 9631482],
    '부산': [3448737, 3393191],
    '인천': [2890451, 2632035],
    '대구': [2466052, 2431774],
}

# 인덱스
ind = ['2015', '2010']

pop = pd.DataFrame(data, ind) # 자료, 인덱스 순으로 넣어주기
pop

# Series: key 값이 인덱스의 이름으로 사용
# DataFrame: key 값이 컬럼명으로 사용

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [138]:
# 리스트를 이용해 데이터 프레임 생성 하기

data = [[9904312,3448737,2890451,2466052],
        [9631482,3393191,2632035,2431774]]

ind = ['2015', '2010']

col = ['서울', '부산', '인천', '대구']

pop = pd.DataFrame(data, index = ind, columns = col) # 자료, 인덱스 이름, 컬럼명 순으로 넣어주기

pop

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [144]:
# 인덱스의 이름 변경
# DF.rename(index = {'바꾸기 전': '바꾼 후'}, colums = {'바꾸기 전': '바꾼 후'})

pop.rename(index = {'2015': '2016', '2010': '2011'}, columns = {'서울': '서울시', '부산': '부산시'})

Unnamed: 0,서울시,부산시,인천,대구
2016,9904312,3448737,2890451,2466052
2011,9631482,3393191,2632035,2431774


### 정리
- DF을 생성하는 방법은 2가지
  - 딕셔너리 방식은 key 값이 컬럼명, value값이 위에서 아래로
  - 리스트 방식은 데이터가 보이는 위치 그대로 들어감

In [151]:
# 전치
# 전치 시키면 딕셔너리와 형태가 같아짐
pop = pop.T
pop

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [163]:
# DataFrame의 컬럼 변경
# 기존 컬럼을 인덱싱 해서 새로운 값 대입
# 인덱싱은 컬럼에만 접근가능

pop['2015'] = [90000000, 23450000, 2342234, 5029384]
pop

Unnamed: 0,2015,2010
서울,90000000,9631482
부산,23450000,3393191
인천,2342234,2632035
대구,5029384,2431774


In [165]:
pop['2015']['서울']

90000000

In [169]:
# DataFrame에 새로운 컬럼 추가
pop['2005'] = [1, 2, 3, 4]

pop

Unnamed: 0,2015,2010,2005
서울,90000000,9631482,1
부산,23450000,3393191,2
인천,2342234,2632035,3
대구,5029384,2431774,4
