In [1]:
# 라이브러리 import
import pandas as pd

### Series 생성

In [2]:
# 인덱스와 값으로 구성됨
population = pd.Series([9904312,3448737,2890451,2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
population = pd.Series([9904312,3448737,2890451,2466052]
         ,index=['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series 데이터 확인
- values : 값 확인
- index : 인덱스 확인
- dtype : 데이터 타입 확인

In [4]:
population.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [5]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
population.dtype

dtype('int64')

### Series에 이름 지정
- name
- index.name

In [8]:
# series에 이름달기
population.name = '인구'

In [9]:
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [14]:
# series의 인덱스에 이름달기
population.index.name = '도시'

In [15]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series 연산

In [18]:
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱, 슬라이싱

In [27]:
# 인덱싱
# index 번호
print(population[1])
# index 값
print(population['부산'])

3448737
3448737


In [28]:
print(population['대구'])
print(population[3])

2466052
2466052


In [38]:
# 한 번에 여러가지 값 인덱싱 가능 - 리스트 활용!
population[[0,2,1]] # index 번호
# index 값
population[['서울','인천','부산']]

도시
서울    9904312
인천    2890451
부산    3448737
Name: 인구, dtype: int64

In [39]:
# Boolean 인덱싱 1
population >= 2500000 #불리언

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [41]:
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [51]:
# Boolean 인덱싱 2
population[population<= 5000000] 

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [59]:
# Boolean 인덱싱 3
# 250만 이상이면서, 500만 이하
# and => &, or => |
# 먼저 소활호로 묶어 준다!
(population>= 2500000) & (population<= 5000000)

도시
서울    False
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [60]:
population[(population>= 2500000) & (population<= 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [64]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [72]:
# 슬라이싱 [시작:끝]
# 자동 부여 되는 index 번호(숫자)
# [이상:미만]
population[1:3]
# 지정한 index 값 (문자)
# [이상:이하]
population['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [71]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 딕셔너리 객체로 Series 생성
- 딕셔너리 key와 value로 구성
- key 값은 index
- value 값은 value

In [73]:
data = {'서울':9631482,
       '부산':3393191,
       '인천':2632035,
       '대전':190158}
data

{'서울': 9631482, '부산': 3393191, '인천': 2632035, '대전': 190158}

In [76]:
population2 = pd.Series(data)

In [77]:
population2

서울    9631482
부산    3393191
인천    2632035
대전     190158
dtype: int64

In [81]:
#2010년도 도시별 인구
print(population2.index)
print(population2.values)

Index(['서울', '부산', '인천', '대전'], dtype='object')
[9631482 3393191 2632035  190158]


In [82]:
#2015년도 도시별 인구
print(population.index)
print(population.values)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]


In [86]:
# 2015년도와 2010년도의 인구 증감 계산
ds = population - population2
# 결측치 생성

In [87]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [88]:
population2

서울    9631482
부산    3393191
인천    2632035
대전     190158
dtype: int64

In [97]:
# isnull()
# 결측치만 출력
print(ds.isnull()) # 불리언
print('\n')
ds[ds.isnull()]

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool




대구   NaN
대전   NaN
dtype: float64

In [102]:
# notnull()
# 결측치가 아닌 값만 출력
print(ds.notnull()) # 불리언
print('\n')
ds[ds.notnull()] # 불리언 인덱싱

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool




부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### Series 데이터 갱신, 추가, 삭제

In [105]:
# 삭제
del ds['대구']
ds

대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [109]:
# 수정
ds['대전'] = 8000

In [110]:
ds

대전      8000.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [113]:
# 추가
ds['광주'] = 100000

In [114]:
ds

대전      8000.0
부산     55546.0
서울    272830.0
인천    258416.0
광주    100000.0
dtype: float64

### DataFrame 사용
- Series : 1차원
- DataFrame : 2차원


In [116]:
# 딕셔너리 객체로 DataFrame 생성
# key : 컬럼 이름
data = {'2015' : [9904312,3448737, 2890451, 2466052],
       '2010': [9631482,3393191,2632035,2431774]}
data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 2431774]}

In [118]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [119]:
# Series - key : 인덱스
pd.Series(data)

2015    [9904312, 3448737, 2890451, 2466052]
2010    [9631482, 3393191, 2632035, 2431774]
dtype: object

In [120]:
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [123]:
# DataFrame 인덱스 수정
df.index = ['서울', '부산', '인천', '대구']

In [124]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [142]:
#list를 사용해서 DataFrame 생성 1
data = [[9904312, 3448737, 2890451, 2466052],
       [9631482, 3393191, 2632035, 2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df = pd.DataFrame(data,index = ind, columns=col)
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [140]:
#list를 사용해서 DataFrame 생성 2
data = [[9904312, 9631482],
       [3448737,3393191],
       [2890451,2632035],
       [2466052,2431774]]
ind = ['서울','부산','인천','대구']
col = ['2015','2010']
pd.DataFrame(data, index = ind, columns = col)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [144]:
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [146]:
# 전치 이용, 행과 열 바꾸기
# 변수.T
df = df.T

### DataFrame 값 확인
- values : 값 확인
- index : 인덱스 확인
- columns : 컬럼 확인

In [148]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [149]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [150]:
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱,슬라이싱
- index 번호, 값 사용 가능
- index, columns 사용해서 인덱싱, 슬라이싱

In [158]:
# 컬럼 인덱싱 1
df['2015']
# 결과를 Series로 출력

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [160]:
df[['2015']]
# 결과를 DataFrame로 출력

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [163]:
# 여러 컬럼 인덱싱
df[['2010','2015','2010']]

Unnamed: 0,2010,2015,2010.1
서울,9631482,9904312,9631482
부산,3393191,3448737,3393191
인천,2632035,2890451,2632035
대구,2431774,2466052,2431774
