### Pandas (panel datas) 의 약자

# 주요 특성
- 인덱싱을 활용하여 데이터 조작이 가능 한 DataFrame 객체가 존재
- 데이터간 읽기, 쓰기 기능 지원
- 결측치 정렬, 처리
- 데이터 컬럼을 추가 삭제
- 데이터 셋의 분할, 병합을 지원

## Dataframe은 여러개의 Series로 이루어져 있습니다!

##### Series

In [3]:
# 여러 값을 나열한 자료구조
# index - value
# dataframe 구성하는 하위요소 ----> 여러개의 Series는 DataFrame이 됨

In [4]:
import pandas as pd

In [5]:
# 값을 가진 series 만들기
# pd.Series(리스트)
num_series = pd.Series([1,2,3,4,5])
num_series

# 인덱스 미 작성시 0~데이터 수만큼 자동생성

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [6]:
# 인덱스를 지정한 series 만들기

num_series2 = pd.Series([10,20,30], index = ['kim','lee','park'])
num_series2

kim     10
lee     20
park    30
dtype: int64

In [7]:
# 인덱스 series 만들기 22
num_series3 = pd.Series({'kim':10, 'lee':20, 'park':30})
num_series3

kim     10
lee     20
park    30
dtype: int64

In [8]:
# value 값 확인
# .values
num_series3.values

array([10, 20, 30], dtype=int64)

In [9]:
# index 값 확인
# index
num_series3.index

Index(['kim', 'lee', 'park'], dtype='object')

In [10]:
# 값의 데이터 타입 확인
# dtype
num_series3.dtype

dtype('int64')

In [11]:
# 시리즈의 이름을 부여
# name = 이름명
num_series3.name = 'series 예제'
num_series3

kim     10
lee     20
park    30
Name: series 예제, dtype: int64

In [12]:
# 인덱스 이름 부여
# index.name = 인덱스 이름명
num_series3.index.name = '성'
num_series3

성
kim     10
lee     20
park    30
Name: series 예제, dtype: int64

In [13]:
country = pd.Series({'서울':9602000, '부산':3344000, '광주':1488000, '대구':2419000})
country.index.name = '도시'
country.name = '2020 인구수'
country

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [14]:
# 시리즈 값 수정
# 인덱싱 간단하게
country['부산']

3344000

In [15]:
# 인덱싱 = 수정값
country['부산'] = 3500000
country

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [16]:
# 값 추가
country['대전'] = 1500000
country

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [17]:
# 값 삭제
# 1. drop(index명) -- 값을 다시 대입 하지 않습니다
# drop을 사용해서 해당 index 삭제하고 싶을시 대입까지 진행
country = country.drop('서울')

country

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [18]:
# 2. del 키워드 사용
del country['대전']

country

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

### 데이터 프레임

In [19]:
# 1개의 시리즈가진 데이터 프레임
# pd.DataFrame()

num_df = pd.DataFrame([1,2,3])
num_df

Unnamed: 0,0
0,1
1,2
2,3


In [20]:
# 2중 리스트로 값을 여러개 넣는 것도 가능!
num2_df = pd.DataFrame([['iot',1],['big data',2], ['ai',3]])
num2_df

Unnamed: 0,0,1
0,iot,1
1,big data,2
2,ai,3


In [21]:
# 컬럼 값 지정하기
num2_df = pd.DataFrame([['iot',1],['big data',2], ['ai',3]], columns=['class','join'])
num2_df

Unnamed: 0,class,join
0,iot,1
1,big data,2
2,ai,3


In [22]:
# 컬럼 값 지정하기 2
num2_df = pd.DataFrame({'class' : ['iot','big data','ai'], 'join':[1,2,3]} , index=['A','B','C'])
num2_df

Unnamed: 0,class,join
A,iot,1
B,big data,2
C,ai,3


In [23]:
info = pd.DataFrame({'키':[175.3,180.2,178.6], '몸무게':[66.2,78.9,55.1], '나이':[27.0,49.0,35.0]}, index=['son','kim','park'])
info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [24]:
# 속성 확인
# T --> 행, 렬 전환
info.T

Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [25]:
# values = df value
display(info)
info.values

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  49. ],
       [178.6,  55.1,  35. ]])

In [26]:
# index - df index
info.index

Index(['son', 'kim', 'park'], dtype='object')

In [27]:
# columns - df의 column
info.columns

Index(['키', '몸무게', '나이'], dtype='object')

In [36]:
population = pd.Series([9602000,3344000,1488000,2419000], index = ['서울','부산','광주','대구'])
population.index.name = '도시'
population.name = '2020 인구수'

In [28]:
# 시리즈 , dataframe 인덱싱/ 슬라이싱

In [37]:
# 인덱싱 방법 -- 1 인덱스 번호로 접근
population[0]
population[2]

1488000

In [38]:
# 인덱싱 방법 -- 2. 인덱스 이름으로 접근
population['부산']

3344000

In [39]:
# 여러개의 값을 인덱싱
# 인덱스 번호로 접근 -- 서울, 대구
population[[0,2]]

도시
서울    9602000
광주    1488000
Name: 2020 인구수, dtype: int64

In [40]:
# 2. 인덱스 이름으로 접근
population[['부산','광주']]

도시
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

In [41]:
# 불리언 인덱싱 -- 조건을 작성
population[population>2000000]

도시
서울    9602000
부산    3344000
대구    2419000
Name: 2020 인구수, dtype: int64

In [42]:
# 시리즈 - 슬라이싱
# 인덱싱 - 인덱스 번호, 이름으로 접근하는 방법
# 인덱스 번호로 슬라이싱
display(population[1:3]) # 끝수는 포함 안됨






도시
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

In [45]:
# 인덱스 이름으로 접근
display(population['서울':'광주'])
display(population[:'광주'])
display(population['부산':])
display(population[:])

도시
서울    9602000
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

도시
서울    9602000
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

도시
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [46]:
# 열 접근 - 컬럼명을 인덱싱
info['키']

son     175.3
kim     180.2
park    178.6
Name: 키, dtype: float64

In [47]:
# 열접근 - 여러가지 열 접근
info[['키','나이']]

Unnamed: 0,키,나이
son,175.3,27.0
kim,180.2,49.0
park,178.6,35.0


In [48]:
# 행 접근 슬라이싱을 통해 접근 가능
info[:1]

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0


In [50]:
info[:'kim']

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0


In [51]:
info[:1]['몸무게']

son    66.2
Name: 몸무게, dtype: float64

# loc, iloc 인덱서

- 데이터 프레임의 행, 열에 접근을 더 편리하게 하기 위해 등장
- loc, iloc
- loc : 컬럼이름(라벨)명을 통해 데이터 접근하는 방법
- iloc : 컬럼의 인덱스 접근을 통해 데이터 접근
- .loc(or iloc)[행,열]
    - 결국 인덱싱 슬라이싱의 규칙을 그대로 적용

In [None]:
# loc[행, 열] 인덱스 값으로 접근

In [53]:
info.loc['son']

키      175.3
몸무게     66.2
나이      27.0
Name: son, dtype: float64

In [54]:
info.loc['son','나이']

27.0

In [55]:
# 여러값 접근
info.loc['son',['키','나이']]

키     175.3
나이     27.0
Name: son, dtype: float64

In [58]:
# 여러값 접근2
info.loc['son',::2]

키     175.3
나이     27.0
Name: son, dtype: float64

In [59]:
# iloc - 인덱스 번호로 접근
info.iloc[0] # == info.loc['son']

키      175.3
몸무게     66.2
나이      27.0
Name: son, dtype: float64

In [60]:
# info.loc['son','나이']
info.iloc[0,2]

27.0

In [61]:
# 여러값 접근
# info.loc['son'.['키','나이']]
info.iloc[0,[0,2]]

키     175.3
나이     27.0
Name: son, dtype: float64

In [62]:
# 여러값 접근2
# info.loc['son',::2]
info.iloc[0,::2]

키     175.3
나이     27.0
Name: son, dtype: float64

# 불리언 인덱싱

In [63]:
info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [64]:
info[info['키']>180]

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,49.0


In [65]:
# .query() -- 불리언 인덱싱을 도와주는 함수
# 매개변수에 조건을 문자열로 작성
info.query('키 > 180')

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,49.0


In [66]:
# loc 인덱서 사용해서 불리언 인덱싱
info.loc[info['키']>180]

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,49.0
