# 주요 특성
- 인덱싱을 활용하여 데이터 조작이 가능 한 DataFrame 객체가 존재
- 데이터간 읽기, 쓰기 기능 지원
- 결측치 정렬, 처리
- 데이터 컬럼을 추가 삭제
- 데이터셋의 분할, 병합을 지원

# Dataframe은 여러개의 Series로 이루어져 있습니다!

### Series

In [None]:
# 여러 값을 나열한 자료구조
# index - value
# dataframe 구성하는 하위요소 ----> 여러개의 Series는 DataFrame이 됨

In [2]:
import pandas as pd

In [2]:
# 값을 가진 series 만들기

num_series = pd.Series([1, 2, 3, 4, 5])
num_series

# 인덱스 미 작성시 0~데이터 수만큼 자동생성

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 인덱스를 지정한 series 만들기

num_series2 = pd.Series([10,20,30], index = ['kim', 'lee', 'park'])
num_series2

kim     10
lee     20
park    30
dtype: int64

In [4]:

num_series3 = pd.Series({'kim' : 10, 'lee' : 20, 'park' : 30})
num_series3

kim     10
lee     20
park    30
dtype: int64

In [5]:
# value 값 확인
# .value
num_series3.values

array([10, 20, 30], dtype=int64)

In [6]:
# index 값 확인
# .index
num_series3.index

Index(['kim', 'lee', 'park'], dtype='object')

In [7]:
# 값의 데이터 타입 확인
# .dtype
num_series3.dtype

dtype('int64')

In [8]:
# 시리즈의 이름을 부여
# .name = 이름명
num_series3.name = 'series 예제'
num_series3

kim     10
lee     20
park    30
Name: series 예제, dtype: int64

In [9]:
# 인덱스 이름 부여
# .index.name = 인덱스 이름명
num_series3.index.name = '성'
num_series3

성
kim     10
lee     20
park    30
Name: series 예제, dtype: int64

In [10]:
population = pd.Series([9602000, 3344000, 1488000,2419000], index = ['서울', '부산', '광주', '대구'])
population.index.name = '도시'
population.name = '2020 인구수'

In [11]:
population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [12]:
# 시리즈 값 수정
# 인덱싱 간단하게
population['부산']

3344000

In [13]:
# 인덱싱 = 수정 값
population['부산'] = 3500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [14]:
# 값 추가
population['대전'] = 1500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
# 값 삭제
# 1. .drop(index명) -- 값을 다시 대입 하지 않습니다
# drop을 사용해서 해당 index 삭제하고 싶을 시 대입까지 진행
population = population.drop('서울')

population

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [16]:
# 2. del 키워드 사용 - 별도의 대임 없이 삭제가 가능
del population['대전']

population

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

### 데이터 프레임

In [17]:
# 1개의 시리즈가진 데이터 프레임
# pd.DataFrame()

num_df = pd.DataFrame([1,2,3])
num_df

Unnamed: 0,0
0,1
1,2
2,3


In [18]:
# 2중 리스트로 값을 여러개 넣는 것도 가능!
num2_df = pd.DataFrame([['iot', 1], ['big data', 2], ['ai', 3]])
num2_df

Unnamed: 0,0,1
0,iot,1
1,big data,2
2,ai,3


In [19]:
# 컬럼 값 지정하기 2
num2_df = pd.DataFrame({'class' : ['iot', 'big data', 'ai'], 'join' : [1,2,3]})
num2_df

Unnamed: 0,class,join
0,iot,1
1,big data,2
2,ai,3


In [20]:
# 인덱스 값 지정하기
num2_df = pd.DataFrame({'class' : ['iot', 'big data', 'ai'], 'join' : [1,2,3]}, index = ['A', 'B', 'C'])
num2_df

Unnamed: 0,class,join
A,iot,1
B,big data,2
C,ai,3


In [12]:
info_df = pd.DataFrame({'키' : [175.3, 180.2, 178.6], '몸무게' : [66.2, 78.9, 55.1], '나이' : [27.0, 29.0, 35.0]}, index = ['son', 'kim', 'park'])
info_df

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,29.0
park,178.6,55.1,35.0


In [23]:
# 속성 확인
# .T --> 행 렬 전환
info_df.T

Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,29.0,35.0


In [26]:
# .values - df value
display(info_df)
info_df.values

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,29.0
park,178.6,55.1,35.0


array([[175.3,  66.2,  27. ],
       [180.2,  78.9,  29. ],
       [178.6,  55.1,  35. ]])

In [27]:
# .index - df index
info_df.index

Index(['son', 'kim', 'park'], dtype='object')

In [28]:
# .columns - df의 column
info_df.columns

Index(['키', '몸무게', '나이'], dtype='object')

In [3]:
population = pd.Series([9602000,3344000,1488000,2419000], index = ['서울','부산','광주','대구'])
population.index.name = '도시'
population.name = '2020 인구수'

In [4]:
population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [6]:
# 인덱싱 방법 -- 1 인덱스 번호로 접근
population[0]
population[2]

1488000

In [7]:
# 인덱싱 방법 -2. 인덱스 이름으로 접근
population['부산']

3344000

In [9]:
# 여러개를 인덱싱
# 인덱스 번호로 접근


## loc, iloc 인덱서

- 데이터 프레임의 행, 열에 접근을 더 편리하게 하기 위해 등장
- loc, iloc
- loc : 컬럼이름(라벨)명을 통해 데이터 접근하는 방법
- iloc : 컬럼의 인덱스접근을 통해 데이터 접근

- .loc(or iloc)[행,열]
    - 결국 인덱싱 슬라이싱의 규칙을 그대로 적용

In [None]:
# loc[행, 열] 인덱스 값으로 접근

In [14]:
info_df.loc['son', '나이']

27.0

In [15]:
# 여러값 접근
info_df.loc['son', ['키', '나이']]

키     175.3
나이     27.0
Name: son, dtype: float64

In [16]:
# 여러값 접근2
info_df.loc['son', :: 2]

키     175.3
나이     27.0
Name: son, dtype: float64

In [17]:
# iloc - 인덱스 번호로 접근
info_df.iloc[0]  # == info_df.loc['son']

키      175.3
몸무게     66.2
나이      27.0
Name: son, dtype: float64

In [18]:
# info_df.loc['son', '나이']
# info_df.loc['son',['키', '나이']]
info_df.iloc[0, [0, 2]]

키     175.3
나이     27.0
Name: son, dtype: float64

In [19]:
# 여러값 접근2
# info_df.loc['son', :: 2]
info_df.iloc[0, :: 2]

키     175.3
나이     27.0
Name: son, dtype: float64

# 불리언 인덱싱

In [20]:
info_df

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,29.0
park,178.6,55.1,35.0


In [21]:
info_df[info_df['키'] > 180]

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,29.0


In [23]:
# .query() -- 불리언 인덱싱을 도와주는 함수
# 매개변수에 조건을 문자열로 작성
info_df.query('키 > 180')

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,29.0


In [24]:
# loc 인덱서 사용해서 불리언 인덱싱
info_df.loc[info_df['키'] > 180]

Unnamed: 0,키,몸무게,나이
kim,180.2,78.9,29.0
