### Package Import

In [1]:
import pandas as pd
import numpy as np

### 파일에서 읽어오기

#### DataFrame
- 2차원구조
- index, columns, values

In [2]:
# ../  : 상위 디렉터리
# ./ : 현재 디렉터리
# 디렉토리명/ : 하위 디렉터리


In [3]:
# DataFrame
# - index, columns, values
# - index(row), columns(column) => Index type, DataFrame은 2개의 Index 사용
# - values => ndarray type

In [4]:
# 엑셀 파일을 읽어 DataFrame 객체 반환
# index_col 지정시 column 번호를 사용하거나 lable을 사용할 수 있음


### DataFrame 속성 확인하기

### Series 속성 확인하기

### Index객체 확인

### 메모리사용

### dtype 변경

#### x.describe()
- x.describe(percentiles=None, ...)
- DataFrame/Series의 숫자 형 변수에 대한 여러 가지 통계량 출력
- 개수, 평균값, 표준편차, 최솟값, 1, 2 (중앙값), 3사분위 수, 최대값
- percentiles : 새로운 index 생성에 사용할 column/column 목록(columns labels로 작성)

### Series 생성, 메서드, 연산

#### 6-1. Series 생성
- pd.Series(data=None, index=None, dtype=None, name=None, copy=False, ... )
- 1) data : array-like, iterable, dict or scalar value 등을 사용할 수 있음
- 2) index : array-like or Index (1D)
   - index.values 는 hashable 객체이어야 하며, data와 같은 길이어야 함 
   - 생략 시 RangeIndex가 사용됨 (0 부터 1씩 증가하는 숫자 values)
   - data가 dict 객체일때 index가 생략되면, dict 객체의 key를 index로 사용
   - dict 객체의 key와 index가 중복되면 index를 따름 (dict의 key가 갱신 됨) 
- 3) dtype : Series.values 의 데이터 타입
   - str, numpy.dtype, ExtensionDtype 등을 사용할 수 있음
- 4) name : Series.name으로 사용할 것으로 문자열로 지정함
- 5) copy : 입력 데이터를 복사하는지에 대한 여부 (ndarray 에만 적용)
   - True 인 경우 복사(다른 메모리 사용), False라도 dtype이 다르면 복사함

#### Series의 메서드
- pandas 의 함수/메서드 들은 일반적으로 NaN에 대해 제외하고 처리한다 (numpy 와 다름)
- s.sum() : NaN을 제외한 데이터 합계 구하기, float 반환
- s.count() : NaN을 제외한 데이터 개수 구하기, int 반환
- s.mean() : NaN을 제외한 데이터 평균 구하기, float 반환
- s.unique() : 중복 데이터를 제외한 데이터의 ndarray로 반환 (NaN 포함)
- s.value_counts() : NaN을 제외한 각 데이터의 개수(정수)의 Series 반환
- s.head(숫자), s.tail(숫자) : 데이터를 상위/하위 숫자 개 만큼의 Series 반환
- s.to_list() : s.values를 list 객체로 반환
- s.to_numpy([dtype, copy]) : s.values를 ndarray 객체로 반환

#### Series의 연산
- index를 기준으로 연산된다
- Series 와 Series 의 연산은 같은 index의 value 끼리 연산 된다
    - 같은 index가 없는 경우, 추가되며 결과는 NaN이다
    
- Series 와 스칼라 의 연산은 각 원소별로 스칼라와 연산 된다
    - 스칼라가 broadcasting 되어 사용된다

### DataFrame 생성, 메서드, 연산

#### DataFrame 생성
- pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
- data : ndarray(structured or homogeneous), Iterable, dict, DataFrame
   - dict 사용시 columns가 지정되지 않으면 dict의 key가 columns로 사용됨
   - DataFrame 사용시 data, index, columns 가 복사 됨
- index, columns : array-like or Index (1D)
   - 생략 시 RangeIndex가 사용됨 (0 부터 1씩 증가하는 숫자 values)
   - index.values 는 hashable 객체이어야 함
   - data로 dict 사용시, dict 의 key 와 columns가 중복될 경우 columns를 따름
   - data로 ndarray 사용시 index.values 개수 == data 행 개수
   - data로 ndarray 사용시 columns.values 개수 == data 열 개수
- dtype : 직접 데이터 타입을 지정하며, 1개의 타입 지정만 가능함
- copy : ndarray(2D), DataFrame을 data로 사용시 copy=False는 연결을 의미함
   - ndarray의 dtype이나, DataFrame의 index, columns 등이 변경이 되면 copy=True로 동작함  


#### DataFrame의 연산
- DataFrame 끼리의 연산은 index와 columns를 모두 대상으로 한다
- df + df 의 경우 match 되는 index 나 column 이 없는 경우 NaN 으로 결과가 표시된다

- DataFrame + Series은 DataFrame의 column, Series의 index에 맞춰 연산 된다
- Series가 DataFrame의 row 개수에 맞춰 broadcasting 되어 사용된다
- match 되는 index 가 없는 경우 결과는 NaN 이다


- DataFrame  + Scalar는 각 원소별로 스칼라와 연산 된다
- 스칼라가 broadcasting 되어 사용된다

### DataFrame, Series의 삽입, 삭제, 갱신

#### Series 추가, 갱신, 삭제


#### DataFrame 추가, 갱신, 삭제
- 추가, 갱신 : 항의 개수가 같아야 함
    - column 단위로 추가, 갱신 작업
- df['column_label']=1D array
   - 'column_label'에 해당하는 column 갱신 또는  추가
   - read /write용으로 모두 사용
- df.column_label
   - read 용으로 사용

### Index 조작

#### 9-1 set_index
- df.set_index(keys, drop=True,  append=False, inplace=False)
- 선택된 columns의 일부로 새로 구성한 index 를 갖는 DataFrame 반환
- keys : 새로운 index 생성에 사용할 column/column 목록(columns labels로 작성)
- drop : keys를 columns 로 부터 제거 여부 (default True => 제거함)
- append : 기존 index를 유지하면서 keys를 추가 여부 (default False => 유지하지 않음)

#### reset_index
- df.reset_index( level=None,  drop=False, ...) : 
- 현 index를 columns에 포함하여 새로 구성한 index를 갖는 DataFrame 반환 
- level :int, str, tuple or list 로 작성 (None 이면 모든 index를 대상으로 함)
   - 현 index 중 columns 로 포함 할 대상을 번호 또는 name으로 지정함
   - 모든 index가 columns로 포함되면 RangeIndex가 새로운 Index로 생성됨
- drop : 현 index를 columns 로 포함하지 않을 지의 여부 (drop=True : 포함 안함)

#### sort_index
- df.sort_index(axis=0, level=None, ascending=True, inplace=False,kind='quicksort', na_position=‘last’, ...)
- 축에 따른 index labels를 기준으로 대상을 정렬하는 메서드이다
- axis : 정렬 축 지정, DataFrame은 0, 1 Series은 0을 사용할 수 있음
- level : int, level-name, list of int or level-names
    - MultiIndex 에서 정렬 기준으로 사용할 level을 지정 함
- ascending : True: 오름차순 정렬, False: 내림차순 정렬, list of boolean
- inplace : True인 경우 객체를 직접 수정하고 None 반환
- kind : 정렬 알고리즘 지정 {'quicksort', 'mergesort', 'heapsort'}
- na_position : NA value의 위치, {'first', 'last'}

#### sort_values
- df.sort_values(by, axis=0, ascending=True, inplace=False,kind='quicksort’, na_position='last')
- 축에 따른 by 목록의 values를 기준으로 대상을 정렬하여 반환한다
- by : str 또는 list of str을 사용하여 정렬 기준이 되는 이름 또는 이름 목록 지정
- axis=0 : column labels, axis=1 : index labels를 사용하여 이름 목록 작성
- axis=1 사용을 위해서는 모든 columns의 dtype이 동일해야 함(거의 사용 안함)

### Indexing
- index를 사용하여 원하는 내용(values)에 접근하는 방법
- 접근하여 읽기, 쓰기 등의 작업을 함
- https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html  
- indexing의 종류
  - Basic Indexing : 1개 indexer 사용
  - Multi-axis Indexing : axis 별 indexer 사용
      - Selection by Label : label을 사용함
      - Selection by Position : integer를 사용함
- indexer의 종류
  - a single label/integer : 1개의 label 또는 integer
  - a list or array of labels/integers : label 또는 integer의 리스트 또는 배열
  - a slice object with labels/integers : label 또는 integer의 slice (start:stop:step)
  - a boolean array : True/False로 이루어진 boolean type의 배열 (배열의 요소수는 index의 요소수와 동일해야 함)
  - a collable function with one argument (다루지 않음)

#### 10-1 Basic Indexing
- indexer를 1개만 사용하는 indexing
- Series의 경우 labels/integers를 모두 사용할 수 있음
- DataFrame의 경우 종류에 따라 기준이 되는 axis와 labels/integers 의 사용이 다름
  


##### Basic Indexing of Series


##### Basic Indexing of DataFrame
