# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작(가공)

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_values(), sort_index()
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min()) 등
- 데이터 삭제 : drop(axis=0/1)
- 결측치 처리 : dropna(axis=0/1, subset, inplace)
- 데이터 변경 : 
    - 자료형 변경 : astype()
    - 수치형 데이터를 범주형 데이터로 변경 : 
        - 구간을 지정하여 범주화 : cut(data, bins, labels)
        - 동일한 개수를 갖도록 범주화 : qcut(data, bins_num, labels)
- 행/열에 동일한 함수 적용 : apply()

## 1. 데이터 개수 세기(count)

: **데이터 빈도(frequency) 계산**

- **count() 함수** 
    - 시리즈의 경우 빈도 계산
    - 데이터프레임의 경우 각 컬럼 또는 행의 데이터 빈도 계산
    - NaN값은 세지 않음
    

- **value_counts() 함수**
    - 이산형, 범주형 데이터의 범주별 빈도 계산

### 1) count() 적용하여 개수 세기

- 형식 : **Series.count(level=None)**


- 형식 : **DataFrame.count(axis=0, level=None, numeric_only=False)**

    - axis : 0 or 'index', 1 or 'columns' , default 0
    - level : int or str, optinal (multiIndex의 경우)
    - numerical_only : float, int, boolean data만 포함

#### ① Series 데이터에 count() 함수 적용

#### ② 데이터 프레임에 count()함수 적용
- 각 열마다 데이터 개수를 세기 때문에 누락된 부분을 찾을 때 유용

### 2) value_counts()로 범주별 빈도 계산 

- 문자열 값을 갖는 데이터의 경우 **범주별 빈도(비율) 계산**
    - ex. 성별(남,여), 선호도(종다, 보통, 싫다), 혈액형(A,B,O,AB) 등
    
- 수치형 데이터의 값별 빈도 계산


- 형식 : **Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)**
    - normalize : True인 경우 상대빈도 계산
    - sort : 빈도 크기별로 정렬
    - ascending : 오름차순으로 정렬
    - bins : 범주 구간 수 지정
    - dropna : False로 지정되면 NaN를 포함하여 빈도 계산


- 형식 : **DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)**


#### ① 시리즈 데이터에  value_counts() 적용
- 시리즈의 값이 정수, 문자열인 경우 각각의 값이 나온 횟수를 셀 수 있음
- 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율(상대빈도)을 계산
    - 시리즈.value_counts(normalize=True)

- 정수형 값을 갖는 시리즈 데이터에 value_counts() 적용

- 실수형 값을 갖는 시리즈 데이터에 value_counts() 적용

- 문자열 값을 갖는 시리즈 데이터에 value_counts() 적용

#### ② 데이터프레임에  value_counts()  함수 사용

- 행(row)을 하나의 value로 설정하고 동일한 행이 몇 번 나타났는지의 빈도를 Series로 반환

#### 문제. 타이타닉 데이터에서 Pclass에 따른 생존/사망 빈도 계산

#### 예. 결측치가 있는 데이터프레임

----------------------------------

## 2. 데이터 정렬 

- 데이터 정렬을 위한 정렬 함수 사용
- **sort_index()** : 인덱스를 기준으로 정렬
- **sort_value()** : 데이터 값을 기준으로 정렬

### 1) 시리즈 정렬

### 2) 데이터 프레임 정렬

- **DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)**
    - 특정열 값 기준 정렬
    - 정렬시 기준열을 주어야 함. by 인수 사용(생략 불가)
        - by = 기준열, by=[기준열1,기준열2]
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)
    
    
- **DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)**
    - DataFrame의 INDEX 기준 정렬
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)

- 데이터프레임의 값을 기준으로 정렬

- 데이터프레임의 index를 기준으로 정렬

---------------------------------------------------

### 연습문제

1. 타이타닉 데이터에서 승객의 성별(Sex) 인원수, 나이별(Age) 인원수, 선실별(Pclass) 인원수, 사망/생존(Survived)인원수를 구하시오.

In [None]:
# 데이터 불러오기


In [None]:
# 데이터 변수 정보 확인

In [None]:
# 1-1. 타이타닉 승객에 대하여 성별 인원수 구하기


In [None]:
# 1-2. 타이타닉 승객에 대하여 나이별 인원수 구하기


In [None]:
# 1-3. 타이타닉 승객에 대하여 선실별 인원수 구하기


In [None]:
# 1-4. 타이타닉 승객에 대하여 사망/생존 인원수 구하기


2. 성별 인원수는 인덱스 기준으로 정렬하고, 나이별 인원수는 값 기준으로 정렬하시오.

In [None]:
# 2-1. 타이타닉 승객에 대하여 성별 인원수를 인덱스 기준으로 정렬하기


In [None]:
# 2-2. 타이타닉 승객에 대하여 나이별 인원수를 값 기준으로 정렬하기


------------------------------------------------------

## 3. 데이터의 행/열의 집계 및 통계 관련 함수

: 데이터프레임에 적용되는 집계/통계 관련 함수

- 합계 : **sum**(axis=0 또는 1)
    - 각 열의 합계 계산 : axis=0(index) => 기본값
    - 각 행의 합계 계산 : axis=1(column)
    
- 최소값 : **min**(axis=0 또는 1)
- 최대값 : **max**(axis=0 또는 1)    
- 중앙값 : **median**(axis=0 또는 1)
- 평균 : **mean**(axis=0 또는 1)
- 표준편차 : **std**(axis=0 또는 1)
- 상관계수 : **corr**(method='pearson') 

**예제 데이터 프레임 생성**

In [None]:
# 예제 DF 생성
# 4행 8열의 데이터프레임 작성, 난수를 발생시키고
# 0-9범위에서 매번 같은 난수 발생되어 반환되도록 설정



### 행/열의 합계(sum)

- 시리즈.sum()
- 데이터프레임.sum()

#### 각 행의 합계 계산

**각 열의 합계 계산**

### 통계관련 함수

- 최소값 : min()
- 최대값 : min()
- 중앙값 : median()
- 평균 : mean()
- 표준편차 : std()
- 상관계수 : corr()

In [None]:
# 각 컬럼의 평균, 최소값, 최대값


In [None]:
# 행의 평균, 최소값, 최대값


In [None]:
# 중앙값(median)


In [None]:
# 표준편차


In [None]:
# 상관계수 corr(method='pearson') : 데이터프레임 반환



### 데이터프레임의 행/열 추가

- 열추가 : df['새로운열이름'] = 데이터값 (또는 배열)
- 행추가 : df.loc['새로운행이름'] = 데이터값 (또는 배열)

#### 각 행의 합계를 새로운 열로 추가

#### 각 열의 합계를 새로운 행으로 추가

: loc 인덱서를 사용하여 새로운 행 추가

-------------------------------------