# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작(가공)

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_values(), sort_index()
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min()) 등
- 데이터 삭제 : drop(axis=0/1)
- 결측치 처리 : dropna(axis=0/1, subset, inplace)
- 데이터 변경 : 
    - 자료형 변경 : astype()
    - 수치형 데이터를 범주형 데이터로 변경 : 
        - 구간을 지정하여 범주화 : cut(data, bins, labels)
        - 동일한 개수를 갖도록 범주화 : qcut(data, bins_num, labels)
- 행/열에 동일한 함수 적용 : apply()

In [1]:
import numpy as np
import pandas as pd

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

## 1. 데이터 개수 세기(count)

: **데이터 빈도(frequency) 계산**

- **count() 함수** 
    - 시리즈의 경우 빈도 계산
    - 데이터프레임의 경우 각 컬럼 또는 행의 데이터 빈도 계산
    - NaN값은 세지 않음
    

- **value_counts() 함수**
    - 이산형, 범주형 데이터의 범주별 빈도 계산

### 1) count() 적용하여 개수 세기

- 형식 : **Series.count(level=None)**


- 형식 : **DataFrame.count(axis=0, level=None, numeric_only=False)**

    - axis : 0 or 'index', 1 or 'columns' , default 0
    - level : int or str, optinal (multiIndex의 경우)
    - numerical_only : float, int, boolean data만 포함

#### ① Series 데이터에 count() 함수 적용

In [4]:
titanic = pd.read_csv('data/titanic.csv')

In [5]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [6]:
titanic.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [7]:
titanic['Survived'].count()

891

In [10]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [12]:
for col in titanic.columns:
    print(f'{col}:{titanic[col].count()}')

PassengerId:891
Survived:891
Pclass:891
Name:891
Sex:891
Age:714
SibSp:891
Parch:891
Ticket:891
Fare:891
Cabin:204
Embarked:889


#### ② 데이터 프레임에 count()함수 적용
- 각 열마다 데이터 개수를 세기 때문에 누락된 부분을 찾을 때 유용

In [11]:
titanic.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

### 2) value_counts()로 범주별 빈도 계산 

- 문자열 값을 갖는 데이터의 경우 **범주별 빈도(비율) 계산**
    - ex. 성별(남,여), 선호도(종다, 보통, 싫다), 혈액형(A,B,O,AB) 등
    
- 수치형 데이터의 값별 빈도 계산


- 형식 : **Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)**
    - normalize : True인 경우 상대빈도 계산
    - sort : 빈도 크기별로 정렬
    - ascending : 오름차순으로 정렬
    - bins : 범주 구간 수 지정
    - dropna : False로 지정되면 NaN를 포함하여 빈도 계산


- 형식 : **DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)**


#### ① 시리즈 데이터에  value_counts() 적용
- 시리즈의 값이 정수, 문자열인 경우 각각의 값이 나온 횟수를 셀 수 있음
- 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율(상대빈도)을 계산
    - 시리즈.value_counts(normalize=True)

In [13]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 정수형 값을 갖는 시리즈 데이터에 value_counts() 적용

In [15]:
titanic['Survived'].value_counts()

Survived
0    549
1    342
Name: count, dtype: int64

In [18]:
titanic.Pclass.value_counts(normalize=True)

Pclass
3    0.551066
1    0.242424
2    0.206510
Name: proportion, dtype: float64

In [21]:
titanic.Pclass.value_counts(ascending=True)

Pclass
2    184
1    216
3    491
Name: count, dtype: int64

- 실수형 값을 갖는 시리즈 데이터에 value_counts() 적용

In [24]:
titanic.Age.value_counts()

Age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64

In [27]:
# bin: 등분
titanic.Age.value_counts(bins=6)

(13.683, 26.947]    248
(26.947, 40.21]     245
(40.21, 53.473]     100
(0.339, 13.683]      71
(53.473, 66.737]     43
(66.737, 80.0]        7
Name: count, dtype: int64

In [26]:
titanic.Age.value_counts(bins=6, sort=False)

(0.339, 13.683]      71
(13.683, 26.947]    248
(26.947, 40.21]     245
(40.21, 53.473]     100
(53.473, 66.737]     43
(66.737, 80.0]        7
Name: count, dtype: int64

- 문자열 값을 갖는 시리즈 데이터에 value_counts() 적용

In [28]:
titanic.Sex.value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

In [31]:
titanic.Sex.value_counts(normalize=True)*100

Sex
male      64.758698
female    35.241302
Name: proportion, dtype: float64

#### ② 데이터프레임에  value_counts()  함수 사용

- 행(row)을 하나의 value로 설정하고 동일한 행이 몇 번 나타났는지의 빈도를 Series로 반환

In [33]:
df = pd.DataFrame({'num_leg':[2,4,4,6],
                  'num_wings':[2,0,0,0]},
                 index=['falicon','dog','cat','ant'])
df

Unnamed: 0,num_leg,num_wings
falicon,2,2
dog,4,0
cat,4,0
ant,6,0


In [34]:
df.value_counts()

num_leg  num_wings
4        0            2
2        2            1
6        0            1
Name: count, dtype: int64

In [39]:
titanic[['Pclass','Survived']].value_counts()

Pclass  Survived
3       0           372
1       1           136
3       1           119
2       0            97
        1            87
1       0            80
Name: count, dtype: int64

In [41]:
titanic[['Sex','Survived']].value_counts()

Sex     Survived
male    0           468
female  1           233
male    1           109
female  0            81
Name: count, dtype: int64

#### 문제. 타이타닉 데이터에서 Pclass에 따른 생존/사망 빈도 계산

In [46]:
titanic[['Pclass','Survived']].value_counts(normalize=True, sort=False)*100

Pclass  Survived
1       0            8.978676
        1           15.263749
2       0           10.886644
        1            9.764310
3       0           41.750842
        1           13.355780
Name: proportion, dtype: float64

In [48]:
titanic[['Sex','Survived']].value_counts(sort=False)

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: count, dtype: int64

#### 예. 결측치가 있는 데이터프레임

In [49]:
titanic.Embarked.value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [50]:
titanic.Embarked.value_counts(dropna=False)

Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64

----------------------------------

## 2. 데이터 정렬 

- 데이터 정렬을 위한 정렬 함수 사용
- **sort_index()** : 인덱스를 기준으로 정렬
- **sort_value()** : 데이터 값을 기준으로 정렬

### 1) 시리즈 정렬

### 2) 데이터 프레임 정렬

- **DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)**
    - 특정열 값 기준 정렬
    - 정렬시 기준열을 주어야 함. by 인수 사용(생략 불가)
        - by = 기준열, by=[기준열1,기준열2]
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)
    
    
- **DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)**
    - DataFrame의 INDEX 기준 정렬
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)

- 데이터프레임의 값을 기준으로 정렬

- 데이터프레임의 index를 기준으로 정렬

---------------------------------------------------

### 연습문제

1. 타이타닉 데이터에서 승객의 성별(Sex) 인원수, 나이별(Age) 인원수, 선실별(Pclass) 인원수, 사망/생존(Survived)인원수를 구하시오.

In [None]:
# 데이터 불러오기


In [None]:
# 데이터 변수 정보 확인

In [None]:
# 1-1. 타이타닉 승객에 대하여 성별 인원수 구하기


In [None]:
# 1-2. 타이타닉 승객에 대하여 나이별 인원수 구하기


In [None]:
# 1-3. 타이타닉 승객에 대하여 선실별 인원수 구하기


In [None]:
# 1-4. 타이타닉 승객에 대하여 사망/생존 인원수 구하기


2. 성별 인원수는 인덱스 기준으로 정렬하고, 나이별 인원수는 값 기준으로 정렬하시오.

In [None]:
# 2-1. 타이타닉 승객에 대하여 성별 인원수를 인덱스 기준으로 정렬하기


In [None]:
# 2-2. 타이타닉 승객에 대하여 나이별 인원수를 값 기준으로 정렬하기


------------------------------------------------------

## 3. 데이터의 행/열의 집계 및 통계 관련 함수

: 데이터프레임에 적용되는 집계/통계 관련 함수

- 합계 : **sum**(axis=0 또는 1)
    - 각 열의 합계 계산 : axis=0(index) => 기본값
    - 각 행의 합계 계산 : axis=1(column)
    
- 최소값 : **min**(axis=0 또는 1)
- 최대값 : **max**(axis=0 또는 1)    
- 중앙값 : **median**(axis=0 또는 1)
- 평균 : **mean**(axis=0 또는 1)
- 표준편차 : **std**(axis=0 또는 1)
- 상관계수 : **corr**(method='pearson') 

**예제 데이터 프레임 생성**

In [None]:
# 예제 DF 생성
# 4행 8열의 데이터프레임 작성, 난수를 발생시키고
# 0-9범위에서 매번 같은 난수 발생되어 반환되도록 설정



### 행/열의 합계(sum)

- 시리즈.sum()
- 데이터프레임.sum()

#### 각 행의 합계 계산

**각 열의 합계 계산**

### 통계관련 함수

- 최소값 : min()
- 최대값 : min()
- 중앙값 : median()
- 평균 : mean()
- 표준편차 : std()
- 상관계수 : corr()

In [None]:
# 각 컬럼의 평균, 최소값, 최대값


In [None]:
# 행의 평균, 최소값, 최대값


In [None]:
# 중앙값(median)


In [None]:
# 표준편차


In [None]:
# 상관계수 corr(method='pearson') : 데이터프레임 반환



### 데이터프레임의 행/열 추가

- 열추가 : df['새로운열이름'] = 데이터값 (또는 배열)
- 행추가 : df.loc['새로운행이름'] = 데이터값 (또는 배열)

#### 각 행의 합계를 새로운 열로 추가

#### 각 열의 합계를 새로운 행으로 추가

: loc 인덱서를 사용하여 새로운 행 추가

-------------------------------------