In [1]:
import numpy as np
import pandas as pd

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_index(), sort_values(by = , )
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min())
- 데이터 삭제
- 결측치 처리
- 데이터 변경 : 자료형 변경 / 수치형 데이터를 범주형 데이터로 변경

## 1. 데이터 개수 세기(count)

: **데이터 빈도(frequency) 계산**

- **count() 함수** 
    - 시리즈의 경우 빈도 계산
    - 데이터프레임의 경우 각 컬럼 또는 행의 데이터 빈도 계산
    - NaN값은 세지 않음
    

- **value_counts() 함수**
    - 이산형, 범주형 데이터의 범주별 빈도 계산

### 1) count() 적용하여 개수 세기

- 형식 : **Series.count(level=None)**


- 형식 : **DataFrame.count(axis=0, level=None, numeric_only=False)**

    - axis : 0 or 'index', 1 or 'columns' , default 0
    - level : int or str, optinal (multiIndex의 경우)
    - numerical_only : float, int, boolean data만 포함

#### ① Series 데이터에 count() 함수 적용

In [5]:
titanic = pd.read_csv('data/titanic.csv')
titanic.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [6]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [11]:
type(titanic['Survived'])

pandas.core.series.Series

In [13]:
titanic.Survived.count()

891

In [14]:
titanic.Pclass.count()

891

In [15]:
titanic.Sex.count()

891

In [16]:
titanic.Age.count()

714

In [20]:
for col in titanic.columns:
    print(f'{col} : {titanic[col].count()}')

PassengerId : 891
Survived : 891
Pclass : 891
Name : 891
Sex : 891
Age : 714
SibSp : 891
Parch : 891
Ticket : 891
Fare : 891
Cabin : 204
Embarked : 889


#### ② 데이터 프레임에 count()함수 적용
- 각 열마다 데이터 개수를 세기 때문에 누락된 부분을 찾을 때 유용

In [21]:
titanic.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

### 2) value_counts()로 범주별 빈도 계산 

- 문자열 값을 갖는 데이터의 경우 **범주별 빈도(비율) 계산**
    - ex. 성별(남,여), 선호도(종다, 보통, 싫다), 혈액형(A,B,O,AB) 등
    
- 수치형 데이터의 값별 빈도 계산


- 형식 : **Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)**
    - normalize : True인 경우 상대빈도 계산
    - sort : 빈도 크기별로 정렬
    - ascending : 오름차순으로 정렬
    - bins : 범주 구간 수 지정
    - dropna : False로 지정되면 NaN를 포함하여 빈도 계산


- 형식 : **DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)**


#### ① 시리즈 데이터에  value_counts() 적용
- 시리즈의 값이 정수, 문자열인 경우 각각의 값이 나온 횟수를 셀 수 있음
- 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율(상대빈도)을 계산
    - 시리즈.value_counts(normalize=True)

In [22]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 정수형 값을 갖는 시리즈 데이터에 value_counts() 적용

In [23]:
titanic.Pclass.value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [24]:
titanic.Survived.value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [25]:
titanic.SibSp.value_counts()

0    608
1    209
2     28
4     18
3     16
8      7
5      5
Name: SibSp, dtype: int64

- 실수형 값을 갖는 시리즈 데이터에 value_counts() 적용

In [27]:
titanic.Age.value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: Age, Length: 88, dtype: int64

In [29]:
titanic.Age.value_counts(bins=10, sort=False)

(0.339, 8.378]       54
(8.378, 16.336]      46
(16.336, 24.294]    177
(24.294, 32.252]    169
(32.252, 40.21]     118
(40.21, 48.168]      70
(48.168, 56.126]     45
(56.126, 64.084]     24
(64.084, 72.042]      9
(72.042, 80.0]        2
Name: Age, dtype: int64

- 문자열 값을 갖는 시리즈 데이터에 value_counts() 적용

In [30]:
titanic.Sex.value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [31]:
titanic.Sex.value_counts(normalize=True)*100

male      0.647587
female    0.352413
Name: Sex, dtype: float64

#### ② 데이터프레임에  value_counts()  함수 사용

- 행(row)을 하나의 value로 설정하고 동일한 행이 몇 번 나타났는지의 빈도를 Series로 반환

In [34]:
df = pd.DataFrame({'num_legs':[2,4,4,6],
                  'num_wings':[2,0,0,0]},
                  index=['falcon','dog','cat','ant'])
df

Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0
ant,6,0


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, falcon to ant
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   num_legs   4 non-null      int64
 1   num_wings  4 non-null      int64
dtypes: int64(2)
memory usage: 96.0+ bytes


In [36]:
df['num_legs'].value_counts()

4    2
2    1
6    1
Name: num_legs, dtype: int64

In [37]:
df.value_counts()

num_legs  num_wings
4         0            2
2         2            1
6         0            1
dtype: int64

In [41]:
df2 = titanic[['Survived','Sex']]
df2.value_counts(sort=False)

Survived  Sex   
0         female     81
          male      468
1         female    233
          male      109
dtype: int64

In [42]:
df2.count()

Survived    891
Sex         891
dtype: int64

#### 문제. 타이타닉 데이터에서 Pclass에 따른 생존/사망 빈도

In [46]:
titanic[['Pclass','Survived']].value_counts(sort=False, normalize=True)*100

Pclass  Survived
1       0            8.978676
        1           15.263749
2       0           10.886644
        1            9.764310
3       0           41.750842
        1           13.355780
dtype: float64

In [47]:
titanic[['Pclass','Survived']].value_counts(ascending=True)

Pclass  Survived
1       0            80
2       1            87
        0            97
3       1           119
1       1           136
3       0           372
dtype: int64

In [50]:
df.loc['cat', 'num_wings']=np.NaN
df

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
cat,4,
ant,6,0.0


In [51]:
# 결측치 제외
df.value_counts()

num_legs  num_wings
2         2.0          1
4         0.0          1
6         0.0          1
dtype: int64

In [52]:
df.value_counts(dropna=False)

num_legs  num_wings
2         2.0          1
4         0.0          1
          NaN          1
6         0.0          1
dtype: int64

----------------------------------

## 2. 데이터 정렬 

- 데이터 정렬을 위한 정렬 함수 사용
- **sort_index()** : 인덱스를 기준으로 정렬
- **sort_value()** : 데이터 값을 기준으로 정렬

### 1) 시리즈 정렬

In [53]:
titanic.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [54]:
titanic.Pclass.value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [56]:
titanic.Pclass.sort_index()

0      3
1      1
2      3
3      1
4      3
      ..
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64

In [60]:
titanic.Pclass.value_counts().index

Int64Index([3, 1, 2], dtype='int64')

In [59]:
titanic.Pclass.value_counts(sort=False)

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [57]:
titanic.Pclass.value_counts().sort_index()

1    216
2    184
3    491
Name: Pclass, dtype: int64

In [61]:
titanic.Pclass.value_counts().sort_index(ascending=False)

3    491
2    184
1    216
Name: Pclass, dtype: int64

In [62]:
titanic.Pclass.value_counts().sort_values()

2    184
1    216
3    491
Name: Pclass, dtype: int64

### 2) 데이터 프레임 정렬

- **DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)**
    - 특정열 값 기준 정렬
    - 정렬시 기준열을 주어야 함. by 인수 사용(생략 불가)
        - by = 기준열, by=[기준열1,기준열2]
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)
    
    
- **DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)**
    - DataFrame의 INDEX 기준 정렬
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)

In [63]:
df

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
cat,4,
ant,6,0.0


- 데이터프레임의 값을 기준으로 정렬

In [65]:
df.sort_values(by='num_wings')

Unnamed: 0,num_legs,num_wings
dog,4,0.0
ant,6,0.0
falcon,2,2.0
cat,4,


In [66]:
df.sort_values(by='num_legs')

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
cat,4,
ant,6,0.0


In [67]:
# 값의 내림차순으로 정렬
df.sort_values(by='num_wings', ascending=False)

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
ant,6,0.0
cat,4,


In [68]:
# 정렬기준이 여러 개인 경우 : 리스트 내에 정렬기준에 따른 컬럼명을 제시
# 첫번째 컬럼이 첫번째 정렬 기준이 됨
df.sort_values(by=['num_wings','num_legs'])

Unnamed: 0,num_legs,num_wings
dog,4,0.0
ant,6,0.0
falcon,2,2.0
cat,4,


In [69]:
df.sort_values(by=['num_legs', 'num_wings'])

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
cat,4,
ant,6,0.0


- 데이터프레임의 index를 기준으로 정렬

In [70]:
df
df.sort_index()

Unnamed: 0,num_legs,num_wings
falcon,2,2.0
dog,4,0.0
cat,4,
ant,6,0.0


Unnamed: 0,num_legs,num_wings
ant,6,0.0
cat,4,
dog,4,0.0
falcon,2,2.0


---------------------------------------------------

### 연습문제

1. 타이타닉 데이터에서 승객의 성별(Sex) 인원수, 나이별(Age) 인원수, 선실별(Pclass) 인원수, 사망/생존(Survived)인원수를 구하시오.

In [72]:
# 1-1. 타이타닉 승객에 대하여 성별 인원수 구하기
titanic.Sex.value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [81]:
# 1-2. 타이타닉 승객에 대하여 나이별 인원수 구하기
titanic.Age.value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: Age, Length: 88, dtype: int64

In [74]:
# 1-3. 타이타닉 승객에 대하여 선실별 인원수 구하기
titanic.Pclass.value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [75]:
# 1-4. 타이타닉 승객에 대하여 사망/생존 인원수 구하기
titanic.Survived.value_counts()

0    549
1    342
Name: Survived, dtype: int64

2. 성별 인원수는 인덱스 기준으로 정렬하고, 나이별 인원수는 값 기준으로 정렬하시오.

In [80]:
titanic.Sex.value_counts().index

Index(['male', 'female'], dtype='object')

In [76]:
# 2-1. 타이타닉 승객에 대하여 성별 인원수를 인덱스 기준으로 정렬하기
titanic.Sex.value_counts().sort_index()

female    314
male      577
Name: Sex, dtype: int64

In [79]:
# 2-2. 타이타닉 승객에 대하여 나이별 인원수를 값 기준으로 정렬하기
titanic.Age.value_counts().sort_values()

74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: Age, Length: 88, dtype: int64

------------------------------------------------------

## 3. 데이터의 행/열의 합계, 평균, 최대값, 최소값

: 데이터프레임에 적용되는 집계 관련 함수

- 합계 : **sum**(axis=0 또는 1)
    - 각 열의 합계 계산 : axis=0(index) => 기본값
    - 각 행의 합계 계산 : axis=1(column)
    
    
- 평균 : **mean**(axis=0 또는 1)
- 최소값 : **min**(axis=0 또는 1)
- 최대값 : **max**(axis=0 또는 1)   

**예제 데이터 프레임 생성**

In [87]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


### 행/열의 합계(sum)

#### 각 행의 합계 계산

In [91]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

**각 열의 합계 계산**

In [92]:
df2.sum()

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

### 평균, 최소값, 최대값

In [95]:
# 각 열의 평균, 최소값, 최대값 : axis=0
df2.mean()
df2.min()
df2.max()

0    6.00
1    8.25
2    6.25
3    6.00
4    3.75
5    2.50
6    1.25
7    4.00
dtype: float64

0    4
1    7
2    2
3    4
4    0
5    0
6    0
7    1
dtype: int32

0    9
1    9
2    9
3    9
4    9
5    7
6    4
7    7
dtype: int32

In [94]:
# 각 행의 평균, 최소값, 최대값 : axis=1
df2.mean(axis=1)
df2.min(axis=1)
df2.max(axis=1)

0    4.375
1    4.250
2    5.125
3    5.250
dtype: float64

0    0
1    2
2    0
3    0
dtype: int32

0    9
1    9
2    9
3    9
dtype: int32

#### 각 행의 합계를 새로운 열로 추가

In [96]:
df2['합계']=df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,합계
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


#### 각 열의 합계를 새로운 행으로 추가

: loc 인덱서를 사용하여 새로운 행 추가

In [97]:
df2.loc['합계']=df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,합계
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
합계,24,33,25,24,15,10,5,16,152


-------------------------------------