In [76]:
import pandas as pd
import numpy as np
import seaborn

### 데이터 개수 세기
판다스 패키지의 `Series`,`DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음.  
단, `NaN` 값은 포함하지 않음

In [77]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [78]:
s.count()

9

In [79]:
df = pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,1.0
1,2.0,4.0,0.0,1.0
2,0.0,4.0,3.0,
3,3.0,2.0,4.0,2.0


In [80]:
# 열 기준으로 그룹화하여 카운트
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [81]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [82]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [83]:
len(titanic)

891

### 카테고리 값 세기
`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀 수 있음  
`DataFrame` 객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함.

In [84]:
s2 = pd.Series(np.random.randint(6,size=250))
s2.tail()

245    5
246    4
247    3
248    2
249    3
dtype: int32

In [85]:
s2.value_counts()

2    51
4    48
0    41
3    39
1    36
5    35
Name: count, dtype: int64

In [86]:
df.value_counts()

0    1    2    3  
0.0  0.0  0.0  1.0    1
2.0  4.0  0.0  1.0    1
3.0  2.0  4.0  2.0    1
Name: count, dtype: int64

### 정렬
`sort_index()`, `sort_values()` 메서드로 정렬 가능  
`sort_index()` : 인덱스 기준으로 정렬(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶다면 `ascending=False`를 지정함)  
`sort_values()` : 값 기준으로 정렬, 만약 Nan 값이 있다면 무조건 맨뒤로 지정됨.


In [87]:
s2.value_counts().sort_index()

0    41
1    36
2    51
3    39
4    48
5    35
Name: count, dtype: int64

In [88]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [89]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 `sort_values()`를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨.

In [90]:
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,1.0
1,2.0,4.0,0.0,1.0
2,0.0,4.0,3.0,
3,3.0,2.0,4.0,2.0


In [91]:
df.sort_values(by=[2,0])

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,1.0
1,2.0,4.0,0.0,1.0
2,0.0,4.0,3.0,
3,3.0,2.0,4.0,2.0


In [92]:
titanic['sex'].value_counts().sort_values()

sex
female    314
male      577
Name: count, dtype: int64

In [93]:
titanic['age'].value_counts().sort_values()

age
74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: count, Length: 88, dtype: int64

In [94]:
titanic['class'].value_counts().sort_values()

class
Second    184
First     216
Third     491
Name: count, dtype: int64

In [95]:
titanic['alive'].value_counts().sort_values()

alive
yes    342
no     549
Name: count, dtype: int64

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음
`axis` 인수로 1을 지정하면 행의 합, 0을 지정하면 열의 합

In [96]:
df2 = pd.DataFrame(np.random.randint(10,size=(4, 6)))
df2

Unnamed: 0,0,1,2,3,4,5
0,4,6,8,9,7,3
1,9,7,4,0,1,5
2,3,8,6,1,0,0
3,2,4,1,6,7,5


In [97]:
df2.sum(axis=1)

0    37
1    26
2    18
3    25
dtype: int64

In [98]:
df2['RowSum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,4,6,8,9,7,3,37
1,9,7,4,0,1,5,26
2,3,8,6,1,0,0,18
3,2,4,1,6,7,5,25


In [99]:
df2.sum()

0          18
1          25
2          19
3          16
4          15
5          13
RowSum    106
dtype: int64

In [100]:
df2.loc['ColTotal',:] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,4.0,6.0,8.0,9.0,7.0,3.0,37.0
1,9.0,7.0,4.0,0.0,1.0,5.0,26.0
2,3.0,8.0,6.0,1.0,0.0,0.0,18.0
3,2.0,4.0,1.0,6.0,7.0,5.0,25.0
ColTotal,18.0,25.0,19.0,16.0,15.0,13.0,106.0


In [101]:
df2.mean(axis=1)

0           10.571429
1            7.428571
2            5.142857
3            7.142857
ColTotal    30.285714
dtype: float64

In [102]:
df2.mean()

0          7.2
1         10.0
2          7.6
3          6.4
4          6.0
5          5.2
RowSum    42.4
dtype: float64

In [103]:
titanic['age'].mean()

29.69911764705882

In [104]:
titanic.loc[titanic.sex == 'female','age'].mean()

27.915708812260537

In [105]:
titanic.loc[(titanic.pclass == 1) & (titanic.sex == 'female'),'age'].mean()

34.61176470588235

### `apply` 변환
행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드  
`apply` 는 인수로 행 또는 열을 받는 함수를 전달바음

In [106]:
df3 = pd.DataFrame(
    {
        'A' : [1,3,4,3,4],
        'B' : [2,3,1,2,3],
        'C' : [1,5,2,4,4]
    }
)
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [107]:
def getMean(x):
    return x.max()-x.min()

df3.apply(getMean)

A    3
B    2
C    4
dtype: int64

In [108]:
df3.apply(getMean,axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [109]:
df3.apply(pd.values_counts)

AttributeError: module 'pandas' has no attribute 'values_counts'

In [110]:
def checkAge(row):
    result = None
    if row.age >= 20:
        result = 'adult'
    else:
        result = 'child'
    return result

titanic['adult/chlid'] = titanic.apply(checkAge,axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/chlid
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


In [111]:
titanic.iloc[1]

survived               1
pclass                 1
sex               female
age                 38.0
sibsp                  1
parch                  0
fare             71.2833
embarked               C
class              First
who                woman
adult_male         False
deck                   C
embark_town    Cherbourg
alive                yes
alone              False
adult/chlid        adult
Name: 1, dtype: object

In [112]:
def getCategory1(row):
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result = 'child'
    return result

titanic['category1'] = titanic.apply(getCategory1,axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/chlid,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


### `fillna` 메서드
판다스의 객체에서 `NaN` 값을 특정한 값으로 변경하고자 할 때 `fillna()` 메서드로 변경할 수 있음

In [113]:
df.fillna(0.0)

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,1.0
1,2.0,4.0,0.0,1.0
2,0.0,4.0,3.0,0.0
3,3.0,2.0,4.0,2.0


In [114]:
titanic = titanic.age.fillna(titanic.age.mean()).round(2)
titanic

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.7
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

### `astype` 메서드
판다스 객체의 데이터 타입을 변경하고자 할 때 `astype()` 메서드를 사용

In [115]:
df3.astype(float)

Unnamed: 0,A,B,C
0,1.0,2.0,1.0
1,3.0,3.0,5.0
2,4.0,1.0,2.0
3,3.0,2.0,4.0
4,4.0,3.0,4.0


In [116]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [117]:
titanic['category2'] = titanic.sex + titanic.age.astype(str)
titanic

AttributeError: 'Series' object has no attribute 'sex'

### 실수값의 카테고리 지정
`cut()` 메서드와 `qcut()` 메서드로 실수 범위에 따라 카테고리를 지정할 수 있음  
`cut()` : 직접 경계선을 지정하여 카테고리 하는 메서드
`qcut()` : 갯수를 동일하게 하여 카테고리 하는 메서드

In [118]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

`cut` 메서드에 카테고리할 리스트와 경계 리스트, 라벨 리스트를 전달하여  
카테고리된 `Categorical` 인스턴스를 반환 받음

`Categorical` 인스턴스는 `categories` 속성으로 카테고리 라벨을 `codes` 속성으로 카테고리된 인덱스 리스트를 반환

In [119]:
bins = [1,20,30,50,70,100]
labels = ['미성년자','청년','중년','장년','노년']
cats = pd.cut(ages,bins,labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [120]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [121]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [122]:
df4 = pd.DataFrame(ages,columns=['ages'])
df4['age_cat'] = pd.cut(ages,bins,labels=labels).astype(str)
df4['age_cat']

0      nan
1     미성년자
2     미성년자
3       청년
4       청년
5       중년
6       중년
7       장년
8     미성년자
9       중년
10      중년
11     nan
Name: age_cat, dtype: object

In [123]:
data = np.random.randn(100)
cats = pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])
cats

['Q4', 'Q2', 'Q1', 'Q2', 'Q3', ..., 'Q2', 'Q2', 'Q2', 'Q2', 'Q3']
Length: 100
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [124]:
cats.value_counts()

Q1    25
Q2    25
Q3    25
Q4    25
Name: count, dtype: int64

In [125]:
bins = [1,20,30,50,70,100]
labels = ['미성년자','청년','중년','장년','노년']

cats = pd.cut(titanic.age,bins,labels=labels)
cats.value_counts()
ratio = cats.value_counts() / cats.count()
ratio

AttributeError: 'Series' object has no attribute 'age'

In [None]:
def checkAge(row):
    result = None
    sex = '남성' if row.sex == 'male' else '여성'
    if row.age >= 20:
        result = row.category3 + sex
    else:
        result = row.category3
        return result

titanic['category3'] = cats.astype(str)
titanic['category3'] = titanic.apply(checkAge,axis=1)
titanic

### 데이터프레임 인덱스 설정 및 제거
`set_index()`, `reset_index()` 메서드로 기존에 존재하던 인덱스를 변경할 수 있음  
`set_index()` 메서드 : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 선택하여 인덱스로 변경함  
`reset_index()` 메세드 : 기존의 행 인덱스를 일반 데이터 열로 변경하고 인덱스를 정수인덱스로 변경함

In [126]:
df1 = pd.DataFrame(np.arange(16).reshape(4,4),columns=['C1','C2','C3','C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [127]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


In [128]:
df2.set_index('C2')

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
5,6,7
9,10,11
13,14,15


In [129]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,1,2,3
1,5,6,7
2,9,10,11
3,13,14,15
