In [None]:
import pandas as pd
import numpy as np

### 데이터 개수 세기
판다스 패키지의 `Series`,`DataFrame` 객체의 `count()`메서드로 데이터의 갯수를 셀 수 있음
단 `NaN`값은 포함하지 않음

In [None]:
s = pd.Series(np.arange(10))
s[3]=np.nan
print(s)
print(s.count())

In [None]:
df=pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
df.iloc[2,3]=np.nan
print(df)
#열기준으로 그룹화하여 카운드
print(df.count())

In [None]:
import seaborn

In [None]:
titanic=seaborn.load_dataset('titanic')
print(titanic.head())

In [None]:
print(titanic.count())
print(len(titanic))

### 카테고리 값 세기
`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의
갯수를 셀 수 있음
`DataFrame` 객체에는 `value_counts()`메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [None]:
s2=pd.Series(np.random.randint(6,size=250))
print(s2.tail())
print(s2.value_counts())

In [None]:
df[0].value_counts() #이해못함

### 정렬
`sort_index()`,`sort_values()`메서드로 정렬 가능
`sort_index()` : 인덱스 기준으로 정렬 (기본적으로 오름처순 정렬, 만약 내림차순 정렬을 하고
싶으면 `ascending=False`를 지정), 
`sort_values()`: 값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨 

In [None]:
print(s2.value_counts())
print()
print(s2.value_counts().sort_index())

In [None]:
print(s)
print(s.sort_values())
print(s.sort_values(ascending=False))

데이터 프레임에서 `sort_values()` 메서드를 사용할 땐 `by`인수로 정렬 기준이 될 열을 지정
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [None]:
print(df)
print()
print(df.sort_values(by=2))
print()
print(df.sort_values(by=[2,0]))

#### 파이썬으로 다음 연산을 수행한다.


`sort_values` 메서드를 사용하여 타이타닉호 

승객에 대해 성별(sex) 인원수, 

나이별(age) 인원수, 

선실별(class) 인원수, 

사망/생존(alive) 인원수를 구하라.

In [None]:
titanic.sort_values(['sex','age','class','alive'])
print(titanic['sex'].value_counts().sort_values())
print(titanic['age'].value_counts().sort_values())
print(titanic['class'].value_counts().sort_values())
print(titanic['alive'].value_counts().sort_values())

### 행/열 합계
`sum()`메서드로 행 또는 열의 합계를 구할 수 있음
`axis`인수로 1을 지정하면 행의 합, 0(default)을 지정하면 열의 합

In [None]:
df2=pd.DataFrame(np.random.randint(10,size=(4,6)))
print(df2)
print()
print(df2.sum(axis=1))
df2['RowSum'] = df2.sum(axis=1)
print()
print(df2)

In [None]:
print(df2.sum())
df2.loc['ColTotal',:]=df2.sum()
print()
print(df2.loc['ColTotal',:])
print()
print(df2.mean(axis=1))
print()
print(df2.mean())

In [None]:
print()
print(df2.mean(axis=1))
print()
print(df2.mean())

파이썬으로 다음 연산을 수행한다.

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
print(titanic['age'].mean())
print()
print(titanic.loc[titanic.sex == 'female','age'].mean())
print()
print(titanic.loc[(titanic.pclass==1) & (titanic.sex == 'female'),'age'].mean())

### `apply` 변환
행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드 
`apply`는 인수로 행 또는 열을 받는 함수를 전달받음

In [None]:
df3=pd.DataFrame(
    {
        'A':[1,3,4,3,4],
        'B':[2,3,1,2,3],
        'C':[1,5,2,4,4]
    }
)
print(df3)

In [None]:
def getColMean(col):
    return col.mean()

print(df3.apply(getColMean))

def getMean(col):
    return col.max()-col.min()

print(df3.apply(getMean))

In [None]:
print(df3.apply(getMean,axis=1))
print(df3.apply(pd.value_counts))

In [None]:
print(df3.apply(getMean,axis=1))
print(df3.apply(pd.value_counts))
df3['A'].value_counts()

파이썬으로 다음 연산을 수행한다.


1. 타이타닉호 승객의 평균 나이를 구하라.

2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.


3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.


In [None]:
def checkAge(row):
    result=None
    if(row.age >= 20):
        result = 'adult'
    else:
        result = 'child'
    return result

titanic['adult/child'] = titanic.apply(checkAge,axis=1)
titanic

파이썬으로 다음 연산을 수행한다.

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라. `category1` 카테고리는 다음과 같이 정의된다.


1. 20살이 넘으면 성별을 그대로 사용한다.

2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [None]:
titanic.iloc[1]

In [None]:
def getCategory1(row):
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result = 'child'
    return 

titanic['category1']=titanic.apply(getCategory1,axis=1)
titanic

### 'fillna' 메서드
판다스의 객페에서 `NaN`값을 특정한 값으로 변경하고자 할때 `fillna()`메서드로 변경할 수 있음

In [None]:
print(df)
print()
print(df.fillna(0.0))

파이썬으로 다음 연산을 수행한다.

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [147]:
titanic.age = titanic.age.fillna(titanic.age.mean()).round(2)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,


### `astype` 메서드
판다스 객체의 데이터 타입을 변경하고자 할 때 `astype()`메서드를 사용

In [149]:
df3.astype(float)

Unnamed: 0,A,B,C
0,1.0,2.0,1.0
1,3.0,3.0,5.0
2,4.0,1.0,2.0
3,3.0,2.0,4.0
4,4.0,3.0,4.0



##### 파이썬으로 다음 연산을 수행한다.

타이타닉호의 승객에 대해 나이와 성별에 의한 

카테고리 열인 `category2` 열을 만들어라. 

`category2` 카테고리는 다음과 같이 정의된다.


1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.

2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.

3. 예를 들어 27살 남성은 `male27` 값이 된다.

In [154]:
titanic['category2']=titanic.sex+titanic.age.astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,,male26.0


### 실수값의 카테고리

`cut()`메서드와 `qcut()`메서드로 실수 범위에 따라 카테고리를 지정할 수 있음

`cut()`:직접 경계선을 지정하여 카테고리 하는 메서드

`qcut()`:갯수를 동일하게 하여 카테고리 하는 메서드


In [156]:
age = [0,2,10,21,23,37,31,61,20,41,23,101]

`cut()` 메서드에 카테고리할 리스트와 경계리스트, 라벨 리스트를 전달하여 카테고리된
`Categorical`인스턴스를 반환받음
`Categorical`인스턴스는 `Categoricals`속성으로 카테고리 라벨을, 
`codes`속성으로 카테고리된 인덱스 리스트를 반환

In [157]:
bins=[1,20,30,50,70,100]
labels=['미성년자','청년','중년','장년','노년']
cats=pd.cut(age,bins,labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '청년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [162]:
print(cats.categories)
print(cats.codes)
df4 = pd.DataFrame(age,columns=['age'])
print(df4)
df4['age_cat']=pd.cut(age,bins,labels=labels).astype(str)
print(df4)

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  2  2  3  0  2  1 -1]
    age
0     0
1     2
2    10
3    21
4    23
5    37
6    31
7    61
8    20
9    41
10   23
11  101
    age age_cat
0     0     nan
1     2    미성년자
2    10    미성년자
3    21      청년
4    23      청년
5    37      중년
6    31      중년
7    61      장년
8    20    미성년자
9    41      중년
10   23      청년
11  101     nan


In [169]:
data = np.random.randn(10)
cats = pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])
cats


['Q3', 'Q4', 'Q1', 'Q3', 'Q4', 'Q4', 'Q2', 'Q1', 'Q2', 'Q1']
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [171]:
pd.value_counts(cats)

  pd.value_counts(cats)


Q1    3
Q4    3
Q2    2
Q3    2
Name: count, dtype: int64


파이썬으로 다음 연산을 수행한다.


타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.


```python

bins = [1, 20, 30, 50, 70, 100]

labels = ["미성년자", "청년", "중년", "장년", "노년"]


```

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [176]:
bins=[1,20,30,50,70,100]
labels=['미성년자','청년','중년','장년','노년']
cats=pd.cut(titanic.age,bins,labels=labels)
cats

0        청년
1        중년
2        청년
3        중년
4        중년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      중년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']