In [None]:
import numpy as np
import pandas as pd

### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음
단, `NaN` 값은 포함하지 않음

In [None]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

In [None]:
# 카운트 세기 (NAN 제외 갯수)
s.count

In [None]:
df=pd.DataFrame(np.random.randint(5,size=(4,4)), dtype=float)
df.iloc[2,3]=np.nan
df

In [None]:
#열 기준으로 그룹화하여 카운트
df.count()  

In [None]:
import seaborn

In [None]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

In [None]:
# 각 열마다 데이터 개수가 나옴
titanic.count()

In [None]:
len(titanic)

### 카테고리 값 세기

`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에  
`value_counts()`메서드로 각 값의 갯수를 셀 수 있음

`DataFrame`객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [None]:
s2 = pd.Series(np.random.randint(6,size=250))
s2.tail()

In [None]:
s2.value_counts()

In [None]:
df[0].value_counts()

### 정렬
`sort_index`, `sort_values` 메서드로 정렬 가능
`sort_index`: 인덱스 기준으로 정렬  
(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending=False`를 지정)  


`sort_values`: 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨

In [None]:
s2.value_counts().sort_index()

In [None]:
# `sort_values`: 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨
s.sort_values()


In [None]:
# 내림차순
s.sort_values(ascending=False)

In [None]:
df.sort_values(by=2)

In [None]:
df.sort_values(by=[2,0])

##### 파이썬으로 다음 연산을 수행한다.
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수,   
나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [None]:
titanic['sex'].value_counts().sort_values()

In [None]:
titanic['age'].value_counts().sort_values()

In [None]:
titanic['class'].value_counts().sort_values()

In [None]:
titanic['alive'].value_counts().sort_values()

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음
`axis` 인수로 1을 지정하면 행의 합, 0(defalt)을 지정하면 열의 합

In [None]:

df2 = pd.DataFrame(np.random.randint(10,size=(4,6))) 

In [None]:
df2.sum(axis=1)

In [None]:
df2['RowSum']=df2.sum(axis=1)
df2

In [None]:
df2.sum()

In [None]:
df2.loc['colTotal',:] = df2.sum()
df2

In [None]:
df2.mean(axis=1)

In [None]:
df2.mean()

##### 파이썬으로 다음 연산을 수행한다.

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
titanic

In [None]:
#1. 타이타닉호 승객의 평균 나이를 구하라.
titanic['age'].mean()

In [None]:
#2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
titanic.loc[titanic.sex == 'female','age'].mean()

In [None]:
#3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.
#타이타닉호를 검색 하고 (loc) 1등급 검색 조건 & 여성 승객들 조건으로 잡고 , 나이를 검색하는데 그 나이를 평균으로.

#p는 왜 붙는가?
titanic.loc[(titanic.pclass == 1) & (titanic.sex == 'female'),'age'].mean()


### `apply` 변환
행 또는 열 단위로 복잡한 처리를 하고자 할때 사용하는 메서드
`apply`는 인수로 행 또는 열을 받는 함수를 전달받음

In [None]:
df3 = pd.DataFrame(
    {
        'A': [1,3,4,3,4],
        'B': [2,3,1,2,3],
        'C': [1,5,2,4,4]
    }

)

df3

In [None]:
# 프론트엔드에서 많이 쓰인다 . 이벤트성으로

def getColMean(col):
    return col.mean()

df3.apply(getColMean)

In [None]:
def getColMean(col):
    return col.max() - col.min()

df3.apply(getColMean)

In [None]:
# 행 에다가 작업을 하고 싶을때
df3.apply(getColMean, axis=1)

In [None]:
# 몇번씩 쓰였는지 보여준다
df3.apply(pd.value_counts)

 **파이썬으로 다음 연산을 수행한다.**

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라.  
`category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [None]:
#1. 20살이 넘으면 성별을 그대로 사용한다.
def checkAge(row):
    result = None
    if row.age>=20:
        result = 'adult'
    else:
        result = 'child'

    return result


titanic['adult / child']= titanic.apply(checkAge, axis=1)
titanic

In [None]:
titanic.iloc[1]

In [None]:
# 2. 20살 미만이면 성별에 관계없이 “child”라고 한다.
def getCategory1(row):
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result ='child'
    return result

titanic['category1'] = titanic.apply(getCategory1, axis=1)
titanic
    


### `fillna` 메서드
판다스의 객체에서 `NaN` 값을 특정한 값으로 변경하고자 할때 `fillna()` 메서드로 변경 할 수 있음

In [None]:
df.fillna(0.0) # NaN 찍혀있던 부분을 0.0으로 변경함

##### 파이썬으로 다음 연산을 수행한다.

타이타닉호의 승객 중 나이를 명시하지 않은 고객은  
나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [None]:
titanic.loc[titanic.age.isna()]     # 둘다 가능
titanic.loc[titanic['age'].isna()]

In [None]:
titanic.age = titanic.age.fillna(titanic.age.mean()).round()
titanic

### `astype` 메서드
판다스 객체의 데이터 타입을 변경하고자 할 때 `astype()` 메서드를 사용  

In [None]:
df3.astype(float)

 **파이썬으로 다음 연산을 수행한다.**

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라. `category2` 카테고리는 다음과 같이 정의된다.  

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.  
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.  
3. 예를 들어 27살 남성은 `male27` 값이 된다.  


In [None]:
#승객의 나이와 성별 (문자열끼리 연산 가능)

titanic['category2'] = titanic.sex +'='+ titanic.age.astype(str)
titanic

### 실수값의 카테고리 지정

`cut()` 메서드와 `qcut()` 메서드로 실수 범위에 따라 카테고리를 지정할 수 있음  
`cut()`: 직접 경계선을 지정하여 카테고리 하는 메서드
`qcut()`: 갯수를 동일하게 하여 카테고리 하는 메서드

`cut()` 메서드에 카테고리할 리스트와 경계 리스트, 라벨 리스트를 전달하여 카테고리된   
`Categorical`인스턴스를 반환 받음
`Categorical` 인스턴스는 `categories`속성으로 카테고리 라벨을  
`codes`속성으로 카테고리된 인덱스 리스트를 반환함

In [None]:
# 메서드에 카테고리할 리스트
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [None]:
# 경계 리스트, 라벨 리스트
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

In [None]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

In [None]:
df4.age_cat.astype(str) + df4.ages.astype(str)

In [None]:
cats.categories

In [None]:
cats.codes 
# 0, 101은 범위를 벗어나기에 -1로 표현됨

In [None]:
# 데이터 프레임으로 만들기
df4= pd.DataFrame(ages, columns=['age'])
df4['age_cat']= pd.cut(ages,bins,labels=labels)
df4['age_cat']

In [None]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3","Q4"])
cats


In [None]:
pd.value_counts(cats)

In [None]:
cats.value_counts