### DataFrame column 에 접근하기 (Access)
* [] 연산자를 사용해서 DataFrame column (dataset) 생성 및 수정을 할 수 있음

In [None]:
import pandas as pd
titanic_df = pd.read_csv("titanic_train.csv")

In [None]:
titanic_df.head()

In [None]:
titanic_df["Age_0"] = 0
titanic_df.head()
titanic_df["Age_by_10"] = titanic_df["Age"] * 10
titanic_df["Family_No"] = titanic_df["SibSp"] + titanic_df["Parch"] + 1
titanic_df.head()

In [None]:
titanic_df["Age_by_10"] = titanic_df["Age_by_10"] + 100
titanic_df.head(3)

### DataFrame 삭제하기 (by axis)

In [None]:
drop_titanic_df = titanic_df.drop("Age_0", axis=1)
# 원본에 있는 column 이 삭제되지 않고, 해당 column이 삭제된 DataFrame 을 새로 생성함
titanic_df.head()
drop_titanic_df.head()

# 원본에 있는 column 을 삭제하려면 inplace parameter 를 True로 설정함
titanic_df.drop(["Age_0", "Age_by_10", "Family_No"], axis=1, inplace=True)
titanic_df.head()

* axix=0 으로 설정한 경우, row 방향으로 삭제함

In [None]:
titanic_df = pd.read_csv("titanic_train.csv")
pd.set_option("display.width", 1000)
pd.set_option("display.max_colwidth", 15)
print("---- axis=0 으로 drop 하기 전 ----\n")
print(titanic_df.head())

In [None]:
titanic_df.drop([0,1,2], axis=0, inplace=True)
print("---- axis=0 으로 drop 한 후 ----\n")
print(titanic_df.head())

### Index Frame 삭제하기

In [None]:
titanic_df = pd.read_csv("titanic_train.csv")

# index 객체 추출하기
indexes = titanic_df.index
print(indexes)

# index 번호들을 배열(ndarray) 로 반환하기
array_indexes = indexes.values
print("array_indexes :\n",array_indexes)

#변환하기
array_indexes = indexes.values
print("array_indexes :",type(array_indexes))
print("array_indexes :",array_indexes.shape)
print("indexes[:10] :",indexes[:10])
print("indexes.values[:10] :",indexes.values[:10])
print("array_indexes[:10] :",array_indexes[:10])
#TypeError: Index does not support mutable operations
#Dataframe의 index 속성에서 index값 재할당은 할 수 없음
#values 속성으로 지정해서 할 수 있음
#indexes[10] = 12356789
indexes.values[10] = 10
print("array_indexes :\n",array_indexes)

### Series 객체에서 index 활용하기

In [None]:
series_fair = titanic_df["Fare"]
series_fair.head()
series_indexes = series_fair.index
print("series_indexes:", series_indexes)
#TypeError: Index does not support mutable operations
#Series의 index 속성에서 index값 재할당은 할 수 없음
#values 속성으로 지정해서 할 수 있음
#series_indexes[10] = 123456789
series_indexes.values[10] = 123456789
print("series_indexes.values:\n", series_indexes.values)

### Seires 값 연산하기

In [None]:
print("series_fair 최대값 :", series_fair.max())
print("series_fair 최솟값 :", series_fair.min())
print("series_fair 총합계 :", series_fair.sum())
print("series_fair     :\n", series_fair.head(),sep="")

In [None]:
print("series_fair + 3 :\n", (series_fair + 3).head(),sep="")

#### DataFrame, Series의 reset_index() 메소드
* "index" 라는 이름의 column이 새로 생성되고 index 번호들이 column 값들이 됨

In [None]:
titanic_df = pd.read_csv("titanic_train.csv")
reset_titanic_df = titanic_df.reset_index()
reset_titanic_df.head(3)

In [None]:
reset_titanic_df.shape

In [None]:
print("----- rest.index() 실행 전 ----\n")
value_counts = titanic_df["Pclass"].value_counts()
print("value_counts:\n",value_counts,sep="")
print("value_counts 객체의 type:",type(value_counts))

new_value_counts = value_counts.reset_index()
print("----- rest.index() 실행 후 ----\n")
print("new_value_counts:\n",new_value_counts,sep="")
print("--new_value_counts의 type은 DataFrame으로 변형됨 --")
print("new_value_counts 객체의 type:",type(new_value_counts))

#### DataFrame [] 연산자 - data selection / filtering

In [None]:
titanic_df = pd.read_csv("titanic_train.csv")
print("컬럼 하나에서 data 추출하기 :\n",titanic_df["Pclass"].head(3),sep="")

In [None]:
print("여러 컬럼에서 data 추출하기(두 칼럼) :\n",titanic_df[["Survived","Pclass"]].head(3),sep="")

In [None]:
print("여러 컬럼에서 data 추출하기(두 행) :\n",titanic_df[0:2],sep="")

In [None]:
#print("한 컬럼에서 data 추출하기(한 행) - indexing :\n",titanic_df[0],sep="")
print("한 컬럼에서 data 추출하기(한 행) - slicing :\n",titanic_df[0:1],sep="")

In [None]:
# 3 등 객실 승객 정보만 추출하기 - [] 내에서 조건식으로 검색함
titanic_df[titanic_df["Pclass"] == 3].head()

### DataFrame 의 ix[]연산자
* 명칭기반 index / 위치기반 indexing 모두 가능함
* ilo은 index 번호만 넣을 수 있음

In [None]:
titanic_df.head(3)

In [None]:
# pandas update 된 후 ix[] 기능 이 없어짐 - iloc, loc 사용
#print("colum 에서 위치기반으로 index 해서 data 추출하기 :",titanic_df.ix[0,2])

### DataFrame iloc[]연산자 - 위치기반 indexing 지원
* iloc[행인덱스, 열인덱스]

In [None]:
data_dict = {
            "name"  : ["이순신","강감찬", "유관순", "안중근", "정약용"],
            "birth" : [1545, 948, 1901, 1879, 1762], 
            "gender" : ["Male", "Male", "Female", "Male", "Male"]
            }
data_df = pd.DataFrame(data_dict, index = ["one", "two", "three", "four", "five"])
data_df

In [None]:
# iloc 의 [] 속에는 index 번호만 넣을 수 있음
# 유관순의 성별검색
print("data_df.iloc[2,2]:",data_df.iloc[2,2])
# 안중근의 이름검색
print("data_df.iloc[3,0]:",data_df.iloc[3,0])
# 이순신의 탄생연도검색
print("data_df.iloc[0,1]:",data_df.iloc[0,1])

print("data_df.iloc[1,0]:",data_df.iloc[1,0])

### DataFrame iloc[]연산자 - 위치기반 indexing 지원
* loc[로우명, 컬럼명]
* loc의 속에는 컬럼명이나 로우명만 넣을 수 있음

In [None]:
data_df

In [None]:
#이순신의 이름 검색하기
print("data_df.loc[\"one\", \"name\"]:", data_df.loc["one", "name"])
#안중근의 성별 검색하기
print("data_df.loc[\"four\", \"gender\"]:", data_df.loc["four", "gender"])
#유관순의 탄생연도 검색하기
print("data_df.loc[\"three\", \"birth\"]:", data_df.loc["three", "birth"])

In [None]:
reset_index_data_df = data_df.reset_index()
#rename() : column의 이름을 변경함
reset_index_data_df = reset_index_data_df.rename(columns={"index":"original_index"})
reset_index_data_df

In [None]:
# 이순신, 강감찬의 이름을 한 번에 검색하기
print(reset_index_data_df.loc[0:2, "name"])

In [None]:
titanic_df = pd.read_csv("titanic_train.csv")
# 나이가 60세가 넘는 사람들의 정보 검색하기
titanic_df_60_lt = titanic_df[titanic_df["Age"]>60]
print("titanic_df_60_lt:",type(titanic_df_60_lt))
print("titanic_df_60_lt:\n",titanic_df_60_lt.head(3),sep="")

In [None]:
lt_60 = titanic_df["Age"]>60
print("lt_60:",type(lt_60))
print("lt_60:\n",lt_60.head(3),sep="")

In [None]:
# 나이가 60세가 넘는 사람들의 이름, 나이 검색하기
titanic_df[titanic_df["Age"]>60][["Name","Age"]].head(3)

In [None]:
# 나이가 60세가 넘는 사람들의 이름, 나이 검색하기
titanic_df[["Name","Age"]][titanic_df["Age"]>60].head(3)

In [None]:
# 나이가 60세가 넘는 사람들의 이름, 나이 검색하기
titanic_df.loc[titanic_df["Age"]>60,["Name","Age"]].head(3)

In [None]:
# 나이가 60세가 넘고, 1등 객실이고, 여성인 승객만 조회하기
titanic_df[(titanic_df["Age"]>60)& (titanic_df["Pclass"]==1) & (titanic_df["Sex"] == "female").head()

In [None]:
# 각 조건을 변수에 할당해서 검색하기
condition_age = titanic_df["Age"] > 60
condition_pclass = titanic_df["Pclass"] == 1
condition_sex = titanic_df["Sex"] == "female"
titanic_df[condition_age & condition_pclass & condition_sex]

### Agrregation() 함수와 groupby
* aggregation 함수 : mean(), sum(), count()

In [None]:
# 각 칼럼의 건수를 결측치(NaN)를 제외하고 검색하기
titanic_df.count()

In [None]:
# 특정 칼럼들로 Aggregation()함수 호출하기 검색하기
titanic_df[["Age", "Fare"]].mean(axis=1)

In [None]:
# Age 와 Fare 의 합계
titanic_df[["Age", "Fare"]].sum(axis=0)

In [None]:
# Age 와 Fare count() : 결측지를 제외한 건수
titanic_df[["Age","Fare"]].count()

### DataFrame 에서 groupby()를 호출하면 DataFrameGrouBy 객체 변환함

In [None]:
titanic_df_groupby = titanic_df.groupby(by = "Pclass")
print("titanic_df_groupby의 type:", type(titanic_df_groupby))
print("titanic_df_groupby :\n", titanic_df_groupby)

In [None]:
titanic_df_groupby = titanic_df.groupby("Pclass").count()
titanic_df_groupby

In [None]:
print("titanic_df_groupby의 type:", type(titanic_df_groupby))
print("titanic_df_groupby의 shape:", titanic_df.shape)
print("titanic_df_groupby의 index:", titanic_df.index)

In [None]:
#Pclass 컬럼을 기준으로 그룹핑해서 PassengerId 와 Survived 컬럼 counting 하기
titanic_df.groupby(by = "Pclass")[["PassengerId","Survived"]].count()

In [None]:
titanic_df[["Pclass","PassengerId", "Survived"]].groupby("Pclass").count()

In [None]:
titanic_df.groupby("Pclass")["Pclass"].count()

In [None]:
titanic_df["Pclass"].value_counts()

### 여러개의 aggregation 함수 사용하기 - agg() 함수 사용

In [None]:
titanic_df.groupby("Pclass")["Age"].agg([max, min])

### dictionary 로 aggregation 함수 사용하기

In [None]:
agg_format = {"Age":"max", "Sibsp":"sum", "Fare":"mean"}
titanic_df.groupby("Pclass").agg(agg_format)

### 결측치 data(missing data)처리하기 = DataFrame의 isna() 메소드
* isna() 메소드 - 모든 column의 값이 NaN 이면 True를 반환함

In [None]:
titanic_df.head(3)

In [None]:
titanic_df.isna().head(3)

### fillna() 메소드 - () 안에 지정한 값들로 NaN 값을 대체함

In [None]:
#Cabin 컬럼의 결측치를 "CCCC"로 대체하기
titanic_df["Cabin"] = titanic_df["Cabin"].fillna("CCCC")
titanic_df.head()

In [None]:
reset_titanic_df = titanic_df.reset_index()
reset_titanic_df["Age"].mean()
#29.699117647058763 평균
reset_titanic_df.loc[11:50, "Age"]

In [None]:
# Age 칼럼의 결측치를 평균값으로 대체하기
titanic_df["Age"] = titanic_df["Age"].fillna(titanic_df["Age"].mean())
titanic_df.head()

### DataFrame apply() 메소드 사용하기 - apply(lambda)식

In [None]:
def square_number(number):
    return number * number

number = int(input("정수를 입력하세요 :"))
result = square_number(number)
print(number,"의 제곱:", result)

In [None]:
number = int(input("정수를 입력하세요 :"))
result = (lambda number: number * number)(number)
print(number,"의 제곱:", result)

In [None]:
list_numbers = [1 ,2, 3 ,4 ,5]
square_numbers = map(lambda number : number * number, list_numbers)
list(square_numbers)

In [None]:
# apply(lambda)식
titanic_df["Name_length"] = titanic_df["Name"].apply(lambda name : len(name))
titanic_df[["Name", "Name_length"]].head()

In [None]:
titanic_df["Child_Adult"] = titanic_df["Age"].apply(lambda age : "Child" len(name))
titanic_df[["Name", "Name_length"]].head()

In [None]:
titanic_df["Age_category"] = titanic_df["Age"].apply(lambda age : "Child" if age <= 18 else "Adult" if age <= 60 else "Elderly")
titanic_df[["Age", "Age_category"]].head(10)
titanic_df["Age_category"].value_counts()

In [None]:
def get_age_category(age):
    category = ""
    if age <= 5: category = "Baby"
    elif age <= 12: category = "Child"
    elif age <= 18: category = "Teenager"
    elif age <= 25: category = "Student"
    elif age <= 35: category = "Young Adult"
    elif age <= 60: category = "Adult"
    else: category = "Elderly"
    return category
titanic_df["Age_category"] = titanic_df["Age"].apply(lambda age : get_age_category(age))
titanic_df["Age_category"].value_counts()

In [None]:
titanic_df[["Age", "Age_category"]].head(10)