#데이터 프레임 고급 인덱싱

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

In [None]:
#loc인덱서
#인덱싱 값이 하나인 경우 시리즈 형태의 자료형으로 출력
df.loc["a"]

In [None]:
#인덱싱값=인덱스 데이터 슬라이싱
df.loc["b":"c"]  # df["b":"c"]

In [None]:
#인덱싱값=불리언 시리즈
df.loc[df.A > 15]

In [None]:
#인덱싱값=함수인 경우
def select_rows(df):
    return df.A > 15

In [None]:
df.loc[select_rows(df)]

In [None]:
#원래 행 인덱스값이 정수인경우의 슬라이싱=>라벨 슬라이싱 방식과 동일
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

In [None]:
df2.loc[1:2]  #라벨슬라이싱 마지막 값이 포함됨

In [None]:
df2.iloc[1:2]   # 라벨 슬라이싱 방식을 따르지 않음

In [None]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

In [None]:
#인덱싱 값을 행과 열 모두 받는 경우
df.loc["a", "A"]

In [None]:
df.loc["b":, "A"]
df.loc["a", :]
df.loc[["a", "b"], ["B", "D"]]
df.loc[df.A > 10, ["C", "D"]]

In [None]:
#iloc  순서를 나타내는 정수 인덱스값을 사용
df.iloc[0, 1]  #0행 1열

In [None]:
df.iloc[:2, 2]  

In [None]:
df.iloc[0, -2:]

In [None]:
df.iloc[2:3, 1:3]  #2행 1열2열 값
#df.iloc[-1]
# df.iloc[-1] = df.iloc[-1] * 2

#데이터 프레임의 데이터 조작

In [None]:
#count
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

In [None]:
df.count()

In [None]:
#카테고리 값 세기
#시리즈
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

In [None]:
s2.value_counts()

In [None]:
#데이타 프레임의 경우 각 열(시리즈)마다 적용해야함
df[3].value_counts()

In [None]:
#정렬 default는 오름차순
s2.value_counts().sort_index()

In [None]:
s2.value_counts().sort_values()

In [None]:
s = pd.Series(range(10))
s[3] = np.nan
s

In [None]:
s.sort_values()

In [None]:
s.sort_values(ascending=False)  #내림차순정렬

In [None]:
#데이타프레임에서 sort_value사용시 by 인수로 sort의 기준열을 지정
df.sort_values(by=1)  

In [None]:
df.sort_values(by=[1, 2])  #by인수가 리스트인 경우 해당열의순서대로 우선순위부여 정렬

연습문제 #6
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 
성별(sex) 인원수, 나이별(age) 인원수, 사망/생존(alive) 인원수를 구하라.

In [None]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

In [None]:
titanic.sort_values(by='age', ascending=False)

In [None]:
titanic['sex'].value_counts()

In [None]:
titanic['alive'].value_counts()

In [None]:
#행과 열의 합계
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

In [None]:
df2.sum(axis=1)   #행방향 합계

In [None]:
#행방향 합계=> 신규열 추가
df2["RowSum"] = df2.sum(axis=1)
df2

In [None]:
df2.sum()      #열방향 합계

In [None]:
df2.loc["ColTotal", :] = df2.sum()    #열방향 합계=> 신규행 추가
df2

In [None]:
df2["RowSum"].mean()  #열 평균

In [None]:
df2.iloc[0].mean() #행평균

연습문제 #7
1.타이타닉호 승객의 평균 나이를 구하라.
2.타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3.타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
titanic.head()

In [None]:
titanic.loc[(titanic['sex']=='female')&(titanic['class']=='First'),['age']].mean()

In [None]:
#apply변환
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

In [None]:
df3.apply(lambda x: x.max() - x.min())  #열기준

In [None]:
df3.apply(lambda x: x.max() - x.min(), axis=1) #행기준

In [None]:
titanic["adult/child"] = titanic.apply(lambda x: "adult" if x.age >= 20 else "child", axis=1)
titanic.tail()

In [None]:
#fillna 메서드
df3.apply(pd.value_counts)

In [None]:
df3.apply(pd.value_counts).fillna(0)

In [None]:
#astype
df3.apply(pd.value_counts).fillna(0).astype(int)

데이터 프레임의 합성

In [None]:
#merge함수
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

In [None]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

In [None]:
pd.merge(df1, df2) # inner join방식

In [None]:
pd.merge(df1, df2, how='outer') # outer join방식

In [None]:
#left, right
pd.merge(df1, df2, how='left') #df1 키값을 기준

In [None]:
pd.merge(df1, df2, how='right') #df2 키값을 기준

In [None]:
#중복된 키가 여러개 있는 경우
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

In [None]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

In [None]:
pd.merge(df1, df2)

In [None]:
#기준열 on인수 사용
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

In [None]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

In [None]:
pd.merge(df1, df2, on='고객명')

In [None]:
#기준열의 이름이 다른경우 right_on left_on
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

In [None]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2

In [None]:
pd.merge(df1,df2,left_on='이름', right_on='성명')

In [None]:
#index를 기준열로 하는 경우의 merage
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

In [None]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

In [None]:
#concat함수를 사용한 merge axis=0:세로연결, axis=1:가로연결
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

In [None]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

In [None]:
pd.concat([df1, df2], axis=0)