In [1]:
# 데이터프레임 또는 시리즈의 각 원소에 함수 매핑
import pandas as pd
import seaborn as sns

In [2]:
# 1. 시리즈 원소에 하수 매핑 : 시리즈.apply(함수명)
titanic = sns.load_dataset('titanic')

In [4]:
df = titanic.loc[: , ['age','fare']]
df.head()
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [6]:
def add_10(n) :
    return n + 10 # 10을 더하는 함수

def add_two_obj(a,b) :
    return a + b

print(add_10(10))
print(add_two_obj(10,10))

20
20


In [10]:
# 시리즈 객체의 각 원소에 add_10() 함수 적용
df['age'].apply(add_10).head() # age 의 각 컬럼에 대해서 함수 적용시 apply 함수 사용

# 시리즈 객체에 두개의 인수 적용
df['age'].apply(add_two_obj, b = 10)

# lambda 함수 적용 
df['age'].apply(lambda x : add_10(x)) # x 에 age의 각 원소들이 들어감

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [11]:
# 데이터프레임 원소에 함수 매핑 : 데이터프레임.applymap(매핑함수)
df_map = df.applymap(add_10)
df_map

Unnamed: 0,age,fare,ten
0,32.0,17.2500,20
1,48.0,81.2833,20
2,36.0,17.9250,20
3,45.0,63.1000,20
4,45.0,18.0500,20
...,...,...,...
886,37.0,23.0000,20
887,29.0,40.0000,20
888,,33.4500,20
889,36.0,40.0000,20


In [12]:
# 데이터프레임의 각 컬럼에 함수 적용 : 데이터프레임.apply(매핑함수, axis = 0)
df.apply(add_10, axis=0)
df.apply(lambda x : add_10(x), axis=0)

Unnamed: 0,age,fare,ten
0,32.0,17.2500,20
1,48.0,81.2833,20
2,36.0,17.9250,20
3,45.0,63.1000,20
4,45.0,18.0500,20
...,...,...,...
886,37.0,23.0000,20
887,29.0,40.0000,20
888,,33.4500,20
889,36.0,40.0000,20


In [13]:
df.apply(lambda x : x.max() - x.min(), axis=0)

age      79.5800
fare    512.3292
ten       0.0000
dtype: float64

In [14]:
# 데이터프레임의 각 행에 함수 적용 : 데이터프레임.apply(매핑함수, axis=1)
df['add'] = df.apply(lambda x : add_two_obj(x['age'], x['ten']), axis=1)
df.head()

Unnamed: 0,age,fare,ten,add
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0
3,35.0,53.1,10,45.0
4,35.0,8.05,10,45.0


In [15]:
df.apply(lambda x: x['age'] + x['ten'], axis=1)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Length: 891, dtype: float64

In [17]:
# 데이터프레임 객체를 함수에 매핑 : pipe()
df1 = df[['age','fare']].copy()
df1

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


# ✪✪✪✪✪

In [18]:
def missing_value(x) :
    return x.isnull() # 데이터프레임 반환

def missing_count(x):
    return missing_value(x).sum() # 시리즈 반환

def total_number_missing(x):
    return missing_count(x).sum() # 값을 반환

In [24]:
print(df1.pipe(missing_value).head()) # True False 인 데이터프레임
print()
print(df1.pipe(missing_count)) # 각 컬럼의 null의 갯수 반환
print()
print(df1.pipe(total_number_missing)) # 전체 데이터의 Null 갯수 반환

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False

age     177
fare      0
dtype: int64

177


# 컬럼의 순서 변경하여 저장

In [25]:
titanic.head()
df = titanic.loc[0:4, 'survived':'age']
df

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


### 방법 1

In [33]:
df.columns.values # array 형태로 되어 있음
columns = list(df.columns.values) # list 형태로 변경
columns_sorted = sorted(columns)
columns_sorted

df1 = df[columns_sorted]
df1 # 컬럼의 순서를 변경하여 가지고 오기 위해서

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


### 방법 2

In [32]:
df = df[sorted(list(df.columns.values))]
df

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


## 열 분리

In [34]:
df = pd.read_excel('./dataset/주가데이터.xlsx')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   연월일     20 non-null     datetime64[ns]
 1   당일종가    20 non-null     int64         
 2   전일종가    20 non-null     int64         
 3   시가      20 non-null     int64         
 4   고가      20 non-null     int64         
 5   저가      20 non-null     int64         
 6   거래량     20 non-null     int64         
dtypes: datetime64[ns](1), int64(6)
memory usage: 1.2 KB


# ✪✪✪✪✪

In [36]:
# 연월일을 str로 변경
df['연월일'] = df['연월일'].astype('str')
df.info()

dates = df['연월일'].str.split('-')
dates

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   연월일     20 non-null     object
 1   당일종가    20 non-null     int64 
 2   전일종가    20 non-null     int64 
 3   시가      20 non-null     int64 
 4   고가      20 non-null     int64 
 5   저가      20 non-null     int64 
 6   거래량     20 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 1.2+ KB


0     [2018, 07, 02]
1     [2018, 06, 29]
2     [2018, 06, 28]
3     [2018, 06, 27]
4     [2018, 06, 26]
5     [2018, 06, 25]
6     [2018, 06, 22]
7     [2018, 06, 21]
8     [2018, 06, 20]
9     [2018, 06, 19]
10    [2018, 06, 18]
11    [2018, 06, 15]
12    [2018, 06, 14]
13    [2018, 06, 12]
14    [2018, 06, 11]
15    [2018, 06, 08]
16    [2018, 06, 07]
17    [2018, 06, 05]
18    [2018, 06, 04]
19    [2018, 06, 01]
Name: 연월일, dtype: object

In [39]:
# 시리즈의 문자열 리스트에서 데이터를 가져오는 방법 : 시리즈.str.get(인덱스)
df['연'] = dates.str.get(0) # 연도
df['월'] = dates.str.get(1) # 월
df['일'] = dates.str.get(2) # 일
df # datatime 이 아닌경우에도 이 방식을 이용하면 가능하다

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26
5,2018-06-25,11150,150,11400,11450,11000,55519,2018,6,25
6,2018-06-22,11300,100,11250,11450,10750,134805,2018,6,22
7,2018-06-21,11200,350,11350,11750,11200,133002,2018,6,21
8,2018-06-20,11550,250,11200,11600,10900,308596,2018,6,20
9,2018-06-19,11300,700,11850,11950,11300,180656,2018,6,19


## 데이터프레임 필터링

In [42]:
# 필터링 : 데이터프레임[ 불린시리즈 ]
# 나이가 10세 이상이거나 30세 미만인 승객의 정보를 가져와서 df 에 저장

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')

df = titanic.loc[(titanic['age'] >= 10) & (titanic.age < 30),['pclass','sex','age','fare']]
df

Unnamed: 0,pclass,sex,age,fare
0,3,male,22.0,7.2500
2,3,female,26.0,7.9250
8,3,female,27.0,11.1333
9,2,female,14.0,30.0708
12,3,male,20.0,8.0500
...,...,...,...,...
883,2,male,28.0,10.5000
884,3,male,25.0,7.0500
886,2,male,27.0,13.0000
887,1,female,19.0,30.0000


In [45]:
# sibsp 열의 값이 3, 4, 5 중에서 하나인 승객의 age, fare , sex , sibsp 컬럼의 정보를 가져옴
titanic
df = titanic.loc[(titanic.sibsp == 3) | (titanic.sibsp == 4) | (titanic.sibsp == 5) , ['age','fare','sex','sibsp']]
df.head()

Unnamed: 0,age,fare,sex,sibsp
7,2.0,21.075,male,3
16,2.0,29.125,male,4
24,8.0,21.075,female,3
27,19.0,263.0,male,3
50,7.0,39.6875,male,4


In [47]:
# 데이터프레임 열 개체.isin( 추출하고자 하는 값의 리스트 )
df1 = titanic.loc[titanic['sibsp'].isin([3,4,5]),['age','fare','sex','sibsp']]
df1.head()

Unnamed: 0,age,fare,sex,sibsp
7,2.0,21.075,male,3
16,2.0,29.125,male,4
24,8.0,21.075,female,3
27,19.0,263.0,male,3
50,7.0,39.6875,male,4
