In [7]:
# 17, Jan, 2024
# 3.0 소개

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [11]:
# 3.1 데이터프레임 만들기

# 방법1: DataFrame 클래스를 사용해 비어 있는 데이터프레임을 만든 후 개별적으로 각 열 정의

import pandas as pd

dataframe = pd.DataFrame()

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]


dataframe


# 방법 2: 데이터프레임 객체를 만든 후 새로운 행을 아래에 추가

new_person = pd.Series(['Molly Mooney', 40, True],
             index=['Name', 'Age', 'Driver'])

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


In [16]:
# 데이터프레임 객체를 만들 때ㅐ 데이터를 전달하는 방법이 몇 가지 있습니다. 먼저 넘파이 배열을 주입하여 만들 수 있습니다. 
# 열 이름은 columns 매개변수에 지정합니다.

import numpy as np

data = [ ['Jacky Jackson', 38, True], ['Steve Stevenson', 25, False] ]

matrix = np.array(data)
pd.DataFrame(matrix, columns = ['Name', 'Age', 'Driver'])


# 원본 리스트를 전달하여 만들 수도 있습니다.
pd.DataFrame(data, columns= ['Name', 'Age', 'Driver'])



# 열 이름과 데이터를 매핑한 딕셔너리를 사용해 데이터프레임을 만들 수 있습니다.
data = {'Name': ['Jacky Jackson', 'Steve Stevenson'],
        'Age': [38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)



# 또는 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있습니다. index 매개변수에 인덱스를 따로 지정할 수도 있습니다.
data = [ {'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True},
         {'Name': 'Steve Stevenson', 'Age': 25, 'Driver': False} ]
pd.DataFrame(data, index=['row1', 'row2'])

Unnamed: 0,Name,Age,Driver
row1,Jacky Jackson,38,True
row2,Steve Stevenson,25,False


In [19]:
# 3.2 데이터 설명하기
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(2)

dataframe.shape

dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [28]:
# 3.3 데이터프레임 탐색하기

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

## 첫 번째 행 선택
dataframe.iloc[0]

# 콜론(:)을 사용하여 원하는 행의 슬라이스를 선택할 수 있습니다. 예를 들어 두 번째, 세 번째, 네 번째 행을 선택합니다.
dataframe.iloc[1:4]

## 네 개의 행 선택
dataframe.iloc[:4]

# 데이터프레임은 정수 인덱스를 가질 필요가 없습니다. 각 행이 고유해진다면 어떤 값이라도 데이터프레임의 인덱스로 설정할 수 있습니다.
# 예를 들어 승객 이름을 인덱스로 설정하고 이름을 사용하여 행을 선택할 수 있습니다.

## 인덱스 설정
dataframe = dataframe.set_index(dataframe['Name'])

## 행 확인
dataframe.loc['Allen, Miss Elisabeth Walton']


# loc는 데이터프레임의 인덱스가 레이블 (예를 들어 문자열) 일 때 사용합니다.

# iloc는 데이터프레임의 위치를 참조합니다. 예를 들어 iloc[0]는 정수 혹은 문자열 인덱스에 상관없이 첫 번째 행을 반환합니다.

# loc와 iloc 메서드의 슬라이싱은 넘파이와 달리 마지막 인덱스를 포함합니다. 슬라이싱을 사용해 열을 선택할 수도 있습니다.

## 'Allison, Miss Helen Loraine' 이전까지 행에서 Age 열과 Sex 열만 선택
dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']


# 데이터프레임 객체에 슬라이싱을 사용하면 행을 선택합니다. 이때는 마지막 인덱스를 포함하지 않습니다.
# 인데깅을 사용하면 열을 선택하며 여러 개의 열 이름을 리스트로 전달할 수도 있습니다.

## dataframe[:2] 와 동일
dataframe[:'Allison, Miss Helen Loraine']

dataframe[['Age', 'Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


In [3]:
# 18, Jan, 2024
# 3.4 조건에 따라 행 선택하기

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe[dataframe['Sex'] == 'female'].head(2) 

dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


In [9]:
# 3.5 값 치환하기

## 값을 치환하고 두 개의 행을 출력
dataframe['Sex'].replace("female", "Woman").head(2)

## female과 male을 Woman과 Man으로 치환
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head()


# 하나의 열이 아니라 데이터프레임의 replace 메서드를 사용하여 전체 DataFrame 객체에서 값을 찾아 바꿀 수도 있습니다.
dataframe.replace(1, "One").head(2)

# replace 메서드는 정규 표현식(regular experssion)도 인식합니다.
dataframe.replace(r"1st", "First", regex=True).head(2)

## female과 male을 person으로 바꿉니다.
dataframe.replace(["female", "male"], "person").head(3)

# 딕셔너리로 바꿀 값을 각각 매핑하여 전달할 수도 있습니다.
## female을 1로 바꾸고 male을 0으로 바꿉니다.
dataframe.replace({"female":1, "male":0}).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0


In [17]:
# 3.6 열 이름 바꾸기

dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)


# rename 메서드의 딕셔너리 매개변수에 바꾸려는 열을 동시에 여러 개 지정할 수 있습니다.
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)


# 여러 개의 열 이름을 바꿀 수 있기 때문에 rename 메서드의 columns 매개변수에 딕셔너리를 전달하는 방식을 좋아합니다.
# 전체 열의 이름을 동시에 바꾸려면 다음 코드처럼 키는 이전 열 이름을 사용하고 값은 비어있는 딕셔너리를 만드는 것이 편리합니다.

import collections

## 딕셔너리를 만듭니다.
column_names = collections.defaultdict(str)

## 키를 만듭니다.
for name in dataframe.columns:
    column_names[name]
    
## 딕셔너리를 출력합니다.
column_names


# index 매개변수를 사용하여 인덱스를 바꿀 수 있습니다.
## 인덱스 0을 -1로 바꿉니다.
dataframe.rename(index={0:-1}).head(2)


# 변환 함수를 전달하고 axis 매개변수에 'columns' 또는 'index'를 지정할 수 있습니다.
## 열 이름을 소문자로 바꿉니다.
dataframe.rename(str.lower, axis='columns').head(2)

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 3.7 최솟값, 최댓값, 합, 평균 계산 및 개수 세기

In [18]:
print('최댓값:', dataframe['Age'].max())
print('최솟값:', dataframe['Age'].min())
print('평균:', dataframe['Age'].mean())
print('합:', dataframe['Age'].sum())
print('카운트:', dataframe['Age'].count())

최댓값: 71.0
최솟값: 0.17
평균: 30.397989417989415
합: 22980.88
카운트: 756


In [22]:
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

In [20]:
## 수치형 열의 공분산 계산
dataframe.cov()

Unnamed: 0,Age,Survived,SexCode
Age,203.32047,-0.430491,-0.382054
Survived,-0.430491,0.225437,0.11407
SexCode,-0.382054,0.11407,0.22823


In [21]:
## 수치형 열의 상관계수 계산
dataframe.corr()

Unnamed: 0,Age,Survived,SexCode
Age,1.0,-0.061254,-0.055138
Survived,-0.061254,1.0,0.502891
SexCode,-0.055138,0.502891,1.0


## 3.8 고유한 값 찾기

In [23]:
dataframe['Sex'].unique()

array(['female', 'male'], dtype=object)

In [24]:
# value_counts 메서드는 고유한 값과 등장 횟수를 출력합니다.
## 카운트 출력
dataframe['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

In [25]:
# unique와 value_counts는 범주형 열을 탐색하거나 조작할 때 유용합니다. 범주형 열에는 데이터 랭글링 단계에서 처리해주어야 할 클래스가
# 종종 있습니다. 예를 들어 타이타닉 데이터셋의 PClass 열은 승객 티켓의 등급을 나타냅니다. 타이타닉에는 세 개의 등급이 있지만 
# value_counts의 값을 확인해보면 문제가 나타납니다.

## 카운트 출력
dataframe['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

In [26]:
# 고유한 값의 개수만 얻고 싶다면 nunique 메서드를 사용합니다.
dataframe['PClass'].nunique()

4

In [27]:
# nunique 메서드는 데이터프레임 전체에 적용할 수 있습니다.
dataframe.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

In [None]:
# value_counts 메서드와 nunique 메서드는 NaN을 카운트할지 여부를 결정하는 dropna 매개변수가 있습니다.
# 기본값은 True로 NaN을 카운트하지 않습니다.

## 3.9 누락된 값 다루기

In [28]:
dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [29]:
# 판다스는 넘파이의 NaN을 사용하여 누락된 값을 표시합니다. 중요한 점은 판다스 자체적으로 NaN을 구현하지 않았다는 것입니다.
# 예를 들어 male이란 문자열을 NaN으로 바꾸려고 하면 에러가 발생합니다.

dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

In [30]:
# NaN을 사용하려면 넘파이 라이브러리를 임포트해야 합니다.

import numpy as np

dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

In [31]:
# 종종 데이터셋에 누락된 값을 표시하기 위해 특정 값을 사용하는 경우가 있습니다. 예를 들면 NONE, -999, .(마침표) 등입니다.
# 판다스의 read_csv 함수에는 누락 표시에 사용한 값을 지정할 수 있는 매개변수가 있습니다.

dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

In [32]:
# keep_default_na 매개변수를 False로 지정하면 'N/A' 문자열들을 NaN으로 인식하지 않습니다.
# 다음 코드는 'female' 문자열만 NaN으로 인식합니다.

dataframe = pd.read_csv(url, na_values=['female'],
                        keep_default_na=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [33]:
# na_filter를 False로 설정하면 NaN 변환을 하지 않습니다.

dataframe = pd.read_csv(url, na_filter=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [None]:
# 19, Jan, 2024

## 3.10 열 삭제하기

In [28]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [4]:
dataframe.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


In [5]:
# 열 이름이 없다면 dataframe.columns에 열 인덱스를 지정하여 삭제할 수 있습니다.
## PClass 열을 삭제
dataframe.drop(dataframe.columns[1], axis=1).head(2)


# drop은 열을 삭제하는 대표적인 방법입니다. 다른 방법은 del dataframe['Age']입니다. 대부분의 경우 작동하지만 판다스 내부 호출 방식의 이유로 권장하지 않습니다. 

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


In [None]:
# 필자가 학습에 추천하는 한 가지 방법은 판다스의 inplace=True 매개변수를 절대 사용하지 않는 것입니다.
# 많은 판다스 매서드는 inplace 매개변수가 있습니다. True로 설정하면 데이터프레임을 바로 수정합니다. 이는 데이터프레임을 
# 수정 가능한 객체처럼 다루므로 데이터 처리 파이프라인을 더욱 복잡하게 만듭니다.
# 데이터프레임을 수정 불가능한 객체처럼 다루는 것이 좋습니다. 예를 들면 다음과 같습니다.

dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)

# 이 예에서 dataframe을 수정하지 않고 dataframe의 수정된 버전으로 새로운 데이터프레임 dataframe_named_dropped를 만들었습니다.
# 데이터프레임을 수정 불가능한 객체로 다루면 수많은 골칫거리들을 피할 수 있을 것입니다.

## 3.11 행 삭제하기

In [6]:
dataframe = pd.read_csv(url)

dataframe[dataframe['Sex'] != 'male'].head(2) 

# 기술적으로 보면 drop 메서드를 사용할 수 있지만(예를 들어 df.drop([0,1], axis=0)) 더 실용적인 방법은 df[] 안에 불리언 조건을 넣는
# 거입니다. 조건을 사용하면 행 하나 또는 여러 개를 동시에 삭제할 수 있습니다.

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [7]:
# 불리언 조건을 사용하면 고유한 값에 해당하는 하나의 행을 간단하게 삭제할 수 있습니다.

dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [8]:
# 행 인덱스를 사용하여 하나의 행을 삭제할 수도 있습니다.

dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


## 3.12 중복된 행 삭제하기

In [9]:
dataframe = pd.read_csv(url)

dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [10]:
print("원본 데이터프레임 행의 수:", len(dataframe))
print("중복 삭제 후 행의 수:", len(dataframe.drop_duplicates()))

# drop_duplicates는 기본적으로 모든 열이 완벽히 동일한 행만 삭제합니다. 이런 조건에서는 dataframe에 있는 모든 행이 고유합니다.

원본 데이터프레임 행의 수: 1313
중복 삭제 후 행의 수: 1313


In [11]:
# 일반적으로 일부 열만 대상으로 중복된 행을 검사합니다. 이런 경우 subset 매개변수를 사용합니다.

dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [12]:
# drop_duplicates는 기본적으로 중복된 행에서 처음 나타난 것을 유지하고 나머지를 버립니다. 
# keep 매개변수를 사용해 이런 방식을 바꿀 수 있습니다.

dataframe.drop_duplicates(subset=['Sex'], keep='last')

# 관련된 다른 메서드로는 duplicated가 있습니다. 이 메서드는 행이 중복되었는지 여부를 알려주는 불리언 시리즈를 반환합니다.
# 중복된 행을 단순히 삭제하는 것이 아닐 때 사용하면 좋습니다.

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


## 3.13 값에 따라 행을 그룹핑하기 

In [13]:
dataframe = pd.read_csv(url)

dataframe.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [14]:
# groupby에서 데이터 랭글링이 진짜 시작됩니다. 데이터프레임의 한 행이 한 사람이나 이벤트를 나타낼 때가 매우 흔합니다. 어떤 조건에 따라
# 이들을 그룹핑하고 통계를 계산하게 됩니다. 예를 들어 각 행이 다국적 레스토랑 체인의 개별 매출로 구성된 데이터프레임을 상상해보죠.
# 이 데이터프레임에서 각 레스토랑의 전체 매출을 구하고 싶습니다. 이때 레스토랑을 기준으로 행을 그룹핑하고 각 그룹의 합을 계산할 수 있습니다.
# groupby를 처음 사용할 때 다음과 같이 쓰는 경우가 많습니다. 반환되는 값을 보면 당황하게 됩니다.

dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B29C09A940>

In [16]:
# 왜 더 유용한 결과를 반환하지 않을까요? groupby는 통계 계산과 같이 각 그룹에 적용할 연산을 함께 필요로 하기 때문입니다.
# 그룹핑에 대해 말할 때 간단하게 '성별로 그룹핑한다'라고 말합니다. 하지만 이렇게 표현하면 완전하지 않습니다.
# 그룹핑의 결과가 쓸모있으려면 그룹핑을 한 다음 각 그룹에 어떤 계산을 적용해야 합니다.

dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [17]:
# groupby 다음에 Name이 추가된 것을 보았나요? 특정 통곗값은 어떤 종류의 데이터에만 의미가 있기 때문입니다. 예를 들어 성별 평균 나이를
# 계산하는 것은 이해되지만 성별 나이 합을 계산하는 것은 그렇지 않습니다. 여기에서는 생존 여부로 데이터를 그룹핑한 다음 그룹별로
# 이름(즉 승객)의 수를 카운트합니다.

# 첫 번째 열로 그룹핑한 다음 두 번째 열로 그룹을 다시 그룹핑할 수도 있습니다.

dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

## 3.14 시간에 따라 행을 그룹핑하기

In [20]:
import pandas as pd
import numpy as np

## 날짜 범위를 만듭니다.
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

## 데이터프레임을 만듭니다.
dataframe = pd.DataFrame(index=time_index)

## 난숫값으로 열을 만듭니다.
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)

## 주 단위로 행을 그룹핑한 다음 합을 계산합니다.
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,85926
2017-06-18,101184
2017-06-25,100478
2017-07-02,100400
2017-07-09,101049
2017-07-16,10574


In [21]:
# 타이타닉 데이터셋은 날짜 열이 없기 때문에 이 레시피를 위해 각 행이 하나의 매출인 간단한 데이터프레임을 생성했습니다.
# 각 매출은 날짜와 시간, 금액을 가집니다(매출이 정확히 30초 간격으로 발생하고 금액이 정수로 떨어지기 때문에 
# 이 데이터는 현실적이지 않지만 실제 데이터라고 가정해보죠).

# 원본 데이터는 다음과 같습니다.

dataframe.head(3)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,3
2017-06-06 00:00:30,5
2017-06-06 00:01:00,6


In [22]:
# 매출의 날짜와 시간이 이 데이터프레임의 인덱스입니다. resample 메서드가 datetime 형태의 인덱스를 사용하기 때문입니다.

# resample 메서드를 사용해 시간 간격(오프셋)을 넓혀서 행을 그룹핑하고 이 그룹별로 몇 가지 통계를 계산해보겠습니다.

## 2주 단위로 그룹핑하고 평균을 계산합니다.
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-11,4.972569
2017-06-25,5.001538
2017-07-09,4.996255
2017-07-23,5.083654


In [24]:
## 한 달 간격으로 그룹핑하고 행을 카운트합니다.
dataframe.resample('M').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


In [25]:
# 앞의 두 결과를 보면 알 수 있듯이 각각 주와 월 단위로 그룹핑했지만 datetime 인덱스는 날짜입니다.
# 기본적으로 resample 메서드는 시간 그룹핑이 오른쪽 에지의 레이블(마지막 레이블)을 반환하기 때문입니다.
# label 매개변수를 사용하여 이 기준을 바꿀 수 있습니다.

dataframe.resample('M', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000


In [27]:
# 그룹핑된 인덱스를 월의 시작 날짜로 만드려면 'MS'를 사용합니다.

dataframe.resample('MS').count()

Unnamed: 0,Sale_Amount
2017-06-01,72000
2017-07-01,28000


## 3.15 열 원소 순회하기

In [29]:
dataframe = pd.read_csv(url)

## 처음 두 이름을 대문자로 바꾸어 출력
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


In [30]:
# 반복문 외에 리스트 컴프리헨션(list comprehension)을 사용할 수 있습니다.

[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

In [None]:
# for 반복문에 대한 유혹이 있지만 판다스의 apply 메서드를 사용하는 것이 좀 더 파이썬다운 방법입니다.

In [None]:
# 22, Jan, 2024

## 3.16 모든 열 원소에 함수 적용하기

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

## 함수를 만듭니다.
def uppercase(x):
    return x.upper()

## 함수를 적용하고 두 개의 행을 출력합니다.
dataframe['Name'].apply(uppercase)[0:2]

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

In [2]:
# apply 메서드는 데이터 정제와 랭글링을 하는 데 아주 유용합니다. 보통 (이름과 성을 분리하거나 문자열을 실수로 변환하는 등) 필요한 연산을
# 수행하기 위해 함수를 작성합니다. 그런 다음 함수를 열의 모든 원소에 적용합니다.

# apply 메서드와 유사한 map 메서드도 있습니다. 이 두 함수는 거의 비슷하지만 map 메서드는 딕셔너리를 입력으로 넣을 수 있고
# apply 메서드는 매개변수를 지정할 수 있다는 것이 큰 차이입니다.

## Survived 열의 1을 Live로 0을 Dead로 바꿉니다.
dataframe['Survived'].map({1:'Live', 0:'Dead'})[:5]

0    Live
1    Dead
2    Dead
3    Dead
4    Live
Name: Survived, dtype: object

In [3]:
## 함수의 매개변수(age)를 apply 메서드를 호출할 때 전달할 수 있습니다.
dataframe['Age'].apply(lambda x, age: x < age, age=30)[:5]

0     True
1     True
2    False
3     True
4     True
Name: Age, dtype: bool

In [4]:
# 데이터프레임 전체에 적용할 수 있는 apply 메서드와 applymap 메서드가 있습니다. 
# apply 메서드는 데이터프레임 열 전체에 적용되며
# applymap 메서드는 앞서 본 map 메서드와 비슷하게 열의 각 원소에 적용됩니다.

## 각 열에서 가장 큰 값을 뽑습니다.
dataframe.apply(lambda x: max(x))

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                   71
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

In [5]:
def truncate_string(x):
    if type(x) == str:
        return x[:20]
    return x

## 문자열의 길이를 최대 20자로 줄입니다.
dataframe.applymap(truncate_string)[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabet",1st,29.0,female,1,1
1,"Allison, Miss Helen",1st,2.0,female,0,1
2,"Allison, Mr Hudson J",1st,30.0,male,0,0
3,"Allison, Mrs Hudson",1st,25.0,female,0,1
4,"Allison, Master Huds",1st,0.92,male,1,0


## 3.17 그룹에 함수 적용하기

In [6]:
dataframe = pd.read_csv(url)

## 행을 그룹핑한 다음 함수를 적용합니다.
dataframe.groupby('Sex').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,462,462,288,462,462,462
male,851,851,468,851,851,851


In [None]:
# 3.16 레시피에서 apply 메서드를 소개했습니다. apply 메서드는 그룹에 함수를 적용하고자 할 때 특히 유용합니다.
# groupby와 apply를 연결하여 그룹별로 함수를 적용하거나 필요한 통계치를 계산할 수 있습니다.

## 3.18 데이터프레임 연결하기

In [7]:
import pandas as pd

## 데이터프레임을 만듭니다.
data_a = {'id': ['1', '2', '3'],
          'first': ['Alex', 'Amy', 'Allen'],
          'last': ['Anderson', 'Ackerman', 'Ali']}

dataframe_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])


data_b = {'id': ['4', '5', '6'],
          'first': ['Billy', 'Brian', 'Bran'],
          'last': ['Bonder', 'Black', 'Balwner']}

dataframe_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])


## 행 방향으로 데이터프레임을 연결합니다.
pd.concat([dataframe_a, dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [8]:
## 열 방향으로 데이터프레임 연결
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


In [None]:
# 이 해결에서 axis 매개변수를 사용하여 두 개의 데이터프레임을 붙였습니다.
# 이 매개변수가 두 데이터프레임을 위아래로 쌓을지 또는 옆으로 쌓을지 결정합니다.

# 또한 append 메서드를 사용하여 데이터프레임에 새로운 행을 추가할 수 있습니다.

In [10]:
## 행을 만듭니다.
row = pd.Series([10, 'Chris', 'Chillon'], index=['id', 'first', 'last'])

## 행을 추가합니다.
dataframe_a.append(row, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,10,Chris,Chillon


## 3.19 데이터프레임 병합하기 

In [12]:
employee_data = {'employee_id': ['1', '2', '3', '4'],
                 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees', 'Tim Horton']}

dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id', 'name'])


sales_data = {'employee_id': ['3', '4', '5', '6'],
              'total_sales': [23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id', 'total_sales'])


pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


In [13]:
# merge는 기본적으로 내부 조인을 수행합니다. 외부 조인(outer join)이 필요하다면 how 매개변수로 지정할 수 있습니다.

pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


In [14]:
# 같은 매개변수로 왼쪽 조인과 오른쪽 조인을 지정할 수 있습니다.

pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


In [15]:
# 각 데이터프레임에서 병합하기 위한 열 이름을 지정할 수도 있습니다.

pd.merge(dataframe_employees,
         dataframe_sales,
         left_on = 'employee_id',
         right_on = 'employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


In [None]:
# 두 열을 기준으로 병합하는 대신 각 데이터프레임의 인덱스를 기준으로 병합하려면 left_on과 right_on 매개변수를
# right_index=True와 left_index=True로 바꿉니다.

In [None]:
# merge 연산을 위해 세 가지 사항을 지정해야 합니다.
# 1. 병합할 두 개의 데이터프레임을 지정해야 합니다. 해결에서 datframe_employees과 dataframe_sales를 사용했습니다.
# 2. 병합하기 위한 열의 이름을 지정해야 합니다. 즉 두 데이터프레임 간에 공유되는 열입니다. 예를 들어 해결에 있는 두 데이터프레임은
# employee_id 열을 가지고 있습니다. 두 데이터프레임을 병합하기 위해 각 데이터프레임의 employee_id 열의 값이 서로 맞아야 합니다. 만약
# 두 열의 이름이 같으면 on 매개변수를 사용할 수 있습니다. 이름이 다르면 left_on과 right_on을 사용합니다.
# 3. 병합 연산의 종류를 how 매개변수로 지정합니다. merge는 inner, outer, left, right 네 개의 조인 타입을 지원합니다.