### [00] 실습을 시작하기 전에

In [None]:
import pandas as pd

# 온라인 쇼핑몰 주문 데이터 생성
data = [
  [1, '유재석', 20000, '2024-03-01', '서울'],
  [2, '조세호', 50000, '2024-03-01', '부산'],
  [3, '유재석', 15000, '2024-03-02', '서울'],
  [4, '권상우', 30000, '2024-03-02', '대구'],
  [5, '조세호', 100000, '2024-03-03', '부산'],
  [6, '권상우', 25000, '2024-03-03', '대구'],
  [7, '유재석', 20000, '2024-03-04', '서울']
]
columns = ['주문번호', '고객명', '주문금액', '주문일자', '배송지역']
df = pd.DataFrame(data, columns=columns)

# 데이터프레임 출력
df

### [01] 새 열 추가하기

In [None]:
# 데이터프레임 df에 '배송료' 열을 추가하고 해당 열의 모든 행의 값으로 3000 입력
df['배송료'] = 3000
df.head(2)

In [None]:
df['배송료'] = [3000, 4000, 5000, 6000, 7000, 8000, 9000]
df

In [None]:
# 마지막 열 뒤에 ‘배송상태’ 열을 추가하고 ‘배송완료’ 값을 입력
df.insert(6, '배송상태', '배송완료')
df

### [02] 새 행 추가하기

In [None]:
# 새로운 주문 데이터 행을 추가
new_order = {'주문번호': 8, '고객명': '이무진', '주문금액': 45000, '주문일자': '2024-03-05', '배송료': 3000}

# 새로운 행 추가
df.loc[7] = new_order
df.tail(3)

In [None]:
# ➊ 새로운 주문 정보를 데이터프레임 new_df로 생성
new_df = pd.DataFrame({'주문번호': [9, 10],
               '고객명': ['이상순', '이효리'],
               '주문금액': [40000, 35000],
               '배송료': [3000, 3000]})

# ➋ concat()으로 데이터프레임 병합
df = pd.concat([df, new_df], ignore_index=True)
# 결과 출력
df

In [None]:
# ➊ 새로운 주문 정보를 데이터프레임 new_df2로 생성
new_df2 = pd.DataFrame({'주문번호': [11, 12],
               '고객명': ['카리나', '안유진'],
               '주문금액': [150000, 83000],
               '배송지역': ['서울', '서울'],		
               '배송료': [3000, 3000],
               '배송상태': ['배송중', '배송중']})

# ➋ concat()으로 데이터프레임 병합
df_concat = pd.concat([df, new_df2], ignore_index=False)

# 결과 출력
df_concat

In [None]:
# ➊ 결합할 데이터프레임 생성
concat_columns = pd.DataFrame(
  [1000, 2000, 1500, 3000, 5000, 2500, 2000, 1000, 4000], columns=['할인금액']
)

# ➋ 데이터프레임과 시리즈를 열 방향으로 결합
df = pd.concat([df, concat_columns], axis=1, join='inner')
df

### [03] 행이나 열 삭제하기

In [None]:
# '배송료' 열 삭제 후 상위 3개 행 출력
df_drop_column = df.drop('배송료', axis=1)
df_drop_column.head(3)

In [None]:
df

In [None]:
# 마지막 행(고객명: 이상순) 삭제 후 하위 3개 행 출력
df_drop_row = df.drop(8, axis=0)
df_drop_row.tail(3)

### [04] 특정 값 변경하기

In [None]:
# 첫 번째 행의 '배송료'열의 값을 2500으로 변경
df.iloc[0, 5] = 2500
df.head(3)

In [None]:
# 두 번째 행의 '배송료'열의 값을 2500으로 변경
df.loc[1, '배송료'] = df.loc[1, '배송료'] - 500
df.head(3)

In [None]:
# '고객명' 열의 값이 '유재석'이 아닌 경우에만 '배송료' 열에 2800을 입력
df.loc[df['고객명'] != '유재석', '배송료'] = 2800
df

### [05] 결측치 처리하기

<span style="color: blue;"><u>**isnull( ) : 결측치 찾기**</u></span>

In [None]:
# isnull() 함수로 결측치 확인
result = df.isnull()
result

In [None]:
# 각 열의 결측치의 개수 확인
missing_values_count = df.isnull().sum()
print(missing_values_count)

In [None]:
#각 행의 결측치의 개수 확인
missing_values_count2 = df.isnull().sum(axis=1)
print(missing_values_count2)

In [None]:
# 배송지역 열에서 결측치가 아닌 행을 선택
non_missing_values = df[~df['배송지역'].isnull()]
non_missing_values

<span style="color: blue;"><u>**fillna( ) : 결측치를 다른 값으로 대치하기**</u></span>

In [None]:
# 모든 결측치를 '확인중'으로 대체
df_filled = df.fillna('확인중')
df_filled

In [None]:
# 배송상태 열의 결측치를 ‘배송중'으로 채우기
df['배송상태'] = df['배송상태'].fillna('배송중')
df

<span style="color: blue;"><u>**dropna( ) : 결측치를 제거하기**</u></span>

In [None]:
# 결측치가 포함된 행을 삭제
df.dropna(axis=0, inplace=True)
df

### [06] 중복값 처리하기

<span style="color: blue;"><u>**duplicated( ) : 중복 행 찾기**</u></span>

In [None]:
# 중복 행 확인
print(df.duplicated())

In [None]:
# 고객명 열의 중복 확인
print(df.duplicated(subset='고객명'))

<span style="color: blue;"><u>**drop_duplicates( ) : 중복 행 제거하기***</u></span>

In [None]:
# 고객명 열을 기준으로 중복 행 제거
df.drop_duplicates(subset='고객명', inplace=True)
df

### [07] 다양한 연산해보기

<span style="color: blue;"><u>**덧셈, 뺄셈, 곱셈, 나눗셈, 산술 연산해보기***</u></span>

In [None]:
# 예제 데이터프레임 생성
df_number = pd.DataFrame({
 'A': [1, 2, 3],
 'B': [10, 20, 30],
 'C': [2.5, 4.5, 1.5]
})


# 2로 나누기
df_number = df_number/2
df_number

In [None]:
# 10 더하기
df_number = df_number.add(10)
df_number

<span style="color: blue;"><u>**통계 연산해보기**</u></span>

In [None]:
# 예제 데이터 생성
math_score = {
 '이름': ['김철수', '박영희', '이민정', '최재원', '한지민'],
 '학년': ['3학년', '1학년', '1학년', '2학년', '3학년'],
 '점수': [88, 75, 68, 90, 83]
}
# 데이터프레임 생성
df_score = pd.DataFrame(math_score)
df_score

<u>**max( ) : 최댓값 추출하기**</u>

In [None]:
# 최고 점수 확인
df_score['점수'].max()

In [None]:
# 3학년 학생 중 최고 점수
df_score[df_score['학년'] == '3학년']['점수'].max()

<u>**mean( ) : 평균 구하기**</u>

In [None]:
# 평균 점수 확인
df_score['점수'].mean()

In [None]:
# 1학년 학생들의 평균 점수
df_score[df_score['학년'] == '1학년']['점수'].mean()

<u>**median( ) : 중앙값 구하기**</u>

In [None]:
# 점수 중앙값 확인
df_score['점수'].median()

In [None]:
# 1학년 학생들의 점수의 중앙값
df_score[df_score['학년'] == '1학년']['점수'].median()

<u>**cumsum( ) : 누적합 구하기**</u>

In [None]:
# 점수 누적합 확인
df_score['점수'].cumsum()

In [None]:
# 점수 누적합 확인
df_score[df_score['학년'] == '1학년']['점수'].cumsum()

<u>**mode( ) : 최빈값 구하기**</u>

In [None]:
# 점수 최빈값 확인
df_score['점수'].mode()

In [None]:
# 학년의 최빈값 확인
df_score['학년'].mode()

### [08] 문자열 연산하기

In [None]:
import pandas as pd

# 데이터프레임 생성
data = {'이름': ['김 철수', '박 영', '이 민정', '최 재원', '한 지민'],
        '직업': ['개발자', '요리사', '마케터', '작가', '의사']}

df = pd.DataFrame(data)
df

<span style="color: blue;"><u>**문자열 검색**</u></span>

In [None]:
# 문자열 검색
df['이름_민'] = df['이름'].str.contains('민')
df['직업_사'] = df['직업'].str.endswith('사')
df

<span style="color: blue;"><u>**문자열에서 특정 문자 선택**</u></span>

In [None]:
# 이름의 세 번째 글자 선택
df['이름_세번째'] = df['이름'].str[3]
df

In [None]:
# 이름의 마지막 글자 선택
df['이름_마지막'] = df['이름'].str[-1]
df

<span style="color: blue;"><u>**문자열 분리 및 결합**</u></span>

In [None]:
# ➊ 문자열 분리
df['성'] = df['이름'].str.split().str.get(0)

# ➋ 문자열 결합
df['직업+이름'] = df['직업'].str.cat(df['이름'], sep=' ')
df

<span style="color: blue;"><u>**문자열 치환 및 제거**</u></span>

In [None]:
# ➊ 문자열 치환(성 뒤의 공백 제거)
df['이름_공백제거'] = df['이름'].str.replace(' ', '')

# ➋ 직업이 '사'로 끝나는 경우 해당 글자 제거
df['직업_사_제거'] = df['직업'].str.rstrip('사')  
df