In [1]:
# 판다스 사용 선언
import pandas as pd

In [None]:
# 빈 데이터 프레임 생성
empty_df = pd.DataFrame()
print(empty_df)

In [None]:
# GlobalFirePower.csv 파일에서 읽어와 데이터 프레임 생성

df = pd.read_csv('GlobalFirePower.csv')
# 데이터 프레임 요약 정보
print(df.info())

In [4]:
# Excel 파일에서 읽어와 데이터 프레임 생성
# df = pd.read_excel('GlobalFirePower.xlsx')

In [None]:
# 데이터 프레임 출력
print(df)

In [None]:
# 주피터 노트북에서 데이터 프레임을 예쁘게 출력하는 방법
display(df)

In [None]:
# 모든 행과 열을 다 출력하려면
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
display(df)

In [8]:
# 데이터 프레임을 csv 파일로 저장
df.to_csv('GlobalFirePowerCopy.csv', index=False)   # 인덱스(고윳값) 저장하지 않음

In [None]:
# 데이터 프레임의 처음 몇 행을 출력해 데이터 구조를 미리 확인 (기본 값 5)\
df.head()

In [None]:
# 데이터 프레임의 기초 통계정보
df.describe()   # 단 수치형 데이터 컬럼만 출력

In [None]:
# 데이터 프레임의 형태
print(df.shape)   # (행, 열)

In [None]:
# 데이터 프레임의 컬럼 이름의 목록
print(df.columns)

In [None]:
# 결측치 확인 법
df.isnull()

In [None]:
# 결측치 개수 확인
print(df.isnull().sum())

In [None]:
# 결측치 있는 행을 완전히 삭제하고 싶다면?
# df를 복사
df_copy = df.copy()
# 결측치 있는 행 삭제
df_copy = df_copy.dropna()
df_copy.shape

In [None]:
# 결측치가 있는 열을 완전히 삭제하고 싶다면?
df_copy = df.copy()
df_copy = df_copy.dropna(axis=1)
# axis = 1은 열을 의미
# axis = 0은 행을 의미 (기본 값)
df_copy.shape

In [None]:
# 특정 행을 선택
df.iloc[0]   # 첫 번째 행 선택
df.iloc[0:5]   # 0번째부터 4번째 행 선택

In [None]:
# 특정 컬럼을 이름으로 선택
df['Country']   # Country 컬럼 선택

In [None]:
# 특정 컬럼의 특정 행을 선택
df['Country'][0]   # Country 컬럼의 0번째 행 선택
df.iloc[0]['Country']   # 0번째 행의 Country 컬럼 선택
df.iloc[0, 1]
df.at[0, 'Country']
# loc -> 컬럼 이름으로 선택
# iloc -> 인덱스로 선택
# at -> 빠르게 선택 (유연하지 못함)

In [None]:
# 특정 컬럼을 인덱스로 선택
df.iloc[:, 0]   # 0번째 열 선택

In [None]:
# 특정 셀의 값을 바꾸려면?
df.iloc[0, 0] = 'America'
df

In [None]:
df.loc[0, 'Country'] = 'United States'
df

In [None]:
# 데이터를 특정 컬럼 기준으로 정렬
df_copy = df.copy()
df_copy = df_copy.sort_values(by='Country', ascending=True)
df_copy

In [None]:
# 데이터를 특정 열 기준으로 그룹화
sale_result = {'제품': ['A', 'B', 'A', 'B', 'C', 'A'],
               '판매량': [100, 200, 150, 220, 180, 130],
               '가격': [10, 20, 10, 20, 15, 10]}
sales_df = pd.DataFrame(sale_result)  # 딕셔너리로부터 데이터 프레임 생성
sales_df


In [None]:
sales_df.groupby('제품').sum()

In [None]:
sales_df.groupby('제품')['판매량'].sum()

In [None]:
sales_df.groupby('제품')[['판매량']].sum()

In [None]:
sales_df.groupby('제품')[['판매량', '가격']].mean()


In [None]:
# 데이터 프레임에 함수를 적용해보기
df['Country'].apply(len)   # Country 컬럼의 각 행에 대해 문자열 길이를 반환


In [None]:
df['Country'].apply(lambda x: x.upper())
# lambda - 파이썬 익명 함수
# 일회용으로 사용할 함수를 만들 때 축약해서 사용
# x는 입력값, x.upper()는 x의 대문자 변환
# 다음 코드와 동일한 의미
# def upper(x):
#     return x.upper()
# df['Country'].apply(upper)


In [None]:
# 데이터 프레임을 병합
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2'],
                    'C': ['C0', 'C1', 'C2']},
                   index=[0, 1, 2])
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5'],
                    'C': ['C3', 'C4', 'C5']},
                     index=[3, 4, 5])
df3 = pd.DataFrame({'A': ['A6', 'A7', 'A8'],
                    'B': ['B6', 'B7', 'B8'],
                    'C': ['C6', 'C7', 'C8']},
                   index=[6, 7, 8])
print(df1)
print(df2)
print(df3)
result = pd.concat([df1, df2, df3])
result

In [None]:
# 데이터 프레임을 특정 컬럼 기준으로 병합
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
print(left)
print(right)
result = pd.merge(left, right, on='key')
result


In [None]:
# 아주 간단한 데이터프레임 시각화
# 각 데이터에 ISO3 컬럼값 표시
import matplotlib
df['Active Personnel'].plot(kind='hist', bins=50, figsize=(12, 6), color='blue', edgecolor='black')


In [None]:
# 결측치 채우기 (NAN 값을 대체)
df_copy = df.copy()
df_copy.fillna(value=0, inplace=True)   # 0으로 결측치 대체
df_copy.fillna(value='No Value', inplace=True)   # 'No Value'로 결측치 대체
df_copy.fillna(value=df_copy.mean(), inplace=True)   # 평균값으로 결측치 대체
df_copy.fillna(value=df_copy.median(), inplace=True)   # 중앙값으로 결측치 대체
df_copy.fillna(value=df_copy.mode(), inplace=True)   # 최빈값으로 결측치 대체
df_copy.fillna(method='ffill', inplace=True)    # 앞의 값을 사용
df_copy.fillna(method='bfill', inplace=True)    # 뒤의 값을 사용

In [None]:
# 데이터 타입 변환
df_copy = df.copy()
df_copy['Active Personnel'] = df_copy['Active Personnel'].astype('float64') 

In [None]:
# 행 삭제
df_copy = df.copy()
df_copy.drop(0, inplace=True)   # 0번째 행 삭제
# 열 삭제
df_copy.drop('Active Personnel', axis=1, inplace=True)   # 'Active Personnel' 열
# inplace = True의 의미는 원본 데이터프레임을 변경하겠다는 의미
# False인 경우 변경된 데이터프레임을 반환

In [None]:
# 피벗 테이블이란 데이터를 특정 기준에 따라 요약해서 보기 쉽게 재구성한 테이블
# 예시 데이터 프레임 생성
data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03', '2021-01-03'],
    'City': ['Seoul', 'Busan', 'Seoul', 'Busan', 'Seoul', 'Busan'],
    'Temperature': [5, 7, 6, 8, 7, 9],
    'Humidity': [55, 60, 58, 65, 60, 70]
}
df_pivot = pd.DataFrame(data)
print(df_pivot)
# 피벗 테이블 생성
# values : 요약하고자 하는 데이터
# index : 행 인덱스로 사용할 데이터
# columns : 열 인덱스로 사용할 데이터
# aggfunc : 요약 시 사용할 함수 (기본값은 평균, mean)
#   sum, count, min, max, median, std, var, first, last

pivot_table = df_pivot.pivot_table(values='Temperature', index='Date', columns='City', aggfunc='mean')
print(pivot_table)

In [None]:
# 중복 확인 및 제거
data_with_duplicates = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'Age': [25, 30, 35, 25, 30],
    'Gender': ['F', 'M', 'M', 'F', 'M']
}
df_with_duplicates = pd.DataFrame(data_with_duplicates)
print("중복 제거 전:")
print(df_with_duplicates)
print()
# 중복 확인
print(df_with_duplicates.duplicated())
print()
# 중복 제거
df_without_duplicates = df_with_duplicates.drop_duplicates()
print("중복 제거 후:")
print(df_without_duplicates)

In [None]:
# 교차표 작성 - 범주형 데이터 간의 관계 요약
data_crosstab = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'Subject': ['Math', 'Math', 'Math', 'Science', 'Science', 'Science'],
    'Score': [85, 90, 95, 80, 85, 90]
}
df_crosstab = pd.DataFrame(data_crosstab)
print(df_crosstab)
print()
# 교차표 작성
crosstab_result = pd.crosstab(df_crosstab['Name'], df_crosstab['Subject'], values=df_crosstab['Score'], aggfunc='mean')
print(crosstab_result)