# 1. 데이터 불러오기

In [None]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('sales.csv')

# 엑셀 파일 불러오기
df = pd.read_excel('파일명.xlsx')

# 리스트로 데이터프레임 생성
data = {'Column1': [1, 2, 3], 'Column2': ['A', 'B', 'C']}
df = pd.DataFrame(data)

# 인덱스 초기화
df.reset_index(drop=False, inplace=True)

# 데이터 프레임 여러개 출력
display(df1)
display(df2)

# CSV 파일 저장
df.to_csv('df.csv', index=False)

# 2. 기본 정보 확인

In [None]:
# 데이터 크기 확인
df.shape

# 상위 n개 행 출력
df.head()

# 하위 n개 행 출력
df.tail()

# 데이터 인덱스 확인
df.index

# 속성 값 확인
df.values

# 컬럼 정보 확인
df.columns

# 컬럼 출력
list(df)

# 자료형 확인
df.dtypes

# 데이터프레임 정보 출력
df.info()

# 기본 통계 정보 출력
df.describe()

# 특정 데이터 타입형 열 조회
df.select_dtypes()

# 3. 데이터 탐색

In [None]:
# 날짜 형식으로 바꿔주기
df['date'] = pd.to_datetime(df['date']) # 날짜 형변환
df['year'] = df['date'].dt.year ## 날짜 쪼개기
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df['date'].dt.hour
df['minute'] = df['date'].dt.minute
df['second'] = df['date'].dt.second
df['dayofweek'] = df['date'].dt.dayofweek    # 0 ~ 6
df['weekday'] = df['date'].dt.day_name()  # Monday ~ Sunday

# type 바꿔주기
df['Column'] = df['Column'].astype(str)

# 열 기준 정렬
df.sort_values(by='Column_Name', ascending=False)

# 인덱스 기준 정렬
df.sort_index(ascending=False)

# 고유값 확인
df['Column_Name'].unique()

# 고유값 비율 확인
df['Column_Name'].value_counts(normalize=True)

# 최빈값 확인
df['Column_Name'].mode()

# 행끼리 더해서 열 기준으로 출력
df.sum(axis=0, numeric_only=True)

# 열끼리 더해서 행 기준으로 출력
df.sum(axis=1, numeric_only=True)

# 해당 열의 최댓값 조회
df['Column_Name'].max()

# 해당 열의 최솟값 조회
df['Column_Name'].min()

# 해당 열의 평균 조회
df['Column_Name'].mean()

# 해당 열의 중앙값 조회
df['Column_Name'].median()

# 4. 데이터 조회

In [None]:
# 특정 열 
df['Column_Name']

# 여러 열
df[['Column1', 'Column2']]

# 특정 행
df.loc[1]

# 여러 행
df.loc[[1, 3, 5]]

# 특정 조건에 따른 행 선택
df.loc[df['Column'] > 10]

# 여러 조건에 따른 행 선택
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]

# 여러 조건 특정 열
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]['Col1','Col2']

# between() #기본 both
df.loc[df['Column'].between(80, 90, inclusive='both')]

# isin()
df.loc[df['Column'].isin(['A', 'B'])]

# 5. 데이터프레임 집계

In [None]:
# 특정 열 집계
df.groupby(by='Column1', as_index=False)[['Column2']].sum()
df.groupby(by='Column1', as_index=False)[['Column2']].mean()
df.groupby(by='Column1', as_index=False)[['Column2']].count()
df.groupby(by='Column1', as_index=False)[['Column2']].max()
df.groupby(by='Column1', as_index=False)[['Column2']].min()
                                                   

# 여러 열 집계
df.groupby(by = ['Column1', 'Column2', 'Column3'], as_index=False).sum(numeric_only=True)

# 6. 데이터프레임 변경

In [None]:
# 일부 열 이름 변경
df.rename(columns={'Col1', 'Col2', 'Col3'}, as_index=False)

# 모든 열 이름 변경
df.columns = ['Col1', 'Col2', 'Col3']

# 열 추가
df['New_Column'] = df['Column1'] + df['Column2']

# 열 삭제
drop_cols = ['Col1', 'Col2']
df.drop(drop_cols, axis=1, inplace=True)

# 범주값 변경
df['Col1'] = df['Col1'].map({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})
df['Col1'] = df['Col1'].replace({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})

# 범주값 만들기
pd.cut(df, bins, labels)   # 크기 기준
#bin = [-np.inf, 30, 100, np.inf]
#label = list('LMH')
#titanic['Fare'] = pd.cut(titanic['Fare'], bins=bin, labels=label) # 예시
pd.qcut(df, bins, labels)

# 특정 열을 기준으로 중복 행 제거
drop_duplicates(subset='기준 열', keep='first')

# 값 변경
titanic['col'] = np.where(titanic['col'] == '비교', 참, 거짓)
#titanic['Age2'] = np.where(titanic['Sex'] == 'female', 0, 1) #예시

# 7. 결측치 처리

In [None]:
# 결측치 확인
df.isnull()  # isna()

# 결측치 합계
df.isna().sum()  # isnull().sum()

# 결측치 아닌것 확인
df.notna()

# 결측치 아닌것 합계
df.notna().sum() # notnull().sum()

# 결측치 제거
df.dropna()

# 특정 열에 결측치가 있는 행 제거
df.dropna(subset=['Column'], axis=0, inplace=True)

# 결측치를 특정 값으로 대체
df.fillna(value)

#ffill
df['Column'].fillna(method='ffill', inplace=True)

#bfill
df['Column'].fillna(method='bfill', inplace=True)

# 8. 가변수 만들기

In [None]:
dumm_cols = ['Col1', 'Col2', 'Col3']
df = pd.get_dummies(df, columns=dumm_cols, drop_first=True, dypte=int)

# 9. 데이터프레임 합치기

In [None]:
# 두 데이터프레임 합치기
merged_df = pd.concat([df1, df2], axis=0)

# 열을 기준으로 합치기
merged_df = pd.merge(df1, df2, on='기준열', how='inner')

# 10. 시각화

In [None]:
# 막대 그래프 # 범주 데이터에 사용

plt.rc('axes', axisbelow=True)   # 격자 밑으로 하겠다
plt.figure(figsize=(5, 3))
plt.bar(x=df['Col1'], height=df['Col2'])
plt.title('제목 지정하세요')
plt.xlabel('x축 이름 지정하세요')
plt.ylabel('y축 이름 지정하세요')
plt.xticks(rotation=90)   
plt.grid(axis='y')
plt.show()

In [None]:
# 가로 막대 그래프
plt.bar(y=df['Col1'], width=df['Col2'])

In [None]:
# 선 그래프
plt.figure(figsize=(5, 3))
plt.plot(df[['Col1', 'Col2']])
plt.legend(['Col1', 'Col2'], loc='upper left') # plt.legend( loc='upper left')
plt.show()

# y축의 범위 지정
plt.ylim(70, 100)
# x축의 범위 지정
plt.xlim(0, 10)

# 수평선 (y축)
plt.axhline(40, color = 'grey', linestyle = '--')
# 수직선 (xㄴ축)
plt.axvline(10, color = 'red', linestyle = '--')

# 텍스트 입력 x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 3행 1열 인텍스 1 그래프 그리기
plt.subplot(3,1,1)

# 그래프간 간격을 적절히 맞추기
plt.tight_layout() 

# 수평, 수직선 추가
plt.axhline(40, color = 'grey', linestyle = '--') # 수평선 # plt.axhline(ozone_mean, color = 'red', linestyle = '--') # 평균선 추가 가능
plt.axvline(10, color = 'red', linestyle = '--') # 수직선

# 텍스트 표현 # x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 여러 그래프 나눠 그리기
# 3행 1열 1번        # 즉 3 x 1
plt.subplot(3,1,1)
# 3행 1열 2번    
plt.subplot(3,1,2)

# 2행 2열           # 즉 2 x 2
plt.subplot(2,2,1)
plt.subplot(2,2,2)

In [None]:
# 히스토그램 # 연속 데이터에 사용

df_mean = df['Col1'].mean()

plt.figure(figsize=(5, 3))
plt.hist(df['Col1'], bins=20, alpha=0.7, edgecolor='w')
plt.axvline(df_mean, color='tab:orange')
plt.show()

In [None]:
# KDE 그래프 # 밀도 추정
# 라이브러리 필요
import matplotlib.pyplot as plt
import seaborn as sns 

# 밀도함수 그래프 그리기
sns.kdeplot(df['col'])
plt.show()


# kde = True 밀도 추정 선 그래프에 추가
sns.histplot(df['col'], bins=10, edgecolor = 'gray', kde=True)
plt.show()

In [None]:
# bar chart # countplot #자동으로 카운트
# x : 세로 # y : 가로
sns.countplot(x='col' data=df) 
# or
sns.countplot(dr['col']) 
sns.countplot(x='Pclass', data=df)

In [None]:
# pie 차트
temp = df['col'].value_counts()
temp.values, temp.index

plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%',
        startangle=90, counterclock=False) # startangle = 90 : 90도 부터 시작
                                            # counterclock = False : 시계 방향으로