### 데이터 전처리

#### 0. 시작하기 앞서

1. 라이브러리 설치 !pip install library
2. seaborn library를 통해 실습 데이터 활용

In [2]:
import pandas as pd
import seaborn as sns

In [None]:
data = sns.load_dataset('tips')

#### 1. 데이터 불러오기/저장하기

- TIP :     
   1) window : 파일탐색기를 사용하여 경로 찾기 또는 명령 프롬프트를 사용하여 경로 찾기    
   2) Mac : finder을 통해 경로 찾기 또는 터미널(terminal)을 통해 경로 찾기

##### 1) to_ and read_

In [None]:
# pd.read_excel('파일경로/파일명.xlsx')
# pd.read_csv('파일경로/파일명.csv')

In [None]:
data.to_csv("tips_data.csv")

In [None]:
# 기존 인덱스 포함 저장되어서 불러올 때 unnamed열이 생김
df = pd.read_csv('./tips_data.csv')

In [None]:
# unnamed 제외하고 불러올 때
df = pd.read_csv('./tips_data.csv', index_col = 0)

In [None]:
# 또는 처음부터 저장할 때 인덱스 제외하고 저장하는 경우
data.to_csv('./tips_data.csv', index = False)

In [None]:
df = pd.read_csv('./tips_data.csv')

In [None]:
# 만약 excel 파일을 저장하고 읽어올 때 오류가 생긴다면
# pip install library openpyxl

In [None]:
# 만약 파일이 깨져서 불러와진다면 encoding을 해줘야 한다.
# UTF-8 인코딩으로 파일 불러오기
#data = pd.read_csv('file.csv', encoding='utf-8')
# ASCII 인코딩으로 파일 불러오기
#data = pd.read_csv('file.csv', encoding='ascii')

##### 2) index

In [None]:
# pandas는 기본적으로 0부터 시작하는 정수 인덱스 제공

In [3]:
df = pd.DataFrame({'A':[1,2,3], 
                   'B':['a','b','c']})

In [4]:
# 인덱스 사용자 지정
df = pd.DataFrame({'A':[1,2,3], 
                   'B':['a','b','c']}
                 , index = ['idx3','idx2','idx1'])

In [None]:
df.loc['idx2']

In [None]:
# 인덱스 정렬
df.sort_index()

In [None]:
# A의 칼럼 값들을 인덱스로 활용
df.set_index('A')

In [5]:
# 인덱스 사용자 지정
df.index = ['a','b','c']

In [6]:
df

Unnamed: 0,A,B
a,1,a
b,2,b
c,3,c


In [7]:
# 인덱스 초기화
df.reset_index(drop = True)

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c


##### 3) 칼럼

In [None]:
# 데이터프레임 생성
data = {
    '이름': ['Alice', 'Bob', 'Charlie'],
    '나이': [25, 30, 35],
    '성별': ['여', '남', '남']
}

df = pd.DataFrame(data)

In [None]:
# 각 컬럼 출력
print(df['이름'])  # '이름' 컬럼 출력
print(df['나이'])  # '나이' 컬럼 출력
print(df['성별'])  # '성별' 컬럼 출력

In [None]:
df.columns

In [None]:
df.columns = ['name','age','gender']

In [None]:
# 또는
df = df.rename(columns = {'name':'이름', 'age' : '나이', 'gender' : '성별'}) 

In [None]:
# 칼럼 추가
df['스포츠'] = ['농구','축구','야구']

In [None]:
# 칼럼 삭제
del df['스포츠']

#### 3. 데이터 확인

In [None]:
data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
# 결측치(null)가 있는지, 데이터 타입은 잘 맞는지 확인할 것!
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [None]:
data.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


데이터 타입으로 int, float, object(str), bool, datetime, timedelta, category가 있다

In [None]:
# 만약 데이터 타입을 변경해야 한다면
# 예시
data = {'integer_column': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 정수형 열을 부동소수점으로 변환
df['integer_column'] = df['integer_column'].astype(float)
print(df.dtypes)  # 데이터프레임의 열 타입 확인

integer_column    float64
dtype: object


#### 4. 데이터 선택 (iloc, loc)

In [None]:
# .iloc[행,열] : 인덱스 번호로 선택하기
# 샘플 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)

# iloc을 사용하여 특정 행과 열 선택
selected_data = df.iloc[1:4, 0:2]  # 인덱스 1부터 3까지의 행과 0부터 1까지의 열 선택
print(selected_data)

   A   B
1  2  20
2  3  30
3  4  40


In [None]:
#.loc[행,열] : 인덱스 이름으로 선택하기
# 샘플 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])

# loc을 사용하여 특정 행과 열 선택
selected_data = df.loc['b':'d', 'A':'B']  # 레이블 'b'부터 'd'까지의 행과 'A'부터 'B'까지의 열 선택
print(selected_data)

   A   B
b  2  20
c  3  30
d  4  40


In [None]:
# 특정 조건을 만족하는 데이터 선택하는 경우
df[df['A'] > 3 ]

Unnamed: 0,A,B,C
d,4,40,400
e,5,50,500


In [None]:
# and - & or - |
df[(df['A'] > 3) & (df['B'] > 40)]

Unnamed: 0,A,B,C
e,5,50,500


In [None]:
df.loc[df['A'] > 3, 'B']

d    40
e    50
Name: B, dtype: int64

In [None]:
# isin() 활용 해당 열의 해당하는 값들 추출
df[df['A'].isin([2,3,4])]

Unnamed: 0,A,B,C
b,2,20,200
c,3,30,300
d,4,40,400


In [None]:
# 조건은 따로 객체에 저장해두는 것이 가독성에 좋음
# 또한 여러 조건일 때 열바꿈으로 가독성 높일 수 있다
# 에시
condition = (data['칼럼명1'] < 80) \ 
            & (data['칼럼명2'] >= 50) \
            & (data['칼럼명3'] >= 10)
data[condition]

#### 5. 데이터 병합

##### 1) concat(df1,df2, axis = 0)

In [None]:
# 두 개의 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})

# 위아래로 데이터프레임 연결
result_vertical = pd.concat([df1, df2], axis=0)

# 좌우로 데이터프레임 연결
result_horizontal = pd.concat([df1, df2], axis=1)

print("위아래 연결 결과:\n", result_vertical)
print("\n좌우 연결 결과:\n", result_horizontal)

위아래 연결 결과:
     A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5

좌우 연결 결과:
     A   B   A   B
0  A0  B0  A3  B3
1  A1  B1  A4  B4
2  A2  B2  A5  B5


##### 2) merge(df1, df2, on = 'key', how = '__')

In [None]:
import pandas as pd

# 두 개의 데이터프레임 생성
left_df = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
right_df = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

# on = 'key' 열을 기준으로 두 데이터프레임 병합
# how = inner, outer, left, right
merged_df = pd.merge(left_df, right_df, on='key', how='inner')

print(merged_df)

  key  value_x  value_y
0   B        2        5
1   D        4        6


#### 6. 데이터 집계

##### 1) groupby(' ').func()

In [None]:
# 샘플 데이터프레임 생성
data = {
    'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Value': [1, 2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 'Category' 열을 기준으로 그룹화하여 'Value'의 연산 수행
grouped_mean = df.groupby('Category').mean()
grouped_sum = df.groupby('Category').sum()
grouped_count = df.groupby('Category').count()
grouped_max = df.groupby('Category').max()
grouped_min = df.groupby('Category').min()

# 수치형 데이터의 경우에 연산이 가능

In [None]:
# 복수 열을 기준으로 그룹화할 때
# 샘플 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
    'SubCategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
    'Value': [1, 2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 'Category'와 'SubCategory' 열을 기준으로 그룹화하여 'Value'의 합 계산
grouped_multiple = df.groupby(['Category', 'SubCategory']).sum()

print(grouped_multiple)

                      Value
Category SubCategory       
A        X                6
         Y                2
B        X                3
         Y               10


In [1]:
# 복수 열을 기준으로 다양한 값을 계산할 때
# 샘플 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
    'SubCategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
    'Value1': [1, 2, 3, 4, 5, 6],
    'Value2': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)

# 'Category'와 'SubCategory' 열을 기준으로 그룹화하여 각 그룹별 'Value1'과 'Value2'의 평균, 합 계산
# agg()를 사용하여 여러 열에 대한 다양한 집계함수 적용
grouped_multiple = df.groupby(['Category', 'SubCategory']).agg({'Value1': ['mean', 'sum'], 'Value2': 'sum'})

print(grouped_multiple)

NameError: name 'pd' is not defined

##### 2) pivot_table(index = , columns = , values = , aggfunc = ' ')

In [None]:
# 피봇 테이블
# 샘플 데이터프레임 생성
data = {
    'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-01'],
    'Category': ['A', 'B', 'A', 'B', 'A'],
    'Value': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 피벗 테이블 생성: 날짜를 행 인덱스로, 카테고리를 열 인덱스로, 값은 'Value'의 합으로 집계
pivot = df.pivot_table(index='Date', columns='Category', values='Value', aggfunc='sum')

print(pivot)

Category     A   B
Date              
2023-01-01  60  20
2023-01-02  30  40


In [None]:
# 여러 열 기준으로 피벗 테이블 생성
# 샘플 데이터프레임 생성
data = {
    'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-01'],
    'Category': ['A', 'B', 'A', 'B', 'A'],
    'SubCategory': ['X', 'Y', 'X', 'Y', 'X'],
    'Value': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 피벗 테이블 생성: 'Date'를 행 인덱스로, 'Category'와 'SubCategory'를 열 인덱스로, 값은 'Value'의 합으로 집계
pivot = df.pivot_table(index='Date', columns=['Category', 'SubCategory'], values='Value', aggfunc='sum')

print(pivot)

Category      A   B
SubCategory   X   Y
Date               
2023-01-01   60  20
2023-01-02   30  40


In [None]:
# 여러 열과 여러 값을 집계해 피벗 테이블 생성할 때
# 샘플 데이터프레임 생성
data = {
    'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-01'],
    'Category': ['A', 'B', 'A', 'B', 'A'],
    'Value1': [10, 20, 30, 40, 50],
    'Value2': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)

# 피벗 테이블 생성: 'Date'를 행 인덱스로, 'Category'를 열 인덱스로, 값은 'Value1'과 'Value2'의 평균과 합으로 집계
pivot = df.pivot_table(index='Date', columns='Category', values=['Value1', 'Value2'], aggfunc={'Value1': 'mean', 'Value2': 'sum'})

print(pivot)

           Value1     Value2     
Category        A   B      A    B
Date                             
2023-01-01     30  20    600  200
2023-01-02     30  40    300  400


In [None]:
# 참고 : pickle -적은 용량으로 저장할 때 사용
df.to_pickle('data명.pkl')