In [1]:
import pandas as pd

# CSV 파일을 읽어 DataFrame으로 변환
df = pd.read_csv('./data/large_dataset.csv', delimiter=',', header=0, encoding='utf-8')

# 불러온 데이터의 첫 5개 행을 출력
print(df.head())

   Age         Salary
0   59   48032.536637
1   31   78659.672604
2   46   87902.521215
3   20   93250.837329
4   43  102126.506806


> 옵션
- delimiter: 구분자 지정 (기본값은 쉼표 ,).
- header: 첫 번째 행을 열 이름으로 사용 (기본값은 0, 첫 번째 행이 열 이름).
- encoding: 파일의 문자 인코딩 (예: 'utf-8', 'latin1').

In [2]:
# DataFrame을 CSV 파일로 저장
df.to_csv('output.csv', index=False, header=True, encoding='utf-8')


> 옵션
- index: 인덱스를 CSV에 저장할지 여부. False로 설정하면 인덱스는 저장되지 않습니다.
- header: 열 이름을 CSV 파일에 포함할지 여부.
- encoding: 저장할 때의 문자 인코딩 방식.

## 1.1. head() & tail()
- head(): DataFrame의 첫 번째 N개의 행을 반환합니다. 기본값은 5입니다.
- tail(): DataFrame의 마지막 N개의 행을 반환합니다. 기본값은 5입니다.

In [1]:
import pandas as pd
import random 

# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Age': [24, 27, 22, 32, 0],
        'Salary': [50000, 55000, 45000, 70000, 65000]}

df = pd.DataFrame(data)
df 

Unnamed: 0,Name,Age,Salary
0,Alice,24,50000
1,Bob,27,55000
2,Charlie,22,45000
3,David,32,70000
4,Eva,0,65000


In [3]:

names = ['John', 'Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Ivy']

# Generate random data for the dataframe
data = {
    'Name': [random.choice(names) for _ in range(20)],
    'Salary': [random.randint(40000, 80000) for _ in range(20)],
    'Age': [random.randint(20, 50) for _ in range(20)]
}


df = pd.DataFrame(data)

print(df.head())  # 처음 5행 출력
print() 
print(df.tail(3))  # 마지막 3행 출력


     Name  Salary  Age
0     Eve   52554   33
1  Hannah   46924   49
2    John   60054   39
3   Grace   58644   39
4     Ivy   40909   25

     Name  Salary  Age
17  David   57539   39
18    Ivy   50321   24
19  Alice   61854   42


옵션
- verbose: True로 설정하면 더 자세한 정보를 표시합니다.
- memory_usage: deep으로 설정하면 메모리 사용량에 대한 정보를 더 정확하게 제공합니다.

In [3]:
print(df.info()) 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    20 non-null     object
 1   Salary  20 non-null     int64 
 2   Age     20 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 612.0+ bytes
None


- 숫자형 컬럼의 기초 통계량을 요약해서 보여줍니다.
- 평균, 표준편차, 최소값, 25%, 50%, 75% 분위수 및 최대값 등을 계산합니다.

In [4]:
df.describe() 

Unnamed: 0,Salary,Age
count,20.0,20.0
mean,62619.05,40.25
std,11053.101567,7.411762
min,43614.0,27.0
25%,55109.75,34.75
50%,64502.5,42.5
75%,70467.25,45.25
max,79289.0,50.0


In [5]:
print(df.dtypes)

Name      object
Salary     int64
Age        int64
dtype: object


In [2]:
# Salary 기준으로 내림차순 정렬
df_sorted = df.sort_values(by='Salary', ascending=False)
print(df_sorted)


      Name  Age  Salary
3    David   32   70000
4      Eva    0   65000
1      Bob   27   55000
0    Alice   24   50000
2  Charlie   22   45000


In [3]:
# 모든 숫자형 열의 평균값을 계산
print(df.mean())

Age          38.483890
Salary    74923.669575
dtype: float64


In [4]:
# 모든 숫자형 열의 중앙값을 계산
print(df.median())

Age          39.000000
Salary    74978.045283
dtype: float64


In [5]:
# 모든 숫자형 열에서 최대값을 찾기
print(df.max())


Age           59.000000
Salary    119999.012474
dtype: float64


> values_count() 사용법
- 열의 고유값 개수 세기

In [10]:
# 'category' 열에서 고유값의 개수를 세기
category_counts = df['Age'].astype(int).value_counts()
category_counts

Age
51    2458
48    2447
43    2444
42    2442
28    2424
32    2423
19    2418
46    2410
58    2410
24    2408
21    2407
20    2407
54    2406
49    2406
41    2403
18    2400
30    2397
34    2393
31    2389
37    2384
26    2384
23    2382
45    2381
52    2380
59    2377
22    2374
53    2370
29    2364
33    2361
38    2356
40    2352
27    2346
36    2345
35    2344
44    2344
50    2340
56    2339
55    2335
39    2334
57    2325
47    2312
25    2279
Name: count, dtype: int64

> sort_values(): 지정된 열의 값에 따라 데이터 정렬

In [14]:
# 'score' 열을 기준으로 내림차순 정렬
df_sorted = df.sort_values(by='Age', ascending=False).reset_index()
df_sorted


Unnamed: 0,index,Age,Salary
0,0,59,48032.536637
1,8886,59,108435.498531
2,39844,59,59187.564597
3,8896,59,73649.339149
4,39840,59,107808.296924
...,...,...,...
99995,37359,18,32680.283847
99996,96825,18,67740.307082
99997,83306,18,32998.826711
99998,83312,18,34718.768703


In [6]:
# 모든 숫자형 열에서 최소값을 찾기
print(df.min())

Age          18.000000
Salary    30000.211438
dtype: float64


> drop(): 지정된 열이나 행 삭제

In [7]:
# 'Age' 열 삭제
df_dropped = df.drop('Age', axis=1)
print(df_dropped)
print()

# 첫 번째 행 삭제
df_dropped_row = df.drop(0, axis=0)
print(df_dropped_row)


       Name  Salary
0     Grace   43614
1    Hannah   48316
2   Charlie   76991
3       Ivy   66261
4   Charlie   64952
5      John   74969
6       Ivy   62999
7       Bob   58488
8   Charlie   59719
9     Grace   77217
10     John   70270
11  Charlie   49493
12     John   64053
13  Charlie   66663
14      Bob   67017
15    Frank   71059
16    David   56982
17    Grace   45897
18    David   48132
19      Bob   79289

       Name  Salary  Age
1    Hannah   48316   49
2   Charlie   76991   47
3       Ivy   66261   45
4   Charlie   64952   35
5      John   74969   28
6       Ivy   62999   50
7       Bob   58488   43
8   Charlie   59719   28
9     Grace   77217   46
10     John   70270   37
11  Charlie   49493   43
12     John   64053   32
13  Charlie   66663   44
14      Bob   67017   27
15    Frank   71059   42
16    David   56982   40
17    Grace   45897   50
18    David   48132   34
19      Bob   79289   40


## 1.7. groupby()
- 특정 컬럼을 기준으로 그룹화한 후, 집계 함수(mean(), sum(), count() 등)를 적용할 수 있습니다.

In [8]:
# 'Age' 기준으로 그룹화하고, 'Salary'의 평균값 계산
df_grouped = df.groupby('Age')['Salary'].mean()
print(df_grouped)


Age
27    67017.0
28    67344.0
32    64053.0
34    48132.0
35    64952.0
37    70270.0
40    68135.5
42    71059.0
43    53990.5
44    66663.0
45    54937.5
46    77217.0
47    76991.0
49    48316.0
50    54448.0
Name: Salary, dtype: float64


In [5]:
# 'Name'을 기준으로 그룹화하여 평균 나이(Age)와 평균 급여(Salary)를 계산
grouped_df = df.groupby('Name')[['Age', 'Salary']].mean().astype(int)

print(grouped_df)


         Age  Salary
Name                
Alice     31   49348
Charlie   39   77395
David     38   58027
Eve       33   52554
Frank     47   79569
Grace     39   58644
Hannah    49   46924
Ivy       35   49560
John      45   58663


In [7]:
# 'Age'가 30 이상인 사람들만 선택하여, 'Name'을 기준으로 그룹화하고 평균 급여 계산
grouped_age = df[df['Age'] >= 30].groupby('Name')['Salary'].mean().astype(int)

print(grouped_age)


Name
Alice      51904
Charlie    77395
David      64517
Eve        52554
Frank      79569
Grace      58644
Hannah     46924
Ivy        53506
John       58663
Name: Salary, dtype: int64


## 1.8. apply()
- DataFrame이나 Series의 각 원소에 대해 사용자 정의 함수를 적용할 수 있습니다.

In [16]:
grouped_age = df[df['Age'] >= 30].groupby('Name')['Salary'].mean() \
              .astype(int).apply(lambda x:f'{x:,} $')
grouped_age

Name
Alice      51,904 $
Charlie    77,395 $
David      64,517 $
Eve        52,554 $
Frank      79,569 $
Grace      58,644 $
Hannah     46,924 $
Ivy        53,506 $
John       58,663 $
Name: Salary, dtype: object

In [9]:
# 나이에 5를 더하는 함수 적용
df['Age_plus_5'] = df['Age'].apply(lambda x: x + 5)
print(df)


       Name  Salary  Age  Age_plus_5
0     Grace   43614   45          50
1    Hannah   48316   49          54
2   Charlie   76991   47          52
3       Ivy   66261   45          50
4   Charlie   64952   35          40
5      John   74969   28          33
6       Ivy   62999   50          55
7       Bob   58488   43          48
8   Charlie   59719   28          33
9     Grace   77217   46          51
10     John   70270   37          42
11  Charlie   49493   43          48
12     John   64053   32          37
13  Charlie   66663   44          49
14      Bob   67017   27          32
15    Frank   71059   42          47
16    David   56982   40          45
17    Grace   45897   50          55
18    David   48132   34          39
19      Bob   79289   40          45


## 1.9 merge()
- 두 개 이상의 DataFrame을 공통된 열 또는 인덱스를 기준으로 병합할 수 있습니다.

In [10]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Salary': [50000, 60000, 70000]})

# 'ID' 열을 기준으로 병합
df_merged = pd.merge(df1, df2, on='ID')
print(df_merged)


   ID     Name  Salary
0   1    Alice   50000
1   2      Bob   60000
2   3  Charlie   70000


## 1.10. pivot_table()
- 데이터를 피벗 테이블 형식으로 변환하여 그룹화하고 집계할 수 있습니다.

In [8]:
# 'Age'를 행으로, 'Name'을 열로, 'Salary'를 값으로 하는 피벗 테이블
pivot_df = df.pivot(index='Age', columns='Name', values='Salary')

print(pivot_df)


Name    Alice  Charlie    David      Eve    Frank    Grace   Hannah      Ivy  \
Age                                                                            
21    44185.0      NaN      NaN      NaN      NaN      NaN      NaN      NaN   
24        NaN      NaN      NaN      NaN      NaN      NaN      NaN  50321.0   
25        NaN      NaN      NaN      NaN      NaN      NaN      NaN  40909.0   
29    49400.0      NaN  45049.0      NaN      NaN      NaN      NaN      NaN   
33    41954.0      NaN      NaN  52554.0      NaN      NaN      NaN      NaN   
38        NaN  76599.0      NaN      NaN      NaN      NaN      NaN      NaN   
39        NaN      NaN  57539.0      NaN      NaN  58644.0      NaN      NaN   
40        NaN  78191.0      NaN      NaN      NaN      NaN      NaN      NaN   
42    61854.0      NaN      NaN      NaN      NaN      NaN      NaN      NaN   
43        NaN      NaN      NaN      NaN      NaN      NaN      NaN  55366.0   
46        NaN      NaN      NaN      NaN

In [10]:
# 'Age'를 기준으로 그룹화하여 평균 급여 계산
pivot_table_df = df.pivot_table(index='Age', values='Salary', aggfunc='mean').astype(int)

print(pivot_table_df)


     Salary
Age        
21    44185
24    50321
25    40909
29    47224
33    47254
38    76599
39    58745
40    78191
42    61854
43    55366
46    50837
47    75532
49    49285
50    65099


In [14]:
# Department별 평균 Salary 계산
departments = ['HR', 'IT']

# Generate random data
data_department_salary = {
    'Department': [random.choice(departments) for _ in range(100)],
    'Salary': [random.randint(40000, 80000) for _ in range(100)]
}

df = pd.DataFrame(data_department_salary)

df_pivot = round(df.pivot_table(values='Salary', index='Department', aggfunc='mean'),1)
print(df_pivot)


             Salary
Department         
HR          60823.5
IT          61095.5


## 1.11. fillna()
- 결측치를 채우는 메서드로, 결측치를 특정 값이나 함수로 채울 수 있습니다.


In [18]:
import numpy as np

# Generate random data
data_department_salary_with_na = {
    'Department': [random.choice(departments) for _ in range(100)],
    'Salary': [random.choice([random.randint(40000, 80000), 0]) for _ in range(100)]
}

# Create DataFrame
df = pd.DataFrame(data_department_salary_with_na)
df

Unnamed: 0,Department,Salary
0,IT,68909
1,HR,61368
2,HR,0
3,HR,68394
4,IT,0
...,...,...
95,IT,60001
96,IT,0
97,HR,0
98,IT,71957


In [25]:
mean_salary = df['Salary'][df['Salary'] != 0].mean()  # 0을 제외한 평균값
df['Salary'] = round(df['Salary'].replace(0, mean_salary))
df

Unnamed: 0,Department,Salary
0,IT,68910.0
1,HR,61370.0
2,HR,60120.0
3,HR,68390.0
4,IT,60120.0
...,...,...
95,IT,60000.0
96,IT,60120.0
97,HR,60120.0
98,IT,71960.0


In [30]:
import pandas as pd
import numpy as np

# 결측값을 포함한 데이터프레임 생성
names = ['John', 'Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Ivy']
data_with_na = {
    'Name': [random.choice(names + [None]) for _ in range(100)],
    'Age': [random.choice([None, random.randint(20, 50)]) for _ in range(100)]
}

# Create DataFrame
df = pd.DataFrame(data_with_na)
print(df)
print() 

# 결측값을 열의 평균값으로 채우기
df['Age'] = df['Age'].fillna(df['Age'].mean()).astype(int)

print(df)


      Name   Age
0    Frank   NaN
1      Bob   NaN
2    David  35.0
3    Grace  47.0
4     John  40.0
..     ...   ...
95  Hannah   NaN
96   Alice  38.0
97     Eve   NaN
98  Hannah  39.0
99   Alice   NaN

[100 rows x 2 columns]

      Name  Age
0    Frank   35
1      Bob   35
2    David   35
3    Grace   47
4     John   40
..     ...  ...
95  Hannah   35
96   Alice   38
97     Eve   35
98  Hannah   39
99   Alice   35

[100 rows x 2 columns]


In [31]:
# 수정된 코드: 확률값의 합이 1이 되도록 설정
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)  # None으로 설정하면 모든 열이 출력됩니다.
pd.set_option('display.width', None)  # 열 너비를 자동으로 설정합니다.


# 랜덤 데이터 생성
np.random.seed(0)  # 재현 가능한 결과를 위해 시드 설정

names = ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Ivy', 'Jack']
ages = np.random.randint(18, 60, size=100)  # 18-60세의 랜덤 나이
salaries = np.random.randint(30000, 100000, size=100)  # 30k-100k 사이의 랜덤 연봉

# 일부 값을 결측값으로 만들기 위해 랜덤하게 None 값 추가
name_choices = np.random.choice(names, size=100)

# 80% 확률로 나이 선택, 20% 확률로 None
age_choices = np.random.choice(np.append(ages, None), size=100, p=[0.9 / len(ages)] * len(ages) + [0.1])

# 80% 확률로 연봉 선택, 20% 확률로 None
salary_choices = np.random.choice(np.append(salaries, None), size=100, p=[0.9 / len(salaries)] * len(salaries) + [0.1])

# 데이터프레임 생성
df = pd.DataFrame({
    'Name': name_choices,
    'Age': age_choices,
    'Salary': salary_choices
})



# 결측치 여부 확인
print(df.isnull())
print()
print(df.isnull().sum())


     Name    Age  Salary
0   False  False   False
1   False  False   False
2   False   True   False
3   False  False    True
4   False  False   False
..    ...    ...     ...
95  False  False    True
96  False  False   False
97  False  False   False
98  False  False    True
99  False  False   False

[100 rows x 3 columns]

Name       0
Age       11
Salary    18
dtype: int64


In [32]:
# 결측치를 0으로 채우기
df_filled_zero = df.fillna(0)
print(df_filled_zero)
print() 

# 결측치를 각 열의 평균값으로 채우기
df_filled_mean = df.fillna(df.select_dtypes(include=['number']).mean())
print(df_filled_mean)
print() 

# 결측치를 이전 값으로 채우기 (앞으로 채우기)
df_filled_ffill = df.ffill()  # Deprecated method 'fillna(method="ffill")' 대신 ffill() 사용
print(df_filled_ffill)
print() 

# 결측치를 뒤로 채우기
df_filled_bfill = df.bfill()  # Deprecated method 'fillna(method="bfill")' 대신 bfill() 사용
print(df_filled_bfill)
print()


      Name  Age  Salary
0      Ivy   57   37997
1      Bob   56   61785
2      Bob    0   43907
3    Alice   47       0
4    David   23   63538
..     ...  ...     ...
95  Hannah   57       0
96     Bob   52   80586
97   Grace   22   81939
98   Frank   19       0
99   Alice   24   75663

[100 rows x 3 columns]

      Name   Age Salary
0      Ivy    57  37997
1      Bob    56  61785
2      Bob  None  43907
3    Alice    47   None
4    David    23  63538
..     ...   ...    ...
95  Hannah    57   None
96     Bob    52  80586
97   Grace    22  81939
98   Frank    19   None
99   Alice    24  75663

[100 rows x 3 columns]

      Name  Age  Salary
0      Ivy   57   37997
1      Bob   56   61785
2      Bob   56   43907
3    Alice   47   43907
4    David   23   63538
..     ...  ...     ...
95  Hannah   57   70800
96     Bob   52   80586
97   Grace   22   81939
98   Frank   19   81939
99   Alice   24   75663

[100 rows x 3 columns]

      Name  Age  Salary
0      Ivy   57   37997
1      Bob   

  df_filled_zero = df.fillna(0)
  df_filled_ffill = df.ffill()  # Deprecated method 'fillna(method="ffill")' 대신 ffill() 사용
  df_filled_bfill = df.bfill()  # Deprecated method 'fillna(method="bfill")' 대신 bfill() 사용


In [33]:

# 결측치가 있는 부분만 필터링하여 보여주기
missing_data = df[df.isna().any(axis=1)]  # 결측치가 있는 행만 선택
print("결측치가 있는 부분:")
print(missing_data)
print() 


결측치가 있는 부분:
       Name   Age Salary
2       Bob  None  43907
3     Alice    47   None
5       Ivy    42   None
7       Eve  None  30469
12   Hannah    54   None
14  Charlie  None  45997
17  Charlie  None  50165
19      Eve  None  53306
20  Charlie  None  75353
21    Frank    39   None
26   Hannah    18   None
29      Bob    41   None
30    Grace  None  71690
39  Charlie    38   None
42      Bob  None  96509
43     Jack  None  63538
44    Alice  None  65489
45    Grace    33   None
47      Eve    24   None
64    Alice    53   None
65      Eve    56   None
70  Charlie    24   None
86    David    23   None
91    David    37   None
92    Frank    56   None
93   Hannah  None   None
95   Hannah    57   None
98    Frank    19   None



In [34]:


df_dropped_rows = df.dropna(axis=0)
print(df_dropped_rows)
print() 

# 결측치가 있는 열 삭제
df_dropped_cols = df.dropna(axis=1)
print(df_dropped_cols)
print("--------------------------------------------------------") 

# 결측치가 2개 이상인 행만 삭제
df_dropped_threshold = df.dropna(thresh=3)
print(df_dropped_threshold)
print() 

# 삭제된 행 확인
removed_rows = df.shape[0] - df_dropped_rows.shape[0]
print(f"삭제된 행의 수: {removed_rows}개")

# 삭제된 열 확인
removed_columns = df.shape[1] - df_dropped_cols.shape[1]
print(f"삭제된 열의 수: {removed_columns}개")



       Name Age Salary
0       Ivy  57  37997
1       Bob  56  61785
4     David  23  63538
6       Ivy  21  41052
8       Eve  22  78208
..      ...  ..    ...
90  Charlie  59  71690
94  Charlie  30  70800
96      Bob  52  80586
97    Grace  22  81939
99    Alice  24  75663

[72 rows x 3 columns]

      Name
0      Ivy
1      Bob
2      Bob
3    Alice
4    David
..     ...
95  Hannah
96     Bob
97   Grace
98   Frank
99   Alice

[100 rows x 1 columns]
--------------------------------------------------------
       Name Age Salary
0       Ivy  57  37997
1       Bob  56  61785
4     David  23  63538
6       Ivy  21  41052
8       Eve  22  78208
..      ...  ..    ...
90  Charlie  59  71690
94  Charlie  30  70800
96      Bob  52  80586
97    Grace  22  81939
99    Alice  24  75663

[72 rows x 3 columns]

삭제된 행의 수: 28개
삭제된 열의 수: 2개
