## 1.1. head() & tail()
- head(): DataFrame의 첫 번째 N개의 행을 반환합니다. 기본값은 5입니다.
- tail(): DataFrame의 마지막 N개의 행을 반환합니다. 기본값은 5입니다.

In [10]:
import pandas as pd

# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Age': [24, 27, 22, 32, 0],
        'Salary': [50000, 55000, 45000, 70000, 65000]}

df = pd.DataFrame(data)

print(df.head())  # 처음 5행 출력
print() 
print(df.tail(3))  # 마지막 3행 출력


      Name  Age  Salary
0    Alice   24   50000
1      Bob   27   55000
2  Charlie   22   45000
3    David   32   70000
4      Eva    0   65000

      Name  Age  Salary
2  Charlie   22   45000
3    David   32   70000
4      Eva    0   65000


In [4]:
print(df.info()) 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    5 non-null      object
 1   Age     5 non-null      int64 
 2   Salary  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 252.0+ bytes
None


- 숫자형 컬럼의 기초 통계량을 요약해서 보여줍니다.
- 평균, 표준편차, 최소값, 25%, 50%, 75% 분위수 및 최대값 등을 계산합니다.

In [5]:
df.describe() 

Unnamed: 0,Age,Salary
count,5.0,5.0
mean,26.8,57000.0
std,3.962323,10368.220677
min,22.0,45000.0
25%,24.0,50000.0
50%,27.0,55000.0
75%,29.0,65000.0
max,32.0,70000.0


In [6]:
print(df.dtypes)

Name      object
Age        int64
Salary     int64
dtype: object


In [7]:
# Salary 기준으로 내림차순 정렬
df_sorted = df.sort_values(by='Salary', ascending=False)
print(df_sorted)


      Name  Age  Salary
3    David   32   70000
4      Eva   29   65000
1      Bob   27   55000
0    Alice   24   50000
2  Charlie   22   45000


In [11]:
# 'Age' 열 삭제
df_dropped = df.drop('Age', axis=1)
print(df_dropped)
print()

# 첫 번째 행 삭제
df_dropped_row = df.drop(0, axis=0)
print(df_dropped_row)


      Name  Salary
0    Alice   50000
1      Bob   55000
2  Charlie   45000
3    David   70000
4      Eva   65000

      Name  Age  Salary
1      Bob   27   55000
2  Charlie   22   45000
3    David   32   70000
4      Eva    0   65000


## 1.7. groupby()
- 특정 컬럼을 기준으로 그룹화한 후, 집계 함수(mean(), sum(), count() 등)를 적용할 수 있습니다.

In [12]:
# 'Age' 기준으로 그룹화하고, 'Salary'의 평균값 계산
df_grouped = df.groupby('Age')['Salary'].mean()
print(df_grouped)


Age
0     65000.0
22    45000.0
24    50000.0
27    55000.0
32    70000.0
Name: Salary, dtype: float64


## 1.8. apply()
- DataFrame이나 Series의 각 원소에 대해 사용자 정의 함수를 적용할 수 있습니다.

In [13]:
# 나이에 5를 더하는 함수 적용
df['Age_plus_5'] = df['Age'].apply(lambda x: x + 5)
print(df)


      Name  Age  Salary  Age_plus_5
0    Alice   24   50000          29
1      Bob   27   55000          32
2  Charlie   22   45000          27
3    David   32   70000          37
4      Eva    0   65000           5


## 1.9 merge()
- 두 개 이상의 DataFrame을 공통된 열 또는 인덱스를 기준으로 병합할 수 있습니다.

In [14]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Salary': [50000, 60000, 70000]})

# 'ID' 열을 기준으로 병합
df_merged = pd.merge(df1, df2, on='ID')
print(df_merged)


   ID     Name  Salary
0   1    Alice   50000
1   2      Bob   60000
2   3  Charlie   70000


## 1.10. pivot_table()
- 데이터를 피벗 테이블 형식으로 변환하여 그룹화하고 집계할 수 있습니다.

In [20]:
# Department별 평균 Salary 계산
df = pd.DataFrame({
    'Department': ['HR', 'IT', 'IT', 'HR', 'IT'],
    'Salary': [40000, 50000, 45000, 60000, 0]
})

df_pivot = df.pivot_table(values='Salary', index='Department', aggfunc='mean')
print(df_pivot)


                  Salary
Department              
HR          50000.000000
IT          31666.666667


## 1.11. fillna()
- 결측치를 채우는 메서드로, 결측치를 특정 값이나 함수로 채울 수 있습니다.


In [22]:
mean_salary = df['Salary'][df['Salary'] != 0].mean()  # 0을 제외한 평균값
df['Salary'] = df['Salary'].replace(0, mean_salary)
df

Unnamed: 0,Department,Salary
0,HR,40000
1,IT,50000
2,IT,45000
3,HR,60000
4,IT,48750


In [23]:
import pandas as pd
import numpy as np

# 결측값을 포함한 데이터프레임 생성
df = pd.DataFrame({
    'Name': ['John', 'Alice', 'Bob', np.nan, 'Charlie'],
    'Age': [23, np.nan, 25, 30, np.nan]
})
print(df)
print() 

# 결측값을 열의 평균값으로 채우기
df['Age'] = df['Age'].fillna(df['Age'].mean())

print(df)


      Name   Age
0     John  23.0
1    Alice   NaN
2      Bob  25.0
3      NaN  30.0
4  Charlie   NaN

      Name   Age
0     John  23.0
1    Alice  26.0
2      Bob  25.0
3      NaN  30.0
4  Charlie  26.0


In [40]:
# 수정된 코드: 확률값의 합이 1이 되도록 설정
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)  # None으로 설정하면 모든 열이 출력됩니다.
pd.set_option('display.width', None)  # 열 너비를 자동으로 설정합니다.


# 랜덤 데이터 생성
np.random.seed(0)  # 재현 가능한 결과를 위해 시드 설정

names = ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Ivy', 'Jack']
ages = np.random.randint(18, 60, size=100)  # 18-60세의 랜덤 나이
salaries = np.random.randint(30000, 100000, size=100)  # 30k-100k 사이의 랜덤 연봉

# 일부 값을 결측값으로 만들기 위해 랜덤하게 None 값 추가
name_choices = np.random.choice(names, size=100)

# 80% 확률로 나이 선택, 20% 확률로 None
age_choices = np.random.choice(np.append(ages, None), size=100, p=[0.9 / len(ages)] * len(ages) + [0.1])

# 80% 확률로 연봉 선택, 20% 확률로 None
salary_choices = np.random.choice(np.append(salaries, None), size=100, p=[0.9 / len(salaries)] * len(salaries) + [0.1])

# 데이터프레임 생성
df = pd.DataFrame({
    'Name': name_choices,
    'Age': age_choices,
    'Salary': salary_choices
})



# 결측치 여부 확인
print(df.isnull())
print()
print(df.isnull().sum())


     Name    Age  Salary
0   False  False   False
1   False  False   False
2   False   True   False
3   False  False    True
4   False  False   False
..    ...    ...     ...
95  False  False    True
96  False  False   False
97  False  False   False
98  False  False    True
99  False  False   False

[100 rows x 3 columns]

Name       0
Age       11
Salary    18
dtype: int64


In [34]:
# 결측치를 0으로 채우기
df_filled_zero = df.fillna(0)
print(df_filled_zero)
print() 

# 결측치를 각 열의 평균값으로 채우기
df_filled_mean = df.fillna(df.select_dtypes(include=['number']).mean())
print(df_filled_mean)
print() 

# 결측치를 이전 값으로 채우기 (앞으로 채우기)
df_filled_ffill = df.ffill()  # Deprecated method 'fillna(method="ffill")' 대신 ffill() 사용
print(df_filled_ffill)
print() 

# 결측치를 뒤로 채우기
df_filled_bfill = df.bfill()  # Deprecated method 'fillna(method="bfill")' 대신 bfill() 사용
print(df_filled_bfill)
print()


      Name  Age  Salary
0      Ivy   57   37997
1      Bob   56   61785
2      Bob    0   43907
3    Alice   47       0
4    David   23   63538
..     ...  ...     ...
95  Hannah   57       0
96     Bob   52   80586
97   Grace   22   81939
98   Frank   19       0
99   Alice   24   75663

[100 rows x 3 columns]

      Name   Age Salary
0      Ivy    57  37997
1      Bob    56  61785
2      Bob  None  43907
3    Alice    47   None
4    David    23  63538
..     ...   ...    ...
95  Hannah    57   None
96     Bob    52  80586
97   Grace    22  81939
98   Frank    19   None
99   Alice    24  75663

[100 rows x 3 columns]

      Name  Age  Salary
0      Ivy   57   37997
1      Bob   56   61785
2      Bob   56   43907
3    Alice   47   43907
4    David   23   63538
..     ...  ...     ...
95  Hannah   57   70800
96     Bob   52   80586
97   Grace   22   81939
98   Frank   19   81939
99   Alice   24   75663

[100 rows x 3 columns]

      Name  Age  Salary
0      Ivy   57   37997
1      Bob   

  df_filled_zero = df.fillna(0)
  df_filled_ffill = df.ffill()  # Deprecated method 'fillna(method="ffill")' 대신 ffill() 사용
  df_filled_bfill = df.bfill()  # Deprecated method 'fillna(method="bfill")' 대신 bfill() 사용


In [None]:

# 결측치가 있는 부분만 필터링하여 보여주기
missing_data = df[df.isna().any(axis=1)]  # 결측치가 있는 행만 선택
print("결측치가 있는 부분:")
print(missing_data)
print() 


결측치가 있는 부분:
       Name   Age Salary
2       Bob  None  43907
3     Alice    47   None
5       Ivy    42   None
7       Eve  None  30469
12   Hannah    54   None
14  Charlie  None  45997
17  Charlie  None  50165
19      Eve  None  53306
20  Charlie  None  75353
21    Frank    39   None
26   Hannah    18   None
29      Bob    41   None
30    Grace  None  71690
39  Charlie    38   None
42      Bob  None  96509
43     Jack  None  63538
44    Alice  None  65489
45    Grace    33   None
47      Eve    24   None
64    Alice    53   None
65      Eve    56   None
70  Charlie    24   None
86    David    23   None
91    David    37   None
92    Frank    56   None
93   Hannah  None   None
95   Hannah    57   None
98    Frank    19   None

       Name Age Salary
0       Ivy  57  37997
1       Bob  56  61785
4     David  23  63538
6       Ivy  21  41052
8       Eve  22  78208
9     Alice  31  30469
10     Jack  42  64009
11    David  29  65489
13    David  58  92885
15      Bob  54  98473
16      B

In [50]:


df_dropped_rows = df.dropna(axis=0)
print(df_dropped_rows)
print() 

# 결측치가 있는 열 삭제
df_dropped_cols = df.dropna(axis=1)
print(df_dropped_cols)
print("--------------------------------------------------------") 

# 결측치가 2개 이상인 행만 삭제
df_dropped_threshold = df.dropna(thresh=3)
print(df_dropped_threshold)
print() 

# 삭제된 행 확인
removed_rows = df.shape[0] - df_dropped_rows.shape[0]
print(f"삭제된 행의 수: {removed_rows}개")

# 삭제된 열 확인
removed_columns = df.shape[1] - df_dropped_cols.shape[1]
print(f"삭제된 열의 수: {removed_columns}개")



       Name Age Salary
0       Ivy  57  37997
1       Bob  56  61785
4     David  23  63538
6       Ivy  21  41052
8       Eve  22  78208
9     Alice  31  30469
10     Jack  42  64009
11    David  29  65489
13    David  58  92885
15      Bob  54  98473
16      Bob  50  59844
18      Bob  34  33912
22    Frank  53  30469
23    Frank  54  65050
24  Charlie  47  77394
25    Frank  23  30469
27   Hannah  21  73986
28    Grace  19  35181
31   Hannah  58  53306
32  Charlie  33  77805
33    David  30  65489
34      Bob  50  66223
35     Jack  57  68395
36    Frank  53  51752
37     Jack  31  93720
38     Jack  22  43824
40    Alice  42  47340
41     Jack  48  47340
46    Alice  50  81939
48      Ivy  29  30894
49      Eve  34  30469
50    David  56  98473
51    David  37  75663
52      Ivy  58  42579
53      Ivy  21  43824
54   Hannah  41  96509
55    Alice  41  68395
56    David  41  91570
57      Ivy  24  80586
58   Hannah  22  98627
59   Hannah  33  51752
60      Bob  46  61785
61      Ivy