1. 다양한 조건으로 데이터 필터링 방법  
여러 조건을 결합하여 데이터를 필터링할 수 있다. 조건부 필터링은 특정 조건을 만족하는 데이터만 선택하는 강력한 도구로, 복잡한 조건을 구성하기 위해 &, |, ~ 등의 연산자를 결합할 수 있다. 데이터 타입 변환은 데이터를 올바르게 처리하기 위해 필수적이며, astype(), pd.to_datetime() 등을 통해 변환할 수 있다. 정확한 데이터 타입지정으로 메모리 절약과 성능향상을 기대할 수 있다. 

In [14]:
import pandas as pd
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, 22, 35],
    '직업': ['학생', '회사원', '학생', '프리랜서']
}
df = pd.DataFrame(data)

filtered_df = df[df['나이'] >= 25]  # 나이가 25 이상인 행만 선택
filtered_df = df.query('나이>=25')  # query() 메서드를 사용하면 더욱 간결해짐

print(filtered_df)

# 나이가 25 이상이고, 직업이 '학생'인 행만 선택
filtered_df = df[(df['나이'] >= 25) & (df['직업'] == '학생')]
print(filtered_df) 

# 특정 값들이 포함된 행을 필터링
filtered_df = df[df['직업'].isin(['학생', '프리랜서'])]
print(filtered_df)  

# ~ 연산자를 사용하여 특정 조건을 부정함
filtered_df = df[~(df['직업'] == '학생')]
print(filtered_df)  

   이름  나이    직업
0  철수  25    학생
1  영희  30   회사원
3  지수  35  프리랜서
   이름  나이  직업
0  철수  25  학생
   이름  나이    직업
0  철수  25    학생
2  민수  22    학생
3  지수  35  프리랜서
   이름  나이    직업
1  영희  30   회사원
3  지수  35  프리랜서


In [15]:
print(df.dtypes) # dtype으로 데이터 타입 확인

df['나이'] = df['나이'].astype(float) # '나이' 열을 정수형(int)에서 실수형(float)으로 변환
print(df.dtypes)


이름    object
나이     int64
직업    object
dtype: object
이름     object
나이    float64
직업     object
dtype: object


In [23]:
data = {
    '이름': ['철수', '영희', '민수'],
    '가입일': ['2023-01-01', '2022-12-15', '2023-05-22']
}
df = pd.DataFrame(data)

# '가입일'을 날짜 타입으로 변환
df['가입일'] = pd.to_datetime(df['가입일'])
print(df.dtypes)


이름             object
가입일    datetime64[ns]
dtype: object


In [30]:
import pandas as pd
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, 22, 35],
    '직업': ['학생', '회사원', '학생', '프리랜서']
}
df = pd.DataFrame(data)

print(df)  

# '나이' 기준으로 오름차순 정렬  #내림차순의 경우(by='나이', ascending=False)를 추가함
sorted_df = df.sort_values(by='나이')  

# '직업'을 기준으로 오름차순, '나이' 내림차순 정렬
sorted_df_multi = df.sort_values(by=['직업', '나이'], ascending=[True, False])
print(sorted_df_multi)

# 인덱스 기준으로 정렬
sorted_index_df = df.sort_index()
print(sorted_index_df)


   이름  나이    직업
0  철수  25    학생
1  영희  30   회사원
2  민수  22    학생
3  지수  35  프리랜서
   이름  나이    직업
3  지수  35  프리랜서
0  철수  25    학생
2  민수  22    학생
1  영희  30   회사원
   이름  나이    직업
0  철수  25    학생
1  영희  30   회사원
2  민수  22    학생
3  지수  35  프리랜서


In [32]:
# merge()를 사용한 데이터 병합
df1 = pd.DataFrame({
    '이름': ['철수', '영희', '민수'],
    '나이': [25, 30, 22]
})

df2 = pd.DataFrame({
    '이름': ['철수', '영희', '지수'],
    '직업': ['학생', '회사원', '프리랜서']
})

merged_df = pd.merge(df1, df2, on='이름')  # '이름'을 기준으로 병합
# pd.merge()는 기본적으로 내부조인을 수행하여 지정된 열에서 일치하는 값만 찾음

print(merged_df)  

   이름  나이   직업
0  철수  25   학생
1  영희  30  회사원


In [None]:
# outer join을 사용한 병합
merged_df_outer = pd.merge(df1, df2, on='이름', how='outer')
print(merged_df_outer) 

   이름    나이    직업
0  민수  22.0   NaN
1  영희  30.0   회사원
2  지수   NaN  프리랜서
3  철수  25.0    학생


In [35]:
# concat()을 사용한 데이터프레임 연결  # 열 단위(라로방향)로 연결할 경우 `axis=1`을 지정
concat_df = pd.concat([df1, df2], axis=0)  
print(concat_df)  

   이름    나이    직업
0  철수  25.0   NaN
1  영희  30.0   NaN
2  민수  22.0   NaN
0  철수   NaN    학생
1  영희   NaN   회사원
2  지수   NaN  프리랜서


In [37]:
# join()을 사용한 데이터프레임 병합
df3 = pd.DataFrame({
    '직업': ['학생', '회사원', '프리랜서'],
    '연봉': [2000, 3000, 4000]
}, index=['철수', '영희', '지수'])

# 인덱스를 기준으로 병합
joined_df = df1.set_index('이름').join(df3)
print(joined_df) 

    나이   직업      연봉
이름                 
철수  25   학생  2000.0
영희  30  회사원  3000.0
민수  22  NaN     NaN


1. 데이터프레임 그룹화 및 집계 함수 사용하기  
groupby()로 그룹화한 데이터에 대해 mean, sum, count 등의 집계 함수를 사용할 수 있으며, 여러 집계 함수를 동시에 사용해 점수의 합계와 평균을 계산할 수 있다. 다양한 열을 기준으로 그룹화하여 통계낼 수 있다.

In [1]:
# groupby()를 사용한 그룹화
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35, 25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Los Angeles', 'Chicago'],
    'Salary': [70000, 80000, 120000, 75000, 85000, 125000]
}
df = pd.DataFrame(data)

# 'Name'을 기준으로 그룹화하고 평균 Salary 계산
grouped = df.groupby('Name')['Salary'].mean()
print(grouped)

# 'City'와 'Age'를 기준으로 그룹화하여 Salary 합계 계산
grouped = df.groupby(['City', 'Age'])['Salary'].sum()
print(grouped)


Name
Alice       72500.0
Bob         82500.0
Charlie    122500.0
Name: Salary, dtype: float64
City         Age
Chicago      35     245000
Los Angeles  30     165000
New York     25     145000
Name: Salary, dtype: int64


In [2]:
# 여러 함수를 사용하여 Salary 집계
agg_result = df.groupby('Name').agg({
    'Salary': ['mean', 'sum', 'max'],
    'Age': 'count'
})
print(agg_result)  

           Salary                   Age
             mean     sum     max count
Name                                   
Alice     72500.0  145000   75000     2
Bob       82500.0  165000   85000     2
Charlie  122500.0  245000  125000     2


In [3]:
# 'name'을 인덱스로, 'city'을 컬럼으로 하여 평균 Salary 계산
pivot = pd.pivot_table(df, values='Salary', index='Name', columns='City', aggfunc='mean')
print(pivot) 

City      Chicago  Los Angeles  New York
Name                                    
Alice         NaN          NaN   72500.0
Bob           NaN      82500.0       NaN
Charlie  122500.0          NaN       NaN


In [4]:
# 여러 집계 함수로 피벗 테이블을 생성할 수도 있음
pivot_multi = pd.pivot_table(df, values='Salary', index='Name', columns='City', aggfunc=['mean', 'sum'])
print(pivot_multi)

             mean                            sum                      
City      Chicago Los Angeles New York   Chicago Los Angeles  New York
Name                                                                  
Alice         NaN         NaN  72500.0       NaN         NaN  145000.0
Bob           NaN     82500.0      NaN       NaN    165000.0       NaN
Charlie  122500.0         NaN      NaN  245000.0         NaN       NaN


In [5]:
#급여가 80000 이상인 경우에만 그룹화  
filtered_df = df[df['Salary'] >= 80000]  # 필터링 후 그룹화
grouped_filtered = filtered_df.groupby('City')['Salary'].mean()
print(grouped_filtered)

# 'Salary' 합계 기준으로 내림차순 정렬
sorted_grouped = df.groupby('Name')['Salary'].sum().sort_values(ascending=False)
print(sorted_grouped)

City
Chicago        122500.0
Los Angeles     82500.0
Name: Salary, dtype: float64
Name
Charlie    245000
Bob        165000
Alice      145000
Name: Salary, dtype: int64
