In [2]:
import pandas as pd

print("=== Pandas DataFrame 초보자 가이드 ===\n")

# ============================================
# 1. DataFrame 생성하기
# ============================================
print("1. DataFrame 생성 방법들")
print("-" * 30)

# 1-1. 딕셔너리로 생성
data = {
    "이름": ["김철수", "이영희", "박민수", "최수진", "정다은"],
    "나이": [25, 30, 35, 28, 32],
    "도시": ["서울", "부산", "대구", "서울", "광주"],
    "급여": [3000, 3500, 4000, 3200, 3800],
}
df = pd.DataFrame(data)
print("딕셔너리로 생성한 DataFrame:")
print(df)
print()

=== Pandas DataFrame 초보자 가이드 ===

1. DataFrame 생성 방법들
------------------------------
딕셔너리로 생성한 DataFrame:
    이름  나이  도시    급여
0  김철수  25  서울  3000
1  이영희  30  부산  3500
2  박민수  35  대구  4000
3  최수진  28  서울  3200
4  정다은  32  광주  3800



In [3]:
# 1-2. 리스트로 생성
data_list = [
    ["김철수", 25, "서울", 3000],
    ["이영희", 30, "부산", 3500],
    ["박민수", 35, "대구", 4000],
]
df_list = pd.DataFrame(data_list, columns=["이름", "나이", "도시", "급여"])
print("리스트로 생성한 DataFrame:")
print(df_list)
print()

리스트로 생성한 DataFrame:
    이름  나이  도시    급여
0  김철수  25  서울  3000
1  이영희  30  부산  3500
2  박민수  35  대구  4000



In [4]:
# ============================================
# 2. 기본 정보 확인하기
# ============================================
print("2. DataFrame 기본 정보")
print("-" * 30)

print("DataFrame 크기 (행, 열):", df.shape)
print("컬럼 이름들:", list(df.columns))
print("인덱스:", list(df.index))
print("데이터 타입:")
print(df.dtypes)
print()

print("기본 통계 정보:")
print(df.describe())
print()

print("DataFrame 정보 요약:")
print(df.info())
print()

2. DataFrame 기본 정보
------------------------------
DataFrame 크기 (행, 열): (5, 4)
컬럼 이름들: ['이름', '나이', '도시', '급여']
인덱스: [0, 1, 2, 3, 4]
데이터 타입:
이름    object
나이     int64
도시    object
급여     int64
dtype: object

기본 통계 정보:
              나이           급여
count   5.000000     5.000000
mean   30.000000  3500.000000
std     3.807887   412.310563
min    25.000000  3000.000000
25%    28.000000  3200.000000
50%    30.000000  3500.000000
75%    32.000000  3800.000000
max    35.000000  4000.000000

DataFrame 정보 요약:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      5 non-null      object
 1   나이      5 non-null      int64 
 2   도시      5 non-null      object
 3   급여      5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None



In [5]:
# ============================================
# 3. 데이터 조회하기 (가장 중요!)
# ============================================
print("3. 데이터 조회 방법들")
print("-" * 30)

# 3-1. 전체 데이터 보기
print("처음 3개 행:")
print(df.head(3))
print()

print("마지막 2개 행:")
print(df.tail(2))
print()

3. 데이터 조회 방법들
------------------------------
처음 3개 행:
    이름  나이  도시    급여
0  김철수  25  서울  3000
1  이영희  30  부산  3500
2  박민수  35  대구  4000

마지막 2개 행:
    이름  나이  도시    급여
3  최수진  28  서울  3200
4  정다은  32  광주  3800



In [6]:
# 3-2. 특정 컬럼 선택
print("이름 컬럼만 선택:")
print(df["이름"])
print()

print("여러 컬럼 선택:")
print(df[["이름", "급여"]])
print()

# 3-3. 조건으로 데이터 필터링
print("나이가 30 이상인 사람들:")
print(df[df["나이"] >= 30])
print()

print("서울에 사는 사람들:")
print(df[df["도시"] == "서울"])
print()

print("나이가 30 이상이고 급여가 3500 이상인 사람:")
print(df[(df["나이"] >= 30) & (df["급여"] >= 3500)])
print()

이름 컬럼만 선택:
0    김철수
1    이영희
2    박민수
3    최수진
4    정다은
Name: 이름, dtype: object

여러 컬럼 선택:
    이름    급여
0  김철수  3000
1  이영희  3500
2  박민수  4000
3  최수진  3200
4  정다은  3800

나이가 30 이상인 사람들:
    이름  나이  도시    급여
1  이영희  30  부산  3500
2  박민수  35  대구  4000
4  정다은  32  광주  3800

서울에 사는 사람들:
    이름  나이  도시    급여
0  김철수  25  서울  3000
3  최수진  28  서울  3200

나이가 30 이상이고 급여가 3500 이상인 사람:
    이름  나이  도시    급여
1  이영희  30  부산  3500
2  박민수  35  대구  4000
4  정다은  32  광주  3800



In [9]:
df_copy = df.copy()

# 4-1. 새로운 컬럼 추가
df_copy["부서"] = ["개발", "마케팅", "영업", "개발", "인사"]
print("부서 컬럼 추가:")
print(df_copy)
print()

# 4-2. 기존 컬럼 값 수정
df_copy["급여"] = df_copy["급여"] * 1.1  # 급여 10% 인상
print("급여 10% 인상 후:")
print(df_copy[["이름", "급여"]])
print()

# 4-3. 새로운 행 추가
new_person = {
    "이름": "홍길동",
    "나이": 27,
    "도시": "인천",
    "급여": 3300,
    "부서": "디자인",
}
df_copy = pd.concat([df_copy, pd.DataFrame([new_person])], ignore_index=True)
print("새로운 사람 추가:")
print(df_copy.tail(2))
print()

부서 컬럼 추가:
    이름  나이  도시    급여   부서
0  김철수  25  서울  3000   개발
1  이영희  30  부산  3500  마케팅
2  박민수  35  대구  4000   영업
3  최수진  28  서울  3200   개발
4  정다은  32  광주  3800   인사

급여 10% 인상 후:
    이름      급여
0  김철수  3300.0
1  이영희  3850.0
2  박민수  4400.0
3  최수진  3520.0
4  정다은  4180.0

새로운 사람 추가:
    이름  나이  도시      급여   부서
4  정다은  32  광주  4180.0   인사
5  홍길동  27  인천  3300.0  디자인



In [13]:
print("6. 그룹화와 집계")
print("-" * 30)

print("도시별 평균 나이:")
print(df.groupby("도시")["나이"].mean())
print()

print("도시별 통계:")
df.groupby("도시").agg({"나이": "mean", "급여": ["mean", "max", "min"]})

6. 그룹화와 집계
------------------------------
도시별 평균 나이:
도시
광주    32.0
대구    35.0
부산    30.0
서울    26.5
Name: 나이, dtype: float64

도시별 통계:


Unnamed: 0_level_0,나이,급여,급여,급여
Unnamed: 0_level_1,mean,mean,max,min
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
광주,32.0,3800.0,3800,3800
대구,35.0,4000.0,4000,4000
부산,30.0,3500.0,3500,3500
서울,26.5,3100.0,3200,3000
