In [8]:
import pandas as pd
a = pd.array([1,2,3,4,5])
a

<IntegerArray>
[1, 2, 3, 4, 5]
Length: 5, dtype: Int64

In [7]:
b = pd.Series([1,2,3,4,5])
b

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [9]:
c = pd.Series([1,2,3,4,5], index=["가","나","다","라","마"])
print(c)

가    1
나    2
다    3
라    4
마    5
dtype: int64


In [10]:
data = {
    "국어" : [90, 80],
    "영어" : [85, 88],
    "수학" : [88, 95]
}

d = pd.DataFrame(data, index =["홍길동", "임꺽정"] )
print(d)

     국어  영어  수학
홍길동  90  85  88
임꺽정  80  88  95


In [None]:
# Series (시리즈)
# 1차원
team_name = pd.Series([ 
"서희창",
"박성화",
"심수진",
"이진헌",
"이광민",
"이은지"
])
team_name


# 📊 Pandas Core Function 활용법 정리 (BigData 수업용)

## 1. 데이터 생성 및 구조 확인
- `pd.Series()`, `pd.DataFrame()` : 데이터 생성
- `.shape` : 데이터 크기 (행, 열)
- `.info()` : 데이터 정보 요약
- `.describe()` : 기술통계량
- `.head()`, `.tail()` : 처음/끝 몇 행 확인
- `.dtypes` : 데이터 타입 확인

## 2. 데이터 선택 및 조회
- `.loc[]` : 라벨 기반 선택
- `.iloc[]` : 위치 기반 선택
- `[]` : 컬럼 선택
- `.query()` : 조건부 선택

## 3. 데이터 정렬 및 정리
- `.sort_values()` : 값 기준 정렬
- `.sort_index()` : 인덱스 기준 정렬
- `.drop()` : 행/열 삭제
- `.rename()` : 컬럼명 변경

## 4. 결측치 처리
- `.isnull()`, `.notnull()` : 결측치 확인
- `.dropna()` : 결측치 제거
- `.fillna()` : 결측치 채우기

## 5. 집계 및 통계
- `.sum()`, `.mean()`, `.count()` : 기본 통계
- `.min()`, `.max()` : 최소/최대값
- `.groupby()` : 그룹별 집계
- `.agg()` : 다중 집계 함수

## 6. 데이터 변환
- `.apply()` : 함수 적용
- `.map()` : 값 매핑
- `.replace()` : 값 대체
- `.T` : 전치 (행↔열 바꾸기)

## 7. 파일 입출력
- `pd.read_csv()` : CSV 파일 읽기
- `.to_csv()` : CSV 파일 저장
- `pd.read_excel()` : Excel 파일 읽기

In [19]:
# BigData 수업에서 자주 사용하는 pandas 예시 코드

# 1. 샘플 데이터 생성
import pandas as pd

# DataFrame 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '최수진'],
    '나이': [25, 30, 35, 28],
    '점수': [85, 92, 78, 95],
    '지역': ['서울', '부산', '서울', '대구']
}
df = pd.DataFrame(data)
print("=== 원본 데이터 ===")
print(df)
print()

# 2. 기본 정보 확인
print("=== 데이터 정보 ===")
print(f"데이터 크기: {df.shape}")
print(f"컬럼 타입: {df.dtypes.to_dict()}")
print()

# 3. 기술통계량
print("=== 기술통계량 ===")
print(df.describe())
print()

# 4. 데이터 선택 및 조회
print("=== 데이터 선택 예시 ===")
print("점수 컬럼:", df['점수'].tolist())
print("첫 2행:", df.head(2))
print("점수 90 이상:", df[df['점수'] >= 90])
print()

# 5. 정렬
print("=== 정렬 예시 ===")
print("점수 기준 내림차순:")
print(df.sort_values('점수', ascending=False))
print()

# 6. 그룹별 집계
print("=== 그룹별 집계 ===")
print("지역별 평균 점수:")
print(df.groupby('지역')['점수'].mean())
print()

# 7. 집계 함수
print("=== 집계 함수 ===")
print(f"평균 점수: {df['점수'].mean():.2f}")
print(f"최고 점수: {df['점수'].max()}")
print(f"최저 점수: {df['점수'].min()}")
print(f"총 인원: {df['점수'].count()}")

=== 원본 데이터 ===
    이름  나이  점수  지역
0  김철수  25  85  서울
1  이영희  30  92  부산
2  박민수  35  78  서울
3  최수진  28  95  대구

=== 데이터 정보 ===
데이터 크기: (4, 4)
컬럼 타입: {'이름': dtype('O'), '나이': dtype('int64'), '점수': dtype('int64'), '지역': dtype('O')}

=== 기술통계량 ===
              나이         점수
count   4.000000   4.000000
mean   29.500000  87.500000
std     4.203173   7.593857
min    25.000000  78.000000
25%    27.250000  83.250000
50%    29.000000  88.500000
75%    31.250000  92.750000
max    35.000000  95.000000

=== 데이터 선택 예시 ===
점수 컬럼: [85, 92, 78, 95]
첫 2행:     이름  나이  점수  지역
0  김철수  25  85  서울
1  이영희  30  92  부산
점수 90 이상:     이름  나이  점수  지역
1  이영희  30  92  부산
3  최수진  28  95  대구

=== 정렬 예시 ===
점수 기준 내림차순:
    이름  나이  점수  지역
3  최수진  28  95  대구
1  이영희  30  92  부산
0  김철수  25  85  서울
2  박민수  35  78  서울

=== 그룹별 집계 ===
지역별 평균 점수:
지역
대구    95.0
부산    92.0
서울    81.5
Name: 점수, dtype: float64

=== 집계 함수 ===
평균 점수: 87.50
최고 점수: 95
최저 점수: 78
총 인원: 4


In [16]:
# 결측치 처리 및 데이터 변환 예시

# 결측치가 포함된 데이터 생성
import numpy as np

missing_data = {
    '이름': ['홍길동', '김영수', '박철수', '이민정'],
    '점수1': [85, np.nan, 90, 78],
    '점수2': [92, 88, np.nan, 85],
    '등급': ['A', 'B', 'A', 'C']
}
df_missing = pd.DataFrame(missing_data)
print("=== 결측치 포함 데이터 ===")
print(df_missing)
print()

# 결측치 확인
print("=== 결측치 확인 ===")
print("결측치 개수:")
print(df_missing.isnull().sum())
print()

# 결측치 처리
print("=== 결측치 처리 ===")
# 1) 결측치 제거
df_dropped = df_missing.dropna()
print("결측치 제거 후:")
print(df_dropped)
print()

# 2) 결측치 평균으로 채우기 (숫자형 컬럼만 평균값으로 채우기)
df_filled = df_missing.copy()
for col in ['점수1', '점수2']:
    df_filled[col] = df_filled[col].fillna(df_filled[col].mean())
print("결측치 평균으로 채운 후:")
print(df_filled)
print()

# 데이터 변환 예시
print("=== 데이터 변환 ===")
# apply 함수 사용
df_filled['점수_평균'] = df_filled[['점수1', '점수2']].apply(lambda x: x.mean(), axis=1)
print("점수 평균 추가:")
print(df_filled)
print()

# map 함수 사용 (등급을 숫자로 변환)
grade_map = {'A': 90, 'B': 80, 'C': 70}
df_filled['등급_점수'] = df_filled['등급'].map(grade_map)
print("등급을 점수로 변환:")
print(df_filled)
print()

# 전치 (행과 열 바꾸기)
print("=== 전치 (.T) ===")
print("전치 전:")
print(df_filled[['점수1', '점수2']].head(3))
print("\n전치 후:")
print(df_filled[['점수1', '점수2']].head(3).T)

=== 결측치 포함 데이터 ===
    이름   점수1   점수2 등급
0  홍길동  85.0  92.0  A
1  김영수   NaN  88.0  B
2  박철수  90.0   NaN  A
3  이민정  78.0  85.0  C

=== 결측치 확인 ===
결측치 개수:
이름     0
점수1    1
점수2    1
등급     0
dtype: int64

=== 결측치 처리 ===
결측치 제거 후:
    이름   점수1   점수2 등급
0  홍길동  85.0  92.0  A
3  이민정  78.0  85.0  C

결측치 평균으로 채운 후:
    이름        점수1        점수2 등급
0  홍길동  85.000000  92.000000  A
1  김영수  84.333333  88.000000  B
2  박철수  90.000000  88.333333  A
3  이민정  78.000000  85.000000  C

=== 데이터 변환 ===
점수 평균 추가:
    이름        점수1        점수2 등급      점수_평균
0  홍길동  85.000000  92.000000  A  88.500000
1  김영수  84.333333  88.000000  B  86.166667
2  박철수  90.000000  88.333333  A  89.166667
3  이민정  78.000000  85.000000  C  81.500000

등급을 점수로 변환:
    이름        점수1        점수2 등급      점수_평균  등급_점수
0  홍길동  85.000000  92.000000  A  88.500000     90
1  김영수  84.333333  88.000000  B  86.166667     80
2  박철수  90.000000  88.333333  A  89.166667     90
3  이민정  78.000000  85.000000  C  81.500000     70

=== 전치 (.T) ===
전치 전:
   

In [17]:
# 파일 입출력 예시 (BigData 수업에서 중요!)

# 1. CSV 파일로 저장
print("=== CSV 파일 저장 ===")
# 앞서 만든 데이터를 CSV로 저장
df_filled.to_csv('sample_data.csv', index=False, encoding='utf-8')
print("sample_data.csv 파일로 저장 완료")
print()

# 2. CSV 파일 읽기
print("=== CSV 파일 읽기 ===")
# df_loaded = pd.read_csv('sample_data.csv', encoding='utf-8')
# print("저장된 파일 읽기:")
# print(df_loaded.head())
print("파일 읽기 예시: pd.read_csv('파일명.csv')")
print()

# 3. 자주 사용하는 파일 읽기 옵션들
print("=== 자주 사용하는 파일 읽기 옵션 ===")
print("""
# 기본 사용법
df = pd.read_csv('파일명.csv')

# 인코딩 지정 (한글 파일)
df = pd.read_csv('파일명.csv', encoding='utf-8')

# 특정 컬럼만 읽기
df = pd.read_csv('파일명.csv', usecols=['컬럼1', '컬럼2'])

# 첫 번째 행을 헤더로 사용하지 않을 때
df = pd.read_csv('파일명.csv', header=None)

# 구분자 지정 (탭으로 구분된 파일)
df = pd.read_csv('파일명.txt', sep='\t')

# 특정 행 개수만 읽기
df = pd.read_csv('파일명.csv', nrows=1000)
""")

=== CSV 파일 저장 ===
sample_data.csv 파일로 저장 완료

=== CSV 파일 읽기 ===
파일 읽기 예시: pd.read_csv('파일명.csv')

=== 자주 사용하는 파일 읽기 옵션 ===

# 기본 사용법
df = pd.read_csv('파일명.csv')

# 인코딩 지정 (한글 파일)
df = pd.read_csv('파일명.csv', encoding='utf-8')

# 특정 컬럼만 읽기
df = pd.read_csv('파일명.csv', usecols=['컬럼1', '컬럼2'])

# 첫 번째 행을 헤더로 사용하지 않을 때
df = pd.read_csv('파일명.csv', header=None)

# 구분자 지정 (탭으로 구분된 파일)
df = pd.read_csv('파일명.txt', sep='	')

# 특정 행 개수만 읽기
df = pd.read_csv('파일명.csv', nrows=1000)



In [18]:
# BigData 수업 핵심: 그룹별 집계 및 고급 활용

# 더 복잡한 샘플 데이터 생성
big_data = {
    '지역': ['서울', '부산', '서울', '대구', '부산', '서울', '대구', '부산'],
    '연도': [2022, 2022, 2023, 2022, 2023, 2023, 2023, 2022],
    '매출': [1000, 800, 1200, 600, 900, 1100, 700, 850],
    '고객수': [50, 40, 60, 30, 45, 55, 35, 42],
    '카테고리': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B']
}
df_big = pd.DataFrame(big_data)
print("=== BigData 샘플 데이터 ===")
print(df_big)
print()

# 1. 단일 그룹별 집계
print("=== 단일 그룹별 집계 ===")
print("지역별 평균 매출:")
print(df_big.groupby('지역')['매출'].mean())
print()

# 2. 다중 그룹별 집계
print("=== 다중 그룹별 집계 ===")
print("지역별, 연도별 매출 합계:")
print(df_big.groupby(['지역', '연도'])['매출'].sum())
print()

# 3. 다양한 집계 함수 동시 적용
print("=== 다양한 집계 함수 동시 적용 ===")
result = df_big.groupby('지역')['매출'].agg(['sum', 'mean', 'count', 'min', 'max'])
print(result)
print()

# 4. 여러 컬럼에 대한 집계
print("=== 여러 컬럼에 대한 집계 ===")
multi_agg = df_big.groupby('지역').agg({
    '매출': ['sum', 'mean'],
    '고객수': ['sum', 'mean']
})
print(multi_agg)
print()

# 5. 조건부 필터링 + 집계
print("=== 조건부 필터링 + 집계 ===")
print("매출 800 이상인 데이터만 지역별 집계:")
filtered_result = df_big[df_big['매출'] >= 800].groupby('지역')['매출'].mean()
print(filtered_result)
print()

# 6. 피벗 테이블 (BigData 분석에서 자주 사용)
print("=== 피벗 테이블 ===")
pivot_result = df_big.pivot_table(
    values='매출', 
    index='지역', 
    columns='연도', 
    aggfunc='sum', 
    fill_value=0
)
print(pivot_result)
print()

# 7. 데이터 요약 및 인사이트
print("=== 데이터 요약 및 인사이트 ===")
print(f"총 매출: {df_big['매출'].sum():,}원")
print(f"평균 매출: {df_big['매출'].mean():.2f}원")
print(f"최고 매출 지역: {df_big.loc[df_big['매출'].idxmax(), '지역']}")
print(f"가장 많은 데이터가 있는 지역: {df_big['지역'].value_counts().index[0]}")
print()

# 8. 연도별 성장률 계산 (고급 활용)
print("=== 연도별 성장률 계산 ===")
yearly_sales = df_big.groupby('연도')['매출'].sum()
print("연도별 총 매출:")
print(yearly_sales)
if len(yearly_sales) > 1:
    growth_rate = ((yearly_sales[2023] - yearly_sales[2022]) / yearly_sales[2022]) * 100
    print(f"2022년 대비 2023년 성장률: {growth_rate:.2f}%")

=== BigData 샘플 데이터 ===
   지역    연도    매출  고객수 카테고리
0  서울  2022  1000   50    A
1  부산  2022   800   40    B
2  서울  2023  1200   60    A
3  대구  2022   600   30    C
4  부산  2023   900   45    B
5  서울  2023  1100   55    A
6  대구  2023   700   35    C
7  부산  2022   850   42    B

=== 단일 그룹별 집계 ===
지역별 평균 매출:
지역
대구     650.0
부산     850.0
서울    1100.0
Name: 매출, dtype: float64

=== 다중 그룹별 집계 ===
지역별, 연도별 매출 합계:
지역  연도  
대구  2022     600
    2023     700
부산  2022    1650
    2023     900
서울  2022    1000
    2023    2300
Name: 매출, dtype: int64

=== 다양한 집계 함수 동시 적용 ===
     sum    mean  count   min   max
지역                                 
대구  1300   650.0      2   600   700
부산  2550   850.0      3   800   900
서울  3300  1100.0      3  1000  1200

=== 여러 컬럼에 대한 집계 ===
      매출          고객수           
     sum    mean  sum       mean
지역                              
대구  1300   650.0   65  32.500000
부산  2550   850.0  127  42.333333
서울  3300  1100.0  165  55.000000

=== 조건부 필터링 + 집계 ===
매출 800 이상인 데

# 🎯 BigData 수업 - Pandas 핵심 요약 및 체크리스트

## ✅ 반드시 암기해야 할 핵심 함수들

### 1. 데이터 확인 (필수 3종 세트)
```python
df.shape      # 데이터 크기
df.info()     # 전체 정보
df.describe() # 기술통계량
```

### 2. 데이터 선택 (위치 vs 라벨)
```python
df.iloc[0:3]     # 위치 기반 (0,1,2번째 행)
df.loc['A':'C']  # 라벨 기반 (A~C 인덱스)
```

### 3. 그룹별 집계 (BigData 핵심!)
```python
df.groupby('컬럼').agg(['sum', 'mean', 'count'])
```

### 4. 결측치 처리 (실무 필수)
```python
df.isnull().sum()  # 결측치 개수 확인
df.dropna()        # 결측치 제거
df.fillna(값)      # 결측치 채우기
```

### 5. 파일 입출력 (데이터 로드/저장)
```python
pd.read_csv('파일.csv')    # 읽기
df.to_csv('파일.csv')      # 저장
```

## 🔥 BigData 분석 시 자주 사용하는 패턴

### 패턴 1: 데이터 로드 → 확인 → 정리
```python
# 1단계: 데이터 로드
df = pd.read_csv('data.csv')

# 2단계: 기본 확인
print(df.shape)
print(df.info())

# 3단계: 결측치 처리
df = df.dropna()
```

### 패턴 2: 그룹별 분석 → 인사이트 도출
```python
# 그룹별 집계
result = df.groupby('그룹컬럼')['수치컬럼'].agg(['sum', 'mean'])

# 최고/최저 찾기
max_group = result['sum'].idxmax()
print(f"최고 매출 그룹: {max_group}")
```

### 패턴 3: 조건부 필터링 → 세부 분석
```python
# 조건 만족 데이터만 선택
filtered_df = df[df['점수'] >= 80]

# 해당 데이터의 통계
print(filtered_df.describe())
```

## 📝 실습 시 주의사항
1. **인덱스 vs 컬럼**: `.loc[]`와 `.iloc[]` 구분하기
2. **결측치 확인**: 분석 전 반드시 `df.isnull().sum()` 체크
3. **그룹별 집계**: BigData의 핵심! 다양한 집계 함수 조합 연습
4. **메모리 관리**: 큰 데이터는 `nrows` 옵션으로 일부만 로드해서 테스트

## 🚀 다음 단계 학습 목표
- 시각화 (matplotlib, seaborn)
- 데이터 병합 (merge, join)
- 시계열 데이터 분석
- 고급 집계 및 변환