In [2]:
! pip install numpy
! pip install pandas



In [3]:
import numpy as np
import pandas as pd

In [44]:
# Pandas Series는 인덱스된 데이터의 1차원 배열
# 목록이나 배열에서 생성
# 인덱스는 기본 정수형

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [41]:
# NumPy 배열과 마찬가지로, 인덱스를 통해 데이터 접근 가능

data[1]

0.5

In [40]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [45]:
# 명시적 인덱스 정의 가능
# 문자열 인덱스 사용 가능

data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['b']

0.5

In [9]:
# 비연속적이거나 비순차적인 인덱스 사용 가능

data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

In [54]:
# Series로 변환 -> key는 인덱스, value는 값으로 구성된 1차원 데이터 구조 생성

population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [59]:
# 인덱스 접근

population['California']

38332521

In [58]:
# 슬라이싱

population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

In [60]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [61]:
# 2차원 표 생성 (행 열 구성)

states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [62]:
states.index # 행 출력

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [63]:
states.columns # 열 출력

Index(['population', 'area'], dtype='object')

In [85]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [86]:
# 데이터 인덱싱 시 명시적 인덱스 참조
data[1]

'a'

In [87]:
# 데이터 슬라이싱 시 암묵적 인덱스 참조 -> 혼란 야기
data[1:3]

3    b
5    c
dtype: object

In [88]:
# 항상 명시적 인덱스 참조 하도록하는 기능
data.loc[1]

'a'

In [89]:
data.loc[1:3]

1    a
3    b
dtype: object

In [91]:
# 항상 암묵적 인덱스 참조 하도록하는 기능
data.iloc [1]

'b'

In [90]:
data.iloc [1:3]

3    b
5    c
dtype: object

In [92]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [108]:
# 명시적 인덱스 참조
states.loc['California', 'area']

423967

In [111]:
# 암묵적 인덱스 참조
states.iloc[0, 1]

423967

In [113]:
# Ufuncs 기본 예시

data = pd.Series([1, 2, 3, 4])

np.sqrt(data)   # 제곱근
np.exp(data)    # 지수함수
np.log(data)    # 로그함수
np.sin(data)    # 사인함수

0    0.841471
1    0.909297
2    0.141120
3   -0.756802
dtype: float64

In [126]:
# Ufuncs - DataFrame 적용 예시

df = pd.DataFrame({
    'A': [1, 4, 9],
    'B': [16, 25, 36]
})

print(df)

np.sqrt(df) # 제곱근

   A   B
0  1  16
1  4  25
2  9  36


Unnamed: 0,A,B
0,1.0,4.0
1,2.0,5.0
2,3.0,6.0


In [127]:
np.add(df,1) # 모든 원소에 1더하기

Unnamed: 0,A,B
0,2,17
1,5,26
2,10,37


In [131]:
# 누락 데이터

df = pd.DataFrame({
    '이름': ['철수', '영희', '민수', '수진'],
    '점수': [90, np.nan, 80, np.nan],
    '나이': [24, 22, np.nan, 21]
})

print(df)

   이름    점수    나이
0  철수  90.0  24.0
1  영희   NaN  22.0
2  민수  80.0   NaN
3  수진   NaN  21.0


In [132]:
df.isnull() # 누락 값 확인 (누락 = True)

Unnamed: 0,이름,점수,나이
0,False,False,False
1,False,True,False
2,False,False,True
3,False,True,False


In [133]:
df.isna() # 누락 값 확인 (누락 = True)

Unnamed: 0,이름,점수,나이
0,False,False,False
1,False,True,False
2,False,False,True
3,False,True,False


In [136]:
df.dropna() # 누락 값이 포함된 행열 삭제

Unnamed: 0,이름,점수,나이
0,철수,90.0,24.0


In [138]:
df.fillna(0) # 0으로 채우기

Unnamed: 0,이름,점수,나이
0,철수,90.0,24.0
1,영희,0.0,22.0
2,민수,80.0,0.0
3,수진,0.0,21.0


In [142]:
df.interpolate() # 결측치(NaN) 를 앞뒤 값의 평균 값으로 채우기

  df.interpolate() # 인접한 값 기반으로 보간


Unnamed: 0,이름,점수,나이
0,철수,90.0,24.0
1,영희,85.0,22.0
2,민수,80.0,21.5
3,수진,80.0,21.0


In [145]:
# 계층적 인덱싱 (2단계(level 2) 구조)

data = pd.Series(
    np.random.randn(6),
    index=[['서울', '서울', '부산', '부산', '대구', '대구'],
           ['2023', '2024', '2023', '2024', '2023', '2024']]
)
print(data)

서울  2023    1.882989
    2024    1.165807
부산  2023   -0.018980
    2024    0.920080
대구  2023    1.848282
    2024   -0.271056
dtype: float64


In [147]:
data['서울']          # 첫 번째 수준(도시) 선택

2023    1.882989
2024    1.165807
dtype: float64

In [148]:
data['부산', '2024']  # 두 수준 모두 지정

0.9200804475520139

In [155]:
# 인덱스 변환 함수 unstack()  ->  행 x 열 구조로 자동 변환

df = data.unstack()
print(df)

        2023      2024
대구  1.848282 -0.271056
부산 -0.018980  0.920080
서울  1.882989  1.165807


In [165]:
# Pandas 데이터 세트 결합 Concat 행 방향 결합 

df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})

print(df1)
print(df2)

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3


In [170]:
result = pd.concat([df1, df2], axis=0)

print(result)

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [166]:
# 인덱스가 겹치므로 (ignore_index=True)로 새 인덱스 생성 가능
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [167]:
df3 = pd.DataFrame({'C': ['C0', 'C1']})

print(df3)

    C
0  C0
1  C1


In [168]:
pd.concat([df1, df3], axis=1) # 열 방향 결합

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1


In [172]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['A', 'B', 'C', 'D']
})

df1

Unnamed: 0,ID,Name
0,1,A
1,2,B
2,3,C
3,4,D


In [173]:
df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Score': [85, 90, 95, 100]
})

df2

Unnamed: 0,ID,Score
0,3,85
1,4,90
2,5,95
3,6,100


In [177]:
# Pandas 데이터 세트 결합 Merge (키 기반 결합)

result = pd.merge(df1, df2, on='ID', how='inner') # on='ID' 기준으로 공통된 ID만 결합 (inner join) 
result

Unnamed: 0,ID,Name,Score
0,3,C,85
1,4,D,90


In [185]:
pd.merge(df1, df2, on='ID', how='outer')  # 양쪽의 모든 키 포함 (합집합)

Unnamed: 0,ID,Name,Score
0,1,A,
1,2,B,
2,3,C,85.0
3,4,D,90.0
4,5,,95.0
5,6,,100.0


In [186]:
pd.merge(df1, df2, on='ID', how='left')   # 왼쪽 DataFrame 모든 행 유지

Unnamed: 0,ID,Name,Score
0,1,A,
1,2,B,
2,3,C,85.0
3,4,D,90.0


In [187]:
pd.merge(df1, df2, on='ID', how='right')  #  오른쪽 DataFrame 모든 행 유지

Unnamed: 0,ID,Name,Score
0,3,C,85
1,4,D,90
2,5,,95
3,6,,100


In [193]:
df3 = pd.DataFrame({
    'Student_ID': [1, 2, 3, 4],
    'Grade': ['A', 'B', 'A', 'C']
})
df3

Unnamed: 0,Student_ID,Grade
0,1,A
1,2,B
2,3,A
3,4,C


In [195]:
# 키 컬럼명이 다를 때 병합

pd.merge(df1, df3, left_on='ID', right_on='Student_ID', how='inner')

Unnamed: 0,ID,Name,Student_ID,Grade
0,1,A,1,A
1,2,B,2,B
2,3,C,3,A
3,4,D,4,C


In [201]:
# 접미사 (suffixes) 지정 기능

df_a = pd.DataFrame({'ID':[1,2], 'Score':[90,95]})
df_b = pd.DataFrame({'ID':[1,2], 'Score':[80,85]})

pd.merge(df_a, df_b, on='ID', suffixes=('_first', '_second')) # 접미사 기능

Unnamed: 0,ID,Score_first,Score_second
0,1,90,80
1,2,95,85


In [202]:
# 인덱스 기준 결합 - join

df1 = pd.DataFrame({'A':[1,2,3]}, index=['a','b','c'])
df2 = pd.DataFrame({'B':[4,5,6]}, index=['a','b','d'])

df1.join(df2, how='outer') # outer -> 합집합 결합

Unnamed: 0,A,B
a,1.0,4.0
b,2.0,5.0
c,3.0,
d,,6.0


In [206]:
# 컬럼 기준으로 join

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 'A':[1,2,3]})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K3'], 'B':[4,5,6]})

df1.set_index('key').join(df2.set_index('key'), how='inner') # index 'key' 기준 공통만 결합 (교집합)

Unnamed: 0_level_0,A,B
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,1,4
K1,2,5


In [7]:
# pandas 집계 및 그룹화 (Aggregation & Grouping)
# 집계 함수
s = pd.Series([10, 20, 30, 40])

print(s.sum())      # 합계
print(s.mean())     # 평균
print(s.max())      # 최대값
print(s.min())      # 최소값
print(s.median())    # 중앙값
print(s.count())    # 개수
print(s.std())      # 표준편차
print(s.var())      # 분산

100
25.0
40
10
25.0
4
12.909944487358056
166.66666666666666


In [14]:
# pandas 집계 및 그룹화 (Aggregation & Grouping)
# 단일 컬럼 기준 그룹화

data = {'팀': ['A','A','B','B','C','C'],
        '이름': ['철수','영희','민수','지훈','수진','민아'],
        '점수': [90, 80, 70, 85, 95, 100]}

df = pd.DataFrame(data)

df.groupby('팀')['점수'].mean() # 팀별 그룹화, 점수 평균값 집계

팀
A    85.0
B    77.5
C    97.5
Name: 점수, dtype: float64

In [15]:
# 여러 컬럼 기준 그룹화

df2 = pd.DataFrame({
    '학년': [1,1,1,2,2,2],
    '반': [1,1,2,1,2,2],
    '점수': [85, 90, 80, 95, 88, 92]
})

df2.groupby(['학년', '반'])['점수'].mean() # 학년-반별 다중 그룹화, 점수 평균값 집계 

학년  반
1   1    87.5
    2    80.0
2   1    95.0
    2    90.0
Name: 점수, dtype: float64

In [16]:
# 여러 컬럼에 대한 다양한 집계

df.groupby('팀').agg({'점수': ['mean', 'max', 'min']}) # .agg() 여러 통계함수를 한 번에 적용

Unnamed: 0_level_0,점수,점수,점수
Unnamed: 0_level_1,mean,max,min
팀,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,85.0,90,80
B,77.5,85,70
C,97.5,100,95


In [17]:
# 사용자 정의 함수 적용 가능

def score_range(x):
    return x.max() - x.min()

df.groupby('팀')['점수'].apply(score_range) # .apply() 사용자 정의 함수 적용 가능

팀
A    10
B    15
C     5
Name: 점수, dtype: int64

In [18]:
# 다중 그룹화 & 다중 집계 예제

df3 = pd.DataFrame({
    '지역': ['서울','서울','부산','부산','부산'],
    '학년': [1,2,1,2,2],
    '점수': [90,85,80,70,75],
    '출석': [10,9,8,7,8]
})

df3.groupby(['지역','학년']).agg({'점수':'mean', '출석':'sum'})

Unnamed: 0_level_0,Unnamed: 1_level_0,점수,출석
지역,학년,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,1,80.0,8
부산,2,72.5,15
서울,1,90.0,10
서울,2,85.0,9


In [24]:
# Pandas 피벗 테이블 (Pivot Tables)

df = pd.DataFrame({
    '지역': ['서울', '서울', '부산', '부산', '대구', '대구'],
    '직급': ['대리', '과장', '대리', '과장', '대리', '과장'],
    '매출': [350, 420, 300, 500, 250, 450]
})

pd.pivot_table(df,                 # 각 지역(행)과 직급(열)별로 평균 매출 계산.
               values='매출',       # 집계할 대상 컬럼
               index='지역',        # 행 인덱스로 사용할 컬럼
               columns='직급',      # 열로 사용할 컬럼
               aggfunc='mean',     # 집계 함수 (평균)
               fill_value=0)       # 결측값 존재 시 0으로 채움.

직급,과장,대리
지역,Unnamed: 1_level_1,Unnamed: 2_level_1
대구,450.0,250.0
부산,500.0,300.0
서울,420.0,350.0


In [21]:
pd.pivot_table(df,
               values='매출',
               index='지역',
               columns='직급',
               aggfunc=['mean', 'sum', 'count', 'max', 'min'])  # 여러 집계 함수 동시 적용 가능.

Unnamed: 0_level_0,mean,mean,sum,sum,count,count,max,max,min,min
직급,과장,대리,과장,대리,과장,대리,과장,대리,과장,대리
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
대구,450.0,250.0,450,250,1,1,450,250,450,250
부산,500.0,300.0,500,300,1,1,500,300,500,300
서울,420.0,350.0,420,350,1,1,420,350,420,350


In [25]:
# Pandas 벡터화된 문자열 연산 - 기본 문자열 변환

data = pd.Series(['Apple', 'banana', 'Cherry', 'daTe'])

print(data.str.lower())  # 모두 소문자로 변환
print(data.str.upper())  # 모두 대문자로 변환
print(data.str.len())    # 문자열 길이 계산

0     apple
1    banana
2    cherry
3      date
dtype: object
0     APPLE
1    BANANA
2    CHERRY
3      DATE
dtype: object
0    5
1    6
2    6
3    4
dtype: int64


In [35]:
# Pandas 벡터화된 문자열 연산 - 문자열 패턴 검색 및 대체

s = pd.Series(['apple pie', 'banana cake', 'cherry tart'])

print(s.str.contains('apple'))   # 'apple' 패턴 검색 (True/False) 
print(s.str.replace('cake', 'bread'))  # 'cake'를 'bread'로 대체

0     True
1    False
2    False
dtype: bool
0       apple pie
1    banana bread
2     cherry tart
dtype: object


In [38]:
# Pandas 벡터화된 문자열 연산 - 문자열 분리 및 결합

names = pd.Series(['김철수,남,25', '이영희,여,23', '박민수,남,28'])  #  , 를 구분자로 문자열 분리
df = names.str.split(',', expand=True)                            # expand=True 옵션을 사용하면 문자열을 여러 컬럼으로 분리
df.columns = ['이름', '성별', '나이']    
df

Unnamed: 0,이름,성별,나이
0,김철수,남,25
1,이영희,여,23
2,박민수,남,28
