## Pandas

- 파이썬에서 사용하는 데이터 분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리
numpy는 배열! pandas는 엑셀!
- https://pandas.pydata.org/docs/


## Series

In [1]:
# Series 하나의 열에 대하여 처리
import pandas as pd
obj = pd.Series([2,4,6,8,10])
print(obj)

0     2
1     4
2     6
3     8
4    10
dtype: int64


In [2]:
print(obj.values)
print(type(obj.values))

print(obj.index)
print(type(obj.index))

print(obj.dtype)
print(type(obj.dtype))

[ 2  4  6  8 10]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
int64
<class 'numpy.dtypes.Int64DType'>


In [3]:
obj = pd.Series([1,3,5,7,9], index = ["a", "b", "c", "d", "e"])
print(obj)

a    1
b    3
c    5
d    7
e    9
dtype: int64


In [4]:
# json 구조에서 키값이 index가 되는 형태
dic_data ={
    "x ":100,
    "y" : 200,
    "z":300
    
}
obj = pd.Series(dic_data)
print(obj)

x     100
y     200
z     300
dtype: int64


In [5]:
# 이미 선언된 index를 변경
obj.index = ["Q", "W", "E"]
print(obj)

Q    100
W    200
E    300
dtype: int64


In [6]:
# 이름 지어주기
obj.index.name = "idx"
obj.name = "my_data"
print(obj)

idx
Q    100
W    200
E    300
Name: my_data, dtype: int64


### Data Frame

In [7]:
# 행렬, Table 모양으로 데이터 처리
# 엑셀과 비슷
data = {
    "name" : ["A","B", "C", "D"],
    "age" : [20,21,22,23],
    "blood": ["B", "B", "A", "O"]
    
    
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,blood
0,A,20,B
1,B,21,B
2,C,22,A
3,D,23,O


In [8]:
print(df.index)
print(df.columns)
print(df.values)
print(type(df.values))

RangeIndex(start=0, stop=4, step=1)
Index(['name', 'age', 'blood'], dtype='object')
[['A' 20 'B']
 ['B' 21 'B']
 ['C' 22 'A']
 ['D' 23 'O']]
<class 'numpy.ndarray'>


In [9]:
df.index.name = "No."
df.columns.name = "Info"
df

Info,name,age,blood
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,A,20,B
1,B,21,B
2,C,22,A
3,D,23,O


In [10]:
# 새로운 columns을 추가하고 값을 주지 않으면 NaN이라고 출려됨. 의미는 "없다"
df = pd.DataFrame(data, columns=["name","age", "blood","MBTI"], index=[1,2,3,4])
df

Unnamed: 0,name,age,blood,MBTI
1,A,20,B,
2,B,21,B,
3,C,22,A,
4,D,23,O,


In [11]:
# 중요!
# 해당 데이터에 대해 설명해줘라 : 숫자만 분석가능!
print(df.describe())

             age
count   4.000000
mean   21.500000
std     1.290994
min    20.000000
25%    20.750000
50%    21.500000
75%    22.250000
max    23.000000


In [12]:
# 저장된 데이터 출력하기
print(df["name"])
print(df.name)

1    A
2    B
3    C
4    D
Name: name, dtype: object
1    A
2    B
3    C
4    D
Name: name, dtype: object


In [13]:
# 2개 이상의 column 조회 가능
print(df[["name","MBTI"]])
# print(df[["name"],["MBTI"]]) 이 형태는 오류가 난다...!

  name MBTI
1    A  NaN
2    B  NaN
3    C  NaN
4    D  NaN


In [14]:
df["point"] = 0
df

Unnamed: 0,name,age,blood,MBTI,point
1,A,20,B,,0
2,B,21,B,,0
3,C,22,A,,0
4,D,23,O,,0


In [15]:
df ["point"] = [100,200,300,0]
df

Unnamed: 0,name,age,blood,MBTI,point
1,A,20,B,,100
2,B,21,B,,200
3,C,22,A,,300
4,D,23,O,,0


In [16]:
import numpy as np

df["np_idx"] = np.arange(4)
df

Unnamed: 0,name,age,blood,MBTI,point,np_idx
1,A,20,B,,100,0
2,B,21,B,,200,1
3,C,22,A,,300,2
4,D,23,O,,0,3


In [17]:
# 중요!
# 특정 인덱스에 minus 값 입력하기

val = pd.Series([-1.2,-1.5,-1.7], index = [2,3,4])
df["minus"] = val
df

Unnamed: 0,name,age,blood,MBTI,point,np_idx,minus
1,A,20,B,,100,0,
2,B,21,B,,200,1,-1.2
3,C,22,A,,300,2,-1.5
4,D,23,O,,0,3,-1.7


In [18]:
df["np_idx"]= df["age"]
df

Unnamed: 0,name,age,blood,MBTI,point,np_idx,minus
1,A,20,B,,100,20,
2,B,21,B,,200,21,-1.2
3,C,22,A,,300,22,-1.5
4,D,23,O,,0,23,-1.7


In [19]:
df["bool_test"] = df["age"] % 2 == 0
df

Unnamed: 0,name,age,blood,MBTI,point,np_idx,minus,bool_test
1,A,20,B,,100,20,,True
2,B,21,B,,200,21,-1.2,False
3,C,22,A,,300,22,-1.5,True
4,D,23,O,,0,23,-1.7,False


In [20]:
df.index.name = "No."
df.columns.name = "Info"
df

Info,name,age,blood,MBTI,point,np_idx,minus,bool_test
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,A,20,B,,100,20,,True
2,B,21,B,,200,21,-1.2,False
3,C,22,A,,300,22,-1.5,True
4,D,23,O,,0,23,-1.7,False


In [21]:
print(df[0:2]) # 우와!

Info name  age blood MBTI  point  np_idx  minus  bool_test
No.                                                       
1       A   20     B  NaN    100      20    NaN       True
2       B   21     B  NaN    200      21   -1.2      False


In [22]:
df.index = ["ONE","TWO","THREE","FOUR"]
print(df)
print(df["TWO":"FOUR"])


Info  name  age blood MBTI  point  np_idx  minus  bool_test
ONE      A   20     B  NaN    100      20    NaN       True
TWO      B   21     B  NaN    200      21   -1.2      False
THREE    C   22     A  NaN    300      22   -1.5       True
FOUR     D   23     O  NaN      0      23   -1.7      False
Info  name  age blood MBTI  point  np_idx  minus  bool_test
TWO      B   21     B  NaN    200      21   -1.2      False
THREE    C   22     A  NaN    300      22   -1.5       True
FOUR     D   23     O  NaN      0      23   -1.7      False


In [23]:
# location ⭐️
print(df.loc["TWO"])
print("="*20)
print(df.loc[:,"name":"blood"])

Info
name             B
age             21
blood            B
MBTI           NaN
point          200
np_idx          21
minus         -1.2
bool_test    False
Name: TWO, dtype: object
Info  name  age blood
ONE      A   20     B
TWO      B   21     B
THREE    C   22     A
FOUR     D   23     O


In [24]:
print(df.loc["TWO": "THREE", "point"])
print("="*20)
print(df.loc[:, "name":"blood"])

TWO      200
THREE    300
Name: point, dtype: int64
Info  name  age blood
ONE      A   20     B
TWO      B   21     B
THREE    C   22     A
FOUR     D   23     O


In [25]:
# 칼럼 삭제
del df["np_idx"]
df

Info,name,age,blood,MBTI,point,minus,bool_test
ONE,A,20,B,,100,,True
TWO,B,21,B,,200,-1.2,False
THREE,C,22,A,,300,-1.5,True
FOUR,D,23,O,,0,-1.7,False


In [26]:
df.loc["FIVE",:] = ["E", 30, "AB", "ISTP", 0, 1, False]
df

Info,name,age,blood,MBTI,point,minus,bool_test
ONE,A,20.0,B,,100.0,,True
TWO,B,21.0,B,,200.0,-1.2,False
THREE,C,22.0,A,,300.0,-1.5,True
FOUR,D,23.0,O,,0.0,-1.7,False
FIVE,E,30.0,AB,ISTP,0.0,1.0,False


In [27]:
# iloc : index location
print(df.iloc[1])
print("="*20)
print(df.iloc[1:2])

Info
name             B
age           21.0
blood            B
MBTI           NaN
point        200.0
minus         -1.2
bool_test    False
Name: TWO, dtype: object
Info name   age blood MBTI  point  minus bool_test
TWO     B  21.0     B  NaN  200.0   -1.2     False


In [28]:
print(df.iloc[0:2, 0:2])
print(df.iloc[[0,1,3],
            [0,3]])
print(df.iloc[:,1:4])

Info name   age
ONE     A  20.0
TWO     B  21.0
Info name MBTI
ONE     A  NaN
TWO     B  NaN
FOUR    D  NaN
Info    age blood  MBTI
ONE    20.0     B   NaN
TWO    21.0     B   NaN
THREE  22.0     A   NaN
FOUR   23.0     O   NaN
FIVE   30.0    AB  ISTP


In [29]:
print(df["age"] < 22)

ONE       True
TWO       True
THREE    False
FOUR     False
FIVE     False
Name: age, dtype: bool


In [30]:
print(df.loc[df["age"] < 22,:])

Info name   age blood MBTI  point  minus bool_test
ONE     A  20.0     B  NaN  100.0    NaN      True
TWO     B  21.0     B  NaN  200.0   -1.2     False


In [31]:
print(df.loc[df["name"] == "A", ["name", "age"]])
print("="* 20)
print(df.loc[(df["name"] == "A") | (df["name"] == "B"), ["name","age"]])

Info name   age
ONE     A  20.0
Info name   age
ONE     A  20.0
TWO     B  21.0


In [32]:
df.loc[df["point"] == 0, "point"] = 10000
df

Info,name,age,blood,MBTI,point,minus,bool_test
ONE,A,20.0,B,,100.0,,True
TWO,B,21.0,B,,200.0,-1.2,False
THREE,C,22.0,A,,300.0,-1.5,True
FOUR,D,23.0,O,,10000.0,-1.7,False
FIVE,E,30.0,AB,ISTP,10000.0,1.0,False


### data

In [33]:
df = pd.DataFrame(np.random.randn(6,4))
df

Unnamed: 0,0,1,2,3
0,2.387512,0.264394,-0.725775,-2.121269
1,-0.162048,0.104131,-0.432022,0.503425
2,0.283931,-0.681664,0.251036,-0.082307
3,0.697448,1.578986,0.653882,-1.109506
4,-1.429837,-0.618607,-0.937198,-1.029311
5,-0.223996,-0.528043,0.105586,-0.907056


In [34]:
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20260101", periods=6)
print(df.index)
print("="*100)
print(df)

DatetimeIndex(['2026-01-01', '2026-01-02', '2026-01-03', '2026-01-04',
               '2026-01-05', '2026-01-06'],
              dtype='datetime64[ns]', freq='D')
                   A         B         C         D
2026-01-01  2.387512  0.264394 -0.725775 -2.121269
2026-01-02 -0.162048  0.104131 -0.432022  0.503425
2026-01-03  0.283931 -0.681664  0.251036 -0.082307
2026-01-04  0.697448  1.578986  0.653882 -1.109506
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056


In [35]:
# .nan 없다 표시 가능
df["F"] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df

Unnamed: 0,A,B,C,D,F
2026-01-01,2.387512,0.264394,-0.725775,-2.121269,1.0
2026-01-02,-0.162048,0.104131,-0.432022,0.503425,
2026-01-03,0.283931,-0.681664,0.251036,-0.082307,3.5
2026-01-04,0.697448,1.578986,0.653882,-1.109506,6.1
2026-01-05,-1.429837,-0.618607,-0.937198,-1.029311,
2026-01-06,-0.223996,-0.528043,0.105586,-0.907056,7.0


In [36]:
# dropna 빼기?
print(df.dropna(how="any")) # nan이 있는 데이터를 제거하고 볼때 사용 실제로 데이터가 지워지는게 아니고 빼고 잠깐 보는 용도로 사용
print("="*100)
print(df)

                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0
                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-02 -0.162048  0.104131 -0.432022  0.503425  NaN
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  NaN
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0


In [37]:
print(df.dropna(how="all")) # 모든 nan 제거 하고 보여줌.
print("="*100)
print(df)

                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-02 -0.162048  0.104131 -0.432022  0.503425  NaN
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  NaN
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0
                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-02 -0.162048  0.104131 -0.432022  0.503425  NaN
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  NaN
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0


In [38]:
# 비어 있는 칼럼은 특정 값으로 채우기
print(df.fillna(value=0.5))

                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-02 -0.162048  0.104131 -0.432022  0.503425  0.5
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  0.5
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0


In [39]:
print(df.isnull())

                A      B      C      D      F
2026-01-01  False  False  False  False  False
2026-01-02  False  False  False  False   True
2026-01-03  False  False  False  False  False
2026-01-04  False  False  False  False  False
2026-01-05  False  False  False  False   True
2026-01-06  False  False  False  False  False


In [40]:
print(df.loc[df.isnull()["F"],:])

                   A         B         C         D   F
2026-01-02 -0.162048  0.104131 -0.432022  0.503425 NaN
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311 NaN


In [41]:
pd.to_datetime("20260102")

Timestamp('2026-01-02 00:00:00')

In [42]:
print(df.drop(pd.to_datetime("20260102")))
print("=" * 100)
df.drop([pd.to_datetime("20260102"),pd.to_datetime("20260104")])

df

                   A         B         C         D    F
2026-01-01  2.387512  0.264394 -0.725775 -2.121269  1.0
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  NaN
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0


Unnamed: 0,A,B,C,D,F
2026-01-01,2.387512,0.264394,-0.725775,-2.121269,1.0
2026-01-02,-0.162048,0.104131,-0.432022,0.503425,
2026-01-03,0.283931,-0.681664,0.251036,-0.082307,3.5
2026-01-04,0.697448,1.578986,0.653882,-1.109506,6.1
2026-01-05,-1.429837,-0.618607,-0.937198,-1.029311,
2026-01-06,-0.223996,-0.528043,0.105586,-0.907056,7.0


In [43]:
print(df.drop("F", axis=1))
df


                   A         B         C         D
2026-01-01  2.387512  0.264394 -0.725775 -2.121269
2026-01-02 -0.162048  0.104131 -0.432022  0.503425
2026-01-03  0.283931 -0.681664  0.251036 -0.082307
2026-01-04  0.697448  1.578986  0.653882 -1.109506
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056


Unnamed: 0,A,B,C,D,F
2026-01-01,2.387512,0.264394,-0.725775,-2.121269,1.0
2026-01-02,-0.162048,0.104131,-0.432022,0.503425,
2026-01-03,0.283931,-0.681664,0.251036,-0.082307,3.5
2026-01-04,0.697448,1.578986,0.653882,-1.109506,6.1
2026-01-05,-1.429837,-0.618607,-0.937198,-1.029311,
2026-01-06,-0.223996,-0.528043,0.105586,-0.907056,7.0


In [44]:
print(df.drop("20260101",axis=0))

df


                   A         B         C         D    F
2026-01-02 -0.162048  0.104131 -0.432022  0.503425  NaN
2026-01-03  0.283931 -0.681664  0.251036 -0.082307  3.5
2026-01-04  0.697448  1.578986  0.653882 -1.109506  6.1
2026-01-05 -1.429837 -0.618607 -0.937198 -1.029311  NaN
2026-01-06 -0.223996 -0.528043  0.105586 -0.907056  7.0


Unnamed: 0,A,B,C,D,F
2026-01-01,2.387512,0.264394,-0.725775,-2.121269,1.0
2026-01-02,-0.162048,0.104131,-0.432022,0.503425,
2026-01-03,0.283931,-0.681664,0.251036,-0.082307,3.5
2026-01-04,0.697448,1.578986,0.653882,-1.109506,6.1
2026-01-05,-1.429837,-0.618607,-0.937198,-1.029311,
2026-01-06,-0.223996,-0.528043,0.105586,-0.907056,7.0


### 함수

In [45]:
data = [[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]]
df = pd.DataFrame(data, columns=['one', 'two'], index=['a', 'b', 'c', 'd'])
df


Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [46]:
print(df.head(2))

   one  two
a  1.4  NaN
b  7.1 -4.5


In [47]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     3 non-null      float64
 1   two     2 non-null      float64
dtypes: float64(2)
memory usage: 96.0+ bytes
None


In [48]:
print(df.sum(axis=0))
print(df.sum(axis=1))
print(df.sum(axis=0, skipna = False))

one    9.25
two   -5.80
dtype: float64
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64
one   NaN
two   NaN
dtype: float64


In [49]:
print(df['one'].sum())
print(df.loc['b'].sum())

9.25
2.5999999999999996


In [50]:
# count - 전체 성분의(NaN이 아닌)값의 갯수를 계산
# min // max - 전체 성본의 최소, 최댓값을 계산
# argmin // argmax - 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# idxmin // idxmax - 전체 인덱스 중 최솟값, 최댓값을 반환
# quantile - 전체 성분의 특정 사분위수에 해당하는 값을 반환
# sum - 전체 성분의 합을 계산
# mean - 전체 성분의 평균을 계산
# median - 전체 성분의 중간값을 반환
# mad - 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# std // var - 전체 성분의 표준편차, 분산을 계산
# cumsum - 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산(0에서부터 계속 더해짐)
# cumprod - 맨 첫 번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [51]:
df = pd.DataFrame(np.random.randn(6,4),
                  columns=["A","b","C","D"],
                  index = pd.date_range("20260101", periods=6))
print(df)
print("="* 100)
dates = df.index
random_dates = np.random.permutation(dates)
df = df.reindex(index=random_dates, columns=["D", "B", "C", "A"])
df

                   A         b         C         D
2026-01-01 -0.532737  1.642879  1.038776 -0.312262
2026-01-02  0.489548 -1.230083 -0.637648  1.235810
2026-01-03  0.667553 -0.952593  0.452151  0.824323
2026-01-04 -0.181297 -0.417828  1.574288 -0.242157
2026-01-05 -0.732028  0.827053  0.751536 -0.019352
2026-01-06 -0.271042  0.694073  0.468315 -0.742961


Unnamed: 0,D,B,C,A
2026-01-02,1.23581,,-0.637648,0.489548
2026-01-06,-0.742961,,0.468315,-0.271042
2026-01-03,0.824323,,0.452151,0.667553
2026-01-01,-0.312262,,1.038776,-0.532737
2026-01-05,-0.019352,,0.751536,-0.732028
2026-01-04,-0.242157,,1.574288,-0.181297


In [52]:
print(df.sort_index(axis=0))
print(df.sort_index(axis=0).sort_index(axis=1))

print(df.sort_index(axis=1))
print(df.sort_index(axis=1, ascending=False))

                   D   B         C         A
2026-01-01 -0.312262 NaN  1.038776 -0.532737
2026-01-02  1.235810 NaN -0.637648  0.489548
2026-01-03  0.824323 NaN  0.452151  0.667553
2026-01-04 -0.242157 NaN  1.574288 -0.181297
2026-01-05 -0.019352 NaN  0.751536 -0.732028
2026-01-06 -0.742961 NaN  0.468315 -0.271042
                   A   B         C         D
2026-01-01 -0.532737 NaN  1.038776 -0.312262
2026-01-02  0.489548 NaN -0.637648  1.235810
2026-01-03  0.667553 NaN  0.452151  0.824323
2026-01-04 -0.181297 NaN  1.574288 -0.242157
2026-01-05 -0.732028 NaN  0.751536 -0.019352
2026-01-06 -0.271042 NaN  0.468315 -0.742961
                   A   B         C         D
2026-01-02  0.489548 NaN -0.637648  1.235810
2026-01-06 -0.271042 NaN  0.468315 -0.742961
2026-01-03  0.667553 NaN  0.452151  0.824323
2026-01-01 -0.532737 NaN  1.038776 -0.312262
2026-01-05 -0.732028 NaN  0.751536 -0.019352
2026-01-04 -0.181297 NaN  1.574288 -0.242157
                   D         C   B         A
2026-01-02

In [53]:
print(df.sort_values(by='D'))

                   D   B         C         A
2026-01-06 -0.742961 NaN  0.468315 -0.271042
2026-01-01 -0.312262 NaN  1.038776 -0.532737
2026-01-04 -0.242157 NaN  1.574288 -0.181297
2026-01-05 -0.019352 NaN  0.751536 -0.732028
2026-01-03  0.824323 NaN  0.452151  0.667553
2026-01-02  1.235810 NaN -0.637648  0.489548


In [54]:
df["E"] = np.random.randint(0,6, size=6)
df["F"]= ["alpha", "beta", "gamma","gamma", "alpha", "gamma"]
print(df)
print(df.sort_values(by=['E','F']))


                   D   B         C         A  E      F
2026-01-02  1.235810 NaN -0.637648  0.489548  0  alpha
2026-01-06 -0.742961 NaN  0.468315 -0.271042  1   beta
2026-01-03  0.824323 NaN  0.452151  0.667553  4  gamma
2026-01-01 -0.312262 NaN  1.038776 -0.532737  0  gamma
2026-01-05 -0.019352 NaN  0.751536 -0.732028  3  alpha
2026-01-04 -0.242157 NaN  1.574288 -0.181297  0  gamma
                   D   B         C         A  E      F
2026-01-02  1.235810 NaN -0.637648  0.489548  0  alpha
2026-01-01 -0.312262 NaN  1.038776 -0.532737  0  gamma
2026-01-04 -0.242157 NaN  1.574288 -0.181297  0  gamma
2026-01-06 -0.742961 NaN  0.468315 -0.271042  1   beta
2026-01-05 -0.019352 NaN  0.751536 -0.732028  3  alpha
2026-01-03  0.824323 NaN  0.452151  0.667553  4  gamma


In [57]:
# unique() 함수 : 중복 없이 어떤 값이 있는지 나열
# value_counts() 함수 : 특정 값이 몇개 있는지 세줌.

print(df['F'].unique())
print('='*20)
print(df['F'].value_counts())

['alpha' 'beta' 'gamma']
F
gamma    3
alpha    2
beta     1
Name: count, dtype: int64


In [56]:
# .isin()함수 : 안에 있니?
print(df['F'].isin(['alpha', 'beta']))

2026-01-02     True
2026-01-06     True
2026-01-03    False
2026-01-01    False
2026-01-05     True
2026-01-04    False
Name: F, dtype: bool


In [58]:
df.loc[df['F'].isin(['alpha','beta']),:]

Unnamed: 0,D,B,C,A,E,F
2026-01-02,1.23581,,-0.637648,0.489548,0,alpha
2026-01-06,-0.742961,,0.468315,-0.271042,1,beta
2026-01-05,-0.019352,,0.751536,-0.732028,3,alpha


In [59]:
df = pd.DataFrame(np.random.randn(4,3), columns=["b","d", "e"], index = ["Seoul", "Incheon", "Busan", "Daegu"])
df

Unnamed: 0,b,d,e
Seoul,0.778291,0.947632,0.244744
Incheon,-2.185477,0.292599,-0.090657
Busan,-0.320137,-0.943065,0.013604
Daegu,0.790409,0.897322,0.406697


In [62]:
func =lambda x: x.max() - x.min()
df.apply(func, axis=0)

b    2.975886
d    1.890697
e    0.497354
dtype: float64

### CSV 

In [64]:
data = {
    '이름' : ['철수', '영희', '민수', '지수'],
    '나이' : [25,30,22,28],
    '거주지' : ['서울', '부산', '대구', '인천']
}

df = pd.DataFrame(data)
print(df)

df.to_csv("student1.csv", index=True, encoding="utf-8-sig")
df.to_csv("student2.csv", index=False, encoding="utf-8-sig")

   이름  나이 거주지
0  철수  25  서울
1  영희  30  부산
2  민수  22  대구
3  지수  28  인천


In [66]:
# 파일 불러오기
loaded_df1 = pd.read_csv("student1.csv")
print(loaded_df1)

loaded_df2 = pd.read_csv("student2.csv")
print(loaded_df2)

   Unnamed: 0  이름  나이 거주지
0           0  철수  25  서울
1           1  영희  30  부산
2           2  민수  22  대구
3           3  지수  28  인천
   이름  나이 거주지
0  철수  25  서울
1  영희  30  부산
2  민수  22  대구
3  지수  28  인천


In [67]:
# 1.파일이 꺠지지 않았나? 어떤 데이터가 있는지 head로 확인하기 샘플 몇개만 슬쩍 보고 파악
# 2. 데이터 모양이 제대로 되어있는지 확인 -> info 를 해주면 columns에 대한 정보를 파악할 수 있다. 
#   만약에 나이(age)가 String으로 되어 있는지 확인 (데이터 타입이 올바르게 적용되어 있는지?) 전처리 할게 있는지 확인

### Group

In [69]:
import pandas as pd

# 실습 데이터 : 부서별 대출
data = {
    "부서": ["영업팀", "영업팀", "인사팀", "인사팀", "개발팀", "개발팀"],
    "직원": ["김철수", "김영희", "박민수", "최지수", "정코딩", "홍베타"],
    "매출": [100, 200, 50, 60, 150, 120],
}
df = pd.DataFrame(data)

print("--- 원본 데이터 ---")
print(df)

print("\n--- 1. 부서별 매출 합계 구하기 ---")
# 문법: df.groupby('묶을기준컬럼)['계산할컬럼'].함수()
# 해석: '부서'별로 묶어서, '매출'의 '합계(sum)'을 보여줘

print(df.groupby('부서')['매출'].sum())

print("\n---2. 여러 가지 통계 한 번에 보기 (age) ---")
# agg = aggregation(집계)의 약자
print(df.groupby('부서')['매출'].agg(['sum','mean','max']))

--- 원본 데이터 ---
    부서   직원   매출
0  영업팀  김철수  100
1  영업팀  김영희  200
2  인사팀  박민수   50
3  인사팀  최지수   60
4  개발팀  정코딩  150
5  개발팀  홍베타  120

--- 1. 부서별 매출 합계 구하기 ---
부서
개발팀    270
영업팀    300
인사팀    110
Name: 매출, dtype: int64

---2. 여러 가지 통계 한 번에 보기 (age) ---
     sum   mean  max
부서                  
개발팀  270  135.0  150
영업팀  300  150.0  200
인사팀  110   55.0   60


In [71]:
df1 = pd.DataFrame({'A':['a1','a2'],'B':['b1','b2']})
df2 = pd.DataFrame({'A': ['a3', 'a4'], 'B': ['b3','b4']})
print("--- 1. 위아래로 합치기 (행 추가)---)")
# 리스트 안에 합칠 df 들을 넣어줍니다 [df1, df2]
result = pd.concat([df1, df2], ignore_index=True)
print(result)

--- 1. 위아래로 합치기 (행 추가)---)
    A   B
0  a1  b1
1  a2  b2
2  a3  b3
3  a4  b4


In [83]:
# 회원정보
user_df = pd.DataFrame({"ID": [1, 2, 3], "이름": ["철수", "영희", "민수"]})

# 회원정보
buy_if = pd.DataFrame(
    {"ID": [1, 1, 2], "상품": ["운동화", "가방", "모자",], "가격": [50000, 30000, 2000]}
)

print("--- 2. VLOOKUP 처럼 합치기 (Merge) ---")
# 문법 : pd.merge(왼쪽표, 오른쪽표, on='기준칼럼',how='방법')
# how = 'left' : 왼쪽(user_df) 데이터는 다 살리고, 오른쪽 정보를 붙임
#       'inner' how 를 비워둘 경우 디폴트 값 -> 양쪽에 둘다 존재하는 것만 출력
result = pd.merge(user_df, buy_if, on='ID', how='left')

print(result)

# 설명 : 3번 민수는 구매 내역이 없어서 상품/가격이 NaN(빈값)으로 나오게 된다.

--- 2. VLOOKUP 처럼 합치기 (Merge) ---
   ID  이름   상품       가격
0   1  철수  운동화  50000.0
1   1  철수   가방  30000.0
2   2  영희   모자   2000.0
3   3  민수  NaN      NaN


In [87]:
# 실습 데이터 확장 : 피벗 테이블 만들기
data = {
    '지점':['강남', '강남', '강북', '강북', '강남'],
    '요일': ['월', '화', '월', '화', '월'],
    '매출' : [100,120, 80, 90, 110]
}
df = pd.DataFrame(data)
print(df)
print("\n ---피벗 데이블 만들기---")
# index = 행, columns = 열, values= 값
pivot = df.pivot_table(
    index='지점',
    columns='요일',
    values='매출',
    aggfunc='mean' # 평균(기본값)
    
)

print(pivot)

   지점 요일   매출
0  강남  월  100
1  강남  화  120
2  강북  월   80
3  강북  화   90
4  강남  월  110

 ---피벗 데이블 만들기---
요일      월      화
지점              
강남  105.0  120.0
강북   80.0   90.0


### 실습

In [102]:
data = {
    '메뉴': ['아메리카노', '카페라떼', '카페모카', '바닐라라떼', '녹차라떼', '아이스티'],
    '가격': [4000, 4500, 5000, 5500, 5000, 3500],
    '판매량': [50, 30, 20, 15, 25, 40],
    '카테고리': ['커피', '커피', '커피', '커피', '논커피', '논커피'],
    '매출액': [400000, 12302020, 318389283, 10239194, 293741, 1231234]
}

df = pd.DataFrame(data)
print(df)
print("=" * 30)

# 데이터 전처리 전에 반드시 하는 첫번째 과정 - 데이터 파악하기!
print(df.head(3))
df.tail(3)
print(df.info())
print("=" * 30)


print(df['메뉴'].unique)
print("=" * 30)

print(df[['메뉴', '가격']])

      메뉴    가격  판매량 카테고리        매출액
0  아메리카노  4000   50   커피     400000
1   카페라떼  4500   30   커피   12302020
2   카페모카  5000   20   커피  318389283
3  바닐라라떼  5500   15   커피   10239194
4   녹차라떼  5000   25  논커피     293741
5   아이스티  3500   40  논커피    1231234
      메뉴    가격  판매량 카테고리        매출액
0  아메리카노  4000   50   커피     400000
1   카페라떼  4500   30   커피   12302020
2   카페모카  5000   20   커피  318389283
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      6 non-null      object
 1   가격      6 non-null      int64 
 2   판매량     6 non-null      int64 
 3   카테고리    6 non-null      object
 4   매출액     6 non-null      int64 
dtypes: int64(3), object(2)
memory usage: 372.0+ bytes
None
<bound method Series.unique of 0    아메리카노
1     카페라떼
2     카페모카
3    바닐라라떼
4     녹차라떼
5     아이스티
Name: 메뉴, dtype: object>
      메뉴    가격
0  아메리카노  4000
1   카페라떼  4500
2   카페모카  5000
3  바닐라라떼  

In [99]:
# 인덱스 값을 '메뉴'로 바꿈
df_index = df.set_index('메뉴') 


print(df_index)

print("\n ---1. loc ---")
# 아메리카노 행 전체 가져오기
print(df_index.loc['아메리카노'])
print("=" * 30)
# 아메리카노의 가격만 가져오기 [행,열]
print(df_index.loc['아메리카노', '가격'])

print("\n ---2. iloc ---")
print(df_index.iloc[0])
print("=" * 30)

print(df_index.iloc[0,0])

         가격  판매량 카테고리
메뉴                   
아메리카노  4000   50   커피
카페라떼   4500   30   커피
카페모카   5000   20   커피
바닐라라떼  5500   15   커피
녹차라떼   5000   25  논커피
아이스티   3500   40  논커피

 ---1. loc ---
가격      4000
판매량       50
카테고리      커피
Name: 아메리카노, dtype: object
4000

 ---2. iloc ---
가격      4000
판매량       50
카테고리      커피
Name: 아메리카노, dtype: object
4000


In [101]:
print("---1. 가격이 5000원 이상인 메뉴 찾기---")
# 조건(>= 5000)을 부여하면 bool 형태 값이 출력된다.
high_price = df["가격"] >= 5000 
print(high_price)

print("\n--- 2. 조건 적용하여 데이터만 남기기 ---")
result = df[high_price]
print(result)
print("=" * 30)

print(df[df["카테고리"] == "커피"])

---1. 가격이 5000원 이상인 메뉴 찾기---
0    False
1    False
2     True
3     True
4     True
5    False
Name: 가격, dtype: bool

--- 2. 조건 적용하여 데이터만 남기기 ---
      메뉴    가격  판매량 카테고리
2   카페모카  5000   20   커피
3  바닐라라떼  5500   15   커피
4   녹차라떼  5000   25  논커피
      메뉴    가격  판매량 카테고리
0  아메리카노  4000   50   커피
1   카페라떼  4500   30   커피
2   카페모카  5000   20   커피
3  바닐라라떼  5500   15   커피


In [104]:
# 데이터에 의미를 부여해야 원하는 통계를 얻을 수 있다.
df['매출액'] = df['가격'] * df['판매량']

print("---통계확인----")
print("총 매출액 합계:", df['매출액'].sum())
print("평균 가격:", df['가격'].mean())
print("가장 많이 팔린 개수:", df['판매량'].max())

print("\n ---카테고리별 메뉴 개수---")
print(df['카테고리'].value_counts())

---통계확인----
총 매출액 합계: 782500
평균 가격: 4583.333333333333
가장 많이 팔린 개수: 50

 ---카테고리별 메뉴 개수---
카테고리
커피     4
논커피    2
Name: count, dtype: int64


In [105]:
# 1. 판매량 30 미안 필터링
low_sales = df[df['판매량']<30]

# 2. 가격 내림차순 정렬
low_sales_sorted = low_sales.sort_values(by='가격', ascending=False)
print("---판매량 저조 메뉴 (가격순)---")
print(low_sales_sorted)

# 3. '커피' 카테고리 평균 가격
coffee_df = df[df['카테고리'] == '커피']
avg_price = coffee_df['가격'].mean()
print("\n커피 평균 가격:", avg_price)

---판매량 저조 메뉴 (가격순)---
      메뉴    가격  판매량 카테고리     매출액
3  바닐라라떼  5500   15   커피   82500
2   카페모카  5000   20   커피  100000
4   녹차라떼  5000   25  논커피  125000

커피 평균 가격: 4750.0


### 실습2

In [109]:
# 1. 데이터 준비
store_info=pd.DataFrame({
    '매장코드' : ['A01','A02','B01'],
    '지역' : ['강남', '서초','판교']
})

sales_data = pd.DataFrame({
    '매장코드': ['A01', 'A01', 'A02', 'B01', 'B01'],
    '날짜': ['1일', '2일', '1일', '1일', '2일'],
    '매출액': [100, 120, 150, 200, 180]
})

# 실습 영역
# [풀이 1] 데이터 합치기 (VLOOKUP)
merged_df = pd.merge(sales_data, store_info, on='매장코드', how='left')
print("---1. 합쳐진 데이터 ---")
print(merged_df)

# [풀이 2] 지역별 매출 총합 (GroupBy)
region_sum = merged_df.groupby('지역')['매출액'].sum()
print("\n--- 2. 지역 총 매출 ---")
print(region_sum)

# [풀이 3] 피벗 테이블 (보고서용)
pivot_report = merged_df.pivot_table(
    index='지역',
    columns='날짜',
    values='매출액',
    aggfunc='sum'
)
print("\n---3. 요약 보고서 ----")
print(pivot_report)

---1. 합쳐진 데이터 ---
  매장코드  날짜  매출액  지역
0  A01  1일  100  강남
1  A01  2일  120  강남
2  A02  1일  150  서초
3  B01  1일  200  판교
4  B01  2일  180  판교

--- 2. 지역 총 매출 ---
지역
강남    220
서초    150
판교    380
Name: 매출액, dtype: int64

---3. 요약 보고서 ----
날짜     1일     2일
지역              
강남  100.0  120.0
서초  150.0    NaN
판교  200.0  180.0


In [114]:
# [미션 1] 데이터 불러오기 및 훑어보기

movie_df = pd.read_csv("korea_movie_best.csv")
print(movie_df.head(5))
print("=" * 100)
print(movie_df.info())

          영화명      감독   장르  개봉연도   관객수    평점
0          명량     김한민   사극  2014  1761  8.88
1        극한직업     이병헌  코미디  2019  1626  9.20
2   신과함께-죄와 벌     김용화  판타지  2017  1441  8.73
3        국제시장     윤제균  드라마  2014  1425  9.16
4  어벤져스: 엔드게임  안소니 루소   액션  2019  1393  9.50
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   영화명     10 non-null     object 
 1   감독      10 non-null     object 
 2   장르      10 non-null     object 
 3   개봉연도    10 non-null     int64  
 4   관객수     10 non-null     int64  
 5   평점      10 non-null     float64
dtypes: float64(1), int64(2), object(3)
memory usage: 612.0+ bytes
None


In [150]:
# [미션 2] 데이터 선택하기(Indexing)
# 영화명을 인덱스로
id_index = movie_df.set_index('영화명')
print(id_index)

# loc로 기생충 평점
print("=" * 100)
print(id_index.loc['기생충','평점'])
print("=" * 100)

# [미션 3] 조건으로 필터링하기 (boolean indexing)
hit_movie = movie_df['관객수'] > 1400
print("미션3 : hit movies: ")
print(hit_movie)
print(movie_df[movie_df[hit_movie]])
print("=" * 100)
# [미션 4] 데이터 정렬 및 파생변수 (sorting & calculation)


                감독     장르  개봉연도   관객수    평점
영화명                                        
명량             김한민     사극  2014  1761  8.88
극한직업           이병헌    코미디  2019  1626  9.20
신과함께-죄와 벌      김용화    판타지  2017  1441  8.73
국제시장           윤제균    드라마  2014  1425  9.16
어벤져스: 엔드게임  안소니 루소     액션  2019  1393  9.50
기생충            봉준호    드라마  2019  1008  9.07
겨울왕국 2       크리스 벅  애니메이션  2019  1374  8.95
베테랑            류승완     액션  2015  1341  9.24
도둑들            최동훈     범죄  2012  1298  7.64
7번방의 선물        이환경    코미디  2013  1281  8.83
9.07
미션3 : hit movies: 
0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: 관객수, dtype: bool


ValueError: Boolean array expected for the condition, not object