# pandas
- '엑셀'처럼 표 모양
- https://pandas.pydata.org/
- 파이썬에서 사용하는 데이터 분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리
---

### Series

In [339]:
# Series 하나의 열에 대하여 처리

import pandas as pd

obj = pd.Series([2, 4, 6, 8, 10])
print(obj)

0     2
1     4
2     6
3     8
4    10
dtype: int64


In [340]:
print(obj.values)
print(type(obj.values))

print(obj.index)
print(type(obj.index))

print(obj.dtype)
print(type(obj.dtype))

[ 2  4  6  8 10]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
int64
<class 'numpy.dtypes.Int64DType'>


In [341]:
obj = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(obj)

a    1
b    3
c    5
d    7
e    9
dtype: int64


In [342]:
# dict 형태로도 넣을 수 있음
dic_data = {"x": 100, "y":200, "z": 300}
obj = pd.Series(dic_data)
print(obj)

x    100
y    200
z    300
dtype: int64


In [343]:
obj.index = ["Q", "W", "E"]
print(obj)

Q    100
W    200
E    300
dtype: int64


In [344]:
# .을 통해 하위로 이동하는 것
obj.index.name = "idx"
obj.name = "my_data"
print(obj)

idx
Q    100
W    200
E    300
Name: my_data, dtype: int64


### Data Frame 

In [345]:
# 행열, Table 모양으로 데이터 처리
# 엑셀과 비슷한..

data = {
    "name": ["A", "B", "C", "D"],
    "age": [20, 27, 35, 40],
    "blood": ["b", "a", "o", "ab"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,blood
0,A,20,b
1,B,27,a
2,C,35,o
3,D,40,ab


In [346]:
print(df.index)
print(df.columns)
print(df.values)
print(type(df.values))

RangeIndex(start=0, stop=4, step=1)
Index(['name', 'age', 'blood'], dtype='object')
[['A' 20 'b']
 ['B' 27 'a']
 ['C' 35 'o']
 ['D' 40 'ab']]
<class 'numpy.ndarray'>


In [347]:
df.index.name = "No."
df.columns.name = "Info"
df

Info,name,age,blood
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,A,20,b
1,B,27,a
2,C,35,o
3,D,40,ab


In [348]:
df = pd.DataFrame(data, columns=["name", "age", "blood", "MBTI"],
                  index=[1, 2, 3, 4])
print(df)

  name  age blood MBTI
1    A   20     b  NaN
2    B   27     a  NaN
3    C   35     o  NaN
4    D   40    ab  NaN


In [349]:
# .describe(): 통계적 수치들

print(df.describe()) # 숫자가 나이밖에 없으니까~~

             age
count   4.000000
mean   30.500000
std     8.812869
min    20.000000
25%    25.250000
50%    31.000000
75%    36.250000
max    40.000000


In [350]:
print(df["name"])
print(df.name)

1    A
2    B
3    C
4    D
Name: name, dtype: object
1    A
2    B
3    C
4    D
Name: name, dtype: object


In [351]:
# 여러 col 불러올 때 괄호 주의..~!
print(df[["name", "MBTI"]])

  name MBTI
1    A  NaN
2    B  NaN
3    C  NaN
4    D  NaN


In [352]:
df["point"] = 0
print(df)

  name  age blood MBTI  point
1    A   20     b  NaN      0
2    B   27     a  NaN      0
3    C   35     o  NaN      0
4    D   40    ab  NaN      0


In [353]:
df["point"] = [100, 200, 300, 0]
print(df)

  name  age blood MBTI  point
1    A   20     b  NaN    100
2    B   27     a  NaN    200
3    C   35     o  NaN    300
4    D   40    ab  NaN      0


In [354]:
import numpy as np

df["np_idx"] = np.arange(4)
print(df)

  name  age blood MBTI  point  np_idx
1    A   20     b  NaN    100       0
2    B   27     a  NaN    200       1
3    C   35     o  NaN    300       2
4    D   40    ab  NaN      0       3


In [355]:
# 인덱스로 조인
# 데이터 값보다 적게 값과 인덱스를 넣어줬더니...
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 3, 4])
df["minus"] = val
print(df)

  name  age blood MBTI  point  np_idx  minus
1    A   20     b  NaN    100       0    NaN
2    B   27     a  NaN    200       1   -1.2
3    C   35     o  NaN    300       2   -1.5
4    D   40    ab  NaN      0       3   -1.7


In [356]:
df["np_idx"] = df["age"]
print(df)

  name  age blood MBTI  point  np_idx  minus
1    A   20     b  NaN    100      20    NaN
2    B   27     a  NaN    200      27   -1.2
3    C   35     o  NaN    300      35   -1.5
4    D   40    ab  NaN      0      40   -1.7


In [357]:
df["bool_test"] = df["age"] % 2 == 0
print(df)

  name  age blood MBTI  point  np_idx  minus  bool_test
1    A   20     b  NaN    100      20    NaN       True
2    B   27     a  NaN    200      27   -1.2      False
3    C   35     o  NaN    300      35   -1.5      False
4    D   40    ab  NaN      0      40   -1.7       True


In [358]:
# df 슬라이싱..! 행으로 자름
print(df[0:2])

  name  age blood MBTI  point  np_idx  minus  bool_test
1    A   20     b  NaN    100      20    NaN       True
2    B   27     a  NaN    200      27   -1.2      False


In [359]:
df.index = ["one", "two", "three", "four"]
print(df)
print(df["two":"three"]) # 얘는 또 포함..ㅋㅋ..

      name  age blood MBTI  point  np_idx  minus  bool_test
one      A   20     b  NaN    100      20    NaN       True
two      B   27     a  NaN    200      27   -1.2      False
three    C   35     o  NaN    300      35   -1.5      False
four     D   40    ab  NaN      0      40   -1.7       True
      name  age blood MBTI  point  np_idx  minus  bool_test
two      B   27     a  NaN    200      27   -1.2      False
three    C   35     o  NaN    300      35   -1.5      False


### loc, iloc

In [360]:
print(df.loc["two"])
print("="*20)
print(df.loc["two":"three"])

name             B
age             27
blood            a
MBTI           NaN
point          200
np_idx          27
minus         -1.2
bool_test    False
Name: two, dtype: object
      name  age blood MBTI  point  np_idx  minus  bool_test
two      B   27     a  NaN    200      27   -1.2      False
three    C   35     o  NaN    300      35   -1.5      False


In [361]:
# loc["idx", "col"]
print(df.loc["two":"three", "point"])
print("="*20)
print(df.loc[:, "name":"blood"])

two      200
three    300
Name: point, dtype: int64
      name  age blood
one      A   20     b
two      B   27     a
three    C   35     o
four     D   40    ab


In [362]:
del df["np_idx"]
print(df)

      name  age blood MBTI  point  minus  bool_test
one      A   20     b  NaN    100    NaN       True
two      B   27     a  NaN    200   -1.2      False
three    C   35     o  NaN    300   -1.5      False
four     D   40    ab  NaN      0   -1.7       True


In [363]:
# 새로 데이터 삽입
df.loc["five", :] = ["E", 30, 'ab', 'INTJ', 0, -1, False]
print(df)

      name   age blood  MBTI  point  minus bool_test
one      A  20.0     b   NaN  100.0    NaN      True
two      B  27.0     a   NaN  200.0   -1.2     False
three    C  35.0     o   NaN  300.0   -1.5     False
four     D  40.0    ab   NaN    0.0   -1.7      True
five     E  30.0    ab  INTJ    0.0   -1.0     False


In [364]:
# iloc (idx location)

print(df.iloc[1])
print("=" * 20)
print(df.iloc[1:2])

name             B
age           27.0
blood            a
MBTI           NaN
point        200.0
minus         -1.2
bool_test    False
Name: two, dtype: object
    name   age blood MBTI  point  minus bool_test
two    B  27.0     a  NaN  200.0   -1.2     False


In [365]:
print(df.iloc[0:2, 0:2])
print(df.iloc[[0, 1, 3], [0, 3]])
print(df.iloc[:, 1:4])

    name   age
one    A  20.0
two    B  27.0
     name MBTI
one     A  NaN
two     B  NaN
four    D  NaN
        age blood  MBTI
one    20.0     b   NaN
two    27.0     a   NaN
three  35.0     o   NaN
four   40.0    ab   NaN
five   30.0    ab  INTJ


In [366]:
print(df["age"] < 22)

one       True
two      False
three    False
four     False
five     False
Name: age, dtype: bool


In [367]:
#            key가 True였던 애들을 loc에 집어넣기
print(df.loc[df["age"] < 22, :])

    name   age blood MBTI  point  minus bool_test
one    A  20.0     b  NaN  100.0    NaN      True


In [368]:
print(df.loc[df["name"] == "A", ["name", "age"]])
print("=" * 20)
# | or 합집합
# & and 교집합
print(df.loc[(df["name"] == "A") | (df["name"] == "B"), ["name", "age"]])

    name   age
one    A  20.0
    name   age
one    A  20.0
two    B  27.0


In [372]:
# 주의~!~!
# 판다스는 반드시 df.loc[조건, 컬럼] = 값

df.loc[df["point"] == 0, "point"] = 10000
print(df)

      name   age blood  MBTI    point  minus bool_test
one      A  20.0     b   NaN    100.0    NaN      True
two      B  27.0     a   NaN    200.0   -1.2     False
three    C  35.0     o   NaN    300.0   -1.5     False
four     D  40.0    ab   NaN  10000.0   -1.7      True
five     E  30.0    ab  INTJ  10000.0   -1.0     False


### data

In [None]:
df = pd.DataFrame(np.random.randn(6, 4))
df

Unnamed: 0,0,1,2,3
0,0.324488,0.583524,1.59902,0.191208
1,0.434066,0.126268,1.489534,2.082711
2,-0.701229,-1.251098,-1.670582,-1.351382
3,1.133296,-0.330657,-1.781253,-0.084698
4,1.698911,-0.737199,-1.36097,1.073807
5,-0.155003,0.575257,1.134478,-1.800842


In [None]:
# 날짜!
df.columns = ["A", "B", "C", "D"]
df.index = pd.date_range("20260101", periods=6)
print(df.index)
print("=" * 100)
print(df)

DatetimeIndex(['2026-01-01', '2026-01-02', '2026-01-03', '2026-01-04',
               '2026-01-05', '2026-01-06'],
              dtype='datetime64[ns]', freq='D')
                   A         B         C         D
2026-01-01  0.324488  0.583524  1.599020  0.191208
2026-01-02  0.434066  0.126268  1.489534  2.082711
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698
2026-01-05  1.698911 -0.737199 -1.360970  1.073807
2026-01-06 -0.155003  0.575257  1.134478 -1.800842


In [None]:
# NaN 값을 명시적으로 넣어주는 것도 가능!
df["F"] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df

Unnamed: 0,A,B,C,D,F
2026-01-01,0.324488,0.583524,1.59902,0.191208,1.0
2026-01-02,0.434066,0.126268,1.489534,2.082711,
2026-01-03,-0.701229,-1.251098,-1.670582,-1.351382,3.5
2026-01-04,1.133296,-0.330657,-1.781253,-0.084698,6.1
2026-01-05,1.698911,-0.737199,-1.36097,1.073807,
2026-01-06,-0.155003,0.575257,1.134478,-1.800842,7.0


In [None]:
# 비어있는 값을 처리해주자!!
# 하나라도 na 있으면 행을 다 버려버려
# 원본은 그대로 유지~~~

print(df.dropna(how="any"))
print("=" * 100)
print(df)

                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0
                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


In [None]:
# 행 전체가 NaN이면 버려
print(df.dropna(how="all"))
print("=" * 100)
print(df)

                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0
                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


In [None]:
# 채워
print(df.fillna(value=0.5))

                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  0.5
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  0.5
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


In [None]:
print(df.isnull())

                A      B      C      D      F
2026-01-01  False  False  False  False  False
2026-01-02  False  False  False  False   True
2026-01-03  False  False  False  False  False
2026-01-04  False  False  False  False  False
2026-01-05  False  False  False  False   True
2026-01-06  False  False  False  False  False


In [None]:
# 엥???? 이거 좀 헷갈림 다시 보기
print(df.loc[df.isnull()["F"], :])

                   A         B         C         D   F
2026-01-02  0.434066  0.126268  1.489534  2.082711 NaN
2026-01-05  1.698911 -0.737199 -1.360970  1.073807 NaN


In [None]:
pd.to_datetime("20260102")

Timestamp('2026-01-02 00:00:00')

In [None]:
print(df.drop(pd.to_datetime("20260102")))
print("=" * 100)
df.drop([pd.to_datetime("20260102"), pd.to_datetime("20260104")])

                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


Unnamed: 0,A,B,C,D,F
2026-01-01,0.324488,0.583524,1.59902,0.191208,1.0
2026-01-03,-0.701229,-1.251098,-1.670582,-1.351382,3.5
2026-01-05,1.698911,-0.737199,-1.36097,1.073807,
2026-01-06,-0.155003,0.575257,1.134478,-1.800842,7.0


In [None]:
print(df.drop("F", axis=1))
print(df)

                   A         B         C         D
2026-01-01  0.324488  0.583524  1.599020  0.191208
2026-01-02  0.434066  0.126268  1.489534  2.082711
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698
2026-01-05  1.698911 -0.737199 -1.360970  1.073807
2026-01-06 -0.155003  0.575257  1.134478 -1.800842
                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


In [None]:
print(df.drop("20260101", axis=0))
print(df)

                   A         B         C         D    F
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0
                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


In [None]:
print(df.drop(["A", "F"], axis=1))
print("=" * 100)
print(df)

                   B         C         D
2026-01-01  0.583524  1.599020  0.191208
2026-01-02  0.126268  1.489534  2.082711
2026-01-03 -1.251098 -1.670582 -1.351382
2026-01-04 -0.330657 -1.781253 -0.084698
2026-01-05 -0.737199 -1.360970  1.073807
2026-01-06  0.575257  1.134478 -1.800842
                   A         B         C         D    F
2026-01-01  0.324488  0.583524  1.599020  0.191208  1.0
2026-01-02  0.434066  0.126268  1.489534  2.082711  NaN
2026-01-03 -0.701229 -1.251098 -1.670582 -1.351382  3.5
2026-01-04  1.133296 -0.330657 -1.781253 -0.084698  6.1
2026-01-05  1.698911 -0.737199 -1.360970  1.073807  NaN
2026-01-06 -0.155003  0.575257  1.134478 -1.800842  7.0


### 함수

In [None]:
data = [[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]]
df = pd.DataFrame(data, columns=["one", "two"], index=["a", "b", "c", "d"])
print(df)

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3


In [None]:
print(df.head(2))

   one  two
a  1.4  NaN
b  7.1 -4.5


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     3 non-null      float64
 1   two     2 non-null      float64
dtypes: float64(2)
memory usage: 96.0+ bytes
None


In [None]:
print(df.sum(axis=0))
print(df.sum(axis=1))
# na에 대해 스킵하지 말고 해봐
print(df.sum(axis=1, skipna=False))

one    9.25
two   -5.80
dtype: float64
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64
a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64


In [None]:
df = pd.DataFrame(np.random.randn(6, 4),
                  columns=["A", "B", "C", "D"],
                  index=pd.date_range("20260101", periods=6))

print(df)
print("=" * 100)
dates = df.index
random_dates = np.random.permutation(dates)
df = df.reindex(index=random_dates, columns=["D", "B", "C", "A"])
print(df)

                   A         B         C         D
2026-01-01 -1.555146  0.057599 -1.074492 -1.551894
2026-01-02  0.797968  0.134306 -0.111837  2.194729
2026-01-03 -1.226816  0.927162  0.061464  1.009884
2026-01-04  0.552956 -0.185952 -0.360650  1.113346
2026-01-05 -0.266492 -0.650414 -0.535806 -0.174013
2026-01-06 -0.492120  0.964398 -0.764523  0.969795
                   D         B         C         A
2026-01-01 -1.551894  0.057599 -1.074492 -1.555146
2026-01-06  0.969795  0.964398 -0.764523 -0.492120
2026-01-02  2.194729  0.134306 -0.111837  0.797968
2026-01-05 -0.174013 -0.650414 -0.535806 -0.266492
2026-01-04  1.113346 -0.185952 -0.360650  0.552956
2026-01-03  1.009884  0.927162  0.061464 -1.226816


In [None]:
print(df.sort_index(axis=0))
print("=" * 100)
print(df.sort_index(axis=1))
print("="*100)
print(df.sort_index(axis=1, ascending=False))

# 2개의 축에 대해 정렬하기!! 두 번 돌리면 되징
print(df.sort_index(axis=0).sort_index(axis=1))

                   D         B         C         A
2026-01-01 -1.551894  0.057599 -1.074492 -1.555146
2026-01-02  2.194729  0.134306 -0.111837  0.797968
2026-01-03  1.009884  0.927162  0.061464 -1.226816
2026-01-04  1.113346 -0.185952 -0.360650  0.552956
2026-01-05 -0.174013 -0.650414 -0.535806 -0.266492
2026-01-06  0.969795  0.964398 -0.764523 -0.492120
                   A         B         C         D
2026-01-01 -1.555146  0.057599 -1.074492 -1.551894
2026-01-06 -0.492120  0.964398 -0.764523  0.969795
2026-01-02  0.797968  0.134306 -0.111837  2.194729
2026-01-05 -0.266492 -0.650414 -0.535806 -0.174013
2026-01-04  0.552956 -0.185952 -0.360650  1.113346
2026-01-03 -1.226816  0.927162  0.061464  1.009884
                   D         C         B         A
2026-01-01 -1.551894 -1.074492  0.057599 -1.555146
2026-01-06  0.969795 -0.764523  0.964398 -0.492120
2026-01-02  2.194729 -0.111837  0.134306  0.797968
2026-01-05 -0.174013 -0.535806 -0.650414 -0.266492
2026-01-04  1.113346 -0.360650 

In [None]:
# sort_values(): 오름차순 정렬

print(df.sort_values(by="D"))

                   D         B         C         A
2026-01-01 -1.551894  0.057599 -1.074492 -1.555146
2026-01-05 -0.174013 -0.650414 -0.535806 -0.266492
2026-01-06  0.969795  0.964398 -0.764523 -0.492120
2026-01-03  1.009884  0.927162  0.061464 -1.226816
2026-01-04  1.113346 -0.185952 -0.360650  0.552956
2026-01-02  2.194729  0.134306 -0.111837  0.797968


In [None]:
df["E"] = np.random.randint(0, 6, size=6)
df["F"] = ["alpha", "beta", "gamma", "gamma", "alpha", "gamma"]
print(df)
print("=" * 100)
print(df.sort_values(by=['E', 'F']))

                   D         B         C         A  E      F
2026-01-01 -1.551894  0.057599 -1.074492 -1.555146  5  alpha
2026-01-06  0.969795  0.964398 -0.764523 -0.492120  1   beta
2026-01-02  2.194729  0.134306 -0.111837  0.797968  5  gamma
2026-01-05 -0.174013 -0.650414 -0.535806 -0.266492  4  gamma
2026-01-04  1.113346 -0.185952 -0.360650  0.552956  0  alpha
2026-01-03  1.009884  0.927162  0.061464 -1.226816  0  gamma
                   D         B         C         A  E      F
2026-01-04  1.113346 -0.185952 -0.360650  0.552956  0  alpha
2026-01-03  1.009884  0.927162  0.061464 -1.226816  0  gamma
2026-01-06  0.969795  0.964398 -0.764523 -0.492120  1   beta
2026-01-05 -0.174013 -0.650414 -0.535806 -0.266492  4  gamma
2026-01-01 -1.551894  0.057599 -1.074492 -1.555146  5  alpha
2026-01-02  2.194729  0.134306 -0.111837  0.797968  5  gamma


In [None]:
# unique(): 유일한, 중복없이

print(df['F'].unique())
print("="*30)
print(df['F'].value_counts())

['alpha' 'beta' 'gamma']
F
gamma    3
alpha    2
beta     1
Name: count, dtype: int64


In [None]:
# isin(): 안에 있니??

print(df['F'].isin(['alpha', 'beta']))

2026-01-01     True
2026-01-06     True
2026-01-02    False
2026-01-05    False
2026-01-04     True
2026-01-03    False
Name: F, dtype: bool


In [None]:
df = pd.DataFrame(
    np.random.randn(4, 3),
    columns = ["b", "d", "e"],
    index = ["seoul", "incheon", "busan", "daegu"]
)
print(df)

                b         d         e
seoul   -0.612456  1.368411 -0.711656
incheon  0.268032 -0.675704 -1.144212
busan   -2.340016 -1.071384  1.442886
daegu    0.501903 -1.719693  2.130700


In [None]:
func = lambda x: x.max() - x.min()
df.apply(func, axis=0)

b    2.841919
d    3.088104
e    3.274912
dtype: float64

### csv 데이터

In [None]:
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, 22, 28],
    '거주지': ['서울', '부산', '대구', '인천']
}

df = pd.DataFrame(data)
print(df)

# 인덱스 있/없
df.to_csv("student1.csv", index=True, encoding="utf-8-sig") # sig는 한글 잘 변환됨!!
df.to_csv("student2.csv", index=False, encoding="utf-8-sig")

   이름  나이 거주지
0  철수  25  서울
1  영희  30  부산
2  민수  22  대구
3  지수  28  인천


In [None]:
loaded_df1 = pd.read_csv("student1.csv")
print(loaded_df1)
print("=" * 50)

loaded_df2 = pd.read_csv("student2.csv")
print(loaded_df2)

   Unnamed: 0  이름  나이 거주지
0           0  철수  25  서울
1           1  영희  30  부산
2           2  민수  22  대구
3           3  지수  28  인천
   이름  나이 거주지
0  철수  25  서울
1  영희  30  부산
2  민수  22  대구
3  지수  28  인천


In [None]:
# 데이터 불러와서 할 일??
# 1. head()로 생김새 파악
# 2. info()로 전처리 해야 하는지 파악

### group

In [None]:
import pandas as pd

# 실습 데이터: 부서별 매출
data = {
    '부서': ['영업팀', '영업팀', '인사팀', '인사팀', '개발팀', '개발팀'],
    '직원': ['김철수', '이영희', '박민수', '최지수', '정코딩', '홍베타'],
    '매출': [100, 200, 50, 60, 150, 120]
}

df = pd.DataFrame(data)

print("--- 원본 데이터 ---")
print(df)

print("\n--- 1. 부서별 매출 합계 구하기 ---")
# 문법: df.groupby('묶을 기준 컬럼')['계산할 컬럼'].함수()
# 해석: '부서'별로 묶어서, '매출'의 '합계(sum)'을 보여줘
print(df.groupby('부서')['매출'].sum())

print("\n--- 2. 여러가지 통계 한 번에 보기 (agg) ---")
# agg = aggregation(집계)의 약자
print(df.groupby('부서')['매출'].agg(['sum', 'mean', 'max', 'min']))

--- 원본 데이터 ---
    부서   직원   매출
0  영업팀  김철수  100
1  영업팀  이영희  200
2  인사팀  박민수   50
3  인사팀  최지수   60
4  개발팀  정코딩  150
5  개발팀  홍베타  120

--- 1. 부서별 매출 합계 구하기 ---
부서
개발팀    270
영업팀    300
인사팀    110
Name: 매출, dtype: int64

--- 2. 여러가지 통계 한 번에 보기 (agg) ---
     sum   mean  max  min
부서                       
개발팀  270  135.0  150  120
영업팀  300  150.0  200  100
인사팀  110   55.0   60   50


In [None]:
df1 = pd.DataFrame({'A': ['a1', 'a2'], 'B': ['b1', 'b2']})
df2 = pd.DataFrame({'A': ['a3', 'a4'], 'B': ['b3', 'b4']})

print("--- 1. 위 아래로 합치기 (행 추가) ---")
# 리스트 안에 합칠 df들을 넣엊웁니다. [df1, df2]
result = pd.concat([df1, df2], ignore_index=True)
print(result)

--- 1. 위 아래로 합치기 (행 추가) ---
    A   B
0  a1  b1
1  a2  b2
2  a3  b3
3  a4  b4


In [None]:
# 회원 정보
user_df = pd.DataFrame({
    'ID': [1, 2, 3],
    '이름': ['철수', '영희', '민수']
})

# 구매 내역 (ID만 있음)
buy_df = pd.DataFrame({
    'ID': [1, 1, 2, 4],
    '상품': ['운동화', '가방', '모자', '텀블러'],
    '가격': [50000, 30000, 20000, 10]
})

print("--- 2. VLOOKUP 처럼 합치기 (merge) ---")
# 문법: pd.merge(왼쪽표, 오른쪽표, on='기준 컬럼', how='방법')
# how='left' : 왼쪽(user_df) 데이터는 다 살리고, 오른쪽 정보를 붙임
result = pd.merge(user_df, buy_df, on='ID', how='inner')

print(result)
# 3번 민수는 구매내역이 없어서 상품/가격이 NaN값으로 나온당

print("="*30)
result = pd.merge(user_df, buy_df, on='ID', how='right')
print(result)

--- 2. VLOOKUP 처럼 합치기 (merge) ---
   ID  이름   상품     가격
0   1  철수  운동화  50000
1   1  철수   가방  30000
2   2  영희   모자  20000
   ID   이름   상품     가격
0   1   철수  운동화  50000
1   1   철수   가방  30000
2   2   영희   모자  20000
3   4  NaN  텀블러     10


In [None]:
# pivot table

data = {
    '지점': ['강남', '강남', '강북', '강북', '강남'],
    '요일': ['월', '화', '월', '화', '월'],
    '매출': [100, 120, 80, 90, 110]
}

df = pd.DataFrame(data)

print("\n--- 피벗 테이블 만들기 ---")
# index= 행, columns= 열, values= 값
pivot = df.pivot_table(
    index='지점',
    columns='요일',
    values='매출',
    aggfunc='mean' # 평균(기본값)
)

print(pivot)


--- 피벗 테이블 만들기 ---
요일      월      화
지점              
강남  105.0  120.0
강북   80.0   90.0


### 실습1

In [None]:
data = {
    '메뉴': ['아메리카노', '카페라떼', '카페모카', '바닐라라떼', '녹차라떼', '아이스티'],
    '가격': [4000, 4500, 5000, 5500, 5000, 3500],
    '판매량': [50, 30, 20, 15, 25, 40],
    '카테고리': ['커피', '커피', '커피', '커피', '논커피', '논커피']
}

df = pd.DataFrame(data)
print(df)
print("="*30)

# 먼저 해볼 것!!!
df.head(3)
df.tail(3)
print(df.info())

print(df['메뉴'])
print("="*30)
print(df[['메뉴', '가격']])

      메뉴    가격  판매량 카테고리
0  아메리카노  4000   50   커피
1   카페라떼  4500   30   커피
2   카페모카  5000   20   커피
3  바닐라라떼  5500   15   커피
4   녹차라떼  5000   25  논커피
5   아이스티  3500   40  논커피
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      6 non-null      object
 1   가격      6 non-null      int64 
 2   판매량     6 non-null      int64 
 3   카테고리    6 non-null      object
dtypes: int64(2), object(2)
memory usage: 324.0+ bytes
None
0    아메리카노
1     카페라떼
2     카페모카
3    바닐라라떼
4     녹차라떼
5     아이스티
Name: 메뉴, dtype: object
      메뉴    가격
0  아메리카노  4000
1   카페라떼  4500
2   카페모카  5000
3  바닐라라떼  5500
4   녹차라떼  5000
5   아이스티  3500


In [None]:
df_index = df.set_index('메뉴')
print(df_index)

print("\n--- 1. loc ---")
# 아메리카노 행 전체 가져오기
print(df_index.loc['아메리카노'])
print("="*30)
# 아메리카노의 가격만 콕 짚어 가져오기 [행, 열]
print(df_index.loc['아메리카노', '가격'])

print('\n--- 2. iloc ---')
print(df_index.iloc[0])
print("="*30)
print(df_index.iloc[0, 0])

         가격  판매량 카테고리
메뉴                   
아메리카노  4000   50   커피
카페라떼   4500   30   커피
카페모카   5000   20   커피
바닐라라떼  5500   15   커피
녹차라떼   5000   25  논커피
아이스티   3500   40  논커피

--- 1. loc ---
가격      4000
판매량       50
카테고리      커피
Name: 아메리카노, dtype: object
4000

--- 2. iloc ---
가격      4000
판매량       50
카테고리      커피
Name: 아메리카노, dtype: object
4000


In [None]:
# 필터링
print("\n--- 1. 가격이 5000원 이상인 메뉴 찾기 ---")
high_price = df['가격'] >= 5000
print(high_price)

print("\n--- 2. 조건 적용하여 데이터만 남기기 ---")
result = df[high_price]
print(result)

print(df[df['카테고리'] == '커피'])


--- 1. 가격이 5000원 이상인 메뉴 찾기 ---
0    False
1    False
2     True
3     True
4     True
5    False
Name: 가격, dtype: bool

--- 2. 조건 적용하여 데이터만 남기기 ---
      메뉴    가격  판매량 카테고리
2   카페모카  5000   20   커피
3  바닐라라떼  5500   15   커피
4   녹차라떼  5000   25  논커피
      메뉴    가격  판매량 카테고리
0  아메리카노  4000   50   커피
1   카페라떼  4500   30   커피
2   카페모카  5000   20   커피
3  바닐라라떼  5500   15   커피


In [None]:
# 통계 확인

df['매출액'] = df['가격'] * df['판매량']

print("--- 통게 확인 ---")
print("총 매출액 합계", df['매출액'].sum())
print("평균 가격", df['가격'].mean())
print("가팡 많이 팔린 개수", df['판매량'].max())

print("\n--- 카테고리별 메뉴 개수 ---")
print(df['카테고리'].value_counts())

--- 통게 확인 ---
총 매출액 합계 782500
평균 가격 4583.333333333333
가팡 많이 팔린 개수 50

--- 카테고리별 메뉴 개수 ---
카테고리
커피     4
논커피    2
Name: count, dtype: int64


In [None]:
# 1. 판매량 30 미만 필터링
low_sales = df[df['판매량'] < 30]

# 2. 가격 내림차순 정렬
low_sales_sorted = low_sales.sort_values(by='가격', ascending=False)
print("--- 판매량 저조 메뉴 (가격순) ---")
print(low_sales_sorted)

# '커피' 카테고리의 평균 가격
coffee_df = df[df['카테고리'] == '커피']
avg_price = coffee_df['가격'].mean()
print("\n커피 평균가격", avg_price)

--- 판매량 저조 메뉴 (가격순) ---
      메뉴    가격  판매량 카테고리     매출액
3  바닐라라떼  5500   15   커피   82500
2   카페모카  5000   20   커피  100000
4   녹차라떼  5000   25  논커피  125000

커피 평균가격 4750.0


### 실습 2

In [None]:
import pandas as pd

# 1. 데이터 준비
store_info = pd.DataFrame({
    '매장코드': ['A01', 'A02', 'B01'],
    '지역': ['강남', '서초', '판교']
})

sales_data = pd.DataFrame({
    '매장코드': ['A01', 'A01', 'A02', 'B01', 'B01'],
    '날짜': ['1일', '2일', '1일', '1일', '2일'],
    '매출액': [100, 120, 150, 200, 180]
})

In [None]:
# [풀이 1] 데이터 합치기 (VLOOKUP)
merged_df = pd.merge(sales_data, store_info, on='매장코드', how='left')
print('--- 1. 합쳐진 데이터 ---')
print(merged_df)

--- 1. 합쳐진 데이터 ---
  매장코드  날짜  매출액  지역
0  A01  1일  100  강남
1  A01  2일  120  강남
2  A02  1일  150  서초
3  B01  1일  200  판교
4  B01  2일  180  판교


In [None]:
# [풀이 2] 지역별 매출 총합 (groupby)
region_sum = merged_df.groupby('지역')['매출액'].sum()
print('--- 2. 지역별 총 매출 ---')
print(region_sum)

# 정렬해보자~!
region_sum.sort_values(ascending=False)

--- 2. 지역별 총 매출 ---
지역
강남    220
서초    150
판교    380
Name: 매출액, dtype: int64


지역
판교    380
강남    220
서초    150
Name: 매출액, dtype: int64

In [None]:
# [풀이 3] 피벗 테이블 (보고서용)
pivot_report = merged_df.pivot_table(
    index = '지역',
    columns = '날짜',
    values = '매출액',
    aggfunc = 'sum'
)

print('\n--- 3. 요약 보고서 ---')
print(pivot_report)

pivot_report.fillna('빵~~원')


--- 3. 요약 보고서 ---
날짜     1일     2일
지역              
강남  100.0  120.0
서초  150.0    NaN
판교  200.0  180.0


날짜,1일,2일
지역,Unnamed: 1_level_1,Unnamed: 2_level_1
강남,100.0,120.0
서초,150.0,빵~~원
판교,200.0,180.0
