In [2]:
import numpy as np
import pandas as pd

# 2차원 넘파이 어레이 생성
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# 데이터프레임 생성
df = pd.DataFrame(arr,index=['a', 'b','c'], columns=['A', 'B', 'C'])
print(df)


   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9


In [41]:
import pandas as pd

# 샘플 데이터프레임 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '정수진', '최영호', '한미래', '윤지원'],
    '나이': [25, 28, 22, 31, 27, 24, 29],
    '점수': [85, 92, 78, 95, 88, 73, 91]
}
df = pd.DataFrame(data) #index = ['a', 'b', 'n', 'a', 'b', 'n','c']

# 처음 5개 행 보기
print("=== head() ===")
print(df.head())

# 마지막 3개 행 보기
print("\n=== tail(3) ===")
print(df.tail(3))

# 데이터프레임 기본 정보
print("\n=== info() ===")
print(df.info())

# 기술 통계량
print("\n=== describe() ===")
print(df.describe())

=== head() ===
    이름  나이  점수
0  김철수  25  85
1  이영희  28  92
2  박민수  22  78
3  정수진  31  95
4  최영호  27  88

=== tail(3) ===
    이름  나이  점수
4  최영호  27  88
5  한미래  24  73
6  윤지원  29  91

=== info() ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      7 non-null      object
 1   나이      7 non-null      int64 
 2   점수      7 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 300.0+ bytes
None

=== describe() ===
              나이         점수
count   7.000000   7.000000
mean   26.571429  86.000000
std     3.101459   7.958224
min    22.000000  73.000000
25%    24.500000  81.500000
50%    27.000000  88.000000
75%    28.500000  91.500000
max    31.000000  95.000000


In [42]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [43]:
df.columns

Index(['이름', '나이', '점수'], dtype='object')

In [44]:
df.shape

(7, 3)

In [45]:
df.values

array([['김철수', 25, 85],
       ['이영희', 28, 92],
       ['박민수', 22, 78],
       ['정수진', 31, 95],
       ['최영호', 27, 88],
       ['한미래', 24, 73],
       ['윤지원', 29, 91]], dtype=object)

In [46]:
df.rename(columns= {'이름': 'Name'})

Unnamed: 0,Name,나이,점수
0,김철수,25,85
1,이영희,28,92
2,박민수,22,78
3,정수진,31,95
4,최영호,27,88
5,한미래,24,73
6,윤지원,29,91


In [54]:
df

Unnamed: 0,이름,나이,점수
0,김철수,25,85
1,이영희,28,92
2,박민수,22,78
3,정수진,31,95
4,최영호,27,88
5,한미래,24,73
6,윤지원,29,91


In [47]:
df.loc[3]

이름    정수진
나이     31
점수     95
Name: 3, dtype: object

In [53]:
df.loc[:, '이름':'점수']

Unnamed: 0,이름,나이,점수
0,김철수,25,85
1,이영희,28,92
2,박민수,22,78
3,정수진,31,95
4,최영호,27,88
5,한미래,24,73
6,윤지원,29,91


In [56]:
df.loc[:,'점수'] # (7,3) shape인데 '점수' column만 부르니까 ERROR

0    85
1    92
2    78
3    95
4    88
5    73
6    91
Name: 점수, dtype: int64

# melt()

In [1]:
import pandas as pd

# ✏️ 1단계: melt()를 사용할 데이터프레임을 만듭니다.
# 학생들의 과목별 점수가 옆으로 나열된 형태의 데이터라고 상상해보세요.
data = {
    '학생': ['김철수', '이영희', '박지민'],
    '수학': [90, 85, 92],
    '영어': [78, 95, 88],
    '과학': [82, 90, 75]
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)
print("-" * 25)

# ✏️ 2단계: df.melt() 메서드를 사용하여 데이터를 변형합니다.
# '학생' 열은 그대로 유지하고, '수학', '영어', '과학' 열들을 새로운 행으로 내릴 거예요.
# id_vars: 'id_vars'는 고정하고 싶은 열(여기서는 '학생')을 지정해요.
# var_name: 새롭게 만들어질 '과목' 열의 이름을 지정해요.
# value_name: 새롭게 만들어질 '점수' 열의 이름을 지정해요.
df_melted = df.melt(id_vars=['학생'], var_name='과목', value_name='점수')

print("\n--- melt() 후 변형된 데이터프레임 ---")
print(df_melted)
print("-" * 30)

# 각 줄이 어떤 역할을 하는지 설명:
# import pandas as pd: Pandas 라이브러리를 pd라는 이름으로 불러옵니다.
# data = {...}: 딕셔너리 형태로 학생들의 과목별 점수 데이터를 만듭니다.
# df = pd.DataFrame(data): 위 딕셔너리를 Pandas 데이터프레임으로 변환합니다.
# print(df): 변형 전의 원본 데이터프레임을 출력하여 어떤 모습이었는지 확인합니다.
# df_melted = df.melt(...): melt() 메서드를 사용하여 데이터프레임을 변형합니다.
#   id_vars=['학생']: '학생' 열은 그대로 두고 싶다고 알려주는 거예요.
#   var_name='과목': 새로 만들어질 과목 이름을 담는 열의 이름을 '과목'으로 지정합니다.
#   value_name='점수': 새로 만들어질 점수 값을 담는 열의 이름을 '점수'로 지정합니다.
# print(df_melted): melt() 후 변형된 데이터프레임을 출력하여 어떻게 바뀌었는지 확인합니다.

--- 원본 데이터프레임 ---
    학생  수학  영어  과학
0  김철수  90  78  82
1  이영희  85  95  90
2  박지민  92  88  75
-------------------------

--- melt() 후 변형된 데이터프레임 ---
    학생  과목  점수
0  김철수  수학  90
1  이영희  수학  85
2  박지민  수학  92
3  김철수  영어  78
4  이영희  영어  95
5  박지민  영어  88
6  김철수  과학  82
7  이영희  과학  90
8  박지민  과학  75
------------------------------


In [2]:
import pandas as pd

# ✏️ 원본 데이터프레임 (다시 한번 상기!)
data = {
    '학생': ['김철수', '이영희', '박지민'],
    '수학': [90, 85, 92],
    '영어': [78, 95, 88],
    '과학': [82, 90, 75]
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)
print("-" * 25)

# ✏️ melt() 메서드를 사용하여 데이터를 변형합니다.
# id_vars: '학생' 열은 고정합니다.
# var_name: 새로운 열 '과목'에는 원래 '수학', '영어', '과학' 같은 과목 이름들이 들어갑니다.
# value_name: 새로운 열 '점수'에는 각 과목에 해당하는 실제 점수들이 들어갑니다.
df_melted = df.melt(id_vars=['학생'], var_name='과목')

print("\n--- melt() 후 변형된 데이터프레임 ---")
print(df_melted)
print("-" * 30)

# 💡 여기서!
# var_name='과목': 새로 생긴 '과목' 열은 '수학', '영어', '과학'이라는 "변수의 종류"를 담고 있습니다.
# value_name='점수': 새로 생긴 '점수' 열은 90, 85, 92와 같은 "실제 값"을 담고 있습니다.

# '과목' 열의 값('수학', '영어', '과학')이 '점수' 열의 값(90, 85, 92)과 같지 않죠?
# 서로 다른 의미와 역할을 하는 별개의 열인 것을 알 수 있어요!

--- 원본 데이터프레임 ---
    학생  수학  영어  과학
0  김철수  90  78  82
1  이영희  85  95  90
2  박지민  92  88  75
-------------------------

--- melt() 후 변형된 데이터프레임 ---
    학생  과목  value
0  김철수  수학     90
1  이영희  수학     85
2  박지민  수학     92
3  김철수  영어     78
4  이영희  영어     95
5  박지민  영어     88
6  김철수  과학     82
7  이영희  과학     90
8  박지민  과학     75
------------------------------


In [None]:
import pandas as pd

# ✏️ 원본 데이터프레임 (다시 한번 상기!)
data = {
    '학생': ['김철수', '이영희', '박지민'],
    '수학': [90, 85, 92],
    '영어': [78, 95, 88],
    '과학': [82, 90, 75]
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)
print("-" * 25)

# ✏️ melt() 메서드를 사용하여 데이터를 변형합니다.
# id_vars: '학생' 열은 고정합니다.
# var_name: 새로운 열 '과목'에는 원래 '수학', '영어', '과학' 같은 과목 이름들이 들어갑니다.
# value_name: 새로운 열 '점수'에는 각 과목에 해당하는 실제 점수들이 들어갑니다.
df_melted = df.melt(id_vars=['학생'], var_name='과목')

print("\n--- melt() 후 변형된 데이터프레임 ---")
print(df_melted)
print("-" * 30)

# 💡 여기서!
# var_name='과목': 새로 생긴 '과목' 열은 '수학', '영어', '과학'이라는 "변수의 종류"를 담고 있습니다.
# value_name='점수': 새로 생긴 '점수' 열은 90, 85, 92와 같은 "실제 값"을 담고 있습니다.

# '과목' 열의 값('수학', '영어', '과학')이 '점수' 열의 값(90, 85, 92)과 같지 않죠?
# 서로 다른 의미와 역할을 하는 별개의 열인 것을 알 수 있어요!

--- 원본 데이터프레임 ---
    학생  수학  영어  과학
0  김철수  90  78  82
1  이영희  85  95  90
2  박지민  92  88  75
-------------------------

--- melt() 후 변형된 데이터프레임 ---
   variable value
0        학생   김철수
1        학생   이영희
2        학생   박지민
3        수학    90
4        수학    85
5        수학    92
6        영어    78
7        영어    95
8        영어    88
9        과학    82
10       과학    90
11       과학    75
------------------------------


In [5]:
import pandas as pd

# ✏️ 원본 데이터프레임
data = {
    '학생': ['김철수', '이영희', '박지민'],
    '수학': [90, 85, 92],
    '영어': [78, 95, 88],
    '과학': [82, 90, 75]
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)
print("-" * 25)

# ✏️ melt() 메서드를 사용하여 데이터를 변형합니다.
# id_vars: '학생' 열은 고정합니다.
# value_vars: '수학'과 '영어' 열만 선택하여 melt 합니다. '과학' 열은 제외됩니다.
# var_name: 새로운 열 '과목'에는 원래 '수학', '영어' 같은 과목 이름들이 들어갑니다.
# value_name: 새로운 열 '점수'에는 각 과목에 해당하는 실제 점수들이 들어갑니다.
df_melted_specific = df.melt(id_vars=['학생'], 
                              value_vars=['수학', '영어'], 
                              var_name='과목', 
                              value_name='점수')

print("\n--- value_vars 지정 후 변형된 데이터프레임 (수학, 영어만 포함) ---")
print(df_melted_specific)
print("-" * 60)

# 각 줄이 어떤 역할을 하는지 설명:
# import pandas as pd: Pandas 라이브러리를 불러옵니다.
# data = {...}: 학생들의 과목별 점수 데이터를 딕셔너리로 만듭니다.
# df = pd.DataFrame(data): 딕셔너리를 Pandas 데이터프레임으로 변환합니다.
# print(df): 변형 전의 원본 데이터프레임을 출력합니다.
# df_melted_specific = df.melt(...): melt() 메서드를 사용하여 데이터프레임을 변형합니다.
#   id_vars=['학생']: '학생' 열은 그대로 둡니다.
#   value_vars=['수학', '영어']: 이 부분이 핵심! '수학'과 '영어' 열만 melt 대상이 됩니다. '과학'은 제외돼요.
#   var_name='과목': 새로 만들어질 과목 이름을 담는 열의 이름을 '과목'으로 지정합니다.
#   value_name='점수': 새로 만들어질 점수 값을 담는 열의 이름을 '점수'로 지정합니다.
# print(df_melted_specific): melt() 후 변형된 데이터프레임을 출력합니다.

--- 원본 데이터프레임 ---
    학생  수학  영어  과학
0  김철수  90  78  82
1  이영희  85  95  90
2  박지민  92  88  75
-------------------------

--- value_vars 지정 후 변형된 데이터프레임 (수학, 영어만 포함) ---
    학생  과목  점수
0  김철수  수학  90
1  이영희  수학  85
2  박지민  수학  92
3  김철수  영어  78
4  이영희  영어  95
5  박지민  영어  88
------------------------------------------------------------


In [6]:
import pandas as pd

# ✏️ 원본 데이터프레임 생성
data = {
    '학생': ['김철수', '이영희'],
    '반': ['1반', '2반'],
    '수학': [90, 85],
    '영어': [78, 95],
    '과학': [82, 90],
    '국어': [88, 80] # 새로운 과목 추가
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)
print("-" * 30)

# ✏️ melt() 메서드와 모든 주요 인자 사용 예시
# id_vars: '학생'과 '반' 열은 고정 (새로운 데이터프레임에서도 그대로 유지)
# value_vars: '수학'과 '영어' 점수만 변형 대상 (과학, 국어는 제외)
# var_name: 새로운 '과목' 열의 이름 (수학, 영어 등의 원래 열 이름이 들어갈 곳)
# value_name: 새로운 '점수' 열의 이름 (90, 78 등의 실제 점수 값이 들어갈 곳)
df_melted_all_params = df.melt(id_vars=['학생', '반'],       # 고정할 열 지정
                                value_vars=['수학', '영어'],   # 변형할 값 열 지정
                                var_name='과목',             # 원래 열 이름이 모일 새 열의 이름
                                value_name='점수')           # 원래 값들이 모일 새 열의 이름

print("\n--- melt() 모든 인자 적용 후 데이터프레임 ---")
print(df_melted_all_params)
print("-" * 50)

# 💡 각 인자의 역할 복습:
# df.melt(...): 데이터프레임을 긴 형식으로 변형하는 함수 호출
# id_vars=['학생', '반']: '학생'과 '반' 열은 각 행의 고유 ID처럼 그대로 유지됩니다.
# value_vars=['수학', '영어']: '수학'과 '영어' 열의 값들만 '점수' 열로 내려오고,
#                              '수학', '영어'라는 열 이름은 '과목' 열로 내려옵니다.
#                              ('과학', '국어' 열은 변형되지 않고 사라집니다.)
# var_name='과목': 새로 생성된 열 중, 원래의 '수학', '영어' 같은 과목 이름들이 들어가는 열의 이름이 '과목'이 됩니다.
# value_name='점수': 새로 생성된 열 중, 원래의 90, 78 같은 실제 점수 값들이 들어가는 열의 이름이 '점수'가 됩니다.

--- 원본 데이터프레임 ---
    학생   반  수학  영어  과학  국어
0  김철수  1반  90  78  82  88
1  이영희  2반  85  95  90  80
------------------------------

--- melt() 모든 인자 적용 후 데이터프레임 ---
    학생   반  과목  점수
0  김철수  1반  수학  90
1  이영희  2반  수학  85
2  김철수  1반  영어  78
3  이영희  2반  영어  95
--------------------------------------------------


# concat
## join = inner, outer

In [7]:
import pandas as pd

# ✏️ 첫 번째 데이터프레임 (df1)
data1 = {
    '이름': ['철수', '영희', '민수'],
    '점수': [90, 85, 92]
}
df1 = pd.DataFrame(data1, index=['학생A', '학생B', '학생C']) # 인덱스 지정
print("--- df1 (첫 번째 데이터프레임) ---")
print(df1)
print("-" * 30)

# ✏️ 두 번째 데이터프레임 (df2)
# '민수'는 없고 '지민'이 추가되었으며, 인덱스도 다르게 설정
data2 = {
    '이름': ['영희', '지민', '길동'],
    '과목': ['영어', '수학', '과학']
}
df2 = pd.DataFrame(data2, index=['학생B', '학생D', '학생E']) # 인덱스 지정
print("\n--- df2 (두 번째 데이터프레임) ---")
print(df2)
print("-" * 30)

# ----------------------------------------------------
# ✏️ pd.concat() with join='outer' (기본값)
# 두 데이터프레임을 위아래로 합칩니다. (axis=0)
# join='outer'는 모든 인덱스를 포함합니다.
df_outer = pd.concat([df1, df2], join='outer', axis=0) # axis=0은 행 방향으로 합친다는 의미
print("\n--- concat() with join='outer' (모든 인덱스 포함) ---")
print(df_outer)
print("-" * 50)
# 설명: '학생A', '학생C', '학생D', '학생E'는 한쪽에만 있는 인덱스인데도 결과에 포함되었고,
#       해당하는 데이터가 없는 곳은 NaN으로 채워진 것을 볼 수 있습니다.

# ----------------------------------------------------
# ✏️ pd.concat() with join='inner'
# 두 데이터프레임을 위아래로 합칩니다. (axis=0)
# join='inner'는 공통된 인덱스만 포함합니다.
df_inner = pd.concat([df1, df2], join='inner', axis=0) # axis=0은 행 방향으로 합친다는 의미
print("\n--- concat() with join='inner' (공통 인덱스만 포함) ---")
print(df_inner)
print("-" * 50)
# 설명: '학생A', '학생C', '학생D', '학생E'는 한쪽에만 있어서 결과에서 제외되었고,
#       오직 '학생B' 인덱스만 두 데이터프레임에 공통으로 존재하므로 '학생B' 행만 남았습니다.
#       열(column) 기준으로도 공통된 '이름' 열만 남은 것을 볼 수 있습니다. (점수, 과목 열은 한쪽에만 있어서 제외)

# 각 줄이 어떤 역할을 하는지 설명:
# import pandas as pd: Pandas 라이브러리를 불러옵니다.
# data1, df1: 첫 번째 데이터프레임을 생성합니다. 이때 index를 명시적으로 지정합니다.
# data2, df2: 두 번째 데이터프레임을 생성합니다. df1과 다른 인덱스와 열을 가집니다.
# print(df1), print(df2): 원본 데이터프레임들을 출력하여 구조를 확인합니다.
# pd.concat([df1, df2], join='outer', axis=0): df1과 df2를 행 방향(axis=0)으로 합치는데,
#   join='outer' 옵션을 사용하여 두 데이터프레임의 모든 인덱스와 열을 포함합니다.
# pd.concat([df1, df2], join='inner', axis=0): df1과 df2를 행 방향(axis=0)으로 합치는데,
#   join='inner' 옵션을 사용하여 두 데이터프레임에 공통으로 존재하는 인덱스와 열만 포함합니다.

--- df1 (첫 번째 데이터프레임) ---
     이름  점수
학생A  철수  90
학생B  영희  85
학생C  민수  92
------------------------------

--- df2 (두 번째 데이터프레임) ---
     이름  과목
학생B  영희  영어
학생D  지민  수학
학생E  길동  과학
------------------------------

--- concat() with join='outer' (모든 인덱스 포함) ---
     이름    점수   과목
학생A  철수  90.0  NaN
학생B  영희  85.0  NaN
학생C  민수  92.0  NaN
학생B  영희   NaN   영어
학생D  지민   NaN   수학
학생E  길동   NaN   과학
--------------------------------------------------

--- concat() with join='inner' (공통 인덱스만 포함) ---
     이름
학생A  철수
학생B  영희
학생C  민수
학생B  영희
학생D  지민
학생E  길동
--------------------------------------------------


In [None]:
,2007,2008,2009,2010,2011
China,7.71,7.95,11.96,15.84,16.33
EU,19.02,17.71,15,16.7,17.48
US,10.47,8.45,5.58,7.6,8.4
Japan,10.87,10.83,7.55,9.09,7.88
Korea,4.04,3.78,3.45,4.2,4.62
Mexico,2.01,2.05,1.5,2.25,2.54

In [3]:
import pandas as pd

file_path = 'data.csv'

# CSV 파일을 불러옵니다. 이때, 첫 번째 컬럼이 인덱스가 아니라 일반 데이터 컬럼으로 인식되도록
# index_col=0 옵션을 주지 않고 불러옵니다. 그러면 'Unnamed: 0' 컬럼이 생성될 거예요.
df = pd.read_csv('./data/vehicle_prod.csv')

print("--- 원본 데이터프레임 (Unnamed: 0 컬럼 포함) ---")
print(df)
print("-" * 40) # 구분선 출력

# 'Unnamed: 0' 컬럼의 이름을 'Country'로 변경합니다.
# columns 매개변수에 딕셔너리 형태로 '이전_이름': '새로운_이름'을 전달합니다.
# inplace=True를 사용하여 원본 데이터프레임을 직접 수정합니다.
df.rename(columns={'Unnamed: 0': 'Country'}, inplace=True)

print("\n--- 'Unnamed: 0' 컬럼 이름 변경 후 ('Country'로) ---")
print(df)
print("-" * 40) # 구분선 출력

# 만약 'Unnamed: 0' 컬럼이 실제 인덱스였다면,
# 다시 Country 컬럼을 인덱스로 설정할 수도 있습니다.
# df.set_index('Country', inplace=True)
# print("\n--- 'Country' 컬럼을 인덱스로 설정 후 ---")
# print(df)
# print("-" * 40)

--- 원본 데이터프레임 (Unnamed: 0 컬럼 포함) ---
  Unnamed: 0   2007   2008   2009   2010   2011
0      China   7.71   7.95  11.96  15.84  16.33
1         EU  19.02  17.71  15.00  16.70  17.48
2         US  10.47   8.45   5.58   7.60   8.40
3      Japan  10.87  10.83   7.55   9.09   7.88
4      Korea   4.04   3.78   3.45   4.20   4.62
5     Mexico   2.01   2.05   1.50   2.25   2.54
----------------------------------------

--- 'Unnamed: 0' 컬럼 이름 변경 후 ('Country'로) ---
  Country   2007   2008   2009   2010   2011
0   China   7.71   7.95  11.96  15.84  16.33
1      EU  19.02  17.71  15.00  16.70  17.48
2      US  10.47   8.45   5.58   7.60   8.40
3   Japan  10.87  10.83   7.55   9.09   7.88
4   Korea   4.04   3.78   3.45   4.20   4.62
5  Mexico   2.01   2.05   1.50   2.25   2.54
----------------------------------------


In [4]:
import pandas as pd

# 예시용 데이터프레임 생성
df = pd.DataFrame({
    '이름': ['철수', '영희', '민수', '지영', '수진', '지훈', '미나', '현우', '서연', '다은', '지호', '은우'],
    '나이': [23, 25, 22, 24, 26, 21, 23, 25, 24, 22, 26, 23],
    '점수': [85, 90, 88, 92, 77, 81, 95, 89, 84, 91, 78, 86]
})

# 샘플링: 10개 랜덤 선택
sample_df = df.sample(n=10, random_state=42)

# 결과 출력
print(sample_df)


    이름  나이  점수
10  지호  26  78
9   다은  22  91
0   철수  23  85
8   서연  24  84
5   지훈  21  81
2   민수  22  88
1   영희  25  90
11  은우  23  86
4   수진  26  77
7   현우  25  89
