## Contents
 - 데이터 구조 Series, DataFrame
 - 인덱스, 생성, 선택, 추가, 변경, 삭제, 전치
 - 파이썬 자료형과 양방향 변환

#### 판다스
Pandas는 파이썬에서 데이터 분석 및 조작을 위한 강력하고 유연한 오픈 소스 라이브러리. Series와 DataFrame 같은 고수준의 데이터 구조를 제공하여, 복잡한 데이터 조작을 직관적이고 효율적으로 수행할 수 있게 한다.

[Pandas의 주요 역할과 기능]

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, SQL, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

In [None]:
# 시리즈 클래스 만들기
# pandas 불러오기(pd)
import pandas as pd

# key:value 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
# 리스트 시리즈로 변환

list_data = ['2024-05-27', 'abc', 3.14, 100, True]
sr = pd.Series(list_data, index = ['오늘 날짜', '영어', '파이', '숫자', '학생여부'])
print(sr)

오늘 날짜    2024-05-27
영어              abc
파이             3.14
숫자              100
학생여부           True
dtype: object


In [None]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['오늘 날짜', '영어', '파이', '숫자', '학생여부'], dtype='object')
['2024-05-27' 'abc' 3.14 100 True]


In [None]:
# 튜플을 시리즈로 변환

tup_data = ('kevin', '2024-05-27', '남', True)

sr = pd.Series(tup_data, index = ['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름           kevin
생년월일    2024-05-27
성별               남
학생여부          True
dtype: object


In [None]:
# 인덱싱
# import warnings
# warnings.filterwarnings('ignore')

print(sr[0])
print()
print(sr['이름'])
print()
print(sr[[1,2]])
print()
# 시리즈에서 위치 기반 인덱싱을 사용해서 여러 요스를 선택 가능
print(sr[[0,3]])

kevin

kevin

생년월일    2024-05-27
성별               남
dtype: object

이름      kevin
학생여부     True
dtype: object


In [None]:
# 배열
import numpy as np

s1 = np.arange(11,21,2)
print(s1, type(s1))
print()

s2 = pd.Series(s1, index = list('12345'))
print(s2, type(s2))


[11 13 15 17 19] <class 'numpy.ndarray'>

1    11
2    13
3    15
4    17
5    19
dtype: int64 <class 'pandas.core.series.Series'>


Q. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요.

data = np.arange(1000, 5000, 1000)
state = ['Califonia','Ohio','Oregon','Texas']

In [None]:
data1 = np.arange(1000, 5000, 1000)
print(data1)

obj = pd.Series(data1, index = ['Califonia','Ohio','Oregon','Texas'])
print(obj)

[1000 2000 3000 4000]
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
dtype: int64


### None과 np.nan의 차이점
- None은 파이썬의 내장형 객체로 주로 객체형 데이터에서 사용
- np.nan은 부동 소수점으로 취급되며, 주로 숫자형 데이터에서 사용
- 연산 시 np.nan은 NaN 결과를 반환하는 반면 None은 TypeError를 발생시킨다.

In [None]:
obj.Califonia = np.nan
obj

Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
dtype: float64

In [None]:
null_mask = obj.isnull()
null_mask

Califonia     True
Ohio         False
Oregon       False
Texas        False
dtype: bool

In [None]:
not_null_mask = obj.notnull()
not_null_mask

Califonia    False
Ohio          True
Oregon        True
Texas         True
dtype: bool

In [None]:
filled_series = obj.fillna(0)
filled_series

Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
dtype: float64

In [None]:
# 결측치들의 합
obj.isnull().sum()

1

In [None]:
dropped_series = obj.dropna()
dropped_series

Ohio      2000.0
Oregon    3000.0
Texas     4000.0
dtype: float64

In [None]:
dropped_series.isnull().sum()

0

In [None]:
print(s1)
print()
print(s2, type(s2))
print()
# Series → List 형태로 변환
list_from_series = s2.tolist()
list_from_series

[11 13 15 17 19]

1    11
2    13
3    15
4    17
5    19
dtype: int64 <class 'pandas.core.series.Series'>



[11, 13, 15, 17, 19]

In [None]:
# Series → Dict 형태로 변환
dict_from_series = s2.to_dict()
dict_from_series

{'1': 11, '2': 13, '3': 15, '4': 17, '5': 19}

In [None]:
df_from_series = s2.to_frame(name = 'Value')
df_from_series

Unnamed: 0,Value
1,11
2,13
3,15
4,17
5,19


Q. 아래 시리즈에서 null값을 2개 입력 후 그 값을 0으로 대체 후 null값 여부를 확인한 후 출력하세요.



In [None]:
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])
print(s)

s.x = np.nan
s.y = np.nan
print(s)
print()
print("null 갯수 :", s.isna().sum())
print()
s_1 = s.isnull()
s_1

s_filled = s.fillna(0)
print()
print("null 갯수 : ", s_filled.isna().sum())
s_2 = s.fillna(0)
s_2

x     5
y    15
z    25
w    35
v    45
dtype: int64
x     NaN
y     NaN
z    25.0
w    35.0
v    45.0
dtype: float64

null 갯수 : 2


null 갯수 :  0


x     0.0
y     0.0
z    25.0
w    35.0
v    45.0
dtype: float64

Q. 주어진 리스트 [1, 2, 3, 4, 5]를 Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.

In [None]:
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]

p1 = pd.Series(data_list)
print(p1)

# 시리즈 Value에 10을 더함
p2 = p1 + 10
print(p2)

0    1
1    2
2    3
3    4
4    5
dtype: int64
0    11
1    12
2    13
3    14
4    15
dtype: int64


Q. Series [10, 20, 30, 40, 50]를 생성하고 인덱스를 ['e', 'c', 'b', 'e', 'a']로 설정하세요. 인덱스를 기준으로 Series를 정렬한 결과를 출력하세요.

In [None]:
import pandas as pd

Series = [10, 200, 30, 400, 50]

s1 = pd.Series(Series, index = ['e', 'c', 'b', 'e', 'a'])
print(s1)
print()

# Index를 기준으로 정렬
s1_sorted = s1.sort_index()
print(s1_sorted)
print()

# Values 를 기준으로 정렬
s2_sorted = s1.sort_values()
print(s2_sorted)

e     10
c    200
b     30
e    400
a     50
dtype: int64

a     50
b     30
c    200
e     10
e    400
dtype: int64
e     10
b     30
a     50
c    200
e    400
dtype: int64


Q. Series ['a':1, 'b':2, 'c':3, 'd':4, 'e':5]에서 인덱스 'b', 'd'에 해당하는 원소를 선택하여 출력하세요.

In [None]:
import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']

# 1 - 1
Series = pd.Series(data, index = ['a', 'b', 'c', 'd', 'e'])
print(f"인덱스 'b'의 원소 : {Series[1]}, 인덱스 'd'의 원소 : {Series[3]}")
print()

# 1 - 2
selected_elements = Series[['b','d']]
print(selected_elements)
print()

# 1 - 3
print(Series[['b', 'c']])

인덱스 'b'의 원소 : 2, 인덱스 'd'의 원소 : 4

b    2
d    4
dtype: int64

b    2
c    3
dtype: int64


a    1
b    2
c    3
d    4
e    5
dtype: int64

#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체.
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [None]:
import numpy as np

# 같은 값으로 seed()에 넣어주면 randint의 값은 고정이 된다.
np.random.seed(1)
np.random.randint(100,200, size = (3,3))

array([[144, 147, 164],
       [167, 167, 109],
       [183, 121, 136]])

In [None]:
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120, size = (3,3))
print(data)
print()

df = pd.DataFrame(data,index = ['d1', 'd2', 'd3'],
                 columns = ['pd', 'sales', 'inv'])

print(df, type(df))

[[112 115 100]
 [103 103 107]
 [109 119 118]]

     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118 <class 'pandas.core.frame.DataFrame'>


In [None]:
# pandas, indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n')
print(df.loc['d2'])
print()

print(df.iloc[1,:], '\n')
print(df.loc['d2',:])

# Q. 107 출력하기
print(df.iloc[1,2])
print(df.loc['d2','inv'])

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64
107
107


In [None]:
# d3 행의 값을 0으로 만듬
df.loc['d3'] = 0
print(df)
print()

# d3 행의 value를 선택하여 값을 변경
df.loc['d3', 'sales'] = 100
print(df)
print()

# 열의 내용을 추가 및 수정
df.loc[:, 'profic'] = 10
print(df)

df.loc['d1', 'profic'] = 20
print(df)

     pd  sales  inv  profic
d1  112    115  100      20
d2  103    103  107      10
d3    0      0    0       0
d4    0      0    0      10

     pd  sales  inv  profic
d1  112    115  100      20
d2  103    103  107      10
d3    0    100    0       0
d4    0      0    0      10

     pd  sales  inv  profic
d1  112    115  100      10
d2  103    103  107      10
d3    0    100    0      10
d4    0      0    0      10
     pd  sales  inv  profic
d1  112    115  100      20
d2  103    103  107      10
d3    0    100    0      10
d4    0      0    0      10


In [None]:
# 생성 / d4 행의 값을 0으로 만듬
df.loc['d4'] = 0
print(df)

     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3    0      0    0
d4    0      0    0


In [None]:
print(df.pd, type(df.pd))

d1    112
d2    103
d3    109
Name: pd, dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
df = pd.DataFrame(data, columns = ['pd', 'sales', 'inv'])
df

Unnamed: 0,pd,sales,inv
0,112,115,100
1,103,103,107
2,109,119,118


#### Pandas의 iloc와 loc 메서드
DataFrame과 Series에서 데이터의 특정 위치나 라벨에 접근하기 위한 중요한 도구이며 두 메서드는 각각 고유한 용도를 가지고 있다.

- iloc (Integer Location)
  - 정수 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 특정 위치에 있는 데이터를 선택할 때 사용.
  - 슬라이싱 지원: Python 리스트와 유사하게 슬라이싱을 지원.
  - 끝점 포함하지 않음: 슬라이싱 시 끝점은 포함하지 않는다.
- loc (Label Location)
  - 라벨 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 라벨 이름을 사용하여 데이터에 접근.
  - 슬라이싱 지원: 라벨을 사용하여 슬라이싱을 지원.
  - 끝점 포함: 슬라이싱 시 끝점을 포함.

In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data)
print(df,'\n')

# 첫 번째 행 / 두 번째 열의 값 선택
print(f"0번째 행, 2번째 열의 값 : {df.iloc[0, 1]}") # 출력: 5
print(f"1번째 행, 3번째 열의 값 : {df.iloc[1, 2]}") # 출력: 10
print(f"3번째 행, 1번째 열의 값 : {df.iloc[3, 0]}") # 출력: 4
print()

# 첫 번째부터 두 번째 행 / 첫 번째부터 두번째 열 선택
print(df.iloc[0:2, 0:2])

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12 

0번째 행, 2번째 열의 값 : 5
1번째 행, 3번째 열의 값 : 10
3번째 행, 1번째 열의 값 : 4

   A  B
0  1  5
1  2  6


In [None]:
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data, index = ['a', 'b', 'c', 'd'])
print(df,'\n')

# 인덱스 'a', 열 'B'의 값 선택
print(df.loc['a', 'B']) # 출력 : 5
print()

# 인덱스 'a'부터 'b', 열 'A'부터 'B' 선택
print(df.loc['a':'b', 'A':'B'])

   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12 

5

   A  B
a  1  5
b  2  6


In [None]:
import random
print(random.random(),'\n') # 0.0 <= x < 1.0 사이
print(random.randint(1,10),'\n') # 1에서 10사이의 정수중에서 난수 값 리턴
print(random.uniform(10,20), '\n') # min max 사이 float 리턴
print(random.randrange(10), '\n') # 지정 범위 int 리턴
print(random.choice([1,2,3,4,5]),'\n') # 리스트 내부에 있는 요소를 랜덤하게 선택
li = [1,2,3,4,5]
print(random.sample(li,3),'\n') # 리스트 요소를 중복이 안되게 리턴
random.shuffle(li) # 리스트 요소를 다시 섞어서 리턴
print(li)

0.3778364411217928 

4 

15.325777857551545 

2 

2 

[4, 1, 5] 

[1, 5, 3, 4, 2]


#### [numpy random 함수]

- np.random.seed : seed를 통한 난수 생성
- np.random.randint : 정수 난수 1개 생성
- np.random.rand : 0부터 1사이의 균일분포에서 난수 매트릭스 배열 생성
- np.random.randn : 가우시안 표준 정규분포에서 난수 매트릭스 배열 생성
- np.random.shuffle : 기존의 데이터의 순서 바꾸기
- np.random.choice : 기존 데이터에서 sampling

In [None]:
import numpy as np
print(np.random.randint(6), '\n') # 0 ~ 5까지 정수인 난수 1개
print(np.random.randint(1,20),'\n') # 1 ~ 19까지 정수인 난수 1개
print(np.random.randint(10, size=10), '\n') # 0 ~ 9까지 정수인 난수 10개
print(np.random.randint(10,20, size=10),'\n') # 10 ~ 19까지 정수인 난수 10개
print(np.random.randint(10,20, size=(3,5))) # 10 ~ 19까지 정수인 난수로 3행 5열 배열 생성


4 

7 

[8 8 1 6 7 7 8 1 5 9] 

[18 19 14 13 10 13 15 10 12 13] 

[[18 11 13 13 13]
 [17 10 11 19 19]
 [10 14 17 13 12]]


In [None]:
np.arange(1, 1001)

array([   1,    2,    3,    4,    5,    6,    7,    8,    9,   10,   11,
         12,   13,   14,   15,   16,   17,   18,   19,   20,   21,   22,
         23,   24,   25,   26,   27,   28,   29,   30,   31,   32,   33,
         34,   35,   36,   37,   38,   39,   40,   41,   42,   43,   44,
         45,   46,   47,   48,   49,   50,   51,   52,   53,   54,   55,
         56,   57,   58,   59,   60,   61,   62,   63,   64,   65,   66,
         67,   68,   69,   70,   71,   72,   73,   74,   75,   76,   77,
         78,   79,   80,   81,   82,   83,   84,   85,   86,   87,   88,
         89,   90,   91,   92,   93,   94,   95,   96,   97,   98,   99,
        100,  101,  102,  103,  104,  105,  106,  107,  108,  109,  110,
        111,  112,  113,  114,  115,  116,  117,  118,  119,  120,  121,
        122,  123,  124,  125,  126,  127,  128,  129,  130,  131,  132,
        133,  134,  135,  136,  137,  138,  139,  140,  141,  142,  143,
        144,  145,  146,  147,  148,  149,  150,  1

In [None]:
# id, gender, age, region
import numpy as np
import pandas as pd
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101, size = 1000)
a1 = pd.Series(age)

region = np.random.randint(1,11, size = 1000)
r1 = pd.Series(region)

df = pd.concat([i1, g1, a1, r1], axis = 1)
# inplace = True 원본에 적용하는 것을 OK
df.rename(columns={0: 'id', 1: 'gender', 2: 'age', 3: 'region'}, inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
0,1,1,71,5
1,2,1,85,9
2,3,1,35,8
3,4,1,41,1
4,5,1,79,6


In [None]:
# 0번째 인덱스 삭제
df.drop([0], axis = 0, inplace = True)
df.head()

Unnamed: 0,id,gender,age,region
1,2,1,85,9
2,3,1,35,8
3,4,1,41,1
4,5,1,79,6
5,6,1,90,3


In [None]:
df.at[5, 'id']

6

In [None]:
df.loc[5, 'id']

6

- at는 라벨 기반 인덱싱을 사용, 단일값을 접근할 때 loc 접근자 보다 빠르다.
- 여러 값을 동시에 접근하려면 loc 접근자를 사용

In [None]:
df1 = df.drop(df.at[5, 'id'])
df1.head(7)

Unnamed: 0,id,gender,age,region
1,2,1,85,9
2,3,1,35,8
3,4,1,41,1
4,5,1,79,6
5,6,1,90,3
7,8,1,24,6
8,9,0,87,7


In [None]:
df1 = df.copy()
df1.head()

Unnamed: 0,id,gender,age,region
1,2,1,85,9
2,3,1,35,8
3,4,1,41,1
4,5,1,79,6
5,6,1,90,3


In [None]:
np.random.seed(0)
a = np.random.randint(1,5, size = (10, 5))
print(a)

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]]


In [None]:
# 2차원 리스트를 데이터프레임으로 변환
list1 = a.tolist()
print(list1)

df1 = pd.DataFrame(list1, columns = ['c1', 'c2', 'c3', 'c4', 'c5'])
print(df1)

[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]]
   c1  c2  c3  c4  c5
0   1   4   2   1   4
1   4   4   4   2   4
2   2   3   1   4   3
3   1   1   1   3   2
4   3   4   4   3   1
5   2   2   2   2   1
6   2   1   4   1   4
7   2   3   4   4   1
8   3   4   1   2   4
9   2   4   4   3   4


In [None]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar, type(ar))
li = ar.tolist()
print(li)

dict = df1.to_dict('list')
print(dict)

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>
[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]]
{'c1': [1, 4, 2, 1, 3, 2, 2, 2, 3, 2], 'c2': [4, 4, 3, 1, 4, 2, 1, 3, 4, 4], 'c3': [2, 4, 1, 1, 4, 2, 4, 4, 1, 4], 'c4': [1, 2, 4, 3, 3, 2, 1, 4, 2, 3], 'c5': [4, 4, 3, 2, 1, 1, 4, 1, 4, 4]}


Task1_0527. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [1]:
import numpy as np
import pandas as pd
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size = 1000)

g1 = pd.Series(gender)
age = np.random.randint(1,101, size = 1000)

a1 = pd.Series(age)

region = np.random.randint(1,11, size = 1000)
r1 = pd.Series(region)

df = pd.concat([i1, g1, a1, r1], axis = 1)
# inplace = True 원본에 적용하는 것을 OK
df.rename(columns={0: 'id', 1: 'gender', 2: 'age', 3: 'region'}, inplace=True)

#  출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
print(df.iloc[[0, 1, 2, 3, 4]])

# null값을 3개 추가
null_counts = df.isnull().sum()
print( null_counts,'\n')
df.dropna(inplace=True)
print(df.head(7))

# null값의 개수를 확인하고 삭제
df.loc[3, 'age'] = 50
df.loc[4, 'region'] = 5

df.drop(index=5, inplace=True)

# 2개의 데이터를 수정
df.loc[3, 'age'] = 50
df.loc[4, 'region'] = 5

# 1개의 행을 삭제
df.drop(index=5, inplace=True)

# 최종 데이터프레임 출력
print(df.head(7))

Task2_0527. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [3]:
import pandas as pd
import numpy as np
df = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,4,1,2,1,4
s2,2,3,3,3,3
s3,3,2,4,1,1
s4,1,1,3,4,4
s5,1,3,3,3,2
s6,4,3,3,4,3
s7,4,1,1,2,2
s8,3,1,2,4,2
s9,3,1,4,4,4
s10,1,4,2,2,3


In [4]:
# 등급간 점수 차는 5점
# df.iloc[0] # s1
# df.iloc[1] # s2

for i in range(10):
    df.iloc[i] = 90 - i * 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [15]:
# 영어, 수학의 평균 점수가 국어 대비 5점 낮음
# df.iloc[0, 1:3] → 영어 85 / 수학 85
# df.iloc[0, 0] - 5 → 국어 90
for i in range(10):
    df.iloc[i, 1:3] = df.iloc[i, 0] - 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [10]:
# 결시자가 국어 3명, 수학 2명 있음
a = df.copy()
a.iloc[7:, 0] = np.nan
a.iloc[8:, 2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


Task3_0527. df1에서 결측값 처리 후 딕셔너리, 리스트로 변환하여 출력하세요.

In [16]:
df1 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, np.nan, 88, 90, 76],
    "English": [92, 85, 89, np.nan, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, np.nan]
})

In [19]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Name     5 non-null      object 
 1   Math     4 non-null      float64
 2   English  4 non-null      float64
 3   Science  5 non-null      int64  
 4   History  4 non-null      float64
dtypes: float64(3), int64(1), object(1)
memory usage: 328.0+ bytes


In [17]:
# Columns
df1.columns

Index(['Name', 'Math', 'English', 'Science', 'History'], dtype='object')

In [18]:
# 숫자 열에 대해 결측값을 각 열의 평균값으로 대체
df2 = df1.copy()
columns = ['Math', 'English', 'Science', 'History']
for column in columns:
    df2[column].fillna(df2[column].mean(), inplace = True)
df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [23]:
# df1 데이터프레임에서 숫자형 데이터 타입을 가진 열들만 선택
df2 = df1.copy()
for column in df2.select_dtypes(include = [np.number]).columns:
    df1[column].fillna(df2[column].mean(), inplace = True)
df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,,85,91.0
4,Eve,76.0,80.0,89,


In [24]:
# 배열로 변환
array1 = df2.to_numpy()
print(array1, '\n')

# 딕셔너리로 변환
dict1 = df2.to_dict(orient = 'list')
print(dict1, '\n')

# 리스트로 변환
list1 = df2.values.tolist()
print(list1, '\n')

[['Alice' 85.0 92.0 78 88.0]
 ['Bob' nan 85.0 90 92.0]
 ['Charlie' 88.0 89.0 95 85.0]
 ['David' 90.0 nan 85 91.0]
 ['Eve' 76.0 80.0 89 nan]]
{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'Math': [85.0, nan, 88.0, 90.0, 76.0], 'English': [92.0, 85.0, 89.0, nan, 80.0], 'Science': [78, 90, 95, 85, 89], 'History': [88.0, 92.0, 85.0, 91.0, nan]}
[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', nan, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, nan, 85, 91.0], ['Eve', 76.0, 80.0, 89, nan]]


In [None]:
df2_value = df2.values
print(df2_value, '\n')

df2_list = df2_value.tolist()
print(df2_list, '\n')

df2_dict = df2.to_dict('list')
print(df2_dict,'\n')

Task4_0527. df2에서 아래와 같이 데이터 필터링 및 정렬 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
- Math 점수가 80 이상인 학생만 선택
- English 점수를 기준으로 내림차순 정렬

In [None]:
df2 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, 79, 88, 90, 76],
    "English": [92, 85, 89, 93, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, 84]
})

In [None]:
df2_math = df2.loc[df2.Math >= 80,['Name', 'Math', 'English', 'Science', 'History']]

df2_math_englishsort = df2_math.sort_values(['English'])

# 데이터프레임(DF) → 배열(Value) 로 변경
df2_value = df2_math_englishsort.values
print(df2_value, '\n')

# 데이터프레임(DF) → 리스트(list) 로 변경
df2_list = df2_value.tolist()
print(df2_list, '\n')

# 데이터프레임(DF) → 딕셔너리(dict) 로 변경
df2_dict = df2_math_englishsort.to_dict('list')
print(df2_dict)

df2_math_englishsort

Task5_0527. df3에서 각 학생의 평균 점수 계산 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.

In [26]:
df3 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve", "Alice", "Bob", "Charlie", "David", "Eve"],
    "Subject": ["Math", "Math", "Math", "Math", "Math", "English", "English", "English", "English", "English"],
    "Score": [85, 79, 88, 90, 76, 92, 85, 89, 93, 80]
})

In [27]:
df3.pivot_table(index = 'Name', columns = 'Subject', values = 'Score', aggfunc = 'mean')

Subject,English,Math
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,92,85
Bob,85,79
Charlie,89,88
David,93,90
Eve,80,76


In [28]:
df3_pivot = df3.pivot_table(index = 'Name', columns = 'Subject', values = 'Score', aggfunc = 'mean').reset_index()
df3_pivot.columns.name = None

print(df3_pivot)

      Name  English  Math
0    Alice       92    85
1      Bob       85    79
2  Charlie       89    88
3    David       93    90
4      Eve       80    76


Task6_0527. df4에서 특정 열의 데이터 타입을 변환한 후 변환된 타입을 확인하세요.

In [None]:
df4 = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['5.1', '6.2', '7.3', '8.4'],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']
})

In [None]:
# 'A'열을 정수형(int)으로 변환
df4['A'] = df4['A'].astype(int)

# 'B'열을 부동 소수점(float)으로 변환
df4['B'] = df4['B'].astype(float)

# 'C'열을 datetime으로 변환
df4['C'] = pd.to_datetime(df4['C'])

print(df4.dtypes)

Task7_0527. df5에서 나이가 25 이상인 행을 출력하세요.

In [None]:
df5 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
})

In [None]:
subset = df5[df5['Age'] > = 25]
subset

In [34]:
# file 생성
import pandas as pd

file_data = pd.DataFrame({
    'col1': [1, 2, 3, 4, 5, 6],
    'col2': ['A', 'A', 'B', 'B', 'C', 'C']
})

print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [36]:
file_data.to_csv('file_data.csv', index = None)
# index = None을 넣지 않으면 아래에 데이터프레임으로 변환했을 때 중복이 생기게 됨.

In [38]:
!ls

file_data.csv  sample_data


In [42]:
file_data = pd.read_csv('file_data.csv')
print(file_data,'\n',type(file_data))

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C 
 <class 'pandas.core.frame.DataFrame'>


In [44]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1)
print()
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C

   col1 col2
0     4    D
1     5    E
2     6    F


In [48]:
# Q. df_1 과 df_2 를 행방향과 열방향으로 병합하여 출력하세요.

# axis = 1 → 행방향으로 정렬
# axis = 0 → 열방향으로 정렬
df_3 = pd.concat([df_1, df_2], axis = 1)
df_4 = pd.concat([df_1, df_2])

print(df_3, '\n')
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [50]:
df_4.iloc[:, 1]

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [51]:
df_4['col2']

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [52]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [55]:
# 열 이름과 행 이름 변경하기 : rename
columns_ch={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'}
index_ch={0:'a',1:'b',2:'c',3:'d',4:'e',5:'f',6:'g',7:'h'}

df.rename(columns = columns_ch, index = index_ch, inplace = True)
df

Unnamed: 0,국어,영어,수학,과학,음악
a,92,74,53,58,50
b,71,69,60,93,91
c,60,71,88,82,70
d,94,79,89,64,76
e,67,76,72,52,52
f,51,76,55,90,96
g,83,79,92,74,57
h,93,83,65,98,87


In [58]:
# 데이터프레임 생성
import numpy as np
import pandas as pd
np.random.seed(0)

data = np.random.randint(80,100,size=(5,5))
df1 = pd.DataFrame(data, columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [59]:
df1['index'] = list('가나다라마')
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [61]:
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [64]:
df21 = df2.drop('e', axis = 1)
df21

Unnamed: 0_level_0,a,b,c,d
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,92,95,80,83
나,87,89,99,98
다,86,92,81,86
라,94,97,85,93
마,89,99,96,99


In [65]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,95,80,83,83
1,나,87,89,99,98,84
2,다,86,92,81,86,87
3,라,94,97,85,93,88
4,마,89,99,96,99,85


In [66]:
df22 = df3.set_index('index')
df22

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [67]:
df22.index.name = None
df22

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [76]:
# 딕셔서리를 정의
dict_data = {
    'a':[1,2,3,4,5],
    'b':[4,5,6,7,8],
    'c':[7,8,9,10,11],
    'd':[10,11,12,13,14],
    'e':[13,14,15,16,17]
}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [75]:
# r5 , r6 행을 추가하고 값은 0을 적용
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [79]:
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8']
# fill_value : reindex 메서드를 사용할 때,
# 새로 추가된 인덱스의 위치에 값을 채우기 위해 사용하는 매개변수
df5 = df.reindex(new_index, fill_value = 0)
df5

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [80]:
df1 = df5.drop(df5.index[5:9])
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [82]:
# Q.df5에서 r5 ~ r8까지 삭제 후 df1으로 출력하세요.
df1 = df5.drop(['r5','r6','r7','r8'], axis = 0)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [83]:
# index 기준으로 정렬
df1_s = df1.sort_index(ascending = False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [88]:
# value 기준으로 정렬
# ascending = False 는 내림차순으로 정렬 되도록하는 매개변수
# ascending = False를 안쓰게 되면 자동적으로 오름차순으로 정리가 된다.
df1_c = df1.sort_values(by = 'c', ascending = False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [90]:
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [91]:
# 전치 : 행과 열을 바꿈
# 사용 시 주의사항 : 행과 열의 길이가 같아야 사용 가능 (정방행렬)
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [92]:
df1 = df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [152]:
# Q. df1으로 데이터프레임을 생성한 후 set_index를 사용하여
# ID를 인덱스 설정한 데이터프레임을 출력하세요.
df1 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})
df1

Unnamed: 0,ID,Name,Age
0,101,Alice,24
1,102,Bob,27
2,103,Charlie,22
3,104,David,32


In [153]:
df1.set_index('ID', inplace = True)
df1

Unnamed: 0_level_0,Name,Age
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32


In [156]:
# Q. df2에 대해서 다음을 수행하세요.
# - set_index를 사용하여 인덱스를 설정.
# - reset_index를 사용하여 인덱스를 리셋.

df2 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})
df2

Unnamed: 0,ID,Name,Age
0,101,Alice,24
1,102,Bob,27
2,103,Charlie,22
3,104,David,32


In [157]:
df2.set_index('ID', inplace = True)
df2

Unnamed: 0_level_0,Name,Age
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32


In [158]:
df21 = df2.reset_index()
df21

Unnamed: 0,ID,Name,Age
0,101,Alice,24
1,102,Bob,27
2,103,Charlie,22
3,104,David,32


In [160]:
# Q. df3에 대해서 reindex를 사용하여 인덱스를 변경하여 출력하세요.
df3 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
}, index=[101, 102, 103, 104])
df3

Unnamed: 0,Name,Age
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32


In [165]:
new_index = [101, 102, 105, 106]
df31 = df3.reindex(new_index)
df31

Unnamed: 0,Name,Age
101,Alice,24.0
102,Bob,27.0
105,,
106,,


In [121]:
# Q. df4에 대해서 reindex를 사용하여 인덱스를 변경하고
# 결측치를 0으로 채운 데이터프레임을 출력하세요.

df4 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22]
}, index=[0, 1, 2])

print("기존 인덱스:\n", df4)
df4

기존 인덱스:
       Name  Age
0    Alice   24
1      Bob   27
2  Charlie   22


Unnamed: 0,Name,Age
0,Alice,24
1,Bob,27
2,Charlie,22


In [122]:
new_index = [0, 1, 2, 3, 4]
df41 = df4.reindex(new_index, fill_value = 0)
df41

Unnamed: 0,Name,Age
0,Alice,24
1,Bob,27
2,Charlie,22
3,0,0
4,0,0


In [166]:
# Q. df5에서 reindex를 사용하여 특정 날짜 범위로 인덱스를 재설정하여 출력하세요.
dates = pd.date_range('2024-01-01', periods=4, freq='D')
df5 = pd.DataFrame({
    'Value': [10, 20, 30, 40]
}, index=dates)
df5

Unnamed: 0,Value
2024-01-01,10
2024-01-02,20
2024-01-03,30
2024-01-04,40


In [170]:
# 새로운 날짜 범위로 인덱스 재설정
new_dates = pd.date_range('2024-01-01', periods=6, freq = 'D')
df_reindexed = df5.reindex(new_dates)
print(df_reindexed)

            Value
2024-01-01   10.0
2024-01-02   20.0
2024-01-03   30.0
2024-01-04   40.0
2024-01-05    NaN
2024-01-06    NaN


In [141]:
# Q. 데이터프레임 df6를 전치하고, 전치된 데이터프레임을 정리하여
# 연도별 판매량 데이터를 제품별로 나열하여 출력하세요.
data = {
    'Year': ['2020', '2021', '2022'],
    'Product_A': [500, 600, 700],
    'Product_B': [400, 500, 600],
    'Product_C': [300, 400, 500]
}
df6 = pd.DataFrame(data)
df6

Unnamed: 0,Year,Product_A,Product_B,Product_C
0,2020,500,400,300
1,2021,600,500,400
2,2022,700,600,500


In [177]:
df6.set_index('Year')

Unnamed: 0_level_0,Product_A,Product_B,Product_C
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,500,400,300
2021,600,500,400
2022,700,600,500
2023,800,700,600


In [178]:
df_transposed = df6.set_index('Year').T
print(df_transposed)

Year       2020  2021  2022  2023
Product_A   500   600   700   800
Product_B   400   500   600   700
Product_C   300   400   500   600


In [179]:
# 전치된 데이터프레임 정리
# reset_index 를 사용하여 인덱스를 리셋하고, rename을 사용하여 'index'열을 'Product'로 변경
df_transposed.reset_index(inplace=True)
df_transposed.rename(columns={'index': 'Product'}, inplace=True)
print(df_transposed)

Year    Product  2020  2021  2022  2023
0     Product_A   500   600   700   800
1     Product_B   400   500   600   700
2     Product_C   300   400   500   600
