#### 판다스


* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 데이터 정제, 필터링, 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

In [1]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr)
type(sr)

a    1
b    2
c    3
dtype: int64


pandas.core.series.Series

In [5]:
# 리스트를 시리즈로 변환
import pandas as pd

list_data = ['2019-07-02',3.14,'ABC',100,True]
# sr = pd.Series(list_data,index=list('abcde'))
sr = pd.Series(list_data)
sr

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object

In [3]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [6]:
# 튜플을 시리즈로 변환
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [10]:
# 인덱싱
import warnings
warnings.filterwarnings('ignore')
print(sr[0])
print(sr['이름'])
print(sr[[1,2]])
# print(sr[1,2])

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [14]:
import numpy as np

s1 = np.arange(11,21,2)
print(s1, type(s1))
print()
s2 = pd.Series(s1, index=list('abcde'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
d    17
e    19
dtype: int32 <class 'pandas.core.series.Series'>


In [None]:
# Q. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요. 
state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [18]:
import numpy as np
data = np.arange(1000, 5000, 1000)
state = ['Califonia','Ohio','Oregon','Texas']
obj = pd.Series(data,index=state)
obj.name = 'population'
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [19]:
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [21]:
null_mask = obj.isnull()
null_mask

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [22]:
not_null_mask = obj.notnull()
not_null_mask

state
Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [23]:
filled_series = obj.fillna(0)
filled_series

state
Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [24]:
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [27]:
obj.isnull().sum()

1

In [26]:
dropped_series = obj.dropna()
dropped_series

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [28]:
dropped_series.isnull().sum()

0

In [15]:
list_from_series = s2.tolist()
list_from_series

[11, 13, 15, 17, 19]

In [16]:
dict_from_series = s2.to_dict()
dict_from_series

{'a': 11, 'b': 13, 'c': 15, 'd': 17, 'e': 19}

In [17]:
df_from_series = s2.to_frame(name='Value')
df_from_series

Unnamed: 0,Value
a,11
b,13
c,15
d,17
e,19


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [36]:
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))
print(data, type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                 columns = ['pd','sales','inv'])
# df = pd.DataFrame(data, columns = ['pd','sales','inv'])
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [37]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n')
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [38]:
print(df.iloc[1,:],'\n')
print(df.loc['d2',:])

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [None]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
print(df.iloc[1,1])
print(df.loc['d2','sales'])

111
111


In [None]:
df.loc['d3'] = 0
df

Unnamed: 0,pd,sales,inv
d1,108,115,113
d2,108,111,118
d3,0,0,0


In [None]:
df.loc['d4'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118
d4,0,0,0


In [6]:
# id, gender, age, region
import numpy as np
import pandas as pd
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)


df = pd.concat([i1,g1,a1,r1],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region'},inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
0,1,0,54,1
1,2,1,54,9
2,3,1,89,1
3,4,1,97,3
4,5,0,4,3


In [7]:
df.drop([0], axis=0, inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
1,2,1,54,9
2,3,1,89,1
3,4,1,97,3
4,5,0,4,3
5,6,1,3,1


In [None]:
df.drop([0], axis=0, inplace=True)
df.head()

In [9]:
df.at[5, 'id']

6

In [10]:
df1 = df.drop(df.at[5, 'id'])
df1.head(7)

Unnamed: 0,id,gender,age,region
1,2,1,54,9
2,3,1,89,1
3,4,1,97,3
4,5,0,4,3
5,6,1,3,1
7,8,1,79,5
8,9,0,30,8


과제. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [None]:
# df1 = df[:]
df1 = df.copy()
df1.head(3)
# df1.tail(3)

Unnamed: 0,id,gender,age,region
0,1,1,34,8
1,2,0,81,1
2,3,0,9,3


In [40]:
a = np.random.randint(1,5,size=(10,5))
print(a,type(a))

[[2 1 4 1 3]
 [3 4 1 3 3]
 [2 1 1 2 3]
 [2 2 2 3 4]
 [4 4 2 4 1]
 [4 3 2 2 4]
 [2 2 2 2 1]
 [3 1 4 4 2]
 [2 4 2 1 2]
 [1 3 1 4 4]] <class 'numpy.ndarray'>


In [56]:
# 2차원 리스트를 데이터프레임으로 변환
list1 = a.tolist()
# print(list1,type(list))

df1 = pd.DataFrame(list1, columns=['c1','c2','c3','c4','c5'])
# df1 = pd.DataFrame(list1, columns=list('abcde'))
print(df1.head(3))

   c1  c2  c3  c4  c5
0   2   1   4   1   3
1   3   4   1   3   3
2   2   1   1   2   3


In [43]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
# print(ar,type(ar))
print()
li = ar.tolist()
print(li,type(li))
print()
dict = df1.to_dict('list')
print(dict,type(dict))


[[2, 1, 4, 1, 3], [3, 4, 1, 3, 3], [2, 1, 1, 2, 3], [2, 2, 2, 3, 4], [4, 4, 2, 4, 1], [4, 3, 2, 2, 4], [2, 2, 2, 2, 1], [3, 1, 4, 4, 2], [2, 4, 2, 1, 2], [1, 3, 1, 4, 4]] <class 'list'>

{'c1': [2, 3, 2, 2, 4, 4, 2, 3, 2, 1], 'c2': [1, 4, 1, 2, 4, 3, 2, 1, 4, 3], 'c3': [4, 1, 1, 2, 2, 2, 2, 4, 2, 1], 'c4': [1, 3, 2, 3, 4, 2, 2, 4, 1, 4], 'c5': [3, 3, 3, 4, 1, 4, 1, 2, 2, 4]} <class 'dict'>


In [44]:
# file 생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']  
})
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [46]:
%pwd

'D:\\kdt_231026\\workspace\\m3_분석라이브러리\\pandas'

In [50]:
!mkdir data

In [52]:
file_data.to_csv('data/file_data.csv',index=None)
file_data = pd.read_csv('data/file_data.csv')
print(file_data,type(file_data))

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C <class 'pandas.core.frame.DataFrame'>


In [53]:
ls

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\kdt_231026\workspace\m3_분석라이브러리\pandas 디렉터리

2023-11-21  오전 11:00    <DIR>          .
2023-11-21  오전 11:00    <DIR>          ..
2023-11-21  오전 09:06    <DIR>          .ipynb_checkpoints
2023-11-21  오전 11:00    <DIR>          data
2023-11-17  오후 05:20    <DIR>          dataset
2023-11-21  오전 10:59           162,736 pandas_1_데이터형식.ipynb
2023-03-26  오후 08:01            78,378 pandas_2_연산.ipynb
2023-03-27  오전 01:37            80,307 pandas_3_읽기_조회_인덱싱_정렬_중복_탐색_이상치_파생변수_함수.ipynb
2023-04-02  오후 07:21            59,594 pandas_4_날짜.ipynb
2022-06-27  오전 05:29           719,836 pandas_5_입출력.ipynb
2022-07-03  오전 06:16            46,594 pandas_6_전처리.ipynb
2023-03-27  오전 01:37           649,933 pandas_7_전처리.ipynb
2023-04-02  오후 06:35           319,169 pandas_8_응용.ipynb
2023-11-21  오전 10:52            18,627 데이터 형식.ipynb
               9개 파일           2,135,174 바이트
               5개 디렉터리  433,117,884,416 바이트 남음


In [22]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1)

   col1 col2
0     1    A
1     2    B
2     3    C


In [23]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력하세요.
df_3 =pd.concat([df_1,df_2],axis=1)
df_4 =pd.concat([df_1,df_2])
print(df_3)
print()
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [24]:
df_4

Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
0,4,D
1,5,E
2,6,F


In [26]:
df_4.iloc[:,1]

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [32]:
df_4['col2']

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [34]:
df_4.iloc[1]

col1    2
col2    B
Name: 1, dtype: object

In [20]:
# 데이터 추출
# print(df_4.col2)
print(df_4['col2'])

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object


In [None]:
# pd.DataFrame(df_4['col2'])
df_4[['col1']]

Unnamed: 0,col1
0,1
1,2
2,3
0,4
1,5
2,6


In [None]:
df = df1.copy()
df

Unnamed: 0,id,gender,age,region
0,1,1,34,8
1,2,0,81,1
2,3,0,9,3
3,4,1,81,7
4,5,0,50,8
...,...,...,...,...
995,996,0,18,10
996,997,0,57,2
997,998,1,51,6
998,999,1,26,10


In [None]:
# 열 삭제
df = df1.copy()
df_a = df.drop('c1',axis=1)
df_a

In [11]:
import pandas as pd
import numpy as np
df = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,1,3,4,3,4
s2,1,2,3,1,3
s3,4,4,1,1,2
s4,4,4,2,4,2
s5,1,1,3,3,2
s6,4,2,4,3,2
s7,3,4,4,4,4
s8,1,4,3,4,2
s9,1,3,4,4,1
s10,3,1,3,2,1


과제. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [12]:
for i in range(10):
    df.iloc[i] = 90 - i*5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [14]:
for i in range(10):
    df.iloc[i,1:3] = df.iloc[i,0] - 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [15]:
a = df.copy()
a.iloc[7:,0] = np.nan
a.iloc[8:,2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


In [17]:
a['평균'] = (a['국어']+a['영어']+a['수학']+a['과학']+a['사회'])/5
# a['평균'] = a.mean()
a

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,85.0,80,80.0,85,85,83.0
s3,80.0,75,75.0,80,80,78.0
s4,75.0,70,70.0,75,75,73.0
s5,70.0,65,65.0,70,70,68.0
s6,65.0,60,60.0,65,65,63.0
s7,60.0,55,55.0,60,60,58.0
s8,,50,50.0,55,55,
s9,,45,,50,50,
s10,,40,,45,45,


In [54]:
b = a.copy()
avg1 = b['국어'].mean()
avg2 = b['수학'].mean()
print(avg1,avg2)

75.0 70.0


In [55]:
b['국어'].fillna(avg1,inplace=True)
b['수학'].fillna(avg2, inplace=True)
b

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,85.0,80,80.0,85,85,83.0
s3,80.0,75,75.0,80,80,78.0
s4,75.0,70,70.0,75,75,73.0
s5,70.0,65,65.0,70,70,68.0
s6,65.0,60,60.0,65,65,63.0
s7,60.0,55,55.0,60,60,58.0
s8,75.0,70,70.0,55,55,
s9,75.0,70,70.0,50,50,
s10,75.0,70,70.0,45,45,


In [None]:
# 첫행만 출력
df.query('index==0')

Unnamed: 0,c1,c2,c3,c4,c5
0,3,2,2,4,3


In [None]:
df.query('c3==3')

Unnamed: 0,c1,c2,c3,c4,c5
1,3,1,3,2,4
3,4,1,3,2,2
4,1,4,3,4,4
9,3,4,3,1,4


In [None]:
df.query('c3==2 & c4==2')

Unnamed: 0,c1,c2,c3,c4,c5
7,2,2,2,2,2


In [None]:
df.query('c3==2 | c4==2')

Unnamed: 0,c1,c2,c3,c4,c5
0,3,2,2,4,3
1,3,1,3,2,4
3,4,1,3,2,2
5,1,1,1,2,4
7,2,2,2,2,2
8,4,1,2,1,1


In [None]:
df.query('c3==3')[['c3','c4']]

Unnamed: 0,c3,c4
1,3,2
3,3,2
4,3,4
9,3,1


In [None]:
help(df.query)

In [None]:
df_e = df[:3]
df_e

Unnamed: 0,id,gender,age,region
0,1,1,34,8
1,2,0,81,1
2,3,0,9,3


In [2]:
import numpy as np
import pandas as pd
np.random.seed(2)
data = np.random.randint(50,100,size=(3,5))

df_e = pd.DataFrame(data, columns=list('abcde'))
df_e

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [3]:
import warnings
warnings.filterwarnings('ignore')
df_e.rename(columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'},
            index={0:'권준기',1:'우동주',2:'임희진'},inplace=True)
df_e
          

Unnamed: 0,국어,영어,수학,과학,음악
권준기,90,65,95,58,72
우동주,93,68,61,90,57
임희진,84,99,81,61,71


In [8]:
# df_e.loc['권준기','음악']
# df_e.iloc[0,4]
df_e.iloc[0,4]

72

In [56]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [57]:
df.iloc[6,2:5]

c    92
d    74
e    57
Name: 6, dtype: int32

In [61]:
# df.iloc[:,2]
df[['c']]

Unnamed: 0,c
0,53
1,60
2,88
3,89
4,72
5,55
6,92
7,65


과제 : 생성된 데이터프레임에서 아래 사항을 수행하세요.
- 열이름과 행이름 변경
- 3행만 출력
- 5열만 출력
- 3행 5열의 값 출력
- 4열의 값을 모두 0으로 변경
- 2,3행의 3열 값을 조회(2가지 방법)
- 6행의 2,3,4열의 값을 조회(2가지 방법)
- 2열을 Series와 DataFrame으로 각각 출력
- 2행 3열의 값을 2행 4열의 값과 동일하게 변경
- 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [59]:
df.iloc[2,3] = df.iloc[2,4]
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,70,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [None]:
df.rename(columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'},
         index={0:'a',1:'b',2:'c',3:'d',4:'e',5:'f',6:'g',7:'h',8:'i'},inplace=True)
df

Unnamed: 0,국어,영어,수학,과학,음악
a,92,74,53,58,50
b,71,69,60,93,91
c,60,71,88,82,70
d,94,79,89,64,76
e,67,76,72,52,52
f,51,76,55,90,96
g,83,79,92,74,57
h,93,83,65,98,87


In [18]:
# 데이터프레임 생성
import numpy as np
import pandas as pd
np.random.seed(0)
data = np.random.randint(80,100,size=(5,5))
df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [19]:
df1 = df.copy()
df1

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [20]:
df1['index'] = list('가나다라마')
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [21]:
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [24]:
df21 = df2.drop('e', axis=1)
df21

Unnamed: 0_level_0,a,b,c,d
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,92,95,80,83
나,87,89,99,98
다,86,92,81,86
라,94,97,85,93
마,89,99,96,99


In [26]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,95,80,83,83
1,나,87,89,99,98,84
2,다,86,92,81,86,87
3,라,94,97,85,93,88
4,마,89,99,96,99,85


In [27]:
df22 = df3.set_index('index')
df22

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [29]:
df22.index.name = None
df22

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [None]:
import pandas as pd

# 예제 DataFrame 생성
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 컬럼 A를 인덱스로 설정
df = df.set_index('A')

# 인덱스 이름 제거
df.index.name = None

# 결과 출력
print(df)


In [None]:
df1 = df3[['a','b','c','d','e','index']]
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [28]:
#  DataFrame의 인덱스를 재배열하고 새로운 인덱스 'w'를 추가합니다. 'w'에 해당하는 데이터는 없기 때문에 NaN으로 표시

import pandas as pd

# 예제 DataFrame 생성
df = pd.DataFrame({'A': [1, 2, 3]}, index=['x', 'y', 'z'])

# reindex
reindexed_df = df.reindex(['z', 'y', 'x', 'w'])

print("Original DataFrame:\n", df)
print("\nAfter reindex:\n", reindexed_df)


Original DataFrame:
    A
x  1
y  2
z  3

After reindex:
      A
z  3.0
y  2.0
x  1.0
w  NaN


In [None]:
# Q. 딕셔너리로 5행 5열 데이터 프레임을 작성하세요.
index = ['r0','r1','r2','r3''r4']
column = list('abcde')

In [30]:
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [31]:
# Q. df에 r5,r6 2개의 행을 추가하고 값은 0을 적용하여 출력하세요.
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [32]:
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8']
df5 = df.reindex(new_index,fill_value=0)
df5

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [33]:
new_index = ['r0','r1','r2','r3','r4']
df1 = df5.reindex(new_index)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [37]:
df1 = df5.drop(df5.index[5:9])
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [34]:
# Q. df5에서 r5 ~ r8까지 삭제 후 df1으로 출력하세요.
df1 = df5.drop(['r5','r6','r7','r8'],axis=0)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
df1_s = df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [None]:
df1_c = df1.sort_values(by='c',ascending=False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [None]:
# 전치
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [None]:
df1 = df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# 과제
# Q. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 
# 변환하여 출력하세요(가능한한 의미있는 데이터로 작성)

In [None]:
# Q. 위에서 변환한 데이터 프레임에서 데이터 변경, 삭제, 전치, 인덱스 등 
# 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.