Contents
 - 데이터 구조 Series, DataFrame
 - 인덱스, 생성, 선택, 추가, 변경, 삭제, 전치
 - 파이썬 자료형과 양방향 변환

#### 판다스
Pandas는 파이썬에서 데이터 분석 및 조작을 위한 강력하고 유연한 오픈 소스 라이브러리. Series와 DataFrame 같은 고수준의 데이터 구조를 제공하여, 복잡한 데이터 조작을 직관적이고 효율적으로 수행할 수 있게 해준다.

[Pandas의 주요 역할과 기능]

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, SQL, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

In [None]:
# 시리즈 클래스 만들기
# padas 불러오기 (pd)
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data={'a':1, 'b':2, 'c':3}

sr=pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
# 리스트를 시리즈로 만들기

# 리스트
list_data=['2019-07-02', 3.14, 'ABC', 100, True]
sr=pd.Series(list_data)
print(sr,type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
# 인텍스 및 값
idx=sr.index
val=sr.values
print(idx)
print(list(idx))
print(val)

RangeIndex(start=0, stop=5, step=1)
[0, 1, 2, 3, 4]
['2019-07-02' 3.14 'ABC' 100 True]


In [None]:
# 리스트를 시리즈로 만들기

# 리스트
list_data=['2019-07-02', 3.14, 'ABC', 100, True]
sr=pd.Series(list_data, index=list('abcde'))
print(sr,type(sr))

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
# 인텍스 및 값
idx=sr.index
val=sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [None]:
## 튜플을 시리즈로 만들기

tp_data=('hwooks',96, 46, '남', '1978.01.18',True)
sr=pd.Series(tp_data)
print(sr, type(sr))

sr=pd.Series(tp_data, index=['name','학번', '나이','성별', '생년월일','bool'])
print(sr, type(sr))



0        hwooks
1            96
2            46
3             남
4    1978.01.18
5          True
dtype: object <class 'pandas.core.series.Series'>
name        hwooks
학번              96
나이              46
성별               남
생년월일    1978.01.18
bool          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
## 인덱싱
print(sr[3])
print(sr['성별'])
print(sr[[3,4]])              ## 슬라이싱처럼 여러 인덱스을 동시에 참조..

남
남
성별               남
생년월일    1978.01.18
dtype: object
name    hwooks
bool      True
dtype: object


In [None]:
print(sr[[1,2,3,4,5]])
print(sr[1:5])                    ## 시리즈에서 위치 기반 인덱싱을 사용해서 여러 요소를 선택 가능 (pandas에서만 가능)

학번              96
나이              46
성별               남
생년월일    1978.01.18
bool          True
dtype: object
학번              96
나이              46
성별               남
생년월일    1978.01.18
dtype: object


In [None]:
sr=[1,2,3,4,5]
print(sr[1:3])
## print(sr[[2,5]])   ## 일반 리스트에서는 지원 X

[2, 3]


In [None]:
list('abcde')

['a', 'b', 'c', 'd', 'e']

In [None]:
# 배열
import numpy as np

s1=np.arange(11,21,2)
print(s1,type(s1))
print()

s2=pd.Series(s1,index=list('abcde'))
print(s2,type(s2))



[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
d    17
e    19
dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
### Q. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요
data = np.arange(1000, 5000, 1000)
state = ['Califonia','Ohio','Oregon','Texas']
SR1=pd.Series(data,index=state)             ## SR1은 pd의 Series 클래스 객체
print(SR1)

print()

SR1.name='population'
SR1.index.name='state'
print(SR1)

Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
dtype: int64

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int64


#### None과 np.nan의 차이점
 - None은 파이선의 내장형 객체로 주로 객체형 데이터에서 사용
 - np.nan은 부동소수점으로 취급되면 주로 숫자형 데이터에서 사용
 - 연산 시 np.nan은 NaN(부동소수점으로 취급) 결과를 반환하는 반면, None은 TypeError를 반환한다.

In [None]:
SR1.Califonia=np.nan
print(SR1)

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64


In [None]:
null_mask = SR1.isnull()
null_mask

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [None]:
not_null_mask = SR1.notnull()
not_null_mask

state
Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [None]:
filled_series=SR1.fillna(0)
filled_series

state
Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
SR1.Califonia=np.nan
SR1

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
SR1.isnull().sum()

1

In [None]:
SR1.notnull().sum()

3

In [None]:
dropped_series=SR1.dropna()
dropped_series

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [None]:
dropped_series.isnull().sum()

0

In [None]:
s2

a    11
b    13
c    15
d    17
e    19
dtype: int64

In [None]:
## Series ==> List
list_from_series=s2.tolist()
list_from_series

[11, 13, 15, 17, 19]

In [None]:
## Series ==> dict
dict_from_series=s2.to_dict()
dict_from_series

{'a': 11, 'b': 13, 'c': 15, 'd': 17, 'e': 19}

In [None]:
## Series ==> dataframe
df_from_series=s2.to_frame(name='value')
df_from_series

Unnamed: 0,value
a,11
b,13
c,15
d,17
e,19


In [None]:
## Q1. 아래 시리즈에서 null 값을 2개 입력후 그 값을 0으로 대체한 후 null값 여부를 확인한 후 출력하세요.
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])
print(s)
no_nan=s.isnull().sum()
print(no_nan,"\n")

s.y=np.nan
s.v=np.nan
print(s)
no_nan=s.isnull().sum()
print(no_nan,"\n")

f_s=s.fillna(0)
print(f_s)
no_nan=f_s.isnull().sum()
print(no_nan,"\n")


x     5
y    15
z    25
w    35
v    45
dtype: int64
0 

x     5.0
y     NaN
z    25.0
w    35.0
v     NaN
dtype: float64
2 

x     5.0
y     0.0
z    25.0
w    35.0
v     0.0
dtype: float64
0 



In [None]:
## 강사님 Q1. 아래 시리즈에서 null 값을 2개 입력후 그 값을 0으로 대체한 후 null값 여부를 확인한 후 출력하세요.
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])
print(s)
no_nan=s.isnull().sum()
print(no_nan,"\n")

s['y']=np.nan
s['v']=np.nan
print(s)
no_nan=s.isnull().sum()
print(no_nan,"\n")

f_s=s.fillna(0)
print(f_s)
no_nan=f_s.isnull().sum()
print(no_nan,"\n")


x     5
y    15
z    25
w    35
v    45
dtype: int64
0 

x     5.0
y     NaN
z    25.0
w    35.0
v     NaN
dtype: float64
2 

x     5.0
y     0.0
z    25.0
w    35.0
v     0.0
dtype: float64
0 



In [None]:
## Q2. 주어진 리스트 [1, 2, 3, 4, 5]를 Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]
S1=pd.Series(data_list,name='TEST')
S2=S1[:]+10
print(S2)

0    11
1    12
2    13
3    14
4    15
Name: TEST, dtype: int64


In [None]:
## 강사님 Q2. 주어진 리스트 [1, 2, 3, 4, 5]를 Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]
S1=pd.Series(data_list,name='TEST')
S2=S1+10                                                        ### 그냥 series에 더해도 됨
print(S2)

0    11
1    12
2    13
3    14
4    15
Name: TEST, dtype: int64


In [None]:
## Q3. Series [10, 20, 30, 40, 50]를 생성하고 인덱스를 ['a', 'b', 'c', 'd', 'e']로 설정하세요. 인덱스를 기준으로 Series를 정렬한 결과를 출력하세요.

# 주어진 리스트
data_list = [10, 20, 30, 40, 50]
S1=pd.Series(data_list,index=list('cdeab'), name='TEST')
print(S1,"\n")
S2=S1.sort_index()
print(S2)

c    10
d    20
e    30
a    40
b    50
Name: TEST, dtype: int64 

a    40
b    50
c    10
d    20
e    30
Name: TEST, dtype: int64


In [None]:
## Q4. Series ['a':1, 'b':2, 'c':3, 'd':4, 'e':5]에서 인덱스 'b', 'd'에 해당하는 원소를 선택하여 출력하세요.
import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index1 = ['a', 'b', 'c', 'd', 'e']
S1=pd.Series(data,index=index1, name='TEST')
print(S1,"\n")


print(S1[['b','d']])



a    1
b    2
c    3
d    4
e    5
Name: TEST, dtype: int64 

b    2
d    4
Name: TEST, dtype: int64


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체.
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

#### Pandas의 iloc와 loc 메서드
DataFrame과 Series에서 데이터의 특정 위치나 라벨에 접근하기 위한 중요한 도구이며 두 메서드는 각각 고유한 용도를 가지고 있다.

- iloc (Integer Location)
  - 정수 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 특정 위치에 있는 데이터를 선택할 때 사용.
  - 슬라이싱 지원: Python 리스트와 유사하게 슬라이싱을 지원.
  - 끝점 포함하지 않음: 슬라이싱 시 끝점은 포함하지 않는다.
- loc (Label Location)
  - 라벨 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 라벨 이름을 사용하여 데이터에 접근.
  - 슬라이싱 지원: 라벨을 사용하여 슬라이싱을 지원.
  - 양 끝점 포함: 슬라이싱 시 끝점을 포함.

In [None]:
import numpy as np
np.random.seed(0) # 0시드 안에 random으로 넣은 숫자를 저장? 한다  ()안에 들어가는 숫자는 아무거나 넣어도 된다
np.random.randint(100,120, size=(3,3)) # 100~120사이의 숫자를 뽑는데 (3,3) -> 3행3열의 2차원 리스트를 뽑는다

# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                  columns=['pd','sales','inv'])

print(df,type(df))


print(df.pd, type(df.pd))


[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>
     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118 <class 'pandas.core.frame.DataFrame'>
d1    112
d2    103
d3    109
Name: pd, dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
df = pd.DataFrame(data,columns=['pd','sales','inv']) # index를 주지않고 columns만 값을 줄 경우 숫자 index가 자동으로 생성된다
df

Unnamed: 0,pd,sales,inv
0,112,115,100
1,103,103,107
2,109,119,118


In [None]:
import pandas as pd

data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data)
print(df,'\n')

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12 



In [None]:
# 첫 번째 행, 두 번째 열의 값 선택
print(df.iloc[0,1])

# 첫 번째부터 두 번째 행. 첫 번째부터 두 번째 열 선택
print('\n',df.iloc[0:2,0:2])

5

    A  B
0  1  5
1  2  6


In [None]:
import pandas as pd

data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data,index=['a','b','c','d'])
print(df,'\n')


   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12 



In [None]:
# 인덱스 'a', 열 'b'의 값 선택
print(df.loc['a','B'])

5


In [None]:
# 인덱스 'a부터 'b' ,'' 'A'부터 'B'선택
print(df.loc['a':'b','A':'B'])

   A  B
a  1  5
b  2  6


In [None]:
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                  columns=['pd','sales','inv'])

print(df,type(df),'\n')

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>
     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118 <class 'pandas.core.frame.DataFrame'> 



In [None]:
# pandas indexing : iloc 정수 인덱스 , loc 이름 인덱스
print(df.iloc[1],'\n') # [1] 하나만 있으면 행을 가리키는것  행,열

pd       103
sales    103
inv      107
Name: d2, dtype: int64 



In [None]:
print(df.loc['d2']) # -> index 이름이 d2인것

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
print(df.iloc[1,:],'\n') # 행은 1이고 열은 전부다

pd       103
sales    103
inv      107
Name: d2, dtype: int64 



In [None]:
print(df.loc['d2',:]) # 행은 d2이고 열은 전부다

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
print(df,'\n')

     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118 



In [None]:
# 107 뽑기
print(df.iloc[1,2])
print(df.loc['d2','inv'])

107
107


In [None]:
df.loc['d3'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [None]:
df.loc['d4'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [None]:
import pandas as pd
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                  columns=['pd','sales','inv'])

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


In [None]:
df.loc['d4']=0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118
d4,0,0,0


In [None]:
df.loc[:,'profit']=10
df

Unnamed: 0,pd,sales,inv,profit
d1,112,115,100,10
d2,103,103,107,10
d3,109,119,118,10
d4,0,0,0,10


[numpy random 함수]

- np.random.seed : seed를 통한 난수 생성
- np.random.randint : 정수 난수 1개 생성
- np.random.rand : 0부터 1사이의 균일분포에서 난수 매트릭스 배열 생성
- np.random.randn : 가우시안 표준 정규분포에서 난수 매트릭스 배열 생성
- np.random.shuffle : 기존의 데이터의 순서 바꾸기
- np.random.choice : 기존 데이터에서 sampling

In [None]:
import random
print(random.random(),'\n') # 0.0 <= x < 1.0 사이
print(random.randint(1,10),'\n') # 1에서 10사이의 정수중에서 난수 값 리턴
print(random.uniform(10,20), '\n') # min max 사이 float 리턴
print(random.randrange(10), '\n') # 지정 범위 int 리턴
print(random.choice([1,2,3,4,5]),'\n') # 리스트 내부에 있는 요소를 랜덤하게 선택
li = [1,2,3,4,5]
print(random.sample(li,3),'\n') # 리스트 요소를 중복이 안되게 리턴
random.shuffle(li) # 리스트 요소를 다시 섞어서 리턴
print(li)


0.1170456188925818 

2 

14.359455554830927 

2 

2 

[5, 3, 2] 

[2, 5, 3, 4, 1]


In [None]:
import numpy as np
print(np.random.randint(6), '\n') # 0 ~ 5까지 정수인 난수 1개
print(np.random.randint(1,20),'\n') # 1 ~ 19까지 정수인 난수 1개
print(np.random.randint(10, size=10), '\n') # 0 ~ 9까지 정수인 난수 10개
print(np.random.randint(10,20, size=10),'\n') # 10 ~ 19까지 정수인 난수 10개
print(np.random.randint(10,20, size=(3,5))) # 10 ~ 19까지 정수인 난수로 3행 5열 배열 생성

4 

7 

[8 8 1 6 7 7 8 1 5 9] 

[18 19 14 13 10 13 15 10 12 13] 

[[18 11 13 13 13]
 [17 10 11 19 19]
 [10 14 17 13 12]]


In [None]:
# id,gender, age, region
import numpy as np
import pandas as pd
id=np.arange(1,1001)
i1=pd.Series(id)
gender = np.random.randint(2,size=1000)
g1=pd.Series(gender)
age=np.random.randint(1,101,size=1000)
a1=pd.Series(age)
region=np.random.randint(1,11,size=1000)
r1=pd.Series(region)


df=pd.concat([i1, g1,a1,r1], axis=1)
### inplace=True ==> 원본에 반영할 건지.. True는 반영
df.rename(columns={0:'id', 1:'gender', 2:'age', 3:'region'}, inplace=True)
print(df)
df.head()

       id  gender  age  region
0       1       0   51       2
1       2       0   42      10
2       3       0   33       7
3       4       0   35      10
4       5       1   36       2
..    ...     ...  ...     ...
995   996       0   14       5
996   997       0   60       3
997   998       1   53      10
998   999       0   89       5
999  1000       1   81       3

[1000 rows x 4 columns]


Unnamed: 0,id,gender,age,region
0,1,0,51,2
1,2,0,42,10
2,3,0,33,7
3,4,0,35,10
4,5,1,36,2


In [None]:
df.drop(['gender'], axis=1, inplace=True)         ## axis=1로 하면 column을 acess할 수 있다.
df

In [None]:
df.drop([0], axis=0, inplace=True)        ## axis=0 ==> 행 기준으로
df

Unnamed: 0,id,gender,age,region
1,2,0,51,8
2,3,0,15,6
3,4,1,30,4
4,5,0,62,5
5,6,0,25,6
...,...,...,...,...
995,996,0,77,1
996,997,0,86,9
997,998,0,38,10
998,999,1,77,6


#### at은 라벨 기반 인덱싱 사용, 단일 값을 접근할 때 loc보다 빠름
 - (at과 loc (label 기반 indexing과 기능면에서는 아래와 같이 동일))
 - 여러 값을 동시에 접근하려면 loc 접근자를 사용

In [None]:
df.loc[5,'id']

6

In [None]:
df.at[5,'id']  ## <=== df.loc[5,'id']과 기능적으로 동일 but 단일 값을 접근할때는 속도가 빠름

6

In [None]:
df1=df.drop(df.at[5,'id'])        ### df.at[5,'id']의 값은 6이고, index:6의 행이 삭제
df1.head(7)

Unnamed: 0,id,gender,age,region
0,100,0,16,10
1,2,0,92,10
2,3,0,22,9
3,4,0,26,3
4,5,0,89,1
5,6,1,74,3
7,8,0,34,10


In [None]:
print(df.at[5,'id'])
#df1=df.drop()
#df1.head(7)

6


In [None]:
print(df)

       id  gender  age  region
0       1       0   68       7
1       2       0   47      10
2       3       1   87      10
3       4       0   46       5
4       5       1   28       2
..    ...     ...  ...     ...
995   996       0   22       1
996   997       1   38      10
997   998       0   83       9
998   999       1   81       3
999  1000       0   71       9

[1000 rows x 4 columns]


In [None]:
# df1=df[:]
print(df)
df1=df.copy()
df1.iloc[0,0]=100
print(df1)
print(df)

       id  gender  age  region
0       1       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  ...     ...
995   996       1   61       8
996   997       0    5       7
997   998       1   67       3
998   999       1   67       8
999  1000       0   46      10

[1000 rows x 4 columns]
       id  gender  age  region
0     100       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  ...     ...
995   996       1   61       8
996   997       0    5       7
997   998       1   67       3
998   999       1   67       8
999  1000       0   46      10

[1000 rows x 4 columns]
       id  gender  age  region
0       1       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  .

In [None]:
print(df)
df1=df[:]
print(df1)
df1.iloc[0,0]=100
print(df1)
print(df)

       id  gender  age  region
0       1       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  ...     ...
995   996       1   61       8
996   997       0    5       7
997   998       1   67       3
998   999       1   67       8
999  1000       0   46      10

[1000 rows x 4 columns]
       id  gender  age  region
0       1       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  ...     ...
995   996       1   61       8
996   997       0    5       7
997   998       1   67       3
998   999       1   67       8
999  1000       0   46      10

[1000 rows x 4 columns]
       id  gender  age  region
0     100       0   16      10
1       2       0   92      10
2       3       0   22       9
3       4       0   26       3
4       5       0   89       1
..    ...     ...  .

In [None]:
np.random.seed(0)
a=np.random.randint(1,5, size=(10,5))
print(a, type(a))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>


In [None]:
## 2차원 배열을 2차원 list로.. 다시 데이터프레임으로 변환
list1=a.tolist()
df1=pd.DataFrame(list1, columns=['c1', 'c2', 'c3','c4','c5'])
#df1=pd.DataFrame(list1, columns=list('abcde'))
print(df1.head())

   c1  c2  c3  c4  c5
0   1   4   2   1   4
1   4   4   4   2   4
2   2   3   1   4   3
3   1   1   1   3   2
4   3   4   4   3   1


In [None]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
print(df1)
ar=df1.values
print(ar)
print()
li=ar.tolist()
print(li, type(li))
print()
dict=df1.to_dict('list')            ### 'dict', 'series', 'records', 'index'....
print(dict,type(dict))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]]

[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]] <class 'list'>

{'c1': [1, 4, 2, 1, 3, 2, 2, 2, 3, 2], 'c2': [4, 4, 3, 1, 4, 2, 1, 3, 4, 4], 'c3': [2, 4, 1, 1, 4, 2, 4, 4, 1, 4], 'c4': [1, 2, 4, 3, 3, 2, 1, 4, 2, 3], 'c5': [4, 4, 3, 2, 1, 1, 4, 1, 4, 4]} <class 'dict'>


In [None]:
dict=df1.to_dict('series')            ### 'dict', 'series', 'records', 'index'....
print(dict,type(dict))

{'c1': 0    1
1    4
2    2
3    1
4    3
5    2
6    2
7    2
8    3
9    2
Name: c1, dtype: int64, 'c2': 0    4
1    4
2    3
3    1
4    4
5    2
6    1
7    3
8    4
9    4
Name: c2, dtype: int64, 'c3': 0    2
1    4
2    1
3    1
4    4
5    2
6    4
7    4
8    1
9    4
Name: c3, dtype: int64, 'c4': 0    1
1    2
2    4
3    3
4    3
5    2
6    1
7    4
8    2
9    3
Name: c4, dtype: int64, 'c5': 0    4
1    4
2    3
3    2
4    1
5    1
6    4
7    1
8    4
9    4
Name: c5, dtype: int64} <class 'dict'>


In [None]:
# Task1_0527. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
# - 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
# - null값을 3개 추가
# - null값의 개수를 확인하고 삭제
# - 2개의 데이터를 수정
# - 1개의 행을 삭제


# (i) 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
persData1=('Hwooks','96', 46, '남', '1978.01.18'); sr1=pd.Series(persData1)
persData2=('John','00', 42, '남', '1982.01.18'); sr2=pd.Series(persData2)
persData3=('James','11', 31, '여', '1993.01.18'); sr3=pd.Series(persData3)
persData4=('Jane','23', 19, '여', '2005.01.18'); sr4=pd.Series(persData4)
df=pd.concat([sr1, sr2, sr3, sr4], axis=1)
df.index=['name','학번', '나이','성별', '생년월일']
df.columns=['person1','person2','person3','person4']
print(df)
print()

# (ii) 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
print(df.iloc[0,0])
print(df.iloc[0,3])
print(df.loc['학번','person3'])
# print(df.iloc['학번','person3']) ## 에러 발생
print(df.iloc[1,1])
#print(df.loc[1,1])               ## 에러 발생
#print(df.iloc[0,'person1'])      ## 에러 발생
print(df.iloc[0:4,0])
print(df.iloc[:])
#print(df.at[0,'person1'])         ## 에러발생
print(df.at['학번','person1'])
print(df.iloc[2,3])
#print(df.at[2,3])                  ## 에러 발생 ==> at을 iloc 처럼은 못쓴다.

## (iii) null값을 3개 추가
df.iloc[1,3]=None
df.iloc[2,1]=np.nan
df.iloc[4,0]=None

print(df)

# (iv) null값의 개수를 확인하고 삭제
numNull=df.isnull().sum()           ## 이렇게 하면 column별 null 값을 반환
print(numNull)
numNull=df.isnull().sum().sum()     ## 두번해야지 전체 null 값을 반환
print(numNull)

numNull=df.iloc[:,0].isnull().sum()           ## 1st column별 null 값을 반환
print(numNull)

numNull=df.iloc[:,1].isnull().sum()           ## 2nd column별 null 값을 반환
print(numNull)

numNull=df.iloc[:,2].isnull().sum()           ## 3rd column별 null 값을 반환
print(numNull)

numNull=df.iloc[:,3].isnull().sum()           ## 4th column별 null 값을 반환
print(numNull)

numNull=df.iloc[0].isnull().sum()           ## 이렇게 하면 1st 열 null 값을 반환
print(numNull)
numNull=df.iloc[1].isnull().sum()           ## 이렇게 하면 2nd 열 null 값을 반환
print(numNull)
numNull=df.iloc[2].isnull().sum()           ## 이렇게 하면 3rd 열 null 값을 반환
print(numNull)
numNull=df.iloc[3].isnull().sum()           ## 이렇게 하면 4th 열 null 값을 반환
print(numNull)
numNull=df.iloc[4].isnull().sum()           ## 이렇게 하면 5th 열 null 값을 반환
print(numNull)


filled_df=df.fillna(0)
print(filled_df)
# (v) 2개의 데이터를 수정
df.iloc[1,3]='23'
df.iloc[2,1]=42
df.iloc[4,0]='1978.01.18'

# (vi) 1개의 행을 삭제
#df.drop(['person2'], axis=1, inplace=True)           ## 가능
#df.drop([0], axis=0, inplace=True)                    ## Error label로만 indexing 가능
df.drop(["학번"], axis=0, inplace=True)              ## 가능
print(df)

         person1     person2     person3     person4
name      Hwooks        John       James        Jane
학번            96          00          11          23
나이            46          42          31          19
성별             남           남           여           여
생년월일  1978.01.18  1982.01.18  1993.01.18  2005.01.18

Hwooks
Jane
11
00
name    Hwooks
학번          96
나이          46
성별           남
Name: person1, dtype: object
         person1     person2     person3     person4
name      Hwooks        John       James        Jane
학번            96          00          11          23
나이            46          42          31          19
성별             남           남           여           여
생년월일  1978.01.18  1982.01.18  1993.01.18  2005.01.18
96
19
     person1     person2     person3     person4
name  Hwooks        John       James        Jane
학번        96          00          11        None
나이        46         NaN          31          19
성별         남           남           여           여
생년월일 

In [None]:
# Task1_0527 강사님 답안
import numpy as np
import pandas as pd

# 데이터프레임 생성
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1, 101, size=1000)
a1 = pd.Series(age)
region = np.random.randint(1, 11, size=1000)
r1 = pd.Series(region)
df = pd.concat([i1, g1, a1, r1], axis=1)
df.rename(columns={0: 'id', 1: 'gender', 2: 'age', 3: 'region'}, inplace=True)


# 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
print(df.iloc[[0, 1, 2, 3, 4]])


# null값을 3개 추가
df.loc[0, 'age'] = np.nan
df.loc[1, 'gender'] = np.nan
df.loc[2, 'region'] = np.nan

# null값의 개수를 확인하고 삭제
null_counts = df.isnull().sum()
print( null_counts,'\n')
df.dropna(inplace=True)
print(df.head(7))

# 2개의 데이터를 수정
df.loc[3, 'age'] = 50
df.loc[4, 'region'] = 5

# 1개의 행을 삭제
df.drop(index=5, inplace=True)
# 최종 데이터프레임 출력
print(df.head(7))

   id  gender  age  region
0   1       0   49       3
1   2       1   22      10
2   3       0   55       7
3   4       0   76       3
4   5       0    5       8
id        0
gender    1
age       1
region    1
dtype: int64 

   id  gender   age  region
3   4     0.0  76.0     3.0
4   5     0.0   5.0     8.0
5   6     1.0  10.0    10.0
6   7     0.0   7.0     8.0
7   8     1.0  61.0     3.0
8   9     1.0  71.0     2.0
9  10     1.0  63.0     9.0
    id  gender   age  region
3    4     0.0  50.0     3.0
4    5     0.0   5.0     5.0
6    7     0.0   7.0     8.0
7    8     1.0  61.0     3.0
8    9     1.0  71.0     2.0
9   10     1.0  63.0     9.0
10  11     0.0   7.0     1.0


In [None]:
# Task2_0527. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
# - S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
# - 결시자가 국어 3명, 수학 2명 있음
# - 영어, 수학의 평균 점수가 국어 대비 5점 낮음
import pandas as pd
import numpy as np
df = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])

## (i) 등급간 점수 차는 5점
for i in range(10):
  df.iloc[i]=90-i*5

## (iii) 영어, 수학의 평균 점수가 국어 대비 5점 낮음
for i in range(10):
  df.iloc[i,1:3]=df.iloc[i,0]-5
## (ii) 결시자가 국어 3명, 수학 2명 있음
a=df.copy()
a.iloc[7:,0]=np.nan
a.iloc[8:,2]=np.nan

print(a)

       국어  영어    수학  과학  사회
s1   90.0  85  85.0  90  90
s2   85.0  80  80.0  85  85
s3   80.0  75  75.0  80  80
s4   75.0  70  70.0  75  75
s5   70.0  65  65.0  70  70
s6   65.0  60  60.0  65  65
s7   60.0  55  55.0  60  60
s8    NaN  50  50.0  55  55
s9    NaN  45   NaN  50  50
s10   NaN  40   NaN  45  45


In [None]:
# Task3_0527. df1에서 결측값 처리 후 딕셔너리, 리스트로 변환하여 출력하세요.
df1 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, np.nan, 88, 90, 76],
    "English": [92, 85, 89, np.nan, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, np.nan]
})

df1.info()
df1.columns
## 숫자 열에 대해 결측값을 각 열의 평균값으로 대체
df2=df1.copy()
columns=['Math', 'English', 'Science', 'History']
for column in columns:
  df2[column].fillna(df2[column].mean(), inplace=True)



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Name     5 non-null      object 
 1   Math     4 non-null      float64
 2   English  4 non-null      float64
 3   Science  5 non-null      int64  
 4   History  4 non-null      float64
dtypes: float64(3), int64(1), object(1)
memory usage: 328.0+ bytes


Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [None]:
## 데이터프레임에서 숫자형 데이터 타입을 가진 열들만 선택 처리
df2=df1.copy()
for column in df2.select_dtypes(include=[np.number]).columns:
  df2[column].fillna(df2[column].mean(), inplace=True)

print(df1)
print(df2)

      Name  Math  English  Science  History
0    Alice  85.0     92.0       78     88.0
1      Bob   NaN     85.0       90     92.0
2  Charlie  88.0     89.0       95     85.0
3    David  90.0      NaN       85     91.0
4      Eve  76.0     80.0       89      NaN
      Name   Math  English  Science  History
0    Alice  85.00     92.0       78     88.0
1      Bob  84.75     85.0       90     92.0
2  Charlie  88.00     89.0       95     85.0
3    David  90.00     86.5       85     91.0
4      Eve  76.00     80.0       89     89.0


In [None]:
## 배열로 변환
array1=df2.to_numpy()
print(array1)

## Dict로 변환
dict1=df2.to_dict(orient='list')
print(dict1)

## List로 변환
list1=df2.values.tolist()
print(list1)

[['Alice' 85.0 92.0 78 88.0]
 ['Bob' 84.75 85.0 90 92.0]
 ['Charlie' 88.0 89.0 95 85.0]
 ['David' 90.0 86.5 85 91.0]
 ['Eve' 76.0 80.0 89 89.0]]
{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'Math': [85.0, 84.75, 88.0, 90.0, 76.0], 'English': [92.0, 85.0, 89.0, 86.5, 80.0], 'Science': [78, 90, 95, 85, 89], 'History': [88.0, 92.0, 85.0, 91.0, 89.0]}
[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', 84.75, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, 86.5, 85, 91.0], ['Eve', 76.0, 80.0, 89, 89.0]]


In [None]:
# Task4_0527. df2에서 아래와 같이 데이터 필터링 및 정렬 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
# - Math 점수가 80 이상인 학생만 선택
# - English 점수를 기준으로 내림차순 정렬
df2 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, 79, 88, 90, 76],
    "English": [92, 85, 89, 93, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, 84]
})
## Math 점수가 80 이상인 학생만 필터링
df2_filtered=df2[df2['Math']>=80]
## English 점수를 기준으로 내림차순으로 정렬
df2_sorted=df2_filtered.sort_values(by='English', ascending=False)
print(df2_sorted)

      Name  Math  English  Science  History
3    David    90       93       85       91
0    Alice    85       92       78       88
2  Charlie    88       89       95       85


In [None]:
# Task5_0527. df3에서 각 학생의 평균 점수 계산 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
df3 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve", "Alice", "Bob", "Charlie", "David", "Eve"],
    "Subject": ["Math", "Math", "Math", "Math", "Math", "English", "English", "English", "English", "English"],
    "Score": [85, 79, 88, 90, 76, 92, 85, 89, 93, 80]
})
print(df3)

df3_avg=df3.groupby('Name')['Score'].mean()
print(df3_avg)
print()

df3_pivot=df3.pivot_table(index='Name', columns='Subject', values='Score',aggfunc='mean').reset_index()
df3_pivot.columns.name=None
print(df3_pivot)

      Name  Subject  Score
0    Alice     Math     85
1      Bob     Math     79
2  Charlie     Math     88
3    David     Math     90
4      Eve     Math     76
5    Alice  English     92
6      Bob  English     85
7  Charlie  English     89
8    David  English     93
9      Eve  English     80
Name
Alice      88.5
Bob        82.0
Charlie    88.5
David      91.5
Eve        78.0
Name: Score, dtype: float64

      Name  English  Math
0    Alice       92    85
1      Bob       85    79
2  Charlie       89    88
3    David       93    90
4      Eve       80    76


In [None]:
## 배열로 변환
array3=df3_pivot.to_numpy()
print(array3)

## Dict로 변환
dict3=df3_pivot.to_dict(orient='list')
print(dict3)

## List로 변환
list3=df3_pivot.values.tolist()
print(list3)

In [None]:
# Task6_0527. df4에서 특정 열의 데이터 타입을 변환한 후 변환된 타입을 확인하세요.
df4 = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['5.1', '6.2', '7.3', '8.4'],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']
})
print(df4)

## 'A'열을 정수형(int)으로 변환
df4['A']=df4['A'].astype(int)

## 'B'열을 부동소수점(float)으로 변환
df4['B']=df4['B'].astype(float)

## 'C'열을 datetime 형식으로 변환
df4['C']=pd.to_datetime(df4['C'])

print(df4.dtypes)


   A    B           C
0  1  5.1  2021-01-01
1  2  6.2  2021-02-01
2  3  7.3  2021-03-01
3  4  8.4  2021-04-01
A             int64
B           float64
C    datetime64[ns]
dtype: object


In [None]:
# Task7_0527. df5에서 나이가 25 이상인 행을 출력하세요.
df5 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
})

print(df5, '\n')

subset=df5[df5['Age']>=25]
print("\n나이가 25세이상인 행:\n \n", subset)


      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
4      Eve   29      Phoenix 


나이가 25세이상인 행:
 
     Name  Age         City
1    Bob   27  Los Angeles
3  David   32      Houston
4    Eve   29      Phoenix


In [None]:
df5['Name']

0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: Name, dtype: object

In [None]:
df5[['Name','Age']]

Unnamed: 0,Name,Age
0,Alice,24
1,Bob,27
2,Charlie,22
3,David,32
4,Eve,29


In [None]:
## 불린 인덱스
df5[df5['Age']>=25]

Unnamed: 0,Name,Age,City
1,Bob,27,Los Angeles
3,David,32,Houston
4,Eve,29,Phoenix


In [None]:
# file to CSV
import pandas as pd
file_data=pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C', 'C']
})
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [None]:
file_data.to_csv('file_data.csv', index=None)

In [None]:
!ls

file_data.csv  sample_data


In [None]:
file_data=pd.read_csv('file_data.csv')
print(file_data,type(file_data))

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C <class 'pandas.core.frame.DataFrame'>


In [None]:
### index=None 없으면...==> 인덱스가 중복
file_data.to_csv('file_data.csv')
file_data=pd.read_csv('file_data.csv')
print(file_data,type(file_data))

   Unnamed: 0  col1 col2
0           0     1    A
1           1     2    A
2           2     3    B
3           3     4    B
4           4     5    C
5           5     6    C <class 'pandas.core.frame.DataFrame'>


In [None]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1)
print()
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C

   col1 col2
0     4    D
1     5    E
2     6    F


In [None]:
## Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력
df_3=pd.concat([df_1,df_2], axis=1)
df_4=pd.concat([df_1,df_2], axis=0)
print(df_3,'\n')
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [None]:
df_4.iloc[:,1]

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [None]:
df_4.loc[:,'col2']

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [None]:
df_4.iloc[1]

col1    2
col2    B
Name: 1, dtype: object

In [None]:
df_4['col2']

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [None]:
## data frame 생성 8 x 5 배열
np.random.seed(0)
data=np.random.randint(1,100, size=(8,5))
df=pd.DataFrame(data,columns=list('abcde'))

print(df)

    a   b   c   d   e
0  45  48  65  68  68
1  10  84  22  37  88
2  71  89  89  13  59
3  66  40  88  47  89
4  82  38  26  78  73
5  10  21  81  70  80
6  48  65  83  89  50
7  30  20  20  15  40


In [None]:
## 열이름과 행이름 변경
columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'}
index={0:'a',1:'b',2:'c',3:'d',4:'e',5:'f',6:'g',7:'h'}

df.rename(columns=columns, index=index, inplace=True)
print(df)

   국어  영어  수학  과학  음악
a  45  48  65  68  68
b  10  84  22  37  88
c  71  89  89  13  59
d  66  40  88  47  89
e  82  38  26  78  73
f  10  21  81  70  80
g  48  65  83  89  50
h  30  20  20  15  40


In [None]:
## data frame 생성 8 x 5 배열
np.random.seed(0)
data=np.random.randint(50,100, size=(5,5))
df=pd.DataFrame(data,columns=list('abcde'))

print(df)

    a   b   c   d   e
0  94  97  50  53  53
1  89  59  69  71  86
2  73  56  74  74  62
3  51  88  89  73  96
4  74  67  87  75  63


In [None]:
df1=df.copy();
df1['col_name']=list('가나다라마')
df1

Unnamed: 0,a,b,c,d,e,col_name
0,94,97,50,53,53,가
1,89,59,69,71,86,나
2,73,56,74,74,62,다
3,51,88,89,73,96,라
4,74,67,87,75,63,마


In [None]:
df2=df1.set_index('col_name')
df2

Unnamed: 0_level_0,a,b,c,d,e
col_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,94,97,50,53,53
나,89,59,69,71,86
다,73,56,74,74,62
라,51,88,89,73,96
마,74,67,87,75,63


In [None]:
df21=df2.drop('e',axis=1)
df21

Unnamed: 0_level_0,a,b,c,d
col_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,94,97,50,53
나,89,59,69,71
다,73,56,74,74
라,51,88,89,73
마,74,67,87,75


In [None]:
df3=df2.reset_index()
df3

Unnamed: 0,col_name,a,b,c,d,e
0,가,94,97,50,53,53
1,나,89,59,69,71,86
2,다,73,56,74,74,62
3,라,51,88,89,73,96
4,마,74,67,87,75,63


In [None]:
df22=df3.set_index('col_name')
df22

Unnamed: 0_level_0,a,b,c,d,e
col_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,94,97,50,53,53
나,89,59,69,71,86
다,73,56,74,74,62
라,51,88,89,73,96
마,74,67,87,75,63


In [None]:
df22.index.name=None
df22

Unnamed: 0,a,b,c,d,e
가,94,97,50,53,53
나,89,59,69,71,86
다,73,56,74,74,62
라,51,88,89,73,96
마,74,67,87,75,63


In [None]:
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# Q. df에 r5,r6 두개의 행을 추가하고 값은 0을 적용하여 출력
df.loc['r5']=0;
df.loc['r6']=0;


Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [None]:
new_index=['r0','r1','r2','r3','r4', 'r5','r6']
df5=df.reindex(new_index,fill_value=0)
df5

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [None]:
new_index=['r0','r1','r2','r3','r4']
df5=df.reindex(new_index,fill_value=0)
df5

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
df1=df5.drop(df5.index[5:9])
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
df1_s=df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [None]:
df1_c=df1.sort_values(by='c', ascending=False)
df1_c=df1.sort_values(by='c', ascending=True)
df1_c=df1.sort_values(by='c')
df1_c

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
### 전치
print(df1)
df1_t=df1.transpose()
df1_t

df1_T2=df1.transpose().transpose()
df1_T2

    a  b   c   d   e
r0  1  4   7  10  13
r1  2  5   8  11  14
r2  3  6   9  12  15
r3  4  7  10  13  16
r4  5  8  11  14  17


Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# Q. df1으로 데이터프레임을 생성한 후 set_index를 사용하여 ID를 인덱스 설정한 데이터프레임을 출력하세요.
df1 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})
df1_new=df1.set_index('ID')
df1_new.index.name=None
df1_new
df1.set_index('ID', inplace=True)
df1
df1.index.name=None
df1

Unnamed: 0,Name,Age
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32


In [None]:
# Q. df2에 대해서 다음을 수행하세요.
# - set_index를 사용하여 인덱스를 설정.
# - reset_index를 사용하여 인덱스를 리셋.
df2 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})

df2_new=df2.set_index('ID')
df2_new.index.name=None
df2_new2=df2_new.reset_index()
df2_new2

Unnamed: 0,index,Name,Age
0,101,Alice,24
1,102,Bob,27
2,103,Charlie,22
3,104,David,32


In [None]:
# Q. df3에 대해서 reindex를 사용하여 인덱스를 변경하여 출력하세요.
df3 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
}, index=[101, 102, 103, 104])

new_index=[101, 102, 103, 105, 106]
df3_new=df3.reindex(new_index, fill_value=0)
df3_new

Unnamed: 0,Name,Age
101,Alice,24
102,Bob,27
103,Charlie,22
105,0,0
106,0,0


In [None]:
# Q. df4에 대해서 reindex를 사용하여 인덱스를 변경하고 결측치를 0으로 채운 데이터프레임을 출력하세요.
df4 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22]
}, index=[0, 1, 2])

print("기존 인덱스:\n", df4)

new_index=[0, 1, 2, 3, 4]
df4_new=df4.reindex(new_index)
df4_new

기존 인덱스:
       Name  Age
0    Alice   24
1      Bob   27
2  Charlie   22


Unnamed: 0,Name,Age
0,Alice,24.0
1,Bob,27.0
2,Charlie,22.0
3,,
4,,


In [None]:
# Q. df5에서 reindex를 사용하여 특정 날짜 범위로 인덱스를 재설정하여 출력하세요.
dates = pd.date_range('2024-01-01', periods=4, freq='D')
df5 = pd.DataFrame({
    'Value': [10, 20, 30, 40]
}, index=dates)

filtered_df5 = df5[df5.index < '2024-01-03']

filtered_df6=df5[(df5.index >= '2024-01-01') & (df5.index < '2024-01-03')]
filtered_df6
new_dates = pd.date_range('2024-01-01', periods=6, freq='D')
df_reindexed=df5.reindex(new_dates, fill_value=10)     ## 행이 2개 추가
df_reindexed

Unnamed: 0,Value
2024-01-01,10
2024-01-02,20
2024-01-03,30
2024-01-04,40
2024-01-05,10
2024-01-06,10


In [None]:
# 강사님: Q. df5에서 reindex를 사용하여 특정 날짜 범위로 인덱스를 재설정하여 출력하세요.
dates = pd.date_range('2024-01-01', periods=4, freq='D')
df5 = pd.DataFrame({
    'Value': [10, 20, 30, 40]
}, index=dates)

filtered_df5 = df5[df5.index < '2024-01-03']

filtered_df6=df5[(df5.index >= '2024-01-01') & (df5.index < '2024-01-03')]
filtered_df6

In [None]:
# Q. 데이터프레임 df6를 전치하고, 전치된 데이터프레임을 정리하여 연도별 판매량 데이터를 제품별로 나열하여 출력하세요.
data = {
    'Year': ['2020', '2021', '2022'],
    'Product_A': [500, 600, 700],
    'Product_B': [400, 500, 600],
    'Product_C': [300, 400, 500]
}
df6 = pd.DataFrame(data)
df6

Unnamed: 0,Year,Product_A,Product_B,Product_C
0,2020,500,400,300
1,2021,600,500,400
2,2022,700,600,500


In [None]:
df6 = pd.DataFrame(data)
df_transpose=df6.set_index('Year').T

df_transpose

Year,2020,2021,2022
Product_A,500,600,700
Product_B,400,500,600
Product_C,300,400,500


In [None]:
# 강사님 Q. 데이터프레임 df6를 전치하고, 전치된 데이터프레임을 정리하여 연도별 판매량 데이터를 제품별로 나열하여 출력하세요.
data = {
    'Year': ['2020', '2021', '2022'],
    'Product_A': [500, 600, 700],
    'Product_B': [400, 500, 600],
    'Product_C': [300, 400, 500]
}

df6 = pd.DataFrame(data)
df_transposed=df6.set_index('Year').T
df_transposed.reset_index(inplace=True)
df_transposed.rename(columns={'index':'Product'}, inplace=True)
print("\n정리된 전치 데이터프레임: \n", df_transposed)



정리된 전치 데이터프레임: 
 Year    Product  2020  2021  2022
0     Product_A   500   600   700
1     Product_B   400   500   600
2     Product_C   300   400   500
