Contents
 - 데이터 구조 Series, DataFrame
 - 인덱스, 생성, 선택, 추가, 변경, 삭제, 전치 (행과 열 바꾸기)
 - 파이썬 자료형과 양방향 변환

#### 판다스
Pandas는 파이썬에서 데이터 분석 및 조작을 위한 강력하고 유연한 오픈 소스 라이브러리. Series와 DataFrame 같은 고수준의 데이터 구조를 제공하여, 복잡한 데이터 조작을 직관적이고 효율적으로 수행할 수 있게 해다.

[Pandas의 주요 역할과 기능]

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, SQL, JSON (데이터 트랜젝션에 많이 쓰는 형태)등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

In [None]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# key:value 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data={'a':1,'b':2,'c':3}

sr=pd.Series(dict_data)
print(sr)
# type(sr)

a    1
b    2
c    3
dtype: int64


In [None]:
# 리스트를 시리즈로 변환

list_data=['2019-07-02', 3.14, 'ABC', 100, True]
# sr=pd.Series(list_data, index=list('abcde'))
sr=pd.Series(list_data)
print(sr, type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
# 인덱스 및 값 확인
idx=sr.index
val=sr.values
print(idx)
print(val)

RangeIndex(start=0, stop=5, step=1)
['2019-07-02' 3.14 'ABC' 100 True]


In [None]:
# 튜플을 시리즈로 변환
tup_data=('kevin', '2019-07-02', '남', True)
sr=pd.Series(tup_data,index=['이름', '생년월일','성별', '학생여부']) # <== 별도 인덱스 이름을 달아주었지만 숫자 인덱스는 자동으로 잡혀있음
# sr=pd.Series(tup_data)
print(sr,type(sr))

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
# 인덱싱
# import warnings
# warnings.filterwarnings('ignore')
print(sr[0])
print(sr['이름'])
print(sr[[1,2]]) # <== 한번에 2개 이상의 인덱스의 값을 확인할 때는 key, value가 같이 나옴
# print(sr[['이름', '성별']])
# ^ == 시리즈에서 위치 기반 인덱싱을 사용해서 여러 요소를 선택 가능

# print(sr[1,2]) # <== 파이썬의 기본 인덱싱 방식으로 sr[1]과 같은 형태를 사용

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object
이름    kevin
성별        남
dtype: object


In [None]:
# 배열
import numpy as np

s1=np.arange(11,21,2) # 11~21 까지 2스텝으로
print(s1, type(s1))
print()
s2=pd.Series(s1, index=list('abcde'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
d    17
e    19
dtype: int64 <class 'pandas.core.series.Series'>


Q. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요

In [None]:
# 방법 1:
import numpy as np
data = np.arange(1000, 5000, 1000)
states=pd.Series(data, index= ['Califonia','Ohio','Oregon','Texas'])
print(states)


Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
dtype: int64


In [None]:
# 방법 2:
import numpy as np
data=np.arange(1000,5000,1000)
states=['Califonia','Ohio','Oregon','Texas']
obj=pd.Series(data,index=states) # <== index=states 에서 index 빠져도 테이블은 잘 나옴

obj.name='population' # <= 객체 이름
obj.index.name='state'
print(obj)

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int64


None과 np.nan의 차이
- None : 파이썬의 내장형 객체로 주로 객체형 데이터에서 사용
- np.nan은 부동 소수점으로 취급되며 주로 숫자형 데이터에서 사용
- 연산 시 np.nan은 NaN 결과를 반환하는 반면 None은 TypeError를 발생시킨다

** 문자/객체에 값이 없는 경우엔 None, 연산이 필요한 숫자형으로 값 없음을 표현할 때는 np.nan

In [None]:
obj.Califonia=np.nan # <== obj에 담긴 'Califonia' 키에 대한 값을 np.nan으로 바꾼다는 뜻
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
null_mask=obj.isnull() # <== 값이 null이면 true, 값이 있다면 false로 출력됨
null_mask

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [None]:
not_null_mask=obj.notnull() # <== 값이 null이면 false, 값이 있다면 true로 출력됨
not_null_mask

state
Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [None]:
filled_series=obj.fillna(0) # <== null값을  0으로 채워라
filled_series

state
Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
# null값 더하기 (몇 개의 결측치가 있는지 알 수 있음)
obj.isnull().sum()

1

In [None]:
# null값 삭제
dropped_series=obj.dropna()
dropped_series

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [None]:
dropped_series.isnull().sum()

0

In [None]:
print(s2, type(s2))

a    11
b    13
c    15
d    17
e    19
dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
# series -> list
list_from_series=s2.tolist()
list_from_series

[11, 13, 15, 17, 19]

In [None]:
dict_from_series=s2.to_dict()
dict_from_series

{'a': 11, 'b': 13, 'c': 15, 'd': 17, 'e': 19}

In [None]:
df_from_series=s2.to_frame(name='Value')
df_from_series

Unnamed: 0,Value
a,11
b,13
c,15
d,17
e,19


Q. 아래 시리즈에서 null값을 2개 입력 후 그 값을 0으로 대체 후 null값 여부를 확인한 후 출력하세요.

In [None]:
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])

In [None]:
# 내 풀이:
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])
print(s)
s.x=np.nan
s.y=np.nan
print(s)

s.isnull()

x     5
y    15
z    25
w    35
v    45
dtype: int64
x     NaN
y     NaN
z    25.0
w    35.0
v    45.0
dtype: float64


x     True
y     True
z    False
w    False
v    False
dtype: bool

Q. 주어진 리스트 [1, 2, 3, 4, 5]를 Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.

In [None]:
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]

In [None]:
# 내 풀이:
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]

dl=pd.Series(data_list)
print(dl)

# dl[0]=11
# print(dl)

# for i in dl: # <== for문 쓸 수 있는건가?
#     dl2=dl.append(10
# print(dl)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [None]:
# 강사님 풀이:
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])

s['y']=np.nan
s['w']=np.nan

print("null 갯수:", s.isna().sum(),'\n')

s_filled=s.fillna(0)
print("null 갯수: ", s_filled.isna().sum(),'\n')
print(s_filled)

null 갯수: 2 

null 갯수:  0 

x     5.0
y     0.0
z    25.0
w     0.0
v    45.0
dtype: float64


In [None]:
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]

# pandas series로 변환
series=pd.Series(data_list)


# 각 원소에 10을 더한 series
series_plus_10=series+10

# 결과 출력
print("Original Series: ")
print(series)
print("\nSeries after adding 10 to each element:")
print(series_plus_10)

Original Series: 
0    1
1    2
2    3
3    4
4    5
dtype: int64

Series after adding 10 to each element:
0    11
1    12
2    13
3    14
4    15
dtype: int64


Q. Series [10, 20, 30, 40, 50]를 생성하고 인덱스를 ['a', 'b', 'c', 'd', 'e']로 설정하세요. 인덱스를 기준으로 Series를 정렬한 결과를 출력하세요.

In [None]:
# 내 풀이:
import pandas as pd
data=[10, 20, 30, 40, 50]
index=['a', 'b', 'c', 'd', 'e']
Series1=pd.Series(data,index)
print(Series1)

a    10
b    20
c    30
d    40
e    50
dtype: int64


In [None]:
# 강사님 풀이:
import pandas as pd
data=[10, 20, 30, 40, 50]
index=['a', 'c', 'b', 'd', 'e']
series=pd.Series(data,index)
print(series)

# 인덱스를 기준으로 정렬
series_sorted=series.sort_index()

# 결과 출력
print(series_sorted)

a    10
c    20
b    30
d    40
e    50
dtype: int64
a    10
b    30
c    20
d    40
e    50
dtype: int64


Q. Series ['a':1, 'b':2, 'c':3, 'd':4, 'e':5]에서 인덱스 'b', 'd'에 해당하는 원소를 선택하여 출력하세요.

In [None]:
import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']

In [None]:
import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']

Series2=pd.Series(data,index)
print(Series2)
print('\n')

# 방법 1
print(Series2[['b','d']])

# 방법 2
selected_elements=Series2[['b','d']]
print(selected_elements)


a    1
b    2
c    3
d    4
e    5
dtype: int64


b    2
d    4
dtype: int64
b    2
d    4
dtype: int64


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체.
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [None]:
# 배열을 데이터프레임으로 변환
import random
import numpy as np
import pandas as pd
np.random.seed(0) # <== seed(숫자)를 먼저 넣어주면 생성된 랜덤 숫자가 동일한 seed 숫자가 유지되는 한, 몇번을 다시 돌려도 같은 숫자로 고정되어서 나옴
data=np.random.randint(100,120,size=(3,3))
print(data,type(data))

df=pd.DataFrame(data,index=['d1','d2','d3'],
                columns=['pd','sales','inv'])

df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [None]:
print(df.pd, type(df.pd))

d1    112
d2    103
d3    109
Name: pd, dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
df=pd.DataFrame(data, columns=['pd','sales','inv'])
df

Unnamed: 0,pd,sales,inv
0,112,115,100
1,103,103,107
2,109,119,118


#### Pandas의 iloc와 loc 메서드
DataFrame과 Series에서 데이터의 특정 위치나 라벨에 접근하기 위한 중요한 도구이며 두 메서드는 각각 고유한 용도를 가지고 있다.

- iloc (Integer Location)
  - 정수 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 특정 위치에 있는 데이터를 선택할 때 사용.
  - 슬라이싱 지원: Python 리스트와 유사하게 슬라이싱을 지원.
  - 끝점 포함하지 않음: 슬라이싱 시 끝점은 포함하지 않는다.
- loc (Label Location)
  - 라벨 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 라벨 이름을 사용하여 데이터에 접근.
  - 슬라이싱 지원: 라벨을 사용하여 슬라이싱을 지원.
  - 끝점 포함: 슬라이싱 시 끝점을 포함.

In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
} # <== 딕셔너리 타입으로 데이터프레임을 만들면 key가 column이름이 됨
df=pd.DataFrame(data)
print(df,'\n')

# 첫번째 행, 두번째 열의 값 선택
print(df.iloc[0,1]) # 출력: 5

# 첫번째부터 두번째 행, 첫번째부터 두번째 열 선택
print(df.iloc[0:2,0:2]) # <== 3번째 column, 3번째 row 전까지만 출력됨. 끝점 비포함




   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12 

5
   A  B
0  1  5
1  2  6


In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
} # <== 딕셔너리 타입으로 데이터프레임을 만들면 key가 column이름이 됨
df=pd.DataFrame(data, index=['a','b','c','d']) # <= 인덱스 문자
print(df,'\n')

# 인덱스 'a', 열'B'의 값 선택
print(df.loc['a','B']) # 출력: 5

# 인덱스 'a'부터 'b', 열 'A'부터 'B'선택
print(df.loc['a':'b','A':'B']) # <= 끝점 포함



   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12 

5
   A  B
a  1  5
b  2  6


In [None]:
# 배열을 데이터프레임으로 변환
import random
import numpy as np
import pandas as pd
np.random.seed(0) # <== seed(숫자)를 먼저 넣어주면 생성된 랜덤 숫자가 동일한 seed 숫자가 유지되는 한, 몇번을 다시 돌려도 같은 숫자로 고정되어서 나옴
data=np.random.randint(100,120,size=(3,3))
print(data,type(data))

df=pd.DataFrame(data,index=['d1','d2','d3'],
                columns=['pd','sales','inv'])

print(df)

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>
     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118


In [None]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n') # <== [] 안에 1개의 값만 있다면 행을 뜻함. 따라서 2번째 인덱스 (d2)에 있는 pd, sales, inv 값이 출력됨
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1,:],'\n') # <== 바로 위 내용과 동일 - [1]만 사용한거나 [1,:]나 같은 출력값을 줌
print(df.loc['d2',:])

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
# df의 107 출력하기:
# iloc 사용
print(df.iloc[1,2])
# loc 사용
print(df.loc['d2','inv'])

107
107


In [None]:
# 특정 행의 값 수정
df.loc['d3']=0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [None]:
# 행 추가
df.loc['d4']=0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [None]:
df.loc[:,'profit']=10
df

Unnamed: 0,pd,sales,inv,profit
d1,112,115,100,10
d2,103,103,107,10
d3,0,0,0,10
d4,0,0,0,10


[파이썬 random 함수]

In [None]:
import random
print(random.random(),'\n') # 0.0 <= x < 1.0 사이
print(random.randint(1,10),'\n') # 1에서 10사이의 정수중에서 난수 값 리턴
print(random.uniform(10,20), '\n') # min max 사이 float 리턴
print(random.randrange(10), '\n') # 지정 범위 int 리턴
print(random.choice([1,2,3,4,5]),'\n') # 리스트 내부에 있는 요소를 랜덤하게 선택
li = [1,2,3,4,5]
print(random.sample(li,3),'\n') # 리스트 요소를 중복이 안되게 리턴
random.shuffle(li) # 리스트 요소를 다시 섞어서 리턴
print(li)

[numpy random 함수]

- np.random.seed : seed를 통한 난수 생성
- np.random.randint : 정수 난수 1개 생성
- np.random.rand : 0부터 1사이의 균일분포에서 난수 매트릭스 배열 생성
- np.random.randn : 가우시안 표준 정규분포에서 난수 매트릭스 배열 생성
- np.random.shuffle : 기존의 데이터의 순서 바꾸기
- np.random.choice : 기존 데이터에서 sampling

In [None]:
import numpy as np
print(np.random.randint(6), '\n') # 0 ~ 5까지 정수인 난수 1개
print(np.random.randint(1,20),'\n') # 1 ~ 19까지 정수인 난수 1개
print(np.random.randint(10, size=10), '\n') # 0 ~ 9까지 정수인 난수 10개
print(np.random.randint(10,20, size=10),'\n') # 10 ~ 19까지 정수인 난수 10개
print(np.random.randint(10,20, size=(3,5))) # 10 ~ 19까지 정수인 난수로 3행 5열 배열 생성

4 

7 

[8 8 1 6 7 7 8 1 5 9] 

[18 19 14 13 10 13 15 10 12 13] 

[[18 11 13 13 13]
 [17 10 11 19 19]
 [10 14 17 13 12]]


In [None]:
# id, gender, age, region
import numpy as np
import pandas as pd
id=np.arange(1,1001) # <== 1000개의 id를 만들어 줌
i1=pd.Series(id)

gender=np.random.randint(2,size=1000) # <== 성별은 0,1로 1000개
g1=pd.Series(gender)

age=np.random.randint(1,101,size=1000) # <== age는 0~100세까지 랜덤
a1=pd.Series(age)

region=np.random.randint(1,11,size=1000)
r1=pd.Series(region)

df=pd.concat([i1,g1,a1,r1],axis=1) # concatenation 함수 사용 (concat). axis=1 == 축을 열쪽으로 하겠다.

df.rename(columns={0:'id',1:'gender',2:'age',3:'region'}, inplace=True) # <= column 이름 수정. inplace=True == 이렇게 바꾼 것을 원본에 반영하겠다, 는 뜻
df.head()

Unnamed: 0,id,gender,age,region
0,1,0,96,9
1,2,1,63,8
2,3,1,75,9
3,4,0,45,7
4,5,0,35,6


In [None]:
df.drop([0],axis=0,inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
1,2,1,63,8
2,3,1,75,9
3,4,0,45,7
4,5,0,35,6
5,6,1,63,3


- at은 라벨 기반 인덱싱을 사용. 단일 값을 접근할 때 loc 접근자보다 빠름
- 여러 값을 동시에 접근하려면 loc 접근자를 사용

In [None]:
print(df.loc[5,'id'])
print(df.at[5, 'id'])

6
6


In [None]:
df1=df.drop(df.at[5,'id']) # <== 행 넘버 6이 삭제됨
df1.head(7)

Unnamed: 0,id,gender,age,region
1,2,1,63,8
2,3,1,75,9
3,4,0,45,7
4,5,0,35,6
5,6,1,63,3
7,8,1,77,3
8,9,0,63,6


결측치 처리 방법 : fillna, dropna, replace

In [None]:
import pandas as pd
import numpy as np

# 예제 데이터프레임 생성
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, np.nan, 5],
    'C': [1, np.nan, np.nan, 4, 5],
    'D': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

Original DataFrame:
     A    B    C  D
0  1.0  NaN  1.0  1
1  2.0  2.0  NaN  2
2  NaN  3.0  NaN  3
3  4.0  NaN  4.0  4
4  5.0  5.0  5.0  5


In [None]:
# null값을 0으로 채우기
df_filled_zero=df.fillna(0)
print(df_filled_zero)

     A    B    C  D
0  1.0  0.0  1.0  1
1  2.0  2.0  0.0  2
2  0.0  3.0  0.0  3
3  4.0  0.0  4.0  4
4  5.0  5.0  5.0  5


In [None]:
# null 값을 각 열의 평균값으로 채우기
df_filled_mean=df.apply(lambda x:x.fillna(x.mean()),axis=0) # axis=0 : 행 방향
# lambda에서 나온 내용을 df에 apply (적용)함
print(df_filled_mean)

     A         B         C  D
0  1.0  3.333333  1.000000  1
1  2.0  2.000000  3.333333  2
2  3.0  3.000000  3.333333  3
3  4.0  3.333333  4.000000  4
4  5.0  5.000000  5.000000  5


In [None]:
# null 값을 각 열의 중간값으로 채우기
df_filled_median=df.apply(lambda x:x.fillna(x.median()),axis=0)
print(df_filled_median)

     A    B    C  D
0  1.0  3.0  1.0  1
1  2.0  2.0  4.0  2
2  3.0  3.0  4.0  3
3  4.0  3.0  4.0  4
4  5.0  5.0  5.0  5


In [None]:
# null 값이 포함된 행 삭제하기
df_dropped_rows=df.dropna()
print(df_dropped_rows)

     A    B    C  D
4  5.0  5.0  5.0  5


In [None]:
# null 값이 포함된 열 삭제하기
df_dropped_columns=df.dropna(axis=1) # default로 axis=0이어서 (행에 적용) 함수에서 누락되어 보임
print(df_dropped_columns)

   D
0  1
1  2
2  3
3  4
4  5


In [None]:
# 앞 또는 뒤의 값으로 채우기 (forward fill, backward fill)
# 앞의 값으로 채우기
df_ffill=df.fillna(method='ffill')
print(df_ffill,'\n')

# 뒤의 값으로 채우기
df_bfill=df.fillna(method='bfill')
print(df_bfill,'\n')

     A    B    C  D
0  1.0  NaN  1.0  1
1  2.0  2.0  1.0  2
2  2.0  3.0  1.0  3
3  4.0  3.0  4.0  4
4  5.0  5.0  5.0  5 

     A    B    C  D
0  1.0  2.0  1.0  1
1  2.0  2.0  4.0  2
2  4.0  3.0  4.0  3
3  4.0  5.0  4.0  4
4  5.0  5.0  5.0  5 



In [None]:
# replace 메서드 사용하여 대체
import pandas as pd
import numpy as np

# 예제 데이터프레임 생성
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, np.nan, 5],
    'C': [1, np.nan, np.nan, 4, 5],
    'D': [1, 2, 3, 4, 5]
}
df=pd.DataFrame(data)
print(df,'\n')

# replace를 사용하여 null값을 0으로 대체
df_replace_zero=df.replace(np.nan,0)
print(df_replace_zero,'\n')

# replace를 사용하여 null값을 특정 값으로 대체 (예: -1)
df_replace_value=df.replace(np.nan,-1)
print(df_replace_value)

     A    B    C  D
0  1.0  NaN  1.0  1
1  2.0  2.0  NaN  2
2  NaN  3.0  NaN  3
3  4.0  NaN  4.0  4
4  5.0  5.0  5.0  5 

     A    B    C  D
0  1.0  0.0  1.0  1
1  2.0  2.0  0.0  2
2  0.0  3.0  0.0  3
3  4.0  0.0  4.0  4
4  5.0  5.0  5.0  5 

     A    B    C  D
0  1.0 -1.0  1.0  1
1  2.0  2.0 -1.0  2
2 -1.0  3.0 -1.0  3
3  4.0 -1.0  4.0  4
4  5.0  5.0  5.0  5


In [None]:
# 기존 데이터 프레임 복사 가능
df1=df.copy()
df1.head(3)


Unnamed: 0,id,gender,age,region
1,2,1,63,8
2,3,1,75,9
3,4,0,45,7


In [None]:
np.random.seed(0)
a=np.random.randint(1,5,size=(10,5))
print(a,type(a))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>


In [None]:
# 2차원 리스트를 데이터프레임으로 변환
list1=a.tolist()
# print(list1, type(list))

df1=pd.DataFrame(list1, columns=['c1','c2','c3','c4','c5'])
# df1=pd.DataFrame(list1, columns=list('abcde'))
print(df1.head())

   c1  c2  c3  c4  c5
0   1   4   2   1   4
1   4   4   4   2   4
2   2   3   1   4   3
3   1   1   1   3   2
4   3   4   4   3   1


In [None]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar=df1.values
print(ar, type(ar))
# print()
# li=ar.tolist()
# print(li, type(li))
# print()
# dict=df1.to_dict('list')
# print(dict,type(dict))

[['Alice' 85.0 92.0 78 88.0]
 ['Bob' nan 85.0 90 92.0]
 ['Charlie' 88.0 89.0 95 85.0]
 ['David' 90.0 nan 85 91.0]
 ['Eve' 76.0 80.0 89 nan]] <class 'numpy.ndarray'>


### 과제 0527

Task1_0527. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [None]:
# 성적표 만들어볼까
# 과목은 국어, 수학, 과학, 영어
# 학생은 5명

# Series 0: 학생 이름
name=['송신영','오승연','전진서','김낙평','김경환']
s_name=pd.Series(name)
print(s_name)

# Series 1: 성적표
econ=[70,80,90,60,55]
s_econ=pd.Series(econ)
print(s_econ)

# Series 2:
maths=[77,65,56,78,92]
s_maths=pd.Series(maths)

# Series 3:
negotiation=[51,44,67,88,71]
s_negotiation=pd.Series(negotiation)
# Series 4:
accounting=[68,71,66,75,58]
s_accounting=pd.Series(accounting)

# 여러 시리즈를 데이터프레임으로 합치기
df=pd.DataFrame({'name':s_name,'econ':s_econ,'maths':s_maths,'negotiation':s_negotiation,'accounting':s_accounting})
print(df)

0    송신영
1    오승연
2    전진서
3    김낙평
4    김경환
dtype: object
0    70
1    80
2    90
3    60
4    55
dtype: int64
  name  econ  maths  negotiation  accounting
0  송신영    70     77           51          68
1  오승연    80     65           44          71
2  전진서    90     56           67          66
3  김낙평    60     78           88          75
4  김경환    55     92           71          58


In [None]:
# 강사님 풀이:
import numpy as np
import pandas as pd

# 데이터프레임 생성
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1, 101, size=1000)
a1 = pd.Series(age)
region = np.random.randint(1, 11, size=1000)
r1 = pd.Series(region)
df = pd.concat([i1, g1, a1, r1], axis=1)
df.rename(columns={0: 'id', 1: 'gender', 2: 'age', 3: 'region'}, inplace=True)


In [None]:
# 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
print(df.iloc[[0, 1, 2, 3, 4]])

   id  gender  age  region
0   1       1   50       5
1   2       0   55       8
2   3       0    8       6
3   4       0   47       5
4   5       1   34       4


In [None]:
# null값을 3개 추가
df.loc[0, 'age'] = np.nan
df.loc[1, 'gender'] = np.nan
df.loc[2, 'region'] = np.nan

In [None]:
# null값의 개수를 확인하고 삭제
null_counts = df.isnull().sum()
print( null_counts,'\n')
df.dropna(inplace=True)
print(df.head(7))

id        0
gender    1
age       1
region    1
dtype: int64 

   id  gender   age  region
3   4     0.0  47.0     5.0
4   5     1.0  34.0     4.0
5   6     1.0  54.0     4.0
6   7     0.0  48.0     2.0
7   8     1.0  29.0     6.0
8   9     0.0  73.0     8.0
9  10     0.0  64.0     3.0


In [None]:
# 2개의 데이터를 수정
df.loc[3, 'age'] = 50
df.loc[4, 'region'] = 5

In [None]:
# 1개의 행을 삭제
df.drop(index=5, inplace=True)

In [None]:
# 최종 데이터프레임 출력
print(df.head(7))

    id  gender   age  region
3    4     0.0  50.0     5.0
4    5     1.0  34.0     5.0
6    7     0.0  48.0     2.0
7    8     1.0  29.0     6.0
8    9     0.0  73.0     8.0
9   10     0.0  64.0     3.0
10  11     0.0  58.0     5.0


Task2_0527. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [None]:
import pandas as pd
import numpy as np
np.random.seed(0)
df = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,1,4,2,1,4
s2,4,4,4,2,4
s3,2,3,1,4,3
s4,1,1,1,3,2
s5,3,4,4,3,1
s6,2,2,2,2,1
s7,2,1,4,1,4
s8,2,3,4,4,1
s9,3,4,1,2,4
s10,2,4,4,3,4


In [None]:
# 강사님 풀이:
# 등급간 점수 차는 5점
for i in range(10):
    df.iloc[i]=90-i*5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [None]:
# 영어, 수학의 평균 점수가 국어 대비 5점 낮음
for i in range(10):
    df.iloc[i,1:3]=df.iloc[i,0]-5
    # df.iloc[i,1:3] == 각 i행에 대한, 열 인덱스 1,2 (영어, 수학)
    # df.iloc[i,0] == 각 i행에 대한, 열 인덱스 0 (국어)
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [None]:
# 결시자가 국어 3명, 수학 2명 있음
a=df.copy() # 위까지 했는 df를 카피해서 a로 새로 만들고
a.iloc[7:,0]=np.nan # 국어 8~10 등급을 null값으로
a.iloc[8:,2]=np.nan # 수학 9~10 등급을 null값으로
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


Task3_0527. df1에서 결측값 처리 후 딕셔너리, 리스트로 변환하여 출력하세요.

In [None]:
df1 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, np.nan, 88, 90, 76],
    "English": [92, 85, 89, np.nan, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, np.nan]
})

In [None]:
print(df1)

# to 딕셔너리
df_dict=df1.to_dict()
print(df_dict)

# to list
df_list=ar.tolist()
print(df_list)


      Name  Math  English  Science  History
0    Alice  85.0     92.0       78     88.0
1      Bob   NaN     85.0       90     92.0
2  Charlie  88.0     89.0       95     85.0
3    David  90.0      NaN       85     91.0
4      Eve  76.0     80.0       89      NaN
{'Name': {0: 'Alice', 1: 'Bob', 2: 'Charlie', 3: 'David', 4: 'Eve'}, 'Math': {0: 85.0, 1: nan, 2: 88.0, 3: 90.0, 4: 76.0}, 'English': {0: 92.0, 1: 85.0, 2: 89.0, 3: nan, 4: 80.0}, 'Science': {0: 78, 1: 90, 2: 95, 3: 85, 4: 89}, 'History': {0: 88.0, 1: 92.0, 2: 85.0, 3: 91.0, 4: nan}}
[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', nan, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, nan, 85, 91.0], ['Eve', 76.0, 80.0, 89, nan]]


In [None]:
# 강사님 풀이
df1.info() # <== 데이터프레임의 정보 확인할 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Name     5 non-null      object 
 1   Math     4 non-null      float64
 2   English  4 non-null      float64
 3   Science  5 non-null      int64  
 4   History  4 non-null      float64
dtypes: float64(3), int64(1), object(1)
memory usage: 328.0+ bytes


In [None]:
df1.columns

Index(['Name', 'Math', 'English', 'Science', 'History'], dtype='object')

In [None]:
# null값 처리는 여러 방식이 있음. 상황에 따라 불가피할 경우 null값 삭제할 수도 있고,
# 평균값으로 대체가 나을 경우 평균값으로 대체할 수도 있음

# 숫자 열에 대한 결측값을 각 열의 평균값으로 대체
df2=df1.copy()
columns=['Math','English', 'Science','History'] # <== name을 제외한 column 들에 적용하기 위해 따로 리스트 만들어주고
for column in columns: # <== for 문으로
    df2[column].fillna(df2[column].mean(),inplace=True) # <== null이 있는 곳에 각 column의 mean값 대체, 원본에 반영
df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [None]:
df2.describe()

Unnamed: 0,Math,English,Science,History
count,5.0,5.0,5.0,5.0
mean,84.75,86.5,87.4,89.0
std,5.356071,4.5,6.348228,2.738613
min,76.0,80.0,78.0,85.0
25%,84.75,85.0,85.0,88.0
50%,85.0,86.5,89.0,89.0
75%,88.0,89.0,90.0,91.0
max,90.0,92.0,95.0,92.0


In [None]:
# df1 데이터프레임에서 숫자형 데이터 타입을 가진 열들만 선택
df2=df1.copy()
for column in df2.select_dtypes(include=[np.number]).columns:
    df1[column].fillna(df2[column].mean(), inplace=True)

# 결과 출력
df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [None]:
# 배열로 변환
array1=df2.to_numpy()
# array1=df2.values # <== values로 해도 똑같이 나옴
print(array1)

# 딕셔너리로 변환
dict1=df2.to_dict(orient='list') # <== orient 안써도 됨
print(dict1)

# 리스트로 변환
list1=df2.values.tolist()
print(list1)

[['Alice' 85.0 92.0 78 88.0]
 ['Bob' 84.75 85.0 90 92.0]
 ['Charlie' 88.0 89.0 95 85.0]
 ['David' 90.0 86.5 85 91.0]
 ['Eve' 76.0 80.0 89 89.0]]
{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'Math': [85.0, 84.75, 88.0, 90.0, 76.0], 'English': [92.0, 85.0, 89.0, 86.5, 80.0], 'Science': [78, 90, 95, 85, 89], 'History': [88.0, 92.0, 85.0, 91.0, 89.0]}
[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', 84.75, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, 86.5, 85, 91.0], ['Eve', 76.0, 80.0, 89, 89.0]]


Task4_0527. df2에서 아래와 같이 데이터 필터링 및 정렬 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
- Math 점수가 80 이상인 학생만 선택
- English 점수를 기준으로 내림차순 정렬

In [None]:
df2 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, 79, 88, 90, 76],
    "English": [92, 85, 89, 93, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, 84]
})
print(df2)

      Name  Math  English  Science  History
0    Alice    85       92       78       88
1      Bob    79       85       90       92
2  Charlie    88       89       95       85
3    David    90       93       85       91
4      Eve    76       80       89       84


In [None]:
# 1. Math 점수가 80 이상인 학생만 선택
df2_sel=df2[df2['Math']>=80]
print(df2_sel)

# 2. English 점수를 기준으로 내림차순 정렬
print()
df2_sel_sorted=df2_sel.sort_values(by='English', ascending=False)
print(df2_sel_sorted)

# df2_sel.sort_values(by="English", ascending=False, inplace=True)
# print(df2_sel)


      Name  Math  English  Science  History
0    Alice    85       92       78       88
2  Charlie    88       89       95       85
3    David    90       93       85       91

      Name  Math  English  Science  History
3    David    90       93       85       91
0    Alice    85       92       78       88
2  Charlie    88       89       95       85


In [None]:
# 강사님 풀이:
# 필터링: Math 점수가 80 이사인 학생만 선택
df2_filtered=df2[df2['Math']>=80]

# 정렬: English 점수를 기준으로 내림차순 정렬
df2_sorted=df2_filtered.sort_values(by='English',ascending=False)

# 결과 출력
print(df2_sorted)

      Name  Math  English  Science  History
3    David    90       93       85       91
0    Alice    85       92       78       88
2  Charlie    88       89       95       85


In [None]:
# 배열로 변환
array2=df2_sorted.to_numpy()
print(array2,'\n')

# 딕셔너리로 변환
dict2=df2_sorted.to_dict(orient='list')
print(dict2,'\n')

# 리스트로 변환
list2=df2_sorted.values.tolist()
print(list2)


[['David' 90 93 85 91]
 ['Alice' 85 92 78 88]
 ['Charlie' 88 89 95 85]] 

{'Name': ['David', 'Alice', 'Charlie'], 'Math': [90, 85, 88], 'English': [93, 92, 89], 'Science': [85, 78, 95], 'History': [91, 88, 85]} 

[['David', 90, 93, 85, 91], ['Alice', 85, 92, 78, 88], ['Charlie', 88, 89, 95, 85]]


Task5_0527. df3에서 각 학생의 평균 점수 계산 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.

In [None]:
df3 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve", "Alice", "Bob", "Charlie", "David", "Eve"],
    "Subject": ["Math", "Math", "Math", "Math", "Math", "English", "English", "English", "English", "English"],
    "Score": [85, 79, 88, 90, 76, 92, 85, 89, 93, 80]
})
print(df3)

      Name  Subject  Score
0    Alice     Math     85
1      Bob     Math     79
2  Charlie     Math     88
3    David     Math     90
4      Eve     Math     76
5    Alice  English     92
6      Bob  English     85
7  Charlie  English     89
8    David  English     93
9      Eve  English     80


In [None]:
# 강사님 풀이:
g=df3['Score'].groupby(df3['Name']).mean()
g

Name
Alice      88.5
Bob        82.0
Charlie    88.5
David      91.5
Eve        78.0
Name: Score, dtype: float64

In [None]:
# 강사님 풀이
df3.pivot_table(index='Name',columns='Subject',values='Score',aggfunc='mean')
# aggfunc= 집계하는 숫자는 mean으로 하라, 는 뜻


Subject,English,Math
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,92,85
Bob,85,79
Charlie,89,88
David,93,90
Eve,80,76


In [None]:
df3_pivot=df3.pivot_table(index='Name',columns='Subject',values='Score',aggfunc='mean').reset_index()
# reset_index() 쓰면 좌측에 인덱스 열이 생김
# 다만, subject 열이름을 인덱스 열이 사용하게 되는 상태가 됨
df3_pivot.columns.name=None
# 따라서, columns.name=None 으로 불필요한 'subject' 삭제해줌
print(df3_pivot)

      Name  English  Math
0    Alice       92    85
1      Bob       85    79
2  Charlie       89    88
3    David       93    90
4      Eve       80    76


In [None]:
# 배열로 변환
array3=df3_pivot.to_numpy()
print(array3, '\n')

# 딕셔너리로 변환
dict3=df3_pivot.to_dict(orient='list')
print(dict3, '\n')

# 리스트로 변환
list3=df3_pivot.values.tolist()
print(list3,'\n')

[['Alice' 92 85]
 ['Bob' 85 79]
 ['Charlie' 89 88]
 ['David' 93 90]
 ['Eve' 80 76]] 

{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'English': [92, 85, 89, 93, 80], 'Math': [85, 79, 88, 90, 76]} 

[['Alice', 92, 85], ['Bob', 85, 79], ['Charlie', 89, 88], ['David', 93, 90], ['Eve', 80, 76]] 



Task6_0527. df4에서 특정 열의 데이터 타입을 변환한 후 변환된 타입을 확인하세요.

In [None]:
df4 = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['5.1', '6.2', '7.3', '8.4'],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']
})
print(df4)

   A    B           C
0  1  5.1  2021-01-01
1  2  6.2  2021-02-01
2  3  7.3  2021-03-01
3  4  8.4  2021-04-01


In [None]:
# 원하는 컬럼의 타입만 바꾸고 싶다면:
# astype({'column': 'type'})
print(df4.dtypes)
print()

df4['B']=df4['B'].astype(float)
print(df4)
print()
print(df4.dtypes)


A     object
B    float64
C     object
dtype: object

   A    B           C
0  1  5.1  2021-01-01
1  2  6.2  2021-02-01
2  3  7.3  2021-03-01
3  4  8.4  2021-04-01

A     object
B    float64
C     object
dtype: object


In [None]:
# 강사님 풀이:
# 'A'열을 정수형 (int)로 변환
df4['A']=df4['A'].astype(int)

# 'B'열을 부동 소수점 (float)으로 변환
df4['B']=df4['B'].astype(float)

# 'C'열을 datetime 형식으로 변환
df4['C']=pd.to_datetime(df4['C'])

# 데이터 타입 확인
print(df4.dtypes)

A             int64
B           float64
C    datetime64[ns]
dtype: object


Task7_0527. df5에서 나이가 25 이상인 행을 출력하세요.

In [None]:
df5 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
})
print(df5)

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
4      Eve   29      Phoenix


In [None]:
df5_1=df5[df5['Age']>=25] # df5 배열에서 age>-25 조건에 해당되는 df5의 행을 df5_1에 담기
print(df5_1)

    Name  Age         City
1    Bob   27  Los Angeles
3  David   32      Houston
4    Eve   29      Phoenix


In [None]:
# 추가 연습:
# column에 대해서는 list 형식으로 넣어줘도 가능
df5[['Name','City']]

Unnamed: 0,Name,City
0,Alice,New York
1,Bob,Los Angeles
2,Charlie,Chicago
3,David,Houston
4,Eve,Phoenix


### 0528 수업

In [None]:
# file 생성
import pandas as pd
file_data=pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']
})
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [None]:
# csv 파일 만들기
file_data.to_csv('file_data.csv',index=None)
# none을 넣지 않으면 인덱스 행이 중복되어 나옴

In [None]:
%pwd

'/content'

In [None]:
!ls

file_data.csv  sample_data


In [None]:
# 생성한 파일 읽기 (다시 dataframe 형태로 읽히게됨)
file_data=pd.read_csv('file_data.csv')
print(file_data,'\n',type(file_data))

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C 
 <class 'pandas.core.frame.DataFrame'>


In [None]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1)
print()
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C

   col1 col2
0     4    D
1     5    E
2     6    F


In [None]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력하세요
# 행방향 (axis=1). 가로로 움직인다고 해서 행방향임
df_3=pd.concat([df_1, df_2],axis=1)

# 열방향 (axis=0). 아래로 움직여서.
df_4=pd.concat([df_1, df_2])
print(df_3)
print()
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [None]:
df_4.iloc[:,1] # 2번째 column

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [None]:
df_4['col2'] # 시리즈 형태로 2번째 column

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object

In [None]:
df_4[['col2']] # dataframe 형태로 2번째 column

Unnamed: 0,col2
0,A
1,B
2,C
0,D
1,E
2,F


In [None]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [None]:
# 열이름과 행이름 변경
columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'}
index={0:'a',1:'b',2:'c',3:'d',4:'e',5:'f',6:'g',7:'h'}

df.rename(columns=columns, index=index, inplace=True)
df

Unnamed: 0,국어,영어,수학,과학,음악
a,92,74,53,58,50
b,71,69,60,93,91
c,60,71,88,82,70
d,94,79,89,64,76
e,67,76,72,52,52
f,51,76,55,90,96
g,83,79,92,74,57
h,93,83,65,98,87


In [None]:
# 데이터프레임 생성
import numpy as np
import pandas as pd
np.random.seed(0)

data = np.random.randint(80,100,size=(5,5))
df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [None]:
# 데이터프레임 복사
df1=df.copy()
df1

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [None]:
# 새로운 열 추가
df1['index']=list('가나다라마')
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [None]:
# 인덱스 열 지정/변경
df2=df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [None]:
# 특정 열 삭제
df21=df2.drop('e', axis=1)
df21

Unnamed: 0_level_0,a,b,c,d
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,92,95,80,83
나,87,89,99,98
다,86,92,81,86
라,94,97,85,93
마,89,99,96,99


In [None]:
# 인덱스 열 이전대로 원복
df3=df21.reset_index()
df3

Unnamed: 0,index,a,b,c,d
0,가,92,95,80,83
1,나,87,89,99,98
2,다,86,92,81,86
3,라,94,97,85,93
4,마,89,99,96,99


In [None]:
# 인덱스 열 지정/변경
df22=df3.set_index('index')
df22

Unnamed: 0_level_0,a,b,c,d
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,92,95,80,83
나,87,89,99,98
다,86,92,81,86
라,94,97,85,93
마,89,99,96,99


In [None]:
# 인덱스 열 이름 삭제
df22.index.name=None
df22

Unnamed: 0,a,b,c,d
가,92,95,80,83
나,87,89,99,98
다,86,92,81,86
라,94,97,85,93
마,89,99,96,99


In [None]:
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# Q. df에 r5, r6 24개의 행을 추가하고 값은 0을 적용하여 출력하세요
# df.loc['r5']=0
# df.loc['r6']=0
df4=df.drop('r6',axis=1)
# df2=df.drop('r6',axis=1)

print(df4)


    a  b  c  d  e  r5
r0  0  0  0  0  0   0
r1  0  0  0  0  0   0
r2  0  0  0  0  0   0
r3  0  0  0  0  0   0
r4  0  0  0  0  0   0
r5  0  0  0  0  0   0
r6  0  0  0  0  0   0


In [None]:
new_index=['r0','r1','r2','r3','r4','r5','r6','r7','r8']
df5=df.reindex(new_index,fill_value=0)
df5

Unnamed: 0,a,b,c,d,e,r5,r6
r0,0,0,0,0,0,0,0
r1,0,0,0,0,0,0,0
r2,0,0,0,0,0,0,0
r3,0,0,0,0,0,0,0
r4,0,0,0,0,0,0,0
r5,0,0,0,0,0,0,0
r6,0,0,0,0,0,0,0
r7,0,0,0,0,0,0,0
r8,0,0,0,0,0,0,0


In [None]:
new_index=['r0','r1','r2','r3','r4']
df1=df5.reindex(new_index,fill_value=0)
df1

Unnamed: 0,a,b,c,d,e,r5,r6
r0,0,0,0,0,0,0,0
r1,0,0,0,0,0,0,0
r2,0,0,0,0,0,0,0
r3,0,0,0,0,0,0,0
r4,0,0,0,0,0,0,0


In [None]:
# 슬라이싱 방식으로 인덱스 삭제
df1=df5.drop(df5.index[5:9])
df1


Unnamed: 0,a,b,c,d,e,r5,r6
r0,0,0,0,0,0,0,0
r1,0,0,0,0,0,0,0
r2,0,0,0,0,0,0,0
r3,0,0,0,0,0,0,0
r4,0,0,0,0,0,0,0


In [None]:
# Q. df5에서 r5-r8까지 삭제 후 df1으로 출력하세요.
df1=f5.drop(['r5','r6','r7','r8'],axis=0)

In [None]:
# 인덱스 내림차순 정렬
df1_s=df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e,r5,r6
r4,0,0,0,0,0,0,0
r3,0,0,0,0,0,0,0
r2,0,0,0,0,0,0,0
r1,0,0,0,0,0,0,0
r0,0,0,0,0,0,0,0


In [None]:
# 특정 value 내림차순 정렬
df1_c=df1.sort_values(by='c',ascending=False)
df1_c


Unnamed: 0,a,b,c,d,e,r5,r6
r0,0,0,0,0,0,0,0
r1,0,0,0,0,0,0,0
r2,0,0,0,0,0,0,0
r3,0,0,0,0,0,0,0
r4,0,0,0,0,0,0,0


In [None]:
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
print(df)

    a  b   c   d   e
r0  1  4   7  10  13
r1  2  5   8  11  14
r2  3  6   9  12  15
r3  4  7  10  13  16
r4  5  8  11  14  17


In [None]:
print(df)
df1=df.copy(0)
print()


    a  b   c   d   e
r0  1  4   7  10  13
r1  2  5   8  11  14
r2  3  6   9  12  15
r3  4  7  10  13  16
r4  5  8  11  14  17



In [None]:
# 전치 (행과 열 바꾸기)
# 행과 열의 길이가 같아야 전치 가능
df1_t=df1.transpose()
print(df1_t)

   r0  r1  r2  r3  r4
a   1   2   3   4   5
b   4   5   6   7   8
c   7   8   9  10  11
d  10  11  12  13  14
e  13  14  15  16  17


In [None]:
# 기존대로 원복 시키고 싶다면 다시 transpose()쓰면 됨
df1=df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


Q. df1으로 데이터프레임을 생성한 후 set_index를 사용하여 ID를 인덱스 설정한 데이터프레임을 출력하세요.

In [None]:
df1 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})

In [None]:
df1

df1_1=df1.set_index('ID')
df1_1

Unnamed: 0_level_0,Name,Age
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32


Q. df2에 대해서 다음을 수행하세요.
- set_index를 사용하여 인덱스를 설정.
- reset_index를 사용하여 인덱스를 리셋.

In [None]:
df2 = pd.DataFrame({
    'ID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
})

In [None]:
# 1. set_index를 사용하여 인덱스를 설정.
# 2. reset_index를 사용하여 인덱스를 리셋.

# 데이터프레임 확인
df2

# 1. 수행 (인덱스 설정)
df2_1=df2.set_index('ID')
print("인덱스 설정 : \n",df2_1)

# 2. 수행 (인덱스 리셋)
df2_2=df2_1.reset_index()
print("\n인덱스 리셋 : \n", df2_2)

인덱스 설정 : 
         Name  Age
ID               
101    Alice   24
102      Bob   27
103  Charlie   22
104    David   32

인덱스 리셋 : 
     ID     Name  Age
0  101    Alice   24
1  102      Bob   27
2  103  Charlie   22
3  104    David   32


Q. df3에 대해서 reindex를 사용하여 인덱스를 변경하여 출력하세요.

In [None]:
df3 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32]
}, index=[101, 102, 103, 104])

In [None]:
df3

# 일단 복사
df3_1=df3.copy()
df3_1

# # reindex 사용해서 인덱스를 바꿔보기
new_index=[101, 102, 103, 104, 105,106,107,108]
df3_2=df3_1.reindex(new_index, fill_value=0)
df3_2


Unnamed: 0,Name,Age
101,Alice,24
102,Bob,27
103,Charlie,22
104,David,32
105,0,0
106,0,0
107,0,0
108,0,0


Q. df4에 대해서 reindex를 사용하여 인덱스를 변경하고 결측치를 0으로 채운 데이터프레임을 출력하세요.

In [None]:
df4 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22]
}, index=[0, 1, 2])

print("기존 인덱스:\n", df4)

기존 인덱스:
       Name  Age
0    Alice   24
1      Bob   27
2  Charlie   22


In [None]:
df4

df4_1=df4.copy()
df4_1

# df4_1에다가 reindex로 인덱스 변경, 결측치 0으로 채우기
reindexed=[0,1,2,3,4]
df4_2=df4_1.reindex(reindexed,fill_value=0)
df4_2

Unnamed: 0,Name,Age
0,Alice,24
1,Bob,27
2,Charlie,22
3,0,0
4,0,0


Q. df5에서 reindex를 사용하여 특정 날짜 범위로 인덱스를 재설정하여 출력하세요.

In [None]:
dates = pd.date_range('2024-01-01', periods=4, freq='D')
df5 = pd.DataFrame({
    'Value': [10, 20, 30, 40]
}, index=dates)

In [None]:
df5
df5_1=df5.copy()

# df5_1로 작업
reindexed=pd.date_range('2024-01-03',periods=5,freq='2D') # <== date_range('시작 날짜',periods=생성할 개수, freq='얼마 단위로')
# D= day, H= 시간, M= 월, Y=연도.
# 그냥 알파벳만 쓰면 1단위로 나옴. 2일 단위로 쓰고 싶다면 2D로 쓰면 됨
df5_2=df5_1.reindex(reindexed,fill_value=0)
df5_2

Unnamed: 0,Value
2024-01-03,30
2024-01-05,0
2024-01-07,0
2024-01-09,0
2024-01-11,0


In [None]:
# 기존에 dates에 들어간 것을 유지하고, 추가적으로 date 단위로 바꿔서 인덱스를 넣고 싶다면 union 쓰기
df5_3=df5.copy()

# 추가하고 싶은 인덱스
add_index=pd.date_range('2024-01-05',periods=3,freq='3D')

# 기존 인덱스와 새로운 인덱스 합치기
new_index=dates.union(add_index) # 기존 인덱스: dates. 추가할 인덱스: add_index

# 데이터프레임을 새로운 인덱스로 재인덱싱, fill_value로 null값 0
df5_4=df5_3.reindex(new_index,fill_value=0)
df5_4

Unnamed: 0,Value
2024-01-01,10
2024-01-02,20
2024-01-03,30
2024-01-04,40
2024-01-05,0
2024-01-08,0
2024-01-11,0


Q. 데이터프레임 df6를 전치하고, 전치된 데이터프레임을 정리하여 연도별 판매량 데이터를 제품별로 나열하여 출력하세요.

In [None]:
data = {
    'Year': ['2020', '2021', '2022'],
    'Product_A': [500, 600, 700],
    'Product_B': [400, 500, 600],
    'Product_C': [300, 400, 500]
}
df6 = pd.DataFrame(data)
df6

Unnamed: 0,Year,Product_A,Product_B,Product_C
0,2020,500,400,300
1,2021,600,500,400
2,2022,700,600,500


In [None]:
df6

# 원본 복사
df7=df6.copy()

# 전치하기 전에 인덱스 세팅 다시하고
df8=df7.set_index('Year')
df8

# 전치함
df9=df8.transpose()
print(df9)


Year       2020  2021  2022
Product_A   500   600   700
Product_B   400   500   600
Product_C   300   400   500


In [None]:
# 강사님 풀이
df_transposed=df6.set_index('Year').T # <== transpose() 대신 .T로도 사용 가능
print(df_transposed)

# 전치된 데이터프레임 저일
# reset_index를 사용해서 인덱스를 리셋하고, rename을 사용하여 'index'열을 'product로 변경
df_transposed.reset_index(inplace=True)
# print(df_transposed)

df_transposed.rename(columns={'index':'Product'},inplace=True)
print("\n정리된 전치 데이터프레임: \n",df_transposed)

Year       2020  2021  2022
Product_A   500   600   700
Product_B   400   500   600
Product_C   300   400   500

정리된 전치 데이터프레임: 
 Year    Product  2020  2021  2022
0     Product_A   500   600   700
1     Product_B   400   500   600
2     Product_C   300   400   500


In [None]:
# df transpose "year" 제거
df6.set_index('Year', inplace=True) # inplace=true를 해줬기 때문에 year가 인덱스로 인지됨

KeyError: "None of ['Year'] are in the columns"

In [None]:
df6

Unnamed: 0_level_0,Product_A,Product_B,Product_C
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,500,400,300
2021,600,500,400
2022,700,600,500


In [None]:
df6.index.name=None
df6

Unnamed: 0,Product_A,Product_B,Product_C
2020,500,400,300
2021,600,500,400
2022,700,600,500


In [None]:
# 데이터프레임 전치
df_transposed=df6.T
print(df_transposed)

           2020  2021  2022
Product_A   500   600   700
Product_B   400   500   600
Product_C   300   400   500


In [None]:
df_transposed.reset_index(inplace=True)
df_transposed

Unnamed: 0,index,2020,2021,2022
0,Product_A,500,600,700
1,Product_B,400,500,600
2,Product_C,300,400,500


In [None]:
df_transposed.rename(columns={'index':'Product'},inplace=True)
df_transposed

Unnamed: 0,Product,2020,2021,2022
0,Product_A,500,600,700
1,Product_B,400,500,600
2,Product_C,300,400,500
