Contents
 - 데이터 구조 Series, DataFrame
 - 인덱스, 생성, 선택, 추가, 변경, 삭제, 전치
 - 파이썬 자료형과 양방향 변환

#### 판다스
Pandas는 파이썬에서 데이터 분석 및 조작을 위한 강력하고 유연한 오픈 소스 라이브러리. Series와 DataFrame 같은 고수준의 데이터 구조를 제공하여, 복잡한 데이터 조작을 직관적이고 효율적으로 수행할 수 있게 한다.

[Pandas의 주요 역할과 기능]

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, SQL, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

In [None]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02',3.14,'ABC',100,True]

# 별도로 인덱스 만들기
# sr = pd.Series(list_data,index = list('abcde'))

sr = pd.Series(list_data)
print(sr,type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>


In [None]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
# 인덱스 값 출력
print(list(idx))
print(val)

RangeIndex(start=0, stop=5, step=1)
[0, 1, 2, 3, 4]
['2019-07-02' 3.14 'ABC' 100 True]


In [None]:
# 튜플을 시리즈로 변환
tup_data = ('kevin','2019-07-02','남',True)
# sr = pd.Series(tup_data, index = list('abcd'))
# sr = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
sr = pd.Series(tup_data)
print(sr)

0         kevin
1    2019-07-02
2             남
3          True
dtype: object


In [None]:
# 인덱싱
print(sr[0])
# print(sr['이름'])
print(sr[[1,2]]) # 시리즈에서 위치 기반 인덱싱을 사용해서 여러 요소를 선택가능
print(sr[2])
print(sr[1,2]) #파이썬의 기본 인덱싱 방식으로 sr[1]과 같은

kevin
1    2019-07-02
2             남
dtype: object
남


In [None]:
# 배열
import numpy as np

s1 = np.arange(11,21,2)
print(s1,type(s1))
print()
s2 = pd.Series(s1,index = list('abcde'))
print(s2,type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
d    17
e    19
dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
# Q/ 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력
data = np.arange(1000, 5000, 1000)

state = ['Califonia','Ohio','Oregon','Texas']
sr = pd.Series(data,index = state,name = 'population')
# index.name은 따로 지정해야함
sr.index.name = 'state'
# sr.name = 'pupulation'
# sr.index.name = 'state'
print(sr)

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int64


None과 np.nan의 차이점
- None은 파이썬의 내장형 객체로 주로 객체형 데이터에서 사용
- np.nan은 부동 소수점으로 취급되면 주로 숫자형 데이터에서 사용
- 연산시 np.nan은 NaN 결과를 반환하는 반면 None은 TypeError를 발생시킨다

In [None]:
sr.Califonia = np.nan
sr

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
# 결측치 찾는법 1
null_mask = sr.isnull()
null_mask

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [None]:
# 찾는법 2
not_null_mask = sr.notnull()
not_null_mask

state
Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [None]:
# 결측값에 0대입
filled_series = sr.fillna(0)
filled_series

state
Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
filled_series.isnull().sum()

0

In [None]:
sr.Califonia = np.nan
sr

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [None]:
sr.isnull().sum()

1

In [None]:
# 결측값 삭제
dropped_series = sr.dropna()
dropped_series

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [None]:
dropped_series.isnull().sum()

0

In [None]:
# Series -> List
print(s2,type(s2))
list_from_series = s2.tolist()
print(list_from_series,type(list_from_series))

a    11
b    13
c    15
d    17
e    19
dtype: int64 <class 'pandas.core.series.Series'>
[11, 13, 15, 17, 19] <class 'list'>


In [None]:
# Series -> Dict
dict_from_series = s2.to_dict()
dict_from_series

{'a': 11, 'b': 13, 'c': 15, 'd': 17, 'e': 19}

In [None]:
df_from_series = s2.to_frame()
df_from_series

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


In [None]:
# Series -> DataFrame
df_from_series = s2.to_frame(name ='Value')
df_from_series

Unnamed: 0,Value
a,11
b,13
c,15
d,17
e,19


In [None]:
# Q. 아래 시리즈에서 null값을 2개 입력 후 그 값을 0으로 대체 후 null값 여부를 확인한 후 출력하세요.
import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])
print(s)
print()
# s['y'] = np.nan
s.x = np.nan
s.y = np.nan
print(s)
print()
# isna = isnull
# print(s.isna().sum())
print(s.isnull().sum())
s = s.fillna(0)
print(s.isnull().sum())

x     5
y    15
z    25
w    35
v    45
dtype: int64

x     NaN
y     NaN
z    25.0
w    35.0
v    45.0
dtype: float64

2
0


In [None]:
# Q. 주어진 리스트 [1, 2, 3, 4, 5]를 Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.
import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]
sr = pd.Series(data_list)
print(sr)

# values에 안하고 시리즈에 값 대입 가능
# srr = sr + 10
print(sr.values+10)
print()
sr= sr.values+10
sr = pd.Series(sr)
print(sr)

0    1
1    2
2    3
3    4
4    5
dtype: int64
[11 12 13 14 15]

0    11
1    12
2    13
3    14
4    15
dtype: int64


In [None]:
# Q. Series [10, 20, 30, 40, 50]를 생성하고 인덱스를 ['a', 'b', 'c', 'd', 'e']로 설정하세요. 인덱스를 기준으로 Series를 정렬한 결과를 출력하세요.
import pandas as pd
li1 = [10,20,30,40,50]
s1 = pd.Series(li1, index = ['a', 'c', 'b', 'd', 'e'])
print(s1)
print()
# 인덱스 기준으로 정렬
s1_sorted = s1.sort_index()
print(s1_sorted)



a    10
c    20
b    30
d    40
e    50
dtype: int64

a    10
b    30
c    20
d    40
e    50
dtype: int64


In [None]:
# Q. Series ['a':1, 'b':2, 'c':3, 'd':4, 'e':5]에서 인덱스 'b', 'd'에 해당하는 원소를 선택하여 출력하세요.
import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
s2 = pd.Series(data,index = index)
print(s2)
print()

print(s2_dict['b'])
print(s2_dict['d'])

print()
selected_ele = s2[['b','d']]
print(selected_ele)

a    1
b    2
c    3
d    4
e    5
dtype: int64

2
4

b    2
d    4
dtype: int64


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체.
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [None]:
# 배열을 데이터프레임으로 변환
np.random.seed(0) # 0말고 임의의 다른 숫자도 가능 -> 숫자마다 값이 다르게 나온다(번호마다 고정)
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))


df = pd.DataFrame(data,index=['d1','d2','d3'],
                  columns = ['pd','sales','inv'])

df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [None]:
print(df.pd, type(df.pd))

d1    112
d2    103
d3    109
Name: pd, dtype: int64 <class 'pandas.core.series.Series'>


In [None]:
df = pd.DataFrame(data, columns = ['pd','sales','inv'])
df

Unnamed: 0,pd,sales,inv
0,112,115,100
1,103,103,107
2,109,119,118


#### Pandas의 iloc와 loc 메서드
DataFrame과 Series에서 데이터의 특정 위치나 라벨에 접근하기 위한 중요한 도구이며 두 메서드는 각각 고유한 용도를 가지고 있다.

- iloc (Integer Location)
  - 정수 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 특정 위치에 있는 데이터를 선택할 때 사용.
  - 슬라이싱 지원: Python 리스트와 유사하게 슬라이싱을 지원.
  - 끝점 포함하지 않음: 슬라이싱 시 끝점은 포함하지 않는다.
- loc (Label Location)
  - 라벨 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 라벨 이름을 사용하여 데이터에 접근.
  - 슬라이싱 지원: 라벨을 사용하여 슬라이싱을 지원.
  - 끝점 포함: 슬라이싱 시 끝점을 포함.

In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df,'\n')
# 첫번째 행, 두번째 열의 값 선택
print(df.iloc[0,1])

# 첫 번째부터 두 번째 행, 첫 번째부터 두 번째 열 선택
print(df.iloc[0:2,0:2])

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12 

5
   A  B
0  1  5
1  2  6


In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df= pd.DataFrame(data,index =['a','b','c','d'])
print(df,'\n')
# 인덱스 'a', 열 'B'의 값 선택
print(df.loc['a','B'])


# 인덱스 'a'부터 'b', 열 'A'부터 'B' 선택
print(df.loc['a':'b','A':'B'])

   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12 

5
   A  B
a  1  5
b  2  6


In [None]:
# 배열을 데이터프레임으로 변환
np.random.seed(0) # 0말고 임의의 다른 숫자도 가능 -> 숫자마다 값이 다르게 나온다(번호마다 고정)
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))


df = pd.DataFrame(data,index=['d1','d2','d3'],
                  columns = ['pd','sales','inv'])


print(df,type(df))

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>
     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118 <class 'pandas.core.frame.DataFrame'>


In [None]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n')
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
print(df.iloc[1,:],'\n')
print(df.loc['d2',:])

pd       103
sales    103
inv      107
Name: d2, dtype: int64 

pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
# Q. iloc,loc를 사용하여 107을 출력
print(df.iloc[1,2])
print(df.loc['d2','inv'])

107
107


In [None]:
# 기존 행의 값에 특정값으로 변경
df.loc['d3']=0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [None]:
# 새로운 행 추가
# 새로운 행 추가시 loc만 사용가능
df.loc['d4']=0
df


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [None]:
# 새로운 열 추가
# : 행은 전부 다
df.loc[:,'profit']=10
df

Unnamed: 0,pd,sales,inv,profit
d1,112,115,100,10
d2,103,103,107,10
d3,0,0,0,10
d4,0,0,0,10


In [None]:
import random
print(random.random(),'\n') # 0.0 <= x < 1.0 사이
print(random.randint(1,10),'\n') # 1에서 10사이의 정수중에서 난수 값 리턴
print(random.uniform(10,20), '\n') # min max 사이 float 리턴
print(random.randrange(10), '\n') # 지정 범위 int 리턴
print(random.choice([1,2,3,4,5]),'\n') # 리스트 내부에 있는 요소를 랜덤하게 선택
li = [1,2,3,4,5]
print(random.sample(li,3),'\n') # 리스트 요소를 중복이 안되게 리턴
random.shuffle(li) # 리스트 요소를 다시 섞어서 리턴
print(li)

0.8745574260801708 

7 

16.12937669239504 

7 

4 

[3, 2, 1] 

[4, 2, 3, 5, 1]


[numpy random 함수]

- np.random.seed : seed를 통한 난수 생성
- np.random.randint : 정수 난수 1개 생성
- np.random.rand : 0부터 1사이의 균일분포에서 난수 매트릭스 배열 생성
- np.random.randn : 가우시안 표준 정규분포에서 난수 매트릭스 배열 생성
- np.random.shuffle : 기존의 데이터의 순서 바꾸기
- np.random.choice : 기존 데이터에서 sampling

In [None]:
import numpy as np
print(np.random.randint(6), '\n') # 0 ~ 5까지 정수인 난수 1개
print(np.random.randint(1,20),'\n') # 1 ~ 19까지 정수인 난수 1개
print(np.random.randint(10, size=10), '\n') # 0 ~ 9까지 정수인 난수 10개
print(np.random.randint(10,20, size=10),'\n') # 10 ~ 19까지 정수인 난수 10개
print(np.random.randint(10,20, size=(3,5))) # 10 ~ 19까지 정수인 난수로 3행 5열 배열 생성

3 

16 

[5 5 0 1 5 9 3 0 5 0] 

[11 12 14 12 10 13 12 10 17 15] 

[[19 10 12 17 12]
 [19 12 13 13 12]
 [13 14 11 12 19]]


In [None]:
# id, gender, age, region
import numpy as np
import pandas as pd

id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size = 1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size = 1000)
r1 = pd.Series(region)

df = pd.concat([i1,g1,a1,r1],axis =1)
# inplace=True => 원본도 같이 바꿈
df.rename(columns = {0:'id',1:'gender',2:'age',3:'region'},inplace = True)
df
# df.head()

Unnamed: 0,id,gender,age,region
0,1,1,52,3
1,2,0,93,8
2,3,0,6,3
3,4,0,1,3
4,5,1,84,4
...,...,...,...,...
995,996,0,80,4
996,997,1,32,10
997,998,1,18,3
998,999,0,65,7


In [None]:
df.drop([0], axis = 0, inplace = True)
df.head()

Unnamed: 0,id,gender,age,region
1,2,0,93,8
2,3,0,6,3
3,4,0,1,3
4,5,1,84,4
5,6,1,24,2


In [None]:
import pandas as pd

# DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 행 방향(axis=0)으로 평균 계산
print(df.mean(axis=0))  # 결과: A열의 평균, B열의 평균, C열의 평균

# 열 방향(axis=1)으로 평균 계산
print(df.mean(axis=1))  # 결과: 각 열의 평균


A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64


- at은 라벨 기반 인덱싱을 사용. 단일 값을 접근할 때 loc 접근자 보다 빠르다.
- 여러 값을 동시에 접근하려면 loc 접근자를 사용

In [None]:
df

Unnamed: 0,id,gender,age,region
1,2,0,93,8
2,3,0,6,3
3,4,0,1,3
4,5,1,84,4
5,6,1,24,2
...,...,...,...,...
995,996,0,80,4
996,997,1,32,10
997,998,1,18,3
998,999,0,65,7


In [None]:
df.at[5,'id']

6

In [None]:
df1 = df.drop(df.at[5,'id'])
df1.head(7)

Unnamed: 0,id,gender,age,region
1,2,0,93,8
2,3,0,6,3
3,4,0,1,3
4,5,1,84,4
5,6,1,24,2
7,8,1,39,5
8,9,1,41,4


Task1_0527. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [None]:
# Task1_0527. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
import numpy as np
import pandas as pd


li1 = ['짱구','훈이','철수','맹구','유리']
n1 = pd.Series(li1)
english = np.random.randint(50,100,size = 5)
e1 = pd.Series(english)
korean = np.random.randint(0,100,size = 5)
k1 = pd.Series(korean)
math = np.random.randint(30,100,size = 5)
m1 = pd.Series(math)

dataf = pd.concat([e1,k1,m1],axis = 1)
dataf.rename(index = n1,columns = {0:'영어점수',1:'국어점수',2:'수학점수'},inplace = True)
print(dataf,type(dataf))
dataf

    영어점수  국어점수  수학점수
짱구    85     0    33
훈이    50    50    72
철수    81    36    51
맹구    55    34    30
유리    80    48    40 <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,영어점수,국어점수,수학점수
짱구,85,0,33
훈이,50,50,72
철수,81,36,51
맹구,55,34,30
유리,80,48,40


In [None]:
print(dataf.loc['짱구'])
print()
print(dataf.iloc[1],'\n')
print(dataf['영어점수'],'\n')
print(dataf.loc['훈이','국어점수'],'\n')
print(dataf.iloc[3,2])

영어점수    85
국어점수     0
수학점수    33
Name: 짱구, dtype: int64

영어점수    50
국어점수    50
수학점수    72
Name: 훈이, dtype: int64 

짱구    85
훈이    50
철수    81
맹구    55
유리    80
Name: 영어점수, dtype: int64 

50 

30


In [None]:
dataf.loc['철수','수학점수'] = np.nan
dataf.iloc[1,2] = np.nan
dataf.loc['유리','국어점수'] = np.nan

# print(dataf.isnull().sum())
dataf

Unnamed: 0,영어점수,국어점수,수학점수
짱구,85,0.0,33.0
훈이,50,50.0,
철수,81,36.0,
맹구,55,34.0,30.0
유리,80,,40.0


In [None]:
print(dataf.isnull().sum())

영어점수    0
국어점수    1
수학점수    2
dtype: int64


In [None]:
dataf1 = dataf.dropna()
print(dataf1.isnull().sum())
dataf1


영어점수    0
국어점수    0
수학점수    0
dtype: int64


Unnamed: 0,영어점수,국어점수,수학점수
짱구,85,0.0,33.0
맹구,55,34.0,30.0


In [None]:
dataf1.loc['짱구','국어점수']=50
dataf1.iloc[1,2] = 44
dataf1

Unnamed: 0,영어점수,국어점수,수학점수
짱구,85,50.0,33.0
맹구,55,34.0,44.0


In [None]:
# dataf1.drop(['짱구'],axis = 0,inplace = True)
dataf1


Unnamed: 0,영어점수,국어점수,수학점수
맹구,55,34.0,44.0


In [2]:
# id, gender, age, region
import numpy as np
import pandas as pd

id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size = 1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size = 1000)
r1 = pd.Series(region)

df = pd.concat([i1,g1,a1,r1],axis =1)
df.rename(columns = {0:'id',1:'gender',2:'age',3:'region'},inplace = True)
print(df.iloc[[0,1,2,3,4]])


   id  gender  age  region
0   1       1   29       6
1   2       0   86       7
2   3       0    6       8
3   4       0   19       1
4   5       0   30       4


In [3]:
# null값을 3개 추가
df.loc[0,'age'] = np.nan
df.loc[1,'gender'] = np.nan
df.loc[2,'region'] = np.nan
df


Unnamed: 0,id,gender,age,region
0,1,1.0,,6.0
1,2,,86.0,7.0
2,3,0.0,6.0,
3,4,0.0,19.0,1.0
4,5,0.0,30.0,4.0
...,...,...,...,...
995,996,0.0,67.0,8.0
996,997,1.0,90.0,2.0
997,998,1.0,83.0,3.0
998,999,0.0,9.0,4.0


In [4]:
# null값 개수 세고 삭제
null_counts = df.isnull().sum()
print(null_counts)
df.dropna(inplace=True)
print(df.head(7))

id        0
gender    1
age       1
region    1
dtype: int64
   id  gender   age  region
3   4     0.0  19.0     1.0
4   5     0.0  30.0     4.0
5   6     1.0  40.0     1.0
6   7     0.0  47.0     4.0
7   8     1.0  61.0     1.0
8   9     0.0  55.0     9.0
9  10     0.0  75.0     6.0


In [6]:
# 2개의 데이터를 수정
df.loc[3,'age'] = 50
df.loc[4,'region'] = 5
df

Unnamed: 0,id,gender,age,region
3,4,0.0,50.0,1.0
4,5,0.0,30.0,5.0
5,6,1.0,40.0,1.0
6,7,0.0,47.0,4.0
7,8,1.0,61.0,1.0
...,...,...,...,...
995,996,0.0,67.0,8.0
996,997,1.0,90.0,2.0
997,998,1.0,83.0,3.0
998,999,0.0,9.0,4.0


In [8]:
# 1개의 행을 삭제
df.drop(index=5, inplace=True)


KeyError: '[5] not found in axis'

In [9]:
# 최종 데이터프레임 출력
print(df.head(7))

    id  gender   age  region
3    4     0.0  50.0     1.0
4    5     0.0  30.0     5.0
6    7     0.0  47.0     4.0
7    8     1.0  61.0     1.0
8    9     0.0  55.0     9.0
9   10     0.0  75.0     6.0
10  11     1.0  34.0     2.0


In [None]:
# 복사
df1 = df.copy()
df1.head()

Unnamed: 0,id,gender,age,region
1,2,0,93,8
2,3,0,6,3
3,4,0,1,3
4,5,1,84,4
5,6,1,24,2


In [None]:
np.random.seed(0)
a = np.random.randint(1,5,size = (10,5))
print(a,type(a))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>


In [None]:
# 2차원 리스트를 데이터프레임으로 변환
list1 = a.tolist()


df1 = pd.DataFrame(list1,columns = ['c1','c2','c3','c4','c5'])
print(df1.head())

   c1  c2  c3  c4  c5
0   1   4   2   1   4
1   4   4   4   2   4
2   2   3   1   4   3
3   1   1   1   3   2
4   3   4   4   3   1


In [None]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar,type(ar))
print()
li = ar.tolist()
print(li,type(li))
print()
dict = df1.to_dict('list')
print(dict,type(dict))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>

[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]] <class 'list'>

{'c1': [1, 4, 2, 1, 3, 2, 2, 2, 3, 2], 'c2': [4, 4, 3, 1, 4, 2, 1, 3, 4, 4], 'c3': [2, 4, 1, 1, 4, 2, 4, 4, 1, 4], 'c4': [1, 2, 4, 3, 3, 2, 1, 4, 2, 3], 'c5': [4, 4, 3, 2, 1, 1, 4, 1, 4, 4]} <class 'dict'>


Task2_0527. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [10]:
# Task2_0527. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
import pandas as pd
import numpy as np
df = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

# 국어 3명 수학 2명은 결측치라 생각하고 0으로
# 점수를 랜덤으로 할 경우 -> 등급을 5점차로 맞추기 어려움..;;
# 영어, 수학 평균이 국어 보다 5점이 낮다
# np.random.seed(0)
# df.loc[:,'국어'] = np.random.randint
# df.loc[:,'국어'] = np.arrange(100,55,5)
# df.loc[:,'영어'] = np.random.randint(0,100,size=10)
# df.loc[:,'수학'] = np.random.randint(0,100,size=10)
# df.loc[:,'과학'] = np.random.randint(0,100,size=10)
# df.loc[:,'사회'] = np.random.randint(0,100,size=10)


Unnamed: 0,국어,영어,수학,과학,사회
s1,4,1,3,1,3
s2,4,3,1,1,4
s3,2,3,4,4,4
s4,4,4,2,4,3
s5,2,2,4,4,1
s6,4,4,2,4,4
s7,1,2,2,3,4
s8,4,2,2,3,4
s9,3,1,4,3,1
s10,2,1,3,2,2


In [11]:
# 등급간 점수 차는 5점
for i in range(10):
    df.iloc[i] = 90 - i*5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [12]:
# 영어, 수학의 평균 점수가 국어 대비 5점 낮음
for i in range(10):
    df.iloc[i,1:3] = df.iloc[i,0] - 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [14]:
# 결시자가 국어 3명, 수학 2명 있음
a = df.copy()
a.iloc[7:,0]= np.nan
a.iloc[8:,2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


In [15]:
# Task3_0527. df1에서 결측값 처리 후 딕셔너리, 리스트로 변환하여 출력하세요.
df1 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, np.nan, 88, 90, 76],
    "English": [92, 85, 89, np.nan, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, np.nan]
})
df1 =df1.fillna(0)
df1
df1_dict = df1.to_dict()
df1_list = df1.values.tolist()
print(df1_dict)
print()
print(df1_list)

{'Name': {0: 'Alice', 1: 'Bob', 2: 'Charlie', 3: 'David', 4: 'Eve'}, 'Math': {0: 85.0, 1: 0.0, 2: 88.0, 3: 90.0, 4: 76.0}, 'English': {0: 92.0, 1: 85.0, 2: 89.0, 3: 0.0, 4: 80.0}, 'Science': {0: 78, 1: 90, 2: 95, 3: 85, 4: 89}, 'History': {0: 88.0, 1: 92.0, 2: 85.0, 3: 91.0, 4: 0.0}}

[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', 0.0, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, 0.0, 85, 91.0], ['Eve', 76.0, 80.0, 89, 0.0]]


In [23]:
df1 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, np.nan, 88, 90, 76],
    "English": [92, 85, 89, np.nan, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, np.nan]
})
# 데이터프레임의 정보
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Name     5 non-null      object 
 1   Math     4 non-null      float64
 2   English  4 non-null      float64
 3   Science  5 non-null      int64  
 4   History  4 non-null      float64
dtypes: float64(3), int64(1), object(1)
memory usage: 328.0+ bytes


In [21]:
# 통계정보
df1.describe()

Unnamed: 0,Math,English,Science,History
count,4.0,4.0,5.0,4.0
mean,84.75,86.5,87.4,89.0
std,6.184658,5.196152,6.348228,3.162278
min,76.0,80.0,78.0,85.0
25%,82.75,83.75,85.0,87.25
50%,86.5,87.0,89.0,89.5
75%,88.5,89.75,90.0,91.25
max,90.0,92.0,95.0,92.0


In [19]:
# 컬럼명
df1.columns

Index(['Name', 'Math', 'English', 'Science', 'History'], dtype='object')

In [26]:
# df1 데이터프레임에서 숫자형 데이터 타입을 가진 열들만 선택
df2 = df1.copy()
for column in df2.select_dtypes(include =[np.number]).columns:
    df1[column].fillna(df2[column].mean(), inplace = True)

df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [25]:
# 의미있는 값으로 대체할 수 있다면 null을 삭제하지 않고 값을 넣는다
# ex) 각 열의 평균값으로 대체
df2 = df1.copy()
columns = ['Math','English','Science','History']
for column in columns:
    df2[column].fillna(df2[column].mean(),inplace = True)
df2


Unnamed: 0,Name,Math,English,Science,History
0,Alice,85.0,92.0,78,88.0
1,Bob,84.75,85.0,90,92.0
2,Charlie,88.0,89.0,95,85.0
3,David,90.0,86.5,85,91.0
4,Eve,76.0,80.0,89,89.0


In [27]:
# 배열로 변환
array1 = df2.to_numpy()
# values랑 같다
print(array1)

# 딕셔너리로 변환
# 데이터 구조 유지를 위해서 list 형식으로 바꾼다
dict1 = df2.to_dict(orient='list')
# orient 생략가능
print(dict1)

# 리스트로 변환
list1 = df2.values.tolist()
print(list1)

[['Alice' 85.0 92.0 78 88.0]
 ['Bob' 84.75 85.0 90 92.0]
 ['Charlie' 88.0 89.0 95 85.0]
 ['David' 90.0 86.5 85 91.0]
 ['Eve' 76.0 80.0 89 89.0]]
{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'Math': [85.0, 84.75, 88.0, 90.0, 76.0], 'English': [92.0, 85.0, 89.0, 86.5, 80.0], 'Science': [78, 90, 95, 85, 89], 'History': [88.0, 92.0, 85.0, 91.0, 89.0]}
[['Alice', 85.0, 92.0, 78, 88.0], ['Bob', 84.75, 85.0, 90, 92.0], ['Charlie', 88.0, 89.0, 95, 85.0], ['David', 90.0, 86.5, 85, 91.0], ['Eve', 76.0, 80.0, 89, 89.0]]



Task4_0527. df2에서 아래와 같이 데이터 필터링 및 정렬 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
- Math 점수가 80 이상인 학생만 선택
- English 점수를 기준으로 내림차순 정렬

In [28]:
# Task4_0527. df2에서 아래와 같이 데이터 필터링 및 정렬 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
df2 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Math": [85, 79, 88, 90, 76],
    "English": [92, 85, 89, 93, 80],
    "Science": [78, 90, 95, 85, 89],
    "History": [88, 92, 85, 91, 84]
})
df2

Unnamed: 0,Name,Math,English,Science,History
0,Alice,85,92,78,88
1,Bob,79,85,90,92
2,Charlie,88,89,95,85
3,David,90,93,85,91
4,Eve,76,80,89,84


In [None]:
# math 점수가 80점 이상인 학생만 새로운 변수에 저장
df22 = df2.loc[df2.loc[:,'Math'] >= 80,:]
# 영어점수 순으로 내림차순
df22.sort_values(by = 'English',ascending = False)
print(df22)
print()
df22_array = df22.values
df22_dict = df22.to_dict()
df22_list = df22.values.tolist()
print(df22_array)
print()
print(df22_dict)
print()
print(df22_list)

      Name  Math  English  Science  History
0    Alice    85       92       78       88
2  Charlie    88       89       95       85
3    David    90       93       85       91

[['Alice' 85 92 78 88]
 ['Charlie' 88 89 95 85]
 ['David' 90 93 85 91]]

{'Name': {0: 'Alice', 2: 'Charlie', 3: 'David'}, 'Math': {0: 85, 2: 88, 3: 90}, 'English': {0: 92, 2: 89, 3: 93}, 'Science': {0: 78, 2: 95, 3: 85}, 'History': {0: 88, 2: 85, 3: 91}}

[['Alice', 85, 92, 78, 88], ['Charlie', 88, 89, 95, 85], ['David', 90, 93, 85, 91]]


In [30]:
df2_filtered = df2[df2['Math'] >= 80]
print(df2_filtered)

      Name  Math  English  Science  History
0    Alice    85       92       78       88
2  Charlie    88       89       95       85
3    David    90       93       85       91


In [31]:
# Task5_0527. df3에서 각 학생의 평균 점수 계산 후 배열, 딕셔너리, 리스트로 변환하여 출력하세요.
df3 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve", "Alice", "Bob", "Charlie", "David", "Eve"],
    "Subject": ["Math", "Math", "Math", "Math", "Math", "English", "English", "English", "English", "English"],
    "Score": [85, 79, 88, 90, 76, 92, 85, 89, 93, 80]
})
import numpy as np
df3
group_df = df3.groupby('Name').sum()
print(group_df)
group_df['mean'] = group_df['Score']/2
print(group_df['Score']/2)
group_df.drop(['Subject'],axis = 1, inplace = True)
print(group_df,type(group_df))

print()
group_df_ar = group_df.values
group_df_dic = group_df.to_dict()
group_df_li = group_df.values.tolist()
print(group_df_ar)
print(group_df_dic)
print(group_df_li)

             Subject  Score
Name                       
Alice    MathEnglish    177
Bob      MathEnglish    164
Charlie  MathEnglish    177
David    MathEnglish    183
Eve      MathEnglish    156
Name
Alice      88.5
Bob        82.0
Charlie    88.5
David      91.5
Eve        78.0
Name: Score, dtype: float64
         Score  mean
Name                
Alice      177  88.5
Bob        164  82.0
Charlie    177  88.5
David      183  91.5
Eve        156  78.0 <class 'pandas.core.frame.DataFrame'>

[[177.   88.5]
 [164.   82. ]
 [177.   88.5]
 [183.   91.5]
 [156.   78. ]]
{'Score': {'Alice': 177, 'Bob': 164, 'Charlie': 177, 'David': 183, 'Eve': 156}, 'mean': {'Alice': 88.5, 'Bob': 82.0, 'Charlie': 88.5, 'David': 91.5, 'Eve': 78.0}}
[[177.0, 88.5], [164.0, 82.0], [177.0, 88.5], [183.0, 91.5], [156.0, 78.0]]


In [37]:
g = df3['Score'].groupby(df3['Name']).mean()
g

Name
Alice      88.5
Bob        82.0
Charlie    88.5
David      91.5
Eve        78.0
Name: Score, dtype: float64

In [34]:
df3.pivot_table(index = 'Name', columns = 'Subject', values = 'Score',aggfunc = 'mean')


Subject,English,Math
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,92,85
Bob,85,79
Charlie,89,88
David,93,90
Eve,80,76


In [42]:
df3_pivot = df3.pivot_table(index = 'Name', columns = 'Subject', values = 'Score',aggfunc = 'mean').reset_index()
# 데이터를 사용하기 위해서 인덱스에서 값으로 빼옴
df3_pivot.columns.name = None

print(df3_pivot)

      Name  English  Math
0    Alice       92    85
1      Bob       85    79
2  Charlie       89    88
3    David       93    90
4      Eve       80    76


In [44]:
# 배열로 변환
array3 = df3_pivot.to_numpy()
print(array3,'\n')

# 딕셔너리로 변환
dict3 = df3_pivot.to_dict(orient='list')
print(dict3,'\n')

# 리스트로 변환
list3 = df3_pivot.values.tolist()
print(list3)

[['Alice' 92 85]
 ['Bob' 85 79]
 ['Charlie' 89 88]
 ['David' 93 90]
 ['Eve' 80 76]] 

{'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'English': [92, 85, 89, 93, 80], 'Math': [85, 79, 88, 90, 76]} 

[['Alice', 92, 85], ['Bob', 85, 79], ['Charlie', 89, 88], ['David', 93, 90], ['Eve', 80, 76]]


In [46]:
# Task6_0527. df4에서 특정 열의 데이터 타입을 변환한 후 변환된 타입을 확인하세요.
df4 = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['5.1', '6.2', '7.3', '8.4'],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']
})
print(type(df4.loc[:,'C']))
print(df4)
print(df4['B'].dtypes)
print(df4['C'].dtypes)
print(df4.dtypes)
print()
df4['B'] = df4['B'].astype(float)
print(df4['B'],type(df4['B']))

<class 'pandas.core.series.Series'>
   A    B           C
0  1  5.1  2021-01-01
1  2  6.2  2021-02-01
2  3  7.3  2021-03-01
3  4  8.4  2021-04-01
object
object
A    object
B    object
C    object
dtype: object

0    5.1
1    6.2
2    7.3
3    8.4
Name: B, dtype: float64 <class 'pandas.core.series.Series'>


In [47]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      object 
 1   B       4 non-null      float64
 2   C       4 non-null      object 
dtypes: float64(1), object(2)
memory usage: 224.0+ bytes


In [48]:
# 'A'열을 정수형으로 변환
df4['A'] = df4['A'].astype(int)

# 'B'열을 부동 소수점으로 변환
df4['B'] = df4['B'].astype(float)

# 'C'열을 datetime형식으로 변환
df4['C'] = pd.to_datetime(df4['C'])

# 데이터 타입 확인
print(df4.dtypes)

A             int64
B           float64
C    datetime64[ns]
dtype: object


In [49]:
# Task7_0527. df5에서 나이가 25 이상인 행을 출력하세요.
df5 = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
})

df5
# print(df5.loc[Age])
df5.loc[df5.loc[:,'Age'] >= 25,:]

Unnamed: 0,Name,Age,City
1,Bob,27,Los Angeles
3,David,32,Houston
4,Eve,29,Phoenix


In [50]:
subset = df5[df5['Age']>= 25]
print(subset)

    Name  Age         City
1    Bob   27  Los Angeles
3  David   32      Houston
4    Eve   29      Phoenix


In [53]:
df5.iloc[:,0]

0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: Name, dtype: object

In [51]:
# 컬럼만 사용할 땐 loc, iloc 사용안해도 가능
df5[['Name']]

Unnamed: 0,Name
0,Alice
1,Bob
2,Charlie
3,David
4,Eve
