#### 판다스


* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 데이터 정제, 필터링, 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

Series 기본 구조
- Series는 값의 리스트를 담고 있으며, 각 값은 고유한 인덱스와 연결되어 있다.
- 기본적으로, 이 인덱서는 0부터 시작하는 정수지만, 문자열 똔는 날짜와 같은 다른 타입으로 지정할 수도 있다.
- Series는 다양한 데이터 타입을 저장할 수 있다. 예를 들어, 정수, 실수, 문자열, 파이썬 객체 등이 포함된다.
- 강력한 인덱싱 및 슬라이싱 기능을 제공. 특정 인덱스의 값에 접근하거나, 특정 조건을 만족하는 데이터만을 필터링할 수 있다.
- Series를 다른 형태의 데이터 구조로 변환하는 것이 간단하다. 예를 들어, Series를 리스트, 딕셔너리, 혹은 DataFrame으로 변환할 수 있다.
- isnull(), notnull() 메서드를 사용하여 결측치를 찾을 수 있고, fillna(), dropna() 메서드로 결측치를 처리할 수 있다.

In [2]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

#k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1, 'b':2, 'c':3}

sr = pd.Series(dict_data)
print(sr)
type(sr)

a    1
b    2
c    3
dtype: int64


pandas.core.series.Series

In [4]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02',3.14,'ABC',100,True]
sdata = pd.Series(list_data, index=list('abcde'))
print(sdata)
type(sr)

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object


pandas.core.series.Series

In [6]:
# 인덱스 및 값
idx = sdata.index
val = sdata.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [10]:
# 튜플을 시리즈로 변환
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [20]:
# 인덱싱
import warnings
warnings.filterwarnings('ignore') # Warning 무시하는 것

print(sr[0])
print(sr['이름'])
print(sr[1])
print(sr['성별'])
print(sr[[1,2]]) # sr[[1,2]]는 판다스의 팬시 인덱싱을 사용해 여러 인덱스를 한 번에 선택할 수 있다.
print(sr[1,2]) # 에러를 발생, sr[1,2]는 튜플(1,2)를 인덱스로 사용하려고 시도하는 반면 Series 객체는 단일 차원의 인덱스만을 지원
print(sr[1:3])

kevin
kevin
2019-07-02
남
생년월일    2019-07-02
성별               남
dtype: object
생년월일    2019-07-02
성별               남
dtype: object


In [25]:
import numpy as np
s1 = np.arange(11,21,2)
print(s1, type(s1))
s2 = pd.Series(s1, index=list('abcde'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>
a    11
b    13
c    15
d    17
e    19
dtype: int32 <class 'pandas.core.series.Series'>


In [None]:
과제_1121. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요.
STATE
California 1000
Ohio       2000
Oregon     3000
Texas      4000
Name: population, dype: int32

In [27]:
import numpy as np
list1 = np.arange(1000,5000,1000)
sr = pd.Series(list1,index = ['California','Ohio','Oregon','Texas'])
sr.name = 'population'
sr.index.name = 'state'
print(sr)

state
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32


In [28]:
# series -> list
sr_tolist = sr.tolist()
sr_tolist

[1000, 2000, 3000, 4000]

In [29]:
# series -> dictionary
sr_todic = sr.to_dict()
sr_todic

{'California': 1000, 'Ohio': 2000, 'Oregon': 3000, 'Texas': 4000}

In [30]:
# series -> dataframe
sr_df = sr.to_frame(name='Value')
sr_df

Unnamed: 0_level_0,Value
state,Unnamed: 1_level_1
California,1000
Ohio,2000
Oregon,3000
Texas,4000


In [32]:
sr.California = np.nan
sr

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [34]:
# null 확인
null_sr = sr.isnull()
null_sr

state
California     True
Ohio          False
Oregon        False
Texas         False
Name: population, dtype: bool

In [37]:
# 널이 몇 개 있는가
null_sr.sum()

1

In [36]:
# null이 아닌 것을 확인
not_null_sr = sr.notnull()
not_null_sr

state
California    False
Ohio           True
Oregon         True
Texas          True
Name: population, dtype: bool

In [38]:
# null인 값을 특정한 숫자로 채우는 것
filled_sr = sr.fillna(0)
filled_sr

state
California       0.0
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [39]:
#null 값 빼기
dropped_sr = sr.dropna()
dropped_sr

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [41]:
dropped_sr.isnull().sum()

0

#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 데이터프레임 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [45]:
# 배열을 데이터프레임으로 변환

np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))

df = pd.DataFrame(data, index=['d1','d2','d3'], columns = ['pd','sales','inv'])
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [49]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1])
print(df.iloc[1,:]) #원래는 슬라이싱 형태로 해야하는데 앞에 것은 간탄하게 하는 방식

pd       103
sales    103
inv      107
Name: d2, dtype: int32
pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [50]:
print(df.loc['d2'])
print(df.loc['d2',:])

pd       103
sales    103
inv      107
Name: d2, dtype: int32
pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [53]:
print(df.iloc[1,2])
print(df.loc['d2','inv'])

107
107


In [55]:
df.loc['d3'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [61]:
# 2차원 리스트를 데이터프레임으로 변환

a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
print(list1)
df1 = pd.DataFrame(a, columns = ['c1','c2','c3','c4','c5'])
df1.head() #5개 출력. 괄호 안에 숫자가 있으면 숫자만큼의 행을 출력
df1.tail()
df1.head(3)

[[3, 1, 3, 4, 4], [3, 4, 2, 2, 2], [4, 3, 1, 1, 2], [1, 4, 3, 4, 4], [3, 1, 3, 4, 3], [3, 2, 2, 4, 4], [1, 4, 1, 1, 3], [3, 4, 2, 2, 1], [4, 1, 3, 4, 4], [2, 4, 2, 4, 3]]


Unnamed: 0,c1,c2,c3,c4,c5
0,3,1,3,4,4
1,3,4,2,2,2
2,4,3,1,1,2


In [63]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar)
print()
li = ar.tolist()
print(li,type(li))
print()
dict = df1.to_dict('list')
print(dict,type(dict))

[[3 1 3 4 4]
 [3 4 2 2 2]
 [4 3 1 1 2]
 [1 4 3 4 4]
 [3 1 3 4 3]
 [3 2 2 4 4]
 [1 4 1 1 3]
 [3 4 2 2 1]
 [4 1 3 4 4]
 [2 4 2 4 3]]

[[3, 1, 3, 4, 4], [3, 4, 2, 2, 2], [4, 3, 1, 1, 2], [1, 4, 3, 4, 4], [3, 1, 3, 4, 3], [3, 2, 2, 4, 4], [1, 4, 1, 1, 3], [3, 4, 2, 2, 1], [4, 1, 3, 4, 4], [2, 4, 2, 4, 3]] <class 'list'>

{'c1': [3, 3, 4, 1, 3, 3, 1, 3, 4, 2], 'c2': [1, 4, 3, 4, 1, 2, 4, 4, 1, 4], 'c3': [3, 2, 1, 3, 3, 2, 1, 2, 3, 2], 'c4': [4, 2, 1, 4, 4, 4, 1, 2, 4, 4], 'c5': [4, 2, 2, 4, 3, 4, 3, 1, 4, 3]} <class 'dict'>


In [68]:
#과제2_1121. 5행 5열로 구성된 2차원 배열을 생성하여 데이터프레임으로 변경해서 출력하세요.
import numpy as np
import pandas as pd
np.random.seed(0) # 아무리 돌려도 seed(0) 을 주면 같은 숫자가 나온다. seed(1) 을 주면 그에 맞는 숫자가 나온다.
height_data = np.random.randint(140,190,size=(5,5))
df2 = pd.DataFrame(height_data, columns=['class1','class2','class3','class4','class5'])
df2

Unnamed: 0,class1,class2,class3,class4,class5
0,184,187,140,143,143
1,179,149,159,161,176
2,163,146,164,164,152
3,141,178,179,163,186
4,164,157,177,165,153


과제3_1121. 과제2번의 데이터프레임을 각각 배열, 리스트, 사전의 형태로 변환하여 출력하세요.

In [71]:
#데이터프레임->배열로 변환
array2 = df2.values
print(array2,type(array2))
#->리스트로 변환
li2 = array2.tolist()
print(li2, type(li2))
dict2 = df2.to_dict('list')
print(dict2, type(dict2))

[[184 187 140 143 143]
 [179 149 159 161 176]
 [163 146 164 164 152]
 [141 178 179 163 186]
 [164 157 177 165 153]] <class 'numpy.ndarray'>
[[184, 187, 140, 143, 143], [179, 149, 159, 161, 176], [163, 146, 164, 164, 152], [141, 178, 179, 163, 186], [164, 157, 177, 165, 153]] <class 'list'>
{'class1': [184, 179, 163, 141, 164], 'class2': [187, 149, 146, 178, 157], 'class3': [140, 159, 164, 179, 177], 'class4': [143, 161, 164, 163, 165], 'class5': [143, 176, 152, 186, 153]} <class 'dict'>


과제4_1121. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [14]:
import numpy as np
import pandas as pd
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
print(i1)

df = pd.concat([i1,g1,a1,r1],axis=1)
print(df)
#출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
# index를 사용하니깐 iloc 를 써야 함 loc 대신
print(df.iloc[990,2])
print(df.iloc[10,1])
print(df.iloc[40,3])
print(df.iloc[33,2])
print(df.iloc[50,3])

# null값을 3개 추가
df.iloc[0,1] = np.nan
df.iloc[0,2] = np.nan
df.iloc[0,3] = np.nan
print(df.head())

# null값의 개수를 확인하고 삭제
print(f"Null 추가 후 null 값의 개수 확인: {df.isnull().sum().sum()}")
df = df.dropna()
print(df.head())
print(f"Null 삭제 후 null 갯수 확인: {df.isnull().sum().sum()}")

# 2개의 데이터를 수정
df.iloc[1,1] = 1
df.iloc[1,2] = 1
print(df.head())


# 1개의 행을 삭제
#df.drop([0], inplace=True) # default: axis = 0 이라서 생략 가능함.
df.drop([0], axis=0, inplace=True)
print(df.head())
df1 = df.drop([1],axis=0)

#df 에서 이미 행 0이 삭제 되었기 때문에 에러가 뜨는 것임...! 행 인덱스 바꿔서 연습해보길.

# [0]은 당신이 제거하고 싶은 인덱스를
# axis=0은 dataframe에서 행이 제거된다는 표기를
# inplace=True는 동일한 dataframe에서 삭제 연산을 실행합니다. True를 안하면 원본에 반영이 안된다.
# 원본을 반영하고 싶지 않으면 False
# 삭제한 것을 별도의 이름에다가 지정해서 보고 싶으면 df1에서 하는 것 처럼 하면 됨.

0         1
1         2
2         3
3         4
4         5
       ... 
995     996
996     997
997     998
998     999
999    1000
Length: 1000, dtype: int32
        0  1   2  3
0       1  0  63  2
1       2  0  96  3
2       3  0  37  2
3       4  0  56  5
4       5  0  90  5
..    ... ..  .. ..
995   996  1  42  3
996   997  1  18  3
997   998  1   8  6
998   999  0  95  3
999  1000  0  88  6

[1000 rows x 4 columns]
41
0
5
88
9
   0    1     2    3
0  1  NaN   NaN  NaN
1  2  0.0  96.0  3.0
2  3  0.0  37.0  2.0
3  4  0.0  56.0  5.0
4  5  0.0  90.0  5.0
Null 추가 후 null 값의 개수 확인: 3
   0    1     2    3
1  2  0.0  96.0  3.0
2  3  0.0  37.0  2.0
3  4  0.0  56.0  5.0
4  5  0.0  90.0  5.0
5  6  1.0  85.0  3.0
Null 삭제 후 null 갯수 확인: 0
   0    1     2    3
1  2  0.0  96.0  3.0
2  3  1.0   1.0  2.0
3  4  0.0  56.0  5.0
4  5  0.0  90.0  5.0
5  6  1.0  85.0  3.0


KeyError: '[0] not found in axis'

In [15]:
%pwd

'D:\\kdt_231026\\workspace\\m3_분석라이브러리\\Pandas'

In [16]:
!mkdir data
# 현 위치에 data라는 새폴더 만들기

In [17]:
ls

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\kdt_231026\workspace\m3_분석라이브러리\Pandas 디렉터리

2023-11-22  오전 10:02    <DIR>          .
2023-11-22  오전 10:02    <DIR>          ..
2023-11-21  오전 09:05    <DIR>          .ipynb_checkpoints
2023-11-22  오전 10:02    <DIR>          data
2023-11-22  오전 10:02            40,141 데이터 형식.ipynb
               1개 파일              40,141 바이트
               4개 디렉터리  452,105,433,088 바이트 남음


In [18]:
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['a','a','b','b','c','c']
})
file_data

Unnamed: 0,col1,col2
0,1,a
1,2,a
2,3,b
3,4,b
4,5,c
5,6,c


In [19]:
# csv 파일을 'data'라는 폴더에 저장하기

file_data.to_csv('data/file_data.csv', index=None) # index=None 안하면 두번 오버랩 되어서 나온다고 한다.

In [20]:
file_data = pd.read_csv('data/file_data.csv')
print(file_data, type(file_data))

# 판다스의 데이터 형식은 series 나 데이터프레임이다.
# 서로 호환해서 쓰려면 이걸 알아야 한다.
# 판다스는 csv를 불러와서 데이터프레임 형태로 쓸 수 있다.

   col1 col2
0     1    a
1     2    a
2     3    b
3     4    b
4     5    c
5     6    c <class 'pandas.core.frame.DataFrame'>


과제1_1122. 100행 10열로 구성된 의미있는 데이터를 데이터프레임으로 작성해서 csv file로 저장하고 다시 데이터프레임으로 불러오세요.

In [7]:
import numpy as np
import pandas as pd
np.random.seed(0)
family_data = np.random.randint(1,7,size=(100,10))
df_hw1 = pd.DataFrame(family_data, columns=['region1','region2','region3','region4','region5','region6','region7','region8','region9','region10'])
df_hw1

# 내가 만든 것은 데이터프레임이라고 하기 보다는 배열을 만든듯. 칼럼은 독립변수 즉 속성으로 그리고 행은 샘플로 해서 생각해보기
# 연령별 지역분포
df_hw1.to_csv('data/family_data.csv', index=None)

df_retrieve = pd.read_csv('data/family_data.csv')
df_retrieve.head()

Unnamed: 0,region1,region2,region3,region4,region5,region6,region7,region8,region9,region10
0,5,6,1,4,4,4,2,4,6,3
1,5,1,1,5,3,2,1,2,6,2
2,6,1,2,5,4,1,4,6,1,3
3,4,1,2,4,6,4,4,1,2,2
4,2,1,3,5,4,4,3,5,3,1


In [21]:
# np.array 는 리스트를 배열로 만들어주는 것.

df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1,'\n')
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C 

   col1 col2
0     4    D
1     5    E
2     6    F


In [23]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력하세요.

df_3 = pd.concat([df_1,df_2],axis=1) # 열방향으로 병합
print(df_3)
df_4 = pd.concat([df_1,df_2]) # 행방향은 디폴트, 행방향으로 병합
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F
   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


과제2_1122. df_4에 대하여 다음을 수행하세요.
- 첫번째 컬럼을 출력하세요(2가지 방법)
- 두번째 행을 출력하세요.

In [51]:
# 첫번째 컬럼을 출력하세요(2가지 방법)
print(df_4.iloc[:,0])
print(df_4.loc[:,'col1'])

# 두번째 행을 출력하세요.
print(df_4.iloc[1])

0    1
1    2
2    3
0    4
1    5
2    6
Name: col1, dtype: int32
0    1
1    2
2    3
0    4
1    5
2    6
Name: col1, dtype: int32
col1    2
col2    B
Name: 1, dtype: object


In [10]:
import pandas as pd
import numpy as np
df = np.random.randint(1,5,size=(10,5)) # randint로 1~4까지
df=pd.DataFrame(df,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

for i in range(len(df)):
    if i == 0:
        df.iloc[i] = 90
    else:
        df.iloc[i] = df.iloc[i-1] - 5
        
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [11]:
# Q. a에서 영어, 수학의 평균 점수가 국어 대비 5점 낮음
df.loc[:,'영어'] = df.loc[:,'국어'] - 5
df.loc[:,'수학'] = df.loc[:,'국어'] - 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [12]:
# Q. 데이터프레임 a에 결시자 국어 3명, 수학 2명을 반영하세요.

a = df.copy()
a.iloc[1,0] = np.nan
a.iloc[3,0] = np.nan
a.iloc[5,0] = np.nan
a.iloc[2,2] = np.nan
a.iloc[4,2] = np.nan

# a.iloc[3,0] = np.nan
# a.loc['s1','수학'] = np.nan
# a.iloc[1,0] = np.nan
# a.iloc[6,0] = np.nan
# a.loc['s10','수학'] = np.nan

a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,,80,80.0,85,85
s3,80.0,75,,80,80
s4,,70,70.0,75,75
s5,70.0,65,,70,70
s6,,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,55.0,50,50.0,55,55
s9,50.0,45,45.0,50,50
s10,45.0,40,40.0,45,45


In [6]:
df1 = df.copy()
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


과제3_1122. df1의 s1 ~ s10의 평균을 구하고 평균 컬럼에 추가하세요.

In [7]:
m = df1.mean(axis = 'columns')
df_m = pd.concat([df1,m.rename('평균')],axis = 1)
df_m

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90,85,85,90,90,88.0
s2,85,80,80,85,85,83.0
s3,80,75,75,80,80,78.0
s4,75,70,70,75,75,73.0
s5,70,65,65,70,70,68.0
s6,65,60,60,65,65,63.0
s7,60,55,55,60,60,58.0
s8,55,50,50,55,55,53.0
s9,50,45,45,50,50,48.0
s10,45,40,40,45,45,43.0


In [None]:
#강사님 답
df1['평균'] = (df1['국어']+df1['영어']+df1['수학']+df1['과학']+df1['사회'])/5
#이렇게 하면 null은 null로 나온다고 함

과제4_1122. a에서 null값을 그 해당 과목의 평균값으로 대체하여 평균을 구하고 평균 컬럼에 추가하세요.

In [15]:
df_a = pd.concat([a.fillna(round(a.mean(),2)),a.mean(axis = 'columns').rename('평균')],axis =1)
df_a

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,64.29,80,80.0,85,85,82.5
s3,80.0,75,60.62,80,80,78.75
s4,64.29,70,70.0,75,75,72.5
s5,70.0,65,60.62,70,70,68.75
s6,64.29,60,60.0,65,65,62.5
s7,60.0,55,55.0,60,60,58.0
s8,55.0,50,50.0,55,55,53.0
s9,50.0,45,45.0,50,50,48.0
s10,45.0,40,40.0,45,45,43.0


In [15]:
# 강사님 답
b = a.copy()
av1 = b['국어'].mean()
av2 = b['수학'].mean()

b['국어'].fillna(av1,inplace=True) #inplace = True 를 하면 b에 반영이 되는 것
b['수학'].fillna(av2,inplace=True)

b['평균'] = (b['국어']+b['영어']+b['수학']+b['과학']+b['사회'])/5

b = b.astype(int) #<- float으로 되어있던 값이 int로 바꾸는 것

b

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90,85,85,90,90,88
s2,64,80,80,85,85,78
s3,80,75,60,80,80,75
s4,64,70,70,75,75,70
s5,70,65,60,70,70,67
s6,64,60,60,65,65,62
s7,60,55,55,60,60,58
s8,55,50,50,55,55,53
s9,50,45,45,50,50,48
s10,45,40,40,45,45,43


In [16]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [53]:
df.iloc[6,2:5]

c    92
d    74
e    57
Name: 6, dtype: int32

In [56]:
# c열 추출
print(df.loc[:,'c'])
print(df.iloc[:,2])

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32
0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32


판다스(Pandas) DataFrame에서 데이터를 선택하는 두 가지 다른 방법

df[['c']]: DataFrame 형태로 결과를 반환
- 'c' 열만 포함하는 새로운 DataFrame을 생성
- 여러 열을 선택할 때 사용할 수 있다. 예: df[['c', 'd']]

df['c']: Series 형태로 결과를 반환
- 'c' 열의 데이터를 Series로 반환
- 단일 열만 선택할 때 주로 사용

In [57]:
# 해당하는 열을 선택할 대는 이렇게 써도 됨.
print(df['c'])

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32


In [58]:
# 위에 열만 추출하는 것은 시리즈로 변환되지만 데이터프레임으로 뽑고 싶을때는 대괄호 두개 쓰면 된다. 컬럼 이름도 나옥게 된다.
print(df[['c']])

    c
0  53
1  60
2  88
3  89
4  72
5  55
6  92
7  65


In [18]:
df_e = df.copy()

In [19]:
import warnings
warnings.filterwarnings('ignore')
df_e.rename(columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'}, index = {0:'한정현',1:'심주승',2:'전유빈',3:'김학준',4:'황인서',5:'윤성민',6:'주용규',7:'서영우'},inplace=True)
df_e

Unnamed: 0,국어,영어,수학,과학,음악
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [20]:
#인덱스 이름을 다시 정수 번호로 리셋하고 싶을 때, 기존 인덱스는 컬럼으로 바껴버림.
df_e1 = df_e.reset_index()
df_e1

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [21]:
df_e2 = df_e1[['국어','영어','수학','과학','음악','index']]
df_e2

Unnamed: 0,국어,영어,수학,과학,음악,index
0,92,74,53,58,50,한정현
1,71,69,60,93,91,심주승
2,60,71,88,82,70,전유빈
3,94,79,89,64,76,김학준
4,67,76,72,52,52,황인서
5,51,76,55,90,96,윤성민
6,83,79,92,74,57,주용규
7,93,83,65,98,87,서영우


In [22]:
df_e3 = df_e2.set_index('index')
df_e3

Unnamed: 0_level_0,국어,영어,수학,과학,음악
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [30]:
df_e4 = df_e3.reset_index()
df_e4

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [29]:
# Q. 새로운 컬럼을 생성한 후 그 컬럼으로 인덱스를 만드세요.
df_e4['index'] = ['s0','s1','s2','s3','s4','s5','s6','s7']
df_e4
df_e4 = df_e4.set_index('index')
df_e4.index.name = None # 이렇게 하면 'index'라고 되어있던 index 이름이 없어지게됨
df_e4

Unnamed: 0,국어,영어,수학,과학,음악
s0,92,74,53,58,50
s1,71,69,60,93,91
s2,60,71,88,82,70
s3,94,79,89,64,76
s4,67,76,72,52,52
s5,51,76,55,90,96
s6,83,79,92,74,57
s7,93,83,65,98,87


In [33]:
df_e4['새인덱스'] = ['s0','s1','s2','s3','s4','s5','s6','s7']
df_e4
df_e4 = df_e4.set_index('새인덱스')
df_e4.drop('index',axis=1, inplace=True) #예전의 index라는 컬럼을 삭제하고 반영하기
df_e4.index.name = None
df_e4

Unnamed: 0,국어,영어,수학,과학,음악
s0,92,74,53,58,50
s1,71,69,60,93,91
s2,60,71,88,82,70
s3,94,79,89,64,76
s4,67,76,72,52,52
s5,51,76,55,90,96
s6,83,79,92,74,57
s7,93,83,65,98,87


과제1_1123. 5행 5열의 데이터프레임(행,열에 이름을 모두 포함)을 작성하신 후 다음을 수행하세요.
- 정수 인덱스를 적용하세요.
- 인덱스 컬럼을 삭제하세요.
- 새로운 컬럼을 생성해서 인덱스로 셋팅하세요.
- 인덱스 이름을 삭제하세요.

In [75]:
import pandas as pd

daily_dict = {'날짜':[20231101,20231102,20231103,20231104,20231105],
              '자기계발':[0,1,2,0,3],
              '취미':[1,2,1,1,3],
              '공부':[8,8,8,8,8],
              '친교':[3,4,2,4,3]}
daily_df = pd.DataFrame(daily_dict, index = ['day1','day2','day3','day4','day5'])
#정수 인덱스를 적용하세요.
daily_df1 = daily_df.reset_index()
#인덱스 컬럼을 삭제하세요.
daily_df1.drop('index',axis=1,inplace = True)
#새로운 컬럼을 생성해서 인덱스로 셋팅하세요.
daily_df1['요일'] = ['w1수','w1목','w1금','w1토','w1일']
daily_df1 = daily_df1.set_index('요일')
#인덱스 이름을 삭제하세요.
daily_df1.index.name = None
daily_df1

Unnamed: 0,날짜,자기계발,취미,공부,친교
w1수,20231101,0,1,8,3
w1목,20231102,1,2,8,4
w1금,20231103,2,1,8,2
w1토,20231104,0,1,8,4
w1일,20231105,3,3,8,3


In [36]:
# Q. 딕셔너리로 5행 5열 데이터 프레임을 작성하세요.
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

df = pd.DataFrame(dict_data, index = ['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [37]:
# Q. df에 r5,r6 2개의 행을 추가하고 값은 0을 적용하여 출력하세요.
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [40]:
#다른 방법으로 2개의 행을 추가하는 것. 새로운 인덱스를 주고
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8']
df_r = df.reindex(new_index,fill_value=0)
df_r

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [43]:
# Q. df_r에서 r5~r8까지 삭제 후 df1으로 출력하세요.
new_index = ['r0','r1','r2','r3','r4']
df1 = df_r.reindex(new_index)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [49]:
df2 = df_r.drop(['r5','r6','r7','r8'],axis = 0)
df2

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [50]:
df3 = df_r.drop(df_r.loc['r5':'r8'].index)
df3

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [51]:
# 인덱스 내림차 순 정렬
df1_s = df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [52]:
# c를 기준으로 c의 값을 큰 순으로 정렬하는 것
df1_c = df1.sort_values(by='c',ascending=False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [54]:
# 전치: 행과 열을 서로 바꿔주는 것
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [None]:
# Q. df1_t를 전치하여 df1으로 출력하세요.
df1 = df1_t.transpose()
df1

과제2_1123. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요(가능한한 의미있는 데이터로 작성)

In [8]:
import pandas as pd
import numpy as np

#5행 5열의 리스트
shoe_size = [240,260,270,260,225]
height = [160,180,185,175,153]
weight = [50,75,80,70,45]
waist_size = [26,32,24,31,25]
cloth_size = ['S','L','XL','M','XS']
df_size = pd.DataFrame(zip(shoe_size,height,weight,waist_size,cloth_size), columns = ['shoes','height','weight','waist','cloth'])
df_size

#5행 5열의 배열

df_array = pd.DataFrame({'shoes':np.array([240,260,270,260,225]),
                        'height':np.array([160,180,185,175,153]),
                        'weight':np.array([50,75,80,70,45]),
                        'waist':np.array([26,32,24,31,25]),
                        'cloth':np.array(['S','L','XL','M','XS'])})
df_array
#5행 5열의 사전
daily_dict = {'날짜':[20231101,20231102,20231103,20231104,20231105],
              '자기계발':[0,1,2,0,3],
              '취미':[1,2,1,1,3],
              '공부':[8,8,8,8,8],
              '친교':[3,4,2,4,3]}
daily_df = pd.DataFrame(daily_dict, index = ['day1','day2','day3','day4','day5'])
daily_df

과제3_1123.위에서 변환한 데이터 프레임에서 데이터 변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.

In [14]:
# 데이터 변경, 리스트로 변환
df_size.iloc[0,0] = 235
df_size_list = df_size.values.tolist()
df_size_list

# 데이터 전치, 배열로 변환
df_array_t= df_array.transpose()
df_array_tt = df_array_t.transpose()
df_array2 = df_array_tt.values
df_array2

# 데이터 삭제, 사전으로 변환
daily_df.drop('날짜',axis=1,inplace = True)
daily_df_dict = daily_df.to_dict('list')
daily_df_dict

{'자기계발': [0, 1, 2, 0, 3],
 '취미': [1, 2, 1, 1, 3],
 '공부': [8, 8, 8, 8, 8],
 '친교': [3, 4, 2, 4, 3]}

In [58]:
# 함수 적용과 매핑
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.479861,-0.295945,-0.420309
Ohio,-0.859614,-0.407915,1.247578
Texas,-1.829384,-1.596518,0.690312
Oregon,0.928122,1.586536,0.401306


In [59]:
# 절대값으로 변환
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.479861,0.295945,0.420309
Ohio,0.859614,0.407915,1.247578
Texas,1.829384,1.596518,0.690312
Oregon,0.928122,1.586536,0.401306


In [60]:
# apply 함수: DF에서 복수 개의 컬럼에 적용하는 경우 사용
# series의 최대값과 최소값의 차이를 계산
f = lambda x:x.max() - x.min()
frame.apply(f) #apply 함수는 괄호안에 있는 함수를 적용하라는 것
#axis = 0 즉 행방향 즉 위아래 default, axis = 1 은 열방향 ->

b    2.757506
d    3.183054
e    1.667888
dtype: float64

In [62]:
# axis = 1: 열방향
frame.apply(f,axis=1)
#또는
frame.apply(f,axis='columns')

Utah      0.900171
Ohio      2.107192
Texas     2.519696
Oregon    1.185230
dtype: float64