#### 판다스

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 데이터 정제, 필터링, 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

Series 기본 구조
- Series는 값의 리스트를 담고 있으며, 각 값은 고유한 인덱스와 연결되어 있다. 
- 기본적으로, 이 인덱스는 0부터 시작하는 정수지만, 문자열 또는 날짜와 같은 다른 타입으로 지정할 수도 있다.
- Series는 다양한 데이터 타입을 저장할 수 있다. 예를 들어, 정수, 실수, 문자열, 파이썬 객체 등이 포함된다.
- 강력한 인덱싱 및 슬라이싱 기능을 제공. 특정 인덱스의 값에 접근하거나, 특정 조건을 만족하는 데이터만을 필터링할 수 있다.
- Series를 다른 형태의 데이터 구조로 변환하는 것이 간단하다. 예를 들어, Series를 리스트, 딕셔너리, 혹은 DataFrame으로 변환할 수 있다.
- isnull(), notnull() 메서드를 사용하여 결측치를 찾을 수 있고, fillna(), dropna() 메서드로 결측치를 처리할 수 있다.

In [2]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr)
type(sr)

a    1
b    2
c    3
dtype: int64


pandas.core.series.Series

In [4]:
list('abcde')

['a', 'b', 'c', 'd', 'e']

In [5]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02',3.14,'ABC',100,True]

sr = pd.Series(list_data, index=list('abcde'))
print(sr)
type(sr)

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object


pandas.core.series.Series

In [6]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [7]:
# 튜플을 시리즈로 변환
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [12]:
# 인덱싱
import warnings
warnings.filterwarnings('ignore')

print(sr[0])
print(sr['이름'])
print(sr[[1,2]]) # sr[[1, 2]]는 판다스의 팬시 인덱싱을 사용해 여러 인덱스를 한 번에 선택할 수 있다.
print(sr[1, 2]) # 에러를 발생. sr[1, 2]는 튜플 (1, 2)를 인덱스로 사용하려고 시도하는 반면 Series 객체는 단일 차원의 인덱스만을 지원

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [15]:
import numpy as np
s1 = np.arange(11,21,2)
print(s1,type(s1))
s2 = pd.Series(s1, index=list('abcde'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>
a    11
b    13
c    15
d    17
e    19
dtype: int32 <class 'pandas.core.series.Series'>


과제1_1121. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요. 

In [None]:
state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [19]:
import pandas as pd
import numpy as np
# list1 = [1000, 2000, 3000, 4000]
list1 = np.arange(1000, 5000, 1000)
sr = pd.Series(list1, index = ['California', 'Ohio', 'Oregon', 'Texas'])
sr.name = 'population'
sr.index.name = 'state'
print(sr)

state
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32


In [21]:
# Series -> list
sr_tolist = sr.tolist()
sr_tolist

[1000, 2000, 3000, 4000]

In [22]:
# Series -> dic
sr_todic = sr.to_dict()
sr_todic

{'California': 1000, 'Ohio': 2000, 'Oregon': 3000, 'Texas': 4000}

In [23]:
sr_df = sr.to_frame(name='Value')
sr_df

Unnamed: 0_level_0,Value
state,Unnamed: 1_level_1
California,1000
Ohio,2000
Oregon,3000
Texas,4000


In [25]:
sr.California = np.nan
sr

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [26]:
# null 확인
null_sr = sr.isnull()
null_sr

state
California     True
Ohio          False
Oregon        False
Texas         False
Name: population, dtype: bool

In [27]:
null_sr.sum()

1

In [28]:
not_null_sr = sr.notnull()
not_null_sr

state
California    False
Ohio           True
Oregon         True
Texas          True
Name: population, dtype: bool

In [29]:
# null값을 특정한 숫자로 채우는 것
filled_sr = sr.fillna(0)
filled_sr

state
California       0.0
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [30]:
sr

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [31]:
dropped_sr = sr.dropna()
dropped_sr

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [32]:
dropped_sr.isnull().sum()

0

#### 데이터프레임

* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 데이터프레임 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [38]:
# 배열을 데이터프레임으로 변환

np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))

df = pd.DataFrame(data, index=['d1','d2','d3'], columns = ['pd','sales','inv'])
# df = pd.DataFrame(data, columns = ['pd','sales','inv'])
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [41]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1,:])

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [42]:
print(df.loc['d2',:])

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [43]:
print(df.iloc[1,2])
print(df.loc['d2','inv'])

107
107


In [45]:
df.loc['d3'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [46]:
# 2차원 리스트를 데이터프레임으로 변환

a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
list1

[[1, 4, 3, 1, 1],
 [1, 3, 2, 3, 4],
 [4, 3, 1, 2, 2],
 [2, 2, 1, 2, 1],
 [4, 1, 4, 2, 3],
 [4, 4, 1, 3, 4],
 [1, 2, 4, 2, 4],
 [4, 3, 4, 1, 2],
 [2, 2, 4, 1, 4],
 [3, 1, 4, 4, 3]]

In [50]:
df1 = pd.DataFrame(list1, columns=['c1','c2','c3','c4','c5'])
df1.head(3)
# df1.tail()

Unnamed: 0,c1,c2,c3,c4,c5
0,1,4,3,1,1
1,1,3,2,3,4
2,4,3,1,2,2


In [53]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar, type(ar))
print()
li = ar.tolist()
print(li, type(li))
print()
dict = df1.to_dict('list')
print(dict,type(dict))

[[1 4 3 1 1]
 [1 3 2 3 4]
 [4 3 1 2 2]
 [2 2 1 2 1]
 [4 1 4 2 3]
 [4 4 1 3 4]
 [1 2 4 2 4]
 [4 3 4 1 2]
 [2 2 4 1 4]
 [3 1 4 4 3]] <class 'numpy.ndarray'>

[[1, 4, 3, 1, 1], [1, 3, 2, 3, 4], [4, 3, 1, 2, 2], [2, 2, 1, 2, 1], [4, 1, 4, 2, 3], [4, 4, 1, 3, 4], [1, 2, 4, 2, 4], [4, 3, 4, 1, 2], [2, 2, 4, 1, 4], [3, 1, 4, 4, 3]] <class 'list'>

{'c1': [1, 1, 4, 2, 4, 4, 1, 4, 2, 3], 'c2': [4, 3, 3, 2, 1, 4, 2, 3, 2, 1], 'c3': [3, 2, 1, 1, 4, 1, 4, 4, 4, 4], 'c4': [1, 3, 2, 2, 2, 3, 2, 1, 1, 4], 'c5': [1, 4, 2, 1, 3, 4, 4, 2, 4, 3]} <class 'dict'>


과제2_1121. 5행 5열로 구성된 2차원 배열을 생성하여 데이터프레임으로 변경해서 출력하세요.

In [35]:
import numpy as np
import pandas as pd
np.random.seed(0)
height_data = np.random.randint(140,190,size=(5,5))
df2 = pd.DataFrame(height_data, columns=['class1','class2','class3','class4','class5'])
df2

Unnamed: 0,class1,class2,class3,class4,class5
0,184,187,140,143,143
1,179,149,159,161,176
2,163,146,164,164,152
3,141,178,179,163,186
4,164,157,177,165,153


In [6]:
import numpy as np
import pandas as pd

ar = np.random.randint(1,10, size=(5,5))
df = pd.DataFrame(ar,columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,5,3,3,9,8
1,2,2,6,2,3
2,9,5,1,9,5
3,4,3,6,9,3
4,9,5,6,8,1


과제3_1121. 과제 2번의 데이터프레임을 각각 배열, 리스트, 사전의 형태로 변환하여 출력하세요.

In [37]:
data = np.arange(1, 26).reshape(5, 5)

df = pd.DataFrame(data)


# 배열 형태로 변환
array_from_df = df.values

# 리스트 형태로 변환
list_from_df = df.values.tolist()

# 사전 형태로 변환
dict_from_df = df.to_dict('list')

# 결과 출력
print(df)
print('-'*50)
print(array_from_df)
print('-'*50)
print(list_from_df) 
print('-'*50)
print(dict_from_df)

    0   1   2   3   4
0   1   2   3   4   5
1   6   7   8   9  10
2  11  12  13  14  15
3  16  17  18  19  20
4  21  22  23  24  25
--------------------------------------------------
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]
--------------------------------------------------
[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20], [21, 22, 23, 24, 25]]
--------------------------------------------------
{0: [1, 6, 11, 16, 21], 1: [2, 7, 12, 17, 22], 2: [3, 8, 13, 18, 23], 3: [4, 9, 14, 19, 24], 4: [5, 10, 15, 20, 25]}


In [10]:
ar = df.values
print(ar)
li = ar.tolist()
print(li)
dic = df.to_dict('list')
dic

[[5 3 3 9 8]
 [2 2 6 2 3]
 [9 5 1 9 5]
 [4 3 6 9 3]
 [9 5 6 8 1]]
[[5, 3, 3, 9, 8], [2, 2, 6, 2, 3], [9, 5, 1, 9, 5], [4, 3, 6, 9, 3], [9, 5, 6, 8, 1]]


{'a': [5, 2, 9, 4, 9],
 'b': [3, 2, 5, 3, 5],
 'c': [3, 6, 1, 6, 6],
 'd': [9, 2, 9, 9, 8],
 'e': [8, 3, 5, 3, 1]}

과제4_1121. 4개의 Series를 결합하여 데이터프레임을 생성하여 출력하세요.
- 출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
- null값을 3개 추가
- null값의 개수를 확인하고 삭제
- 2개의 데이터를 수정
- 1개의 행을 삭제

In [52]:
import numpy as np
import pandas as pd
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
# print(i1)

df = pd.concat([i1,g1,a1,r1],axis=1)
print(df.head(10))
#출력한 데이터프레임에서 추출하고 싶은 5개의 데이터를 인덱싱하여 출력
print(df.iloc[990,2])
print(df.iloc[10,1])
print(df.iloc[40,3])
print(df.iloc[33,2])
print(df.iloc[50,3])

    0  1    2   3
0   1  1  100   6
1   2  1   69   1
2   3  1   48   8
3   4  0   95  10
4   5  1   20   3
5   6  1   56   8
6   7  0   79   5
7   8  0   70   2
8   9  0   83   6
9  10  1   63  10
64
1
2
76
5


In [53]:
# null값을 3개 추가
df.iloc[0,1] = np.nan
df.iloc[0,2] = np.nan
df.iloc[0,3] = np.nan
print(df.head())

# null값의 개수를 확인하고 삭제
print(f"Null 추가 후 null 값의 개수 확인: {df.isnull().sum().sum()}")
df = df.dropna()
print(df.head())
print(f"Null 삭제 후 null 갯수 확인: {df.isnull().sum().sum()}")

   0    1     2     3
0  1  NaN   NaN   NaN
1  2  1.0  69.0   1.0
2  3  1.0  48.0   8.0
3  4  0.0  95.0  10.0
4  5  1.0  20.0   3.0
Null 추가 후 null 값의 개수 확인: 3
   0    1     2     3
1  2  1.0  69.0   1.0
2  3  1.0  48.0   8.0
3  4  0.0  95.0  10.0
4  5  1.0  20.0   3.0
5  6  1.0  56.0   8.0
Null 삭제 후 null 갯수 확인: 0


In [56]:
# 2개의 데이터를 수정
df.iloc[1,1] = 1
df.iloc[1,2] = 1
print(df.head())

   0    1     2     3
1  2  1.0  69.0   1.0
2  3  1.0   1.0   8.0
3  4  0.0  95.0  10.0
4  5  1.0  20.0   3.0
5  6  1.0  56.0   8.0


In [58]:
# 1개의 행을 삭제
# df1 = df.drop([1], axis=0)
df.drop([1], axis=0, inplace=True)
print(df.head())

   0    1     2     3
2  3  1.0   1.0   8.0
3  4  0.0  95.0  10.0
4  5  1.0  20.0   3.0
5  6  1.0  56.0   8.0
6  7  0.0  79.0   5.0


In [60]:
# default : axis = 0
print(df.head())
df.drop([3], inplace=True)
print(df.head())

   0    1     2     3
2  3  1.0   1.0   8.0
3  4  0.0  95.0  10.0
4  5  1.0  20.0   3.0
5  6  1.0  56.0   8.0
6  7  0.0  79.0   5.0
   0    1     2    3
2  3  1.0   1.0  8.0
4  5  1.0  20.0  3.0
5  6  1.0  56.0  8.0
6  7  0.0  79.0  5.0
7  8  0.0  70.0  2.0


In [13]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
# print(i1)
df = pd.concat([i1,g1,a1,r1],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region'},inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
0,1,1,62,5
1,2,0,25,2
2,3,1,40,9
3,4,0,71,6
4,5,1,20,2


In [18]:
df1 = df.copy()
df1.iloc[3,3]

6

In [26]:
df1.iloc[3,3] = np.nan
df1.head()

Unnamed: 0,id,gender,age,region
0,1,1,62,5.0
1,2,0,25,2.0
2,3,1,40,9.0
3,4,0,71,
4,5,1,20,2.0


In [22]:
df1.isnull().sum().sum()

1

In [25]:
dropped_df1 = df1.dropna()
dropped_df1.isnull().sum().sum()

0

In [None]:
df1.iloc[3]

In [61]:
# df1.drop([1])
df1.head()

Unnamed: 0,0,1,2,3
2,3,1.0,1.0,8.0
3,4,0.0,95.0,10.0
4,5,1.0,20.0,3.0
5,6,1.0,56.0,8.0
6,7,0.0,79.0,5.0


In [None]:
df1.drop(df1.at[5, 'id'])

In [62]:
%pwd

'D:\\kdt_231026\\workspace\\m3_분석라이브러리\\pandas'

In [None]:
!mkdir data

In [64]:
ls

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\kdt_231026\workspace\m3_분석라이브러리\pandas 디렉터리

2023-11-22  오전 10:01    <DIR>          .
2023-11-22  오전 10:01    <DIR>          ..
2023-11-21  오전 09:06    <DIR>          .ipynb_checkpoints
2023-11-21  오전 11:01    <DIR>          data
2023-11-17  오후 05:20    <DIR>          dataset
2023-11-22  오전 10:01           144,969 pandas_1_데이터형식.ipynb
2023-03-26  오후 08:01            78,378 pandas_2_연산.ipynb
2023-03-27  오전 01:37            80,307 pandas_3_읽기_조회_인덱싱_정렬_중복_탐색_이상치_파생변수_함수.ipynb
2023-04-02  오후 07:21            59,594 pandas_4_날짜.ipynb
2022-06-27  오전 05:29           719,836 pandas_5_입출력.ipynb
2022-07-03  오전 06:16            46,594 pandas_6_전처리.ipynb
2023-03-27  오전 01:37           649,933 pandas_7_전처리.ipynb
2023-04-02  오후 06:35           319,169 pandas_8_응용.ipynb
2023-11-22  오전 09:50            46,506 데이터 형식.ipynb
               9개 파일           2,145,286 바이트
               5개 디렉터리  433,117,872,128 바이트 남음


In [65]:
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['a','a','b','b','c','c']
})
file_data

Unnamed: 0,col1,col2
0,1,a
1,2,a
2,3,b
3,4,b
4,5,c
5,6,c


In [67]:
file_data.to_csv('data/file_data.csv', index=None)
file_data = pd.read_csv('data/file_data.csv')
print(file_data,type(file_data))

   col1 col2
0     1    a
1     2    a
2     3    b
3     4    b
4     5    c
5     6    c <class 'pandas.core.frame.DataFrame'>


과제1_1122. 100행 10열로 구성된 의미있는 데이터를 데이터프레임으로 작성해서 csv file로 저장하고 다시 데이터프레임으로 불러오세요. 

In [28]:
import numpy as np
import pandas as pd
np.random.seed(0)
family_data = np.random.randint(1,7,size=(100,10))
df_hw1 = pd.DataFrame(family_data, columns=['region1','region2','region3','region4','region5','region6','region7','region8','region9','region10'])
df_hw1
# 연령별 지역분포
df_hw1.to_csv('data/family_data.csv', index=None)

df_retrieve = pd.read_csv('data/family_data.csv')
df_retrieve.head()

Unnamed: 0,region1,region2,region3,region4,region5,region6,region7,region8,region9,region10
0,5,6,1,4,4,4,2,4,6,3
1,5,1,1,5,3,2,1,2,6,2
2,6,1,2,5,4,1,4,6,1,3
3,4,1,2,4,6,4,4,1,2,2
4,2,1,3,5,4,4,3,5,3,1


In [3]:
import pandas as pd
import numpy as np
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1,'\n')
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C 

   col1 col2
0     4    D
1     5    E
2     6    F


In [4]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력하세요.

df_3 = pd.concat([df_1,df_2], axis=1)
print(df_3,'\n')
df_4 = pd.concat([df_1,df_2])
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


과제2_1122. df_4에 대하여 다음을 수행하세요.
- 첫번째 컬럼을 출력하세요(2가지 방법)
- 두번째 행을 출력하세요.

In [7]:
df_4['col1']
df_4.iloc[:,0]

0    1
1    2
2    3
0    4
1    5
2    6
Name: col1, dtype: int32

In [9]:
df_4.iloc[1]

col1    2
col2    B
Name: 1, dtype: object

In [10]:
import pandas as pd
import numpy as np
a = np.random.randint(1,5,size=(10,5))
df=pd.DataFrame(a,index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,3,4,1,2,1
s2,4,1,2,4,4
s3,3,1,2,2,2
s4,2,3,4,1,4
s5,3,3,3,3,1
s6,1,4,2,2,2
s7,1,4,3,4,2
s8,4,4,4,2,2
s9,1,2,2,2,3
s10,4,1,2,3,3


In [11]:
score = 90
for i in range(10):
    i+=1
    df.loc[f's{i}'] = score
    score -= 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [12]:
# Q. a에서 영어, 수학의 평균 점수가 국어 대비 5점 낮음
df.loc[:,'영어'] = df.loc[:,'국어'] - 5
df.loc[:,'수학'] = df.loc[:,'국어'] - 5
df

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [77]:
# Q 데이터프레임 a에 결시자 국어 3명, 수학 2명을 반영하세요.

In [13]:
a = df.copy()
a.iloc[1,0] = np.nan
a.iloc[3,0] = np.nan
a.iloc[5,0] = np.nan
a.iloc[2,2] = np.nan
a.iloc[4,2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,,80,80.0,85,85
s3,80.0,75,,80,80
s4,,70,70.0,75,75
s5,70.0,65,,70,70
s6,,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,55.0,50,50.0,55,55
s9,50.0,45,45.0,50,50
s10,45.0,40,40.0,45,45


In [14]:
df1= a.copy()

In [15]:
df1['평균'] = (df1['국어']+df1['영어']+df1['수학']+df1['과학']+df1['사회'])/5
df1

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,,80,80.0,85,85,
s3,80.0,75,,80,80,
s4,,70,70.0,75,75,
s5,70.0,65,,70,70,
s6,,60,60.0,65,65,
s7,60.0,55,55.0,60,60,58.0
s8,55.0,50,50.0,55,55,53.0
s9,50.0,45,45.0,50,50,48.0
s10,45.0,40,40.0,45,45,43.0


In [None]:
과제4_1122. a에서 null값을 그 해당 과목의 평균값으로 대체하여 s1 ~ s10의 평균을 구하고 평균 컬럼에 추가하세요.

In [16]:
b = a.copy()
avg1 = b['국어'].mean()
avg2 = b['수학'].mean()
print(avg1,avg2)

64.28571428571429 60.625


In [17]:
b['국어'].fillna(avg1,inplace=True)
# df_b = b['국어'].fillna(avg1)
b['수학'].fillna(avg2, inplace=True)
b

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,64.285714,80,80.0,85,85
s3,80.0,75,60.625,80,80
s4,64.285714,70,70.0,75,75
s5,70.0,65,60.625,70,70
s6,64.285714,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,55.0,50,50.0,55,55
s9,50.0,45,45.0,50,50
s10,45.0,40,40.0,45,45


In [29]:
b['평균'] = (b['국어']+b['영어']+b['수학']+b['과학']+b['사회'])/5
b

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90,85,85,90,90,88.0
s2,64,80,80,85,85,78.8
s3,80,75,60,80,80,75.0
s4,64,70,70,75,75,70.8
s5,70,65,60,70,70,67.0
s6,64,60,60,65,65,62.8
s7,60,55,55,60,60,58.0
s8,55,50,50,55,55,53.0
s9,50,45,45,50,50,48.0
s10,45,40,40,45,45,43.0


In [30]:
# b['국어'] = b['국어'].astype(int)
b = b.astype(int)
b

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90,85,85,90,90,88
s2,64,80,80,85,85,78
s3,80,75,60,80,80,75
s4,64,70,70,75,75,70
s5,70,65,60,70,70,67
s6,64,60,60,65,65,62
s7,60,55,55,60,60,58
s8,55,50,50,55,55,53
s9,50,45,45,50,50,48
s10,45,40,40,45,45,43


In [31]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [84]:
df.iloc[6,2:5]

c    92
d    74
e    57
Name: 6, dtype: int32

In [87]:
# c열 추출

print(df.loc[:,'c'],'\n')
print(df.iloc[:,2])

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32
0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32


판다스(Pandas) DataFrame에서 데이터를 선택하는 두 가지 다른 방법

df[['c']]: DataFrame 형태로 결과를 반환
- 'c' 열만 포함하는 새로운 DataFrame을 생성
- 여러 열을 선택할 때 사용할 수 있다. 예: df[['c', 'd']]

df['c']: Series 형태로 결과를 반환
- 'c' 열의 데이터를 Series로 반환
- 단일 열만 선택할 때 주로 사용

In [88]:
print(df['c'])

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32


In [89]:
print(df[['c']])

    c
0  53
1  60
2  88
3  89
4  72
5  55
6  92
7  65


In [34]:
df_e = df.copy()

In [35]:
import warnings
warnings.filterwarnings('ignore')
df_e.rename(columns = {'a':'국어', 'b': '영어','c':'수학','d':'과학','e':'음악'},
           index = {0:'한정현',1:'심주승',2:'전유빈', 3:'김학준',4:'황인서',5:'윤성민',6:'주용규',7:'서영우'},inplace=True)
df_e

Unnamed: 0,국어,영어,수학,과학,음악
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [36]:
df_e1 = df_e.reset_index()
df_e1

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [38]:
df_e2 = df_e1[['국어','영어','수학','과학','음악','index']]
df_e2

Unnamed: 0,국어,영어,수학,과학,음악,index
0,92,74,53,58,50,한정현
1,71,69,60,93,91,심주승
2,60,71,88,82,70,전유빈
3,94,79,89,64,76,김학준
4,67,76,72,52,52,황인서
5,51,76,55,90,96,윤성민
6,83,79,92,74,57,주용규
7,93,83,65,98,87,서영우


In [39]:
df_e3 = df_e2.set_index('index')
df_e3

Unnamed: 0_level_0,국어,영어,수학,과학,음악
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [40]:
df_e4 = df_e3.reset_index()
df_e4

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [None]:
# Q. 새로운 컬럼을 생성한 후 그 컬럼으로 인덱스를 만드세요.

In [45]:
new_cal = ['짜장면','짬뽕','짜장밥','울면','볶음밥','탕수육','군만두','멘보샤']
df_e4['중국집']=new_cal
df_e5 = df_e4.set_index('중국집')
df_e5.drop('index', axis=1, inplace=True)
df_e5.index.name = None
df_e5

Unnamed: 0,국어,영어,수학,과학,음악
짜장면,92,74,53,58,50
짬뽕,71,69,60,93,91
짜장밥,60,71,88,82,70
울면,94,79,89,64,76
볶음밥,67,76,72,52,52
탕수육,51,76,55,90,96
군만두,83,79,92,74,57
멘보샤,93,83,65,98,87


과제1_1123. 5행 5열의 데이터프레임(행,열에 이름을 모두 포함)을 작성하신 후 다음을 수행하세요.
- 정수 인덱스를 적용하세요.
- 인덱스 컬럼을 삭제하세요.
- 새로운 컬럼을 생성해서 인덱스로 셋팅하세요.
- 인덱스 이름을 삭제하세요.

In [2]:
import pandas as pd

data_list = [
    ['자야', 60, 0.658, 630, 340],
    ['진', 59, 0.625, 655, 300],
    ['루시안', 60, 0.625, 641, 320],
    ['이즈리얼', 62, 0.625, 600, 375],
    ['트위치', 59, 0.679, 682, 300]
]

columns = ['이름', '공격력', '공격속도', '체력', '마나']
df_lol = pd.DataFrame(data_list, columns=columns)
df_lol


Unnamed: 0,이름,공격력,공격속도,체력,마나
0,자야,60,0.658,630,340
1,진,59,0.625,655,300
2,루시안,60,0.625,641,320
3,이즈리얼,62,0.625,600,375
4,트위치,59,0.679,682,300


In [4]:
# 정수 인덱스 적용
df_lol_reset_index = df_lol.reset_index(drop=True)
df_lol_reset_index

Unnamed: 0,이름,공격력,공격속도,체력,마나
0,자야,60,0.658,630,340
1,진,59,0.625,655,300
2,루시안,60,0.625,641,320
3,이즈리얼,62,0.625,600,375
4,트위치,59,0.679,682,300


In [5]:
# 새로운 행을 추가하고 인덱스로 설정
new_row = pd.DataFrame([['케이틀린', 60, 0.625, 580, 313.8]], columns=columns)
df_lol_set_index = pd.concat([df_lol_reset_index, new_row], ignore_index=True)
df_lol_set_index.set_index('이름', inplace=True)

df_lol_set_index

Unnamed: 0_level_0,공격력,공격속도,체력,마나
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
자야,60,0.658,630,340.0
진,59,0.625,655,300.0
루시안,60,0.625,641,320.0
이즈리얼,62,0.625,600,375.0
트위치,59,0.679,682,300.0
케이틀린,60,0.625,580,313.8


In [7]:
# 인덱스 이름 삭제
df_lol_no_index_name = df_lol_set_index.copy()
df_lol_no_index_name.index.name = None

df_lol_no_index_name

Unnamed: 0,공격력,공격속도,체력,마나
자야,60,0.658,630,340.0
진,59,0.625,655,300.0
루시안,60,0.625,641,320.0
이즈리얼,62,0.625,600,375.0
트위치,59,0.679,682,300.0
케이틀린,60,0.625,580,313.8


In [46]:
# Q. 딕셔너리로 5행 5열 데이터 프레임을 작성하세요.
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [47]:
# Q. df에 r5,r6 2개의 행을 추가하고 값은 0을 적용하여 출력하세요.
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [48]:
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8']
df_r = df.reindex(new_index,fill_value=0)
df_r

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [51]:
# Q. df_r에서 r5 ~ r8까지 삭제 후 df1으로 출력하세요.
df1 = df_r.drop(['r5','r6','r7','r8'],axis=0)
# df1 = df_r.drop(df_r.loc['r5':'r8'].index)
# new_index = ['r0','r1','r2','r3','r4']
df1 = df_r.reindex(new_index)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [52]:
df1_s = df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [53]:
df1_c = df1.sort_values(by='c',ascending=False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [56]:
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [55]:
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [57]:
# Q. df1_t를 전치하여 df1으로 출력하세요.
df1 = df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


과제2_1123. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요(가능한한 의미있는 데이터로 작성)

In [9]:
#5행 5열의 리스트
import numpy as np
import pandas as pd
shoe_size = [240,260,270,260,225]
height = [160,180,185,175,153]
weight = [50,75,80,70,45]
waist_size = [26,32,24,31,25]
cloth_size = ['S','L','XL','M','XS']
df_size = pd.DataFrame(zip(shoe_size,height,weight,waist_size,cloth_size), columns = ['shoes','height','weight','waist','cloth'])
df_size

#5행 5열의 배열

df_array = pd.DataFrame({'shoes':np.array([240,260,270,260,225]),
                        'height':np.array([160,180,185,175,153]),
                        'weight':np.array([50,75,80,70,45]),
                        'waist':np.array([26,32,24,31,25]),
                        'cloth':np.array(['S','L','XL','M','XS'])})
df_array
#5행 5열의 사전
daily_dict = {'날짜':[20231101,20231102,20231103,20231104,20231105],
              '자기계발':[0,1,2,0,3],
              '취미':[1,2,1,1,3],
              '공부':[8,8,8,8,8],
              '친교':[3,4,2,4,3]}
daily_df = pd.DataFrame(daily_dict, index = ['day1','day2','day3','day4','day5'])
daily_df

Unnamed: 0,날짜,자기계발,취미,공부,친교
day1,20231101,0,1,8,3
day2,20231102,1,2,8,4
day3,20231103,2,1,8,2
day4,20231104,0,1,8,4
day5,20231105,3,3,8,3


In [12]:
# 리스트
James = list(np.random.randint(35,100,size=5))
Matin = list(np.random.randint(35,100,size=5))
Luna = list(np.random.randint(35,100,size=5))
Tom = list(np.random.randint(35,100,size=5))
Sam = list(np.random.randint(35,100,size=5))
p2_name = ['James', 'Matin', 'Luna', 'Tom', 'Sam']
p2_subject = ['국어','영어','수학','과학','사회']

df2_list = pd.DataFrame({
    'James': pd.Series(James, name='James'),
    'Matin': pd.Series(Matin, name='Matin'),
    'Luna': pd.Series(Luna, name='Luna'),
    'Tom': pd.Series(Tom, name='Tom'),
    'Sam': pd.Series(Sam, name='Sam')
})
df2_list
# df2_list.index = p2_subject
# df2_list = df2_list.transpose()
# print(df2_list)

Unnamed: 0,James,Matin,Luna,Tom,Sam
0,96,47,86,39,66
1,75,95,82,94,86
2,40,79,58,87,48
3,45,99,98,95,44
4,66,52,64,60,36


In [None]:
# 리스트
James = list(np.random.randint(35,100,size=5))
Matin = list(np.random.randint(35,100,size=5))
Luna = list(np.random.randint(35,100,size=5))
Tom = list(np.random.randint(35,100,size=5))
Sam = list(np.random.randint(35,100,size=5))
p2_name = ['James', 'Matin', 'Luna', 'Tom', 'Sam']
p2_subject = ['국어','영어','수학','과학','사회']

df2_list = pd.DataFrame({
    'James': pd.Series(James, name='James'),
    'Matin': pd.Series(Matin, name='Matin'),
    'Luna': pd.Series(Luna, name='Luna'),
    'Tom': pd.Series(Tom, name='Tom'),
    'Sam': pd.Series(Sam, name='Sam')
})
df2_list.index = p2_subject
df2_list = df2_list.transpose()
print(df2_list)

# 배열
p2_zip = list(zip(James,Matin,Luna,Tom,Sam))
p2_array = np.array(p2_zip)
df2_array = pd.DataFrame(p2_array,columns=p2_name, index=p2_subject)
df2_array = df2_array.transpose()
print(df2_array)

# 사전
p2_dic = {'James':James, 'Matin':Matin, 'Luna':Luna, 'Tom':Tom, 'Sam':Sam}
df2_dic = pd.DataFrame(p2_dic,columns=p2_name, index=p2_subject)
df2_dic = df2_dic.transpose()
print(df2_dic)

과제3_1123. 위에서 변환한 데이터 프레임에서 데이터 변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 
출력하세요.

In [17]:
# 과제3_1123 : 위에서 변환한 데이터 프레임에서 데이터변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.

import pandas as pd

# Create a dictionary with column names as keys and lists as values
data = {
    'Name': ['철수', '영희', '하니', '길동', '영희'],
    'Age': [25, 30, 35, 40, 45],
    'Gender': ['M', 'F', 'F', 'M', 'F'],
    'City': ['New York', 'London', 'Paris', 'Seoul', 'Sydney'],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

# Create the DataFrame
df = pd.DataFrame(data, index=['Row1', 'Row2', 'Row3', 'Row4', 'Row5'])

#데이터변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.

# 데이터 변경
df.loc['Row3', 'City'] = 'Berlin'  # Row3의 City를 'Paris'에서 'Berlin'으로 변경

# 데이터 삭제
df.drop('Row5', inplace=True)  # Row5 행 삭제
# print(df,'\n')
# 전치
df_transposed = df.T  # 데이터프레임 전치
# df_transposed
# 인덱스 재설정
df.reset_index(drop=True, inplace=True)  # 인덱스를 정수 인덱스로 재설정

# 리스트 형태로 변환
data_list = df.values.tolist()

df
data_list

[['철수', 25, 'M', 'New York', 50000],
 ['영희', 30, 'F', 'London', 60000],
 ['하니', 35, 'F', 'Berlin', 70000],
 ['길동', 40, 'M', 'Seoul', 80000]]

In [20]:
data_array = df.values

print(data_array,type(data_array))

[['철수' 25 'M' 'New York' 50000]
 ['영희' 30 'F' 'London' 60000]
 ['하니' 35 'F' 'Berlin' 70000]
 ['길동' 40 'M' 'Seoul' 80000]] <class 'numpy.ndarray'>


In [21]:
# 사전 형태로 변환
data_dict = df.to_dict()

data_dict

{'Name': {0: '철수', 1: '영희', 2: '하니', 3: '길동'},
 'Age': {0: 25, 1: 30, 2: 35, 3: 40},
 'Gender': {0: 'M', 1: 'F', 2: 'F', 3: 'M'},
 'City': {0: 'New York', 1: 'London', 2: 'Berlin', 3: 'Seoul'},
 'Salary': {0: 50000, 1: 60000, 2: 70000, 3: 80000}}

In [61]:
# 함수 적용과 매핑
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-1.269689,0.469206,1.303859
Ohio,1.231284,0.229482,0.273608
Texas,-0.666784,-0.197579,0.486021
Oregon,0.860458,-2.054327,-0.807341


In [59]:
# 절대값으로 변환
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.479861,0.295945,0.420309
Ohio,0.859614,0.407915,1.247578
Texas,1.829384,1.596518,0.690312
Oregon,0.928122,1.586536,0.401306


In [63]:
# apply 함수 : DF에서 복수 개의 컬럼에 적용하는 경우 사용
# series의 최대값과 최소값의 차이를 계산
# axis = 0 : 행방향
f = lambda x:x.max() - x.min()
frame.apply(f)

b    2.500972
d    2.523533
e    2.111200
dtype: float64

In [64]:
# axis = 1 : 열방향
frame.apply(f,axis='columns')

Utah      2.573547
Ohio      1.001802
Texas     1.152805
Oregon    2.914785
dtype: float64