### 판다스

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 데이터 정제, 필터링, 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
* [참고URL] http://pandas.pydata.org/docs/reference/

#### 1) Series 기본 구조
- Series는 값의 리스트를 담고 있으며, 각 값은 고유한 인덱스와 연결되어 있다.
- 기본적으로, 이 인덱스는 0부터 시작하는 정수지만, 문자열 또는 날짜와 같은 다른 타입으로 지정할 수도 있다.
- Series는 다양한 데이터 타입을 저장할 수 있다. 예를 들어, 정수, 실수, 문자열, 파이썬 객체 등이 포함된다.
- 강력한 인덱싱 및 슬라이싱 기능을 제공. (특정 인덱스의 값에 접근하거나, 특정 조건을 만족하는 데이터만을 필터링할 수 있다.)
- Series를 다른 형태의 데이터 구조로 변환하는 것이 간단하다. 예를 들어, Series를 리스트, 딕셔너리, 혹은 DataFrame으로 변환할 수 있다.
- isnull(), notnull() 메서드를 사용하여 결측치를 찾을 수 있고, fillna(), dropna() 메서드로 결측치를 처리할 수 있다.

In [5]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# key:value 구조의 딕셔너리를 만들어 dict_data(변수)에 저장
dict_data = {'a':1, 'b':2, 'c':3}

sr = pd.Series(dict_data)
print(sr)           # 'key : value' 형태로 출력
print(f"\ntype : {type(sr)}")

a    1
b    2
c    3
dtype: int64

type : <class 'pandas.core.series.Series'>


In [9]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02', 3.14, 'ABC', 100, True]

sr = pd.Series(list_data, index=list('abcde'))    
                    # 출력시 나타내고자 하는 index의 형식을 지정 가능 (단, value 갯수와 동일하게 지정)
print(sr)                                 # 'index : value' 형태로 출력
print(f"\ntype : {type(sr)}")

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

type : <class 'pandas.core.series.Series'>


In [14]:
# 튜플을 시리즈로 변환
tup_data = ('kevin', '2019-07-02', '남', True)

sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부']) 
                         # list를 이용하여 각 value의 index를 개별로 지정
print(sr)                                 
print(f"\ntype : {type(sr)}")

print(f"\n'이름' 확인: {sr['이름']}")    # index를 이용한 value 호출 (sr['이름'] 대신 sr[0] 사용 가능)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object

type : <class 'pandas.core.series.Series'>

'이름' 확인: kevin


In [24]:
# list로 생성된 시리즈를 print 할 경우, 경로 등에 대한 경고 메세지가 실행되기도 함.
# 경고 관련 메세지에 관련된 처리를 위해서는 'warnings'를 import
import warnings
warnings.filterwarnings('ignore')        # 시리즈를 print 할 경우, 경고 메세지를 보여지지 않도록 처리


print(sr[0])
# print(sr[1, 2])   
# 에러 발생 (∵ sr[1,2]는 튜플(1,2)를 인덱스로 사용하려고 시도하는 반면 Series 객체는 단일 차원의 인덱스만을 지원)

print(sr[[1,2]])    # sr[[1,2]] : 팬시 인덱싱 (여러 인덱스를 한 번에 선택할 수 있음.)

kevin
생년월일    2019-07-02
성별               남
dtype: object


In [26]:
import numpy as np

s1 = np.arange(11,21,2)                      # 배열을 이용하여 리스트 생성
print(s1, type(s1))

s2 = pd.Series(s1, index = list('abcde'))    # 비열을 이용한 시리즈 생성
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>
a    11
b    13
c    15
d    17
e    19
dtype: int32 <class 'pandas.core.series.Series'>


In [29]:
# Series를 list로 변환

sr_tolist = sr.tolist()
print(sr_tolist)

['kevin', '2019-07-02', '남', True]


In [30]:
# Series를 딕셔너리로 변환

sr_todic = sr.to_dict()
print(sr_todic)

{'이름': 'kevin', '생년월일': '2019-07-02', '성별': '남', '학생여부': True}


In [38]:
# Series를 딕셔너리로 변환

sr_df = sr.to_frame(name = 'Value')      # name 세팅이 반드시 필요함.
print(sr_df)
sr_df                            # print() 함수를 이용하지 않고 출력했을 경우 형식이 더 깔끔하다????

           Value
이름         kevin
생년월일  2019-07-02
성별             남
학생여부        True


Unnamed: 0,Value
이름,kevin
생년월일,2019-07-02
성별,남
학생여부,True


In [43]:
import pandas as pd
import numpy as np

array = np.arange(1000,5000,1000)                      # 배열을 이용하여 리스트 생성
sr = pd.Series(array, index = ['Califonia', 'Ohio', 'Oregon', 'Texas'])    # 비열을 이용한 시리즈 생성
sr.name = 'population'        # 생성된 시리즈의 이름
sr.index.name = 'state'       # 생성된 시리즈에 사용된 index의 이름

print(sr)        # 생성된 시리즈 이름등을 모두 포함함.

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32


In [44]:
# Series를 딕셔너리로 변환

sr_df = sr.to_frame(name = 'Value')      # name 세팅이 반드시 필요함.
print(sr_df)
sr_df                            # print() 함수를 이용하지 않고 출력했을 경우 형식이 더 깔끔하다????

           Value
state           
Califonia   1000
Ohio        2000
Oregon      3000
Texas       4000


Unnamed: 0_level_0,Value
state,Unnamed: 1_level_1
Califonia,1000
Ohio,2000
Oregon,3000
Texas,4000


In [45]:
sr.California = np.nan
sr

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [52]:
# Null 값 처리
sr.Califonia = np.nan      # np.nan : Califonia의 값을 null로... 
                           # null로 처리하면서 data type이 float로 변경됨?????
sr

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [53]:
# null 확인

null_sr = sr.isnull()          # .isnull() : null 값이 있는지를 확인
null_sr

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [54]:
null_sr.sum()                  # sum() : null 값의 갯수 확인

1

In [55]:
not_null_sr = sr.notnull()    # .notnull() : null 값이 아닌 것을 확인
not_null_sr

state
Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [56]:
filled_sr = sr.fillna(0)     # .fillna() : null 값을 특정한 숫자로 채움.
filled_sr

state
Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [57]:
filled_sr = sr.fillna('o')     # .fillna() : null 값을 숫자가 아닌 문자로 변경도 가능?????
filled_sr

state
Califonia         o
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: object

In [58]:
dropped_sr = sr.dropna()            # .dropna() : null 값인 항목을 삭제처리
dropped_sr

state
Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [60]:
dropped_sr.isnull().sum()          # dropped_sr에 null 값이 몇개가 있는지 확인

0

#### 2) 데이터프레임
- 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
- 데이터프레임의 열은 각각 시리즈 개체. 
- 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [12]:
import numpy as np
import pandas as pd

# 배열을 데이터프레임으로 변환

np.random.seed(0)                                  # .seed(숫자) : random 함수에서의 값이 변하지 않게 고정
                                                   #               (숫자의 값에 따라 값이 고정됨.)
data = np.random.randint(100, 120, size=(3,3))     # 100에서 120사이의 정수를 3x3 배열(array)을 생성
print(f"<< 생성된 배열 확인 >>\n{data}\n")

df = pd.DataFrame(data, index=['d1','d2','d3'], columns=['pd','sales','inv'])
print(f"<< 생성된 데이터프레임 확인 >>\n{df}")

df

<< 생성된 배열 확인 >>
[[112 115 100]
 [103 103 107]
 [109 119 118]]

<< 생성된 데이터프레임 확인 >>
     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [83]:
# panadas indexing : 생성된 데이터 프레임의 recode를 index를 사용하여 확인
# iloc - 정수 인덱스(index 값을 정수로 추출), loc - 이름 인덱스(이름 인덱스가 없으면 index 값을 이름으로 추출)
# index 값을 1개만 주면 '행'을 표기 ('열'은 전체 다 표기하는 것으로 인식)


# 생성된 dataframe에서 정수 인덱스 확인
print(df.iloc[1])          # index를 '행'만 추가
print()
print(df.iloc[1,:])        # index를 '행'과 '열' 추가
print()
print(df.iloc[1,2])        # index의 '행'과 '열' 번호를 이용하여 특정한 위치의 값을 추출

pd       103
sales    103
inv      107
Name: d2, dtype: int32

pd       103
sales    103
inv      107
Name: d2, dtype: int32

107


In [85]:
# 생성된 dataframe에서 이름 인덱스 확인
print(df.loc['d2'])              # index를 '행'만 추가
print()
print(df.loc['d2',:])            # index를 '행'과 '열' 추가
print()
print(df.loc['d2','inv'])        # index의 '행'과 '열' 번호를 이용하여 특정한 위치의 값을 추출

pd       103
sales    103
inv      107
Name: d2, dtype: int32

pd       103
sales    103
inv      107
Name: d2, dtype: int32

107


In [87]:
df.loc['d3'] = 0            # 'd3'에 해당하는 컬럼의 data를 모두 0으로 수정
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [93]:
# 2차원 리스트를 데이터프레임으로 변환

a = np.random.randint(1,5,size=(10,5))
ar_list = a.tolist()
ar_list
# print(f"<< 생성된 리스트 확인 >>\n{ar_list}\n")  

df_list = pd.DataFrame(ar_list, columns=['c1','c2','c3','c4','c5'])
print(f"<< 생성된 데이터프레임 확인 >>\n{df_list}")


<< 생성된 데이터프레임 확인 >>
   c1  c2  c3  c4  c5
0   1   3   3   1   1
1   4   1   2   3   1
2   1   4   2   4   1
3   3   2   2   2   4
4   1   1   1   2   2
5   3   2   1   1   2
6   3   2   2   4   2
7   1   1   1   4   4
8   2   3   2   4   2
9   4   1   1   4   2


In [97]:
df_list.head(3)         # .head() : 확인하고자 하는 레코드의 수를 지정하여 확인 가능
# df_list.tail()

Unnamed: 0,c1,c2,c3,c4,c5
0,1,3,3,1,1
1,4,1,2,3,1
2,1,4,2,4,1


In [103]:
# 데이터프레임을 배열, 리스트, 딕션너리로 변환

ar = df_list.values
print(f"<< 변환된 배열 확인 >>\n{ar}\n")

li = ar.tolist()
print(f"<< 변환된 리스트 확인 >>\n{li}\nType ::: {type(li)}\n")

dict = df_list.to_dict('list')
print(f"<< 변환된 딕셔너리 확인 >>\n{dict}\nType ::: {type(dict)}\n")

<< 변환된 배열 확인 >>
[[1 3 3 1 1]
 [4 1 2 3 1]
 [1 4 2 4 1]
 [3 2 2 2 4]
 [1 1 1 2 2]
 [3 2 1 1 2]
 [3 2 2 4 2]
 [1 1 1 4 4]
 [2 3 2 4 2]
 [4 1 1 4 2]]

<< 변환된 리스트 확인 >>
[[1, 3, 3, 1, 1], [4, 1, 2, 3, 1], [1, 4, 2, 4, 1], [3, 2, 2, 2, 4], [1, 1, 1, 2, 2], [3, 2, 1, 1, 2], [3, 2, 2, 4, 2], [1, 1, 1, 4, 4], [2, 3, 2, 4, 2], [4, 1, 1, 4, 2]]
Type ::: <class 'list'>

<< 변환된 딕셔너리 확인 >>
{'c1': [1, 4, 1, 3, 1, 3, 3, 1, 2, 4], 'c2': [3, 1, 4, 2, 1, 2, 2, 1, 3, 1], 'c3': [3, 2, 2, 2, 1, 1, 2, 1, 2, 1], 'c4': [1, 3, 4, 2, 2, 1, 4, 4, 4, 4], 'c5': [1, 1, 1, 4, 2, 2, 2, 4, 2, 2]}
Type ::: <class 'dict'>



In [1]:
############################
# 11/23 수업 진도

In [3]:
%pwd

'D:\\hjh_directory\\workspace\\jupyter\\m3_분석라이브러리'

In [4]:
!mkdir data           # 폴더 생성

In [7]:
ls                   # 현재 위치의 리스트 확인

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리\# 디렉터리

2023-11-22  오후 12:15    <DIR>          .
2023-11-22  오후 12:15    <DIR>          ..
               0개 파일                   0 바이트

 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리 디렉터리


 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리 디렉터리


 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리 디렉터리


 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리 디렉터리



파일을 찾을 수 없습니다.


In [10]:
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['a','a','b','b','c','c']
    
})
file_data

Unnamed: 0,col1,col2
0,1,a
1,2,a
2,3,b
3,4,b
4,5,c
5,6,c


In [12]:
# .to_csv(): csv 파일로 [data] 폴더안에 파일 저장
file_data.to_csv('data/file_data.csv', index=None)

# .read_csv(): 외부의 csv 파일을 pandas를 이용해 불러옴.
file_data = pd.read_csv('data/file_data.csv')

print(file_data, type(file_data))

   col1 col2
0     1    a
1     2    a
2     3    b
3     4    b
4     5    c
5     6    c <class 'pandas.core.frame.DataFrame'>


In [82]:
# DataFrame 2개 생성

df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})

print(df_1, '\n')
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C 

   col1 col2
0     4    D
1     5    E
2     6    F


In [14]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력

# '열'방향으로 병합하여 df_3 생성
df_3 = pd.concat([df_1, df_2], axis=1)   # axis=1 :'열'방향
print(df_3, '\n')

# '행'방향으로 병합하여 df_4 생성
df_4 = pd.concat([df_1, df_2], axis=0)   # axis=0 :'행' 방향 (기본값이므로 생략 가능.)
print(df_4, '\n')

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F 



In [18]:
# 임의의 10x5의 Dataframe을 생성
import pandas as pd
import numpy as np
a = np.random.randint(1,5,size=(10,5))
a = pd.DataFrame(a, index=['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'],
               columns=['국어','영어','수학','과학','사회'])
#print(a, '\n')


a.iloc[0] = 90

for i in range(10):
# 왜 오류지??? ㅜ.ㅠ    
# for i in range(1,11):
    print(f"i = {i} / result = {90 - i*5}")
    a.iloc[i] = 90 - i*5

a

i = 0 / result = 90
i = 1 / result = 85
i = 2 / result = 80
i = 3 / result = 75
i = 4 / result = 70
i = 5 / result = 65
i = 6 / result = 60
i = 7 / result = 55
i = 8 / result = 50
i = 9 / result = 45


Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [None]:
# [참고] '전유빈'님 코드
for i in range(len(a)):
    if i == 0:
        a.iloc[i] = 90
    else:
        a.iloc[i] = a.iloc[i-1] - 5


        
# [참고] '서영우'님 코드
score = 100

for i in range(10):
    i+=1
    a.loc[f's{i}'] = score
    score -= 5

print(a)

In [87]:
# Q. a에서 영어, 수학의 평균 점수가 국어 대비 5점 낮음.

a.loc[:,"영어"] = a.loc[:,"국어"] - 5
a.loc[:,"수학"] = a.loc[:,"국어"] - 5

a

# [참고] '서영우'님 코드
# subject = ['영어', '수학']

# for s in subject:
#    for i in range(10):
#        a[s][i] = a['국어'][i] - 5
# a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [88]:
# Q. 데이터프레임 a에 결시자 국어 3명, 수학 2명을 반영하세요.

a.iloc[1,0] = np.nan
a.iloc[3,0] = np.nan
a.iloc[5,0] = np.nan
a.iloc[7,2] = np.nan
a.iloc[9,2] = np.nan


a

# [참고] '김학준'님 코드
# ran_num3 = a.sample(3).index
# ran_num2 = a.sample(2).index
# a.loc[ran_num3,'국어'] = np.nan
# a.loc[ran_num2,'수학'] = np.nan

# a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,55.0,50,,55,55
s9,50.0,45,45.0,50,50
s10,45.0,40,,45,45


In [4]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [5]:
print(df.iloc[6,2:5])       # 7행의 c~e열의 value 출력

c    92
d    74
e    57
Name: 6, dtype: int32


In [6]:
# c열 추출을 위한 여러가지 방법

print(df.loc[:,'c'], '\n')        # .loc() 사용 : index 이름 사용
print(df.iloc[:,2], '\n')         # .iloc() 사용 : index 번호 사용
print(df['c'])                    # 열을 선택하고자 할 때는 .loc()나 .iloc()를 사용하지 않아도 됨.

# 단, 위의 출력 결과는 모두 '시리즈'로 출력됨.

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32 

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32 

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32


### 1123 수업진도

### 판다스(Pandas) DataFrame에서 데이터를 선택하는 두 가지 다른 방법

#### 1) df[['c']] : DataFrame 형태로 결과를 반환
- 'c' 열만 포함하는 새로운 DataFrame을 생성
- 여러 열을 선택할 때 사용할 수 있다. 예: df[['c', 'd']]

#### 2) df['c'] : Series 형태로 결과를 반환
- 'c' 열의 데이터를 Series로 반환
- 단일 열만 선택할 때 주로 사용

In [7]:
print(df['c'], "\n")         # 한 개의 열을 '시리즈'로 출력.

print(df[['c']])             # 한 개의 열을 '데이터프레임'으로 출력. (시리즈 이름이 '열'이름으로 사용됨.)

0    53
1    60
2    88
3    89
4    72
5    55
6    92
7    65
Name: c, dtype: int32 

    c
0  53
1  60
2  88
3  89
4  72
5  55
6  92
7  65


In [12]:
df_e = df.copy()

In [13]:
# 컬럼이름 바꾸기
import warnings
warnings.filterwarnings('ignore')
df_e.rename(columns = {'a':'국어', 'b':'영어', 'c':'수학', 'd':'과학', 'e':'음악'},
           index = {0:'한정현', 1:'심주승', 2:'전유빈', 3:'김학준', 4:'황인서', 5:'윤성민', 6:'주용규', 7:'서영우'}, inplace = True)
df_e

Unnamed: 0,국어,영어,수학,과학,음악
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [19]:
# 위처럼 설정한것을 다시 리셋하고싶을때..
# 기존에 설정해놓았던 인덱스는 컬럼으로 바뀜... 그리고 행의숫자(디폴트)로바뀜
df_e1 = df_e.reset_index()
df_e1

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [24]:
# 컬럼 순서를 바꿔서 보고 싶다하면..
df_e2 = df_e1[['국어','영어','수학','과학','음악','index']]
df_e2

Unnamed: 0,국어,영어,수학,과학,음악,index
0,92,74,53,58,50,한정현
1,71,69,60,93,91,심주승
2,60,71,88,82,70,전유빈
3,94,79,89,64,76,김학준
4,67,76,72,52,52,황인서
5,51,76,55,90,96,윤성민
6,83,79,92,74,57,주용규
7,93,83,65,98,87,서영우


In [25]:
# 다시 인덱스 쓰고 싶다하면..
df_e3 = df_e2.set_index('index')
df_e3

Unnamed: 0_level_0,국어,영어,수학,과학,음악
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
한정현,92,74,53,58,50
심주승,71,69,60,93,91
전유빈,60,71,88,82,70
김학준,94,79,89,64,76
황인서,67,76,72,52,52
윤성민,51,76,55,90,96
주용규,83,79,92,74,57
서영우,93,83,65,98,87


In [26]:
df_e4 = df_e3.reset_index()
df_e4

Unnamed: 0,index,국어,영어,수학,과학,음악
0,한정현,92,74,53,58,50
1,심주승,71,69,60,93,91
2,전유빈,60,71,88,82,70
3,김학준,94,79,89,64,76
4,황인서,67,76,72,52,52
5,윤성민,51,76,55,90,96
6,주용규,83,79,92,74,57
7,서영우,93,83,65,98,87


In [None]:
# Q. 새로운 컬럼을 생성한 후 그 컬럼으로 인덱스를 만드세요.

In [32]:
# 주용규님 솔루션
new_cal = ['짜장면','짬뽕','짜장밥','울면','볶음밥','탕수육','군만두','멘보샤']
df_e4['중국집']=new_cal
df_e5 = df_e4.set_index('중국집')
df_e5.drop('index', axis=1, inplace=True) # index라는 컬럼을 삭제. drop. axis=1(축 1)
# df_e5.index.name = None # 중국집(인덱스이름명)을 없애는법
df_e5

Unnamed: 0_level_0,국어,영어,수학,과학,음악
중국집,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
짜장면,92,74,53,58,50
짬뽕,71,69,60,93,91
짜장밥,60,71,88,82,70
울면,94,79,89,64,76
볶음밥,67,76,72,52,52
탕수육,51,76,55,90,96
군만두,83,79,92,74,57
멘보샤,93,83,65,98,87


In [None]:
#### 과제1_1123 : 5행 5열의 데이터프레임(행,열에 이름을 모두 포함)을 작성하신 후 다음을 수행하세요.
- 정수 인덱스를 적용하세요.
- 인덱스 컬럼을 삭제히세요.
- 새로운 컬럼을 생성해서 인덱스로 셋팅하세요.
- 인덱스 이름을 삭제하세요.

In [13]:
# 과제1_1123 김학준님 솔루션
import pandas as pd

data_list = [
    ['자야', 60, 0.658, 630, 340],
    ['진', 59, 0.625, 655, 300],
    ['루시안', 60, 0.625, 641, 320],
    ['이즈리얼', 62, 0.625, 600, 375],
    ['트위치', 59, 0.679, 682, 300]
]

In [16]:
columns = ['이름', '공격력', '공격속도', '체력', '마나']
df_lol = pd.DataFrame(data_list, columns=columns)
df_lol

Unnamed: 0,이름,공격력,공격속도,체력,마나
0,자야,60,0.658,630,340
1,진,59,0.625,655,300
2,루시안,60,0.625,641,320
3,이즈리얼,62,0.625,600,375
4,트위치,59,0.679,682,300


In [20]:
# 정수 인덱스 적용
df_lol_reset_index = df_lol.reset_index(drop=True)
df_lol_reset_index

Unnamed: 0,이름,공격력,공격속도,체력,마나
0,자야,60,0.658,630,340
1,진,59,0.625,655,300
2,루시안,60,0.625,641,320
3,이즈리얼,62,0.625,600,375
4,트위치,59,0.679,682,300


In [22]:
# 새로운 행을 추가하고 인덱스로 설정
new_row = pd.DataFrame([['케이틀린', 60, 0.625, 580, 313.8]], columns=columns)
df_lol_set_index = pd.concat([df_lol_reset_index, new_row], ignore_index=True)
df_lol_set_index.set_index('이름', inplace=True)
df_lol_set_index

Unnamed: 0_level_0,공격력,공격속도,체력,마나
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
자야,60,0.658,630,340.0
진,59,0.625,655,300.0
루시안,60,0.625,641,320.0
이즈리얼,62,0.625,600,375.0
트위치,59,0.679,682,300.0
케이틀린,60,0.625,580,313.8


In [24]:
# 인덱스 이름 삭제
df_lol_no_index_name = df_lol_set_index.copy()
df_lol_no_index_name.index.name = None
df_lol_no_index_name

Unnamed: 0,공격력,공격속도,체력,마나
자야,60,0.658,630,340.0
진,59,0.625,655,300.0
루시안,60,0.625,641,320.0
이즈리얼,62,0.625,600,375.0
트위치,59,0.679,682,300.0
케이틀린,60,0.625,580,313.8


In [None]:
# Q. 딕서녀리로 5행 5열 데이터 프레임을 작성하세요.
# 딕셔서리를 정의(주어졌음)
# dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}
# index = ['r0','r1','r2','r3','r4']

In [33]:
# 솔루션
# 데이터프레임 생성
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}
df = pd.DataFrame(dict_data, index = ['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# Q. df에 r5,r6 2개의 행을 추가하고 값은 0을 적용하여 출력하세요.

In [35]:
# 솔루션
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [39]:
# (추가)솔루션
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8'] # 이떄, r7, r8은 비어있음
df_r = df.reindex(new_index,fill_value=0) # reindex 사용. new_index 에 비어있는 값에 0을 넣어라.
df_r

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [45]:
# Q. df_r 에서 r5 ~ r8 까지 삭제 후 df1 으로 출력하세요.

In [51]:
# 솔루션
df1 = df_r.drop(['r5','r6','r7','r8'], axis=0)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [46]:
# 주용규님 솔루션1
df_r
df1 = df_r.drop(df_r.index[5:9])
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [47]:
# 주용규님 솔루션2
df1 = df_r.drop(df_r.loc['r5':'r8'].index)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [44]:
# 전유빈님 솔루션
new_index = ['r0','r1','r2','r3','r4']
df1 = df_r.reindex(new_index)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# 정렬하는법.. 기본적으로 올림차순이지만 내림차순으로 하는법을 배워보자

In [53]:
# 올림차순이 디폴트인데 그것을 False 주면 내림차순됨
df1_s = df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [56]:
# c 기준으로 sort해서 보고싶다 하면...
df1_c = df1.sort_values(by='c',ascending=False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [59]:
# 전치 하기 전 원래 df1 을 출력하여 비교..
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [58]:
# 전치 : 행과 열을 서로 바꿔주는것 # transpose() 를 사용하여 행과 열이 바뀐모습
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [63]:
# Q. df1_t를 전치하여 df1으로 출력하세요.

In [62]:
# 솔루션
df1 = df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


#### 과제2_1123 : 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요. (가능한한 의미 있는 데이터로작성)

In [29]:
# 과제2_1123 전유빈님 솔루션
#5행 5열의 리스트
import numpy as np
import pandas as pd
shoe_size = [240,260,270,260,225]
height = [160,180,185,175,153]
weight = [50,75,80,70,45]
waist_size = [26,32,24,31,25]
cloth_size = ['S','L','XL','M','XS']
df_size = pd.DataFrame(zip(shoe_size,height,weight,waist_size,cloth_size), columns = ['shoes','height','weight','waist','cloth'])
df_size

Unnamed: 0,shoes,height,weight,waist,cloth
0,240,160,50,26,S
1,260,180,75,32,L
2,270,185,80,24,XL
3,260,175,70,31,M
4,225,153,45,25,XS


In [30]:
# 과제2_1123 전유빈님 솔루션
#5행 5열의 배열

df_array = pd.DataFrame({'shoes':np.array([240,260,270,260,225]),
                        'height':np.array([160,180,185,175,153]),
                        'weight':np.array([50,75,80,70,45]),
                        'waist':np.array([26,32,24,31,25]),
                        'cloth':np.array(['S','L','XL','M','XS'])})
df_array
#5행 5열의 사전
daily_dict = {'날짜':[20231101,20231102,20231103,20231104,20231105],
              '자기계발':[0,1,2,0,3],
              '취미':[1,2,1,1,3],
              '공부':[8,8,8,8,8],
              '친교':[3,4,2,4,3]}
daily_df = pd.DataFrame(daily_dict, index = ['day1','day2','day3','day4','day5'])
daily_df

Unnamed: 0,날짜,자기계발,취미,공부,친교
day1,20231101,0,1,8,3
day2,20231102,1,2,8,4
day3,20231103,2,1,8,2
day4,20231104,0,1,8,4
day5,20231105,3,3,8,3


In [None]:
# 과제2_1123 주용규님 솔루션
# 리스트
James = list(np.random.randint(35,100,size=5))
Matin = list(np.random.randint(35,100,size=5))
Luna = list(np.random.randint(35,100,size=5))
Tom = list(np.random.randint(35,100,size=5))
Sam = list(np.random.randint(35,100,size=5))
p2_name = ['James', 'Matin', 'Luna', 'Tom', 'Sam']
p2_subject = ['국어','영어','수학','과학','사회']

df2_list = pd.DataFrame({
    'James': pd.Series(James, name='James'),
    'Matin': pd.Series(Matin, name='Matin'),
    'Luna': pd.Series(Luna, name='Luna'),
    'Tom': pd.Series(Tom, name='Tom'),
    'Sam': pd.Series(Sam, name='Sam')
})
df2_list.index = p2_subject
df2_list = df2_list.transpose()
print(df2_list)

# 배열
p2_zip = list(zip(James,Matin,Luna,Tom,Sam))
p2_array = np.array(p2_zip)
df2_array = pd.DataFrame(p2_array,columns=p2_name, index=p2_subject)
df2_array = df2_array.transpose()
print(df2_array)

# 사전
p2_dic = {'James':James, 'Matin':Matin, 'Luna':Luna, 'Tom':Tom, 'Sam':Sam}
df2_dic = pd.DataFrame(p2_dic,columns=p2_name, index=p2_subject)
df2_dic = df2_dic.transpose()
print(df2_dic)

In [None]:
# 과제2_1123 솔루션
E_class_ip = pd.DataFrame({
    ''
})

In [6]:
# 과제2_1123 솔루션
import pandas as pd
import numpy as np
Phone_Info = pd.DataFrame(index =['한정현', '홍길동', '오아리', '오동동', ''],
                          columns = ['전화번호','기종','최초통화일','통신사'],
                          '전화번호' : np.array(['111-1111-1111', '222-2222-2222','333-3333-3333','444-4444-4444'])
                         )

SyntaxError: positional argument follows keyword argument (472002471.py, line 6)

In [None]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})

#### 과제3_1123 : 위에서 변환한 데이터 프레임에서 데이터 변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 행태로 변환하여 출력하세요.

In [49]:
# 과제3_1123 최재빈님 솔루션

import pandas as pd

# Create a dictionary with column names as keys and lists as values
data = {
    'Name': ['철수', '영희', '하니', '길동', '영희'],
    'Age': [25, 30, 35, 40, 45],
    'Gender': ['M', 'F', 'F', 'M', 'F'],
    'City': ['New York', 'London', 'Paris', 'Seoul', 'Sydney'],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

# Create the DataFrame
df = pd.DataFrame(data, index=['Row1', 'Row2', 'Row3', 'Row4', 'Row5'])
df
#데이터변경, 삭제, 전치, 인덱스 등 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.

# 데이터 변경
df.loc['Row3', 'City'] = 'Berlin'  # Row3의 City를 'Paris'에서 'Berlin'으로 변경
df

# 데이터 삭제
df.drop('Row5', inplace=True)  # Row5 행 삭제
df

# 전치
df_transposed = df.T  # 데이터프레임 전치
df_transposed
df

# 인덱스 재설정
df.reset_index(drop=True, inplace=True)  # 인덱스를 정수 인덱스로 재설정
df

# 리스트 형태로 변환
data_list = df.values.tolist()
data_list

df

Unnamed: 0,Name,Age,Gender,City,Salary
Row1,철수,25,M,New York,50000
Row2,영희,30,F,London,60000
Row3,하니,35,F,Berlin,70000
Row4,길동,40,M,Seoul,80000


In [45]:
# 배열 형태로 변환
data_array = df.values

print(data_array, type(data_array))

[['철수' 25 'M' 'New York' 50000]
 ['영희' 30 'F' 'London' 60000]
 ['하니' 35 'F' 'Berlin' 70000]
 ['길동' 40 'M' 'Seoul' 80000]] <class 'numpy.ndarray'>


In [43]:
# 사전 형태로 변환
data_dict = df.to_dict()

data_dict

{'Name': {0: '철수', 1: '영희', 2: '하니', 3: '길동'},
 'Age': {0: 25, 1: 30, 2: 35, 3: 40},
 'Gender': {0: 'M', 1: 'F', 2: 'F', 3: 'M'},
 'City': {0: 'New York', 1: 'London', 2: 'Berlin', 3: 'Seoul'},
 'Salary': {0: 50000, 1: 60000, 2: 70000, 3: 80000}}

In [68]:
# 함수 적용과 매핑
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.213261,0.270377,1.206183
Ohio,-0.663704,0.176596,0.245056
Texas,0.627234,-0.355725,1.271704
Oregon,0.175943,-0.707464,-0.634093


In [65]:
# 절대값으로 변환(numpy의 abs)
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.80838,0.555686,0.487684
Ohio,0.320401,0.251388,0.628376
Texas,1.143655,1.408836,2.560801
Oregon,0.888336,0.282925,1.269192


In [75]:
# apply 함수 : DF에서 복수 개의 컬럼에 적용하는 경우 사용 # 매핑하는것이라고 이해하면 편함
# series의 최댓값과 최솟값의 차이를 계산
f = lambda x:x.max() - x.min()
frame.apply(f) # axis 가 디폴트가 0이기 때문에 , frame.apply(f,0) 과 같음
# axis 를 1로주면 행쪽(행축)으로 .. axis 0 을 주면 열쪽(열축)으로

b    1.290938
d    0.977841
e    1.905797
dtype: float64

In [None]:
# 중요 요점!
# 행축 열축
# 행은 ultah 의 0.? 0.? ~~ 열은 b d e 인데
# 행축은 b의 0.? 0.?.
# 열축은 ultah의 0.? 0.? ~~

In [78]:
# 이번엔 행축이 아니라 열축으로 출력 # 열방향으로 출력
frame.apply(f, axis=1)

# 다른 방법..
frame.apply(f, axis='columns')

Utah      0.992922
Ohio      0.908759
Texas     1.627429
Oregon    0.883407
dtype: float64