In [82]:
# 기본 설정
import pandas as pd
import seaborn as sns
# 데이터 불러오기 - 자동차 사고 데이터
data = sns.load_dataset('car_crashes')
# 데이터 상위 5개 확인
data.head(5)

Unnamed: 0,total,speeding,alcohol,not_distracted,no_previous,ins_premium,ins_losses,abbrev
0,18.8,7.332,5.64,18.048,15.04,784.55,145.08,AL
1,18.1,7.421,4.525,16.29,17.014,1053.48,133.93,AK
2,18.6,6.51,5.208,15.624,17.856,899.47,110.35,AZ
3,22.4,4.032,5.824,21.056,21.28,827.34,142.39,AR
4,12.0,4.2,3.36,10.92,10.68,878.41,165.63,CA


#### 1. 인덱스 설정

In [83]:
# speeding 를 인덱스로 설정 후 상위 5개 출력 , inplace = False
df = data.set_index('speeding')
df.head(5)

Unnamed: 0_level_0,total,alcohol,not_distracted,no_previous,ins_premium,ins_losses,abbrev
speeding,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
7.332,18.8,5.64,18.048,15.04,784.55,145.08,AL
7.421,18.1,4.525,16.29,17.014,1053.48,133.93,AK
6.51,18.6,5.208,15.624,17.856,899.47,110.35,AZ
4.032,22.4,5.824,21.056,21.28,827.34,142.39,AR
4.2,12.0,3.36,10.92,10.68,878.41,165.63,CA


#### 2. 인덱스 재배열 및 누락값 채우기 

In [85]:
# 상위 5개 데이터만 이용
df = data.head(5)
# 새로운 인덱스 설정
new_index = [0,1,2,3,4,5,6,7]
# Null 값 -> 앞쪽 방향으로 채우기
#ndf = df.reindex(new_index)
ndf = df.reindex(new_index, method = 'ffill')
print(ndf)

   total  speeding  alcohol  not_distracted  no_previous  ins_premium  \
0   18.8     7.332    5.640          18.048       15.040       784.55   
1   18.1     7.421    4.525          16.290       17.014      1053.48   
2   18.6     6.510    5.208          15.624       17.856       899.47   
3   22.4     4.032    5.824          21.056       21.280       827.34   
4   12.0     4.200    3.360          10.920       10.680       878.41   
5   12.0     4.200    3.360          10.920       10.680       878.41   
6   12.0     4.200    3.360          10.920       10.680       878.41   
7   12.0     4.200    3.360          10.920       10.680       878.41   

   ins_losses abbrev  
0      145.08     AL  
1      133.93     AK  
2      110.35     AZ  
3      142.39     AR  
4      165.63     CA  
5      165.63     CA  
6      165.63     CA  
7      165.63     CA  


#### 3. 데이터프레임 정렬

In [86]:
# total 기준 내림차순으로 정렬 & 하위 5개만 출력
df = data.sort_values(by = 'total', ascending = False).tail(5)
df

Unnamed: 0,total,speeding,alcohol,not_distracted,no_previous,ins_premium,ins_losses,abbrev
6,10.8,4.968,3.888,9.396,8.856,1068.73,167.02,CT
47,10.6,4.452,3.498,8.692,9.116,890.03,111.62,WA
23,9.6,2.208,2.784,8.448,8.448,777.18,133.35,MN
21,8.2,1.886,2.87,7.134,6.56,1011.14,135.63,MA
8,5.9,2.006,1.593,5.9,5.9,1273.89,136.05,DC


In [31]:
# total 이 가장 낮은 행만 추출
df = data.sort_values(by = 'total', ascending = False).tail(1)
df

Unnamed: 0,total,speeding,alcohol,not_distracted,no_previous,ins_premium,ins_losses,abbrev
8,5.9,2.006,1.593,5.9,5.9,1273.89,136.05,DC


#### 구남이

In [32]:
# 1. DataFrame( ) 함수를 사용하여 위의 데이터프레임을 만들어보세요.
idx = ['1월','2월','3월','4월']
dic = {'매출액':[100,200,300,350], '영업이익':[25,20,15,16]}
df = pd.DataFrame(dic, index = idx)
df

Unnamed: 0,매출액,영업이익
1월,100,25
2월,200,20
3월,300,15
4월,350,16


In [34]:
# 2.  순이익 열을 추가해보세요.
df['순이익'] = [10,11,12,13]
df

Unnamed: 0,매출액,영업이익,순이익
1월,100,25,10
2월,200,20,11
3월,300,15,12
4월,350,16,13


In [35]:
# 3. 5월에 해당하는 열을 추가해보세요.
df.loc['5월'] = [320,17,12]
df

Unnamed: 0,매출액,영업이익,순이익
1월,100,25,10
2월,200,20,11
3월,300,15,12
4월,350,16,13
5월,320,17,12


In [36]:
#4. 4월의 영업이익을 22으로 바꿔보세요 .
df['영업이익']['4월'] = 22
df

Unnamed: 0,매출액,영업이익,순이익
1월,100,25,10
2월,200,20,11
3월,300,15,12
4월,350,22,13
5월,320,17,12


In [46]:
#5. 3월의 매출액과 순이익을 선택하여 출력하세요.
df[['매출액','순이익']].loc['4월']

매출액    350
순이익     13
Name: 4월, dtype: int64

#### 강수민

In [87]:
# Q1. 1~9 중 랜덤으로 5개의 정수를 뽑아 시리즈로 생성하세요. (random 모듈 사용)
import random
sr = pd.Series([random.randint(1,10) for i in range(5)])
print(sr, type(sr))

0    9
1    7
2    4
3    2
4    1
dtype: int64 <class 'pandas.core.series.Series'>


In [57]:
# Q2. 다음과 같은 데이터프레임을 생성하세요.(Q2-Q4)
#	food	   price	rating
# 0	KFC	        1000	4.5
# 1	McDonald	2000	3.9
# 2	SchoolFood	2500	4.2
dict = {'food':['KFC','McDonald','SchoolFood'], 'price':[1000,2000,2500],
       'rating':[4.5,3.9,4.2]}
df = pd.DataFrame(dict)
df

Unnamed: 0,food,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


In [58]:
# Q3. food, rating 열을 선택해 출력하세요
df[['food','rating']]

Unnamed: 0,food,rating
0,KFC,4.5
1,McDonald,3.9
2,SchoolFood,4.2


In [60]:
# Q4. food 열 이름을 place로 변경하세요
df.rename(columns = {'food':'place'},inplace = True)
df

Unnamed: 0,place,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


#### 박민영

In [89]:
# 1. 딕셔너리를 이용하여 아래와 같은 모양이 되도록 dataframe을 생성하시오.
dict = {'학번':[201524213,201621223,201621233,201611111,201622222],
       '이름':['오지환','박용택','정성훈','다니엘','지민'],
       '학과':['경영정보','경영정보','경영정보','컴퓨터공학','컴퓨터공학'],
       'Quiz':[15,20,10,17,18],
       '중간고사':[20,20,15,18,16]}
df = pd.DataFrame(dict)
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
2,201621233,정성훈,경영정보,10,15
3,201611111,다니엘,컴퓨터공학,17,18
4,201622222,지민,컴퓨터공학,18,16


In [91]:
# 2. 행 인덱스의 순서를 2, 0, 4, 1, 3 순으로 변경하시오.
df = df.reindex([2,0,4,1,3])
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
2,201621233,정성훈,경영정보,10,15
0,201524213,오지환,경영정보,15,20
4,201622222,지민,컴퓨터공학,18,16
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


In [76]:
# 3. 중간고사 점수가 가장 낮은 학생의 index를 구하시오.
df.sort_values(by = '중간고사').head(1).index

Int64Index([2], dtype='int64')

In [77]:
# 4. 퀴즈 점수가 가장 높은 학생의 학번을 구하시오.
df.sort_values(by='Quiz').tail(1)['학번']

1    201621223
Name: 학번, dtype: int64

In [70]:
# 5. 위 데이터프레임을 중간고사 점수에 따라 내림차순으로 정렬하시오.
df.sort_values(by = '중간고사', ascending = False)

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
4,201622222,지민,컴퓨터공학,18,16
2,201621233,정성훈,경영정보,10,15
