<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

# 2.데이터프레임 탐색

- 데이터프레임 탐색은 **데이터프레임**의 **키**와 **몸무게**를 재는 것이라 할 수 있습니다.
- 파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있어야 합니다.
- 확인된 내용을 통해 데이터 전처리 필요 여부를 결정합니다.
- 데이터를 알아야 데이터를 분석할 수 있습니다.

In [1]:
# 라이브러리 불러오기
import pandas as pd

In [2]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/tips.csv'
tip = pd.read_csv(path)

**[tips 데이터 셋 정보]**

- total_bill: 금액
- tip: 팁
- sex: 성별(Male, Female)
- smoker: 흡연 여부(Yes. No)
- day: 요일(Thur, Fri, Sat, Sun)
- time: 시간(Dinner, Lunch)
- size: 고객 수

**[참고] 우선 익숙해져야 할 것들**

- head(): 상위 데이터 확인
- tail(): 하위 데이터 확인
- shape: 데이터프레임 크기
- index: 인덱스 정보 확인
- values: 값 정보 확인
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기술통계정보 확인

<img src='https://raw.githubusercontent.com/jangrae/img/master/eda.png' width=700 align="left"/>

## 2.1.앞, 뒤 일부 데이터, 크기 확인

- **head(*n*), tail(*n*)** 메서드를 사용해 앞 뒤 데이터를 확인합니다.
- 개수를 지정하지 않으면 기본적으로 5개 행이 조회됩니다.

**1) 상위 데이터 확인**

In [3]:
# 상위 10개 행 데이터
tip.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


**2) 하위 데이터 확인**

In [4]:
# 하위 3개 행 데이터
tip.tail(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


**3) 크기 확인**

- **(rows, cols)** 값을 갖는 **튜플** 형태로 확인이 가능합니다.
- 데이터를 분석할 때 처리할 **데이터 양을 확인**하는 목적으로 많이 사용 합니다.

In [5]:
# 행 수와 열 수 확인
tip.shape

(244, 7)

## 2.2.열, 행 정보 보기

**1) 인덱스 확인**

In [6]:
# 인덱스 확인
tip.index

RangeIndex(start=0, stop=244, step=1)

**2) 값 확인**

- values 속성 조회 결과는 Array 입니다.

In [7]:
# 값 확인
tip.values

array([[16.99, 1.01, 'Female', ..., 'Sun', 'Dinner', 2],
       [10.34, 1.66, 'Male', ..., 'Sun', 'Dinner', 3],
       [21.01, 3.5, 'Male', ..., 'Sun', 'Dinner', 3],
       ...,
       [22.67, 2.0, 'Male', ..., 'Sat', 'Dinner', 2],
       [17.82, 1.75, 'Male', ..., 'Sat', 'Dinner', 2],
       [18.78, 3.0, 'Female', ..., 'Thur', 'Dinner', 2]], dtype=object)

**3) 열 확인**

In [8]:
# 열 확인
tip.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

**4) 자료형 확인**
- int64: 정수형 데이터(int)
- float64: 실수형 데이터(float)
- object: 문자열 데이터(string)

In [9]:
# 열 자료형 확인
tip.dtypes

total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object

In [10]:
# 열 자료형, 값 개수 확인
tip.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


**5) 기술 통계 확인**

- 기술 통계(Descriptive Statistics)는 데이터의 정리, 요약, 해석, 표현 등을 통해 데이터가 갖는 특성을 나타내는 정보입니다.
- describe() 메서드는 데이터에 대한 많은 정보를 제공하는 매우 중요한 메서드입니다.
- 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 사분위값(25%, 50%, 75%), 최댓값(max)을 표시합니다.

In [11]:
# 기술 통계
tip.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


- 일부 열에 대해서만 기술 통계를 확인할 수 있습니다.

In [None]:
# 기술 통계
tip[['total_bill', 'tip']].describe()

**[참고] 사분위에 대한 이해**

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile2.png' width=700 align="left"/>

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 25%, 50%, 75% 값을 확인하세요.

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile_a.png' width=700 align="left"/>

[문2] 다음 경로의 파일을 읽어와 temp 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [12]:
# 데이터 읽어오기
temp = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv')


[문3] temp 데이터프레임 관련 정보를 확인하세요.

In [13]:
# 상위 데이터 확인
temp.head()

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
0,2000,2000. 01,-2.1,1.7,9.9,-5.7,-12.1,42.8,64.0,2.6,7.6,12.3
1,2000,2000. 02,-1.7,2.6,7.5,-5.8,-11.6,2.1,56.0,2.7,10.6,19.1
2,2000,2000. 03,6.3,11.4,18.9,1.7,-4.8,3.1,55.0,3.0,12.2,19.9
3,2000,2000. 04,11.9,16.9,23.5,7.3,1.8,30.7,56.0,2.9,9.5,18.8
4,2000,2000. 05,17.5,22.7,30.5,12.9,7.9,75.2,66.0,2.3,8.3,13.6


In [16]:
# 크기 확인
temp.shape

(300, 12)

In [17]:
# 인덱스 확인
temp.index

RangeIndex(start=0, stop=300, step=1)

In [18]:
# 열 확인
temp.columns

Index(['연도', '년월', '기온', '최고기온', '극점최고기온', '최저기온', '극점최저기온', '강수량', '상대습도',
       '풍속', '최대풍속', '최대순간풍속'],
      dtype='object')

In [19]:
# 열 자료형, 값 개수 확인
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연도      300 non-null    int64  
 1   년월      300 non-null    object 
 2   기온      300 non-null    float64
 3   최고기온    300 non-null    float64
 4   극점최고기온  300 non-null    float64
 5   최저기온    300 non-null    float64
 6   극점최저기온  300 non-null    float64
 7   강수량     300 non-null    object 
 8   상대습도    300 non-null    float64
 9   풍속      300 non-null    float64
 10  최대풍속    300 non-null    float64
 11  최대순간풍속  300 non-null    float64
dtypes: float64(9), int64(1), object(2)
memory usage: 28.3+ KB


In [22]:
# 기술 통계 확인
temp.describe()

Unnamed: 0,연도,기온,최고기온,극점최고기온,최저기온,극점최저기온,상대습도,풍속,최대풍속,최대순간풍속
count,300.0,300.0,300.0,300.0,300.0,300.0,300.0,300.0,300.0,300.0
mean,2012.0,13.056667,17.628333,24.289667,9.157333,3.014333,61.703,2.337667,8.146333,15.018667
std,7.223151,10.007151,10.038649,8.889428,10.122189,11.622379,8.522731,0.404508,1.539107,2.987418
min,2000.0,-7.2,-3.4,0.3,-10.5,-18.6,43.2,1.0,4.2,7.3
25%,2006.0,3.95,8.175,16.625,0.175,-7.325,55.0,2.1,7.1,12.8
50%,2012.0,14.15,19.45,26.45,9.55,3.1,60.0,2.3,8.0,14.8
75%,2018.0,22.425,27.125,31.925,18.6,14.225,68.0,2.6,8.925,16.7
max,2024.0,29.3,33.3,39.6,26.3,22.6,85.0,3.5,14.0,28.3


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## 2.3.정렬해서 보기

- 인덱스를 기준으로 정렬하는 방법과 특정 열을 기준으로 정렬하는 방법이 있습니다.
- **sort_values()** 메서드로 **특정 열**을 기준으로 정렬합니다.
- **ascending** 옵션을 설정해 오름차순, 내림차순을 설정할 수 있습니다.
    - ascending=True: 오름차순 정렬(기본값)
    - ascending=False: 내림차순 정렬

In [25]:
tip.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [26]:
# 단일 열 정렬
tip.sort_values(by='total_bill', ascending=True)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
67,3.07,1.00,Female,Yes,Sat,Dinner,1
92,5.75,1.00,Female,Yes,Fri,Dinner,2
111,7.25,1.00,Female,No,Sat,Dinner,1
172,7.25,5.15,Male,Yes,Sun,Dinner,2
149,7.51,2.00,Male,No,Thur,Lunch,2
...,...,...,...,...,...,...,...
182,45.35,3.50,Male,Yes,Sun,Dinner,3
156,48.17,5.00,Male,No,Sun,Dinner,6
59,48.27,6.73,Male,No,Sat,Dinner,4
212,48.33,9.00,Male,No,Sat,Dinner,4


In [27]:
# 복합 열 정렬
tip.sort_values(by=['total_bill', 'tip'], ascending=[True, False])

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
67,3.07,1.00,Female,Yes,Sat,Dinner,1
92,5.75,1.00,Female,Yes,Fri,Dinner,2
172,7.25,5.15,Male,Yes,Sun,Dinner,2
111,7.25,1.00,Female,No,Sat,Dinner,1
149,7.51,2.00,Male,No,Thur,Lunch,2
...,...,...,...,...,...,...,...
182,45.35,3.50,Male,Yes,Sun,Dinner,3
156,48.17,5.00,Male,No,Sun,Dinner,6
59,48.27,6.73,Male,No,Sat,Dinner,4
212,48.33,9.00,Male,No,Sat,Dinner,4


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 weather 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [29]:
# 데이터 읽어오기
weather = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv')


# 확인
weather.head()

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
0,2000,2000. 01,-2.1,1.7,9.9,-5.7,-12.1,42.8,64.0,2.6,7.6,12.3
1,2000,2000. 02,-1.7,2.6,7.5,-5.8,-11.6,2.1,56.0,2.7,10.6,19.1
2,2000,2000. 03,6.3,11.4,18.9,1.7,-4.8,3.1,55.0,3.0,12.2,19.9
3,2000,2000. 04,11.9,16.9,23.5,7.3,1.8,30.7,56.0,2.9,9.5,18.8
4,2000,2000. 05,17.5,22.7,30.5,12.9,7.9,75.2,66.0,2.3,8.3,13.6


[문2] 기온 열을 기준으로 내림차순 정렬해서 조회하세요.

In [30]:
# 내림차순 정렬
weather.sort_values(by='기온', ascending=False)

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
295,2024,2024. 08,29.3,33.3,36.4,26.3,22.6,72.8,73.0,2.1,8.2,13.9
223,2018,2018. 08,28.8,33.3,39.6,25.2,20.2,202.6,65.0,1.7,7.1,17.8
258,2021,2021. 07,28.1,32.2,36.5,24.6,19.6,168.3,71.0,2.0,7.4,16.5
199,2016,2016. 08,28.0,32.6,36.6,24.5,16.1,67.1,64.0,2.1,7.3,13.6
222,2018,2018. 07,27.8,32.1,38.3,24.2,17.7,185.6,68.0,1.5,4.2,8.4
...,...,...,...,...,...,...,...,...,...,...,...,...
216,2018,2018. 01,-4.0,0.1,8.7,-7.3,-17.8,8.5,48.0,1.9,7.2,12.2
155,2012,2012. 12,-4.1,-0.5,8.3,-7.4,-14.5,41.4,57.0,2.7,8.8,14.3
12,2001,2001. 01,-4.2,-0.8,6.8,-7.8,-18.6,39.4,62.6,2.2,6.6,13.5
120,2010,2010. 01,-4.5,-0.7,8.4,-8.1,-15.3,29.3,65.0,2.3,6.9,11.5


[문3] 최저기온 열을 기준으로 오름차순 정렬해서 조회하세요.

In [32]:
# 오름차순 정렬
weather.sort_values(by='최저기온')

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
132,2011,2011. 01,-7.2,-3.4,0.3,-10.5,-17.8,8.9,54.0,2.8,8.0,14.4
120,2010,2010. 01,-4.5,-0.7,8.4,-8.1,-15.3,29.3,65.0,2.3,6.9,11.5
12,2001,2001. 01,-4.2,-0.8,6.8,-7.8,-18.6,39.4,62.6,2.2,6.6,13.5
155,2012,2012. 12,-4.1,-0.5,8.3,-7.4,-14.5,41.4,57.0,2.7,8.8,14.3
71,2005,2005. 12,-3.9,-0.1,11.1,-7.4,-14.0,10.3,51.0,2.5,7.6,15.8
...,...,...,...,...,...,...,...,...,...,...,...,...
199,2016,2016. 08,28.0,32.6,36.6,24.5,16.1,67.1,64.0,2.1,7.3,13.6
258,2021,2021. 07,28.1,32.2,36.5,24.6,19.6,168.3,71.0,2.0,7.4,16.5
163,2013,2013. 08,27.7,31.1,33.9,24.8,21.1,148.6,69.3,2.8,9.9,15.6
223,2018,2018. 08,28.8,33.3,39.6,25.2,20.2,202.6,65.0,1.7,7.1,17.8


[문4] 최저기온 열을 기준으로 오름차순 정렬해서 상위 10개 행만 조회하세요.

In [33]:
# 오름차순 정렬
weather.sort_values(by='최저기온').head(10)

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
132,2011,2011. 01,-7.2,-3.4,0.3,-10.5,-17.8,8.9,54.0,2.8,8.0,14.4
120,2010,2010. 01,-4.5,-0.7,8.4,-8.1,-15.3,29.3,65.0,2.3,6.9,11.5
12,2001,2001. 01,-4.2,-0.8,6.8,-7.8,-18.6,39.4,62.6,2.2,6.6,13.5
155,2012,2012. 12,-4.1,-0.5,8.3,-7.4,-14.5,41.4,57.0,2.7,8.8,14.3
71,2005,2005. 12,-3.9,-0.1,11.1,-7.4,-14.0,10.3,51.0,2.5,7.6,15.8
216,2018,2018. 01,-4.0,0.1,8.7,-7.3,-17.8,8.5,48.0,1.9,7.2,12.2
252,2021,2021. 01,-2.4,2.2,13.9,-6.8,-18.6,18.9,58.0,2.5,8.7,17.5
192,2016,2016. 01,-3.2,1.1,9.5,-6.8,-18.0,1.0,53.0,2.5,9.0,15.1
179,2014,2014. 12,-2.9,1.5,7.9,-6.7,-13.2,17.9,56.0,2.8,11.1,19.3
156,2013,2013. 01,-3.4,0.3,11.5,-6.6,-16.4,22.1,57.1,2.7,8.2,13.5


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## 2.4.기본 집계

- 데이터를 좀더 이해하기 위해 고윳값, 합, 평균, 최댓값, 최솟값 등을 확인합니다.

### 2.4.1.고윳값 확인

- 범주형 열(열이 가진 값이 일정한 값인 경우, 성별, 등급 등)인지 확인할 때 사용합니다.

**1) 고윳값 확인**

- unique() 메서드로 고윳값을 확인하며, 결괏값은 배열 형태가 됩니다.

In [34]:
# day 열 고윳값 확인
tip['day'].unique()

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

**2) 고윳값과 개수 확인**

- value_counts() 메서드로 고윳값과 그 개수를 확인하며, 결괏값은 시리즈 형태가 됩니다.
- dropna 옵션을 생략하거나 dropna=True로 지정하면 NaN 값은 대상에서 제외합니다.

In [38]:
# day 열 고윳값 개수 확인
tip['day'].value_counts()

day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

In [41]:
# day 열 고윳값 비율 확인
tip['day'].value_counts() / len(tip)

day
Sat     0.356557
Sun     0.311475
Thur    0.254098
Fri     0.077869
Name: count, dtype: float64

In [42]:
tip['day'].value_counts(normalize=True)

day
Sat     0.356557
Sun     0.311475
Thur    0.254098
Fri     0.077869
Name: proportion, dtype: float64

In [43]:
# smoker 열 고윳값 개수 확인
tip['smoker'].value_counts(normalize=False)

smoker
No     151
Yes     93
Name: count, dtype: int64

In [45]:
tip['smoker'].value_counts(normalize=True).round(2)

smoker
No     0.62
Yes    0.38
Name: proportion, dtype: float64

### 2.4.2.최빈값 확인

- 최빈값은 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값입니다.
- 예를 들어, {1, 3, 6, 6, 6, 7, 7, 12, 12, 17}의 최빈값은 6입니다.
- 최빈값은 산술 평균과 달리 유일한 값이 아닐 수도 있습니다.
- mode() 메서드로 최빈값을 확인할 수 있습니다.
- 최빈값이 여렷인 경우 행으로 구분되어 표시됩니다.

In [51]:
# day 열 최빈값 확인
tip['day'].mode()

0    Sat
Name: day, dtype: object

In [52]:
# smoker 열 최빈값 확인
tip['smoker'].mode()

0    No
Name: smoker, dtype: object

In [53]:
tip.mode()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,13.42,2.0,Male,No,Sat,Dinner,2


### 2.4.3.기본 집계 메서드 사용

- 데이터를 1차 집계 한 후 분석을 진행하는 경우가 많으므로 필히 알아두어야 할 내용입니다.
- 이후에 배우는 Groupby 기능에서 같이 사용됩니다.
- 우선 간단한 데이터프레임을 만들어 전체 집계를 해봅니디.

In [54]:
# 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]
dates = ['2019-02-15', '2019-02-16', '2019-02-17', '2019-02-18', '2019-02-19']
names = ['High', 'Low', 'Open', 'Close']

# 데이터프레임 만들기
df = pd.DataFrame(stock, index=dates, columns=names)

# 확인
df.head()

Unnamed: 0,High,Low,Open,Close
2019-02-15,94500,92100,92200,92300
2019-02-16,96500,93200,95900,94300
2019-02-17,93400,91900,93400,92100
2019-02-18,94200,92100,94100,92400
2019-02-19,94500,92500,94300,92600


<img src='https://raw.githubusercontent.com/jangrae/img/master/aggrigation.png' width=500 align="left"/>

- df.sum()은 df.sum(axis=0) 과 같으며 전체 열 기준으로 합을 집계합니다
- 전체 행 기준으로 집계를 하려면 df.sum(axis=1) 형태로 axis=1을 지정합니다.

In [55]:
# 전체 열 기준 합
df.sum()

High     473100
Low      461800
Open     469900
Close    463700
dtype: int64

In [56]:
# 전체 행 기준 합
df.sum(axis=1)

2019-02-15    371100
2019-02-16    379900
2019-02-17    370800
2019-02-18    372800
2019-02-19    373900
dtype: int64

- tip 데이터프레임에 대한 집계를 수행해 봅니다.

In [57]:
# tip 데이터프레임 확인
tip.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [60]:
# 전체 열 기준 합
tip.sum(numeric_only = True)

total_bill    4827.77
tip            731.58
size           627.00
dtype: float64

In [61]:
# total_bill 열 합계 조회
tip['total_bill'].sum()

np.float64(4827.77)

In [62]:
# tip 열 최댓값 조회
tip['tip'].max()

10.0

In [63]:
# total_bill, tip 열 평균값 확인
tip[['total_bill', 'tip']].mean()

total_bill    19.785943
tip            2.998279
dtype: float64

In [64]:
# total_bill, tip 열 중앙값 확인
tip[['total_bill', 'tip']].median()

total_bill    17.795
tip            2.900
dtype: float64

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 weather 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv'

In [65]:
# 데이터 읽어오기
weather = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/weather.csv')


# 확인
weather.head()

Unnamed: 0,연도,년월,기온,최고기온,극점최고기온,최저기온,극점최저기온,강수량,상대습도,풍속,최대풍속,최대순간풍속
0,2000,2000. 01,-2.1,1.7,9.9,-5.7,-12.1,42.8,64.0,2.6,7.6,12.3
1,2000,2000. 02,-1.7,2.6,7.5,-5.8,-11.6,2.1,56.0,2.7,10.6,19.1
2,2000,2000. 03,6.3,11.4,18.9,1.7,-4.8,3.1,55.0,3.0,12.2,19.9
3,2000,2000. 04,11.9,16.9,23.5,7.3,1.8,30.7,56.0,2.9,9.5,18.8
4,2000,2000. 05,17.5,22.7,30.5,12.9,7.9,75.2,66.0,2.3,8.3,13.6


[문2] 최고기온 최댓값을 확인하세요.

In [70]:
# 최고기온 열 최댓값
weather['최고기온'].max()

33.3

[문3] 최저기온, 극점최저기온 최솟값을 확인하세요.

In [67]:
# 최저기온, 극점최저기온 열 최솟값
weather[['최저기온', '극점최저기온']].min()

최저기온     -10.5
극점최저기온   -18.6
dtype: float64

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_30.png' width=120 align="left"/>

[문1] pandas 라이브러리를 pd 별칭을 주어 불러오세요.

In [71]:
# 라이브러리 불러오기
import pandas as pd

[문2] 다음 경로의 파일을 읽어 admission 데이터프레임을 만드세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/admission.csv'
- 대소문자를 구분하니 주의하세요.

**데이터 셋 정보**

- GRE - GRE(Graduate Record Examination) 점수, 대학원 입학을 위한 표준화 시험 점수
- TOEFL - TOEFL(Test of English as a Foreign Language) 점수, 영어 능력 시험 점수
- RANK - 학부 출신 대학의 순위(1-4 등급, 1이 가장 높음)
- SOP	- Statement of Purpose 점수(0-5), 자기소개서의 평가 점수
- LOR	- Letter of Recommendation 점수(0-5), 추천서의 평가 점수
- GPA	- 학부 성적 평균(Grade Point Average, 0-10 척도)
- RESEARCH - 연구 경험 여부(1: 있음, 0: 없음)
- ADMIT - 대학원 입학 여부(1: 합격, 0: 불합격)

In [72]:
# 파일 읽어오기
admission = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/admission.csv')


[문3] 상위 10개 행을 확인하세요.

In [73]:
# 상위 10개 행 확인
admission.head(10)

Unnamed: 0,GRE,TOEFL,RANK,SOP,LOR,GPA,RESEARCH,ADMIT
0,337,118,4,4.5,4.5,9.65,1,1
1,324,107,4,4.0,4.5,8.87,1,1
2,316,104,3,3.0,3.5,8.0,1,0
3,322,110,3,3.5,2.5,8.67,1,1
4,314,103,2,2.0,3.0,8.21,0,0
5,330,115,5,4.5,3.0,9.34,1,1
6,321,109,3,3.0,4.0,8.2,1,1
7,308,101,2,3.0,4.0,7.9,0,0
8,302,102,1,2.0,1.5,8.0,0,0
9,323,108,3,3.5,3.0,8.6,0,0


[문4] 행과 열의 개수를 확인하세요.

In [75]:
# 크기 확인
admission.shape

(500, 8)

[문5] 각 열의 값 개수와 데이터 형식등을 한 번에 확인하세요.

In [76]:
# 열 정보 확인
admission.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   GRE       500 non-null    int64  
 1   TOEFL     500 non-null    int64  
 2   RANK      500 non-null    int64  
 3   SOP       500 non-null    float64
 4   LOR       500 non-null    float64
 5   GPA       500 non-null    float64
 6   RESEARCH  500 non-null    int64  
 7   ADMIT     500 non-null    int64  
dtypes: float64(3), int64(5)
memory usage: 31.4 KB


[문6] 기술통계정보를 확인하세요.

In [77]:
# 기술통계정보 확인
admission.describe()

Unnamed: 0,GRE,TOEFL,RANK,SOP,LOR,GPA,RESEARCH,ADMIT
count,500.0,500.0,500.0,500.0,500.0,500.0,500.0,500.0
mean,316.472,107.192,3.114,3.374,3.484,8.57644,0.56,0.436
std,11.295148,6.081868,1.143512,0.991004,0.92545,0.604813,0.496884,0.496384
min,290.0,92.0,1.0,1.0,1.0,6.8,0.0,0.0
25%,308.0,103.0,2.0,2.5,3.0,8.1275,0.0,0.0
50%,317.0,107.0,3.0,3.5,3.5,8.56,1.0,0.0
75%,325.0,112.0,4.0,4.0,4.0,9.04,1.0,1.0
max,340.0,120.0,5.0,5.0,5.0,9.92,1.0,1.0


[문7] 범주형 값을 갖는 RANK 열의 고윳값과 그들의 개수를 확인하세요.

In [79]:
# 고윳값 개수 확인
admission['RANK'].value_counts()

RANK
3    162
2    126
4    105
5     73
1     34
Name: count, dtype: int64

[문8] GRE, GPA 열의 평균값을 한 번에 확인하세요.

In [81]:
# GRE, GPA 열 평균값
admission[['GRE', 'GPA']].mean()

GRE    316.47200
GPA      8.57644
dtype: float64

[문9] GRE 열을 기준으로 오름차순으로 정렬해 확인하세요.

In [83]:
# GRE 열 기준 오름차순 정렬
admission.sort_values(by='GRE')

Unnamed: 0,GRE,TOEFL,RANK,SOP,LOR,GPA,RESEARCH,ADMIT
377,290,100,1,1.5,2.0,7.56,0,0
117,290,104,4,2.0,2.5,7.46,0,0
168,293,97,2,2.0,4.0,7.80,1,0
79,294,93,1,1.5,2.0,7.36,0,0
272,294,95,1,1.5,1.5,7.64,0,0
...,...,...,...,...,...,...,...,...
202,340,120,5,4.5,4.5,9.91,1,1
143,340,120,4,4.5,4.0,9.92,1,1
384,340,113,4,5.0,5.0,9.74,1,1
33,340,114,5,4.0,4.0,9.60,1,1


[문10] 다음 요구사항에 따라 구문을 순서대로 작성하고 확인하세요.

- RANK 열을 기준으로 오름차순, RANK 열 값이 같으면 GPA 열을 기준으로 내림차순으로 정렬해 tmp 테이터프레임으로 선언하세요.
- tmp 데이터프레임 인덱스 초기화 하세요.(단, 기존 인덱스 제거)
- tmp 데이터프레임을 확인하세요.

In [87]:
# RANK + GPA 열 기준 오름차순, 내림차순 정렬
tmp = admission.sort_values(by=['RANK', 'GPA'], ascending=[True, False])

# 인덱스 초기화
tmp.reset_index(drop=True, inplace=True)

# 확인
tmp

Unnamed: 0,GRE,TOEFL,RANK,SOP,LOR,GPA,RESEARCH,ADMIT
0,318,109,1,3.5,3.5,9.12,0,1
1,332,112,1,1.5,3.0,8.66,1,1
2,318,110,1,2.5,3.5,8.54,1,0
3,312,100,1,3.0,3.0,8.53,1,0
4,311,99,1,2.5,3.0,8.43,1,0
...,...,...,...,...,...,...,...,...
495,303,105,5,5.0,4.5,8.65,0,1
496,304,103,5,5.0,4.0,8.64,0,0
497,309,105,5,3.5,3.5,8.56,0,0
498,305,108,5,3.0,3.0,8.48,0,0


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_30e.png' width=45 align="left"/>