# 2.데이터프레임 탐색

- 데이터프레임 탐색은 **데이터프레임**의 **키**와 **몸무게**를 재는 것이라 할 수 있습니다.
- 파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있어야 합니다.
- 확인된 내용을 통해 데이터 전처리 필요 여부를 결정합니다.
- 데이터를 알아야 데이터를 분석할 수 있습니다.

In [1]:
# 라이브러리 불러오기
import pandas as pd

In [2]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/tips.csv'
tip = pd.read_csv(path)
tip.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


**[tips 데이터 셋 정보]**

- total_bill: 금액
- tip: 팁
- sex: 성별(Male, Female)
- smoker: 흡연 여부(Yes. No)
- day: 요일([Thur, Fri, Sat, Sun)
- time: 시간(Dinner, Lunch)
- size: 고객 수

**[참고] 우선 익숙해져야 할 것들**

- head(): 상위 데이터 확인
- tail(): 하위 데이터 확인
- shape: 데이터프레임 크기
- index: 인덱스 정보 확인
- values: 값 정보 확인
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기초통계정보 확인

# 괄호가 없는 것은 속성, 있 는 것은 method

<img src='https://raw.githubusercontent.com/jangrae/img/master/eda.png' width=700 align="left"/>

## 2.1.앞, 뒤 일부 데이터, 크기 확인

- **head(*n*), tail(*n*)** 메소드를 사용해 앞 뒤 데이터를 확인합니다.
- 개수를 지정하지 않으면 기본적으로 5개 행이 조회됩니다.

**1) 상위 데이터 확인**

In [3]:
# 상위 10개 행 데이터
tip.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


**2) 하위 데이터 확인**

In [6]:
# 하위 3개 행 데이터
tip.tail(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


**3) 크기 확인**

- **(rows, cols)** 값을 갖는 **튜플** 형태로 확인이 가능합니다.
- 데이터를 분석할 때 처리할 **데이터 양을 확인**하는 목적으로 많이 사용 합니다.

In [8]:
# 행 수와 열 수 확인
tip.shape # 행..렬


244

## 2.2.열, 행 정보 보기

**1) 인덱스 확인**

In [9]:
# 인덱스 확인
tip.index

RangeIndex(start=0, stop=244, step=1)

**2) 값 확인**

- values 속성 조회 결과는 Array 입니다.

In [10]:
# 값 확인
tip.values

array([[16.99, 1.01, 'Female', ..., 'Sun', 'Dinner', 2],
       [10.34, 1.66, 'Male', ..., 'Sun', 'Dinner', 3],
       [21.01, 3.5, 'Male', ..., 'Sun', 'Dinner', 3],
       ...,
       [22.67, 2.0, 'Male', ..., 'Sat', 'Dinner', 2],
       [17.82, 1.75, 'Male', ..., 'Sat', 'Dinner', 2],
       [18.78, 3.0, 'Female', ..., 'Thur', 'Dinner', 2]], dtype=object)

**3) 열 확인**

In [11]:
# 열 확인
tip.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

**4) 자료형 확인**
- int64: 정수형 데이터(int)
- float64: 실수형 데이터(float)
- object: 문자열 데이터(string)

In [12]:
# 열 자료형 확인
tip.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [16]:
type(tip.columns)

pandas.core.indexes.base.Index

In [13]:
# 열 자료형, 값 개수 확인

**5) 기술 통계 확인**

- 기술 통계(Descriptive Statistics)는 데이터터의 정리, 요약, 해석, 표현 등을 통해 데이터가 갖는 특성을 나타내는 정보입니다.
- describe() 메소드는 데이터에 대한 많은 정보를 제공하는 매우 중요한 메소드입니다.
- 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 사분위값(25%, 50%, 75%), 최댓값(max)을 표시합니다.

In [17]:
# 기술 통계
tip.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


- 일부 열에 대해서만 기술 통계를 확인할 수 있습니다.

In [23]:
# 기술 통계
tip.describe()
# 혹은
tip.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


**[참고] 사분위에 대한 이해**

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile2.png' width=700 align="left"/>

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] 25%, 50%, 75% 값을 확인하세요.

<img src='https://raw.githubusercontent.com/jangrae/img/master/quartile_a.png' width=700 align="left"/>

[문2] 다음 경로의 파일을 읽어와 temp 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather_simple.csv'

In [25]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/weather_simple.csv'
df = pd.read_csv(path)

[문3] temp 데이터프레임 관련 정보를 확인하세요.

In [27]:
# 상위 데이터 확인
df.head()

Unnamed: 0,month,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
0,2005-01,-2.5,1.5,7.3,-6.2,-11.0
1,2005-02,-1.9,2.2,10.5,-5.5,-13.1
2,2005-03,4.1,8.8,17.6,0.2,-6.5
3,2005-04,13.2,18.1,29.8,8.9,4.1
4,2005-05,17.7,22.9,30.2,13.0,6.3


In [37]:
# 크기(형태) 확인
df.shape

(204, 6)

In [38]:
# 인덱스 확인
df.index

RangeIndex(start=0, stop=204, step=1)

In [39]:
# 열 확인
print(df.columns)

Index(['month', 'temp', 'max_temp', 'ext_max_temp', 'min_temp',
       'ext_min_temp'],
      dtype='object')


In [40]:
# 열 자료형, 값 개수 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   month         204 non-null    object 
 1   temp          204 non-null    float64
 2   max_temp      204 non-null    float64
 3   ext_max_temp  204 non-null    float64
 4   min_temp      204 non-null    float64
 5   ext_min_temp  204 non-null    float64
dtypes: float64(5), object(1)
memory usage: 9.7+ KB


In [41]:
# 기술 통계 확인
df.describe()

Unnamed: 0,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
count,204.0,204.0,204.0,204.0,204.0
mean,12.929902,17.535784,24.178922,9.030882,2.770098
std,10.087672,10.121802,8.995264,10.205764,11.668831
min,-7.2,-3.4,0.3,-10.5,-18.6
25%,3.9,8.25,16.2,0.05,-7.425
50%,14.15,19.5,26.5,9.45,2.85
75%,22.4,26.925,31.825,18.6,14.1
max,28.8,33.3,39.6,25.2,21.9


## 2.3.정렬해서 보기

- 인덱스를 기준으로 정렬하는 방법과 특정 열을 기준으로 정렬하는 방법이 있습니다.
- **sort_values()** 메소드로 **특정 열**을 기준으로 정렬합니다.
- **ascending** 옵션을 설정해 오름차순, 내림차순을 설정할 수 있습니다.
    - ascending=True: 오름차순 정렬(기본값)
    - ascending=False: 내림차순 정렬

In [42]:
# 단일 열 정렬
tip.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [46]:
# 복합 열('total_bill', 'tip') 정렬  = 리스트로 활용해서 변수 추가!

tip.sort_values( by = ['total_bill',"tip"], ascending=[False, True]) #by는 생략가능


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
170,50.81,10.00,Male,Yes,Sat,Dinner,3
212,48.33,9.00,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
156,48.17,5.00,Male,No,Sun,Dinner,6
182,45.35,3.50,Male,Yes,Sun,Dinner,3
...,...,...,...,...,...,...,...
149,7.51,2.00,Male,No,Thur,Lunch,2
111,7.25,1.00,Female,No,Sat,Dinner,1
172,7.25,5.15,Male,Yes,Sun,Dinner,2
92,5.75,1.00,Female,Yes,Fri,Dinner,2


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 temp 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather_simple.csv'

In [47]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/weather_simple.csv'
temp = pd.read_csv(path)

# 확인
temp.head()

Unnamed: 0,month,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
0,2005-01,-2.5,1.5,7.3,-6.2,-11.0
1,2005-02,-1.9,2.2,10.5,-5.5,-13.1
2,2005-03,4.1,8.8,17.6,0.2,-6.5
3,2005-04,13.2,18.1,29.8,8.9,4.1
4,2005-05,17.7,22.9,30.2,13.0,6.3


[문2] temp 열을 기준으로 내림차순 정렬해서 조회하세요.

In [49]:
# 내림차순 정렬
temp.sort_values(by = 'temp', ascending=False)

Unnamed: 0,month,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
163,2018-08,28.8,33.3,39.6,25.2,20.2
198,2021-07,28.1,32.2,36.5,24.6,19.6
139,2016-08,28.0,32.6,36.6,24.5,16.1
162,2018-07,27.8,32.1,38.3,24.2,17.7
103,2013-08,27.7,31.1,33.9,24.8,21.1
...,...,...,...,...,...,...
11,2005-12,-3.9,-0.1,11.1,-7.4,-14.0
156,2018-01,-4.0,0.1,8.7,-7.3,-17.8
95,2012-12,-4.1,-0.5,8.3,-7.4,-14.5
60,2010-01,-4.5,-0.7,8.4,-8.1,-15.3


[문3] min_temp 열을 기준으로 오름차순 정렬해서 조회하세요.

In [50]:
# 오름차순 정렬
temp.sort_values(by = 'min_temp')

Unnamed: 0,month,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
72,2011-01,-7.2,-3.4,0.3,-10.5,-17.8
60,2010-01,-4.5,-0.7,8.4,-8.1,-15.3
11,2005-12,-3.9,-0.1,11.1,-7.4,-14.0
95,2012-12,-4.1,-0.5,8.3,-7.4,-14.5
156,2018-01,-4.0,0.1,8.7,-7.3,-17.8
...,...,...,...,...,...,...
187,2020-08,26.5,29.3,34.5,24.4,21.5
139,2016-08,28.0,32.6,36.6,24.5,16.1
198,2021-07,28.1,32.2,36.5,24.6,19.6
103,2013-08,27.7,31.1,33.9,24.8,21.1


[문4] min_temp 열을 기준으로 오름차순 정렬해서 상위 10개 행만 조회하세요.

In [54]:
# 내림차순 정렬
top10 = temp.sort_values(by = 'min_temp', ascending=True).head(10)
top10 #그리고 인덱스를 초기화 하던지 아니면 month로 인덱스 쓰던지!

Unnamed: 0,month,temp,max_temp,ext_max_temp,min_temp,ext_min_temp
72,2011-01,-7.2,-3.4,0.3,-10.5,-17.8
60,2010-01,-4.5,-0.7,8.4,-8.1,-15.3
11,2005-12,-3.9,-0.1,11.1,-7.4,-14.0
95,2012-12,-4.1,-0.5,8.3,-7.4,-14.5
156,2018-01,-4.0,0.1,8.7,-7.3,-17.8
192,2021-01,-2.4,2.2,13.9,-6.8,-18.6
132,2016-01,-3.2,1.1,9.5,-6.8,-18.0
119,2014-12,-2.9,1.5,7.9,-6.7,-13.2
96,2013-01,-3.4,0.3,11.5,-6.6,-16.4
84,2012-01,-2.8,1.3,8.4,-6.3,-12.2


## 2.4.기본 집계

- 데이터를 좀더 이해하기 위해 고유값, 합, 평균, 최댓값, 최솟값 등을 확인합니다.

### 2.4.1.고유값 확인

- 범주형 열(열이 가진 값이 일정한 값인 경우, 성별, 등급 등)인지 확인할 때 사용합니다.

**1) 고유값 확인**

- unique() 메소드로 고유값을 확인하며, 결괏값은 배열 형태가 됩니다.

In [65]:
# day 열 고유값 확인
tip['day'].unique()

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

In [68]:
### 중요 !!!
tip[['day']] # 데이터 프레임에서 컬럼 하나를 뚝 띠면은 시리즈가 된다. + 인덱스랑 같이..
           # 이렇게 나온거는 컬럼이라고 할 수 없고, 그냥 '값'이다.
            # 하지만 ..[[ ]] 형태는 데이터프레임!!

Unnamed: 0,day
0,Sun
1,Sun
2,Sun
3,Sun
4,Sun
...,...
239,Sat
240,Sat
241,Sat
242,Sat



**2) 고유값과 개수 확인**

- value_counts() 메소드로 고유값과 그 개수를 확인하며, 결괏값은 시리즈 형태가 됩니다.
- dropna 옵션을 생략하거나 dropna=True로 지정하면 NaN 값은 대상에서 제외합니다.

In [69]:
# day 열 고유값 개수 확인
tip['day'].value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

In [71]:
# smoker 열 고유값 개수 확인
tip['smoker'].value_counts()

No     151
Yes     93
Name: smoker, dtype: int64

### 2.4.2.최빈값 확인

- 최빈값은 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값입니다.
- 예를 들어, {1, 3, 6, 6, 6, 7, 7, 12, 12, 17}의 최빈값은 6입니다.
- 최빈값은 산술 평균과 달리 유일한 값이 아닐 수도 있습니다.
- mode() 메소드로 최빈값을 확인할 수 있습니다. 
- 최빈값이 여렷인 경우 행으로 구분되어 표시됩니다.

In [72]:
# day 열 최빈값 확인
tip['day'].mode()

0    Sat
Name: day, dtype: object

In [73]:
# smoker 열 최빈값 확인
tip['smoker'].mode()

0    No
Name: smoker, dtype: object

### 2.4.3.기본 통계 메소드 사용

- 데이터를 1차 집계 한 후 분석을 진행하는 경우가 많으므로 필히 알아두어야 할 내용입니다.
- 이후에 배우는 Groupby 기능에서 같이 사용됩니다.
- 우선 간단한 데이터프레임을 만들어 전체 집계를 해봅니디.

In [74]:
# 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]
dates = ['2019-02-15', '2019-02-16', '2019-02-17', '2019-02-18', '2019-02-19']
names = ['High', 'Low', 'Open', 'Close']

# 데이터프레임 만들기
df = pd.DataFrame(stock, index=dates, columns=names)

# 확인
df.head()

Unnamed: 0,High,Low,Open,Close
2019-02-15,94500,92100,92200,92300
2019-02-16,96500,93200,95900,94300
2019-02-17,93400,91900,93400,92100
2019-02-18,94200,92100,94100,92400
2019-02-19,94500,92500,94300,92600


<img src='https://raw.githubusercontent.com/jangrae/img/master/aggrigation.png' width=500 align="left"/>

- df.sum()은 df.sum(axis=0) 과 같으며 전체 열 기준으로 합을 집계합니다
- 전체 행 기준으로 집계를 하려면 df.sum(axis=1) 형태로 axis=1을 지정합니다.

In [75]:
# 전체 열 기준 합
df.sum(axis = 0)

High     473100
Low      461800
Open     469900
Close    463700
dtype: int64

In [76]:
# 전체 행 기준 합
df.sum(axis = 1)

2019-02-15    371100
2019-02-16    379900
2019-02-17    370800
2019-02-18    372800
2019-02-19    373900
dtype: int64

- tip 데이터프레임에 대한 집계를 수행해 봅니다.

In [None]:
# tip 데이터프레임 확인


In [None]:
# 전체 열 기준 합


In [None]:
# total_bill 열 합계 조회


In [None]:
# tip 열 최댓값 조회


In [None]:
# total_bill, tip 열 평균값 확인


In [None]:
# total_bill, tip 열 중앙값 확인


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] 다음 경로의 파일을 읽어와 temp 데이터프레임을 선언하세요.

- 파일 경로: 'https://raw.githubusercontent.com/Jangrae/csv/master/weather_simple.csv'

In [None]:
# 데이터 읽어오기



# 확인


[문2] max_temp 최댓값을 확인하세요.

In [None]:
# max_temp 열 최댓값


[문3] min_temp, ext_min_temp 최솟값을 확인하세요.

In [None]:
# min_temp, ext_min_temp 열 최솟값
