# 데이터 요약정보 

## 데이터프레임을 구성한 후
- 데이터프레임의 구조 파악
- 데이터프레임의 일부 데이터 확인
- 데이터프레임의 모양과 크기(행, 열의 개수) 확인
- 데이터프레임 내용(정보) 확인
- 데이터프레임을 구성하는 각 시리즈의 자료 확인
- 데이터프레임 내 특정 시리즈의 자료형 확인
- 데이터프레임에 대한 기술통계(descriptive statistics) 정보 확인  
  : 수집한 데이터를 요약해 설명하는 통계 기법

## 데이터프레임 구조 확인과 일부 정보 보기
- 데이터 앞부분 : head(n)
- 데이터 뒷부분 : tail(n)

In [1]:
# 데이터 준비
import pandas as pd

# read_csv() 함수로 자동차 제조국 정보 파일로 부터 데이터 프레임 df 생성
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

In [2]:
# 데이터프레임 df 내용 확인해 보기
print(df.head())     # 처음의 5개 행
print('\n')
print(df.tail())     # 마지막 5개 행

     연비  실린더 수    배기량     마력      중량    엑셀  년식  제조국                         차종
0  18.0      8  307.0  130.0  3504.0  12.0  70    1  chevrolet chevelle malibu
1  15.0      8  350.0  165.0  3693.0  11.5  70    1          buick skylark 320
2  18.0      8  318.0  150.0  3436.0  11.0  70    1         plymouth satellite
3  16.0      8  304.0  150.0  3433.0  12.0  70    1              amc rebel sst
4  17.0      8  302.0  140.0  3449.0  10.5  70    1                ford torino


       연비  실린더 수    배기량     마력      중량    엑셀  년식  제조국               차종
393  27.0      4  140.0  86.00  2790.0  15.6  82    1  ford mustang gl
394  44.0      4   97.0  52.00  2130.0  24.6  82    2        vw pickup
395  32.0      4  135.0  84.00  2295.0  11.6  82    1    dodge rampage
396  28.0      4  120.0  79.00  2625.0  18.6  82    1      ford ranger
397  31.0      4  119.0  82.00  2720.0  19.4  82    1       chevy s-10


In [3]:
# df의 모양과 크기 확인: (행의 개수, 열의 개수)를 투플로 반환 
print('행의 갯수 : ', df.shape[0], '개')
print('열의 갯수 : ', df.shape[1], '개')
print('\n')

행의 갯수 :  398 개
열의 갯수 :  9 개




In [6]:
# 데이터프레임 df의 내용 확인 
# 인덱스 번호, 컬럼(시리즈) 이름, null 아닌 데이터 수(행), 컬럼의 데이터 타입 출력
# 전체 요약정보(사용된 데이터 타입별 컬럼 수, 사용 메모리 크기)
ret = df.info()
print(df.info())
print('\n')
print(type(ret))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연비      398 non-null    float64
 1   실린더 수   398 non-null    int64  
 2   배기량     398 non-null    float64
 3   마력      398 non-null    object 
 4   중량      398 non-null    float64
 5   엑셀      398 non-null    float64
 6   년식      398 non-null    int64  
 7   제조국     398 non-null    int64  
 8   차종      398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 24.9+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연비      398 non-null    float64
 1   실린더 수   398 non-null    int64  
 2   배기량     398 non-null    float64
 3   마력      398 non-null    object 
 4   중량      398 non-null    float64
 5   엑셀      398 non-null    float64
 6   년식      398 non-null 

In [5]:
# 데이터프레임 df의 자료형 확인 
# 각 컬럼이름과 데이터 타입 출력
print(df.dtypes)
print('\n')

연비       float64
실린더 수      int64
배기량      float64
마력        object
중량       float64
엑셀       float64
년식         int64
제조국        int64
차종        object
dtype: object




In [7]:
# 시리즈(연비 열)의 자료형 확인 
print(df.연비.dtype) # print(df.연비.dtypes) 같은 결과
print('\n')

float64




In [7]:
# 데이터프레임 df의 기술통계 정보 확인 
# 각 열에 저장된 데이터에 대한 통계 정보출력
print(df.describe()) 
print('\n')

# unique(고유값), top(최상위 값), frequency(출현 빈도수)를 포함해 전체를 출력
print(df.describe(include='all')) 

               연비       실린더 수         배기량           중량          엑셀  \
count  398.000000  398.000000  398.000000   398.000000  398.000000   
mean    23.514573    5.454774  193.425879  2970.424623   15.568090   
std      7.815984    1.701004  104.269838   846.841774    2.757689   
min      9.000000    3.000000   68.000000  1613.000000    8.000000   
25%     17.500000    4.000000  104.250000  2223.750000   13.825000   
50%     23.000000    4.000000  148.500000  2803.500000   15.500000   
75%     29.000000    8.000000  262.000000  3608.000000   17.175000   
max     46.600000    8.000000  455.000000  5140.000000   24.800000   

               년식         제조국  
count  398.000000  398.000000  
mean    76.010050    1.572864  
std      3.697627    0.802055  
min     70.000000    1.000000  
25%     73.000000    1.000000  
50%     76.000000    1.000000  
75%     79.000000    2.000000  
max     82.000000    3.000000  


                연비       실린더 수         배기량     마력           중량          엑셀  \
c

In [8]:
# df의 각 열의 원소 개수 확인 
print(df.count())
print('\n')

연비       398
실린더 수    398
배기량      398
마력       398
중량       398
엑셀       398
년식       398
제조국      398
차종       398
dtype: int64




In [9]:
# df.count()의 결과 객체 타입 출력
print(type(df.count()))
print('\n')

<class 'pandas.core.series.Series'>




In [10]:
# df의 특정 열의 고유값 확인
# 고유값과 출현 빈도수를 출력
unique_values = df['제조국'].value_counts() 
print(unique_values)
print('\n')

1    249
3     79
2     70
Name: 제조국, dtype: int64




In [11]:
# value_counts 메소드가 반환한 객체의 타입 출력
print(type(unique_values))

<class 'pandas.core.series.Series'>


# 데이터프레임 통계정보

## 데이터의 집중 경향 알아보기
+ 평균값(mean)
    - 모든 데이터를 합한 후 데이터 갯수로 나눈 값
+ 중앙값(median)
    - 전체 데이터를 정렬한 후 순서상 가운데에 있는 수  
    - 짝수개의 데이터인 경우 가운데 위치한 두 수의 평균을 중앙값으로 함
    - 자료의 편차가 큰 값을 일부 포함하고 있는 경우 사용
+ 최빈값(mode)
    - 데이터 집합에서 출현 빈도가 가장 높은 값
    - 최빈값의 갯수는 0개 이상

## 데이터의 퍼진 정도
+ 평균편차(mean deviation)
    - 절대 편차(absolute deviation) 또는 평균 절대편차(mean absolute deviation 또는 average absolute deviation)라고도 함
    - 평균과 개별 값 사이 거리의 평균
    - 이상치로 인한 문제점 보완 가능
    - 모집단 평균편차, 표본 평균편차
+ 표준편차(standard deviation)
    - 자료의 산포도를 표현하는 수치
    - 분산의 양의 제곱근으로 정의
    - 평균값에서 변량들의 거리가 가까울수록 표준편차가 작아짐
    ![image](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/325px-Standard_deviation_diagram.svg.png)
+ 분산(variance)
    - 차이값의 제곱의 평균
    - 모분산(population variance) σ2은 모집단의 분산 : 관측된 값에서 모 평균을 빼서 제곱한 값을 모두 합해 전체 데이터 갯수 n으로 나눈 값
    - 표본분산(sample variance) s2은 표본의 분산 : 관측된 값에서 표본 평균을 빼서 제곱한 값을 모두 합해 n-1로 나눈 값
    ![image](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/Comparison_standard_deviations.svg/400px-Comparison_standard_deviations.svg.png)
+ 상관계수(correlation coefficient)
    - 두 변수간의 통계적인 관계 표현을 위해 특정한 상관 관계 정도를 수치값으로 나타낸 계수
    - -1 ~ +1 사이의 값  
    
    ![image](https://upload.wikimedia.org/wikipedia/ko/thumb/8/8a/Scatter_plot.png/240px-Scatter_plot.png)


In [12]:
# 일단 전체 데이터 확인!!
# 전체 열 출력 설정을 하려면 pandas의 set_option() 메서드 인자로 'display.max_columns'와 None를 지정
print(df)
# 전체 행 출력 설정을 하려면 pandas의 set_option() 메서드 인자로 'display.max_rows'와 None를 지정
print(df)

       연비  실린더 수    배기량     마력      중량    엑셀  년식  제조국  \
0    18.0      8  307.0  130.0  3504.0  12.0  70    1   
1    15.0      8  350.0  165.0  3693.0  11.5  70    1   
2    18.0      8  318.0  150.0  3436.0  11.0  70    1   
3    16.0      8  304.0  150.0  3433.0  12.0  70    1   
4    17.0      8  302.0  140.0  3449.0  10.5  70    1   
..    ...    ...    ...    ...     ...   ...  ..  ...   
393  27.0      4  140.0  86.00  2790.0  15.6  82    1   
394  44.0      4   97.0  52.00  2130.0  24.6  82    2   
395  32.0      4  135.0  84.00  2295.0  11.6  82    1   
396  28.0      4  120.0  79.00  2625.0  18.6  82    1   
397  31.0      4  119.0  82.00  2720.0  19.4  82    1   

                            차종  
0    chevrolet chevelle malibu  
1            buick skylark 320  
2           plymouth satellite  
3                amc rebel sst  
4                  ford torino  
..                         ...  
393            ford mustang gl  
394                  vw pickup  
395              d

In [13]:
# 평균값 
# 전체 데이터프레임의 각 컬럼 평균
print(df.mean())
print('\n')

# 특정 컬럼에 들어있는 데이터들의 평균
print(df['연비'].mean())
print(df.연비.mean())
print('\n')

# 선택적 컬럼의 평균
print(df[['연비','중량']].mean())


연비         23.514573
실린더 수       5.454774
배기량       193.425879
중량       2970.424623
엑셀         15.568090
년식         76.010050
제조국         1.572864
dtype: float64


23.514572864321607
23.514572864321607


연비      23.514573
중량    2970.424623
dtype: float64


In [14]:
# 중앙값 또는 중간값
print(df.median())
print('\n')
print(df['연비'].median())

연비         23.0
실린더 수       4.0
배기량       148.5
중량       2803.5
엑셀         15.5
년식         76.0
제조국         1.0
dtype: float64


23.0


In [15]:
# 최빈값
print(df.mode())

# 전체에 대해 최빈값 구할 때 NaN은 왜 나타날까? --> mode()의 결과를 DataFrame으로 반환하기 때문
print(type(df.mode()))
print('\n')

print(df['연비'].mode())

     연비  실린더 수   배기량     마력      중량    엑셀    년식  제조국          차종
0  13.0    4.0  97.0  150.0  1985.0  14.5  73.0  1.0  ford pinto
1   NaN    NaN   NaN    NaN  2130.0   NaN   NaN  NaN         NaN
<class 'pandas.core.frame.DataFrame'>


0    13.0
dtype: float64


In [16]:
# 최대값 
print(df.max())
print('\n')
print(df['연비'].max())

연비                   46.6
실린더 수                   8
배기량                 455.0
마력                      ?
중량                 5140.0
엑셀                   24.8
년식                     82
제조국                     3
차종       vw rabbit custom
dtype: object


46.6


In [17]:
# 최소값 
print(df.min())
print('\n')
print(df['연비'].min())

연비                           9.0
실린더 수                          3
배기량                         68.0
마력                         100.0
중량                        1613.0
엑셀                           8.0
년식                            70
제조국                            1
차종       amc ambassador brougham
dtype: object


9.0


In [18]:
# 평균편차
print(df.mad())
print('\n')
print(df['연비'].mad())

연비         6.533396
실린더 수      1.547524
배기량       91.352636
중량       717.921555
엑셀         2.142570
년식         3.176738
제조국        0.716800
dtype: float64


6.533395621322693


In [19]:
# 표준편차 
print(df.std())
print('\n')
print(df['연비'].std())

연비         7.815984
실린더 수      1.701004
배기량      104.269838
중량       846.841774
엑셀         2.757689
년식         3.697627
제조국        0.802055
dtype: float64


7.815984312565782


In [20]:
# 분산
print(df.var())
print('\n')
print(df['연비'].var())

연비           61.089611
실린더 수         2.893415
배기량       10872.199152
중량       717140.990526
엑셀            7.604848
년식           13.672443
제조국           0.643292
dtype: float64


61.089610774274405


In [21]:
# 상관계수 
print(df.corr())
print('\n')
print(df[['연비','중량']].corr())

             연비     실린더 수       배기량        중량        엑셀        년식       제조국
연비     1.000000 -0.775396 -0.804203 -0.831741  0.420289  0.579267  0.563450
실린더 수 -0.775396  1.000000  0.950721  0.896017 -0.505419 -0.348746 -0.562543
배기량   -0.804203  0.950721  1.000000  0.932824 -0.543684 -0.370164 -0.609409
중량    -0.831741  0.896017  0.932824  1.000000 -0.417457 -0.306564 -0.581024
엑셀     0.420289 -0.505419 -0.543684 -0.417457  1.000000  0.288137  0.205873
년식     0.579267 -0.348746 -0.370164 -0.306564  0.288137  1.000000  0.180662
제조국    0.563450 -0.562543 -0.609409 -0.581024  0.205873  0.180662  1.000000


          연비        중량
연비  1.000000 -0.831741
중량 -0.831741  1.000000
