## 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas 라이브러리를 불러옵니다.
# 데이터 시각화를 위한 seaborn 을 불러옵니다.
import pandas as pd
import seaborn as sns

In [None]:
print(pd.__version__)
print(sns.__version__)

1.1.5
0.11.1


In [None]:
# 0.11.0 버전에서 변화가 많으니 이 버전 이상을 사용해 주세요. 
# !pip install seaborn --upgrade

## 데이터셋 불러오기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

* seaborn 데이터셋 위치 : https://github.com/mwaskom/seaborn-data

In [None]:
# 자동차 연비 데이터세트 불러오기 (data frame)
df=sns.load_dataset("mpg")

# df = pd.read_csv("https://github.com/mwaskom/seaborn-data/blob/master/mpg.csv")
df.shape

(398, 9)

In [None]:
# index 값만 보기
df.index


RangeIndex(start=0, stop=398, step=1)

In [None]:
# columns 값만 보기
df.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'model_year', 'origin', 'name'],
      dtype='object')

In [None]:
# values 값만 보기
df.values


array([[18.0, 8, 307.0, ..., 70, 'usa', 'chevrolet chevelle malibu'],
       [15.0, 8, 350.0, ..., 70, 'usa', 'buick skylark 320'],
       [18.0, 8, 318.0, ..., 70, 'usa', 'plymouth satellite'],
       ...,
       [32.0, 4, 135.0, ..., 82, 'usa', 'dodge rampage'],
       [28.0, 4, 120.0, ..., 82, 'usa', 'ford ranger'],
       [31.0, 4, 119.0, ..., 82, 'usa', 'chevy s-10']], dtype=object)

In [None]:
# 데이터 타입만 보기
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight            int64
acceleration    float64
model_year        int64
origin           object
name             object
dtype: object

## 데이터셋 일부만 가져오기

In [None]:
# head 을 통해 일부만 가져오기(default:5, 원하는 개수로 변경가능)
df.head()


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [None]:
# tail 을 통해 일부만 가져오기(default:5, 원하는 개수로 변경가능)
df.tail()


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger
397,31.0,4,119.0,82.0,2720,19.4,82,usa,chevy s-10


In [None]:
# sample을 통해 일부만 가져오기(랜덤하게 데이터 가져오기, default 1개,random_state를 통해 값을 고정할 수도 있음)
df.sample()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
328,30.0,4,146.0,67.0,3250,21.8,80,europe,mercedes-benz 240d


## 요약하기

In [None]:
# info 를 통해 요약정보 보기(Non-Null Count: 데이터 개수)
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


## 결측치 확인

In [None]:
True + False + True

2

In [None]:
# 결측치(데이터에 값이 없는 것) 수 확인
df.isnull().sum()


mpg             0
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
model_year      0
origin          0
name            0
dtype: int64

In [None]:
# 결측치 비율 확인
df.isnull().mean() * 100

mpg             0.000000
cylinders       0.000000
displacement    0.000000
horsepower      1.507538
weight          0.000000
acceleration    0.000000
model_year      0.000000
origin          0.000000
name            0.000000
dtype: float64

## 기술통계

In [None]:
# describe 로 기술통계 확인하기
df.describe()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


In [None]:
# string data에 대한 기술통계 확인(unique:중복을 제거한 유일값, top:최빈값, freq:최빈값의 빈도수)
df.describe(include="object")

Unnamed: 0,origin,name
count,398,398
unique,3,305
top,usa,ford pinto
freq,249,6


## Series
1차원 벡터 형태로 행이나 열 하나만 추출한 것

In [None]:
df["mpg"]

0      18.0
1      15.0
2      18.0
3      16.0
4      17.0
       ... 
393    27.0
394    44.0
395    32.0
396    28.0
397    31.0
Name: mpg, Length: 398, dtype: float64

In [None]:
type(df["mpg"])

pandas.core.series.Series

## DataFrame
2차원 행렬 형태

In [None]:
type(df)

pandas.core.frame.DataFrame

## 색인하기

* 열(column) 인덱싱
* [컬럼] : series로 가져오기
* [[컬럼1, 컬럼2, 컬럼3]] : dataframe으로 가져오기

In [None]:
df["name"]

0      chevrolet chevelle malibu
1              buick skylark 320
2             plymouth satellite
3                  amc rebel sst
4                    ford torino
                 ...            
393              ford mustang gl
394                    vw pickup
395                dodge rampage
396                  ford ranger
397                   chevy s-10
Name: name, Length: 398, dtype: object

In [None]:
df[["origin","name"]]

Unnamed: 0,origin,name
0,usa,chevrolet chevelle malibu
1,usa,buick skylark 320
2,usa,plymouth satellite
3,usa,amc rebel sst
4,usa,ford torino
...,...,...
393,usa,ford mustang gl
394,europe,vw pickup
395,usa,dodge rampage
396,usa,ford ranger


## loc (locate)
* 행(index) 인덱싱
* .loc[행]
* .loc[행, 열]
* .loc[조건식, 열]


In [None]:
# loc 로 하나의 행을 가져옵니다.
df.loc[0]

mpg                                    18
cylinders                               8
displacement                          307
horsepower                            130
weight                               3504
acceleration                           12
model_year                             70
origin                                usa
name            chevrolet chevelle malibu
Name: 0, dtype: object

In [None]:
# loc로 2개의 행을 가져와 봅니다.
df.loc[[0,1]]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320


In [None]:
# loc로 여러개의 행, 열을 가져와 봅니다.
df.loc[[0,1],"name"]

0    chevrolet chevelle malibu
1            buick skylark 320
Name: name, dtype: object

In [None]:
# loc로 행, 열을 가져와 봅니다.
df.loc[0,["name","origin"]]

name      chevrolet chevelle malibu
origin                          usa
Name: 0, dtype: object