In [1]:
import pandas as pd
pd.options.display.max_rows=8
import seaborn as sns

In [5]:
# SAMPLE DATA
df = sns.load_dataset('iris')

## 기본 정보 (데이터 타입, 개수, 메모리, ... )

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float16
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float16(1), float64(3), object(1)
memory usage: 5.1+ KB


In [4]:
df.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

In [16]:
# 실제 메모리 사용량(예측) 검사 ( 데이터가 클수록 시간이 오래 걸림 )
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float16
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float16(1), float64(3), object(1)
memory usage: 13.5 KB


참고 : 'deep'을 실행할 경우, 보통 약 3(?)배 전후로 보여진다. 이는 실제 데이터를 처리할 경우, pandas가 상당히 많은 메모리를 요구하기 때문에 주의가 필요

(데이터 처리 중 메모리 초과로 실패하는 경우가 생길 수 있음 )

*개인적인 생각 :CSV 데이터 용량 또는 .info() 기준, 메모리가 최소 3배는 여유가 있어야 한다.*

## 기본 summary 정보

In [11]:
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.056641,3.758,1.199333
std,0.828066,0.435791,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.800781,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.300781,5.1,1.8
max,7.9,4.398438,6.9,2.5


In [3]:
df.describe().T # pivot

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
sepal_length,150.0,5.843333,0.828066,4.3,5.1,5.8,6.4,7.9
sepal_width,150.0,3.057333,0.435866,2.0,2.8,3.0,3.3,4.4
petal_length,150.0,3.758,1.765298,1.0,1.6,4.35,5.1,6.9
petal_width,150.0,1.199333,0.762238,0.1,0.3,1.3,1.8,2.5


object 정보만 추가 확인

In [8]:
df.describe(include='object')

Unnamed: 0,species
count,150
unique,3
top,setosa
freq,50


특정 컬럼에 대해 value count하기

In [15]:
df['species'].value_counts()

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

In [16]:
df['sepal_width'].value_counts()

3.0    26
2.8    14
3.2    13
3.4    12
       ..
4.1     1
4.4     1
2.0     1
4.0     1
Name: sepal_width, Length: 23, dtype: int64

## 컬럼 확인

In [3]:
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')