In [3]:
import pandas as pd
import numpy as np

# 1. DataFrame 열 이름 나열

In [10]:
df = pd.DataFrame({ 'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9] })

In [11]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [13]:
# DataFrame의 열 이름을 나열
list(df)

['a', 'b', 'c']

In [14]:
# 디버거를 사용할 때 유용한 나열
[c for c in df]

['a', 'b', 'c']

In [15]:
# 별로 사용안하는 나열법(바로 에러남)
sampledf.columns.tolist()

NameError: name 'sampledf' is not defined

In [16]:
# 목록 대신 색인으로 인쇄할 수도 있다.(많은 열이있는 데이터프레임에는 표시안됨)
df.columns

Index(['a', 'b', 'c'], dtype='object')

# 2. DataFrame 정보 및 메모리 사용량 가져오기

In [17]:
# 열 이름과 데이터 유형을 포함하여 DataFrame에 대한 기본정보를 얻기 위한 방법
df = pd.DataFrame({
                    'integers':[1,2,3],
                    'floats':[1.5, 2.5, 3],
                    'text':['a','b','c'],
                    'ints with None':[1, None, 3]
                  })

In [18]:
df

Unnamed: 0,integers,floats,text,ints with None
0,1,1.5,a,1.0
1,2,2.5,b,
2,3,3.0,c,3.0


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
integers          3 non-null int64
floats            3 non-null float64
text              3 non-null object
ints with None    2 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 176.0+ bytes


In [20]:
# DataFrame의 메모리 사용량 확인
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
integers          3 non-null int64
floats            3 non-null float64
text              3 non-null object
ints with None    2 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 338.0 bytes


# 3. DataFrame의 다양한 요약 통계

In [4]:
# 열과 행이 각각의 5개씩의 난수를 발생시킨다.
# 열(컬럼)을 list화 시켜 5개의 이름을 생성시킨다
df = pd.DataFrame(np.random.randn(5,5), columns=list('ABCDE'))

In [9]:
df

Unnamed: 0,A,B,C,D,E
0,0.637846,1.068257,-0.054051,0.365232,0.449193
1,0.009684,1.061306,0.366407,-1.95588,-0.718571
2,0.587325,0.13695,-0.166095,1.609755,0.6025
3,-0.409042,0.135558,-1.021941,-1.044356,-1.112046
4,-0.581019,1.405452,-0.040158,0.29639,-0.593607


In [6]:
# 다양한 요약 통계를 생성한다. 
# 숫자 값의 경우 비 NA/null 값(count): 열의 인덱스값의 총 개수
# 평균(mean): 열(하나의 컬럼당) 모든 인덱스 값의 평균값 
# 표준편차(std): 표준편차
# min : 최소(최소관측)
# 25% : 1/4분위 또는 1/4분위(Q1)
# 50% : 중앙값 (중간 값, Q2)
# 75% : 상위 4분위 또는 3분위 (Q3)
# max : 최대(최대관측)
df.describe()

Unnamed: 0,A,B,C,D,E
count,5.0,5.0,5.0,5.0,5.0
mean,0.048959,0.761505,-0.183168,-0.145772,-0.274506
std,0.557854,0.587479,0.510634,1.380439,0.757194
min,-0.581019,0.135558,-1.021941,-1.95588,-1.112046
25%,-0.409042,0.13695,-0.166095,-1.044356,-0.718571
50%,0.009684,1.061306,-0.054051,0.29639,-0.593607
75%,0.587325,1.068257,-0.040158,0.365232,0.449193
max,0.637846,1.405452,0.366407,1.609755,0.6025
