# DataFrame의 개념
- 일종의 표
- 여러 개의 시리즈가 모여 데이터 프레임이 만들어진다.
- 시리즈별로 데이터가 상이해도 된다.

In [2]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [11]:
raw_data = {
    '이름' : ['홍길동','전우치','손오공','사오정','저팔계'],
    '나이' : [32,34,29,28,25],
    '전화번호' : ['010-1234-1234','010-5555-5555','010-9280-9989','010-4444-3234','010-5555-6666'],
    '지역' : ['서울','광주','대전','부산','제주']
}
df = DataFrame(raw_data, columns=['이름','나이','전화번호','지역'])
df

Unnamed: 0,이름,나이,전화번호,지역
0,홍길동,32,010-1234-1234,서울
1,전우치,34,010-5555-5555,광주
2,손오공,29,010-9280-9989,대전
3,사오정,28,010-4444-3234,부산
4,저팔계,25,010-5555-6666,제주


In [13]:
# 기존에 없는 데이터를 추가
df1 = pd.DataFrame(raw_data,columns=['이름','나이','전화번호','성별'])
df1

Unnamed: 0,이름,나이,전화번호,성별
0,홍길동,32,010-1234-1234,
1,전우치,34,010-5555-5555,
2,손오공,29,010-9280-9989,
3,사오정,28,010-4444-3234,
4,저팔계,25,010-5555-6666,


In [15]:
#df1 에서 이름만 추출. 이 때 Series로 추출된다.
df1['이름']

0    홍길동
1    전우치
2    손오공
3    사오정
4    저팔계
Name: 이름, dtype: object

In [None]:
# 데이터프레임에서 특정 행(row)을 추출 ==> loc,iloc

In [21]:
df1.loc[2] # loc : location을 의미합니다.(간혹 설명을 잘 안해주는 책들이 있으니 기억해주세요!)

이름                손오공
나이                 29
전화번호    010-9280-9989
성별                NaN
Name: 2, dtype: object

In [25]:
df1['이름'].iloc[1:]#iloc : index location을 의미함.

1    전우치
2    손오공
3    사오정
4    저팔계
Name: 이름, dtype: object

In [28]:
temp = pd.Series(np.nan, index=[34,35,36,37,1,2,3,4,5])#인덱스 명만 설정했음. 값은 하나도 안넣었음
temp

34   NaN
35   NaN
36   NaN
37   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
dtype: float64

In [29]:
temp.loc[:3] #index의 이름이 3이 나올때까지 출력하게 된다.

34   NaN
35   NaN
36   NaN
37   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [30]:
temp.iloc[:3] #3개의 index만 출력하고프면 왼쪽처럼 해야 한다.

34   NaN
35   NaN
36   NaN
dtype: float64

In [31]:
# 불리언 인덱싱의 사용
df1['나이']>30

0     True
1     True
2    False
3    False
4    False
Name: 나이, dtype: bool

In [32]:
df1

Unnamed: 0,이름,나이,전화번호,성별
0,홍길동,32,010-1234-1234,
1,전우치,34,010-5555-5555,
2,손오공,29,010-9280-9989,
3,사오정,28,010-4444-3234,
4,저팔계,25,010-5555-6666,


# Boolean Indexing

In [49]:
# 불리언 인덱싱의 사용2 
# 불리언 인덱싱을 활용하여 새로운 컬럼을 추가생성하였다.
df1['특징'] = df1['나이']>30
df1

Unnamed: 0,이름,나이,전화번호,성별,특징
0,홍길동,32,010-1234-1234,남,True
1,전우치,34,010-5555-5555,여,True
2,손오공,29,010-9280-9989,남,False
3,사오정,28,010-4444-3234,,False
4,저팔계,25,010-5555-6666,,False


In [46]:
s = Series(data=['남','여','남'] ,index=[0,1,2])

In [47]:
df1['성별']=s
df1

Unnamed: 0,이름,나이,전화번호,성별,특징
0,홍길동,32,010-1234-1234,남,True
1,전우치,34,010-5555-5555,여,True
2,손오공,29,010-9280-9989,남,False
3,사오정,28,010-4444-3234,,False
4,저팔계,25,010-5555-6666,,False


In [48]:
df1.T

Unnamed: 0,0,1,2,3,4
이름,홍길동,전우치,손오공,사오정,저팔계
나이,32,34,29,28,25
전화번호,010-1234-1234,010-5555-5555,010-9280-9989,010-4444-3234,010-5555-6666
성별,남,여,남,,
특징,True,True,False,False,False


In [40]:
# NaN을 0으로 바꿔보자!

In [51]:
df1.fillna(0)

Unnamed: 0,이름,나이,전화번호,성별,특징
0,홍길동,32,010-1234-1234,남,True
1,전우치,34,010-5555-5555,여,True
2,손오공,29,010-9280-9989,남,False
3,사오정,28,010-4444-3234,0,False
4,저팔계,25,010-5555-6666,0,False


In [52]:
df1['성별'].fillna('누락')

0     남
1     여
2     남
3    누락
4    누락
Name: 성별, dtype: object

In [55]:
df1['성별'].isnull() # df1원본에는 영향을 주지 않는다.

0    False
1    False
2    False
3     True
4     True
Name: 성별, dtype: bool

In [56]:
df1

Unnamed: 0,이름,나이,전화번호,성별,특징
0,홍길동,32,010-1234-1234,남,True
1,전우치,34,010-5555-5555,여,True
2,손오공,29,010-9280-9989,남,False
3,사오정,28,010-4444-3234,,False
4,저팔계,25,010-5555-6666,,False


In [61]:
del df1['특징']
#메모리상에서 바로 삭제해버린다. 한 마디로 이거고 자시고간에 무조건 삭제된단 애기.
#2번 이상 shitf+엔터 명령을 하면 에러가 나는 이유도 이미 메모리상에서는 삭제된 애이기 때문에 뭘 더 삭제하란 거냐?로 컴퓨터가 오해하게 된것.

KeyError: '특징'

In [59]:
df1

Unnamed: 0,이름,나이,전화번호,성별
0,홍길동,32,010-1234-1234,남
1,전우치,34,010-5555-5555,여
2,손오공,29,010-9280-9989,남
3,사오정,28,010-4444-3234,
4,저팔계,25,010-5555-6666,


In [67]:
raw_data = {
    '이름' : ['홍길동','전우치','손오공','사오정','저팔계'],
    '나이' : [32,34,29,28,25],
    '전화번호' : ['010-1234-1234','010-5555-5555','010-9280-9989','010-4444-3234','010-5555-6666'],
    '지역' : ['서울','광주','대전','부산','제주']
}
df = DataFrame(raw_data, columns=['이름','나이','전화번호','지역'])
df

Unnamed: 0,이름,나이,전화번호,지역
0,홍길동,32,010-1234-1234,서울
1,전우치,34,010-5555-5555,광주
2,손오공,29,010-9280-9989,대전
3,사오정,28,010-4444-3234,부산
4,저팔계,25,010-5555-6666,제주


In [72]:
dic_data = {
    '지역' : {'서울': '35기','광주': '1기'},
    '학생수' : {'코엑스': 120, '광주':25 }
}
df2 = DataFrame(dic_data)
df2

Unnamed: 0,지역,학생수
서울,35기,
광주,1기,25.0
코엑스,,120.0
