# 시리즈와 데이터프레임
## 시리즈
시리즈 생성하기

In [2]:
import pandas as pd
import numpy as np

a = pd.Series([1,2,3,4,5])

a

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [4]:
a.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
a.values

array([1, 2, 3, 4, 5], dtype=int64)

인덱스 변경하기

In [8]:
a.index = ['A', 'B', 'C', 'D', 'E'] 
print("A 인덱스의 데이터:", a['A'])
a

A 인덱스의 데이터: 1


A    1
B    2
C    3
D    4
E    5
dtype: int64

In [9]:
b = pd.Series(np.arange(3), index=["가", "나", "다"])
b

가    0
나    1
다    2
dtype: int32

In [10]:
b["가"]

0

시리즈는 리스트, 넘파이 배열, 딕셔너리 등 다양한 데이터를 사용해 구성할 수 있다.

넘파이의 기능인 마스킹 기능이 그대로 판다스에서도 동작한다.

In [15]:
a[a > 3]

D    4
E    5
dtype: int64

In [16]:
a * 2

A     2
B     4
C     6
D     8
E    10
dtype: int64

In [13]:
data_dict = {
    "이름": "최일선",
    "거주지": "서울",
    "고등학교": "서울고등학교",
    "거리": 1
}

se0 = pd.Series(data_dict)
se0

이름         최일선
거주지         서울
고등학교    서울고등학교
거리           1
dtype: object

데이터 추가 및 빈 데이터 확인

In [18]:
se0["약점"] = None
se0

이름         최일선
거주지         서울
고등학교    서울고등학교
거리           1
약점        None
dtype: object

In [19]:
se0.isnull()

이름      False
거주지     False
고등학교    False
거리      False
약점       True
dtype: bool

In [23]:
se0.index.name = '속성'
se0.name = '개인 정보'
se0

속성
이름         최일선
거주지         서울
고등학교    서울고등학교
거리           1
약점        None
Name: 개인 정보, dtype: object

## Series 연습 문제
1. 2의 배수이면서 0부터 30까지 정수를 가진 시리즈 se1을 만들어라.
2. se1의 인덱스도 데이터와 같은 값으로 만들어라.
3. se1의 값 중에 4의 배수인 값에 None을 삽입하라.
4. se1의 값이 None인지 확인하라.

In [34]:
# 1
se1 = pd.Series(np.arange(1,16) * 2)

# 2
se1.index = se1.values

# 3
se1[se1%4==0] = None

# 4
se1.isnull()

2     False
4      True
6     False
8      True
10    False
12     True
14    False
16     True
18    False
20     True
22    False
24     True
26    False
28     True
30    False
dtype: bool

## 데이터프레임

In [37]:
data_table = {
    'id': [1,2,3],
    'name': ['Choi', 'Lee', 'Kim'],
    'age': [10,20,30],
    'asets': [150.4, 123.4, 88.88],
    'job': ['student', 'CEO', 'Dad']
}

df = pd.DataFrame(data_table)
df

Unnamed: 0,id,name,age,asets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


컬럼 별로 데이터를 가져오려면 다음과 같이 데이터를 설정하면 된다.

In [38]:
df['id']

0    1
1    2
2    3
Name: id, dtype: int64

In [39]:
df['name']

0    Choi
1     Lee
2     Kim
Name: name, dtype: object

df에 loc 변수를 사용하면 인덱스 별로 정보를 질의할 수 있다.

In [41]:
df.loc[0]

id             1
name        Choi
age           10
asets      150.4
job      student
Name: 0, dtype: object

In [43]:
df.loc[2]

id           3
name       Kim
age         30
asets    88.88
job        Dad
Name: 2, dtype: object

컬럼 추가

In [44]:
df['hobby'] = 'reading books'
df

Unnamed: 0,id,name,age,asets,job,hobby
0,1,Choi,10,150.4,student,reading books
1,2,Lee,20,123.4,CEO,reading books
2,3,Kim,30,88.88,Dad,reading books


컬럼 데이터 변경

In [47]:
df['age'] = [11, 21, 31]
df

Unnamed: 0,id,name,age,asets,job,hobby
0,1,Choi,11,150.4,student,reading books
1,2,Lee,21,123.4,CEO,reading books
2,3,Kim,31,88.88,Dad,reading books


순서가 일정하지 않은 컬럼 데이터 입력

In [48]:
residence = pd.Series({2: 'Seoul', 1: 'Incheon', 0: 'Bucheon'})
df['residence'] = residence
df

Unnamed: 0,id,name,age,asets,job,hobby,residence
0,1,Choi,11,150.4,student,reading books,Bucheon
1,2,Lee,21,123.4,CEO,reading books,Incheon
2,3,Kim,31,88.88,Dad,reading books,Seoul


로우 데이터 입력

In [51]:
df.loc[3] = ['4', 'Hong', 60, 2000, 'FreeLancer', 'Swimming', 'Gangnam']
df

Unnamed: 0,id,name,age,asets,job,hobby,residence
0,1,Choi,11,150.4,student,reading books,Bucheon
1,2,Lee,21,123.4,CEO,reading books,Incheon
2,3,Kim,31,88.88,Dad,reading books,Seoul
3,4,Hong,60,2000.0,FreeLancer,Swimming,Gangnam


드랍 함수를 사용하면 데이터를 삭제할 수 있다.

In [56]:
df = df.drop([1,2], axis=0) 
df

Unnamed: 0,id,name,age,asets,job,hobby,residence
0,1,Choi,11,150.4,student,reading books,Bucheon
3,4,Hong,60,2000.0,FreeLancer,Swimming,Gangnam


In [58]:
df = df.drop(['job'], axis=1)
df

Unnamed: 0,id,name,age,asets,hobby,residence
0,1,Choi,11,150.4,reading books,Bucheon
3,4,Hong,60,2000.0,Swimming,Gangnam


데이터프레임의 전치와 numpy 출력

In [59]:
df.T

Unnamed: 0,0,3
id,1,4
name,Choi,Hong
age,11,60
asets,150.4,2000.0
hobby,reading books,Swimming
residence,Bucheon,Gangnam


In [60]:
df.values

array([[1, 'Choi', 11, 150.4, 'reading books', 'Bucheon'],
       ['4', 'Hong', 60, 2000.0, 'Swimming', 'Gangnam']], dtype=object)

## 데이터프레임 연습 문제
1. 구구단 1단부터 3단까지 출력하는 데이터프레임 df1을 생성하라(컬럼3x로우9).
2. df1의 인덱스를 한글로 바꿔라(1 -> '일', 2 -> '이'...)
3. df1에 4단을 추가하라.
4. df1의 1단을 11단으로 교체하라.
5. df1의 11단을 삭제하라.
6. 컬럼과 로우를 교차 시켜라.
7. '오'와 ‘칠’ 인덱스를 제거하라.


In [65]:
# 1 
one_dan = np.arange(0,10)

googoodan_data = {
    '1단': one_dan,
    '2단': one_dan * 2,
    '3단': one_dan * 3
}


googoodan_df = pd.DataFrame(googoodan_data)
googoodan_df = googoodan_df.drop(0)
googoodan_df

Unnamed: 0,1단,2단,3단
1,1,2,3
2,2,4,6
3,3,6,9
4,4,8,12
5,5,10,15
6,6,12,18
7,7,14,21
8,8,16,24
9,9,18,27


In [68]:
#2
googoodan_df.index = ['일', '이', '삼', '사', '오', '육', '칠', '팔', '구']
googoodan_df

Unnamed: 0,1단,2단,3단
일,1,2,3
이,2,4,6
삼,3,6,9
사,4,8,12
오,5,10,15
육,6,12,18
칠,7,14,21
팔,8,16,24
구,9,18,27


In [72]:
# 3
googoodan_df['4단']= one_dan[1:] * 4
googoodan_df

Unnamed: 0,1단,2단,3단,4단
일,1,2,3,4
이,2,4,6,8
삼,3,6,9,12
사,4,8,12,16
오,5,10,15,20
육,6,12,18,24
칠,7,14,21,28
팔,8,16,24,32
구,9,18,27,36


In [77]:
# 4
googoodan_df['1단']= one_dan[1:] * 11
googoodan_df.columns = ['11단', '2단', '3단', '4단']
googoodan_df

Unnamed: 0,11단,2단,3단,4단
일,11,2,3,4
이,22,4,6,8
삼,33,6,9,12
사,44,8,12,16
오,55,10,15,20
육,66,12,18,24
칠,77,14,21,28
팔,88,16,24,32
구,99,18,27,36


In [80]:
# 5
googoodan_df = googoodan_df.drop('11단', axis=1)
googoodan_df

Unnamed: 0,2단,3단,4단
일,2,3,4
이,4,6,8
삼,6,9,12
사,8,12,16
오,10,15,20
육,12,18,24
칠,14,21,28
팔,16,24,32
구,18,27,36


In [84]:
# 6
googoodan_df = googoodan_df.T
googoodan_df

Unnamed: 0,일,이,삼,사,오,육,칠,팔,구
2단,2,4,6,8,10,12,14,16,18
3단,3,6,9,12,15,18,21,24,27
4단,4,8,12,16,20,24,28,32,36


In [86]:
# 7
googoodan_df = googoodan_df.drop(['오','칠'], axis=1)
googoodan_df

Unnamed: 0,일,이,삼,사,육,팔,구
2단,2,4,6,8,12,16,18
3단,3,6,9,12,18,24,27
4단,4,8,12,16,24,32,36
