In [2]:
# Pandas 차원 별 명칭

# 1D Series 
# 2D DataFrame
# 3D Panel

# 졍형 데이터(ex excel)

In [3]:
# Series
# 데이터를 담는 차원 배열 구조를 가진다.
# 인덱스(index)사용 가능
# 데이터 타입(dtype)을 가진다.

In [4]:
# Series의 생성
# numpy로 생성 후 Series에 담는 방법
import pandas as pd
import numpy as np
arr1 = np.arange(100, 105)
print(arr1)

s = pd.Series(arr1)
print(s)

# 데이터 타입을 지정해서 생성하는 방법도 있음
s = pd.Series(arr1, dtype="int64")
print(s)

[100 101 102 103 104]
0    100
1    101
2    102
3    103
4    104
dtype: int32
0    100
1    101
2    102
3    103
4    104
dtype: int64


In [5]:
# 리스트로 생성
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
print(s)

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object


In [6]:
# 인덱스
print(s.index)
print(s[0]) # 음수 값 인덱싱은 불가

try:
    print(s[-1])
except:
    print("error")


RangeIndex(start=0, stop=5, step=1)
부장
error


In [7]:
# 인덱스 부여
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
print(s)

print(s.index)

print(s['c'])
print(s[1]) # 판다스가 읽는 순서 : 1번 인덱스 값을 가져옴 > b값으로 확인 > b에 있는 값을 가져옴 
print(s[-1]) # 가능함 (-1번째 인덱스 값을 가져옴 > e값으로 확인 > e 값을 가져옴)

print()

# Series 생성 후 나중에 인덱스를 부여할 수도 있다.
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index = list('23456')
print(s)



a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
개발
경영
인사

2    마케팅
3     경영
4     개발
5     기획
6     인사
dtype: object


In [8]:
# NaN(Not a Number) 비어있는 모든 결측치 데이터
# 배열 비워두기
s = pd.Series([1, 2, 3, 4, np.nan])
print(s)

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64


In [9]:
s1 = pd.Series([50, 51, 52, 53, 54], dtype = "float32")
s1 = pd.Series(np.arange(50, 55), dtype="float32")

In [10]:
s2 = pd.Series(['apple', np.nan, 'banana', 'kiwi', 'gubong'])
s2.index = ['가', '나', '다', '라', '마']
print(s2)

가     apple
나       NaN
다    banana
라      kiwi
마    gubong
dtype: object


In [11]:
s3 = pd.Series(['손흥민', '김연아', '박세리', '박찬호', '김연경'], index=['a','b','c', 'd', 'e'])
print(s3)

# indexing
print(s3[1])
print(s3['b'])

# fancy indexing # 리스트 형식을 인덱싱
s3[['a', 'b']]

# boolean indexing (괄호 2개)
print(s3[[True, True, False, False, True]])

# boolean indexing 응용 (조건 indexing)
s4 = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
cond = (s4 < 7) & (s4 > 2)
print(s4[cond])

a    손흥민
b    김연아
c    박세리
d    박찬호
e    김연경
dtype: object
김연아
김연아
a    손흥민
b    김연아
e    김연경
dtype: object
2    3
3    4
4    5
5    6
dtype: int64


In [14]:
df = pd.DataFrame([1, 2, 3, 4, 5, 6, 7], index=['a', 'b', 'c', 'd', 'e', 'f', 'g'], columns=['num'])

df

Unnamed: 0,num
a,1
b,2
c,3
d,4
e,5
f,6
g,7


In [18]:
df.T

TypeError: 'DataFrame' object is not callable

In [28]:
print(df['a':'b'][:])
print(df.loc[['a', 'b'], :])

print(df.iloc[3, :])

   num
a    1
b    2
   num
a    1
b    2
num    4
Name: d, dtype: int64


In [32]:
df = pd.DataFrame([
    [45, 44, 73, 39],
    [76, 92, 45, 69],
    [47, 92, 45, 69],
    [92, 81, 85, 40],
    [11, 79, 47,26],
],index=['수학', '영어', '국어', '사회', '과학'], columns=['1반', '2반', '3반', '4반']
    )

In [36]:
df.index.name = '과목'
df

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [38]:
df.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [40]:
df.sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [41]:
df.sum().sort_values()

4반    243
1반    271
3반    295
2반    388
dtype: int64

In [44]:
# 합계 column 추가
df["합계"] = df.sum(axis=1)

In [48]:
print(df.max())

print()

print(df.min())


1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
dtype: float64

1반     11.0
2반     44.0
3반     45.0
4반     26.0
합계    163.0
dtype: float64


In [49]:
print(df.max(axis=1))

print()

print(df.min(axis=1))

과목
수학    201.0
영어    282.0
국어    253.0
사회    298.0
과학    163.0
dtype: float64

과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64
