Contents
 - 데이터 구조 Series, DataFrame
 - 인덱스, 생성, 선택, 추가, 변경, 삭제, 전치
  - 전치 : 행과 열을 맞바꿈
 - 파이썬 자료형과 양방향 변환

#### 판다스
Pandas는 파이썬에서 데이터 분석 및 조작을 위한 강력하고 유연한 오픈 소스 라이브러리. Series와 DataFrame 같은 고수준의 데이터 구조를 제공하여, 복잡한 데이터 조작을 직관적이고 효율적으로 수행할 수 있게 한다.

[Pandas의 주요 역할과 기능]

* DataFrame과 Series: 2차원 테이블과 1차원 배열 형태의 데이터 구조를 제공
* 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능을 제공
* 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업을 제공
* 입출력 기능: CSV, Excel, SQL, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공
* 시각화 지원: 매트플롯립과 연동하여 데이터 시각화가 가능하도록 제공
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

In [3]:
# 시리즈 클래스 만들기
# pandas 불러오기
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1, 'b':2, 'c':3}

sr = pd.Series(dict_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [8]:
# 리스트를 시리즈로 변환

list_data = [1, 2, 3, 4, 5]
list_data = ['2024-05-27', 3.14, 'ABC', 100, True]
sl = pd.Series(list_data)
sl2 = pd.Series(list_data, index = list('abcde'))
print(sl, type(sl))
print(sl2)

0    2024-05-27
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>
a    2024-05-27
b          3.14
c           ABC
d           100
e          True
dtype: object


In [10]:
# 인덱스 및 값
idx = sl2.index
val = sl.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2024-05-27' 3.14 'ABC' 100 True]


In [25]:
# 튜플을 시리즈로 변환

tub_data = ('kevin', '2024-05-27', '남', True)

#sr = pd.Series(tub_data)
sr = pd.Series(tub_data, index = ['이름','생년월일','성별','학생여부'])
print(sr)


이름           kevin
생년월일    2024-05-27
성별               남
학생여부          True
dtype: object


In [26]:
# 인덱싱 : index값을 따로 설정했어도 숫자 인덱스는 default로 존재한다.

print(sr[0])
print(sr['이름'])
print(sr[[1,2]]) # 시리즈에서는 위치 기반 인덱싱을 사용해 여러 요소를 선택 가능
#print(sr[[1,2]].values)

kevin
kevin
생년월일    2024-05-27
성별               남
dtype: object


In [27]:
# 배열을 리스트로 변환
import numpy as np

s1 = np.arange(11,21,2) # 11~20 2스텝으로
print(s1, type(s1))
print()
s2 = pd.Series(s1, index=list('abced'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
e    17
d    19
dtype: int64 <class 'pandas.core.series.Series'>


In [34]:
data = np.arange(1000, 5000, 1000)
state = ['Califonia','Ohio','Oregon','Texas']

sr = pd.Series(data, name='population', index=state)
#name은 파라메터로 줄 수 있으나, index.name은 따로 설정해야한다.
#pd.Index(state, name='state')
#sr.index.name = 'state'
print(sr)

Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int64


None과 np.nan의 차이점
- None은 파이썬의 내장형 객체로 주로 객체형 데이터에서 사용
- np.nan은 부동 소수점으로 취급되며 주로 숫자형 데이터에서 사용
- 연산 시 np.nan은 NaN 결과를 반환하는 반면 None은 TypeError를 발생시킨다.

In [36]:
sr.Califonia = np.nan
sr.Califonia = None
sr

Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [37]:
# 결측값 찾기
null_mask = sr.isnull()
null_mask

Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [38]:
not_null_mask = sr.notnull()
not_null_mask

Califonia    False
Ohio          True
Oregon        True
Texas         True
Name: population, dtype: bool

In [47]:
# 결측값 처리
filled_series = sr.fillna(0)
filled_series

Califonia       0.0
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [48]:
# 결측값 합계
sr.isnull().sum()

# 결측값 삭제
dropped_series = sr.dropna()
dropped_series

Ohio      2000.0
Oregon    3000.0
Texas     4000.0
Name: population, dtype: float64

In [52]:
print(s2, type(s2))
list_from_series = s2.tolist()
list_from_series

dict_from_series = s2.to_dict()
print(dict_from_series)

a    11
b    13
c    15
e    17
d    19
dtype: int64 <class 'pandas.core.series.Series'>
{'a': 11, 'b': 13, 'c': 15, 'e': 17, 'd': 19}


In [None]:
# 시리즈를 DataFrame으로 변환
df_from_series = s2.to_frame(name='Value')
df_from_series

In [72]:
# Q. 아래 시리즈에서 null값을 2개 입력 후
#그 값을 0으로 대체 후 null값 여부를 확인한 후 출력하세요.

import pandas as pd
import numpy as np

# 1. Series 생성
s = pd.Series([5, 15, 25, 35, 45], index=['x', 'y', 'z', 'w', 'v'])

s.x = np.nan
s.z = np.nan
print(s.isnull().sum())

f = s.fillna(0)
print(f)

2
x     0.0
y    15.0
z     0.0
w    35.0
v    45.0
dtype: float64


In [66]:
# Q. 주어진 리스트 [1, 2, 3, 4, 5]를
# Pandas Series로 변환하고, 각 원소에 10을 더한 Series를 출력하세요.

import pandas as pd

# 주어진 리스트
data_list = [1, 2, 3, 4, 5]
sr = pd.Series(data_list)+10
print(sr)

0    11
1    12
2    13
3    14
4    15
dtype: int64


In [73]:
# Q. Series [10, 20, 30, 40, 50]를 생성하고 인덱스를 ['a', 'b', 'c', 'd', 'e']로 설정하세요.
# 인덱스를 기준으로 Series를 정렬한 결과를 출력하세요.

sr = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])

print(sr.sort_index())

a    10
b    20
c    30
d    40
e    50
dtype: int64


In [71]:
# Q. Series ['a':1, 'b':2, 'c':3, 'd':4, 'e':5]에서
# 인덱스 'b', 'd'에 해당하는 원소를 선택하여 출력하세요.

import pandas as pd

# 주어진 데이터와 인덱스
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']

sr = pd.Series(data, index=index)
print(sr[['b', 'd']].values)

[2 4]


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체.
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [116]:
# 배열을 데이터프레임으로 반환
np.random.seed(0) # 하나의 숫자배열로 고정시켜준다.
data = np.random.randint(100,120,size=(3,3))

df = pd.DataFrame(data, index = ['d1', 'd2', 'd3'],
                        columns = ['pd', 'sales', 'inv'])

# 데이터프레임의 각각의 열은 시리즈로 이루어져있다.
# 그러나 하나의 시리즈 또한 데이터프레임이 될 수 있다.
print(df , " 데이터프레임")
print(df.pd, " 시리즈")

# iloc : 정수 인덱스, loc 이름 인덱스
# 칼럼에는 적용X
print(df.iloc[1])
print(df.loc['d2'])
print()
print(df.iloc[1, :])
print(df.loc['d2', :])

     pd  sales  inv
d1  112    115  100
d2  103    103  107
d3  109    119  118  데이터프레임
d1    112
d2    103
d3    109
Name: pd, dtype: int64  시리즈
pd       103
sales    103
inv      107
Name: d2, dtype: int64
pd       103
sales    103
inv      107
Name: d2, dtype: int64

pd       103
sales    103
inv      107
Name: d2, dtype: int64
pd       103
sales    103
inv      107
Name: d2, dtype: int64


In [None]:
print(df.iloc[1, -1])
print(df.loc['d2', 'inv'])

# iloc는 확대하여 추가할 수 없다.
df.loc['d3'] = 0
df.loc['d4'] = 0
#df.iloc[5] = 0

In [117]:
# 행을 추가할 때는, 앞쪽 행은 :로 처리, 뒤에 추가할 컬럼명과 값 입력
df.loc[:, 'profit'] = 10
df

Unnamed: 0,pd,sales,inv,profit
d1,112,115,100,10
d2,103,103,107,10
d3,109,119,118,10


#### Pandas의 iloc와 loc 메서드
DataFrame과 Series에서 데이터의 특정 위치나 라벨에 접근하기 위한 중요한 도구이며 두 메서드는 각각 고유한 용도를 가지고 있다.

- iloc (Integer Location)
  - 정수 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 특정 위치에 있는 데이터를 선택할 때 사용.
  - 슬라이싱 지원: Python 리스트와 유사하게 슬라이싱을 지원.
  - 끝점 포함하지 않음: 슬라이싱 시 끝점은 포함하지 않는다.
- loc (Label Location)
  - 라벨 인덱스 기반으로 데이터에 접근하는 메서드. 즉, DataFrame이나 Series의 라벨 이름을 사용하여 데이터에 접근.
  - 슬라이싱 지원: 라벨을 사용하여 슬라이싱을 지원.
  - 끝점 포함: 슬라이싱 시 끝점을 포함.

In [101]:
import pandas as pd

# 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data)
print(df, '\n')

# 첫번째 행, 두 번째 열의 값 선택
print(df.iloc[0, 1])
print()

# 첫번째부터 두번째 행, 첫번째부터 두번째 열 선택
print(df.iloc[0:2, 0:2])

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12 

5

   A  B
0  1  5
1  2  6


In [105]:
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data, index = list('abcd'))

# 인덱스 a, 열 B의 값 선택
print(df.loc['a', 'B'])

# 인덱스 'a' 부터 'b', 열 'A'부터 'B' 선택
print(df.loc['a':'b', 'A':'B'])

5
   A  B
a  1  5
b  2  6


In [119]:
# 파이썬 랜덤함수
import random

print(random.random(),'\n') # 0.0 <= x < 1.0 사이
print(random.randint(1,10),'\n') # 1에서 10사이의 정수중에서 난수 값 리턴
print(random.uniform(10,20), '\n') # min max 사이 float 리턴
print(random.randrange(10), '\n') # 지정 범위 int 리턴
print(random.choice([1,2,3,4,5]),'\n') # 리스트 내부에 있는 요소를 랜덤하게 선택

li = [1,2,3,4,5]
print(random.sample(li,3),'\n') # 리스트 요소를 중복이 안되게 리턴

random.shuffle(li) # 리스트 요소를 다시 섞어서 리턴
print(li)

0.2893317647737118 

6 

17.323989552885035 

1 

2 

[3, 5, 2] 

[2, 1, 3, 5, 4]


[numpy random 함수]

- np.random.seed : seed를 통한 난수 생성
- np.random.randint : 정수 난수 1개 생성
- np.random.rand : 0부터 1사이의 균일분포에서 난수 매트릭스 배열 생성
- np.random.randn : 가우시안 표준 정규분포에서 난수 매트릭스 배열 생성
- np.random.shuffle : 기존의 데이터의 순서 바꾸기
- np.random.choice : 기존 데이터에서 sampling

In [None]:
import numpy as np

print(np.random.randint(6), '\n') # 0 ~ 5까지 정수인 난수 1개
print(np.random.randint(1,20),'\n') # 1 ~ 19까지 정수인 난수 1개
print(np.random.randint(10, size=10), '\n') # 0 ~ 9까지 정수인 난수 10개
print(np.random.randint(10,20, size=10),'\n') # 10 ~ 19까지 정수인 난수 10개
print(np.random.randint(10,20, size=(3,5))) # 10 ~ 19까지 정수인 난수로 3행 5열 배열 생성

In [125]:
# id, gender, age, region
import numpy as np
import pandas as pd

id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size=1000) # 0,1 중 하나씩 뽑아 1000개 생성
g1 = pd.Series(gender)
age = np.random.randint(1,101, size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)

df = pd.concat([i1, g1, a1, r1], axis = 1) # 합치다. axis:
df.rename(columns={0:'id', 1:'gender', 2:'age', 3:'region'}, inplace=True) # 원본에 반영하겠다.
df.head()

Unnamed: 0,id,gender,age,region
0,1,1,76,5
1,2,0,42,10
2,3,0,63,7
3,4,1,44,3
4,5,0,80,9


In [126]:
df.drop([0], axis=0, inplace=True)
df.head()

Unnamed: 0,id,gender,age,region
1,2,0,42,10
2,3,0,63,7
3,4,1,44,3
4,5,0,80,9
5,6,0,95,6


- at은 라벨 기반 인덱싱 사용. 단일 값을 접근할 때 loc 접근자보다 빠르다
- 여러 값을 동시에 접근하려면 loc 접근자를 사용

In [132]:
df.at[5, 'id']

6

In [133]:
df1 = df.drop(df.at[5, 'id'])
df1.head(7)

Unnamed: 0,id,gender,age,region
1,2,0,42,10
2,3,0,63,7
3,4,1,44,3
4,5,0,80,9
5,6,0,95,6
7,8,0,17,9
8,9,1,34,10


In [None]:
# df.copy()
df1 = df.copy()
df1.head()
df1.tail()

In [137]:
np.random.seed(0)
a = np.random.randint(1,5,size=(10,5))
print(a, type(a))

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]] <class 'numpy.ndarray'>


In [139]:
# 2차원 리스트를 데이터프레임으로 변환

list1 = a.tolist()

df1 = pd.DataFrame(list1, columns = ['c1','c2','c3', 'c4', 'c5'])

print(df1.head())

[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]]
   c1  c2  c3  c4  c5
0   1   4   2   1   4
1   4   4   4   2   4
2   2   3   1   4   3
3   1   1   1   3   2
4   3   4   4   3   1


In [145]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환

ar = df1.values
print(ar)

li = ar.tolist()
print(li)

dt = df1.to_dict('list') # dict의 값이 리스트 형태이기 때문
print(dt)

[[1 4 2 1 4]
 [4 4 4 2 4]
 [2 3 1 4 3]
 [1 1 1 3 2]
 [3 4 4 3 1]
 [2 2 2 2 1]
 [2 1 4 1 4]
 [2 3 4 4 1]
 [3 4 1 2 4]
 [2 4 4 3 4]]
[[1, 4, 2, 1, 4], [4, 4, 4, 2, 4], [2, 3, 1, 4, 3], [1, 1, 1, 3, 2], [3, 4, 4, 3, 1], [2, 2, 2, 2, 1], [2, 1, 4, 1, 4], [2, 3, 4, 4, 1], [3, 4, 1, 2, 4], [2, 4, 4, 3, 4]]
{'c1': [1, 4, 2, 1, 3, 2, 2, 2, 3, 2], 'c2': [4, 4, 3, 1, 4, 2, 1, 3, 4, 4], 'c3': [2, 4, 1, 1, 4, 2, 4, 4, 1, 4], 'c4': [1, 2, 4, 3, 3, 2, 1, 4, 2, 3], 'c5': [4, 4, 3, 2, 1, 1, 4, 1, 4, 4]}
