In [59]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [60]:
import numpy as np
import pandas as pd

In [61]:
# 로또 1000회차
# Series : 1차원의 ndarray
# 해당 데이터의 인덱스가 자동으로 붙음
numbers = [19, 2, 8, 22, 42, 32, 39]
lotto = pd.Series(data=numbers)
lotto

0    19
1     2
2     8
3    22
4    42
5    32
6    39
dtype: int64

In [62]:
print(lotto.index)
print(type(lotto))
print(type(lotto.index))

RangeIndex(start=0, stop=7, step=1)
<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.range.RangeIndex'>


In [63]:
print(lotto.values)
print(type(lotto.values))

[19  2  8 22 42 32 39]
<class 'numpy.ndarray'>


In [64]:
random_num = np.random.randint(1, 45, 6)
random_num

array([20, 24, 10,  4, 35, 15])

In [65]:
# numpy의 ndarray를 가지고 float 형태의 series 만들기
today_lotte = pd.Series(random_num, dtype="float")
today_lotte

0    20.0
1    24.0
2    10.0
3     4.0
4    35.0
5    15.0
dtype: float64

In [66]:
#중복되는 값이 있니?
today_lotte.is_unique

True

In [67]:
# 값이 연속으로 증가되는지 (단조 증가)
# 시리즈나 데이터프레임의 열이나 행의 값이
# 왼쪽에서 오른쪽 또는 위에서 아래로 이동할 때 항상 증가한다
today_lotte.is_monotonic_increasing

False

In [68]:
nums = pd.Series(range(100, 1001, 100))
nums

0     100
1     200
2     300
3     400
4     500
5     600
6     700
7     800
8     900
9    1000
dtype: int64

In [69]:
# 데이터의 일정한 부분만 보고 싶을 때
# head() : 위에서 5개 
nums.head()

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [70]:
nums.head(n=3)

0    100
1    200
2    300
dtype: int64

In [71]:
nums.head(2)

0    100
1    200
dtype: int64

In [72]:
nums.tail()

5     600
6     700
7     800
8     900
9    1000
dtype: int64

In [73]:
nums.tail(3)

7     800
8     900
9    1000
dtype: int64

In [74]:
nums.tail(n=2)

8     900
9    1000
dtype: int64

In [75]:
print(nums.count())
print(nums.sum())

10
5500


In [76]:
nums[1]

200

In [77]:
# np.nan : 특수한 값으로, 누락된 데이터나 정의되지 않은 값
nums[1] = np.nan
nums

0     100.0
1       NaN
2     300.0
3     400.0
4     500.0
5     600.0
6     700.0
7     800.0
8     900.0
9    1000.0
dtype: float64

In [78]:
# 1번 인덱스 값이 바뀌었으니까 count랑 sum이 바뀜
print(nums.count())
print(nums.sum())

9
5300.0


In [79]:
# nan은 포함하지 않음

print(f"누적합 : \n{nums.cumsum()}")
print(f"평균 : {nums.mean()}")
print(f"중위값 : {nums.median()}")
print(f"표준편차 : {nums.std()}")
print(f"max : {nums.max()}, {nums.min()}")
print(f"describe : \n{nums.describe()}")

누적합 : 
0     100.0
1       NaN
2     400.0
3     800.0
4    1300.0
5    1900.0
6    2600.0
7    3400.0
8    4300.0
9    5300.0
dtype: float64
평균 : 588.8888888888889
중위값 : 600.0
표준편차 : 293.4469476943168
max : 1000.0, 100.0
describe : 
count       9.000000
mean      588.888889
std       293.446948
min       100.000000
25%       400.000000
50%       600.000000
75%       800.000000
max      1000.000000
dtype: float64


In [80]:
# np.nan 값을 포함하여 모든 값을 합산하고 싶다면
nums.sum(skipna=False)

nan

In [81]:
num_list = [
    [19, 2, 8, 22, 42, 32, 39],
    [6, 10, 12, 14, 20, 42, 15]
]

# 원하는 인덱스로 설정 가능
lotto_list = pd.Series(num_list, index=["1000회", "1001회"])
lotto_list

1000회     [19, 2, 8, 22, 42, 32, 39]
1001회    [6, 10, 12, 14, 20, 42, 15]
dtype: object

In [82]:
# 리스트, 딕셔너리 값으로도 시리즈 만들 수 있음

num_dict = {"1000회" : [19, 2, 8, 22, 42, 32, 39], "1001회" : [6, 10, 12, 14, 20, 42, 15]}
lotto_dict = pd.Series(num_dict)
lotto_dict 

1000회     [19, 2, 8, 22, 42, 32, 39]
1001회    [6, 10, 12, 14, 20, 42, 15]
dtype: object

In [83]:
heroes = ["CaptainAmerica", "Thor", "Hulk", "IronMan", "BlackWidow", "Hawkeye", "Hulk"]
avengers = pd.Series(heroes)
avengers

0    CaptainAmerica
1              Thor
2              Hulk
3           IronMan
4        BlackWidow
5           Hawkeye
6              Hulk
dtype: object

In [84]:
avengers.is_unique

False

In [85]:
# 유니크한 값만 볼 수도 있음 (중복된 것도 하나만 가져옴)
avengers.unique()

array(['CaptainAmerica', 'Thor', 'Hulk', 'IronMan', 'BlackWidow',
       'Hawkeye'], dtype=object)

In [86]:
# 데이터의 타입에 따라 함수가 달라지기 때문에 잘 봐야 함
type(avengers.unique())

numpy.ndarray

In [87]:
# 문자열 내의 각 문자의 유니코드 코드 포인트를 비교하여 가장 작은 값
# ABC 순
avengers.min()

'BlackWidow'

In [88]:
avengers.max()

'Thor'

In [89]:
# 정렬할 때 인덱스도 같이
avengers.sort_values()

4        BlackWidow
0    CaptainAmerica
5           Hawkeye
2              Hulk
6              Hulk
3           IronMan
1              Thor
dtype: object

In [90]:
list(avengers)

['CaptainAmerica', 'Thor', 'Hulk', 'IronMan', 'BlackWidow', 'Hawkeye', 'Hulk']

In [91]:
dict(avengers)

{0: 'CaptainAmerica',
 1: 'Thor',
 2: 'Hulk',
 3: 'IronMan',
 4: 'BlackWidow',
 5: 'Hawkeye',
 6: 'Hulk'}

In [92]:
# 딕셔너리 형태이기 때문에 "Hawkeye"는 키값이 아니라서 False
"Hawkeye" in avengers

False

In [93]:
# 값이 아니라 인덱스로 찾아야 함
5 in avengers

True

In [94]:
avengers[5]

'Hawkeye'

In [95]:
series01 = pd.Series([1, 2, 3, 4, 5])
series02 = pd.Series([1, 3, 5, 7, 9])
print(series01)
print(series02)

0    1
1    2
2    3
3    4
4    5
dtype: int64
0    1
1    3
2    5
3    7
4    9
dtype: int64


In [96]:
# 각 요소들 하나하나에 숫자 더하기
series01 + 5

0     6
1     7
2     8
3     9
4    10
dtype: int64

In [97]:
# 각 요소들 하나하나에 숫자 더하기
series01.add(5)

0     6
1     7
2     8
3     9
4    10
dtype: int64

In [98]:
series01 - 5

0   -4
1   -3
2   -2
3   -1
4    0
dtype: int64

In [99]:
series01.sub(5)

0   -4
1   -3
2   -2
3   -1
4    0
dtype: int64

In [100]:
series01.subtract(5)

0   -4
1   -3
2   -2
3   -1
4    0
dtype: int64

In [101]:
# 인덱스별로 비교해서 하나씩 알려줌
series01 == series02

0     True
1    False
2    False
3    False
4    False
dtype: bool

In [102]:
# ne : not equal
print(series01 != series02)
print(series01.ne(series02))

0    False
1     True
2     True
3     True
4     True
dtype: bool
0    False
1     True
2     True
3     True
4     True
dtype: bool


In [103]:
series03 = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
series04 = pd.Series([6, 7, 8, 9, 10], index=["c", "d", "e", "f", "g"])
print(series03)
print(series04)

a    1
b    2
c    3
d    4
e    5
dtype: int64
c     6
d     7
e     8
f     9
g    10
dtype: int64


In [104]:
series03 + series04

a     NaN
b     NaN
c     9.0
d    11.0
e    13.0
f     NaN
g     NaN
dtype: float64