In [1]:
import pandas as pd

In [5]:
series = pd.Series([10,20,30,40,50,60,70,80,90],index = [_ for _ in range(0,9)])
series

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [8]:
test = pd.Series(list(range(10,100,10)))

In [9]:
import numpy as np

In [17]:
sum(test.values>50)

4

In [24]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052], index = ["서울","부산","인천","대구"])

s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [25]:
d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data=d, index = ['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

### NaN값이 float 자료형에서만 표현 가능하므로 결과가 float 자료형이 되었다

In [34]:
d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data=d, index = ['a','y','z'])
ser

a    1.0
y    NaN
z    NaN
dtype: float64

In [35]:
score = pd.Series({"철수":88,"영희":95,"길동":100,"몽룡":67},
                  index = ["철수","영희","길동"])
score

철수     88
영희     95
길동    100
dtype: int64

### ser.a 로도 접근 가능하고 ser['a'] (인덱스)로도 접근 가능하다(공백x)

In [36]:
ser.a

1.0

In [37]:
"서울" in s #인덱스 레이블 중에 서울이 있는가

True

In [38]:
"대전"in s #인덱스 레이블 중에 대전이 있는가

False

### item메서드를 사용해서 각 요소의 키와 값에 접근 할 수도 있다.

In [40]:
for k,v in s.items() :
    print(f"{k}, {v}") 

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [42]:
[print(f"{k}의 인구는 300만이 넘습니다.") for k,v in s.items() if v>3000000]

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


[None, None]

In [49]:
[print(f"{k}의 인구는 300만이 넘습니다.") for k,v in s.items() if v>3000000 ]

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


[None, None]

### series 인덱싱

In [50]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [51]:
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [52]:
s[["서울","대구","부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [54]:
s[[0]]

도시
서울    9904312
Name: 인구, dtype: int64

In [55]:
s[["인천"]]

도시
인천    2890451
Name: 인구, dtype: int64

### series 슬라이싱 

In [58]:
#슬라이싱을 해도 부분적인 Series를 반환
# 문자열 label을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 
# 콜론 기호 뒤에 오는 값도 결과에 포함됨(주의)

In [60]:
s[1:3] #두번째(1)부터 세번째(2)까지

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [61]:
s2 = pd.Series({"서울":9631482, "부산":3393191, "인천":2632035, "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [62]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### NaN 값이 float자료형 에서만 표현 가능하므로 다른 계산 결과도 모두 float자료형이 되었다는 점에 주의

In [65]:
# series의 값이 NaN이면 True NaN이 아니면 False인
# Bool type의 Series는 isnull()
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [66]:
# isnull()의 반대
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

### series에서 NaN이 아닌 값만 인덱싱으로 구하기

In [67]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [68]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [69]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [70]:
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

### NaN 값인 것을 배재하고 인구 증가율은 다음과 같이 구할 수 있다.

In [92]:
rs = (s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [93]:
res = s - s2
res = res[res.notnull()]
res[[res.values.argmax()]]

서울    272830.0
dtype: float64

In [88]:
res = s - s2
res = res[res.notnull()]
res.max()

272830.0

In [89]:
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [91]:
rs["서울"] = 2.83
rs["인천"] = 9.82
rs

부산    1.636984
서울    2.830000
인천    9.820000
dtype: float64

In [94]:
rs[1]

2.832689714833086

In [95]:
rs[1] = 2.83

In [96]:
rs

부산    1.636984
서울    2.830000
인천    9.818107
dtype: float64

In [97]:
rs[1] = 2.83
rs[2] = 9.82

In [98]:
rs

부산    1.636984
서울    2.830000
인천    9.820000
dtype: float64

In [101]:
rs["서울":"인천"] = (2.83, 9.82)
rs

부산    1.636984
서울    2.830000
인천    9.820000
dtype: float64

In [102]:
rs["대구"] = 1.41
rs

부산    1.636984
서울    2.830000
인천    9.820000
대구    1.410000
dtype: float64

In [103]:
del rs["서울"]
rs

부산    1.636984
인천    9.820000
대구    1.410000
dtype: float64

In [104]:
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

In [106]:
ser_finance1 = pd.Series(fin1)
ser_finance1

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64

In [110]:
ser_finance2 = pd.Series(fin2_value,index = fin2_index)
ser_finance2

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

In [117]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [118]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [119]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [123]:
result = ser_finance1 / ser_finance2

In [125]:
result.dtype

dtype('float64')

In [126]:
result

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [127]:
ser_finance1[0] / ser_finance2[0]

0.996843853820598

In [128]:
result = ser_finance1 - ser_finance2

In [129]:
result = result[result.notnull()]

In [130]:
result

삼성전자   -200.0
카카오    -190.0
dtype: float64

In [131]:
data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [132]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [133]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [134]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [136]:
df.dtypes

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

In [188]:
"""data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df"""


with open("data/data.csv", "r") as r:
    file = r.read()

In [189]:
file

'연번,의료기관명,의료기관전화번호,의료기관소재지(도로명),자체 병상수,공동활용 병상수,의료장비명,모델명,형식명,데이터기준일자\n1,강남병원,061-818-7575,전라남도 광양시 중마중앙로 17 (중동),78,339,자기공명영상촬영장치(MRI),MAGNETOM Essenza,구형식,2023-03-03\n2,강남병원,061-818-7575,전라남도 광양시 중마중앙로 17 (중동),78,196,전산화단층촬영장치(CT),SOMATOM Emotion 16-slice Configuration,구형식,2023-03-03\n3,광양사랑병원,061-797-7000,전라남도 광양시 공영로 71 (중동),159,50,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion PRIME MODEL TSX-303A,구형식,2023-03-03\n4,광양사랑병원,061-797-7000,전라남도 광양시 공영로 71 (중동),159,50,자기공명영상촬영장치(MRI),MAGNETOM Essenza,N/A,2023-03-03\n5,의료법인 현경의료재단 광양서울병원,061-798-9800,전라남도 광양시 진등길 93 (마동),204,0,자기공명영상촬영장치(MRI),GE Signa Excite 1.5T MR System,구형식,2023-03-03\n6,의료법인 현경의료재단 광양서울병원,061-798-9800,전라남도 광양시 진등길 93 (마동),204,0,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquilion CX),구형식,2023-03-03\n'

In [190]:
file = pd.read_csv("data/data.csv", encoding="cp949")

In [191]:
file

Unnamed: 0,연번,의료기관명,의료기관전화번호,의료기관소재지(도로명),자체 병상수,공동활용 병상수,의료장비명,모델명,형식명,데이터기준일자
0,1,강남병원,061-818-7575,전라남도 광양시 중마중앙로 17 (중동),78,339,자기공명영상촬영장치(MRI),MAGNETOM Essenza,구형식,2023-03-03
1,2,강남병원,061-818-7575,전라남도 광양시 중마중앙로 17 (중동),78,196,전산화단층촬영장치(CT),SOMATOM Emotion 16-slice Configuration,구형식,2023-03-03
2,3,광양사랑병원,061-797-7000,전라남도 광양시 공영로 71 (중동),159,50,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion PRIME MODEL TSX-303A,구형식,2023-03-03
3,4,광양사랑병원,061-797-7000,전라남도 광양시 공영로 71 (중동),159,50,자기공명영상촬영장치(MRI),MAGNETOM Essenza,,2023-03-03
4,5,의료법인 현경의료재단 광양서울병원,061-798-9800,전라남도 광양시 진등길 93 (마동),204,0,자기공명영상촬영장치(MRI),GE Signa Excite 1.5T MR System,구형식,2023-03-03
5,6,의료법인 현경의료재단 광양서울병원,061-798-9800,전라남도 광양시 진등길 93 (마동),204,0,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquili...,구형식,2023-03-03


In [192]:
file.values

array([[1, '강남병원', '061-818-7575', '전라남도 광양시 중마중앙로 17 (중동)', 78, 339,
        '자기공명영상촬영장치(MRI)', 'MAGNETOM Essenza', '구형식', '2023-03-03'],
       [2, '강남병원', '061-818-7575', '전라남도 광양시 중마중앙로 17 (중동)', 78, 196,
        '전산화단층촬영장치(CT)', 'SOMATOM Emotion 16-slice Configuration', '구형식',
        '2023-03-03'],
       [3, '광양사랑병원', '061-797-7000', '전라남도 광양시 공영로 71 (중동)', 159, 50,
        '전산화단층촬영장치(CT)', 'TOSHIBA SCANNER Aquilion PRIME MODEL TSX-303A',
        '구형식', '2023-03-03'],
       [4, '광양사랑병원', '061-797-7000', '전라남도 광양시 공영로 71 (중동)', 159, 50,
        '자기공명영상촬영장치(MRI)', 'MAGNETOM Essenza', nan, '2023-03-03'],
       [5, '의료법인 현경의료재단 광양서울병원', '061-798-9800', '전라남도 광양시 진등길 93 (마동)',
        204, 0, '자기공명영상촬영장치(MRI)', 'GE Signa Excite 1.5T MR System',
        '구형식', '2023-03-03'],
       [6, '의료법인 현경의료재단 광양서울병원', '061-798-9800', '전라남도 광양시 진등길 93 (마동)',
        204, 0, '전산화단층촬영장치(CT)',
        'TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquilion CX)', '구형식',
        '2023-03-03']], dtype=obje

In [193]:
file.columns

Index(['연번', '의료기관명', '의료기관전화번호', '의료기관소재지(도로명)', '자체 병상수', '공동활용 병상수',
       '의료장비명', '모델명', '형식명', '데이터기준일자'],
      dtype='object')

In [194]:
file.index

RangeIndex(start=0, stop=6, step=1)

In [195]:
del file['연번']

In [196]:
del file['형식명']

In [197]:
del file['자체 병상수']

In [198]:
del file['공동활용 병상수']

In [199]:
del file['의료기관소재지(도로명)']

In [200]:
file.columns

Index(['의료기관명', '의료기관전화번호', '의료장비명', '모델명', '데이터기준일자'], dtype='object')

In [201]:
file

Unnamed: 0,의료기관명,의료기관전화번호,의료장비명,모델명,데이터기준일자
0,강남병원,061-818-7575,자기공명영상촬영장치(MRI),MAGNETOM Essenza,2023-03-03
1,강남병원,061-818-7575,전산화단층촬영장치(CT),SOMATOM Emotion 16-slice Configuration,2023-03-03
2,광양사랑병원,061-797-7000,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion PRIME MODEL TSX-303A,2023-03-03
3,광양사랑병원,061-797-7000,자기공명영상촬영장치(MRI),MAGNETOM Essenza,2023-03-03
4,의료법인 현경의료재단 광양서울병원,061-798-9800,자기공명영상촬영장치(MRI),GE Signa Excite 1.5T MR System,2023-03-03
5,의료법인 현경의료재단 광양서울병원,061-798-9800,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquili...,2023-03-03


In [202]:
file['의료기관명']

0                  강남병원
1                  강남병원
2                광양사랑병원
3                광양사랑병원
4    의료법인 현경의료재단 광양서울병원
5    의료법인 현경의료재단 광양서울병원
Name: 의료기관명, dtype: object

In [204]:
file.iloc[5]

의료기관명                                      의료법인 현경의료재단 광양서울병원
의료기관전화번호                                         061-798-9800
의료장비명                                           전산화단층촬영장치(CT)
모델명         TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquili...
데이터기준일자                                            2023-03-03
Name: 5, dtype: object

In [206]:
file.loc[6] = ['플레이데이터', '012-345-6789', '의료장비','ENCORA','2023-03-06']

In [208]:
file

Unnamed: 0,의료기관명,의료기관전화번호,의료장비명,모델명,데이터기준일자
0,강남병원,061-818-7575,자기공명영상촬영장치(MRI),MAGNETOM Essenza,2023-03-03
1,강남병원,061-818-7575,전산화단층촬영장치(CT),SOMATOM Emotion 16-slice Configuration,2023-03-03
2,광양사랑병원,061-797-7000,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion PRIME MODEL TSX-303A,2023-03-03
3,광양사랑병원,061-797-7000,자기공명영상촬영장치(MRI),MAGNETOM Essenza,2023-03-03
4,의료법인 현경의료재단 광양서울병원,061-798-9800,자기공명영상촬영장치(MRI),GE Signa Excite 1.5T MR System,2023-03-03
5,의료법인 현경의료재단 광양서울병원,061-798-9800,전산화단층촬영장치(CT),TOSHIBA SCANNER Aquilion MODEL TSX-101A(Aquili...,2023-03-03
6,플레이데이터,012-345-6789,의료장비,ENCORA,2023-03-06


In [211]:
df["2010-2015 증가율"] =  df["2010-2015 증가율"] *100
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,-134.0
부산,경상권,3448737,3393191,3512547,3655437,-340.0
인천,수도권,2890451,2632035,2517680,2466338,454.0
대구,경상권,2466052,2431774,2456016,2473990,-99.0


In [212]:
df["2005-2010 증가율"] =  ((df["2010"] - df["2005"]) / df["2005"] *100 ).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-134.0,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-340.0,-3.4
인천,수도권,2890451,2632035,2517680,2466338,454.0,4.54
대구,경상권,2466052,2431774,2456016,2473990,-99.0,-0.99


In [214]:
del df["2010-2015 증가율"]
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [216]:
data = {
 "국어": [80, 90, 70, 30],
 "영어": [90, 70, 60, 40],
 "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [217]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [218]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [219]:
df[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [223]:
df["평균"] =  ((df["국어"] + df["영어"]+ df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [225]:
df[:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [226]:
df.T["향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [261]:
import random
import numpy as np

random.seed(0)
columns = ['A','B','C','D']
index = pd.date_range("20130206",periods = 6)
index

DatetimeIndex(['2013-02-06', '2013-02-07', '2013-02-08', '2013-02-09',
               '2013-02-10', '2013-02-11'],
              dtype='datetime64[ns]', freq='D')

In [262]:
df = pd.DataFrame(np.random.randn(6,4), index=index, columns=columns)

In [263]:
df

Unnamed: 0,A,B,C,D
2013-02-06,-0.729228,-0.385991,0.99104,1.152775
2013-02-07,-0.636613,0.730403,-0.401716,-1.478495
2013-02-08,-0.327078,0.532656,1.778345,-0.047343
2013-02-09,-0.288237,-0.248276,0.633592,-1.213681
2013-02-10,1.203639,-0.473568,-0.239065,-0.390519
2013-02-11,-0.860132,1.424838,0.218102,0.137955


In [265]:
np.random.seed(0)
dates = pd.date_range("2013-02-26",periods=6)
print(dates)
df3 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))
df3

DatetimeIndex(['2013-02-26', '2013-02-27', '2013-02-28', '2013-03-01',
               '2013-03-02', '2013-03-03'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


In [7]:
#series의 값이 많은 경우 ... 으로 생략
import pandas as pd

nums = pd.Series(range(500))
nums

0        0
1        1
2        2
3        3
4        4
      ... 
495    495
496    496
497    497
498    498
499    499
Length: 500, dtype: int64

In [8]:
#앞의 데이터를 추출해 볼때 사용 앞의 출력할 개수를 지정
nums.head(10)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [10]:
import numpy as np

nums = pd.Series([1,2,np.nan,4,5])
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [11]:
hello = pd.Series(list("hello"))
hello

0    h
1    e
2    l
3    l
4    o
dtype: object

In [13]:
#개수를 구해준다.nunique()
hello.nunique()

4

In [16]:
#nan 값과 상관 없이 전체 길이를 계산
len(hello)

5

In [17]:
#nan 값은 포함시키지 않고 데이터의 개수를 계산
nums.count()

4

In [20]:
#skipna 기본값  = True
nums.sum()

12.0

In [21]:
#skipna = False는 nan 포함
nums.sum(skipna = False)

nan

In [22]:
nums.mean()

3.0

In [23]:
nums.median()

3.0

In [24]:
nums.std()

1.8257418583505538

In [25]:
somechar = pd.Series(list("AaBbCc"))
somechar

0    A
1    a
2    B
3    b
4    C
5    c
dtype: object

In [26]:
somechar.max()

'c'

In [27]:
somechar.min()

'A'

## describe() = count,mean,std,median,max에 대한 모든 통계를 구해준다

In [29]:
nums.describe()

count    4.000000
mean     3.000000
std      1.825742
min      1.000000
25%      1.750000
50%      3.000000
75%      4.250000
max      5.000000
dtype: float64

In [30]:
hello.describe()

count     5
unique    4
top       l
freq      2
dtype: object

In [31]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [32]:
list(nums)

[1.0, 2.0, nan, 4.0, 5.0]

In [33]:
dict(nums)

{0: 1.0, 1: 2.0, 2: nan, 3: 4.0, 4: 5.0}

In [34]:
superheros = [
    "Batman",
    "Superman",
    "Spider-Man",
    "Iron Man",
    "Captain America",
    "Wonder Woman"
]
strength_levels = (100, 120, 90, 95, 110, 120)

In [35]:
s = pd.Series(data = strength_levels, index = superheros)

In [36]:
s

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [37]:
s.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [38]:
s.head(2)

Batman      100
Superman    120
dtype: int64

In [41]:
#nan 값은 포함시키지 않고 데이터의 개수를 계산
s.count()

6

In [42]:
#개수를 구해준다.nunique()
s.nunique()

5

In [43]:
s.mean()
s.median()
s.max()
s.min()

105.83333333333333

In [49]:
dict(s)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}

In [51]:
pd.read_csv("./datas/google_stocks.csv")

Unnamed: 0,Date,Close
0,2004-08-19,49.98
1,2004-08-20,53.95
2,2004-08-23,54.50
3,2004-08-24,52.24
4,2004-08-25,52.80
...,...,...
3819,2019-10-21,1246.15
3820,2019-10-22,1242.80
3821,2019-10-23,1259.13
3822,2019-10-24,1260.99
