# Pandas
--------

## > Series의 값이 많은 경우

In [8]:
import pandas as pd
import numpy as np
nums = pd.Series(range(500))
nums

0        0
1        1
2        2
3        3
4        4
      ... 
495    495
496    496
497    497
498    498
499    499
Length: 500, dtype: int64

#### -> 데이터 개수가 많아지면 처음 5개, 끝 5개를 출력해준다.
#### -> 수 많은 데이터를 한 번에 출력하게되면 프로그램 자체가 느려진다.

## > Series head() 메서드

In [9]:
# 앞의 데이터를 출력해 볼 수 있는 메서드
nums.head() # default. 5개의 값을 출력

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [10]:
nums.head(10)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

## > Series tail() 메서드

In [11]:
# 뒤의 값을 볼때 사용하는 메서드
nums.tail()

495    495
496    496
497    497
498    498
499    499
dtype: int64

In [12]:
nums.tail(10)

490    490
491    491
492    492
493    493
494    494
495    495
496    496
497    497
498    498
499    499
dtype: int64

## > Series 수학 연산

In [13]:
nums = pd.Series([1, 2, np.nan, 4, 5])
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

## > Series 수학 연산 nunique() 메서드

![image.png](attachment:ad73cdf8-bb4d-4134-886c-dadb5c556ad9.png)

In [15]:
hello = pd.Series(list("hello"))
hello

0    h
1    e
2    l
3    l
4    o
dtype: object

In [16]:
hello.nunique()

4

## > Series 수학 연산 count() 메서드

In [17]:
nums.count()

4

In [18]:
len(nums)

5

#### -> count()메서드는 데이터의 개수를 계산. nan값에 대해서는 개수에 포함 시키지 않음.

## > Series  수학 연산 sum() 메서드

![image.png](attachment:84bcec0e-a6bb-4d52-a2be-7c12e1cfd852.png)

In [19]:
nums.sum()

12.0

In [20]:
nums.sum(skipna=False)

nan

## > Series -> mean(), median(), std(), max(), min() 메서드

In [21]:
nums.mean() # 평균값

3.0

In [22]:
nums.median() # 중앙값

3.0

In [23]:
nums.std() # 표준편차를 구해주는 메서드

1.8257418583505538

In [24]:
nums.max()

5.0

In [25]:
nums.min()

1.0

In [26]:
somechar = pd.Series(list("AaBbCc"))
somechar

0    A
1    a
2    B
3    b
4    C
5    c
dtype: object

In [27]:
somechar.max()

'c'

In [29]:
somechar.min()

'A'

#### -> Series의 값이 문자인 경우도 최댓값, 최소값을 구할 수 있음

In [30]:
ord('a')

97

In [31]:
ord('A')

65

#### -> ord() 함수는 하나의 문자를 Unicode 숫자로 변경.
#### -> 대문자 소문자 마다 이미 정해져 있음  

## > Series 수학 연산 describe()메서드

![image.png](attachment:8a36e359-d537-4d06-81cc-d972ccd94ee0.png)

In [32]:
nums.describe()

count    4.000000
mean     3.000000
std      1.825742
min      1.000000
25%      1.750000
50%      3.000000
75%      4.250000
max      5.000000
dtype: float64

In [33]:
hello.describe()

count     5
unique    4
top       l
freq      2
dtype: object

#### -> 분포의 정도를 한 번에 볼 수 있는 메서드

## > Series의 변환

In [34]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [35]:
list(nums)

[1.0, 2.0, nan, 4.0, 5.0]

In [36]:
dict(nums)

{0: 1.0, 1: 2.0, 2: nan, 3: 4.0, 4: 5.0}

#### -> Series는 파이썬의 기본 자료구조로 변경 가능.

In [40]:
# 연습문제1
# Series 생성

superheros = [
    "Batman",
    "Superman",
    "Spider-Man",
    "Iron Man",
    "Captain America",
    "Wonder Woman"
]
strength_levels = (100, 120, 90, 95, 110, 120)

s = pd.Series(strength_levels, superheros)
s

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [48]:
# 연습문제2
s.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [49]:
# 연습문제3
s.nunique()

5

In [59]:
# 연습문제4
print(s.mean())
print(s.median())
print(s.max())
print(s.min())

105.83333333333333
105.0
120
90


In [60]:
# 연습문제5
dict(s)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}

## > Pandas 데이터 입출력

![image.png](attachment:badcd7d8-c8d5-4407-8083-177db42d53a8.png)

## > csv 파일을 Series로 데이터 읽어오기

In [70]:
import pandas as pd
import numpy as np

In [96]:
pokemons = pd.read_csv("datas/pokemon.csv", index_col = "Pokemon").squeeze()

In [97]:
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [98]:
print(pokemons.count())  # 총개수
print(pokemons.nunique()) # 고유한 값의 종류
print(pokemons.max()) # 제일 많이 갖고 있는 값
#print(p()) # 제일 많이 갖는 값의 개수

809
159
Water / Steel


## > Series의 값 정렬하기 sort_values()메서드

In [99]:
pokemons.sort_values()

Pokemon
Illumise                Bug
Silcoon                 Bug
Pinsir                  Bug
Burmy                   Bug
Wurmple                 Bug
                  ...      
Tirtouga       Water / Rock
Relicanth      Water / Rock
Corsola        Water / Rock
Carracosta     Water / Rock
Empoleon      Water / Steel
Name: Type, Length: 809, dtype: object

In [100]:
# 내림차순 정렬
pokemons.sort_values(ascending = False)

Pokemon
Empoleon      Water / Steel
Corsola        Water / Rock
Relicanth      Water / Rock
Carracosta     Water / Rock
Tirtouga       Water / Rock
                  ...      
Kricketune              Bug
Cascoon                 Bug
Scatterbug              Bug
Kricketot               Bug
Grubbin                 Bug
Name: Type, Length: 809, dtype: object

## > csv 파일을 Series로 데이터 읽어오기

In [103]:
# parse_dates는 csv파일에서 데이터를 읽어들일 때
# 날짜/시간으로 파싱해야하는 컬럼을 지정할 수 있습니다.

In [102]:
google  = pd.read_csv("datas/google_stocks.csv",
                      parse_dates=["Date"],
                      index_col="Date",
                      ).squeeze("columns")
google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

In [None]:
# usecole 인수를 활용하면
# csv 파일로부터 pandas가 가져와야하는 일의 목록을 지정할 수 있습니다.

In [104]:
war = pd.read_csv("datas/revolutionary_war.csv",
                  usecols=["Start Date", "State"],
                  parse_dates=["Start Date"],
                  index_col="Start Date").squeeze()
                  

In [105]:
war

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

In [117]:
# 연습문제6
print(len(war[war.isnull()])) # nan 값을 갖는 데이터 총 개수
print(len(war[war.notnull()])) # nan 값을 제외한 데이터 총 개수
print(war.nunique()) # 유일한 값의 개수

70
162
17


## > Series의 값 정렬하기 sort_values()메서드

In [120]:
war.sort_values(na_position="first")

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

In [121]:
war.sort_values(na_position="last")

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1782-08-08            NaN
1782-08-25            NaN
1782-09-13            NaN
1782-10-18            NaN
1782-12-06            NaN
Name: State, Length: 232, dtype: object

#### -> na_position 이라는 인수에 first, last값을 넣어주면 정렬됨

## > Series의 값 중 nan 배제하기 dropna()

In [122]:
war.dropna()

Start Date
1774-09-01     Massachusetts
1774-12-14     New Hampshire
1775-04-19     Massachusetts
1775-04-19     Massachusetts
1775-04-20          Virginia
                   ...      
1782-08-15          Virginia
1782-08-19          Virginia
1782-08-26    South Carolina
1782-09-11          Virginia
1783-01-22          Virginia
Name: State, Length: 162, dtype: object

## > Series의 index를 기준으로 정렬하기

In [124]:
# index를 기준으로 정렬
pokemons.sort_index(ascending=True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [125]:
war.sort_index()

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

#### -> NaT는 Not a Time의 줄임말로, NaN은 float인 반면 NaT는 날짜/시간 유형의 데이터다.

In [126]:
# sort_index()메서드에도 na_position 인수를 사용할 수 있다.

war.sort_index(na_position="first")

Start Date
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
1774-09-01    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

In [127]:
war.sort_index(na_position="last")

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

## > Series의 index에 NaT 배제하기(참고)

In [128]:
# Series의 index에 포함된 NaT 값을 배제하는 두가지 방법
war.loc[war.index.dropna()]

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-19    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 250, dtype: object

In [129]:
war.loc[war.index.notnull()]

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 228, dtype: object

In [135]:
# 연습문제7

size = google.sort_index(na_position="first")
print(size.head(10)) # 작은값 10개
print(size.tail(10)) # 큰값 10개

Date
2004-08-19    49.98
2004-08-20    53.95
2004-08-23    54.50
2004-08-24    52.24
2004-08-25    52.80
2004-08-26    53.75
2004-08-27    52.88
2004-08-30    50.81
2004-08-31    50.99
2004-09-01    49.94
Name: Close, dtype: float64
Date
2019-10-14    1217.14
2019-10-15    1243.01
2019-10-16    1243.64
2019-10-17    1253.07
2019-10-18    1245.49
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, dtype: float64


## > Series nsmallest(), nlargest() 메서드

In [137]:
google.nlargest(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64

In [138]:
google.nsmallest(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

#### -> 앞서 구한 메서드 방식도 있지만, nlargest(), nsmallest() 메서드를 사용해도 동일한 값이 나온다.

## > Series value_counts() 메서드


![image.png](attachment:b6c6eadf-9536-474d-b008-526bc0480ff5.png)

In [140]:
# 고유한 값 / nunique() 와 같은 값 

pokemons.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

![image.png](attachment:faef83af-b503-4bf7-93f8-862d7889408d.png)

In [143]:
bins = np.linspace(0, 1400, 8)
bins

array([   0.,  200.,  400.,  600.,  800., 1000., 1200., 1400.])

In [145]:
google.value_counts(bins=bins)

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [162]:
#google.value_counts(bins=bins).sort_index()


In [164]:
google.value_counts(bins=8, sort=True)

(204.54, 359.26]      1435
(48.581, 204.54]       651
(513.98, 668.7]        466
(668.7, 823.42]        334
(978.14, 1132.86]      283
(359.26, 513.98]       263
(1132.86, 1287.58]     231
(823.42, 978.14]       161
Name: Close, dtype: int64

In [165]:
google.value_counts(bins=8, sort=False)

(48.581, 204.54]       651
(204.54, 359.26]      1435
(359.26, 513.98]       263
(513.98, 668.7]        466
(668.7, 823.42]        334
(823.42, 978.14]       161
(978.14, 1132.86]      283
(1132.86, 1287.58]     231
Name: Close, dtype: int64

#### -> 범주를 정수로 전달하면 그 정수만큼 알아서 구간을 나눈다.
#### -> 단, 구간의 크기가 일정치 않을 수 있다.
#### -> 해당 메서드는 대략적으로 데이터의 분포를 살펴보기에 좋다.

## > Pandas 데이터 csv로 출력하기

In [168]:
data = {"c1" : [1, 2, "누락"],
        "c2" : [1.11, "", 3.33],
        "c3" : ["one", "two", "three"]}
columns = ["c1", "c2", "c3"]
index = [0, 1, 2]

df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [170]:
df.to_csv("datas/sample1.csv", index=False)

In [179]:
%pwd

'C:\\Users\\user'

In [180]:
# %cd를 실행할 경우 경로가 바뀌기 때문에 아래와같이 수정 필요
%cd c:\\python

c:\python


## > Pandas csv로부터 데이터 입력하기

In [181]:
# * 오른쪽에 오는 것은 키워드로 입력 

df_read = pd.read_csv("datas/sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


## > Pandas 데이터 csv로 출력하기

In [188]:
df.to_csv("sample2.csv", index=False, header=False)

In [194]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


![image.png](attachment:72c70906-1520-4445-b564-6ebf970a7715.png)

In [191]:
%%writefile datas/sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing datas/sample3.txt


![image.png](attachment:90df75aa-9856-46bf-84f6-6a91a2e34614.png)

In [193]:
pd.read_table('datas/sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


## > Pandas 데이터 csv로 출력하기

In [195]:
%%writefile datas/sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing datas/sample4.txt


In [198]:
pd.read_csv('datas/sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


## > Pandas csv로부터 데이터 출력하기

In [199]:
df_na_val = pd.read_csv('datas/sample1.csv', na_values=['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### -> 데이터로 불러올 자료 안 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣습니다.

## > Pandas 데이터 csv로 출력하기

In [200]:
df_na_val.to_csv('datas/sample5.txt', sep='|')

In [201]:
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [202]:
df_na_val.to_csv('datas/sample6.txt', na_rep='누락')

## > 온라인의 csv 파일 가져오기

In [203]:
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")

In [204]:
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


#### -> 앞이나 뒤의 특정 개수만 보고 싶다면 head(), tail() 메서드를 사용하면 된다.

In [216]:
temp = pd.read_csv("datas/인천광역시_온도_202111.csv", encoding="cp949")

In [217]:
temp

Unnamed: 0,센서명,시간,위도,경도,지오해시,시,군구,동,온도
0,M-IOT-00000007,2021-11-01 00:00:00,37.433252,126.728497,wydhgy8b,인천광역시,남동구,수산동,19.566
1,M-IOT-00000007,2021-11-01 00:00:01,37.433252,126.728840,wydhgy90,인천광역시,남동구,수산동,19.539
2,M-IOT-00000007,2021-11-01 00:00:02,37.433252,126.729183,wydhgy92,인천광역시,남동구,수산동,19.496
3,M-IOT-00000007,2021-11-01 00:00:03,37.433252,126.729527,wydhgy98,인천광역시,남동구,수산동,19.539
4,M-IOT-00000007,2021-11-01 00:00:04,37.433252,126.729870,wydhgy9b,인천광역시,남동구,수산동,19.510
...,...,...,...,...,...,...,...,...,...
24330856,M-IOT-000000B3,2021-11-05 09:21:21,37.475309,126.631336,wydj1w4j,인천광역시,동구,송현동,28.568
24330857,M-IOT-000000B3,2021-11-05 09:21:22,37.475138,126.631336,wydj1w4h,인천광역시,동구,송현동,28.568
24330858,M-IOT-000000B3,2021-11-05 09:21:23,37.475138,126.630993,wydj1w1u,인천광역시,중구,인현동,28.779
24330859,M-IOT-000000B3,2021-11-05 09:21:24,37.475138,126.630993,wydj1w1u,인천광역시,중구,인현동,28.779
