## Pandas

In [1]:
import pandas as pd

### Series

### Series 생성
- #### Series() 함수

In [2]:
s1 =pd.Series([1,2,3])
type(s1)

pandas.core.series.Series

- #### ndarray 이용

In [5]:
import numpy as np
import pandas as pd

s2 = pd.Series(np.arange(200))
s2

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- #### data 와 index 함께 생성

In [7]:
s1 = pd.Series([1,2,3],[100,200,300]) #앞에는 데이터, 뒤에가 인덱스
s1

100    1
200    2
300    3
dtype: int64

In [10]:
fruit = pd.Series([2500,3800,1200],index=["apple","banana","lemon"])
print(fruit)

apple     2500
banana    3800
lemon     1200
dtype: int64


In [12]:
fruit.index

Index(['apple', 'banana', 'lemon'], dtype='object')

In [13]:
fruit.values

array([2500, 3800, 1200], dtype=int64)

In [14]:
fruit["apple"]

2500

In [15]:
fruit["apple"]=1500
fruit["apple"]

1500

- ### Series 분석

In [18]:
s = pd.Series([1,0,3,1,0,2,5,4,3,np.NaN])
s

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

- #### size

In [19]:
s.size

10

In [20]:
len(s)

10

- #### shape

In [21]:
s.shape

(10,)

- #### unique() 함수

In [22]:
s.unique()

array([ 1.,  0.,  3.,  2.,  5.,  4., nan])

- #### count() 함수

In [23]:
s.count() #nan 값 제외하고 반환

9

- #### mean() 함수

In [24]:
#nan값 빼고 나머지로 평균
s.mean()

2.111111111111111

- #### value_counts() 함수

In [25]:
s.value_counts() #각 값들의 빈도를 확인할 수 있도록

0.0    2
3.0    2
1.0    2
4.0    1
2.0    1
5.0    1
dtype: int64

- #### head(), tail() 함수

In [26]:
s.head() #앞에서부터 다섯개

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
dtype: float64

In [28]:
s.tail() #뒤에서부터 다섯개 

5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

In [29]:
s.tail(3) #내가 보고 싶은 개수만큼 지정해줄 수 있음.

7    4.0
8    3.0
9    NaN
dtype: float64

## Series 연산 

- #### index 기준으로 연산

In [32]:
s1 = pd.Series([1,2,3,4,5],['a','b','c','d','x'])
s2 = pd.Series([9,6,3,2,1],['d','c','b','a','y'])


In [33]:
print(s1)
print(s2)

a    1
b    2
c    3
d    4
x    5
dtype: int64
d    9
c    6
b    3
a    2
y    1
dtype: int64


In [34]:
s1*2

a     2
b     4
c     6
d     8
x    10
dtype: int64

In [35]:
s1+s2 #같은 인덱스끼리는 연산이 되고 각각 갖고 있는 것은 없으므로 nan으로 반환 

a     3.0
b     5.0
c     9.0
d    13.0
x     NaN
y     NaN
dtype: float64

In [36]:
s1*s2

a     2.0
b     6.0
c    18.0
d    36.0
x     NaN
y     NaN
dtype: float64

- #### 논리값을 이용한 Series 인덱싱

In [37]:
s = pd.Series([1,0,3,1,0,2,5,4,3,np.NaN])
s

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

In [38]:
s>3 #데이터 중 3보다 큰 값이 있는 지 확인 -> true,false로 반환 

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
8    False
9    False
dtype: bool

In [40]:
#3보다 큰 데이터만 갖고오기
s[s>3]

6    5.0
7    4.0
dtype: float64

In [42]:
s[s%2 ==0] #짝수인 값 갖고와줘.

1    0.0
4    0.0
5    2.0
7    4.0
dtype: float64

In [44]:
s[(s>3) & (s<5)]

7    4.0
dtype: float64

In [46]:
#3 보다 큰 값이 몇 개인지 반환
print((s>3).sum())
#3보다 큰 값을 갖는 애들을 더하기
print(s[s>3].sum())

2
9.0


### Series 변경과 슬라이싱

In [50]:
s=pd.Series(np.arange(10,20,2),['a','b','c','d','e'])
s


a    10
b    12
c    14
d    16
e    18
dtype: int32

In [49]:
s['a']=20  #a라는 데이터에 접근해서 그 값을 20으로 바꿔줘
s

a    20
b    12
c    14
d    16
e    18
dtype: int32

In [51]:
s['x'] =30 #없는 데이터는 뒤에 추가
s

a    10
b    12
c    14
d    16
e    18
x    30
dtype: int64

- #### 데이터 변경
    - #### index, drop() 함수 이용

In [None]:
s.drop('a') #s데이터의 a인덱스 값으 삭제해줘

- #### 슬라이싱

In [52]:
s[1:3]

b    12
c    14
dtype: int64

In [53]:
s['c':'d'] #인덱스 이름으로도 지정해줄 수 있음

c    14
d    16
dtype: int64

In [55]:
s

a    10
b    12
c    14
d    16
e    18
x    30
dtype: int64

## Pandas

In [1]:
import pandas as pd

### Series

### Series 생성
- #### Series() 함수

In [2]:
s1 =pd.Series([1,2,3])
type(s1)

pandas.core.series.Series

- #### ndarray 이용

In [5]:
import numpy as np
import pandas as pd

s2 = pd.Series(np.arange(200))
s2

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- #### data 와 index 함께 생성

In [7]:
s1 = pd.Series([1,2,3],[100,200,300]) #앞에는 데이터, 뒤에가 인덱스
s1

100    1
200    2
300    3
dtype: int64

In [10]:
fruit = pd.Series([2500,3800,1200],index=["apple","banana","lemon"])
print(fruit)

apple     2500
banana    3800
lemon     1200
dtype: int64


In [12]:
fruit.index

Index(['apple', 'banana', 'lemon'], dtype='object')

In [13]:
fruit.values

array([2500, 3800, 1200], dtype=int64)

In [14]:
fruit["apple"]

2500

In [15]:
fruit["apple"]=1500
fruit["apple"]

1500

- ### Series 분석

In [18]:
s = pd.Series([1,0,3,1,0,2,5,4,3,np.NaN])
s

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

- #### size

In [19]:
s.size

10

In [20]:
len(s)

10

- #### shape

In [21]:
s.shape

(10,)

- #### unique() 함수

In [22]:
s.unique()

array([ 1.,  0.,  3.,  2.,  5.,  4., nan])

- #### count() 함수

In [23]:
s.count() #nan 값 제외하고 반환

9

- #### mean() 함수

In [24]:
#nan값 빼고 나머지로 평균
s.mean()

2.111111111111111

- #### value_counts() 함수

In [25]:
s.value_counts() #각 값들의 빈도를 확인할 수 있도록

0.0    2
3.0    2
1.0    2
4.0    1
2.0    1
5.0    1
dtype: int64

- #### head(), tail() 함수

In [26]:
s.head() #앞에서부터 다섯개

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
dtype: float64

In [28]:
s.tail() #뒤에서부터 다섯개 

5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

In [29]:
s.tail(3) #내가 보고 싶은 개수만큼 지정해줄 수 있음.

7    4.0
8    3.0
9    NaN
dtype: float64

## Series 연산 

- #### index 기준으로 연산

In [32]:
s1 = pd.Series([1,2,3,4,5],['a','b','c','d','x'])
s2 = pd.Series([9,6,3,2,1],['d','c','b','a','y'])


In [33]:
print(s1)
print(s2)

a    1
b    2
c    3
d    4
x    5
dtype: int64
d    9
c    6
b    3
a    2
y    1
dtype: int64


In [34]:
s1*2

a     2
b     4
c     6
d     8
x    10
dtype: int64

In [35]:
s1+s2 #같은 인덱스끼리는 연산이 되고 각각 갖고 있는 것은 없으므로 nan으로 반환 

a     3.0
b     5.0
c     9.0
d    13.0
x     NaN
y     NaN
dtype: float64

In [36]:
s1*s2

a     2.0
b     6.0
c    18.0
d    36.0
x     NaN
y     NaN
dtype: float64

- #### 논리값을 이용한 Series 인덱싱

In [37]:
s = pd.Series([1,0,3,1,0,2,5,4,3,np.NaN])
s

0    1.0
1    0.0
2    3.0
3    1.0
4    0.0
5    2.0
6    5.0
7    4.0
8    3.0
9    NaN
dtype: float64

In [38]:
s>3 #데이터 중 3보다 큰 값이 있는 지 확인 -> true,false로 반환 

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
8    False
9    False
dtype: bool

In [40]:
#3보다 큰 데이터만 갖고오기
s[s>3]

6    5.0
7    4.0
dtype: float64

In [42]:
s[s%2 ==0] #짝수인 값 갖고와줘.

1    0.0
4    0.0
5    2.0
7    4.0
dtype: float64

In [44]:
s[(s>3) & (s<5)]

7    4.0
dtype: float64

In [46]:
#3 보다 큰 값이 몇 개인지 반환
print((s>3).sum())
#3보다 큰 값을 갖는 애들을 더하기
print(s[s>3].sum())

2
9.0


### Series 변경과 슬라이싱

In [50]:
s=pd.Series(np.arange(10,20,2),['a','b','c','d','e'])
s


a    10
b    12
c    14
d    16
e    18
dtype: int32

In [49]:
s['a']=20  #a라는 데이터에 접근해서 그 값을 20으로 바꿔줘
s

a    20
b    12
c    14
d    16
e    18
dtype: int32

In [51]:
s['x'] =30 #없는 데이터는 뒤에 추가
s

a    10
b    12
c    14
d    16
e    18
x    30
dtype: int64

In [None]:
s.drop('a') #s데이터의 a인덱스 값으 삭제해줘

- #### 데이터 변경
    - #### index, drop() 함수 이용

- #### 슬라이싱

In [52]:
s[1:3]

b    12
c    14
dtype: int64

In [53]:
s['c':'d'] #인덱스 이름으로도 지정해줄 수 있음.

c    14
d    16
dtype: int64

In [55]:
s

a    10
b    12
c    14
d    16
e    18
x    30
dtype: int64