# 11.1 Pandas의 기초
## Pandas의 데이터 형식
- 시리즈(Series)
 - 1차원 배열
- 데이터프레임(DataFrame)
 - 2차원 배열

## 시리즈
### 시리즈
- 복수의 행(row)으로 이루어진 하나의 열(column) 구조
- 색인(index)을 가지고 원하는 데이터에 접근할 수 있음
- 자동으로 색인을 만들어 줌

In [1]:
import pandas as pd
pd.Series([7,3,5,8])

0    7
1    3
2    5
3    8
dtype: int64

- 자동으로 색인을 만들지 않고 index 키워드를 사용해 원하는 색인의 이름을 입력


In [2]:
x = pd.Series([7,3,5,8], index=['서울','대구','부산','광주'])
print(x)
x['서울']

서울    7
대구    3
부산    5
광주    8
dtype: int64


7

- 색인을 나열하여 원하는 값들을 출력

In [3]:
x[['서울','대구']]

서울    7
대구    3
dtype: int64

### index
- 만들어진 시리즈에서 인덱스만을 출력 

In [4]:
x.index

Index(['서울', '대구', '부산', '광주'], dtype='object')

### values
- 만들어진 시리즈 데이터에서 값들만을 출력

In [5]:
x.values

array([7, 3, 5, 8])

### sorted() 함수
- 인덱스나 값들로 정렬 

In [6]:
print(sorted(x.index))
print(sorted(x.values))

['광주', '대구', '부산', '서울']
[3, 5, 7, 8]


In [7]:
sorted(x.values)

[3, 5, 7, 8]

In [8]:
print(x.reindex(sorted(x.index)))
print(x.reindex(sorted(x.values))) # 이건 안 되네 

광주    8
대구    3
부산    5
서울    7
dtype: int64
3   NaN
5   NaN
7   NaN
8   NaN
dtype: float64


### 시리즈의 합
- 인덱스별로 저장된 값들의 합을 구함
- x와 y에 공통된 인덱스가 존재해야 더할 수 있으므로 광주와 대전은 NaN으로 표시

In [9]:
x = pd.Series([3,8,5,9], index=['서울', '대구','부산','광주'])
y = pd.Series([2,4,5,1], index=['대구', '부산','서울','대전'])
x+y

광주     NaN
대구    10.0
대전     NaN
부산     9.0
서울     8.0
dtype: float64

### unique()
- 시리즈부터 유일한 값들만을 반환 

In [10]:
medal = [1,3,2,4,2,3]
x = pd.Series(medal)
print(pd.unique(x))

[1 3 2 4]


In [11]:
medal = ['민준', '현우','서연','동현','서연','현우']
x = pd.Series(medal)
print(pd.unique(x))

['민준' '현우' '서연' '동현']


### 사전 형식의 데이터를 Series로 반환 

In [12]:
age = {'민준':23, '현우':43, '서연':12, '동현':45}
x = pd.Series(age)
x

민준    23
현우    43
서연    12
동현    45
dtype: int64

In [13]:
names = ['민준', '서연','현우','민서','동현','수빈']
pdata = pd.Series(names)
print(pdata)

0    민준
1    서연
2    현우
3    민서
4    동현
5    수빈
dtype: object


In [14]:
a = pdata[3:6]
print(a.values)

['민서' '동현' '수빈']


In [15]:
print(a[2])

KeyError: 2

리스트의 개념에 따르면, a변수의 2번 인덱스에 저장된 값인 '수빈'이 출력되어야 하는데, Pandas의 Series 형태로 된 변수 a에서는 에러 발생

In [16]:
print(a)

3    민서
4    동현
5    수빈
dtype: object


Pandas의 Series 기본 구조에서는 이름 앞에 인덱스 번호 정해짐. 앞에서 슬라이싱할 때 이들의 값까지 삭제된 것.
일반 배열에서의 인덱스와 다르다!

|종류|예제|설명|
|:---:|:---:|:---:|
|일반적인 인덱스|b = a[1:2]|슬라이싱 시에는 일반 배열의 인덱스 형식으로 동작|
| |print(b)  # 4 동현 출력||
|Pandas의 인덱스|print(a[5]) #'수빈' 출력|Pandas Series의 인덱스 사용|

## 데이터프레임
### 데이터프레임(DataFrame)
- 2차원 배열
- 행과 열로 구성
- 열(Column)에 대한 각각의 이름을 부여 

In [17]:
data = {'age' : [23, 43, 12, 45],
        'name' : ['민준', '현우', '서연', '동현'],
        'height' : [175.3, 180.3, 165.8, 172.7]}
x = pd.DataFrame(data, columns = ['name', 'age', 'height'])
x

Unnamed: 0,name,age,height
0,민준,23,175.3
1,현우,43,180.3
2,서연,12,165.8
3,동현,45,172.7


In [18]:
x.name

0    민준
1    현우
2    서연
3    동현
Name: name, dtype: object

In [20]:
ary = [[1,2],[3,4],[5,6]]
data = pd.DataFrame(ary, columns=['First', 'Second'])
data

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [21]:
data.iloc[1]

First     3
Second    4
Name: 1, dtype: int64

In [22]:
data.iloc[:, -1]

0    2
1    4
2    6
Name: Second, dtype: int64

In [23]:
ary = [[1,2],[3,4],[5,6]]
data = pd.DataFrame(ary, columns=['First', 'Second'])
data.head(3)

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [24]:
data.tail(3)

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [25]:
ary = [[1,2],[3,4],[5,6],[7,8],[9,10]]
data = pd.DataFrame(ary, columns=['First', 'Second'])

In [27]:
bools = [False, True, True, False, True]
data.Second[bools]

1     4
2     6
4    10
Name: Second, dtype: int64

In [29]:
print(x.mean(axis=0))

age        30.750
height    173.525
dtype: float64


  print(x.mean(axis=0))


In [30]:
data = {'age' : [23, 43, 12, 45],
        'name' : ['민준', '현우', '서연', '동현'],
        'height' : [175.3, 180.3, 165.8, 172.7]}
x = pd.DataFrame(data, columns = ['name', 'age', 'height'])
index = [True, False, True, False]
print(x[index])

  name  age  height
0   민준   23   175.3
2   서연   12   165.8


In [31]:
import pandas as pd
import numpy as np
ary = [[1,2],[3,4],[5,6],[7,8],[9,10]]
data = pd.DataFrame(ary, columns=['수온', '상온'])
data

Unnamed: 0,수온,상온
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


In [32]:
data['수온'] = data['수온'].astype('float')
data

Unnamed: 0,수온,상온
0,1.0,2
1,3.0,4
2,5.0,6
3,7.0,8
4,9.0,10


In [37]:
import pandas as pd
accident = pd.read_csv('acci.csv')
accident

FileNotFoundError: [Errno 2] No such file or directory: 'acci.csv'