# Pandas
정형 데이터를 처리하는 라이브러리<br>
엘셀, csv 형태의 데이터 처리

# 데이터 타입 종류
## 1. series
- 데이터프레임의 하위 자료형, 1개의 열
- index - value 쌍으로 이루어져 있음 =>데이터의 순서 - 들어있는 데이터 => 순서가 있는 데이터 구조
- 인덱싱 가능(인덱스로 접근 가능)
- 한가지 타입만 사용할 수 있다.
- 순서 사용자 지정 가능
- 딕셔너리, 리스트를 이용하여 시리즈 구성 가능
- 비교연산자를 이용한 데이터 찾기 가능

## 2. dataframe
- 시리즈가 모인 행과 열로 이루어진 표(table)
- index - column - value
- columns를 이용하여 이름을 지정할 수 있다.
- 보통 이중 리스트 형태를 사용한다.
- 2개 이상의 컬럼을 시리즈 형태로 추출은 불가능 => 데이터프레임 형태로 가져와야한다.

# 참고
- 데이터타입 확인 => .dtype
- sum() => 합
- mean) => 평균


# Seriese

In [23]:

import pandas as pd

# 리스트 형태로 지정하기
# 기본적으로 value지정하면 index => 0~ 주어진다.
s1 = pd.Series([1,2,3])
print(s1,end='\n\n')

# value, index, name을 사용자가 지정할 수 있다.
s2 = pd.Series(['홍길동','감동란','반숙란'],index=['1','2','0'],name='기세현')
print(s2)


0    1
1    2
2    3
dtype: int64

1    홍길동
2    감동란
0    반숙란
Name: 기세현, dtype: object


In [24]:
s1.dtype

dtype('int64')

In [25]:
# 딕셔너리 형태로 지정하기
# 딕셔너리의 key값이 Series의 index로 지정됨
# value값에 string, int 등 타입이 다른 값이 들어가면 => 하나로 맞춰줌

s3 = pd.Series({'name':'홍길동','age':26,'gender':'male','job':'엔지니어링'})
s3


name        홍길동
age          26
gender     male
job       엔지니어링
dtype: object

In [26]:
# 변수로 선언한 후 .Series(변수) => 해당 변수를 Series타입으로 바꿔줌

dic1 = {'name':'홍길동','age':26,'gender':'male','job':'사랑꾼'}
pd.Series(dic1)


name       홍길동
age         26
gender    male
job        사랑꾼
dtype: object

In [27]:
# 인덱싱 가능하다.
# 구간 지정, 특정 인덱스 값만 가져오기 등 가능

s4 = pd.Series(['국어','수학','사회','과학'])
s4

0    국어
1    수학
2    사회
3    과학
dtype: object

In [28]:
s4[1]


'수학'

In [29]:
print(s3['name'])
print(s3['job'])


홍길동
엔지니어링


In [30]:
# 비교 연산자를 이용한 데이터 찾기
s3 == '홍길동'

name       True
age       False
gender    False
job       False
dtype: bool

In [31]:
# s3의 value가 '기세현'인 것만 출력해라.
s3[ s3=='홍길동']


name    홍길동
dtype: object

In [32]:
# s3의 value가 '기세현'인 것의 index추출해라.
# 인덱스 값만 출력하고 싶다 => .index[0]요래하면 된다.(dtype은 보통 접근하지 않는다.)
# s3[ s3=='기세현'].index
# => Index(['name'], dtype='object')
s3[ s3=='홍길동'].index[0]

'name'

In [33]:
# 인덱스의 값을 찾는것도 가능하다.
index1 = s3[s3.index =='cafe']
index2 = s3[s3.index =='name']
print(index1)
print(index2)


Series([], dtype: object)
name    홍길동
dtype: object


# Dataframe

In [34]:
pd.DataFrame([10,20,30,40,50])

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [35]:
# 이중 리스트 형태
pd.DataFrame([[10,20,30,40],
              ['고양','원흥','백석','지축']])

Unnamed: 0,0,1,2,3
0,10,20,30,40
1,고양,원흥,백석,지축


In [36]:
# columns를 이용하여 이름을 지정할 수 있다.

df1 = pd.DataFrame([[1000,'과자','2019-12-31','반품'],
              [2000,'음료','2020-03-02','정상'],
              [2000,'아이스크림','2020-02-03','정상'],
              [2000,'과자','2019-12-31','반품']],
              columns=['가격','종류','판매일자','반품여부'])
df1

Unnamed: 0,가격,종류,판매일자,반품여부
0,1000,과자,2019-12-31,반품
1,2000,음료,2020-03-02,정상
2,2000,아이스크림,2020-02-03,정상
3,2000,과자,2019-12-31,반품


In [37]:
# 인덱싱을 하여 가져오면 시리즈 형태로 가져오게 됨
df1['가격']

0    1000
1    2000
2    2000
3    2000
Name: 가격, dtype: int64

In [38]:
df1.loc[0].values

array([1000, '과자', '2019-12-31', '반품'], dtype=object)

In [39]:
df1['반품여부']

0    반품
1    정상
2    정상
3    반품
Name: 반품여부, dtype: object

In [40]:
# 데이터타입 확인방법
df1.dtypes

가격       int64
종류      object
판매일자    object
반품여부    object
dtype: object

In [41]:
df1['가격'].sum()

7000

In [42]:
df1['가격'].mean()

1750.0

In [43]:
# 시리즈 형태가 아닌 데이터프레임 형태로 가져오기
# 이중괄호 사용
df1[['가격']]

Unnamed: 0,가격
0,1000
1,2000
2,2000
3,2000


In [44]:
# 2개 이상의 컬럼을 시리즈 형태로 추출은 불가능 => 데이터프레임 형태로 가져와야한다.
df1[['가격','반품여부']]


Unnamed: 0,가격,반품여부
0,1000,반품
1,2000,정상
2,2000,정상
3,2000,반품
