- pandas는 2개의 자료구조를 사용
- numpy를 기본으로 그 위에 Series와 Dataframe이라는 자료구조를 정의하여 사용
---

1. Series :  동일한 데이터 타입의 복수개의 성분으로 구성
2. Dataframe : Table 형식으로 데이터를 저장하는 자료구조

- pandas는 따로 설치해야함

In [3]:
import numpy as np
import pandas as pd

- Series
- ndarray와 비슷하다
- 1차원 자료구조, 같은 데이터 타입이 들어온다

In [7]:
arr = np.array([1,2,3,4,5], dtype=np.float64)
print(arr)
# 결국 문자열로 바뀜
arr = np.array([1, 3.14, True, 'Hello'], dtype=np.object)
print(arr)

[1. 2. 3. 4. 5.]
[1 3.14 True 'Hello']


In [12]:
# ndarray와 조금 다름, 1차원 자료구조
s = pd.Series([1,2,3,4,5], dtype=np.float64)
print(s)
print('Series의 값만 가져오기 : {}'.format(s.values))
print('Series의 index만 가져오기 : {}'.format(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
Series의 값만 가져오기 : [1. 2. 3. 4. 5.]
Series의 인덱스만 가져오기 : RangeIndex(start=0, stop=5, step=1)


In [15]:
s = pd.Series([1,5,8,10], 
              dtype=np.int32,
             index=['a','b','c','d'])
print(s)
# 이때 5라는 값을 출력할려면?
# 숫자 인덱스도 같이 사용가능

print(s['b'])
print(s[1])

a     1
b     5
c     8
d    10
dtype: int32
5
5


In [29]:
# 만약 인덱스를 동일하게 설정했다면
# 내부 숫자 인덱스가 있어 가능
s = pd.Series([1,5,8,10], 
              dtype=np.int32,
             index=['a','b','a','d'])
print(s)
result = s['a']
print(result)
print(type(result))

a     1
b     5
a     8
d    10
dtype: int32
a    1
a    8
dtype: int32
<class 'pandas.core.series.Series'>


In [31]:
print(s['a']+s['b'] < 10)

a     True
a    False
dtype: bool


In [36]:
# Slicing
s = pd.Series([1,5,8,10], 
              dtype=np.int32,
              index=['a', 1, 'c','d'])
print(s[0:3])
# 내가 지정한 index로 하면 마지막까지 포함한다
# 어차피 내장된 숫자 index를 이용하여 출력하는거 같음
print(s['a':'d'])

a    1
1    5
c    8
dtype: int32
a     1
1     5
c     8
d    10
dtype: int32


In [39]:
# fancy indexing
s = pd.Series([1,5,8,10], 
              dtype=np.int32,
              index=['a', 'b', 'c','d'])
print(s[[0,2]])
print(s[['a','c']])
# 내부 숫자 인덱스보다 내가 지정한 인덱스가 우선인거 같음
# 인덱스에 숫자를 섞어서 지정하면 숫자를 이용한 fancy indexing이 제대로 안됨

a    1
c    8
dtype: int32
a    1
c    8
dtype: int32


In [40]:
# boolean indxing
print(s[s%2==0])

c     8
d    10
dtype: int32


In [48]:
# 인덱스 정렬
s = pd.Series([11,21,33,True,'55'], dtype=np.object, index=['a','x','e','g','h'])
s.sort_index(ascending=False)
print(s.sort_index(ascending=False))

x      21
h      55
g    True
e      33
a      11
dtype: object


In [None]:
# 집계함수

In [51]:
s = pd.Series([1,5,8,10], 
              dtype=np.int32,
              index=['a', 'b', 'c','d'])
print(s.sum())

24


- 날짜 데이터
- A 공장의 2020-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
    - 2020-01-01 50
    - 2020-01-02 49
    - ...
- B 공장의 2020-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)

- 날짜별 모든 공장의 생산량 합계 구하기

In [60]:
from datetime import datetime, timedelta


np.random.seed(1)
start_day = datetime(2020,1,1)
# 날짜연산은 일반적으로 함수를 이용하여 일, 월, 연단위로 증감연산 
# 또한 주단위로 증감연산 가능

factory_A = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                      dtype=np.int32,
                      index=[start_day + timedelta(days=x) for x in range(10)])
print(factory_A)

start_day = datetime(2020,1,5)
factory_B = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                      dtype=np.int32,
                      index=[start_day + timedelta(days=x) for x in range(10)])
print(factory_B)

2020-01-01    58
2020-01-02    46
2020-01-03    47
2020-01-04    44
2020-01-05    54
2020-01-06    38
2020-01-07    58
2020-01-08    46
2020-01-09    51
2020-01-10    48
dtype: int32
2020-01-05    81
2020-01-06    53
2020-01-07    67
2020-01-08    66
2020-01-09    79
2020-01-10    61
2020-01-11    68
2020-01-12    62
2020-01-13    70
2020-01-14    74
dtype: int32


In [61]:
# Series를 연산은 같은 index를 기반으로 진행된다
print(factory_A + factory_B)
# NaN : Not a Number

2020-01-01      NaN
2020-01-02      NaN
2020-01-03      NaN
2020-01-04      NaN
2020-01-05    135.0
2020-01-06     91.0
2020-01-07    125.0
2020-01-08    112.0
2020-01-09    130.0
2020-01-10    109.0
2020-01-11      NaN
2020-01-12      NaN
2020-01-13      NaN
2020-01-14      NaN
dtype: float64


- Series를 리스트를 이용해서 만들고 있음
- Series를 dict를 이용해서도 만들수 있아

In [65]:
my_dict = {'서울' : 1000, '인천' : 2000, '수원' : 3000}

s = pd.Series(my_dict)
print(s)

s.name = '지역별 가격 데이터'
print(s)
print(s.index)
# 인덱스는 리스트와 다른 객체지만 사용법은 유사하다
s.index = ['Seoul', 'Inchon', 'Suwon']
print(s)
s.index.name = 'Region'
print(s)

서울    1000
인천    2000
수원    3000
dtype: int64
서울    1000
인천    2000
수원    3000
Name: 지역별 가격 데이터, dtype: int64
Index(['서울', '인천', '수원'], dtype='object')
Seoul     1000
Inchon    2000
Suwon     3000
Name: 지역별 가격 데이터, dtype: int64
Region
Seoul     1000
Inchon    2000
Suwon     3000
Name: 지역별 가격 데이터, dtype: int64


- Dataframe을 만드는 방법
- dict를 이용해서 dataframe만들기

In [73]:
my_dict = {'name' : ['홍길동', '신사임당', '김연아', '강감찬'], 
           'year' : [2015, 2016, 2019, 2016], 
           'point' : [3.5, 1.4, 2.0, 4.5]}
df = pd.DataFrame(my_dict)
# dataframe을 출력할땐 print보다 display를 이용
print(df)
display(df)

   name  year  point
0   홍길동  2015    3.5
1  신사임당  2016    1.4
2   김연아  2019    2.0
3   강감찬  2016    4.5


Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2016,1.4
2,김연아,2019,2.0
3,강감찬,2016,4.5


In [78]:
print(df.shape)
print(df.size)
# 차원 리턴
print(df.ndim)
# rangeindex 리턴
print(df.index)
# index 리턴
print(df.columns)
# 2차원 numpy
print(df.values)

(4, 3)
12
2
RangeIndex(start=0, stop=4, step=1)
Index(['name', 'year', 'point'], dtype='object')
[['홍길동' 2015 3.5]
 ['신사임당' 2016 1.4]
 ['김연아' 2019 2.0]
 ['강감찬' 2016 4.5]]


In [79]:
df.index.name = '학생번호'
df.columns.name = '학생정보'
display(df)

학생정보,name,year,point
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,홍길동,2015,3.5
1,신사임당,2016,1.4
2,김연아,2019,2.0
3,강감찬,2016,4.5


- dict로 dataframe을 만드는 방식은 연습을 하거나 아주 작은 양의 데이터를 처리할때 적합
- 많은 양의 데이터(파일, database, open API)을 이용할땐 적합하지 않음
- 일반적으로 많이 사용되어지는 데이터 표현 방식(3가지)
1. CSV(Comma Seperated Values)
    - 표현방법 : 홍길동, 서울, 20, 김길동, 인천, 30...
    - 장점 : 많은 데이터를 표현하기에 적합, 데이터 사이즈를 작게할 수 있다
    - 단점 : 데이터의 구성을 알기 어렵다, 구조적 데이터 표현이 힘들다, 사용이 힘들다, 데이터처리를 위해서 따로 프로그램을 만들어야 한다, 데이터가 변경됬을때 프로그램도 같이 변경되야 한다 = > 유지보수 문제 발생
    - 데이터의 크기가 크고 형태가 변하지 않는 경우 가장 알맞는 형태

2. XML(eXtended Markup Language) : 1990년 초반, 중반
    - 표현방법 :  <person><name>홍길동</name><age>20</age><address>서울</address></person>
    - 장점 : 데이터의 구성을 알기 편하다, 사용하기 편하다, 프로그램적 유지보수가 편하다
    - 단점 : 부가적인 데이터가 많다
    
3. JSON(JavaScript Object Notation) : 현재 일반적인 데이터 표현방식
    - 자바스크립트의 객체 표현방식을 이용해서 데이터를 표현하는 방식
    - JSON은 데이터 표현방식이지 특정 프로그래밍 언어와는 상관이 없다
    - 표현방법 : {'name' : '홍길동', 'age' : 20, 'address' : '서울'}
    - 장점 : XML와 동일하다,XML에 비해 부가적인 데이터가 적다
    - 단점 : 여전히 CSV에 비해선 부가적인 데이터가 있다

---

- csv파일을 이용해서 dataframe을 만들기

In [83]:
df = pd.read_csv('movies.csv')
# 상위 5개의 행만 출력
display(df.head())
print(df.shape)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


(9742, 3)


- database로부터 데이터를 읽어서 datagrame을 만드는 방법
- database 설정하기(MySQL을 이용)
 ---
- MySQL 설치
    - 설치버전을 이용하지 않고, 단독실행파일을 이용한 실행함(stand alone)
    1. MySQL 5.6버전 이용
    2. MySQL 홈페이지에서 Downloads - MySQL community Downloads - MySQL community Server - looking for previous GA versions - 5.6.50 다운
    3. 압축해제
    4. cmd창을 열고 bin 폴더로 이동
    5. cmd에 mysqld를 입력(mysql dbms를 기동하는 명령어)
    6. 정상적이라면 mysql deamon이 동작하게 됨
        - 문제가 발생한 경우
        1. 일단 bin폴더에 정상적으로 있는지 확인
        2. mysqld
        3. 환경변수에서 path확인 bin 주소와 :. 추가
    7. 종료할려면 새로운 cmd창을 열고 bin 폴더로 이동
    8. mysqladmin -u root shutdown 입력
    9. 서버를 기동한 상태에서 사용자 ID/PW를 설정하여 이용가능
    10. 서버 기동한 상태에서 새로운 cmd열고 관리자 권한으로 mysql console에 접근
    11. mysql -u root를 입력하면 mysql console에 진입
    12. create user ID identified by "PW";를 이용해서 계정 생성
    13. Query ok가 출력되면 정상
    14. 외부접속을 위해 다음 명령 실행 
        - create user ID@localhost identified by "PW";
    15. 데이터가 저장될 데이터 베이스 생성
        - mysql은 dbms(데이터베이스 관리 시스템)이다
    16. create database db이름;
    17. 새로운 사용자가 db를 사용할 수 있게 권한 부여
        - grant all privileaes on db이름.* to ID
        - grant all privileaes on db이름.* to ID@localhost
    18. 권한 설정에 대한 refresh
        - flush privileaes;
    19. 설정이 완료되면 console에서 나온뒤
        - exit;
        도스창에서 script file을 이용해서 데이터 적재
    20. mysql -u data -p library < _BookTableDump.sql