## Pandas

- Pandas는 2개의 자료구조 사용
- numpy를 기본으로 그 위에 __Series__와 __DataFrame__이라는 자료구조 정의

1. Series  : 동일한 데이터 타입의 복수개의 성분으록 수성
2. DataFrame : Table형식으로 데이터를 저장하는 자료구조




In [2]:
import pandas as pd
import numpy as np

In [3]:
''' 
Series부터 알아보자
ndarray + 알파 인 자료구조
1차원 자료구조
같은 데이터 타입이 들어온다
'''

import pandas as pd
import numpy as np

# ndarray(dtype : np.float64)
arr=np.array([1,2,3,4,5],dtype=np.float64)
print(arr)

[1. 2. 3. 4. 5.]


In [9]:
arr = np.array([1,3.14,True,'Hello'], dtype = np.object)
print(arr)
print(arr.dtype)

[1 3.14 True 'Hello']
object


### Series
#### 1차원 자료구조


In [13]:
s = pd.Series([1,2,3,4,5],dtype = np.float64)
print(s)

print('Series의 값만 가져오기 : {}'.format(s.values))
print('Series의 index만 가져오기 : {}'.format(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
Series의 값만 가져오기 : [1. 2. 3. 4. 5.]
Series의 index만 가져오기 : RangeIndex(start=0, stop=5, step=1)


#### Series의 Index

In [16]:
s = pd.Series([1,5,8,10],dtype=np.int32,index=['a','b','c','d'])
print(s)

a     1
b     5
c     8
d    10
dtype: int32


In [17]:
# 인덱스가 변경되도 기본적으로 숫자 인덱스 사용 가능
print(s['b'])
print(s[1])

5
5


In [18]:
# 만약 index가 같으면 어떻게 되나요?

s=pd.Series([1,5,8,10],dtype=np.int32,
           index=['a','b','a','d'])
print(s)

a     1
b     5
a     8
d    10
dtype: int32


In [20]:
result = s['a']
print(result)
print(type(result))

a    1
a    8
dtype: int32
<class 'pandas.core.series.Series'>


In [21]:
s=pd.Series([1,5,8,10],dtype=np.int32,
           index=['a','b','c','d'])
# Slicing
print(s[0:3])
print(s['a':'d']) # 끝값 포함!

a    1
b    5
c    8
dtype: int32
a     1
b     5
c     8
d    10
dtype: int32


### Fancy Indexing, Boolean Indexing

In [23]:
print(s[[0,2]])
print(s[['a','c']])

print(s[s%2==0]) # boolean indexing

#집계함수
print(s.sum())

a    1
c    8
dtype: int32
a    1
c    8
dtype: int32
c     8
d    10
dtype: int32
24


### 날짜 Indexing
- A공장의 2020-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 50, 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
- 형식
    - 2020-01-01 52
    - 2020-01-02 49    
    - 2020-01-03 55

- B공장의 2020-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 70, 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)


#### 날짜별로 모든(A공장,B공장)의 생산량의 합계를 구하시오

In [27]:
import numpy as np
import pandas as pd
from datetime import datetime,timedelta

In [28]:
start_day = datetime(2020,1,1)
print(start_day)

2020-01-01 00:00:00


In [35]:
factory_A = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                     dtype = np.int32,
                     index=[start_day + timedelta(days=x)
                            for x in range(10)])
print(factory_A)

factory_B = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     dtype = np.int32,
                     index=[start_day + timedelta(days=x)
                            for x in range(10)])
print(factory_B)

2020-01-01    42
2020-01-02    52
2020-01-03    52
2020-01-04    54
2020-01-05    55
2020-01-06    50
2020-01-07    50
2020-01-08    63
2020-01-09    50
2020-01-10    42
dtype: int32
2020-01-01    58
2020-01-02    81
2020-01-03    65
2020-01-04    70
2020-01-05    68
2020-01-06    66
2020-01-07    71
2020-01-08    70
2020-01-09    51
2020-01-10    68
dtype: int32


In [36]:
print(factory_A+factory_B)

2020-01-01    100
2020-01-02    133
2020-01-03    117
2020-01-04    124
2020-01-05    123
2020-01-06    116
2020-01-07    121
2020-01-08    133
2020-01-09    101
2020-01-10    110
dtype: int32


In [37]:
 # NaN : not a number

#### Series는 dict를 이용해서 만들 수 있다

In [40]:
my_dict = {'서울':1000,'인천':2000,'수원':3000}

s=pd.Series(my_dict)
print(s)
s.name = '지역별 가격 데이터'
print(s)

서울    1000
인천    2000
수원    3000
dtype: int64
서울    1000
인천    2000
수원    3000
Name: 지역별 가격 데이터, dtype: int64


In [41]:
s.index = ['Seoul','Incheon','Suwon']
s.index.name = 'Region'
print(s)

Region
Seoul      1000
Incheon    2000
Suwon      3000
Name: 지역별 가격 데이터, dtype: int64


## DataFrame

### Pandas의 DataFrame에 대해서 알아보자
- DataFrame을 만드는 방법

In [46]:
import numpy as np
import pandas as pd

# 데이터를 가지고 있는 dict부터 정의

my_dict = {'name':['홍길동','신사임당','김연아','강감찬'],
           'year':[2015,2016,2019,2016],
           'point':[3.5,1.4,2.0,4.5]}

In [47]:
df = pd.DataFrame(my_dict)
display(df)

Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2016,1.4
2,김연아,2019,2.0
3,강감찬,2016,4.5


In [50]:
print(df.shape)
print(df.size)
print(df.ndim)
print(df.index)
print(df.columns)

(4, 3)
12
2
RangeIndex(start=0, stop=4, step=1)
Index(['name', 'year', 'point'], dtype='object')


#### 많은 양의 데이터는 일반적으로 파일, Database, Open API를 이용해서 얻어야 한다

1. __CSV(Comma Seperated Values)__
    - 예) 홍길동,20,서울,김길동,30,인천,최길동,50,제주
    - 장점
        - 많은 데이터를 표현하기에 적합, 데이터 사이즈 작음
    - 단점  
        - 데이터의 구성을 알기 어렵다
        - 구조적 데이터 표현이 어렵다
        - 사용이 힘들고 데이터 처리를 위해 따로 프로그램을 만든다
        - 데이터가 변경되었을때 프로그램도 같이 변경
             => 유지보수문제 발생
             
    - 데이터의 크기가 무지막지하고 데이터의 형태가 변하지 않는 경우가 가장 적합



2. __XML(eXtended Markup Language)__
    - 예) \<person>\<name>홍길동\</name>\<age>20\</age>\<address>서울\</address>

    - 장점  
        - 데이터의 구성을 알기 쉽다
        - 사용하기 편하다
        - 유지보수가 쉽다
             
    - 단점 : 부가적인 데이터가 많다



3. __JSON(JavaScript Object Notation)__ : 현재 일반적인 데이터 표현방식
    - 자바스크립트 객체표현방식을 이용해서 데이터를표현하는 방식
    - JSON은 데이터 표현방식이지 특정 프로그래밍 언어와는 상관 없다
    - 예) { name : '홍길동', age : 20, adress : '서울'}
    - 장점  
        - 데이터의 구성을 알기 쉬워 사용하기 편함
        - 프로그램적 유지보수가 쉽다, XML보다 용량이 작다
    - 단점  
        - CSV보다는 부가적인 데이터가 많다
        

In [51]:
# CSV파일을 이용해서 DAtaFrame을 만들자

df = pd.read_csv('movies.csv')

In [52]:
df

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


### DataFrame 
1. dict를 이용해서 수동으로 만드는 방법
2. CSV를 이용해서 파일로부터 데이터를 읽어드려서 DataFrame을 만드는 방법
3. 기존 Database로부터 데이터를 읽어서 DataFrame을 만드는 방법

- Database 설정
- MySQL 이용
- MySQL설치
    1. MySQL 5.6버전 다운로드
    2. 다운로드 후 바탕화면에 압축풀기
    3. bin폴더로 들어가서 다음의 명령을 도스창에서 실행
    4. 도스창에서 => mysqld (mysql DBMS를 기동시키는 명령어)
    5. 만약 정상적을 ㅗ시작되면 mysql daemon이 동작
    6. 데이터베이스를 정상적으로 종료하려면 새로운 도스창
        my sqladmin -u root shutdown
    7. 서버를 기동한 상태에서
    8. 데이터베이스 사용자는 ID/PW가 있어야 사용할 수 있음
        그래서 새로운 사용자의 ID/PW를 설정
        그러기 위해서 먼저 mysql consol에 관리자권한으로 들어감
        mysql -u root
    9. console에 들어가면 mysql> 프롬프트가 보임
    10. 정상적으로 접속했으면 새로운 사용자를 다음의 명령어를 이용해서 만들기
        create user data identified by "data";
    11. 외부접속을 위해 다음의 명령을 한번 더 실행
        create user data@localhost identified by "data";
    12. 데이터가 저장될 데이터베이스를 생성
        우리가 사용해야할 mysql은 DMBS(Database Management System)
        여러개의 Database를 관리하는 프로그램
        
    mysql> create user data@localhost identified by "data";

    
    mysql> create database library;
    Query OK, 1 row affected (0.02 sec)


    13. 새로운 사용자(data)가 새로만든 데이터베이스 (library)를 사용할 권한을 부여


    mysql> grant all privileges on library.* to data;
    Query OK, 0 rows affected (0.01 sec)

    mysql> grant all privileges on library.* to data@localhost;
    Query OK, 0 rows affected (0.00 sec)
    
    14. 권한 설정에 대한 refresh
    
    flush priviliges;
    
    15. 설정은 다 끝났으니 console에서 나올것 
    exit;
    
    - 도스창에서 제공된 scirpt file을 이용해 서 데이터를 적재
    
    mysql -u data -p library < _BookTableDump.sql
    
    