In [21]:
import pandas as pd
import numpy as np

### 판다스 데이터 입출력
판다스는 아래와 같은 형식의 데이터를 입력받아 데이터프레임을 만들 수 있음  
- CSV  
- EXCEL  
- HTML  
- JSON  
- HDF5  
- SAS  
- STATA  
- SQL  

가장 많이 사용되는 포멧은 CSV,JSON,SQL

### `$$writefile` 명령
`%%writefile` 명령어를 사용하여 파이썬에서 파일을 생성할 수 있음

In [22]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample1.csv


### CSV 파일 입력
판다스 패키지의 `read_csv` 메서드를 사용하여 로컬에 존재하는 CSV 파일을 읽을 수 있음

In [23]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약 데이터에 열 인덱스가 존재하지 않는다면 `read_csv` 메서드의 `names` 속성으로 열 인덱스를 지정할 수 있음

In [24]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample2.csv


In [25]:
pd.read_csv('sample2.csv',names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


CSV의 특정 열을 행 인덱스로 사용하고 싶을 땐 `read_csv` 메서드의  `index_col` 속성으로 지정할 수 있음.

In [26]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


특정한 값을 `NaN`으로 변경하고 싶으면 `na_values` 속성으로 `NaN`으로 취급할 값을 리스트로 지정

In [27]:
%%writefile sample3.csv
c1,c2,c3
1, 1.11, one
2, , two
누락, 3.33, three

Overwriting sample3.csv


In [28]:
df = pd.read_csv('sample3.csv', na_values=['누락',' '])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### Dataframe을 CSV 파일로 출력
`to_csv()` 메서드로 데이터프레임을 csv 파일로 출력할 수 있음

In [29]:
df.to_csv('sample4.csv')

In [30]:
type.sample4.csv

AttributeError: type object 'type' has no attribute 'sample4'

파일을 출력할 때 구분자를 변경하고 싶으면 `sep` 속성에 구분자를 지정함

In [None]:
df.to_csv('sample5.csv', sep='_')

`NaN` 값에 대해서 표시를 변경하고 싶으면 `na_rep` 속성에 표시할 값을 지정함

In [None]:
df.to_csv('sample6.csv', na_rep='누락')

`index`,`header` 속성으로 행 인덱스 및 열 인덱스의 출력 여부를 지정함

In [None]:
df.to_csv('sample7.csv',index=False,header=False)

### 인터넷 상의 CSV 파일 입력
로컬에 존재하는 csv 파일뿐만 아니라 웹 상에 존재하는 csv 파일도 `read_csv()` 메서드로 읽을 수 있음

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv')
df

In [None]:
df.head(4)

In [None]:
df.tail(4)

### 데이터베이스 입력
데이터베이스에 있는 데이터를 데이터프레임으로 받아오기 위해서는 각 DBMS에 맞는 connector를 사용하여야함

#### mysql connector
``` bash
pip install mysql-connector-python
```

``` python
import mysql.connector
```

In [31]:
import mysql.connector
import pandas as pd

In [32]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
       print('데이터베이스 연결 성공')
    
    
except Exception as e:
    print('데이터 베이스 접속 실패',e)
finally:
    if conn.is_connected():
        conn.close()
        print('데이터베이스 연결 해제')

데이터베이스 연결 성공
데이터베이스 연결 해제


데이터베이스 연결 후 쿼리 작업을 할 때는 `cursor` 객체를 사용 

In [33]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
       cursor = conn.cursor()
       query = 'SELECT * FROM user'
       cursor.execute(query)

       for record in cursor:
           print(record)
    
    
except Exception as e:
    print('데이터 베이스 접속 실패',e)
finally:
    if conn.is_connected():
        conn.close()
        print('데이터베이스 연결 해제')

('galaxy', '1234', 'galaxy@email.com', 'HOME', 'NOMAL')
데이터베이스 연결 해제


판다스 패키지의 `read_sql_query()` 메서드로 데이터베이스 조회 결과를 바로 데이터프레임으로 만들 수 있음

In [42]:
df = None

try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
       cursor = conn.cursor()
       query = 'SELECT * FROM user'
       
       df = pd.read_sql_query(query, conn)
       print(df)

       for record in cursor:
           print(record)
    
    
except Exception as e:
    print('데이터 베이스 접속 실패',e)
finally:
    if conn.is_connected():
        conn.close()
        print('데이터베이스 연결 해제')
df

  user_id password             email join_path   role
0  galaxy     1234  galaxy@email.com      HOME  NOMAL
데이터 베이스 접속 실패 No result set to fetch from
데이터베이스 연결 해제


  df = pd.read_sql_query(query, conn)


Unnamed: 0,user_id,password,email,join_path,role
0,galaxy,1234,galaxy@email.com,HOME,NOMAL


In [35]:
df = None

try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
       cursor = conn.cursor()
       query = 'SELECT * FROM officetel_estate'
       
       df = pd.read_sql_query(query, conn)
       print(df)

       for record in cursor:
           print(record)
    
    
except Exception as e:
    print('데이터 베이스 접속 실패',e)
finally:
    if conn.is_connected():
        conn.close()
        print('데이터베이스 연결 해제')
df

     sequence          locale base_month  \
0           1      nationwide     20-Jul   
1           2    metropolitan     20-Jul   
2           3        province     20-Jul   
3           4           seoul     20-Jul   
4           5  seoul-downtown     20-Jul   
..        ...             ...        ...   
726       727         gwangju     24-Jan   
727       728         daejeon     24-Jan   
728       729           ulsan     24-Jan   
729       730          sejong     24-Jan   
730       731        gyeonggi     24-Jan   

     between_lease_and_lease_deposit_ratio  lease_to_sale_ratio  \
0                                     7.95                83.54   
1                                     7.46                84.31   
2                                     9.96                80.33   
3                                     7.10                82.80   
4                                     6.13                79.55   
..                                     ...                  ...   
72

  df = pd.read_sql_query(query, conn)


Unnamed: 0,sequence,locale,base_month,between_lease_and_lease_deposit_ratio,lease_to_sale_ratio,monthly_rent_rate_of_return,average_lease_on_deposit_price,average_lease_on_deposit_price_per_unit,midian_lease_on_deposit_price,midian_lease_on_deposit_price_per_unit,average_monthly_rent_price,average_monthly_rent_price_unit,midian_average_monthly_rent_price,midian_average_monthly_rent_price_unit,average_sale_price,average_price_per_unit,midian_average_sale_price,midian_average_price_per_unit
0,1,nationwide,20-Jul,7.95,83.54,4.75,163525,4370,156386,4266,13107,661,10705,634,203454,5272,190155,4997
1,2,metropolitan,20-Jul,7.46,84.31,4.61,175996,4797,167524,4682,13656,698,11247,668,217040,5751,202398,5434
2,3,province,20-Jul,9.96,80.33,5.35,111980,2603,110353,2545,10837,507,8466,492,147304,3295,139555,3191
3,4,seoul,20-Jul,7.10,82.80,4.33,199524,6033,190788,6025,15250,777,12876,744,251315,7342,235222,7064
4,5,seoul-downtown,20-Jul,6.13,79.55,4.18,235665,6405,223768,6221,13906,946,13701,919,310153,8155,307248,7901
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
726,727,gwangju,24-Jan,7.86,83.49,6.10,105940,2595,110677,2551,9126,545,8927,540,132817,3124,130755,2901
727,728,daejeon,24-Jan,11.42,86.32,7.54,101796,2355,101257,2201,12090,556,9341,550,123572,2742,118458,2513
728,729,ulsan,24-Jan,7.62,83.34,5.32,117651,2921,116039,2899,9253,563,9621,555,144356,3493,140185,3457
729,730,sejong,24-Jan,6.05,86.15,6.30,97749,3522,93146,3403,6064,552,5898,547,118063,4101,111110,3869
