# 데이터프레임 객체의 파일 변환

## Pandas 모듈 불러오기

In [5]:
import pandas as pd

## 다양한 형식의 파일을 데이터프레임으로 불러오기

### .xlsx 형식의 파일 불러오기

In [6]:
# read_excel() 함수로 데이터 프레임으로 변환

df1 = pd.read_excel('./실습 데이터/남북한발전전력량.xlsx', header = None) # header = None: 컬럼명들을 한줄의 행 데이터로 변환하고 기존 컬럼명들은 숫자값으로 대체
print(type(df1))

<class 'pandas.core.frame.DataFrame'>


In [7]:
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


### .json 형식의 파일 불러오기

In [8]:
# json 파일 설명 #1:json 파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식
# json 파일 설명 #2:파이썬 딕셔너리 구조와 비슷, key:value 구조를 갖고 있음

# read_json 함수를 통해서 데이터프레임으로 변환
df2 = pd.read_json('./실습 데이터/read_json_sample.json')
print(type(df2))

<class 'pandas.core.frame.DataFrame'>


In [9]:
df2

Unnamed: 0,name,year,developer,opensource
pandas,,2008,Wes Mckinneye,True
NumPy,,2006,Travis Oliphant,True
matplotlib,,2003,John D. Hunter,True


### .html 형식의 파일 불러오기

In [10]:
# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환

tables = pd.read_html('./실습 데이터/sample.html')
print(type(tables))

<class 'list'>


In [11]:
tables

[   Unnamed: 0  c0  c1  c2  c3
 0           0   0   1   4   7
 1           1   1   2   5   8
 2           2   2   3   6   9,
          name  year        developer  opensource
 0       NumPy  2006  Travis Oliphant        True
 1  matplotlib  2003   John D. Hunter        True
 2      pandas  2008    Wes Mckinneye        True]

In [12]:
# 표(tables)의 개수 확인

print(len(tables))

2


In [13]:
# tables 리스트의 원소를 iteration 하면서 각각 화면에 출력

for i in range(len(tables)): 
    print("tables[%s]" %i)
    print(tables[i])
    print(type(tables[i]))
    print("\n")

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9
<class 'pandas.core.frame.DataFrame'>


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True
<class 'pandas.core.frame.DataFrame'>




In [14]:
# 두 번째 데이터프레임을 df3변수에 저장
df3 = tables[1]

In [15]:
df3

Unnamed: 0,name,year,developer,opensource
0,NumPy,2006,Travis Oliphant,True
1,matplotlib,2003,John D. Hunter,True
2,pandas,2008,Wes Mckinneye,True


In [16]:
# 'name' 컬럼을 인덱스로 지정
df3.set_index(["name"], inplace = True)

In [17]:
df3

Unnamed: 0_level_0,year,developer,opensource
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
NumPy,2006,Travis Oliphant,True
matplotlib,2003,John D. Hunter,True
pandas,2008,Wes Mckinneye,True


## 데이터프레임 객체를 다양한 형식의 파일로 저장

### 데이터프레임 객체 생성

In [18]:
# 딕셔너리 데이터 생성
data = {
    'name': ['Jerry', 'Riah', 'Paul'],
    'algol' : ["A", "A+", "B"], 
    'basic' : ["C", "B", "B+"], 
    'c++' : ["B+", "C", "C+"]
       }
print(type(data))

# 딕셔너리 데이터를 데이터프레임 형태로 변환
df4 = pd.DataFrame(data)

# 'name' 컬럼을 인덱스로 지정
df4.set_index('name', inplace = True)

<class 'dict'>


In [19]:
df4

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


### .csv 형식의 파일로 저장

In [46]:
# 데이터프레임 형태의 데이터를 to_csv() 메소드를 사용하여 CSV 파일로 내보내기

df4.to_csv("./실습 결과/df_sample.csv")

### .json 형식의 파일로 저장

In [47]:
# 데이터프레임 형태의 데이터를 to_json() 메소드를 사용하여 JSON 파일로 내보내기

df4.to_json("./실습 결과/df_sample.json")

### .xlsx 형식의 파일로 저장

In [20]:
# 데이터프레임 형태의 데이터를 to_excel() 메소드를 사용하여 엑셀 파일로 내보내기

df4.to_excel("./실습 결과/df_sample.xlsx")

### .xlsx 형식의 파일로 저장2 (sheet 활용)

In [55]:
# 딕셔너리 데이터 생성

data1 = {
    'name': ['Jerry', 'Riah', 'Paul'],
    'algol' : ["A", "A+", "B"], 
    'basic' : ["C", "B", "B+"], 
    'c++' : ["B+", "C", "C+"]
       }
print(type(data1))
df5 = pd.DataFrame(data1)
print(type(df5))
df5.set_index('name', inplace = True)
print(df5, "\n")

data2 = {
    'c0' : [1, 2, 3], 
    'c1' : [4, 5, 6], 
    'c2' : [7, 8, 9],
    'c3' : [10, 11, 12],
    'c4' : [13, 14, 15]
       }
print(type(data2))
df6 = pd.DataFrame(data2)
print(type(df6))
df6.set_index('c0', inplace = True)
print(df6, "\n")

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>
      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+ 

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>
    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15 



In [58]:
# pandas의 ExcelWirter() 함수를 이용해서 df5를 'sheet1'으로, df6를 'sheet2'로 저장

writer = pd.ExcelWriter("./실습 결과/df_sample2.xlsx")
df5.to_excel(writer, sheet_name = "sheet1")
df6.to_excel(writer, sheet_name = "sheet2")
writer.save()

# Exploratory data analysis (탐색적 분석)

## Pandas 모듈 불러오기

In [3]:
import pandas as pd

## 분석 #1

### 실습 파일 불러오기

In [7]:
df1 = pd.read_csv('./실습 데이터/auto-mpg.csv', header = None)

In [8]:
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [9]:
# 컬럼명 지정

df1.columns = [
    'mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'moldel year', 'origin', 'name'
]

In [10]:
df1

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,moldel year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


### 모양과 크기 분석

In [13]:
## 데이터프레임 객체의 모양과 크기 확인
# shape 함수를 사용하여 데이터프레임 객체의 shape을 튜플 값(행의개수, 열의개수)으로 반환

print(df1.shape)
print(type(df1.shape))

(398, 9)
<class 'tuple'>


### 내용 분석

In [14]:
## 데이터프레임 객체의 내용 확인
# info() 함수를 사용

print(df1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    float64
 5   acceleration  398 non-null    float64
 6   moldel year   398 non-null    int64  
 7   origin        398 non-null    int64  
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB
None


### 자료형 분석

In [17]:
## 컬럼별 자료형 확인
# dtypes 함수 사용

# 모든 컬럼들의 자료형 확인 (대상: 데이터프레임 객체)
print(df1.dtypes)
print("\n")

# 특정 컬럼의 자료형 확인 (대상: 시리즈 객체)
print(df1.mpg.dtypes)

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
moldel year       int64
origin            int64
name             object
dtype: object


float64


### <span style="color: white; background-color:red;"> 중요! ***</span> 기술통계정보 분석

In [18]:
# 데이터프레임 객체의 기술통계 정보 확인 ***

print(df1.describe())

              mpg   cylinders  displacement       weight  acceleration  \
count  398.000000  398.000000    398.000000   398.000000    398.000000   
mean    23.514573    5.454774    193.425879  2970.424623     15.568090   
std      7.815984    1.701004    104.269838   846.841774      2.757689   
min      9.000000    3.000000     68.000000  1613.000000      8.000000   
25%     17.500000    4.000000    104.250000  2223.750000     13.825000   
50%     23.000000    4.000000    148.500000  2803.500000     15.500000   
75%     29.000000    8.000000    262.000000  3608.000000     17.175000   
max     46.600000    8.000000    455.000000  5140.000000     24.800000   

       moldel year      origin  
count   398.000000  398.000000  
mean     76.010050    1.572864  
std       3.697627    0.802055  
min      70.000000    1.000000  
25%      73.000000    1.000000  
50%      76.000000    1.000000  
75%      79.000000    2.000000  
max      82.000000    3.000000  


In [20]:
print(df1.describe(include = 'all'))

               mpg   cylinders  displacement horsepower       weight  \
count   398.000000  398.000000    398.000000        398   398.000000   
unique         NaN         NaN           NaN         94          NaN   
top            NaN         NaN           NaN      150.0          NaN   
freq           NaN         NaN           NaN         22          NaN   
mean     23.514573    5.454774    193.425879        NaN  2970.424623   
std       7.815984    1.701004    104.269838        NaN   846.841774   
min       9.000000    3.000000     68.000000        NaN  1613.000000   
25%      17.500000    4.000000    104.250000        NaN  2223.750000   
50%      23.000000    4.000000    148.500000        NaN  2803.500000   
75%      29.000000    8.000000    262.000000        NaN  3608.000000   
max      46.600000    8.000000    455.000000        NaN  5140.000000   

        acceleration  moldel year      origin        name  
count     398.000000   398.000000  398.000000         398  
unique         

## 분석 #2

### 실습 파일 불러오기

In [23]:
# read_csv() 함수로 df 생성
df2 = pd.read_csv('./실습 데이터/auto-mpg.csv', header = None)

# 컬럼명 지정
df2.columns = [
    'mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'moldel year', 'origin', 'name'
]

In [25]:
df2

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,moldel year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


### 원소의 개수

In [31]:
# 모든 컬럼의 원소의 개수 출력: count() 함수 이용
print(df2.count())
print('\n')

# 특정 컬럼의 원소의 개수 출력: value_counts() 함수 이용
unique_values = df2['origin'].value_counts()
print(unique_values)

mpg             398
cylinders       398
displacement    398
horsepower      398
weight          398
acceleration    398
moldel year     398
origin          398
name            398
dtype: int64


1    249
3     79
2     70
Name: origin, dtype: int64


### 평균값

In [45]:
# 모든 컬럼들의 평균값 출력: mean() 함수 이용
df2_mean = df2.mean()
print(df2_mean, '\n')

# 특정 컬럼의 평균값 출력 방법 #1
df2_mpg_mean1 = df2['mpg'].mean()
print(df2_mpg_mean1, '\n')

# 특정 컬럼의 평균값 출력 방법 #2
df2_mpg_mean2 = df2.mpg.mean()
print(df2_mpg_mean2, '\n')

# 특정 컬럼의 평균값 출력 방법 #3
df2_mpg_weight_mean = df2[['mpg', 'weight']].mean()
print(df2_mpg_weight_mean, '\n')

mpg               23.514573
cylinders          5.454774
displacement     193.425879
weight          2970.424623
acceleration      15.568090
moldel year       76.010050
origin             1.572864
dtype: float64 

23.514572864321615 

23.514572864321615 

mpg         23.514573
weight    2970.424623
dtype: float64 



  df2_mean = df2.mean()


### 중간값

In [46]:
# 모든 컬럼들의 중간값 출력: median() 함수 이용
df2.median()

  df2.median()


mpg               23.0
cylinders          4.0
displacement     148.5
weight          2803.5
acceleration      15.5
moldel year       76.0
origin             1.0
dtype: float64

### 최대값 최소값

In [49]:
# 최대값: max() 함수 이용

# 모든 컬럼들의 최대값 출력
print(df2.max())
print('\n')
# 특정 컬럼의 최대값 출력
print(df2['mpg'].max())
print('\n')

# 최소값: min() 함수 이용

# 모든 컬럼들의 최소값 출력
print(df2.min())
print('\n')
# 특정 컬럼의 최소값 출력
print(df2['mpg'].min())
print('\n')


mpg                         46.6
cylinders                      8
displacement               455.0
horsepower                     ?
weight                    5140.0
acceleration                24.8
moldel year                   82
origin                         3
name            vw rabbit custom
dtype: object


46.6


mpg                                 9.0
cylinders                             3
displacement                       68.0
horsepower                        100.0
weight                           1613.0
acceleration                        8.0
moldel year                          70
origin                                1
name            amc ambassador brougham
dtype: object


9.0




### 표준편차

In [50]:
# 표준편차: std() 함수 이용

# 모든 컬럼들의 표준편차 값 출력
print(df2.std())
print('\n')

# 특정 컬럼의 표준편차 값 출력
print(df2['mpg'].std())

mpg               7.815984
cylinders         1.701004
displacement    104.269838
weight          846.841774
acceleration      2.757689
moldel year       3.697627
origin            0.802055
dtype: float64


7.815984312565782


  print(df2.std())


### 상관계수

In [51]:
# 상관계수(변수들간의 상관관계): corr() 함수 이용

# 모든 변수(컬럼)들 간의 상관계수 출력
print(df2.corr())
print('\n')

# 특정 변수(컬럼)들 간의 상관계수 출력
print(df2[['mpg', 'weight']].corr())

                   mpg  cylinders  displacement    weight  acceleration  \
mpg           1.000000  -0.775396     -0.804203 -0.831741      0.420289   
cylinders    -0.775396   1.000000      0.950721  0.896017     -0.505419   
displacement -0.804203   0.950721      1.000000  0.932824     -0.543684   
weight       -0.831741   0.896017      0.932824  1.000000     -0.417457   
acceleration  0.420289  -0.505419     -0.543684 -0.417457      1.000000   
moldel year   0.579267  -0.348746     -0.370164 -0.306564      0.288137   
origin        0.563450  -0.562543     -0.609409 -0.581024      0.205873   

              moldel year    origin  
mpg              0.579267  0.563450  
cylinders       -0.348746 -0.562543  
displacement    -0.370164 -0.609409  
weight          -0.306564 -0.581024  
acceleration     0.288137  0.205873  
moldel year      1.000000  0.180662  
origin           0.180662  1.000000  


             mpg    weight
mpg     1.000000 -0.831741
weight -0.831741  1.000000
