# Index 활용

In [1]:
import pandas as pd                                   # 핸들링을 위한 데이터프레임 만들기

DataSet = {    '이름' : ['Jo', 'Kim', 'Lee', 'Park'], 
               '국어' : [95, 88, 72, 98], 
               '영어' : [66, 95, 94, 95], 
               '수학' : [100, 70, 89, 89], 
               '코딩' : [80, 70, 70, 92]   }
df = pd.DataFrame(DataSet)
df

Unnamed: 0,이름,국어,영어,수학,코딩
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70
3,Park,98,95,89,92


- 컬럼을 인덱스로 만들수 있다. 인덱스는 row의 구별 용도이다. 

In [2]:
# 원하는 컬럼으로 인덱스 설정    ' set_index() '
df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,국어,영어,수학,코딩
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jo,95,66,100,80
Kim,88,95,70,70
Lee,72,94,89,70
Park,98,95,89,92


In [3]:
# set_index를 사용하면 기존 인덱스가 사라진다. 
df2.set_index('국어')

Unnamed: 0_level_0,영어,수학,코딩
국어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
95,66,100,80
88,95,70,70
72,94,89,70
98,95,89,92


In [4]:
# 멀티 인덱스
df.set_index(['수학', '코딩'])

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,국어,영어
수학,코딩,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100,80,Jo,95,66
70,70,Kim,88,95
89,70,Lee,72,94
89,92,Park,98,95


In [5]:
# index를 기존의 column으로 다시 바꿔준다. 제일 많이 사용이 된다. 

df2.reset_index()

Unnamed: 0,이름,국어,영어,수학,코딩
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70
3,Park,98,95,89,92


- 정렬 ( sort )

In [6]:
# 국어 점수를 정렬   ascending = True 오름차순, False 내림차순  
# ignore_index = True index 번호를 순서대로 
df.sort_values(by = '국어', ascending = False, ignore_index = True)

Unnamed: 0,이름,국어,영어,수학,코딩
0,Park,98,95,89,92
1,Jo,95,66,100,80
2,Kim,88,95,70,70
3,Lee,72,94,89,70


In [7]:
# ignore_index = False index 번호가 뒤죽박죽 
df.sort_values(by = '국어', ascending = False, ignore_index = False)

Unnamed: 0,이름,국어,영어,수학,코딩
3,Park,98,95,89,92
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70


# Aggregation ( 집합 연산 )

In [8]:
df.max() # 수치형 데이터 확인, 각 column에서 가장 큰 값을 보여준다. 

이름    Park
국어      98
영어      95
수학     100
코딩      92
dtype: object

In [9]:
df.mean() # 수치형 데이터만 평균을 보여준다. 

  df.mean() # 수치형 데이터만 평균을 보여준다.


국어    88.25
영어    87.50
수학    87.00
코딩    78.00
dtype: float64

# Function Mapping ( 데이터 프레임에서 여러 개의 column에 여러 가지 함수를 적용시켜서 데이터랑 mapping 시키자 ) 

In [10]:
df

Unnamed: 0,이름,국어,영어,수학,코딩
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70
3,Park,98,95,89,92


In [11]:
# 코딩 등급이라는 컬럼을 함수를 만들어서 새로 생성
def func(x):
    if x >= 90:
        return 'A'
    elif x >= 80:
        return 'B'
    else:
         return 'C'

# apply(  ) 안에 원하는 함수를 적용시키는 함수         
        
df['코딩등급'] = df['코딩'].apply(lambda x : func(x))
df

Unnamed: 0,이름,국어,영어,수학,코딩,코딩등급
0,Jo,95,66,100,80,B
1,Kim,88,95,70,70,C
2,Lee,72,94,89,70,C
3,Park,98,95,89,92,A


# 그룹화 ( 동일한 특성끼리 묶어서 생각하자 ) 

In [12]:
# 코딩 등급별 과목의 성적을 파악할 수 있다. ' groupby '
df.groupby(by = '코딩등급').mean()

Unnamed: 0_level_0,국어,영어,수학,코딩
코딩등급,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,98.0,95.0,89.0,92.0
B,95.0,66.0,100.0,80.0
C,80.0,94.5,79.5,70.0


# 산술 연산

In [13]:
stu1 = pd.Series({'kor' : 88, 'eng' : 92, 'mat' : 76})
stu1 / 100

kor    0.88
eng    0.92
mat    0.76
dtype: float64

In [14]:
stu2 = pd.Series({'kor' : 78, 'eng' : 75, 'mat' : 82})
# series 별로 매칭되는 요소랑 연산이 진행된다. 
add = stu1 + stu2
sub = stu1 - stu2
mul = stu1 * stu2
div = stu1 / stu2

df3 = pd.DataFrame([add, sub, mul, div], index = ['뎃셈', '뺄셈', ' 곱셈', '나눗셈'])
df3
# 만약에 첫번째 시리즈가 과목명의 순서가 다른 경우에는 어떻게 처리가 되는가? 순서가 달라도 같은 컬럼끼리 매칭을 해서 결과를 보여준다.
# 과목명의 개수가 다르면 어떻게 처리가 될까? 부족한 column 부분이 NaN으로 나타난다. 

Unnamed: 0,kor,eng,mat
뎃셈,166.0,167.0,158.0
뺄셈,10.0,17.0,-6.0
곱셈,6864.0,6900.0,6232.0
나눗셈,1.128205,1.226667,0.926829


In [15]:
import numpy as np

stu3 = pd.Series({'kor' : np.nan, 'eng' : 75, 'mat' : 82})
stu3

# NaN : Not a number 값이 누락되거나 값의 처리가 잘못되었다. 

kor     NaN
eng    75.0
mat    82.0
dtype: float64

In [16]:
add = stu1 + stu3
sub = stu1 - stu3
mul = stu1 * stu3
div = stu1 / stu3

pd.DataFrame([add, sub, mul, div], index = ['뎃셈', '뺄셈', ' 곱셈', '나눗셈'])

# 요소 중에 NaN이 있다면 연산 자체가 되지않는다. 결과도 NaN이다. 
# 결측치는 처리를 한 후에 연산을 해야한다. 

Unnamed: 0,kor,eng,mat
뎃셈,,167.0,158.0
뺄셈,,17.0,-6.0
곱셈,,6900.0,6232.0
나눗셈,,1.226667,0.926829


In [17]:
add = stu1.add(stu3, fill_value = 0)
sub = stu1.sub(stu3, fill_value = 0)
mul = stu1.mul(stu3, fill_value = 0)
div = stu1.div(stu3, fill_value = 0)

df = pd.DataFrame([add, sub, mul, div], index = ['뎃셈', '뺄셈', ' 곱셈', '나눗셈'])
df

#inf 무한대 

Unnamed: 0,kor,eng,mat
뎃셈,88.0,167.0,158.0
뺄셈,88.0,17.0,-6.0
곱셈,0.0,6900.0,6232.0
나눗셈,inf,1.226667,0.926829


In [18]:
df + 10
# 일괄연산도 해준다. 
# DF + DF 규격이 같다면 연산이 잘 이루어질것이다. 
# 규격도 다르고 순서도 다르면 어떨게 될까? 규격이 다르면 NaN이 뜬다. 

Unnamed: 0,kor,eng,mat
뎃셈,98.0,177.0,168.0
뺄셈,98.0,27.0,4.0
곱셈,10.0,6910.0,6242.0
나눗셈,inf,11.226667,10.926829


# 외부 파일 읽어오기

In [19]:
import pandas as pd

# 같은 경로에 있을 떄는 파일 이름만 작성해도 불러올 수 있다. 
df = pd.read_csv('test1.csv')
df

#skiprows 지정한 row를 스킵하는 것이다. 불러들일 때 2개 정도의 row의 형식이 안 맞아서 안 읽어질 때 그 row를 스킵하고 읽을 수 있다. 
#encoding 지정을 해서 읽어들인다. 

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


# 파일로 저장하기 ( 원하는 형태로 저장하고 싶을 때 )

In [20]:
import pandas as pd

DataSet = {    '이름' : ['Jo', 'Kim', 'Lee', 'Park'], 
               '국어' : [95, 88, 72, 98], 
               '영어' : [66, 95, 94, 95], 
               '수학' : [100, 70, 89, 89], 
               '코딩' : [80, 70, 70, 92]   }
data1 = pd.DataFrame(DataSet)
data1

Unnamed: 0,이름,국어,영어,수학,코딩
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70
3,Park,98,95,89,92


In [21]:
data1.to_csv('sample.csv', encoding = 'UTF-8')
#data1.to_csv('sample.csv', encoding = 'UTF-8')

In [22]:
data3 = pd.read_csv('sample.csv')
data3

# 이상한 index가 생겼다.

Unnamed: 0.1,Unnamed: 0,이름,국어,영어,수학,코딩
0,0,Jo,95,66,100,80
1,1,Kim,88,95,70,70
2,2,Lee,72,94,89,70
3,3,Park,98,95,89,92


In [23]:
data1.to_csv('sample1.csv', encoding = 'UTF-8', index = False)
#data1.to_csv('sample.csv', encoding = 'UTF-8')

In [24]:
data2 = pd.read_csv('sample1.csv')
data2

# 저장을 할 때 index = False를 해줘야한다. 

Unnamed: 0,이름,국어,영어,수학,코딩
0,Jo,95,66,100,80
1,Kim,88,95,70,70
2,Lee,72,94,89,70
3,Park,98,95,89,92


# 데이터 살펴보기

In [25]:
# 데이터프레임의 상위 부분 출력 (n) 해당 개수만큼 출력 default 5
df.head(3)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32


In [26]:
# 데이터셋의 하단 부분 출력 default 5개
df.tail()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.91,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129
10885,2012-12-19 23:00:00,4,0,1,1,13.12,16.665,66,8.9981,4,84,88


In [27]:
# 행과 열의 수만 보여준다. 
df.shape

(10886, 12)

In [28]:
# 데이터프레임의 기본 정보를 보여준다. 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    10886 non-null  object 
 1   season      10886 non-null  int64  
 2   holiday     10886 non-null  int64  
 3   workingday  10886 non-null  int64  
 4   weather     10886 non-null  int64  
 5   temp        10886 non-null  float64
 6   atemp       10886 non-null  float64
 7   humidity    10886 non-null  int64  
 8   windspeed   10886 non-null  float64
 9   casual      10886 non-null  int64  
 10  registered  10886 non-null  int64  
 11  count       10886 non-null  int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 1020.7+ KB


In [29]:
# column들마다 데이터 타입을 확인할 수 있다. 

df.dtypes

datetime       object
season          int64
holiday         int64
workingday      int64
weather         int64
temp          float64
atemp         float64
humidity        int64
windspeed     float64
casual          int64
registered      int64
count           int64
dtype: object

In [30]:
# 기술통계량을 확인할 수 있다. default로 수치형 자료만 계산해서 보여준다. 
# 표준편차 : 평균으로부터 데이터의 값들이 얼마나 떨어져있는지 

df.describe()

Unnamed: 0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
count,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0
mean,2.506614,0.028569,0.680875,1.418427,20.23086,23.655084,61.88646,12.799395,36.021955,155.552177,191.574132
std,1.116174,0.166599,0.466159,0.633839,7.79159,8.474601,19.245033,8.164537,49.960477,151.039033,181.144454
min,1.0,0.0,0.0,1.0,0.82,0.76,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,0.0,1.0,13.94,16.665,47.0,7.0015,4.0,36.0,42.0
50%,3.0,0.0,1.0,1.0,20.5,24.24,62.0,12.998,17.0,118.0,145.0
75%,4.0,0.0,1.0,2.0,26.24,31.06,77.0,16.9979,49.0,222.0,284.0
max,4.0,1.0,1.0,4.0,41.0,45.455,100.0,56.9969,367.0,886.0,977.0


In [31]:
# 해당 value들의 개수를 보여주는 함수 value_counts()

df['season'].value_counts()

4    2734
2    2733
3    2733
1    2686
Name: season, dtype: int64

In [32]:
df['weather'].value_counts()

1    7192
2    2834
3     859
4       1
Name: weather, dtype: int64

In [33]:
df['workingday'].value_counts()

1    7412
0    3474
Name: workingday, dtype: int64

In [34]:
# 고유값만 보여준다. 

set(df['weather'])

{1, 2, 3, 4}

In [35]:
# 데이터를 한 눈에 보이게하고 싶을 떄 사용

df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
season,10886.0,2.506614,1.116174,1.0,2.0,3.0,4.0,4.0
holiday,10886.0,0.028569,0.166599,0.0,0.0,0.0,0.0,1.0
workingday,10886.0,0.680875,0.466159,0.0,0.0,1.0,1.0,1.0
weather,10886.0,1.418427,0.633839,1.0,1.0,1.0,2.0,4.0
temp,10886.0,20.23086,7.79159,0.82,13.94,20.5,26.24,41.0
atemp,10886.0,23.655084,8.474601,0.76,16.665,24.24,31.06,45.455
humidity,10886.0,61.88646,19.245033,0.0,47.0,62.0,77.0,100.0
windspeed,10886.0,12.799395,8.164537,0.0,7.0015,12.998,16.9979,56.9969
casual,10886.0,36.021955,49.960477,0.0,4.0,17.0,49.0,367.0
registered,10886.0,155.552177,151.039033,0.0,36.0,118.0,222.0,886.0


# 상관계수 ( coefficient of correlation )
- 값의 증가나 감소가 있으면 다른 값도 증가나 감소의 추세를 보이는 계수이다. 

In [36]:
df[['weather', 'count']].corr()

# 1에 가까울수록 둘은 관계가 깊다

Unnamed: 0,weather,count
weather,1.0,-0.128655
count,-0.128655,1.0
