In [1]:
import pandas as pd # 데이터 조작 및 분석
import numpy as np # 수치 계산

In [2]:
# dataframe == schema(table)

In [3]:
# dataframe을 만드는 방법
# 1. 외부파일을 읽어온다.(csv, xlsx)
# 2. 데이터 구조를 가지고 dataframe을 만들어주면 된다.
#    dic, list

In [4]:
# 항목명1    항목명2     항목명3  ==>  dic(key)
# -------------------------------
#  100         200        300     ==>  dic(val, list)
#  200         220        330

# {"항목명1" : [100, 200], "항목명2" : [200, 220]}
# dataframe 생성 시 리스트의 개수가 같아야 한다

In [5]:
# dataframe 객체 생성
df = pd.DataFrame({"name" : ['홍길동','박길동'],
             "age": [100, 30],
             "ex": [1, 2]})
df

Unnamed: 0,name,age,ex
0,홍길동,100,1
1,박길동,30,2


In [6]:
df.loc[:,'name':'age'] # 앞의 : 는 전체를 지칭하고, 뒤의 : 는 name에서 age까지 라는 범위를 나타낸다

Unnamed: 0,name,age
0,홍길동,100
1,박길동,30


In [7]:
# df.loc['age'] # loc[행]
df.loc[0]

name    홍길동
age     100
ex        1
Name: 0, dtype: object

In [8]:
df['name']

0    홍길동
1    박길동
Name: name, dtype: object

In [9]:
df.loc[:,'name']

0    홍길동
1    박길동
Name: name, dtype: object

In [10]:
df['age']

0    100
1     30
Name: age, dtype: int64

In [11]:
df.loc[:,'age'] # df,loc[행, 열] # == df.age

0    100
1     30
Name: age, dtype: int64

In [12]:
df['ex']

0    1
1    2
Name: ex, dtype: int64

In [13]:
df.loc[:,'name':'ex']

Unnamed: 0,name,age,ex
0,홍길동,100,1
1,박길동,30,2


In [14]:
df.loc[0:2, 'age':'ex'] # 0~1행, age~ex 출력

Unnamed: 0,age,ex
0,100,1
1,30,2


In [15]:
df['age'][df['age'] > 50]
# df [컬럼명][조건] : 조건이 True인 것만 추출!

0    100
Name: age, dtype: int64

In [16]:
df['add_column'] = df['age'] + df['ex']
# 기본의 컬럼에 새로운 컬럼 추가 기능(파생한다, 파생컬럼, 파생변수)
# df[새로 만들고 싶은 컬럼명] = df[기존 컬럼] + df[기존 컬럼]
df

Unnamed: 0,name,age,ex,add_column
0,홍길동,100,1,101
1,박길동,30,2,32


In [17]:
df['next_age'] = df['age'] + 1
df

Unnamed: 0,name,age,ex,add_column,next_age
0,홍길동,100,1,101,101
1,박길동,30,2,32,31


In [18]:
df.loc[0, 'name']

'홍길동'

In [19]:
df.iloc[0,0]

'홍길동'

In [20]:
df.iloc[0,3] # df.loc[0, 'add_column']

101

In [21]:
df.iloc[0,3] = 200

In [22]:
df.iloc[1,4] # df.loc[1, 'next_age']

31

In [23]:
df.iloc[1,4] = 300
df

Unnamed: 0,name,age,ex,add_column,next_age
0,홍길동,100,1,200,101
1,박길동,30,2,32,300


In [24]:
df.describe() # 수치 항목에 대해서만! 요약
# 갯수, 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max)
# 25%, 50%, 75%, 100%(4분위수)

Unnamed: 0,age,ex,add_column,next_age
count,2.0,2.0,2.0,2.0
mean,65.0,1.5,116.0,200.5
std,49.497475,0.707107,118.793939,140.714249
min,30.0,1.0,32.0,101.0
25%,47.5,1.25,74.0,150.75
50%,65.0,1.5,116.0,200.5
75%,82.5,1.75,158.0,250.25
max,100.0,2.0,200.0,300.0


In [25]:
df.columns # df의 컬럼을 보여준다

Index(['name', 'age', 'ex', 'add_column', 'next_age'], dtype='object')

In [26]:
df.index # df의 index 값 보기

RangeIndex(start=0, stop=2, step=1)

In [27]:
df.values # df의 값들 확인 --> ndarray 클래스
# n : 숫자(차원 수 , 1차원이면 1, 2차원이면 2)
# d : 차원(dimension)
# array : 리스트
# pandas에서는 여러 차원의 데이터를 하나의 클래스로 처리하기(다루기) 위해서
# 여러 차원의 데이터를 다룰 수 있는 nd array를 만들어 놓았다

array([['홍길동', 100, 1, 200, 101],
       ['박길동', 30, 2, 32, 300]], dtype=object)

In [28]:
import random

In [29]:
name_list = []
age_list = []
ex_list = []
for i in range(1000):
    name_list.append('이름' + str(i))
    age_list.append(random.randint(10, 120))
    ex_list.append(random.randint(1,2))
len(name_list), len(age_list), len(ex_list)

(1000, 1000, 1000)

In [30]:
name_list[:5] # index 0~4, 5개를 print

['이름0', '이름1', '이름2', '이름3', '이름4']

In [31]:
name_list[995:]

['이름995', '이름996', '이름997', '이름998', '이름999']

In [32]:
age_list[:5]

[24, 42, 71, 19, 94]

In [33]:
ex_list[:5]

[1, 1, 1, 2, 1]

In [34]:
# 1. df로 만들어보고
df2 = pd.DataFrame({'name': name_list, 
                    'age' : age_list, 
                    'ex' : ex_list})
df2

Unnamed: 0,name,age,ex
0,이름0,24,1
1,이름1,42,1
2,이름2,71,1
3,이름3,19,2
4,이름4,94,1
5,이름5,98,1
6,이름6,87,1
7,이름7,12,1
8,이름8,73,1
9,이름9,110,1


In [35]:
df2.dtypes # df2의 데이터 타입을 보여준다

name    object
age      int64
ex       int64
dtype: object

In [36]:
# 3. 각 컬럼을 추출해보고
df2['age'] # 데이터프레임[컬럼명] 

0       24
1       42
2       71
3       19
4       94
5       98
6       87
7       12
8       73
9      110
10      71
11      31
12      27
13      27
14      29
15      74
16      89
17      39
18      96
19      13
20      48
21      96
22      45
23      68
24     109
25     103
26      99
27     119
28      43
29      95
      ... 
970     39
971     43
972    107
973     62
974     30
975     43
976    102
977     82
978    109
979    109
980     28
981     12
982     57
983     18
984    113
985     51
986     46
987     49
988    120
989     12
990     36
991     78
992     32
993     15
994     40
995     20
996    120
997    117
998     87
999     86
Name: age, Length: 1000, dtype: int64

In [37]:
df2.age # 데이터프레임.칼럼명 # 컬럼만 추출하는 경우

0       24
1       42
2       71
3       19
4       94
5       98
6       87
7       12
8       73
9      110
10      71
11      31
12      27
13      27
14      29
15      74
16      89
17      39
18      96
19      13
20      48
21      96
22      45
23      68
24     109
25     103
26      99
27     119
28      43
29      95
      ... 
970     39
971     43
972    107
973     62
974     30
975     43
976    102
977     82
978    109
979    109
980     28
981     12
982     57
983     18
984    113
985     51
986     46
987     49
988    120
989     12
990     36
991     78
992     32
993     15
994     40
995     20
996    120
997    117
998     87
999     86
Name: age, Length: 1000, dtype: int64

In [38]:
df2['age'] > 50 # 브로드캐스팅 : 모양이 다른 배열들 간의 연산이 어떤 조건을 만족했을 때 가능해지도록 배열을 자동적으로 변환

0      False
1      False
2       True
3      False
4       True
5       True
6       True
7      False
8       True
9       True
10      True
11     False
12     False
13     False
14     False
15      True
16      True
17     False
18      True
19     False
20     False
21      True
22     False
23      True
24      True
25      True
26      True
27      True
28     False
29      True
       ...  
970    False
971    False
972     True
973     True
974    False
975    False
976     True
977     True
978     True
979     True
980    False
981    False
982     True
983    False
984     True
985     True
986    False
987    False
988     True
989    False
990    False
991     True
992    False
993    False
994    False
995    False
996     True
997     True
998     True
999     True
Name: age, Length: 1000, dtype: bool

In [39]:
df2['age'] - 10 # 전체 나이에 각각 10씩 빼줌 # 브로드캐스팅
# 원본을 가져다가 처리하므로, df2는 바뀌지 않음
# 비파괴 연산

0       14
1       32
2       61
3        9
4       84
5       88
6       77
7        2
8       63
9      100
10      61
11      21
12      17
13      17
14      19
15      64
16      79
17      29
18      86
19       3
20      38
21      86
22      35
23      58
24      99
25      93
26      89
27     109
28      33
29      85
      ... 
970     29
971     33
972     97
973     52
974     20
975     33
976     92
977     72
978     99
979     99
980     18
981      2
982     47
983      8
984    103
985     41
986     36
987     39
988    110
989      2
990     26
991     68
992     22
993      5
994     30
995     10
996    110
997    107
998     77
999     76
Name: age, Length: 1000, dtype: int64

In [40]:
df2['age'] = df2['age'] - 10
df2['age']

0       14
1       32
2       61
3        9
4       84
5       88
6       77
7        2
8       63
9      100
10      61
11      21
12      17
13      17
14      19
15      64
16      79
17      29
18      86
19       3
20      38
21      86
22      35
23      58
24      99
25      93
26      89
27     109
28      33
29      85
      ... 
970     29
971     33
972     97
973     52
974     20
975     33
976     92
977     72
978     99
979     99
980     18
981      2
982     47
983      8
984    103
985     41
986     36
987     39
988    110
989      2
990     26
991     68
992     22
993      5
994     30
995     10
996    110
997    107
998     77
999     76
Name: age, Length: 1000, dtype: int64

In [41]:
df2['name'] = df2['name'] + '님'
df2['name']

0        이름0님
1        이름1님
2        이름2님
3        이름3님
4        이름4님
5        이름5님
6        이름6님
7        이름7님
8        이름8님
9        이름9님
10      이름10님
11      이름11님
12      이름12님
13      이름13님
14      이름14님
15      이름15님
16      이름16님
17      이름17님
18      이름18님
19      이름19님
20      이름20님
21      이름21님
22      이름22님
23      이름23님
24      이름24님
25      이름25님
26      이름26님
27      이름27님
28      이름28님
29      이름29님
        ...  
970    이름970님
971    이름971님
972    이름972님
973    이름973님
974    이름974님
975    이름975님
976    이름976님
977    이름977님
978    이름978님
979    이름979님
980    이름980님
981    이름981님
982    이름982님
983    이름983님
984    이름984님
985    이름985님
986    이름986님
987    이름987님
988    이름988님
989    이름989님
990    이름990님
991    이름991님
992    이름992님
993    이름993님
994    이름994님
995    이름995님
996    이름996님
997    이름997님
998    이름998님
999    이름999님
Name: name, Length: 1000, dtype: object

In [42]:
# 4. 숫자형 컬럼의 요약을 해보세요
df2.describe()

Unnamed: 0,age,ex
count,1000.0,1000.0
mean,55.14,1.509
std,32.49579,0.500169
min,0.0,1.0
25%,26.0,1.0
50%,54.0,2.0
75%,84.0,2.0
max,110.0,2.0
