In [1]:
import pandas as pd
import numpy as np

In [2]:
# dataframe == schema(db, table)

In [3]:
# dataframe을 만드는 방법
# 1. 외부파일을 읽어온다.(csv, xlsx)
# 2. 데이터구조를 가지고 dataframe을 만들어주면 된다.
#    dic, list

In [4]:
# 항목명1  항목명2  항목명3 ==> dic(key)
# --------------------
# 100     200    300   ==> dic(val, list)
# 200     220    330

# {"항목명1" : [100, 200], "항목명2" : [200, 220]}

In [7]:
df = pd.DataFrame({
            "name" : ['홍길동', '박길동'], 
            "age" : [100, 30], 
            "ex" : [1, 2]
            })
df

Unnamed: 0,name,age,ex
0,홍길동,100,1
1,박길동,30,2


In [8]:
df['name']

0    홍길동
1    박길동
Name: name, dtype: object

In [9]:
df['age']

0    100
1     30
Name: age, dtype: int64

In [10]:
df['ex']

0    1
1    2
Name: ex, dtype: int64

In [11]:
df.describe() #수치항목에 대해서만! 요약
# 갯수, 평균(mean), 표준편차(std), min(최소), max(최대)
# 25%,50%,70%,100%(사분위수)

Unnamed: 0,age,ex
count,2.0,2.0
mean,65.0,1.5
std,49.497475,0.707107
min,30.0,1.0
25%,47.5,1.25
50%,65.0,1.5
75%,82.5,1.75
max,100.0,2.0


In [21]:
df.dtypes

name    object
age      int64
ex       int64
dtype: object

In [22]:
df.name #컬럼만 추출하는 경우

0    홍길동
1    박길동
Name: name, dtype: object

In [25]:
df.loc[:,'name'] 
#행(인덱스(object, int) 이용), 열(컬럼명 이용)을 함께 추출하는 경우 loc함수
#행(인덱스 int이용), 열(인덱스 int이용)을 함께 추출하는 경우 iloc 

0    홍길동
1    박길동
Name: name, dtype: object

In [27]:
df.loc[:,'name':'age']

Unnamed: 0,name,age
0,홍길동,100
1,박길동,30


In [28]:
df.loc[:,'name':'ex']

Unnamed: 0,name,age,ex
0,홍길동,100,1
1,박길동,30,2


In [30]:
df.loc[0] #0번 행

name    홍길동
age     100
ex        1
Name: 0, dtype: object

In [31]:
df.loc[1] #1번 행

name    박길동
age      30
ex        2
Name: 1, dtype: object

In [33]:
df.loc[1, ['name', 'ex']]

name    박길동
ex        2
Name: 1, dtype: object

In [36]:
df.loc[1:2, 'age':'ex']

Unnamed: 0,age,ex
1,30,2


In [37]:
df['add_column'] = df['age'] + df['ex']
df

Unnamed: 0,name,age,ex,add_column
0,홍길동,100,1,101
1,박길동,30,2,32


In [38]:
df.columns

Index(['name', 'age', 'ex', 'add_column'], dtype='object')

In [39]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [40]:
df.values

array([['홍길동', 100, 1, 101],
       ['박길동', 30, 2, 32]], dtype=object)

In [41]:
df.value_counts

<bound method DataFrame.value_counts of   name  age  ex  add_column
0  홍길동  100   1         101
1  박길동   30   2          32>

In [14]:
import random

In [15]:
name_list = []
age_list = []
ex_list = []
for i in range(1000):
    name_list.append('이름' + str(i))
    age_list.append(random.randint(1, 120))
    ex_list.append(random.randint(1,2))
len(name_list), len(age_list), len(ex_list)

(1000, 1000, 1000)

In [17]:
name_list[:5] #index 0~4, 5개를 print

['이름0', '이름1', '이름2', '이름3', '이름4']

In [18]:
name_list[995:]

['이름995', '이름996', '이름997', '이름998', '이름999']

In [19]:
age_list[:5]

[91, 93, 66, 50, 100]

In [20]:
ex_list[:5]

[2, 2, 1, 1, 2]

In [None]:
#1. df로 만들어보고, 
#2. 각 컬럼의 데이터타입을 확인해보고,
#3. 각 컬럼을 추출해보고,
#4. 숫자형 컬럼의 요약을 해보세요.

In [42]:
df2 = pd.DataFrame({
                    "name" : name_list,
                    "age" : age_list,
                    "ex" : ex_list
                    }) 
df2

Unnamed: 0,name,age,ex
0,이름0,91,2
1,이름1,93,2
2,이름2,66,1
3,이름3,50,1
4,이름4,100,2
...,...,...,...
995,이름995,94,2
996,이름996,2,2
997,이름997,67,2
998,이름998,96,1


In [44]:
type(df2['name'])

pandas.core.series.Series

In [45]:
df2.dtypes #name: object(str), age(int64)

name    object
age      int64
ex       int64
dtype: object

In [46]:
df2['age'] #데이터프레임[컬럼명]

0       91
1       93
2       66
3       50
4      100
      ... 
995     94
996      2
997     67
998     96
999    106
Name: age, Length: 1000, dtype: int64

In [48]:
df2.age

0       91
1       93
2       66
3       50
4      100
      ... 
995     94
996      2
997     67
998     96
999    106
Name: age, Length: 1000, dtype: int64

In [50]:
df2['age'] > 50 #브로드캐스팅

0       True
1       True
2       True
3      False
4       True
       ...  
995     True
996    False
997     True
998     True
999     True
Name: age, Length: 1000, dtype: bool

In [51]:
df2['age'] - 10 #브로드캐스팅
# 원본을 가져다가 처리하므로, df2는 바뀌지 않음.
# (비파괴 연산)

0      81
1      83
2      56
3      40
4      90
       ..
995    84
996    -8
997    57
998    86
999    96
Name: age, Length: 1000, dtype: int64

In [52]:
df2['age']

0       91
1       93
2       66
3       50
4      100
      ... 
995     94
996      2
997     67
998     96
999    106
Name: age, Length: 1000, dtype: int64

In [53]:
df2['age'] = df2['age'] - 10
df2['age']

0      81
1      83
2      56
3      40
4      90
       ..
995    84
996    -8
997    57
998    86
999    96
Name: age, Length: 1000, dtype: int64

In [54]:
df2['name'] = df2['name'] + '님'
df2['name']

0        이름0님
1        이름1님
2        이름2님
3        이름3님
4        이름4님
        ...  
995    이름995님
996    이름996님
997    이름997님
998    이름998님
999    이름999님
Name: name, Length: 1000, dtype: object