In [58]:
# pandas 라이브러리 불러오기
import pandas as pd

### Series 데이터 구조
- 인덱스와 값이 1:1로 대응되어있는 구조

In [59]:
population = pd.Series([9668465,3391946,2942828,1450062])
population

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [60]:
population = pd.Series([9668465,3391946,2942828,1450062],
                      index = ['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series 데이터 구조 확인하기
- values
- index
- dtype

In [61]:
# Series의 값만 확인하기
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [62]:
# Series의 인덱스값만 확인하기
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [63]:
# Series의 데이터 타입 확인하기
population.dtype

dtype('int64')

In [64]:
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series에 이름 지정하기(데이터의 정보를 나타내주기)

In [65]:
# 데이터값에 이름 지정하는 방법 : .name
population.name = '인구'
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [66]:
# 데이터의 인덱스에 이름을 지정하는 방법 : .index.name
population.index.name = '도시'
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### Series 연산

In [67]:
population / 1000000

도시
서울    9.668465
부산    3.391946
인천    2.942828
광주    1.450062
Name: 인구, dtype: float64

In [68]:
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

### Series -> 인덱싱 슬라이싱

In [69]:
# 스스로 부산데이터만 출력해보기
population[1]
population['부산']
# 인덱싱을 할때 실제 인덱스(도시) 이름으로도 가능하다

3391946

In [70]:
population[[1]]

도시
부산    3391946
Name: 인구, dtype: int64

In [71]:
# 서울, 인천, 광주 -> 한번에 가져오기 (인덱싱)
population[[0,2,3]]
population[['서울','인천','광주']]
# 여러개의 데이터를 가져오고 싶을때는 묶어서 가져오면 된다

도시
서울    9668465
인천    2942828
광주    1450062
Name: 인구, dtype: int64

- 슬라이싱

In [72]:
# 전체데이터에서 부산, 인천 -> 슬라이싱 해오기
# 변수명[시작인덱스, 끝인덱스+1]
population[1:3]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [73]:
# 지정해준 인덱스 이름으로 슬라이싱
population['부산':'인천']
# 지정해준 인덱스 값으로 슬라이싱을 할때는 끝+1 rosuddl djqtdjtj
# 그냥 내가 가져오고싶은 마지막 값을 적어주면 된다

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

- 불리언 인덱싱

In [74]:
# 인구가 250만 이상인 도시들만 출력
population[population>=2500000]

도시
서울    9668465
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [75]:
# 현재는 논리연산의 결과
population >= 2500000

도시
서울     True
부산     True
인천     True
광주    False
Name: 인구, dtype: bool

In [76]:
# 인구수가 250이상 이고 500만 이하인 도시만 출력 -> 부산, 인천
population[(population>=2500000) & (population<=5000000)]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

### dictionary 구조를 활용하여 Series 생성하기
- 키와 밸류 값을 가지는 데이터 구조
- key는 index
- value는 value

In [77]:
# 포켓몬이름 : 능력치
data = {'피카츄':9631,'파이리':5862,'꼬부기':1235, '이상해씨':2685}
pokemon = pd.Series(data)

In [78]:
# 레벨업한 능력치가 들어있는 pokemon_up
data2 = {'피카츄':10222,'파이리':6524,'뮤':9999,'메타몽':2560}
pokemon_up = pd.Series(data2)

In [79]:
# 올라간 능력치 계산
stat = pokemon_up - pokemon
stat
# NaN (not a number) = 결측치 (비어있다)

꼬부기       NaN
메타몽       NaN
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [80]:
# 비어있지 않은 데이터만 확인하기!
stat.notnull()    # --> 논리형 결과가 출력된다
# 비어있지 않은 데이터만 보고싶다면? --> 불리언 인덱싱
stat[stat.notnull()]
# 비어있는 데이터만 확인하기
stat[stat.isnull()]

꼬부기    NaN
메타몽    NaN
뮤      NaN
이상해씨   NaN
dtype: float64

In [81]:
# 레벨업해서 올라간 능력치의 증감fbf(%) 구하기!
# (올라간데이터 - 원래데이터) / 원래데이터 * 100
stat2 = (pokemon_up - pokemon)/pokemon * 100

In [82]:
# 비어있지 않은 데이터만 출력
stat2[stat2.notnull()]

파이리    11.293074
피카츄     6.136434
dtype: float64

In [83]:
# 비어있는 데이터만 출력
stat2[stat2.isnull()]

꼬부기    NaN
메타몽    NaN
뮤      NaN
이상해씨   NaN
dtype: float64

### Series 데이터 구조 추가, 수정, 삭제

In [84]:
stat

꼬부기       NaN
메타몽       NaN
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [85]:
# 수정 -> 기존에 있는 인덱스 명칭에 값을 덮어 씌워주는것
stat['메타몽'] = 567
stat

꼬부기       NaN
메타몽     567.0
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [86]:
# 추가 -> 기존에 없는 인덱스 명칭에 값을 삽입하는것
stat['리자몽'] = 1111
stat

꼬부기        NaN
메타몽      567.0
뮤          NaN
이상해씨       NaN
파이리      662.0
피카츄      591.0
리자몽     1111.0
dtype: float64

In [87]:
# 삭제1 (del)
del stat['피카츄']

In [88]:
stat

꼬부기        NaN
메타몽      567.0
뮤          NaN
이상해씨       NaN
파이리      662.0
리자몽     1111.0
dtype: float64

In [89]:
# 삭제2 (drop)
stat = stat.drop('메타몽')

In [90]:
stat.drop('파이리',inplace=True)

In [91]:
stat

꼬부기        NaN
뮤          NaN
이상해씨       NaN
리자몽     1111.0
dtype: float64

In [92]:
# Series 구조의 append
int1 = [1,2,3]
s1 = pd.Series(int1)
int2 = [4,5,6]
s2 = pd.Series(int2)

In [93]:
s1

0    1
1    2
2    3
dtype: int64

In [94]:
s2

0    4
1    5
2    6
dtype: int64

In [95]:
# Series의 append 다시 대입을 해줘야 적용이된다~
# ignore_index : 기존의 인덱스 번호를 무시하고 새로운 인덱스 번호를 생성한다
s1 = s1.append(s2,ignore_index=True)

  s1 = s1.append(s2,ignore_index=True)


In [96]:
s1

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

### DataFrame
- Series 1차원데이터
- DataFrame 행과 열로 구성되어있는 2차원 형태의 데이터!

In [97]:
# dictionary 구조를 활용해서 DataFrame 생성하기!
data = {'2020':[9668465,3391946,2942828,1450062],
       '2010':[10312545,3567910,2758296,1454636]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [98]:
# DataFrame에 인덱스 지정하기 (명칭 바꿔주기)
df1.index = ['서울','부산','인천','광주']
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [99]:
# DataFrame을 생성하면서 바로 인덱스 지정하기
data = {'2020':[9668465,3391946,2942828,1450062],
       '2010':[10312545,3567910,2758296,1454636]}
df2 = pd.DataFrame(data, index = ['서울','부산','인천','광주'])
df2

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [100]:
# list 자료형으로 DataFrame 생성하기
list1 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]
col = ['서울','부산','인천','광주']
index = ['2020','2010']
df3 = pd.DataFrame(list1, index = index, columns = col)
df3

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [101]:
# DataFrame 전치(Transfose) -> 행과 열의 데이터를 바꿔주는 것
df3 = df3.T
# 전치 후에 다시 대입을 해줘야 적용이 된다

In [102]:
df3

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### DataFrame 속성 확인하기!
- values : 데이터의 값 확인
- index : 데이터의 인덱스 확인
- columns : 데이터의 컬럼 확인

In [103]:
# DataFrame 값만 확인하는 방법
df3.values

array([[ 9668465, 10312545],
       [ 3391946,  3567910],
       [ 2942828,  2758296],
       [ 1450062,  1454636]], dtype=int64)

In [104]:
# DataFrame 인덱스 값만 확인하는 방법
df3.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [105]:
# DataFrame의 컬럼 확인하는 방법
df3.columns

Index(['2020', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱
#### DataFrame 열데이터 확인하기

In [106]:
# 열데이터 확인하기
df1['2020']    # Series 형태로 출력이 된다 왜? 1차원 이니까

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [107]:
# 데이터를 DataFrame 형태로 출력해보기(인덱싱)
df1[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [108]:
# 2020, 2010 두개의 열 출력
df1[['2020','2010']]
# 1차원 형태로 가져오게되면 오류가 난다!

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### DataFrame 슬라이싱

In [109]:
data4 = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
         '2005':[9762546,3512547,2517680,1456016]
        }
df4 = pd.DataFrame(data4,index = ['서울','부산','인천','광주'])
df4

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [110]:
# DataFrame 행슬라이싱
df4[0:2]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


In [111]:
# DataFrame 열슬라이싱은 안됨
df4['2020':'2010']

KeyError: '2020'

### DataFrame의 인덱서
- .loc[시작 : 끝] -> 실제인덱스 이름 or 컬럼이름으로 데이터를 가져온다
- .iloc[시작 : 끝+1] -> 인덱스 번호를 활용해서 데이터를 가져온다

In [None]:
# 행 인덱싱은 인덱서를 활용해서 가능하다! 서울 행 인덱싱 해오기
df4.loc['서울']

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

In [None]:
# 서울~인천 loc
df4.loc['서울':'인천']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [None]:
# 서울~인천 iloc
df4.iloc[0:3]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [None]:
# 스스로 부산~ 인천, 2020~2010 loc
# loc[행,열]
df4.loc['부산':'인천', '2020':'2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [None]:
# 스스로 부산~ 인천, 2020~2010 iloc
# iloc[행,열]
df4.iloc[1:3, 0:2]

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


### boolean 인덱싱

In [None]:
# 2010년 데이터중에서 260만 이상인 전체데이터 가져오기!
df4[df4['2010']>=2600000]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [None]:
df4['2010'][df4['2010']>=2600000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [None]:
# DataFrame에서 불리언 인덱싱을 했을때 False인 값들은 NaN으로 출력이 된다!
df4[df4>=3500000]

Unnamed: 0,2020,2010,2005
서울,9668465.0,10312545.0,9762546.0
부산,,3567910.0,3512547.0
인천,,,
광주,,,


### DataFrame 추가, 수정, 삭제

In [None]:
# 새로운 열 추가하기!
df1['2005'] = [9762546,3512547,2517680,1456016]
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [None]:
# DataFrame 수정하기
df1['2005']=[0,0,0,0]
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


In [None]:
df1.loc['부산','2005'] = 1234563
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,1234563
인천,2942828,2758296,0
광주,1450062,1454636,0


In [None]:
# DataFrame 삭제
del df1['2005']
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [None]:
# drop
df1.drop('부산')

Unnamed: 0,2020,2010
서울,9668465,10312545
인천,2942828,2758296
광주,1450062,1454636


In [None]:
# drop 기능의 축설정이 axis = 0 으로 되어있다 (행테이터를 기준으로 삭제)
df1.drop('2010',axis = 1,inplace=True)
df1

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


### DataFrame 실습

In [None]:
population = pd.read_csv('population.csv',index_col='도시')
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [None]:
# 데이터 정렬하기
# 인덱스를 기준으로 정렬하기
population.sort_index(ascending=False)
# 기본으로 오름차순 정렬 -> 내림차순 정렬을 해주고 싶을때는 ascending=False 속성변경

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [None]:
# 데이터를 기준으로 정렬하기
population['2015'].sort_values()
# 결측치는 가장 마지막에 출력이 된다!

도시
광주     1474636.0
대구     2466052.0
인천     2925815.0
서울    10022181.0
부산           NaN
Name: 2015, dtype: float64

In [None]:
# 전체데이터 내에서 정렬하고 싶을때
population.sort_values(by = '2010',ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [None]:
# 만약 정렬시에 동인한 값이 있다면 우선 인덱스로 정렬이 자동으로 된다
# 그런데 내가 지정해주고 싶다면?
population.sort_values(by = ['2010','지역'])

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


- count()함수
    - 각 행, 열별로 데이터의 개수를 세어주는 함수
    - 몇개의 행이 있는지

In [None]:
# 몇개의 열데이터가 있는지
population.count(axis = 1)

도시
서울    5
부산    3
인천    4
광주    5
대구    5
dtype: int64

- fillna 함수

In [None]:
# fillna() -> 변수명.fillna(value = 데이터)
# 결측치를 원하는 값으로 변경해주는 함수
# 왜 바꾸지> -> 결측치와의 연산은 결측치로 출력되기때문
population.fillna(value = 0)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,0.0,0.0,3628293
인천,수도권,2942828,2925815.0,0.0,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [None]:
# fillna 함수도 바로 적용되지 않음!
# 다시 대입해주거나 inplace 속성을 활용해줄것!
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


### DataFrame 실습2

In [None]:
# 스스로 파일 읽어오기!
# 조건 : '과목'을 인덱스로 가져와주세요!
score = pd.read_csv('score.csv',index_col='과목', encoding='euc-kr')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [None]:
# 학급별 점수 총합 구하기!(sum())
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [None]:
# 학급별 점수 총합 오름차순 정렬하기!
score.sum().sort_values()

4반    243
1반    271
3반    295
2반    388
dtype: int64

In [None]:
# 과목별 점수 총합 구하기
score.sum(axis = 1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [None]:
# DataFrame에서도 마찬가지로 범용함수 사용 가능하다
# 축설정이 기본으로 행(axis = 0)으로 되어있다
# axis = 0의 의미는 '행끼리' 더해주세요!

#### Q1 과목별 합계를 구해서 DataFrame에 추가해주기 ('합계'라는 컬럼을 추가)

In [None]:
score['합계'] = score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


#### Q2 DataFrame에 반별 합계를 구해서 '반합계'행 추가하기

In [None]:
# 행인덱스 -> 인덱서 활용
score.loc['반합계'] = score.sum()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163
반합계,271,388,295,243,1197


### Q3 과목별 평균 구하기 -> 새로운 컬럼 추가('평균')

In [None]:

score['평균'] = score.loc['파이썬':'Web','1반':'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75
반합계,271,388,295,243,1197,


In [None]:
# 의미 없는 데이터는 -(하이픈으로 출력해주기)
score.loc['반합계','합계':'평균'] = '-'
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75
반합계,271,388,295,243,-,-


#### Q4 과목별로 가장 높은 점수와 낮은 점수의 차이를 구해주세요!

In [None]:
# 1. 전체 반에서 과목별로 가장 높은 점수를 maxScore에 담아주세요 -> max() 사용
maxScore = score.loc['파이썬':'Web','1반':'4반'].max(axis=1)
maxScore

과목
파이썬    73
DB     92
자바     92
크롤링    92
Web    79
dtype: int64

In [None]:
# 2. 전체 반에서 과목별로 가장 낮은 점수를 minScore에 담아주세요 -> min() 사용
minScore = score.loc['파이썬':'Web','1반':'4반'].min(axis=1)
minScore

과목
파이썬    39
DB     45
자바     45
크롤링    40
Web    11
dtype: int64

In [None]:
# 3. maxScore - minScore를 구해주세요
maxScore - minScore

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### apply 함수
- 행 or 열 단위의 복잡한 계산을 함수를 사용하여 적용할때 사용
- pandas 데이터구조에 다른 함수를 적용하고 싶을때 사용한다
- df.apply(함수, 축설정(default = 0))

In [None]:
# 함수 정의하기 (최대값에서 최소값을 뺴주는 함수)
def max_min (x):
    return x.max() - x.min()

In [None]:
# 과목별 점수의 차이 구하기
score.iloc[:5,:4].apply(max_min, axis=1)

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### 카테고리 만들기
- 데이터를 범주화 해주는 작업

In [None]:
# 나이 데이터로 카테고리 생성

# 1. 데이터
ages = [0,2,10,32,20,23,61,100,54,16,38,40,88,73]
# 2. 범주 (bins)
bins = [-1,18,35,65,100]
# 3. 카테고리 명칭
labels = ['미성년자','청년','장년','노년']
cate = pd.cut(ages,bins,labels=labels)
cate

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '미성년자', '장년', '장년', '노년', '노년']
Length: 14
Categories (4, object): ['미성년자' < '청년' < '장년' < '노년']

- [ages 데이터들의 카테고리화된 각각의 결과들]
- 데이터의 개수
- 카테고리의 개수, 카테고리 이름

In [None]:
# 카테고리만 확인하고 싶을때
cate.categories

Index(['미성년자', '청년', '장년', '노년'], dtype='object')

In [None]:
# ages 데이터를 가지고 DataFrame 생성하기
age_df = pd.DataFrame(ages, columns=['ages'])
age_df

Unnamed: 0,ages
0,0
1,2
2,10
3,32
4,20
5,23
6,61
7,100
8,54
9,16


In [None]:
age_df['카테고리'] = cate
age_df

Unnamed: 0,ages,카테고리
0,0,미성년자
1,2,미성년자
2,10,미성년자
3,32,청년
4,20,청년
5,23,청년
6,61,장년
7,100,노년
8,54,장년
9,16,미성년자


In [None]:
# 카테고리 별로 데이터 개수 세는 방법
age_df.count()

ages    14
카테고리    14
dtype: int64

### value_counts()
- 카테고리컬한 데이터인 경우에 각각의 개수를 셀수 있는 함수
- 하나의 카테고리안에서 각각의 데이터의 개수를 세어준다

In [None]:
age_df['카테고리'].value_counts()

미성년자    4
장년      4
청년      3
노년      3
Name: 카테고리, dtype: int64

### DataFrame 병합하기
- concat([df1,df2,df3])

In [112]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']},
                    index = [0,1,2,3])
df2 = pd.DataFrame({'A': ['A4','A5','A6','A7'],
                   'B':['B4','B5','B6','B7'],
                   'C': ['C4','C5','C6','C7']},
                    index = [4,5,6,7])
df3 = pd.DataFrame({'A': ['A8','A9','A10','A11'],
                   'B':['B8','B9','B10','B11'],
                   'C': ['C8','C9','C10','C11']},
                    index = [8,9,10,11])

In [113]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7
8,A8,B8,C8
9,A9,B9,C9


In [114]:
# 데이터를 계층적으로 관리하고 싶을때 -> 다중인덱스 부여
pd.concat([df1,df2,df3], keys=['x','y','z'])

Unnamed: 0,Unnamed: 1,A,B,C
x,0,A0,B0,C0
x,1,A1,B1,C1
x,2,A2,B2,C2
x,3,A3,B3,C3
y,4,A4,B4,C4
y,5,A5,B5,C5
y,6,A6,B6,C6
y,7,A7,B7,C7
z,8,A8,B8,C8
z,9,A9,B9,C9


In [115]:
df4 = pd.DataFrame({'B': ['B2','B3','B6','B7'],
                   'D': ['D2','D3','D6','D7'],
                   'F': ['F2','F3','F6','F7']},
                  index = [2,3,6,7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [116]:
# 열 방향으로 데이터 병합하기
pd.concat([df1,df4],axis=1)

Unnamed: 0,A,B,C,B.1,D,F
0,A0,B0,C0,,,
1,A1,B1,C1,,,
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3
6,,,,B6,D6,F6
7,,,,B7,D7,F7


In [117]:
pd.concat([df1,df4],axis=1,join='inner')

Unnamed: 0,A,B,C,B.1,D,F
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3


In [118]:
# 기존의 인덱스를 무시하고 인덱스를 새로 부여하는 방법
pd.concat([df1,df4],axis=1).reset_index(drop = True)

Unnamed: 0,A,B,C,B.1,D,F
0,A0,B0,C0,,,
1,A1,B1,C1,,,
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3
4,,,,B6,D6,F6
5,,,,B7,D7,F7


In [119]:
import chardet
import pandas as pd
filename = "score.csv"
with open(filename, 'rb') as f:
    result = chardet.detect(f.readline())  # or read() if the file is small.
    print(result['encoding'])

EUC-KR


### 범죄현황 데이터

In [None]:
# 스스로 데이터 읽어오기
# index 설정은 '관서명으로'
data2019=pd.read_csv('2019.csv', index_col='관서명', encoding='EUC-KR')
data2020=pd.read_csv('2020.csv', index_col='관서명', encoding='EUC-KR')
data2021=pd.read_csv('2021.csv', index_col='관서명', encoding='EUC-KR')

In [None]:
# 1. 특정연도에만 존재하는 경찰청이 존재(drop) -> 삭제 해주기
# 2021년 "광주지방경찰청"
data2021 = data2021.drop('광주지방경찰청')

In [None]:
# 2. 연도별 범죄 데이터 총합 데이터 구하기 ('총합'이라는 컬럼 추가)
data2021['총합'] = data2021.loc[:,'살인':'폭력'].sum(axis=1)
data2020['총합'] = data2020.loc[:,'살인':'폭력'].sum(axis=1)
data2019['총합'] = data2019.loc[:,'살인':'폭력'].sum(axis=1)

In [None]:
# 3. 구분(컬럼)의 데이터가 '발생건수'인 값들만 가져오기(구분 ==발생건수) 불리언 인덱싱
data2021 = data2021[data2021['구분'] == '발생건수']
data2020 = data2020[data2020['구분'] == '발생건수']
data2019 = data2019[data2019['구분'] == '발생건수']

In [None]:
# 4. 총합을 기준으로 데이터 자르기 (인덱싱, 슬라이싱) -> Series 데이터구조로 출력
data2021 = data2021.loc[:,'총합']
data2020 = data2020.loc[:,'총합']
data2019 = data2019.loc[:,'총합']

In [None]:
# 5. 증감률 구하기
# (금년 - 작년) / 작년 * 100
data2019_2020 = ((data2020-data2019)/data2019)*100    
data2020_2021 = ((data2021-data2020)/data2020)*100    

In [None]:
# 6. 데이터 프레임 병합 (총 5개 Series를 병합)
# 19, 19-20 증감률, 20, 20-21 증감률, 21
pd.concat({'2019총계':data2019,'2019-2020증감율':data2019_2020,'2020총계':data2020,'2020-2021증감율':data2020_2021,'2021총계':data2021},axis=1)

Unnamed: 0_level_0,2019총계,2019-2020증감율,2020총계,2020-2021증감율,2021총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
