<a href="https://colab.research.google.com/github/dubuuri/aipython/blob/main/7_%ED%8C%90%EB%8B%A4%EC%8A%A4(Pandas)_20240110.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 판다스(Pandas) 개요

< **판다스(Pandas)** >

* 데이터 분석을 위해 사용하는 파이썬 라이브러리
* 넘파이를 기반으로 만들어졌기에 대용량 데이터를 빠른 속도로 분석할 수 있음
* 기본 데이터 구조로 1차원 배열 형태인 시리즈(Series)와 2차원 배열 형태인 데이터프레임(Dataframe)이 있음
* 판다스가 설치되어 있지 않은 경우 'pip install pandas'라는 명령을 실행하여 설치

< **판다스 특징** >

> (1) 가변적인 데이터 구조

* 데이터프레임에 칼럼, 행을 추가/삭제/순서 변경 가능
* 데이터프레임의 각 칼럼에 다른 타입의 데이터를 저장 가능
* 처음 지정한 칼럼의 데이터 타입 변경 가능
* 데이터프레임의 일부를 분리하거나 병합 가능

> (2) 쉬운 데이터 처리

* 누락된 결측치 처리 작업 용이
* 데이터 집계와 변환 작업을 위해 특정 칼럼을 기준으로 그룹화하는 기능 제공
* 슬라이싱과 조건식을 활용해 원하는 데이터만 출력 가능
* 데이터 정렬, 통계 결과 산출 용이
* 날짜 데이터에서 년, 월, 일, 요일을 추출하는 등 다양한 함수 제공

In [2]:
# 파이썬에서 설치
# pip install pandas

# 판다스 기본 설정
import pandas as pd

---

# 2. 판다스 데이터프레임 만들기

In [7]:
# 파이썬 리스트를 데이터프레임으로 생성

# DataFrame([[a11,a12,...][a21,a22, ...]...])
# 2차원 리스트에 지정한 값을 이용해서 데이터프레임 생성

import pandas as pd
df = pd.DataFrame([["Kim",27,92],
                  ['Lee',33,98],
                  ['Park',19,87]])
df  # print(df) 이면 출력값이 표 형태로 나오지 않음

# 데이터프레임의 칼럼명을 별도로 지정하지 않았기 때문에 칼럼명이 0,1,2가 됨

Unnamed: 0,0,1,2
0,Kim,27,92
1,Lee,33,98
2,Park,19,87


In [8]:
# 파이썬 딕셔너리를 데이터프레임으로 생성

# DataFrame({'키1':[값11,값12,...], '키2':[값21,값22,...],...})
# dict의 키를 칼럼명으로, 리스트로 된 값을 칼럼값으로 사용하여 데이터프레임 생성

import pandas as pd

df = pd.DataFrame({'name':['Kims','Lee','Park'],
                   'age':[27,33,19],
                   'score':[92,98,87]})
df

Unnamed: 0,name,age,score
0,Kims,27,92
1,Lee,33,98
2,Park,19,87


In [11]:
# CSV파일로 데이터프레임 만들기

# read_csv('csv파일명', encodind='인코딩 타입')
# csv파일을 읽어서 파일 데이터의 첫 번째 줄을 칼럼명으로 갖는 데이터프레임 생성

import pandas as pd

df = pd.read_csv('data.csv',encoding='UTF-8')
df

Unnamed: 0,name,age,score
0,Kim,27,92
1,Lee,33,98
2,Park,19,87


In [19]:
# 웹의 데이터프레임 읽기

a = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv',delimiter='\t')
a

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_towerKills,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5
0,3326086514,1504279457970,1949,9,1,2,1,1,1,1,...,5,0,0,1,1,114,67,43,16,51
1,3229566029,1497848803862,1851,9,1,1,1,1,0,1,...,2,0,0,0,0,11,67,238,51,420
2,3327363504,1504360103310,1493,9,1,2,1,1,1,2,...,2,0,0,1,0,157,238,121,57,28
3,3326856598,1504348503996,1758,9,1,1,1,1,1,1,...,0,0,0,0,0,164,18,141,40,51
4,3330080762,1504554410899,2094,9,1,2,1,1,1,1,...,3,0,0,1,0,86,11,201,122,18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51485,3308904636,1503076540231,1944,9,2,1,2,2,0,2,...,10,2,0,4,0,55,-1,90,238,157
51486,3215685759,1496957179355,3304,9,2,1,1,2,2,2,...,11,7,4,4,1,157,55,119,154,105
51487,3322765040,1504029863961,2156,9,2,2,2,2,0,1,...,10,2,0,2,0,113,122,53,11,157
51488,3256675373,1499562036246,1475,9,2,2,2,2,0,2,...,11,3,0,1,0,154,39,51,90,114


In [20]:
# 웹의 데이터프레임 읽기

a = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv',delimiter='\t')
print(a.shape)

(51490, 61)


In [21]:
# 파일을 읽어서 데이터프레임 생성 : xlsx 파일

# read_excel('xlsx 파일명')
# xlsx파일을 읽어서 파일 데이터의 첫 번째 줄을 칼럼명으로 갖는 데이터프레임 생성

import pandas as pd

a = pd.read_excel('data.xlsx')
a

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
2,A반,오지수,남,,,응시,확인
3,B반,김선후,남,33.0,44.0,응시,
4,A반,하진희,여,0.0,85.0,응시,
5,A반,강현진,남,,,,
6,B반,김진솔,남,90.0,89.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
8,A반,김성희,남,,,,확인
9,B반,이지서,여,86.0,100.0,응시,확인


## 데이터프레임 데이터 보기

In [None]:
# (1) 데이터프레임의 상위/하위 데이터 몇 개만 보기

# 데이터프레임명.head(개수) / 데이터프레임명.tail(개수)
# : 데이터프레임에서 원하는 개수만큼 상위/하위 데이터를 출력
# (개수 지정이 없으면 5개)

a.head(3)
a.tail(3)

In [23]:
# (2) 데이터프레임의 대한 정보 보기

# 데이터프레임명.info()
# : 데이터프레임의 칼럼들과 칼럼의 데이터 타입, 데이터 개수 등의 기본 정보를 출력

a.info()

# 매우매우 중요 한번은 꼭 사용한대
# 결측치, 비결측치 알 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   반       10 non-null     object 
 1   이름      10 non-null     object 
 2   성별      10 non-null     object 
 3   국어      7 non-null      float64
 4   수학      7 non-null      float64
 5   응시여부    8 non-null      object 
 6   확인여부    7 non-null      object 
dtypes: float64(2), object(5)
memory usage: 688.0+ bytes


In [28]:
# (3) 데이터프레임의 특정 칼럼의 데이터 보기

# 데이터프레임명.칼럼명 / 데이터프레임['칼럼명']
# : 지정한 칼럼 한 개의 데이터 가져오기

# 데이터프레임명[['칼럼명1', '칼럼명2', ...]]
# : 리스트로 지정한 여러 개의 칼럼 데이터 가져오기

a['이름'] # a.이름
a[['이름','성별']]

Unnamed: 0,이름,성별
0,구이서,남
1,김이정,여
2,오지수,남
3,김선후,남
4,하진희,여
5,강현진,남
6,김진솔,남
7,박서준,여
8,김성희,남
9,이지서,여


In [30]:
# (4) 데이터프레임의 행 범위를 지정해서 데이터 보기

# 데이터프레임명[시작 행 번호 : 종료 행 번호]
# : 시작 행 번호부터 종료 행 번호 이전까지의 레코드 가져오기
# 데이터프레임명['칼럼명'][시작 행 번호 : 종료 행 번호]
# : 지정한 칼럼이 시작 행 번호부터 종료 행 번호 이전까지의 데이터 가져오기

a[0:3]
a['이름'][0:3]

0    구이서
1    김이정
2    오지수
Name: 이름, dtype: object

In [39]:
# (5) 데이터프레임에서 행과 칼럼을 지정하여 데이터 보기

# 데이터프레임명.loc[행 번호, ['칼럼 이름']] - 레이블 기반
# 데이터프레임명.iloc[0부터 시작한 행 순서값, 0부터 시작한 칼럼 순서값] - 인덱스 기반
# : 행과 열을 지정하여 데이터프레임의 일부 데이터만 가져와 출력

a.loc[2]
a.loc[0:3,['이름']] # 종료값인 3을 포함

a.iloc[1,2]
a.iloc[0:3,0:2] # iloc는 가져오는 데이터의 범위로 지정한 종료값을 포함하지 않음

Unnamed: 0,반,이름
0,A반,구이서
1,B반,김이정
2,A반,오지수


In [44]:
# (6) 데이터프레임에 대한 조건 연산 결과 출력하기

# 데이터프레임명이 'a'인 경우
# a['칼럼명']에 대한 조건식
# : a에서 해당 칼럼 데이터에 대한 조건 연산 결과 출력

a['국어']>=80

0     True
1    False
2    False
3    False
4    False
5    False
6     True
7    False
8    False
9     True
Name: 국어, dtype: bool

In [48]:
# (7) 데이터프레임에서 조건에 맞는 데이터 보기

# 데이터프레임명이 'a'인 경우
# a[a['칼럼명']에 대한 조건식] 또는 df.query('칼럼명에 대한 파이썬 조건식 문자열')
# : a에서 해당 칼럼 데이터에 대한 조건 연산 결과 출력

a[a['국어']>=80]
# a.query('국어>=80')

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
6,B반,김진솔,남,90.0,89.0,응시,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [52]:
#

a[(a['국어']>=80) & (a['수학']>=90)]

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
9,B반,이지서,여,86.0,100.0,응시,확인


In [51]:
a[(a['국어']>=80) | (a['수학']>=90)]

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
6,B반,김진솔,남,90.0,89.0,응시,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [56]:
# (8) 데이터프레임의 데이터 정렬

# 데이터프레임명.sort_values(by=['칼럼명'], ascending=True/False, inplace=True/False)
# : 지정한 칼럼을 기준으로 데이터프레임의 데이터를 오름차순/내림차순으로 정렬

# 이름을 내림차순으로 정렬
a.sort_values(by=['이름'])

# 국어를 오름차순으로 정렬 (ascending=False)
a.sort_values(by=['국어'], ascending=False)

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
6,B반,김진솔,남,90.0,89.0,응시,확인
9,B반,이지서,여,86.0,100.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
3,B반,김선후,남,33.0,44.0,응시,
4,A반,하진희,여,0.0,85.0,응시,
2,A반,오지수,남,,,응시,확인
5,A반,강현진,남,,,,
8,A반,김성희,남,,,,확인


In [57]:
# (9) 데이터프레임의 속성값 정보 보기

# 데이터프레임명.index : 데이터프레임이 갖는 행 번호들
# 데이터프레임명.columns : 데이터프레임이 갖는 칼럼명들
# 데이터프레임명.size : 데이터프레임에 있는 개별 항목 개수들(행의 개수 X 칼럼 개수)

print(list(a.index))
print(list(a.columns))
print(a.size)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
['반', '이름', '성별', '국어', '수학', '응시여부', '확인여부']
70


---

# 3. 판다스 데이터프레임 활용하기

## 3.1 데이터프레임의 데이터 집계

In [58]:
# (1) 데이터프레임의 전체 기본 통계 출력

# 데이터프레임명.describe()
# : 데이터프레임에서 숫자값을 갖는 칼럼들에 대한 기본 통계(개수, 평균, 표준편차, 4분위 값) 출력

a.describe()

Unnamed: 0,국어,수학
count,7.0,7.0
mean,65.0,71.0
std,34.82815,25.053277
min,0.0,44.0
25%,55.5,45.0
50%,78.0,85.0
75%,88.0,89.0
max,90.0,100.0


In [59]:
# (2) 칼럼값별 데이터 개수 보기

# 데이터프레임명['칼럼 이름'].value_counts()
# : 데이터프레임에서 지정한 칼럼의 값별로 데이터 개수 출력

a['반'].value_counts()

A반    5
B반    5
Name: 반, dtype: int64

In [62]:
# (3) 개별 칼럼의 통계값 구하기

print(a['국어'].sum())
print(a['국어'].mean()) # print() 안해도 됨

455.0
65.0


In [66]:
# (4) 그룹별 통계값 구하기

a.groupby('반').sum()
a.groupby('반').mean()

  a.groupby('반').mean()


Unnamed: 0_level_0,국어,수학
반,Unnamed: 1_level_1,Unnamed: 2_level_1
A반,45.0,87.0
B반,73.0,64.6


## 3.2 데이터프레임의 결측치 처리

In [68]:
# (1) 데이터프레임에서 결측치 확인

# 데이터프레임에서 결측치 여부 확인
a.isna()

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,True,True,False,False
3,False,False,False,False,False,False,True
4,False,False,False,False,False,False,True
5,False,False,False,True,True,True,True
6,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False
8,False,False,False,True,True,True,False
9,False,False,False,False,False,False,False


In [69]:
# 데이터프레임에서 칼럼별 결측치 개수 출력
a.isna().sum()

반       0
이름      0
성별      0
국어      3
수학      3
응시여부    2
확인여부    3
dtype: int64

In [70]:
# (2) 데이터프레임에서 결측치에 값 채우기

# 데이터프레임의 '확인여부' 칼럼의 결측치를 '완료'로 채우기
a.fillna({'확인여부':'완료'})

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
2,A반,오지수,남,,,응시,확인
3,B반,김선후,남,33.0,44.0,응시,완료
4,A반,하진희,여,0.0,85.0,응시,완료
5,A반,강현진,남,,,,완료
6,B반,김진솔,남,90.0,89.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
8,A반,김성희,남,,,,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [71]:
# 데이터프레임의 전체 칼럼에서 결측치를 0으로 채우기
a.fillna(0)

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
2,A반,오지수,남,0.0,0.0,응시,확인
3,B반,김선후,남,33.0,44.0,응시,0
4,A반,하진희,여,0.0,85.0,응시,0
5,A반,강현진,남,0.0,0.0,0,0
6,B반,김진솔,남,90.0,89.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
8,A반,김성희,남,0.0,0.0,0,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [72]:
# (3) 데이터프레임에서 결측치가 있는 데이터 삭제

a1 = a.dropna(subset=['국어'])
a1

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
3,B반,김선후,남,33.0,44.0,응시,
4,A반,하진희,여,0.0,85.0,응시,
6,B반,김진솔,남,90.0,89.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [73]:
a2 = a.dropna()
a2

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부
0,A반,구이서,남,90.0,89.0,응시,확인
1,B반,김이정,여,78.0,45.0,응시,확인
6,B반,김진솔,남,90.0,89.0,응시,확인
7,B반,박서준,여,78.0,45.0,응시,확인
9,B반,이지서,여,86.0,100.0,응시,확인


In [74]:
a['총점'] = a['국어'] + a['수학']
a

Unnamed: 0,반,이름,성별,국어,수학,응시여부,확인여부,총점
0,A반,구이서,남,90.0,89.0,응시,확인,179.0
1,B반,김이정,여,78.0,45.0,응시,확인,123.0
2,A반,오지수,남,,,응시,확인,
3,B반,김선후,남,33.0,44.0,응시,,77.0
4,A반,하진희,여,0.0,85.0,응시,,85.0
5,A반,강현진,남,,,,,
6,B반,김진솔,남,90.0,89.0,응시,확인,179.0
7,B반,박서준,여,78.0,45.0,응시,확인,123.0
8,A반,김성희,남,,,,확인,
9,B반,이지서,여,86.0,100.0,응시,확인,186.0


In [80]:
a = pd.read_excel('BoxOffice.xlsx')
a

Unnamed: 0,순위,영화명,개봉일,매출액,관객수,스크린수,상영횟수,대표국적,국적,배급사
0,1,명량,2014-07-30,135758208810,17615844,1587,188724,한국,한국,(주)씨제이이엔엠
1,2,극한직업,2019-01-23,139655543516,16266338,2003,292816,한국,한국,(주)씨제이이엔엠
2,3,신과함께-죄와 벌,2017-12-20,115727528087,14414658,1912,214631,한국,한국,롯데쇼핑㈜롯데엔터테인먼트
3,4,국제시장,2014-12-17,110945002730,14264059,1044,212698,한국,한국,(주)씨제이이엔엠
4,5,어벤져스: 엔드게임,2019-04-24,122492181020,13977602,2835,246433,미국,미국,월트디즈니컴퍼니코리아 유한책임회사
...,...,...,...,...,...,...,...,...,...,...
195,196,스파이,2013-09-05,24513098305,3436092,785,72805,한국,"한국,태국",(주)씨제이이엔엠
196,197,그것만이 내 세상,2018-01-17,27457704382,3420287,956,95444,한국,한국,(주)씨제이이엔엠
197,198,토이 스토리 4,2019-06-20,28763352540,3400623,1336,85913,미국,미국,월트디즈니컴퍼니코리아 유한책임회사
198,199,돈,2019-03-20,28870244062,3389125,1431,120809,한국,한국,(주)쇼박스


In [93]:
a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   순위      200 non-null    int64         
 1   영화명     200 non-null    object        
 2   개봉일     200 non-null    datetime64[ns]
 3   매출액     200 non-null    int64         
 4   관객수     200 non-null    int64         
 5   스크린수    200 non-null    int64         
 6   상영횟수    200 non-null    int64         
 7   대표국적    200 non-null    object        
 8   국적      200 non-null    object        
 9   배급사     200 non-null    object        
dtypes: datetime64[ns](1), int64(5), object(4)
memory usage: 15.8+ KB


In [90]:
a['대표국적'].value_counts()

한국    116
미국     82
일본      1
영국      1
Name: 대표국적, dtype: int64

In [84]:
a[a['대표국적']=='영국']

Unnamed: 0,순위,영화명,개봉일,매출액,관객수,스크린수,상영횟수,대표국적,국적,배급사
194,195,어바웃 타임,2013-12-05,25312684300,3449451,568,67267,영국,영국,유니버설픽쳐스인터내셔널 코리아(유)


In [89]:
a.sort_values(by=['대표국적'])
a.sort_values(by=['순위'])

Unnamed: 0,순위,영화명,개봉일,매출액,관객수,스크린수,상영횟수,대표국적,국적,배급사
0,1,명량,2014-07-30,135758208810,17615844,1587,188724,한국,한국,(주)씨제이이엔엠
1,2,극한직업,2019-01-23,139655543516,16266338,2003,292816,한국,한국,(주)씨제이이엔엠
2,3,신과함께-죄와 벌,2017-12-20,115727528087,14414658,1912,214631,한국,한국,롯데쇼핑㈜롯데엔터테인먼트
3,4,국제시장,2014-12-17,110945002730,14264059,1044,212698,한국,한국,(주)씨제이이엔엠
4,5,어벤져스: 엔드게임,2019-04-24,122492181020,13977602,2835,246433,미국,미국,월트디즈니컴퍼니코리아 유한책임회사
...,...,...,...,...,...,...,...,...,...,...
195,196,스파이,2013-09-05,24513098305,3436092,785,72805,한국,"한국,태국",(주)씨제이이엔엠
196,197,그것만이 내 세상,2018-01-17,27457704382,3420287,956,95444,한국,한국,(주)씨제이이엔엠
197,198,토이 스토리 4,2019-06-20,28763352540,3400623,1336,85913,미국,미국,월트디즈니컴퍼니코리아 유한책임회사
198,199,돈,2019-03-20,28870244062,3389125,1431,120809,한국,한국,(주)쇼박스


In [92]:
a.groupby('대표국적').min()

  a.groupby('대표국적').min()


Unnamed: 0_level_0,순위,개봉일,매출액,관객수,스크린수,상영횟수,국적,배급사
대표국적,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
미국,5,2005-12-01,21476688172,3379762,319,38456,미국,"(주)디스테이션,워너브러더스 코리아(주)"
영국,195,2013-12-05,25312684300,3449451,568,67267,영국,유니버설픽쳐스인터내셔널 코리아(유)
일본,172,2017-01-04,30628194346,3793790,947,88917,일본,메가박스중앙(주)플러스엠
한국,1,2005-01-27,22209675300,3389125,238,47155,한국,(주)넥스트엔터테인먼트월드(NEW)
