In [2]:
# cmd 창 라이브러리 설치
# pip install pandas

# 주피터노트북 실행
# !pip install pandas

### 데이터 분석
- SQL 분석
- Excel 
- 파이썬 라이브러리 - pandas

### pandas 사용하는 데이터 구조
- 1) Series
- 2) DataFrame

In [3]:
import pandas as pd

In [4]:
# Series(data, index, dtype, name)
# data : [], dict..

series = pd.Series([70,60,90])
series

0    70
1    60
2    90
dtype: int64

In [5]:
series = pd.Series({"a":1, "b":2, "c":3})
series

a    1
b    2
c    3
dtype: int64

In [6]:
series = pd.Series([70,60,90],index=["국어","영어","수학"])
series

국어    70
영어    60
수학    90
dtype: int64

In [7]:
# 조회 : index
# dtype : datatype, object(str 포함)

print(series.index)
print(series.values)
print(series.name)
print(series[0])
print(series["국어"])


Index(['국어', '영어', '수학'], dtype='object')
[70 60 90]
None
70
70


  print(series[0])


In [8]:
# 구조파악 : shape : 행,열
print(series.shape)
print(series.head()) # 앞에서 5행 가져오기
print(series.tail()) # 뒤에서 5행 가져오기

(3,)
국어    70
영어    60
수학    90
dtype: int64
국어    70
영어    60
수학    90
dtype: int64


In [9]:
# 수정
series.index = ['미술', '음악', '체육']
series

미술    70
음악    60
체육    90
dtype: int64

In [10]:
series['음악'] = 75
series

미술    70
음악    75
체육    90
dtype: int64

In [11]:
# int32, int64
# float32, float64
# 타입변경 : astype('변경타입')
series = series.astype("float")
series


미술    70.0
음악    75.0
체육    90.0
dtype: float64

In [12]:
del series['미술']
series

음악    75.0
체육    90.0
dtype: float64

### DataFrame
- 행, 열

In [13]:
friend_dict_list = [
    {
        "name":"John",
        "age":25,
        "job":"student"
    },
    {
        "name":"Nate",
        "age":35,
        "job":"teacher"
    },
    {
        "name":"Jenny",
        "age":30,
        "job":"developer"
    },
]

In [None]:
# 데이터프레임 생성
# 데이터프레임 : series 모아놓은 구조

friend_df = pd.DataFrame(friend_dict_list, index=['s1','s2','s3'])
friend_df

Unnamed: 0,name,age,job
s1,John,25,student
s2,Nate,35,teacher
s3,Jenny,30,developer


In [15]:
dict1 = {"국어":[15,25,35,45,55,65],
         "영어":[45,25,35,75,25,65],
         "수학":[75,25,37,47,55,65]}

student_df = pd.DataFrame(dict1)
student_df

Unnamed: 0,국어,영어,수학
0,15,45,75
1,25,25,25
2,35,35,37
3,45,75,47
4,55,25,55
5,65,65,65


In [16]:
list1 = [
    [1,2,3,4,5],
    [6,7,8,9,10],
]

two_df = pd.DataFrame(list1, index=["내용1","내용2"],columns=["c1","c2","c3","c4","c5"])
two_df

Unnamed: 0,c1,c2,c3,c4,c5
내용1,1,2,3,4,5
내용2,6,7,8,9,10


In [17]:
# csv 읽어올 때 첫번째 행을 무조건 header 로 인식
# names : 컬럼명 부여
csv_df = pd.read_csv("../basic/data/sample2.csv", header=None, names=["c1","c2","c3"])
csv_df

FileNotFoundError: [Errno 2] No such file or directory: '../basic/data/sample2.csv'

In [None]:
# windows 운영체제 인코딩 : cp949, ms949
# 한글이 깨진다면 encoding 변경

csv_df = pd.read_csv("../basic/data/sample1.csv", encoding="cp949")
csv_df

Unnamed: 0,번호,이름,가입일시,나이
0,1,김정수,2017-01-19 11:30:00,25
1,2,박민구,2017-02-07 10:22:00,35
2,3,정순미,2017-01-22 09:10:00,33
3,4,김정현,2017-02-22 14:09:00,45
4,5,홍미진,2017-04-01 18:00:00,17
5,6,김순철,2017-05-14 22:33:07,22
6,7,이동철,2017-03-01 23:44:45,27
7,8,박지숙,2017-01-11 06:04:18,30
8,9,김은미,2017-02-08 07:44:33,51
9,10,장혁철,2017-12-01 13:01:11,16


In [22]:
csv_df = pd.read_csv("../basic/data/sample3.csv", encoding="cp949", delimiter="|", header=None)
csv_df

Unnamed: 0,0,1,2,3
0,1,김정수,2017-01-18 11:30:00,25
1,2,박민구,2017-02-07 10:22:00,35
2,3,정순미,2017-01-22 09:10:00,33
3,4,김정현,2017-02-22 14:30:00,45
4,5,홍미진,2017-01-18 11:30:00,24
5,6,이동철,2017-03-01 23:30:00,27
6,7,김은미,2017-04-01 23:30:00,25


In [None]:
friend_df.index # index 조회

friend_df.columns # column 조회

friend_df.dtypes # columns'data type 조회

friend_df.name # 특정 컬럼(ex:name) 조회 or
friend_df["name"]

s1     John
s2     Nate
s3    Jenny
Name: name, dtype: object

In [None]:
# age == 25인 컬럼 조회
friend_df.age == 25 # 행마다 해당 조건에 대한 참&거짓 결과 조회
[friend_df.age == 25] # 리스트로 감쌀 수도 있음.
friend_df[friend_df.age == 25] # 조건 참인 속성만 포함하여 표로 만들기

[s1     True
 s2    False
 s3    False
 Name: age, dtype: bool]

### 수정

In [None]:
# column 수정하기
friend_df.columns = ["이름", "나이", "직업"] # ['name','age','job'] => ["이름", "나이", "직업"]
friend_df.columns

Index(['이름', '나이', '직업'], dtype='object')

In [None]:
# index 수정하기
friend_df.index = ["p1", "p2", "p3"]  # ['s1', 's2', 's3'] => ["p1", "p2", "p3"]
friend_df.index

Index(['p1', 'p2', 'p3'], dtype='object')

In [None]:
# "열"단위로 추가하기
friend_df["주소"] = ["서울", "경기", "부산"] 
friend_df

Unnamed: 0,이름,나이,직업,주소
p1,John,25,student,서울
p2,Nate,35,teacher,경기
p3,Jenny,30,developer,부산


In [None]:
friend_df.loc["p3"] # "p3"인덱스를 serios 구조로 조회 : Data Frame 구조 => Serios 구조

# "행" 단위로 추가하기

friend_df.loc["p4"] = ["Brian", 78, "noob", "North Kr"] # 행 추가하기
friend_df


Unnamed: 0,이름,나이,직업,주소
p1,John,25,student,서울
p2,Nate,35,teacher,경기
p3,Jenny,30,developer,부산
p4,Brian,78,noob,North Kr


### 삭제

In [None]:
# friend_df.drop("나이", axis=1) # label = "나이", axis= 1 : 인덱스 1번에 있는 "나이"라는 컬럼을 삭제 
friend_df # 단 원본에 영향은 가지 않음

# friend_df.drop("나이", axis=1, inplace=True) # inplace = True : 원본에서 반영
friend_df


Unnamed: 0,이름,직업,주소
p1,John,student,서울
p2,Nate,teacher,경기
p3,Jenny,developer,부산
p4,Brian,noob,North Kr


In [52]:
# 데이터 프레임 생성해보기
# 데이터
# 인덱스 : java, python, basic
# 컬럼 : 홍길동, 강감찬, 김종민, 임창정
# 데이터 : 홍길동(88, 75, 95), 강감찬(82, 62, 85), 김종민(75, 69, 70), 임창정(45, 56, 80)

score_serios = {
    "홍길동": [88, 75, 95],
    "강감찬": [82, 62, 85],
    "김종민": [75, 69, 70],
    "임창정": [45, 56, 80],
}


score_list = pd.DataFrame(score_serios, index=["java", "python", "basic"])

In [None]:
# 홍길동 학생의 과목별 점수 조회해보기
score_list

Unnamed: 0,홍길동,강감찬,김종민,임창정
java,88,82,75,45
python,75,62,69,56
basic,95,85,70,80


In [65]:
# python 과목 점수 조회 해보기
score_list[score_list.index == "python"]

Unnamed: 0,홍길동,강감찬,김종민,임창정
python,75,62,69,56


In [68]:
# 각 학생의 sql 점수항목 추가해보기 : data = (70, 85, 86, 92)
sql_score = [70, 85, 86, 92]

score_list.loc["sql_score"] = sql_score
score_list

Unnamed: 0,홍길동,강감찬,김종민,임창정
java,88,82,75,45
python,75,62,69,56
basic,95,85,70,80
sql_score,70,85,86,92


In [74]:
# basic 점수 삭제해보기
score_list.drop("basic", inplace=True)
score_list

Unnamed: 0,홍길동,강감찬,김종민,임창정
java,88,82,75,45
python,75,62,69,56
sql_score,70,85,86,92


In [75]:
# 데이터 프레임 생성 해보기(2)
# 데이터
# 인덱스 : 0, 1, 2
# 컬럼 : 미국, 한국, 중국
# 데이터 : 미국(2.1, 2.2, 2.3), 한국(0.40, 0.50, 0.45), 중국(10, 13, 15)

conturys = {"미국": [2.1, 2.2, 2.3], "한국": [0.40, 0.50, 0.45], "중국": [10, 13, 15]}

contury_list = pd.DataFrame(conturys, index=[0, 1, 2])
contury_list

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


In [None]:
# 인덱스를 부여해서 생성해보기
# del contury_list
contury_list = pd.DataFrame(columns=["미국", "한국", "중국"])
contury_list.loc[0] = [2.1, 0.40, 10]
contury_list.loc[1] = [2.2, 0.50, 13]
contury_list.loc[2] = [2.3, 0.45, 15]
contury_list

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10.0
1,2.2,0.5,13.0
2,2.3,0.45,15.0


In [80]:
# 인덱스 조회해보기
contury_list.index

Index([0, 1, 2], dtype='int64')

In [81]:
# 컬럼명 조회 해보기
contury_list.columns

Index(['미국', '한국', '중국'], dtype='object')

In [82]:
# 전체 값들만 조회해보기
contury_list.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

In [92]:
# 미국 컬럼 조회해보기
contury_list["미국"]

0    2.1
1    2.2
2    2.3
Name: 미국, dtype: float64

In [91]:
# 일본 컬럼 추가해보기 3, 4, 5
contury_list["일본"] = [3,4,5]
contury_list

Unnamed: 0,미국,한국,중국,일본
0,2.1,0.4,10.0,3
1,2.2,0.5,13.0,4
2,2.3,0.45,15.0,5
