In [1]:
# cmd 창 라이브러리 설치
# pip install pandas

# 주피터노트북 실행
# !pip install pandas

### 데이터 분석
- SQL 분석
- Excel 
- 파이썬 라이브러리 - pandas

### pandas 사용하는 데이터 구조
- 1) Series
- 2) DataFrame

In [2]:
import pandas as pd

In [3]:
# Series(data, index, dtype, name)
# data : [], dict..

series = pd.Series([70,60,90])
series

0    70
1    60
2    90
dtype: int64

In [4]:
series = pd.Series({"a":1, "b":2, "c":3})
series

a    1
b    2
c    3
dtype: int64

In [5]:
series = pd.Series([70,60,90],index=["국어","영어","수학"])
series

국어    70
영어    60
수학    90
dtype: int64

In [6]:
# 조회 : index
# dtype : datatype, object(str 포함)

print(series.index)
print(series.values)
print(series.name)
print(series[0])
print(series["국어"])


Index(['국어', '영어', '수학'], dtype='object')
[70 60 90]
None
70
70


  print(series[0])


In [7]:
# 구조파악 : shape : 행,열
print(series.shape)
print(series.head()) # 앞에서 5행 가져오기
print(series.tail()) # 뒤에서 5행 가져오기

(3,)
국어    70
영어    60
수학    90
dtype: int64
국어    70
영어    60
수학    90
dtype: int64


In [8]:
# 수정
series.index = ['미술', '음악', '체육']
series

미술    70
음악    60
체육    90
dtype: int64

In [9]:
series['음악'] = 75
series

미술    70
음악    75
체육    90
dtype: int64

In [10]:
# int32, int64
# float32, float64
# 타입변경 : astype('변경타입')
series = series.astype("float")
series


미술    70.0
음악    75.0
체육    90.0
dtype: float64

In [11]:
del series['미술']
series

음악    75.0
체육    90.0
dtype: float64

### DataFrame
- 행, 열

In [12]:
friend_dict_list = [
    {
        "name":"John",
        "age":25,
        "job":"student"
    },
    {
        "name":"Nate",
        "age":35,
        "job":"teacher"
    },
    {
        "name":"Jenny",
        "age":30,
        "job":"developer"
    },
]

In [13]:
# 데이터프레임 생성
# 데이터프레임 : series 모아놓은 구조

friend_df = pd.DataFrame(friend_dict_list, index=['s1','s2','s3'])
friend_df

Unnamed: 0,name,age,job
s1,John,25,student
s2,Nate,35,teacher
s3,Jenny,30,developer


In [14]:
dict1 = {"국어":[15,25,35,45,55,65],
         "영어":[45,25,35,75,25,65],
         "수학":[75,25,37,47,55,65]}

student_df = pd.DataFrame(dict1)
student_df

Unnamed: 0,국어,영어,수학
0,15,45,75
1,25,25,25
2,35,35,37
3,45,75,47
4,55,25,55
5,65,65,65


In [15]:
list1 = [
    [1,2,3,4,5],
    [6,7,8,9,10],
]

two_df = pd.DataFrame(list1, index=["내용1","내용2"],columns=["c1","c2","c3","c4","c5"])
two_df

Unnamed: 0,c1,c2,c3,c4,c5
내용1,1,2,3,4,5
내용2,6,7,8,9,10


In [16]:
# csv 읽어올 때 첫번째 행을 무조건 header 로 인식
# names : 컬럼명 부여
csv_df = pd.read_csv("../basic/data/sample2.csv", header=None, names=["c1","c2","c3"])
csv_df

Unnamed: 0,c1,c2,c3
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15


In [17]:
# windows 운영체제 인코딩 : cp949, ms949
# 한글이 깨진다면 encoding 변경

csv_df = pd.read_csv("../basic/data/sample1.csv", encoding="cp949")
csv_df

Unnamed: 0,번호,이름,가입일시,나이
0,1,김정수,2017-01-19 11:30:00,25
1,2,박민구,2017-02-07 10:22:00,35
2,3,정순미,2017-01-22 09:10:00,33
3,4,김정현,2017-02-22 14:09:00,45
4,5,홍미진,2017-04-01 18:00:00,17
5,6,김순철,2017-05-14 22:33:07,22
6,7,이동철,2017-03-01 23:44:45,27
7,8,박지숙,2017-01-11 06:04:18,30
8,9,김은미,2017-02-08 07:44:33,51
9,10,장혁철,2017-12-01 13:01:11,16


In [19]:
csv_df = pd.read_csv("../basic/data/sample3.csv",header=None, encoding="cp949", delimiter="|")
csv_df

Unnamed: 0,0,1,2,3
0,1,김정수,2017-01-18 11:30:00,25
1,2,박민구,2017-02-07 10:22:00,35
2,3,정순미,2017-01-22 09:10:00,33
3,4,김정현,2017-02-22 14:30:00,45
4,5,홍미진,2017-01-18 11:30:00,24
5,6,이동철,2017-03-01 23:30:00,27
6,7,김은미,2017-04-01 23:30:00,25


### 조회

In [20]:
# index 조회

friend_df.index

Index(['s1', 's2', 's3'], dtype='object')

In [21]:
# colum 조회

friend_df.columns

Index(['name', 'age', 'job'], dtype='object')

In [22]:
# value 조회

friend_df.values

array([['John', 25, 'student'],
       ['Nate', 35, 'teacher'],
       ['Jenny', 30, 'developer']], dtype=object)

In [23]:
# data type 조회

friend_df.dtypes

name    object
age      int64
job     object
dtype: object

In [26]:
# 특정 컬럼 조회

friend_df.name
friend_df["name"]

s1     John
s2     Nate
s3    Jenny
Name: name, dtype: object

In [28]:
# age = 25 인 학생 조회

friend_df[friend_df.age == 25]

Unnamed: 0,name,age,job
s1,John,25,student


### 수정

In [65]:
friend_df.columns = ["이름","나이","직업"]
friend_df

Unnamed: 0,이름,나이,직업
p1,John,student,서울
p2,Nate,teacher,경기
p3,Jenny,developer,부산
p4,Tom,teacher,대전


In [66]:
friend_df.index = ['p1','p2','p3']
friend_df

ValueError: Length mismatch: Expected axis has 4 elements, new values have 3 elements

In [32]:
# 컬럼 추가

friend_df["주소"] = ["서울","경기","부산"]
friend_df


Unnamed: 0,이름,나이,직업,주소
p1,John,25,student,서울
p2,Nate,35,teacher,경기
p3,Jenny,30,developer,부산


In [34]:
# 행 추가

friend_df.loc["p4"] = ["Tom", 34, "teacher", "대전"]
friend_df 

Unnamed: 0,이름,나이,직업,주소
p1,John,25,student,서울
p2,Nate,35,teacher,경기
p3,Jenny,30,developer,부산
p4,Tom,34,teacher,대전


### 삭제


In [37]:
# 원본 유지
friend_df.drop("나이", axis=1)

# friend_df = friend_df.drop("나이", axis=1)
# 원본 변화
friend_df.drop("나이", axis=1, inplace=True)


In [38]:
friend_df


Unnamed: 0,이름,직업,주소
p1,John,student,서울
p2,Nate,teacher,경기
p3,Jenny,developer,부산
p4,Tom,teacher,대전


In [51]:
# 데이터 프레임 생성
dict2 = {"홍길동":[85,75,95],
         "강감찬":[82,62,85],
         "김종민":[75,69,70],
         "임창점":[45,56,80]}

py1_df = pd.DataFrame(dict2, index=['java','python','basic'])
py1_df

Unnamed: 0,홍길동,강감찬,김종민,임창점
java,85,82,75,45
python,75,62,69,56
basic,95,85,70,80


In [58]:
# 홍길동 학생의 과목별 점수 조회
py1_df["홍길동"]

java      85
python    75
basic     95
Name: 홍길동, dtype: int64

In [73]:
# python 과목 점수 조회
py1_df[py1_df.index == 'python']



Unnamed: 0,홍길동,강감찬,김종민,임창점
python,75,62,69,56


In [74]:
# 각 학생의 sql 점수 추가 : 70,85,86,92 


py1_df.loc['sql'] = [70,85,86,92]
py1_df

Unnamed: 0,홍길동,강감찬,김종민,임창점
java,85,82,75,45
python,75,62,69,56
basic,95,85,70,80
sql,70,85,86,92


In [None]:
# basic 점수 삭제
# 삭제 시 방향 지정 : axis = 0 (행 - 기본) / 1 (열)

py1_df.drop('basic',inplace=True)
py1_df

Unnamed: 0,홍길동,강감찬,김종민,임창점
java,85,82,75,45
python,75,62,69,56
sql,70,85,86,92


In [78]:
# 데이터 프레임 생성

py2_df = pd.DataFrame({"미국":[2.1,2.2,2.3],"한국":[0.40,0.50,0.45],"중국":[10,13,15]})
py2_df


Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


In [79]:
# 인덱스를 부여해서 생성하기

py2_df = pd.DataFrame({"미국":[2.1,2.2,2.3],"한국":[0.40,0.50,0.45],"중국":[10,13,15]},
                      index=[2023,2024,2025])
py2_df


Unnamed: 0,미국,한국,중국
2023,2.1,0.4,10
2024,2.2,0.5,13
2025,2.3,0.45,15


In [80]:
# 인덱스 조회
py2_df.index

Index([2023, 2024, 2025], dtype='int64')

In [81]:
# 컬럼명 조회
py2_df.columns

Index(['미국', '한국', '중국'], dtype='object')

In [82]:
# 전체 값들만 조회
py2_df.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

In [83]:
# 미국 컬럼 조회
py2_df["미국"]

2023    2.1
2024    2.2
2025    2.3
Name: 미국, dtype: float64

In [84]:
# 일본 컬럼 추가 3,4,5
py2_df["일본"] = [3,4,5]
py2_df


Unnamed: 0,미국,한국,중국,일본
2023,2.1,0.4,10,3
2024,2.2,0.5,13,4
2025,2.3,0.45,15,5
