# Pandas 란?

- 데이터 조작
- 데이터 분석
- 표 데이터_DataFrame = 2차원데이터(row, column)
- 시계열 데이터_Series
- ...

# 핵심 용도
## 1. 로봇 제어 및 데이터 분석

- 센서 데이터 처리: 로봇의 센서 (LiDAR, 카메라, IMU 등) 데이터를 정리, 저장, 변환하는 데 사용됨.
- 로깅 데이터 분석: 로봇이 수행한 작업이나 이동 경로를 기록한 로그 데이터를 분석해 성능 평가 및 개선.
- 제어 시스템 튜닝: 로봇 제어 신호 (PID 게인, 속도, 토크 등) 데이터를 Pandas로 분석하여 최적의 설정값 도출.

## 2. AI 및 머신러닝 데이터 전처리
- 데이터 정제 (Cleaning): 누락값(NaN) 처리, 이상치 제거, 데이터 변환 (정규화, 스케일링 등)
- 피처 엔지니어링: 학습 데이터를 가공하여 새로운 피처(feature)를 생성하고 모델 성능을 향상.
- 데이터 분할: 학습 데이터(train), 검증 데이터(validation), 테스트 데이터(test)로 쉽게 나누어 관리.

In [None]:
# 1. pandas 라이브러리 불러오기

In [3]:
# 2. pandas 라이브러리 버전 출력
# Hint: __version__

'2.2.2'

# pd.Series()

 시계열데이터 객체를 생성하는 클래스

`pd.Series(data=None, index=None, dtype=None, name=None, copy=False)`


---


data = Series에 저장할 데이터 (리스트, 튜플, NumPy 배열, 딕셔너리, 스칼라 값 등)

index = Series의 인덱스를 지정 (기본값은 range(n))

dtype = 	데이터 타입 지정 (int, float, str, category 등)

name = Series에 이름 부여

copy = 데이터 복사 여부 (True이면 원본을 변경하지 않음)



In [29]:
# 출력 예시와 같이 모델명과 가격을 Series 객체로 생성하고 데이터 타입은 float32로 출력

models = ["iphone11", "iphone12", "iphone13", "iphone14", "iphone15"]
prices = [1000, 2000, 3000, 4000, 5000]
colors = ["black", "white", "silver", "orange", "green"]
storages = ["128G", "256G", "64G", "32G", "512G"]

pd.Series(data=prices, index=models, dtype="float64")

Unnamed: 0,0
iphone11,1000.0
iphone12,2000.0
iphone13,3000.0
iphone14,4000.0
iphone15,5000.0


In [4]:
# 출력 예시

Unnamed: 0,iphones
iphone11,1000.0
iphone12,2000.0
iphone13,3000.0
iphone14,4000.0
iphone15,5000.0


# pd.DataFrame()
행과 열로 된 2차원 테이블 = Matrix

각 열이 하나의 Series 이다.

`pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`


---


data = 데이터 (리스트, 튜플, 딕셔너리, NumPy 배열, Series, CSV 파일 등)

index = 행 인덱스 (기본값은 range(n))

columns = 열 이름 (기본값은 자동 생성)

dtype = 데이터 타입 (int, float, str, category 등)

copy = 원본 데이터를 복사할지 여부 (True이면 원본을 변경하지 않음)



In [None]:
# 아래 예시와 같이 모델명과 가격, 용량, 색상을 포함한 DataFrame 객체 생성하고 출력

In [2]:
# 출력 예시
import pandas as pd

data = ({
  "models":["iphone11", "iphone12", "iphone13", "iphone14", "iphone15"],
  "prices":[1000, 2000, 3000, 4000, 5000],
  "colors":["black", "white", "silver", "orange", "green"],
  "storages":["128G", "256G", "64G", "32G", "512G"]
})

iphones = pd.DataFrame(data, columns=data.keys())
print(iphones)

     models  prices  colors storages
0  iphone11    1000   black     128G
1  iphone12    2000   white     256G
2  iphone13    3000  silver      64G
3  iphone14    4000  orange      32G
4  iphone15    5000   green     512G


In [5]:
# 모델명과 용량 컬럼만 선택해서 출력
iphones[["models", "storages"]]

Unnamed: 0,models,storages
0,iphone11,128G
1,iphone12,256G
2,iphone13,64G
3,iphone14,32G
4,iphone15,512G


In [9]:
# 컬럼명 수정
# models -> MODELS

# rename() 메소드, inplace 파라미터 사용.

iphones.rename(columns={"models":"MODELS"})

Unnamed: 0,MODELS,prices,colors,storages
0,iphone11,1000,black,128G
1,iphone12,2000,white,256G
2,iphone13,3000,silver,64G
3,iphone14,4000,orange,32G
4,iphone15,5000,green,512G


In [10]:
# 위에서 만든 데이터프레임의 상단 2개 행만 출력
iphones.head(2)

Unnamed: 0,models,prices,colors,storages
0,iphone11,1000,black,128G
1,iphone12,2000,white,256G


# 타이타닉 데이터 샘플을 이용한 Pandas 연습

import seaborn as sns
df = sns.load_dataset("titanic")

In [11]:
# 타이타닉 데이터프레임 불러오기
import seaborn as sns
df = sns.load_dataset("titanic")
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


# 컬럼 (column) 설명


survivied: 생존여부 (1: 생존, 0: 사망)

pclass: 좌석 등급 (1등급, 2등급, 3등급)

sex: 성별


age: 나이

sibsp: 형제 + 배우자 수

parch: 부모 + 자녀 수

fare: 좌석 요금

embarked: 탑승 항구 (S, C, Q)

class: pclass와 동일

who: 남자(man), 여자(woman), 아이(child)

adult_male: 성인 남자 여부

deck: 데크 번호 (알파벳 + 숫자 혼용)

embark_town: 탑승 항구 이름

alive: 생존여부 (yes, no)

alone: 혼자 탑승 여부

# Goal

데이터를 토대로 생존율이 높은 승객, 생존율이 낮은 승객 분류해보자!

In [12]:
# 컬럼별 information 조회
# 데이터 개수, 데이터 타입 등을 보여주는 메소드 사용

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [13]:
# 컬럼별 값의 분포를 확인하기 위한 메소드: value_counts()
# 남자, 여자, 아이 각각의 인원을 조회해보세요.
df["who"].value_counts()

Unnamed: 0_level_0,count
who,Unnamed: 1_level_1
man,537
woman,271
child,83


# 자주 활용되는 DataFrame의 속성 값들 List

ndim: 차원 출력

shape: (행, 열) 출력

index: RangeIndex 출력

columns: 열 list 타입 출력

values: 모든 값들 numpy array 타입 출력

T: 전치행렬

In [18]:
print("차원 = ", df.ndim)
print("(행, 열) = ", df.shape)
print("Range Index = ", df.index)
print("Columns = \n", df.columns)
print("Values = \n", df.values)

차원 =  2
(행, 열) =  (891, 15)
Range Index =  RangeIndex(start=0, stop=891, step=1)
Columns = 
 Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')
Values = 
 [[0 3 'male' ... 'Southampton' 'no' False]
 [1 1 'female' ... 'Cherbourg' 'yes' False]
 [1 3 'female' ... 'Southampton' 'yes' True]
 ...
 [0 3 'female' ... 'Southampton' 'no' False]
 [1 1 'male' ... 'Cherbourg' 'yes' True]
 [0 3 'male' ... 'Queenstown' 'no' True]]


In [None]:
# 데이터 정렬
# sort_index() 메소드
# index 기준으로 정렬합니다. (기본 오름차순이 적용되어 있습니다.
# 내림차순 정렬을 적용하려면, ascending=False를 옵션 값으로 설정합니다.

In [30]:
# 오름차순 정렬
df.sort_index()

# # 내림차순 정렬
df.sort_index(ascending=False)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [32]:
# 특정 컬럼을 기준으로 정렬
# by= 파라미터 설정

df.sort_values(by=['age', "fare"], ascending=[False, True]).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
630,1,1,male,80.0,0,0,30.0,S,First,man,True,A,Southampton,yes,True
851,0,3,male,74.0,0,0,7.775,S,Third,man,True,,Southampton,no,True
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
493,0,1,male,71.0,0,0,49.5042,C,First,man,True,,Cherbourg,no,True
116,0,3,male,70.5,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [None]:
# 인덱싱
# df.loc[행, 열]

df.loc[5, 'class']
df.loc[2:, ['age', 'fare', 'who']]

In [None]:
# 슬라이싱
df.loc[2:5, 'class':'deck'].head()
df.loc[:6, 'class':'deck']

In [33]:
# loc - 조건 필터

cond = (df['age'] >= 70)
df.loc[cond]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
116,0,3,male,70.5,0,0,7.75,Q,Third,man,True,,Queenstown,no,True
493,0,1,male,71.0,0,0,49.5042,C,First,man,True,,Cherbourg,no,True
630,1,1,male,80.0,0,0,30.0,S,First,man,True,A,Southampton,yes,True
672,0,2,male,70.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
745,0,1,male,70.0,1,1,71.0,S,First,man,True,B,Southampton,no,False
851,0,3,male,74.0,0,0,7.775,S,Third,man,True,,Southampton,no,True


In [22]:
# loc - 다중 조건

# 조건1 정의
cond1 = (df['fare'] > 30)

# 조건2 정의
cond2 = (df['who'] == 'woman')

df.loc[cond1 & cond2]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
25,1,3,female,38.0,1,5,31.3875,S,Third,woman,False,,Southampton,yes,False
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False


In [None]:
# iloc - index 필터

# loc와 유사하지만, index만 허용합니다.

# loc와 마찬가지고, indexing / slicing 모두 가능합니다.

