# pandas

In [94]:
# pip install pandas
# conda install pandas

* numpy를 내부적으로 활용
* 데이터 분석에 특화된 데이터 구조 제공(테이블, dataframe)
* 다양한 데이터 분석 함수 제공
* 데이터베이스에 쉽게 연결 가능
* json 데이터 html의 table 요소를 dataframe으로 손쉽게 변형 가능

# pandas에서 다루는 데이터 타입 2가지
## 1) DataFrame: 2차원의 표현식 데이터
* python의 dict와도 비슷 하나의 key에 list 형태의 value가 매칭되어 있는 형태
* {key : [value1, value2, value3], key2 : [value1, value2, value3]}
## 2) Series: 1차원의 벡터 형식 데이터
* python의 list, tuple, ndarray의 1차원 상태와 비슷


In [2]:
import pandas as pd

# 데이터프레임 만들기
pd.DataFrame({key1: [value1, value2] key2: [value1, value2]})

In [96]:
df = pd.DataFrame(
        {'이름' : ['홍길동', '둘리', '또치', '도우너'],
        '주소' : ['서울', '의정부', '고양', '성남'],
        '취미' : ['음악감상', '놀기', '달리기', '바이올린']}
        )

In [97]:
df

Unnamed: 0,이름,주소,취미
0,홍길동,서울,음악감상
1,둘리,의정부,놀기
2,또치,고양,달리기
3,도우너,성남,바이올린


In [98]:
df['이름']

0    홍길동
1     둘리
2     또치
3    도우너
Name: 이름, dtype: object

In [99]:
df['이름'][0]

'홍길동'

In [100]:
df['이름'][:2]

0    홍길동
1     둘리
Name: 이름, dtype: object

# Series 만들기
* pd.Series([리스트 자료/튜플], name="컬럼명")
* 이름을 가지고 있는 list/벡터
* dataframe에서 컬럼 1개를 잘라온 형태

In [101]:
ages = pd.Series([22, 53, 35], name="나이")

In [102]:
ages

0    22
1    53
2    35
Name: 나이, dtype: int64

In [103]:
ages[::-1]

2    35
1    53
0    22
Name: 나이, dtype: int64

In [104]:
ages.min()

np.int64(22)

In [105]:
ages.max()

np.int64(53)

In [106]:
ages.median()

np.float64(35.0)

# 판다스에서 자료 불러오기, 저장하기
* csv, excel, tsv, json, html, sql
* pd.read_확장자명(파일경로, 옵션)

excel 파일 불러오기

In [107]:
df_excel = pd.read_excel("./data/Online Retail.xlsx")
df_excel

KeyboardInterrupt: 

In [None]:
df_excel2 = pd.read_excel("./data/아파트(매매)_실거래가_20240806113828.xlsx", header=12, index_col = 0)
df_excel2

In [None]:
df_csv = pd.read_csv("./data/아파트(매매)_실거래가_20240806113828.csv", header= 12)
df_csv

In [None]:
df_json = pd.read_json("./data/서울특별시_관광지입장정보_2011_2016.json")
df_json

In [None]:
df_html = pd.read_html("./data/corpList.htm")
df_html[0]

DB에서 자료 읽어오기

In [None]:
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb()

In [None]:
engine = create_engine("mysql+pymysql://root:1234@localhost:3306/exchange_rate")

In [None]:
conn = engine.connect()
df_sql = pd.read_sql("exchange_rate", con=conn)
df_sql

# 타이타닉 데이터셋으로 pandas 기능 익히기

In [16]:
df = pd.read_csv("./data/Titanic_train.csv")
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

* 데이터의 일부먼 보기
* 앞쪽 head(행개수). 뒤쪽 tail(행개수)
* 기본값은 5행

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.head(2)

In [None]:
df.tail(1)

In [None]:
# 데이터 프레임의 각 컬럼의 데이터타입
df.dtypes

# .info()
* 컬럼명, null이 아닌 데이터 개수, 데이터 타입을 동시에 출력

In [None]:
df.info()

# .describe()
* 데이터 프레임의 숫자 데이터의 기초 통계를 보여주는 함수
* count, mean, std, min, 25%, 50%, 75%, max

In [None]:
df.describe(include="all")

# 판다스 데이터 프레임에서 일부 자료 추출하기

* 데이터프레임에서 1개 컬럼만 가져오기

In [None]:
df.head(1)

In [None]:
df['Name']

In [None]:
df[['Name']]

In [None]:
print(type(df['Name']))

* 2개 이상의 컬럼을 가져오기

In [None]:
df[['Name', 'Age']]

In [None]:
df[['Age', 'Name', 'Pclass']]

* 데이터프레임의 컬럼 순서 바꾸기

In [None]:
df.columns

In [None]:
df2 = df[['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']]
df2

# 데이터프레임에서 일부 컬럼만 가져오기2
* loc: 인덱스 이름과 컬럼명으로 데이터의 일부를 추출해 가져옴
    * df.loc[시작_row_인덱스 : 끝_row_인덱스, ['컬럼명1', '컬럼명2']
* iloc: 인덱스를 이용해 슬라이싱으로 데이터의 일부를 가져옴
    * df.iloc[시작_row_index : 끝_row_index, 시작_column_index : 끝_column_index]

## loc[시작_row_인덱스 : 끝_row_인덱스, ['컬럼명1', '컬럼명2']

In [None]:
df.loc[100:130, ['Name', 'Age']]

In [None]:
#값 업데이트 가능
df.loc[109, ['Age']] = 29

In [None]:
df.loc[109, ['Age']]

In [None]:
df.iloc[0:10, 0:13]

In [None]:
df.iloc[4, 4] = 'female'

In [None]:
df.iloc[4, 4] 


df.iloc[시작_row_index : 끝_row_index, 시작_column_index : 끝_column_index]

In [None]:

df.iloc[4:, -5:]

In [None]:

df.iloc[4, 4] = 'female'

In [None]:

df.iloc[4, 4]

In [None]:

df.iloc[:10:-1, ::-1]

* 특정 컬럼에서 유일값(중복되지 않은 고유한 값) 출력하기
* .unique()

In [None]:
df['Embarked'].unique()

* .unique()
* 유일값의 개수를 출력
* nan 값은 무시

In [None]:
df['Embarked'].nunique()

* 카테고리 컬럼에서 유일값 별 개수를 세는 함수
* value_counts()

In [None]:
df['Embarked'].value_counts()

In [None]:
df['Pclass']

In [None]:
df['Pclass'].value_counts(ascending=False) #내림차순

In [None]:
df['Pclass'].value_counts(ascending=True) #오름차순

In [None]:
df['Pclass'].value_counts(sort=True)

* 데이터를 정렬하는 함수
* sort_values(by="컬럼명")
* order by

In [None]:
df.sort_values(by="Age", ascending=False)

* 기준컬럼 2개로 정렬할 때

In [None]:
df.sort_values(by=["Pclass", "Age"], ascending=False)

* 컬럼을 인덱스로 지정하기
* set_index("컬럼명")

In [None]:
#재할당을 하거나 inplace=True를 사용하여 자동 할당

df = df.set_index("PassengerId")
df

In [3]:
df = df.set_index(["Name", "PassengerId"])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [None]:
df.loc[(889, 'Johnston, Miss. Catherine Helen "Carrie"'): (891, 'Dooley, Mr. Patrick') , ['Pclass', 'Age'] ]

In [5]:
df.iloc[888:, [1,3]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Pclass,Age
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1
"Johnston, Miss. Catherine Helen ""Carrie""",889,3,
"Behr, Mr. Karl Howell",890,1,26.0
"Dooley, Mr. Patrick",891,3,32.0


* 인덱스를 숫자로 초기화
* reset_index(drop=True)

In [7]:
df

Unnamed: 0,Name,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
4,"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
887,"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
889,"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [4]:
# df.reset_index(drop=True)
df = df.reset_index()
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,1,1,female,35.0,1,0,113803,53.1000,C123,S
4,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,211536,13.0000,,S
887,1,1,female,19.0,0,0,112053,30.0000,B42,S
888,0,3,female,,1,2,W./C. 6607,23.4500,,S
889,1,1,male,26.0,0,0,111369,30.0000,C148,C


* 컬럼이름 출력하기, 바꾸기
* df.columns

In [12]:
df.columns

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')

* 컬럼 이름 변경하기
* rename(columns={'원래 이름': '새이름', '원래 이름' : '새이름2'}): 

In [5]:
df.rename(columns={'PassengerId' : 'Pid', 'Survived': 'surv'}, inplace=True)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,surv,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


* df.columns로 출력되는 리스트 길이와 같은 새로운 이름의 리스트로 덮어쓰기

In [8]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [9]:
newName = ['승객번호', '이름', '생존여부', '선실등급', '성별', '나이',
           '형제자매수', '부모자식수', '티켓번호', '티켓가격', 
           '선실번호', '목적지']

In [11]:
df.columns = newName
df.columns

Index(['승객번호', '이름', '생존여부', '선실등급', '성별', '나이', '형제자매수', '부모자식수', '티켓번호',
       '티켓가격', '선실번호', '목적지'],
      dtype='object')

In [24]:
newName = ['생존여부', '선실등급', '성별', '나이', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked']

* 컬럼 추가하기
* 변수명['컬럼명'] = value

In [25]:
df

['생존여부',
 '선실등급',
 '성별',
 '나이',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

* 컬럼 추가하기
* 변수명['컬럼명'] = value

In [None]:

df['가족수'] = 0

In [None]:

df['가족수'] = df['형제자매수'] + df['부모자식수']
df

* 컬럼 삭제하기
* del df['컬럼명']
* df.drop('컬럼명', axis=1, inplace=True)

In [None]:

del df['형제자매수']
df

In [None]:

df = df.drop('부모자식수', axis=1)
df

In [10]:

df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [None]:

drop_cols = ['승객번호', '이름', '티켓번호', '티켓가격', '선실번호', '목적지',
       '가족수']

In [None]:

df.drop(drop_cols, axis=1)

* 데이터 타입 바꾸기
* astype(자료형)
* apply(형변환함수)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 891 entries, ('Braund, Mr. Owen Harris', np.int64(1)) to ('Dooley, Mr. Patrick', np.int64(891))
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   surv      891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Sex       891 non-null    object 
 3   Age       714 non-null    float64
 4   SibSp     891 non-null    int64  
 5   Parch     891 non-null    int64  
 6   Ticket    891 non-null    object 
 7   Fare      891 non-null    float64
 8   Cabin     204 non-null    object 
 9   Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(4)
memory usage: 151.7+ KB


In [None]:

df['승객번호'] = df['승객번호'].astype('float')
df.info()

# Pandas 데이터프레임에서 조건에 맞는 행만 가져오기
* df[df['컬럼명']_조건식]
* 조건식 연산자 <, <=, >, >=, 

In [11]:
df[df['PassengerId'] == "홀수"]

KeyError: 'PassengerId'

In [None]:
# 나이가 35 초과인 사람만 필터링
df['나이'] > 35

* 여성이면서 나이가 35세 초과인 행 찾기 and 조건

In [None]:
df[(df['성별'] == 'female') & (df['나이'] > 35)]

* 성별이 male, 선실 등급 1, 생존여부 1인 사람을 찾으세요

In [None]:
df[(df['성별'] == 'male') & (df['선실등급'] == 1) & (df['생존여부'] == 1)]

* 선실 등급별 승차권 금액의 최소, 최대, 평균 등 4분위수를 보고싶다

In [None]:
# 선실 등급이 1등석인 사람들의 승차권 금액 통계량
df[df['선실등급'] == 1]['티켓가격'].describe()

In [None]:

df[df['티켓가격'] > 512] 

In [None]:

df[df['티켓가격'] == 0] 

# 조건에 맞는 행을 찾은 후 특정 컬럼만 조회

* 선실등급이 1이거나 2이면서 생존한 여성 중에서 이름 컬럼만 보고 싶을 때

In [None]:

df.columns

In [None]:
df.loc[((df['선실등급'] == 1) | (df['선실등급'] == 2)) & (df['생존여부'] == 1) & (df['성별'] == 'female'), '이름']

In [None]:
df[((df['선실등급'] == 1) | (df['선실등급'] == 2)) & (df['생존여부'] == 1) & (df['성별'] == 'female')]['이름']

* 나이가 25세 미만이면서 생존자의 이름

In [None]:

df.loc[(df['나이'] < 25) & (df['생존여부'] == 1), '이름']

In [None]:

# 결과에서 이름과 나이를 같이 보고 싶다.
df.loc[(df['나이'] < 25) & (df['생존여부'] == 1), ['이름', '나이']]

In [None]:

df[(df.나이 < 25) & (df.생존여부 == 1)][['이름', '나이']]

In [None]:

df.나이

* .isin([조건1, 조건2]) or 조건을 여러 번 써야 할 때 간단히 표현

* 선실등급을 1, 2등인 사람을 추출

In [None]:

df[(df['선실등급'] == 1) | (df['선실등급'] == 2)]

In [None]:

df[df['선실등급'].isin([1,2])]

# 특정 단어를 포함한 행 찾기
* 이름에 Joseph가 들어간 사람 찾기

* like %단어% - SQL

* .str.contains("찾을 단어")

In [None]:

df[df['이름'].str.contains("Joseph")]

In [None]:

# 티켓번호에 PC라는 문자가 포함된 티켓을 필터링
df[df['티켓번호'].str.contains("PC")]

In [None]:

df[df['티켓번호'].str.contains("C.A")]

* 승객이름에서 () 없애기
* 반복문 / 리스트 표현식을 이용해 없애기
* apply + lambda 함수를 이용해 없애기
* .str 메서드를 이용해서 없애기

In [12]:
df['이름']

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: 이름, Length: 891, dtype: int64

In [14]:
result = []
for name in df['이름']:
    result.append(name.replace("(", "").replace(")", ""))
result
df['이름'] = result

AttributeError: 'int' object has no attribute 'replace'

apply와 lambda 함수를 이용해 

In [17]:
df2 = df.copy()

In [18]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [24]:
%%time

df['Name'].apply(lambda name: name.replace("(", "").replace(")",""))

CPU times: total: 0 ns
Wall time: 0 ns


0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley Florence Briggs Thayer
2                                 Heikkinen, Miss. Laina
3             Futrelle, Mrs. Jacques Heath Lily May Peel
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

.str.replace를 활용해서 처리하기

In [25]:
%%time

df['Name'].str.replace("(", "").str.replace(")", "")

CPU times: total: 0 ns
Wall time: 3.02 ms


0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley Florence Briggs Thayer
2                                 Heikkinen, Miss. Laina
3             Futrelle, Mrs. Jacques Heath Lily May Peel
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

.str.문자열 함수 (upper, lower, split, join, strip)

In [28]:
df['Name'][1].replace("(", "").replace(")", "")

'Cumings, Mrs. John Bradley Florence Briggs Thayer'

In [32]:
df['Name'].str.replace("(", "").str.replace(")", "")

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley Florence Briggs Thayer
2                                 Heikkinen, Miss. Laina
3             Futrelle, Mrs. Jacques Heath Lily May Peel
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [35]:
df['Name'] = df['Name'].str.split()

In [37]:
df['Name'].str.join(" ")

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

# groupby
* 특정 기준 컬럼을 지정해서 다른 컬럼의 통계량 확인 (평균, 최소, 최대)
* df[['보고싶은 컬럼1', '보고싶은 컬럼2']].groupby('기준컬럼').집합함수(mean, max, min, median, count) 

In [40]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

* 성별별 생존자 수

In [41]:
df[['Sex', 'Survived']].groupby('Sex').count()

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,314
male,577


In [44]:
survbysex = df[['Sex', 'Survived']].groupby(['Sex']).value_counts(sort=False)
survbysex

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: count, dtype: int64

In [46]:
print(type(survbysex))

<class 'pandas.core.series.Series'>


In [48]:
df3 = pd.DataFrame(survbysex)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Sex,Survived,Unnamed: 2_level_1
female,0,81
female,1,233
male,0,468
male,1,109


In [49]:
233 / (81+233) * 100

74.20382165605095

In [51]:
109 / (109+468) * 100

18.890814558058924

선실등급별 생존자 수

In [53]:
df[['Pclass', 'Survived']].groupby('Pclass').value_counts(sort=False)

Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
Name: count, dtype: int64

성별별, 선실등급 별 생존자수

In [56]:
df[['Sex', 'Pclass', 'Survived']].groupby(['Sex', 'Pclass']).value_counts(sort=False)

Sex     Pclass  Survived
female  1       0             3
                1            91
        2       0             6
                1            70
        3       0            72
                1            72
male    1       0            77
                1            45
        2       0            91
                1            17
        3       0           300
                1            47
Name: count, dtype: int64

* 성별에 따른 나이의 평균, 최소, 최대값

In [57]:
df[['Sex', 'Age']].groupby('Sex').mean()

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.915709
male,30.726645


* 피벗테이블 pivot

In [60]:
df.pivot_table(values="Survived", index='Sex', columns="Pclass")

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


# 결측값 찾기 (값이 없는 것)

isna() 결측값인지 아닌지 확인 -> True(1), False(0) -> sum(결측값의 개수)

In [63]:
df.isna().sum() / len(df) * 100

PassengerId     0.000000
Survived        0.000000
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            19.865320
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.000000
Cabin          77.104377
Embarked        0.224467
dtype: float64

dropna() 결측값이 있는 행을 삭제

In [64]:
df.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"[Cumings,, Mrs., John, Bradley, (Florence, Bri...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"[Futrelle,, Mrs., Jacques, Heath, (Lily, May, ...",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"[McCarthy,, Mr., Timothy, J]",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"[Sandstrom,, Miss., Marguerite, Rut]",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"[Bonnell,, Miss., Elizabeth]",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"[Beckwith,, Mrs., Richard, Leonard, (Sallie, M...",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"[Carlsson,, Mr., Frans, Olof]",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"[Potter,, Mrs., Thomas, Jr, (Lily, Alexenia, W...",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"[Graham,, Miss., Margaret, Edith]",female,19.0,0,0,112053,30.0000,B42,S


fillna() 결측값을 다른 값으로 채워주는 함수

In [65]:
round(df['Age'].mean())

30

In [66]:
df['Age'] = df['Age'].fillna(round(df['Age'].mean()))

In [67]:
df['Age'].isna().sum()

np.int64(0)

# 여러 개의 데이터프레임 합치기
* concat: 두 개의 데이터프레임을 1개로 합침
* merge: sql join과 같은 역할 공통된 기준 컬럼 매칭해서 합침
* join: sql join과 같은 역할 index가 같은 것끼리 합침

In [1]:
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb
import pandas as pd

In [2]:
engine = create_engine("mysql+pymysql://kict14:kict14@221.155.18.165:3306/titanic")
conn = engine.connect()

In [3]:
passenger = pd.read_sql("p_info", con=conn)
ticket = pd.read_sql("t_info", con=conn)
survived = pd.read_sql("survived", con=conn)
conn.close()

In [4]:
passenger

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch
0,1,"Braund, Mr. Owen Harris",male,22.0,1,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0
4,5,"Allen, Mr. William Henry",male,35.0,0,0
...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0,0,0
887,888,"Graham, Miss. Margaret Edith",female,19.0,0,0
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2
889,890,"Behr, Mr. Karl Howell",male,26.0,0,0


In [8]:
ticket

Unnamed: 0,PassengerId,Ticket,Pclass,Fare,Cabin,Embarked
0,1,A/5 21171,3,7.2500,,S
1,2,PC 17599,1,71.2833,C85,C
2,3,STON/O2. 3101282,3,7.9250,,S
3,4,113803,1,53.1000,C123,S
4,5,373450,3,8.0500,,S
...,...,...,...,...,...,...
886,887,211536,2,13.0000,,S
887,888,112053,1,30.0000,B42,S
888,889,W./C. 6607,3,23.4500,,S
889,890,111369,1,30.0000,C148,C


In [9]:
survived

Unnamed: 0,PassengerId,Survived
0,1,0
1,2,1
2,3,1
3,4,1
4,5,0
...,...,...
886,887,0
887,888,1
888,889,0
889,890,1


# concat axis = 0 행 추가, axis = 1 열 추가
* 기준 컬럼 없이 무조건 합침
* 기본값은 행방향으로 합쳐줌
* 옆으로 붙이고 싶으면 axis = 1

In [15]:
print("passenger", passenger.shape)
print("ticket", ticket.shape)
print("survived", survived.shape)

passenger (891, 6)
ticket (891, 6)
survived (891, 2)


In [19]:
df_0 = pd.concat([passenger, ticket, survived], axis = 0)
df_0.iloc[890:893, :]
df_0

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,Ticket,Pclass,Fare,Cabin,Embarked,Survived
0,1,"Braund, Mr. Owen Harris",male,22.0,1.0,0.0,,,,,,
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,,,,,,
2,3,"Heikkinen, Miss. Laina",female,26.0,0.0,0.0,,,,,,
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1.0,0.0,,,,,,
4,5,"Allen, Mr. William Henry",male,35.0,0.0,0.0,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,,,,,,,,,,,0.0
887,888,,,,,,,,,,,1.0
888,889,,,,,,,,,,,0.0
889,890,,,,,,,,,,,1.0


In [12]:
df1 = pd.concat([passenger, ticket, survived], axis = 1)
df1

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,PassengerId.1,Ticket,Pclass,Fare,Cabin,Embarked,PassengerId.2,Survived
0,1,"Braund, Mr. Owen Harris",male,22.0,1,0,1,A/5 21171,3,7.2500,,S,1,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,2,PC 17599,1,71.2833,C85,C,2,1
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,3,STON/O2. 3101282,3,7.9250,,S,3,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,4,113803,1,53.1000,C123,S,4,1
4,5,"Allen, Mr. William Henry",male,35.0,0,0,5,373450,3,8.0500,,S,5,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0,0,0,887,211536,2,13.0000,,S,887,0
887,888,"Graham, Miss. Margaret Edith",female,19.0,0,0,888,112053,1,30.0000,B42,S,888,1
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,889,W./C. 6607,3,23.4500,,S,889,0
889,890,"Behr, Mr. Karl Howell",male,26.0,0,0,890,111369,1,30.0000,C148,C,890,1


In [21]:
# select * from passenger left join ticket on passenger.PassengerId = ticket.PassengerId
joined_df = pd.merge(passenger, ticket, how="inner", on="PassengerId")

In [25]:
joined_df = pd.merge(joined_df, survived, how="inner", on = "PassengerId")
joined_df

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,Ticket,Pclass,Fare,Cabin,Embarked,Survived
0,1,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,3,7.2500,,S,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,1,71.2833,C85,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,3,7.9250,,S,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,1,53.1000,C123,S,1
4,5,"Allen, Mr. William Henry",male,35.0,0,0,373450,3,8.0500,,S,0
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0,0,0,211536,2,13.0000,,S,0
887,888,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,1,30.0000,B42,S,1
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,3,23.4500,,S,0
889,890,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,1,30.0000,C148,C,1


# join: sqld의 join과 같음, index 명을 기준으로 합침

In [29]:
ticket = ticket.set_index("PassengerId")
ticket

Unnamed: 0_level_0,Ticket,Pclass,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,A/5 21171,3,7.2500,,S
2,PC 17599,1,71.2833,C85,C
3,STON/O2. 3101282,3,7.9250,,S
4,113803,1,53.1000,C123,S
5,373450,3,8.0500,,S
...,...,...,...,...,...
887,211536,2,13.0000,,S
888,112053,1,30.0000,B42,S
889,W./C. 6607,3,23.4500,,S
890,111369,1,30.0000,C148,C


In [31]:
passenger.join(ticket)

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,Ticket,Pclass,Fare,Cabin,Embarked
0,1,"Braund, Mr. Owen Harris",male,22.0,1,0,,,,,
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,A/5 21171,3.0,7.2500,,S
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,PC 17599,1.0,71.2833,C85,C
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,STON/O2. 3101282,3.0,7.9250,,S
4,5,"Allen, Mr. William Henry",male,35.0,0,0,113803,1.0,53.1000,C123,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",male,27.0,0,0,382652,3.0,29.1250,,Q
887,888,"Graham, Miss. Margaret Edith",female,19.0,0,0,211536,2.0,13.0000,,S
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,112053,1.0,30.0000,B42,S
889,890,"Behr, Mr. Karl Howell",male,26.0,0,0,W./C. 6607,3.0,23.4500,,S


In [32]:
survived = survived.set_index("PassengerId")
survived

Unnamed: 0_level_0,Survived
PassengerId,Unnamed: 1_level_1
1,0
2,1
3,1
4,1
5,0
...,...
887,0
888,1
889,0
890,1


In [33]:
joined_df2.join(survived)

NameError: name 'joined_df2' is not defined

In [None]:
joined_df2.reset_index()

# 중복여부 확인 및 제거하기

In [22]:
toss = pd.read_csv("./data/viva_republica_toss.csv", index_col = 0)
toss.head(5)

Unnamed: 0,사용자,별점,리뷰,날짜,개발자 응답
0,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
1,최유연,1,"증권부분이 너무 빈약해요. 이평선, 분봉, 틱봉 자유롭게 수치를 설정할 수 있었음 ...",2025년 1월 18일,"안녕하세요. 최유연 님, 토스팀입니다. 토스증권 사용하시면서 주신 소중한 의견 너무..."
2,EXPRESS,1,주식 UI에서 홈과 관심 종목을 나눈 것도 불편한데 이번 자주 사용하는 계좌 업데이...,2025년 2월 25일,"안녕하세요. EXPRESS 님, 토스팀입니다. 우선 토스증권 이용에 불편을 드려 죄..."
3,JS P,1,언제 한 번 대대적으로 앱 퍼포먼스 최적화를 했으면 좋겠습니다. 예전엔 이러지 않았...,2025년 2월 28일,"안녕하세요. JS P 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 노력하였..."
4,AndPeter,1,앱 최적화 좀 해주세요! 무슨 메모리를 1GB나 잡아먹고 패킷전송이 하루에 80만건...,2025년 3월 1일,"안녕하세요. AndPeter 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."


In [37]:
toss.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52565 entries, 0 to 52564
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용자     52531 non-null  object
 1   별점      52565 non-null  int64 
 2   리뷰      52565 non-null  object
 3   날짜      52565 non-null  object
 4   개발자 응답  49611 non-null  object
dtypes: int64(1), object(4)
memory usage: 2.4+ MB


In [38]:
toss.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
52560    False
52561    False
52562    False
52563    False
52564    False
Length: 52565, dtype: bool

In [23]:
toss.duplicated().sum()

np.int64(52052)

In [25]:
toss[toss["사용자"] == "Won Choi"]

Unnamed: 0,사용자,별점,리뷰,날짜,개발자 응답
0,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
20,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
40,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
60,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
80,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
...,...,...,...,...,...
50056,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
50555,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
51054,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
51553,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."


중복 컬럼 삭제하기 drop_duplicates()

In [39]:
toss.drop_duplicates()

Unnamed: 0,사용자,별점,리뷰,날짜,개발자 응답
0,Won Choi,2,토스 많이 이용하는데 나쁘지 않음. 하지만 연말정산 잘 알지 않으면 돌려받기는 사용...,2024년 11월 19일,"안녕하세요. Won Choi 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
1,최유연,1,"증권부분이 너무 빈약해요. 이평선, 분봉, 틱봉 자유롭게 수치를 설정할 수 있었음 ...",2025년 1월 18일,"안녕하세요. 최유연 님, 토스팀입니다. 토스증권 사용하시면서 주신 소중한 의견 너무..."
2,EXPRESS,1,주식 UI에서 홈과 관심 종목을 나눈 것도 불편한데 이번 자주 사용하는 계좌 업데이...,2025년 2월 25일,"안녕하세요. EXPRESS 님, 토스팀입니다. 우선 토스증권 이용에 불편을 드려 죄..."
3,JS P,1,언제 한 번 대대적으로 앱 퍼포먼스 최적화를 했으면 좋겠습니다. 예전엔 이러지 않았...,2025년 2월 28일,"안녕하세요. JS P 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 노력하였..."
4,AndPeter,1,앱 최적화 좀 해주세요! 무슨 메모리를 1GB나 잡아먹고 패킷전송이 하루에 80만건...,2025년 3월 1일,"안녕하세요. AndPeter 님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 ..."
...,...,...,...,...,...
52560,나명자,5,사용은 편해요. 계좌개설 확인증이나 송금확인증 의 글씨가 좀 더 컸으면 좋겠습니다....,2024년 10월 31일,"안녕하세요. 나명자 님, 토스팀입니다. 토스를 이용하시면서 느끼신 소중한 의견을 주..."
52561,김주영,4,소비 관리하는 데 아주 유용하게 쓰고 있습니다. ktx 예매 때문에 코레일을 이용했...,2024년 11월 30일,"안녕하세요. 김주영님, 토스팀입니다. 우선, 토스 이용에 불편을 드려 죄송합니다. ..."
52562,bk im,1,편리함은 사라지고 불편함만 가중되고있음. 1. 동영상 광고 도입으로 토스 켤 때 마...,2023년 7월 25일,"안녕하세요. bk im님, 토스 고객센터입니다. 우선 많이 불편하셨음에도 시간내어 ..."
52563,임혜란,2,토스 편해서 사용했는데..최근에 토스에서 하는 꽃돼지이벤트 하다가 짜증났어요. 완전...,2025년 2월 27일,"안녕하세요. 임혜란님, 토스팀입니다. 만족스러운 서비스를 제공하기 위해 노력하였으나..."


# 인덱스가 섞여 있는 데이터를 불러와서 join하기

In [15]:
engine = create_engine("mysql+pymysql://kict14:kict14@221.155.18.165:3306/titanic")
conn = engine.connect()
passenger3 = pd.read_sql("passenger", con=conn)
ticket3 = pd.read_sql("ticket", con=conn)
survived3 = pd.read_sql("surv", con=conn)

In [10]:
print(len(passenger3))
print(len(ticket3))

623
445


In [16]:
pd.merge(passenger3, ticket3, on="PassengerId")

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,Ticket,Pclass,Fare,Cabin,Embarked
0,192,"Carbines, Mr. William",male,19.0,0,0,28424,2,13.0000,,S
1,715,"Greenberg, Mr. Samuel",male,52.0,0,0,250647,2,13.0000,,S
2,533,"Elias, Mr. Joseph Jr",male,17.0,1,1,2690,3,7.2292,,C
3,133,"Robins, Mrs. Alexander A (Grace Charity Laury)",female,47.0,1,0,A/5. 3337,3,14.5000,,S
4,597,"Leitch, Miss. Jessie Wills",female,,0,0,248727,2,33.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...
312,349,"Coutts, Master. William Loch ""William""",male,3.0,1,1,C.A. 37671,3,15.9000,,S
313,616,"Herman, Miss. Alice",female,24.0,1,2,220845,2,65.0000,,S
314,580,"Jussila, Mr. Eiriik",male,32.0,0,0,STON/O 2. 3101286,3,7.9250,,S
315,503,"O'Sullivan, Miss. Bridget Mary",female,,0,0,330909,3,7.6292,,Q


In [17]:
passenger4 = passenger3.set_index("PassengerId")
ticket4 = ticket3.set_index("PassengerId")

In [20]:
# join은 기본값이 left join
passenger4.join(ticket4, how='inner')

Unnamed: 0_level_0,Name,Sex,Age,SibSp,Parch,Ticket,Pclass,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
192,"Carbines, Mr. William",male,19.0,0,0,28424,2,13.0000,,S
715,"Greenberg, Mr. Samuel",male,52.0,0,0,250647,2,13.0000,,S
533,"Elias, Mr. Joseph Jr",male,17.0,1,1,2690,3,7.2292,,C
133,"Robins, Mrs. Alexander A (Grace Charity Laury)",female,47.0,1,0,A/5. 3337,3,14.5000,,S
597,"Leitch, Miss. Jessie Wills",female,,0,0,248727,2,33.0000,,S
...,...,...,...,...,...,...,...,...,...,...
349,"Coutts, Master. William Loch ""William""",male,3.0,1,1,C.A. 37671,3,15.9000,,S
616,"Herman, Miss. Alice",female,24.0,1,2,220845,2,65.0000,,S
580,"Jussila, Mr. Eiriik",male,32.0,0,0,STON/O 2. 3101286,3,7.9250,,S
503,"O'Sullivan, Miss. Bridget Mary",female,,0,0,330909,3,7.6292,,Q
