In [1]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt

# string transformation
import mojimoji
import re

df = pd.read_csv('./first_messages.csv', index_col=False)
df = df.drop(['user_id', 'chat_room_id', 'updated_at', 'created_at'], axis=1)

df.describe()
df.loc[df['status'] == 2, 'status'].describe()
df.groupby(['status'], as_index=False).count().sort_values(by='status', ascending=False)

def __zen_to_han(string):
    return mojimoji.zen_to_han(string)

def __remove_dividors(string):
    return re.sub('\r\n|\s|　|,|。|、|\/|_|＿|・|／', '', string)

def preprocess(data):
    return __zen_to_han(__remove_dividors(str(data)))

In [2]:
df.apply(preprocess)

id         0112233445...164961416496531649615164965416496...
status     0111213141..1649614116496150164961601649617016...
message    0いいね👍ありがとう😊\n中央区在住でいつも銀座丸の内六本木辺りで食事しておりますよろ......
dtype: object

In [3]:
df.head()

Unnamed: 0,id,status,message
0,1,1,いいね👍ありがとう😊\n中央区在住で、いつも銀座・丸の内・六本木辺りで食事しております。よろ...
1,2,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...
2,3,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...
3,4,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...
4,5,1,どーも！\n今日どうっすか？


In [4]:
df.loc[df['message'].str.contains('[a-zA-Z0-9]{5,}'), 'check_id'] = 1
df = df.fillna(0)

In [5]:
df.head()

Unnamed: 0,id,status,message,check_id
0,1,1,いいね👍ありがとう😊\n中央区在住で、いつも銀座・丸の内・六本木辺りで食事しております。よろ...,0.0
1,2,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...,0.0
2,3,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...,0.0
3,4,1,本日会いたい！\n今日のひとこと：今夜は一人じゃやってられない\n人数：1人\nエリア：渋谷...,0.0
4,5,1,どーも！\n今日どうっすか？,0.0


In [6]:
df.loc[df['check_id'] == 1]

Unnamed: 0,id,status,message,check_id
9,10,2,fugay350 らいんでおねがいします（＾ω＾）,1.0
10,11,2,fugay350らいんでおねがいします（＾ω＾）,1.0
14,15,2,こんにちは！\n都内で事業をしてる者ですがまだお決まりで無く支援必要であれば詳しいお話が出来...,1.0
15,16,2,こんにちは😃\n\n気になってメッセージしてみましたよ✨\n\nまずはご飯からで気が合えば大...,1.0
16,17,2,こんにちは😃\n\n気になってメッセージしてみましたよ✨\n\nまずはご飯からで気が合えば大...,1.0
...,...,...,...,...
1649608,1649647,2,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0
1649609,1649648,2,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0
1649610,1649649,2,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0
1649611,1649650,2,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0


In [7]:
df.describe()

Unnamed: 0,id,status,check_id
count,1649619.0,1649619.0,1649619.0
mean,824825.6,1.044636,0.02037561
std,476218.2,0.2067741,0.1412815
min,1.0,0.0,0.0
25%,412409.5,1.0,0.0
50%,824816.0,1.0,0.0
75%,1237252.0,1.0,0.0
max,1649657.0,3.0,1.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1649619 entries, 0 to 1649618
Data columns (total 4 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   id        1649619 non-null  int64  
 1   status    1649619 non-null  int64  
 2   message   1649619 non-null  object 
 3   check_id  1649619 non-null  float64
dtypes: float64(1), int64(2), object(1)
memory usage: 50.3+ MB


In [9]:
df.loc[(df['status'] == 2) & (df['check_id'] == 0), 'miss'] = 1
df.loc[(df['status'] != 2) & (df['check_id'] == 1), 'miss'] = 1

In [10]:
df = df.fillna(0)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1649619 entries, 0 to 1649618
Data columns (total 5 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   id        1649619 non-null  int64  
 1   status    1649619 non-null  int64  
 2   message   1649619 non-null  object 
 3   check_id  1649619 non-null  float64
 4   miss      1649619 non-null  float64
dtypes: float64(2), int64(2), object(1)
memory usage: 62.9+ MB


In [12]:
df.loc[df['miss']==1] # 96.02

Unnamed: 0,id,status,message,check_id,miss
7,8,2,テスト,0.0,1.0
35,36,2,カカオメール送りました。,0.0,1.0
39,40,2,ありがとう。\nここあまり見ないのでt100エムアイエルジーメールコムでメッセージやりとりで...,0.0,1.0
46,47,2,今夜エッチできたりしますか？😊,0.0,1.0
48,49,2,こんにちは。良かったら、らいんのジーオージーオーハイフンエイエムアイジーオーのアイディに下さ...,0.0,1.0
...,...,...,...,...,...
1649588,1649627,2,よろしくお願いします！\n食事や大人の関係、仲良くなったら旅行など、長期で幅広く楽しめる方を...,0.0,1.0
1649603,1649642,2,はなさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い出...,0.0,1.0
1649604,1649643,2,ぴすさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い出...,0.0,1.0
1649605,1649644,2,あおいさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い...,0.0,1.0


In [13]:
df.loc[(df['miss']==1) & (df['status']!=2)]

Unnamed: 0,id,status,message,check_id,miss
81,82,1,こんにちは😃\n\n気になってメッセージしてみましたよ✨\n\nまずはご飯からで気が合えば大...,1.0,1.0
128,129,1,良かったら✨お話しましょう(^^)\n117kkk,1.0,1.0
181,182,1,良かったら✨お話しましょう(^^)\n117kkk,1.0,1.0
183,184,1,良かったら✨お話しましょう(^^)\n117kkk,1.0,1.0
188,189,1,良かったら✨お話しましょう(^^)\n117kkk,1.0,1.0
...,...,...,...,...,...
1649417,1649456,1,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0,1.0
1649418,1649457,1,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0,1.0
1649419,1649458,1,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0,1.0
1649420,1649459,1,Congrats！matching with me.\nアロハライフといいます。\nプロフィ...,1.0,1.0


In [14]:
df.loc[(df['miss']==1) & (df['status']==2)]

Unnamed: 0,id,status,message,check_id,miss
7,8,2,テスト,0.0,1.0
35,36,2,カカオメール送りました。,0.0,1.0
39,40,2,ありがとう。\nここあまり見ないのでt100エムアイエルジーメールコムでメッセージやりとりで...,0.0,1.0
46,47,2,今夜エッチできたりしますか？😊,0.0,1.0
48,49,2,こんにちは。良かったら、らいんのジーオージーオーハイフンエイエムアイジーオーのアイディに下さ...,0.0,1.0
...,...,...,...,...,...
1649588,1649627,2,よろしくお願いします！\n食事や大人の関係、仲良くなったら旅行など、長期で幅広く楽しめる方を...,0.0,1.0
1649603,1649642,2,はなさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い出...,0.0,1.0
1649604,1649643,2,ぴすさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い出...,0.0,1.0
1649605,1649644,2,あおいさん、はじめまして。ぶしつけにゴメンなさい。ただあらかじめ念のため、自分は定期でお会い...,0.0,1.0
