<a href="https://colab.research.google.com/github/nephelim74/BeginProg/blob/main/prefix_analiz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

In [None]:
# Загрузка данных с преобразованием 'Null' в NaN
calls = pd.read_csv('/content/calls_psk.csv', na_values='Null')

In [None]:
calls.head()

Unnamed: 0,a-number,b-number,diversion,srcgw,dstgw,catin,catout
0,9118834125,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
1,9813514740,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
2,9113819137,8112201432,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
3,8112292048,9113702801,,node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271,271
4,9813514740,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266


In [None]:
# Преобразование столбцов a-number и b-number
# Удаляем все нечисловые символы (если они есть)
calls['a-number'] = calls['a-number'].astype(str).str.replace(r'\D', '', regex=True)
calls['b-number'] = calls['b-number'].astype(str).str.replace(r'\D', '', regex=True)

# Преобразуем в числовой тип (int64)
calls['a-number'] = pd.to_numeric(calls['a-number'], errors='coerce')
calls['b-number'] = pd.to_numeric(calls['b-number'], errors='coerce')

# Проверка типов данных после преобразования
print(calls.dtypes)

a-number       int64
b-number       int64
diversion    float64
srcgw         object
dstgw         object
catin          int64
catout         int64
dtype: object


In [None]:
# 1. Обработка столбца diversion
# Подсчет количества строк, где diversion не равно Null
replacement_count = calls['diversion'].notna().sum()

# Заменяем a-number на diversion там, где diversion не NaN
mask = calls['diversion'].notna()
calls.loc[mask, 'a-number'] = calls.loc[mask, 'diversion']

# Удаляем столбец diversion
calls.drop(columns=['diversion'], inplace=True)

# Вывод отчета
print(f"Количество замененных значений в столбце 'a-number': {replacement_count}")

Количество замененных значений в столбце 'a-number': 14163


In [None]:
# 2. Проверка соответствия catin и catout
# Проверяем наличие расхождений
has_discrepancy = (calls['catin'] != calls['catout']).any()

# Считаем количество расхождений
discrepancy_count = (calls['catin'] != calls['catout']).sum()

if has_discrepancy:
    # Если есть расхождения, заменяем catin на catout
    calls['catin'] = calls['catout']
    print(f"Обнаружено расхождений между catin и catout: {discrepancy_count}")
else:
    print("Расхождений между catin и catout не обнаружено.")

# Удаляем столбец catout и переименовываем catin в cat
calls.rename(columns={'catin': 'cat'}, inplace=True)
calls.drop(columns=['catout'], inplace=True)

# Результат
print("\nИтоговый датасет:")
print(calls.head())

Обнаружено расхождений между catin и catout: 1

Итоговый датасет:
     a-number    b-number                                              srcgw  \
0  9118834125  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
1  9813514740  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
2  9113819137  8112201432  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
3  8112292048  9113702801  node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....   
4  9813514740  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   

                                               dstgw  cat  
0  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
1  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
2  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
3  provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...  271  
4  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  


In [None]:
calls.head()

Unnamed: 0,a-number,b-number,srcgw,dstgw,cat
0,9118834125,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
1,9813514740,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
2,9113819137,8112201432,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
3,8112292048,9113702801,node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271
4,9813514740,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266


In [None]:
ABC3xx = pd.read_csv('/content/ABC-3xx.csv', sep=';', na_values='Null', encoding='utf-8')
ABC4xx = pd.read_csv('/content/ABC-4xx.csv', sep=';', na_values='Null', encoding='utf-8')
ABC8xx = pd.read_csv('/content/ABC-8xx.csv', sep=';', na_values='Null', encoding='utf-8')
DEF9xx = pd.read_csv('/content/ABC-9xx.csv', sep=';', na_values='Null', encoding='utf-8')

In [None]:
ABC3xx.head()

Unnamed: 0,АВС/ DEF,От,До,Емкость,Оператор,Регион,Территория ГАР,ИНН
0,301,2110000,2129999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
1,301,2150000,2169999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
2,301,2180000,2189999,10000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
3,301,2190000,2190499,500,"АО ""МТТ""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7705017253
4,301,2191000,2199999,9000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388


In [None]:
ABC3xx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67104 entries, 0 to 67103
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   АВС/ DEF        67104 non-null  int64 
 1   От              67104 non-null  int64 
 2   До              67104 non-null  int64 
 3   Емкость         67104 non-null  int64 
 4   Оператор        67104 non-null  object
 5   Регион          67104 non-null  object
 6   Территория ГАР  67104 non-null  object
 7   ИНН             67104 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 4.1+ MB


In [None]:
DEF9xx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15234 entries, 0 to 15233
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   АВС/ DEF        15234 non-null  int64 
 1   От              15234 non-null  int64 
 2   До              15234 non-null  int64 
 3   Емкость         15234 non-null  int64 
 4   Оператор        15234 non-null  object
 5   Регион          15234 non-null  object
 6   Территория ГАР  15234 non-null  object
 7   ИНН             15234 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 952.3+ KB


In [None]:
# Объединение всех датасетов в один
combined_df = pd.concat([ABC3xx, ABC4xx, ABC8xx, DEF9xx], ignore_index=True)
combined_df.sample()

Unnamed: 0,АВС/ DEF,От,До,Емкость,Оператор,Регион,Территория ГАР,ИНН
429156,928,9560000,9579999,20000,"ПАО ""МЕГАФОН""",Ростовская обл.,Ростовская область,7812015000.0


In [None]:
# Удаление ненужных столбцов
combined_df.drop(columns=['Территория ГАР', 'ИНН'], inplace=True)
combined_df.head()

Unnamed: 0,АВС/ DEF,От,До,Емкость,Оператор,Регион
0,301,2110000,2129999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия
1,301,2150000,2169999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия
2,301,2180000,2189999,10000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия
3,301,2190000,2190499,500,"АО ""МТТ""",г. Улан-Удэ|Республика Бурятия
4,301,2191000,2199999,9000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия


In [None]:
calls.drop(columns=['a-number', 'srcgw'], inplace=True)
calls.head()

Unnamed: 0,b-number,dstgw,cat
0,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
1,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
2,8112201432,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
3,9113702801,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271
4,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266


In [None]:
calls.count()

Unnamed: 0,0
b-number,372161
dstgw,372161
cat,372161


In [None]:
calls.drop_duplicates()
calls.count()

Unnamed: 0,0
b-number,372161
dstgw,372161
cat,372161


In [None]:
# Добавление новых столбцов в calls
calls['operator'] = None
calls['region'] = None
calls.head()

Unnamed: 0,b-number,dstgw,cat,operator,region
0,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,,
1,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,,
2,8112201432,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,,
3,9113702801,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271,,
4,8112201431,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,,


In [None]:
# # Создаем словарь для быстрого поиска
# prefix_dict = {}
# for _, row in combined_df.iterrows():
#     prefix = str(row['АВС/ DEF'])
#     if prefix not in prefix_dict:
#         prefix_dict[prefix] = []
#     prefix_dict[prefix].append({
#         'От': int(row['От']),
#         'До': int(row['До']),
#         'Оператор': row['Оператор'],
#         'Регион': row['Регион']
#     })

In [None]:
# Загрузка и подготовка данных
def load_data():
    dfs = []
    for prefix in ['3xx', '4xx', '8xx', '9xx']:
        df = pd.read_csv(f'/content/ABC-{prefix}.csv', sep=';', na_values='Null',
                        dtype={'АВС/ DEF': str, 'От': str, 'До': str},
                        usecols=['АВС/ DEF', 'От', 'До', 'Оператор', 'Регион'])
        dfs.append(df)
    return pd.concat(dfs, ignore_index=True)


In [None]:
# Используем уже существующий датасет calls (не загружаем его из файла)
# Убедимся, что столбец 'b-number' имеет тип str
calls['b-number'] = calls['b-number'].astype(str)

# Добавляем новые столбцы в calls (если их еще нет)
if 'operator' not in calls.columns:
    calls['operator'] = None
if 'region' not in calls.columns:
    calls['region'] = None

In [None]:
import bisect
from tqdm.auto import tqdm

In [None]:
# Загружаем объединенный датасет
combined_df = load_data()

# Дополняем значения в полях "От" и "До" до 7 цифр нулями слева
combined_df['От'] = combined_df['От'].str.zfill(7)
combined_df['До'] = combined_df['До'].str.zfill(7)

# Используем уже существующий датасет calls (не загружаем его из файла)
# Убедимся, что столбец 'b-number' имеет тип str
calls['b-number'] = calls['b-number'].astype(str)

# Добавляем новые столбцы в calls (если их еще нет)
if 'operator' not in calls.columns:
    calls['operator'] = None
if 'region' not in calls.columns:
    calls['region'] = None


In [None]:
class PrefixLookup:
    def __init__(self, df, verbose=False):
        self.lookup = {}
        self.verbose = verbose
        for _, row in df.iterrows():
            prefix = row['АВС/ DEF']
            start = row['От']
            end = row['До']
            key = (prefix, start, end)
            self.lookup[key] = {
                'Оператор': row['Оператор'],
                'Регион': row['Регион']
            }

    def find(self, number_str):
        for (prefix, start, end), data in self.lookup.items():
            # Проверяем, начинается ли номер с префикса
            if not number_str.startswith(prefix):
                continue

            # Полный диапазон: префикс + диапазон
            full_start = prefix + start[len(prefix):]
            full_end = prefix + end[len(prefix):]

            # Проверяем, попадает ли номер в диапазон
            if full_start <= number_str <= full_end:
                # Определяем длину префикса
                prefix_length = len(prefix)
                # Определяем длину значимой части диапазона
                significant_length = len(start) - len(prefix)
                # Обрезаем номер до префикса и значимой части
                new_b_number = number_str[:prefix_length + significant_length]

                if self.verbose:
                    tqdm.write(f"Original: {number_str} → Prefix: {new_b_number} "
                              f"[Range: {full_start}-{full_end}]")

                operator = data['Оператор'].replace(',', '.')
                region = data['Регион'].replace(',', '.')
                return new_b_number, operator, region
        return number_str, None, None

In [None]:
# Включить verbose=True для отладки
lookup = PrefixLookup(combined_df, verbose=False)

In [None]:
def process_b_number(num):
    num_str = str(num)
    return pd.Series(lookup.find(num_str))





In [None]:
tqdm.pandas(desc="Обработка вызовов")
calls[['b-number', 'operator', 'region']] = calls['b-number'].progress_apply(process_b_number)

print("\nРезультат:")
print(calls.head())

Обработка вызовов:   0%|          | 0/372161 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [None]:
calls.sample()

In [None]:
# Сохраняем датасет calls в CSV-файл
calls.to_csv('/content/calls_processed.csv', index=False, sep=';', encoding='utf-8')

In [None]:
# Функция для поиска соответствий и обновления calls
def update_calls_with_prefix(b_number, prefix_dict):
    b_number = str(b_number)
    prefix = b_number[:3]  # Предполагаем, что префикс всегда первые 3 цифры
    if prefix in prefix_dict:
        for entry in prefix_dict[prefix]:
            if entry['От'] <= int(b_number) <= entry['До']:
                # Вычисляем длину значимой части диапазона
                significant_length = len(str(entry['От'])) - len(prefix)
                prefix_length = len(prefix) + significant_length
                new_b_number = b_number[:prefix_length]
                operator = entry['Оператор'].replace(',', '.')
                region = entry['Регион'].replace(',', '.')
                return new_b_number, operator, region
    return b_number, None, None

In [None]:
# Применяем функцию к каждой строке в calls с отображением прогресса
total_rows = len(calls)  # Общее количество строк в calls
for index, row in tqdm(calls.iterrows(), total=total_rows, desc="Обработка calls"):
    new_b_number, operator, region = update_calls_with_prefix(row['b-number'], prefix_dict)
    calls.at[index, 'b-number'] = new_b_number
    calls.at[index, 'operator'] = operator
    calls.at[index, 'region'] = region

# Результат
print("\nИтоговый датасет:")
print(calls.head())

In [None]:
calls.head()

In [2]:
prefix = pd.read_csv('/content/prefix.csv', na_values='Null')

In [3]:
prefix.head()

Unnamed: 0,b-number,dstgw,cat,operator,region
0,8112201,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,"ОАО ""ПСКОВСКАЯ ГТС""",г. Псков|Псковская обл.
1,8112201,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,"ОАО ""ПСКОВСКАЯ ГТС""",г. Псков|Псковская обл.
2,9113702,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271,"ПАО ""Мобильные ТелеСистемы""",г. Санкт-Петербург и Ленинградская область
3,9210011,provider.tzus-psk.mgf.ds-4-mob.mg6-psk.ss7-opc...,480,"ПАО ""МЕГАФОН""",Псковская обл.
4,9532394,provider.tzus-psk.t2mobile.p-62-mob_t2.mg9-psk...,484,"ООО ""ЕКАТЕРИНБУРГ-2000""",Свердловская обл.


In [34]:
prefix.sample()

Unnamed: 0,b-number,dstgw,cat,operator,region
83359,9266312,provider.tzus-psk.rtk.03-01-1206-mg-uak3.mg5.s...,480,"ПАО ""МЕГАФОН""",Москва и Московская область


In [37]:
prefix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103151 entries, 0 to 103150
Data columns (total 5 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   b-number  103151 non-null  int64 
 1   dstgw     103151 non-null  object
 2   cat       103151 non-null  int64 
 3   operator  92438 non-null   object
 4   region    92438 non-null   object
dtypes: int64(2), object(3)
memory usage: 3.9+ MB


In [39]:
prefix_good = prefix.dropna()

In [41]:
prefix_good.sample()

Unnamed: 0,b-number,dstgw,cat,operator,region
41833,9817425,provider.tzus-psk.rtk.03-01-1206-mg-uak3.mg5.s...,266,"ООО ""СПРИНТ""",Чеченская Республика
