<a href="https://colab.research.google.com/github/nephelim74/unitel/blob/main/prefix_analiz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

In [29]:
# Загрузка данных с преобразованием 'Null' в NaN
calls = pd.read_csv('/content/calls_psk.csv', na_values='Null')

In [32]:
calls.head()

Unnamed: 0,a-number,b-number,diversion,srcgw,dstgw,catin,catout
0,9118834125,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
1,9813514740,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
2,9113819137,8112201432,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266
3,8112292048,9113702801,,node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271,271
4,9813514740,8112201431,,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266,266


In [33]:
# Преобразование столбцов a-number и b-number
# Удаляем все нечисловые символы (если они есть)
calls['a-number'] = calls['a-number'].astype(str).str.replace(r'\D', '', regex=True)
calls['b-number'] = calls['b-number'].astype(str).str.replace(r'\D', '', regex=True)

# Преобразуем в числовой тип (int64)
calls['a-number'] = pd.to_numeric(calls['a-number'], errors='coerce')
calls['b-number'] = pd.to_numeric(calls['b-number'], errors='coerce')

# Проверка типов данных после преобразования
print(calls.dtypes)

a-number       int64
b-number       int64
diversion    float64
srcgw         object
dstgw         object
catin          int64
catout         int64
dtype: object


In [34]:
# 1. Обработка столбца diversion
# Подсчет количества строк, где diversion не равно Null
replacement_count = calls['diversion'].notna().sum()

# Заменяем a-number на diversion там, где diversion не NaN
mask = calls['diversion'].notna()
calls.loc[mask, 'a-number'] = calls.loc[mask, 'diversion']

# Удаляем столбец diversion
calls.drop(columns=['diversion'], inplace=True)

# Вывод отчета
print(f"Количество замененных значений в столбце 'a-number': {replacement_count}")

Количество замененных значений в столбце 'a-number': 14163


In [36]:
# 2. Проверка соответствия catin и catout
# Проверяем наличие расхождений
has_discrepancy = (calls['catin'] != calls['catout']).any()

# Считаем количество расхождений
discrepancy_count = (calls['catin'] != calls['catout']).sum()

if has_discrepancy:
    # Если есть расхождения, заменяем catin на catout
    calls['catin'] = calls['catout']
    print(f"Обнаружено расхождений между catin и catout: {discrepancy_count}")
else:
    print("Расхождений между catin и catout не обнаружено.")

# Удаляем столбец catout и переименовываем catin в cat
calls.rename(columns={'catin': 'cat'}, inplace=True)
calls.drop(columns=['catout'], inplace=True)

# Результат
print("\nИтоговый датасет:")
print(-)

Обнаружено расхождений между catin и catout: 1

Итоговый датасет:
     a-number    b-number                                              srcgw  \
0  9118834125  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
1  9813514740  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
2  9113819137  8112201432  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   
3  8112292048  9113702801  node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....   
4  9813514740  8112201431  node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...   

                                               dstgw  cat  
0  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
1  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
2  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  
3  provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...  271  
4  provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...  266  


In [38]:
calls.head()

Unnamed: 0,a-number,b-number,srcgw,dstgw,cat
0,9118834125,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
1,9813514740,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
2,9113819137,8112201432,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266
3,8112292048,9113702801,node-ats72.tzus-psk.mts.sr098-mob_mts.mg8-psk....,provider.tzus-psk.mts.sr098-mob_mts.mg8-psk.ss...,271
4,9813514740,8112201431,node-ats72.mus-psk.pskovline.p-08-72.mg7-psk.s...,provider.mus-psk.pskovline.p-08-72.mg7-psk.ss7...,266


In [47]:
ABC3xx = pd.read_csv('/content/ABC-3xx.csv', sep=';', na_values='Null', encoding='utf-8')
ABC4xx = pd.read_csv('/content/ABC-4xx.csv', sep=';', na_values='Null', encoding='utf-8')
ABC8xx = pd.read_csv('/content/ABC-8xx.csv', sep=';', na_values='Null', encoding='utf-8')
DEF9xx = pd.read_csv('/content/DEF-9xx.csv', sep=';', na_values='Null', encoding='utf-8')

In [48]:
ABC3xx.head()

Unnamed: 0,АВС/ DEF,От,До,Емкость,Оператор,Регион,Территория ГАР,ИНН
0,301,2110000,2129999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
1,301,2150000,2169999,20000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
2,301,2180000,2189999,10000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388
3,301,2190000,2190499,500,"АО ""МТТ""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7705017253
4,301,2191000,2199999,9000,"ПАО ""Ростелеком""",г. Улан-Удэ|Республика Бурятия,г. Улан-Удэ|г.о. город Улан-Удэ|Республика Бур...,7707049388


In [49]:
ABC3xx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67104 entries, 0 to 67103
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   АВС/ DEF        67104 non-null  int64 
 1   От              67104 non-null  int64 
 2   До              67104 non-null  int64 
 3   Емкость         67104 non-null  int64 
 4   Оператор        67104 non-null  object
 5   Регион          67104 non-null  object
 6   Территория ГАР  67104 non-null  object
 7   ИНН             67104 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 4.1+ MB


In [50]:
DEF9xx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15234 entries, 0 to 15233
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   АВС/ DEF        15234 non-null  int64 
 1   От              15234 non-null  int64 
 2   До              15234 non-null  int64 
 3   Емкость         15234 non-null  int64 
 4   Оператор        15234 non-null  object
 5   Регион          15234 non-null  object
 6   Территория ГАР  15234 non-null  object
 7   ИНН             15234 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 952.3+ KB
