# Фильтрация данных

<b>Данные</b>:

Имеется таблица с записями о компаниях, включая их ИНН, и отдельный текстовый файл с набором ИНН.

- inn.xls — таблица в экселевском формате
- necessary_inn.txt — перечень необходимых ИНН в текстовом формате

<b>Задачи</b>:
- извлечь из таблицы записи с ИНН, указанными в текстовом файле
- записать результат в файл selected_inn.csv

## Загрузка и изучение датасетов

In [1]:
import pandas as pd

In [2]:
data = pd.read_excel('4_inn.xls', index_col=0)

In [3]:
data.head()

Unnamed: 0,#,name,reg_number,address,head,head_job,head_inn,phone,email,site,registration_date,nalogoplatelschik_code,oktmo_code,okato_code,registration_region,okato_name,field,"capital,RUB","income,RUB"
0,0,"ЗАО «Власова, Макаров и Шашков»",1143692580560,"д. Кирово-Чепецк, пр. Металлургов, д. 537 к. 3...",Жданов Карл Виленович,Маммолог,109092209811,+7 (559) 338-87-76,bogdanovavtonom@yahoo.com,ooo.info,2015-01-07,2006-10-04,21112877268,73423615032,Ulan-Ude,"к. Тосно, ул. Пушкинская, д. 896, 617222",Синхронизация критически важных отношений,54875526078,32205872896
1,1,"РАО «Тимофеева, Алексеева и Кузнецова»",9342309660697,"г. Арзамас, наб. Фестивальная, д. 7 стр. 8/2, ...",Рожков Харлампий Алексеевич,Воспитатель,704229465069,8 (632) 620-8879,safonovantonin@rao.org,ooo.net,1990-05-16,2019-01-18,18393547520,19072454279,Tyoply Stan,"ст. Кяхта, бул. Нефтяников, д. 24, 768742",Формирование заказных методик,33876448811,47437574301
2,2,РАО «Юдин-Ефимова»,1277485323451,"п. Меренга, алл. Достоевского, д. 3/4 к. 497, ...",Филимон Фадеевич Дьячков,Автослесарь,267655036377,+74925330378,kdorofeev@npo.ru,ao.com,1982-11-04,1986-06-19,56104355836,18629292792,Danilov,"клх Усолье Сибирское, алл. Шишкина, д. 3/9 к. ...",Максимизация корпоративных метрик,94073834991,7701710065
3,3,Доронин Инкорпорэйтед,7139161431511,"д. Иваново, ул. Красных Партизан, д. 83 к. 4, ...",Крылов Глеб Якубович,Тюремный надзиратель,362024991175,+7 118 643 21 48,nkulakova@mail.ru,ooo.ru,2005-01-02,2004-04-06,10398489351,32502585383,Beryozovsky,"г. Заводоуковск, ул. Гражданская, д. 7 к. 8/5,...",Разработка ориентированных на пользователя инт...,86971505490,61148002572
4,4,Объединенная энергетическая компания,6114798049639,"к. Энгельс, наб. Шишкина, д. 120, 823828",Субботин Вячеслав Федотович,Инженер-электрик,257948948010,8 642 249 2134,evgraf_18@yahoo.com,gerasimova.biz,1983-07-02,1992-06-20,20074507047,40083207999,Bavly,"к. Соль-Илецк, пер. Пригородный, д. 804 к. 1/3...",Монетизация интуитивных веб-сервисов,36351136214,34861533393


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2110 entries, 0 to 2109
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   #                       2110 non-null   int64 
 1   name                    2110 non-null   object
 2   reg_number              2110 non-null   int64 
 3   address                 2110 non-null   object
 4   head                    2110 non-null   object
 5   head_job                2110 non-null   object
 6   head_inn                2110 non-null   int64 
 7   phone                   2110 non-null   object
 8   email                   2110 non-null   object
 9   site                    2110 non-null   object
 10  registration_date       2110 non-null   object
 11  nalogoplatelschik_code  2110 non-null   object
 12  oktmo_code              2110 non-null   int64 
 13  okato_code              2110 non-null   int64 
 14  registration_region     2110 non-null   object
 15  okat

In [5]:
# в файле нет заголовка, поэтому используем header=None
inn = pd.read_csv('4_necessary_inn.txt', header=None)

In [6]:
inn.head()

Unnamed: 0,0
0,394609645484
1,281578625230
2,923769811917
3,998694734508
4,271011690615


In [7]:
inn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 115 entries, 0 to 114
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       115 non-null    int64
dtypes: int64(1)
memory usage: 1.0 KB


In [8]:
# смотрим имя колонки датасета
inn.columns

Int64Index([0], dtype='int64')

In [9]:
# заменяем имя 0 на 'inn'
inn = inn.rename(columns={0: 'inn'})

In [10]:
# проверяем изменения
inn.columns

Index(['inn'], dtype='object')

## Извлечение нужных записей

In [11]:
# выводим только те записи из data, которые из колонки 'head_inn' есть в inn 
inn_data = data.query('head_inn in @inn.inn')

In [12]:
inn_data.head()

Unnamed: 0,#,name,reg_number,address,head,head_job,head_inn,phone,email,site,registration_date,nalogoplatelschik_code,oktmo_code,okato_code,registration_region,okato_name,field,"capital,RUB","income,RUB"
47,47,Пермэнергосбыт,6417532956774,"ст. Слюдянка, пер. Брянский, д. 378 стр. 634, ...",Емельян Феликсович Зайцев,Релайтер,175482780898,8 833 729 83 14,boleslav28@gmail.com,krilova.net,1986-03-20,1998-02-11,47158105405,10234283083,Novosilikatnyy,"г. Кропоткин (Краснод.), пр. Лесный, д. 8/3 к....",Разработка подробных результатов,44637351562,67534335517
76,76,ЗАО «Кабанова Ковалев»,9343329412518,"с. Нарткала, ул. Верхняя, д. 68 стр. 1, 393309",Геннадий Денисович Григорьев,Бондарь,120708914823,+7 455 632 1053,kapustinjulian@oao.com,ao.ru,2011-09-28,1983-11-10,20653722407,92544205998,Severodvinsk,"д. Москва, МГУ, бул. Транспортный, д. 75 стр. ...",Монетизация передовых действий,78570288945,19932336080
77,77,Неофарм,3813743111150,"г. Долинск, ш. Московское, д. 25 к. 5, 227970",Юрий Архипович Богданов,Полицейский,663119569897,+7 077 854 47 31,bazhen41@matveeva.net,ao.com,2019-01-30,1986-09-01,96067740308,47030638090,Kovylkino,"с. Сладково, наб. Вавилова, д. 62 к. 627, 198606",Эксплуатация круглосуточных пользователей,30634104861,3103853229
85,85,Арконик СМЗ,7465966885549,"п. Тобольск, ул. Лунная, д. 375 стр. 724, 119588",Аникей Артёмович Павлов,Оперативный работник,722903871682,8 120 448 48 45,emeljan_75@gmail.com,ao.com,2004-08-10,2012-04-01,79166677871,45647356291,Otradnyy,"клх Миасс, пер. Тургенева, д. 4/2 к. 8, 505443",Использование серверных диапазонов,85286893329,8607813826
90,90,Фармперспектива,6205521489390,"к. Горно-Алтайск, ул. Степана Разина, д. 646 с...",Шашков Алексей Богданович,Фортификатор,837771137752,88711723244,ustinovaoksana@gmail.com,npo.biz,1982-05-29,1981-10-10,13185275127,67033649508,Ishim,"клх Кунгур, ш. Запрудное, д. 13, 038583",Максимизация мультимедийных интерфейсов,88304638400,29181260019


In [13]:
inn_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 115 entries, 47 to 2108
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   #                       115 non-null    int64 
 1   name                    115 non-null    object
 2   reg_number              115 non-null    int64 
 3   address                 115 non-null    object
 4   head                    115 non-null    object
 5   head_job                115 non-null    object
 6   head_inn                115 non-null    int64 
 7   phone                   115 non-null    object
 8   email                   115 non-null    object
 9   site                    115 non-null    object
 10  registration_date       115 non-null    object
 11  nalogoplatelschik_code  115 non-null    object
 12  oktmo_code              115 non-null    int64 
 13  okato_code              115 non-null    int64 
 14  registration_region     115 non-null    object
 15  okat

In [14]:
# считаем доход в рублях выбранных компаний из списка
inn_data['income,RUB'].sum()

6104522627393

## Запись в файл

In [15]:
inn_data.to_csv('selected_inn.csv')

In [16]:
# проверим созданный файл
selected_inn = pd.read_csv('selected_inn.csv', index_col=0)

In [17]:
selected_inn.head()

Unnamed: 0,#,name,reg_number,address,head,head_job,head_inn,phone,email,site,registration_date,nalogoplatelschik_code,oktmo_code,okato_code,registration_region,okato_name,field,"capital,RUB","income,RUB"
47,47,Пермэнергосбыт,6417532956774,"ст. Слюдянка, пер. Брянский, д. 378 стр. 634, ...",Емельян Феликсович Зайцев,Релайтер,175482780898,8 833 729 83 14,boleslav28@gmail.com,krilova.net,1986-03-20,1998-02-11,47158105405,10234283083,Novosilikatnyy,"г. Кропоткин (Краснод.), пр. Лесный, д. 8/3 к....",Разработка подробных результатов,44637351562,67534335517
76,76,ЗАО «Кабанова Ковалев»,9343329412518,"с. Нарткала, ул. Верхняя, д. 68 стр. 1, 393309",Геннадий Денисович Григорьев,Бондарь,120708914823,+7 455 632 1053,kapustinjulian@oao.com,ao.ru,2011-09-28,1983-11-10,20653722407,92544205998,Severodvinsk,"д. Москва, МГУ, бул. Транспортный, д. 75 стр. ...",Монетизация передовых действий,78570288945,19932336080
77,77,Неофарм,3813743111150,"г. Долинск, ш. Московское, д. 25 к. 5, 227970",Юрий Архипович Богданов,Полицейский,663119569897,+7 077 854 47 31,bazhen41@matveeva.net,ao.com,2019-01-30,1986-09-01,96067740308,47030638090,Kovylkino,"с. Сладково, наб. Вавилова, д. 62 к. 627, 198606",Эксплуатация круглосуточных пользователей,30634104861,3103853229
85,85,Арконик СМЗ,7465966885549,"п. Тобольск, ул. Лунная, д. 375 стр. 724, 119588",Аникей Артёмович Павлов,Оперативный работник,722903871682,8 120 448 48 45,emeljan_75@gmail.com,ao.com,2004-08-10,2012-04-01,79166677871,45647356291,Otradnyy,"клх Миасс, пер. Тургенева, д. 4/2 к. 8, 505443",Использование серверных диапазонов,85286893329,8607813826
90,90,Фармперспектива,6205521489390,"к. Горно-Алтайск, ул. Степана Разина, д. 646 с...",Шашков Алексей Богданович,Фортификатор,837771137752,88711723244,ustinovaoksana@gmail.com,npo.biz,1982-05-29,1981-10-10,13185275127,67033649508,Ishim,"клх Кунгур, ш. Запрудное, д. 13, 038583",Максимизация мультимедийных интерфейсов,88304638400,29181260019


In [18]:
selected_inn.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 115 entries, 47 to 2108
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   #                       115 non-null    int64 
 1   name                    115 non-null    object
 2   reg_number              115 non-null    int64 
 3   address                 115 non-null    object
 4   head                    115 non-null    object
 5   head_job                115 non-null    object
 6   head_inn                115 non-null    int64 
 7   phone                   115 non-null    object
 8   email                   115 non-null    object
 9   site                    115 non-null    object
 10  registration_date       115 non-null    object
 11  nalogoplatelschik_code  115 non-null    object
 12  oktmo_code              115 non-null    int64 
 13  okato_code              115 non-null    int64 
 14  registration_region     115 non-null    object
 15  okat

Данные сохранены в файл успешно, файл корректно считывается.

## Выводы

В ходе работы:
- загружены и первично изучены два датасета (в формате .xls и .txt)
- из основного датасета извлечены только те записи с ИНН, которые указаны в текстовом файле
- выбранные записи сохранены в файл selected_inn.csv
- созданный файл проверен