# Исследовательский анализ данных

## Описание данных 

### Таблица contract

- customerID - id пользователя 
- BeginDate - дата начала действия 
- EndDate - дата окончания действия 
- Type - Тип оплаты (раз в год или помесячно)
- PaperlessBilling - безбумажный расчетный лист 
- PaymentMethod - тип платежа
- MonthlyCharges - расход за месяц
- TotalCharges - общие расходы

### Таблица personal

- customerID - id пользователя
- gender - пол
- SeniorCitizen - пожилой гражданин
- Partner - партнер
- Dependents - иждивенцы

### Таблица internet

- customerID - id пользователя 
- InternetService - Нет описания (интернет безопасность)
- OnlineSecurity - блокировка небезопасных сайтов 
- OnlineBackup - Облачное хранилище файлов для резервного копирования данных 
- DeviceProtection - антивирус 
- TechSupport - Выделенная линия технической поддержки
- StreamingTV - Стриминговое телевидение
- StreamingMovies - каталог фильмов

### Таблица phone

- customerID - id пользователя 
- MultipleLines - Подключение телефонного аппарата к нескольким линиям одновременно

## Подключение библиотек 

In [1]:
import pandas as pd
import numpy as np

## Таблица contract

### Первичный осмотр 

In [2]:
contract = pd.read_csv('/datasets/final_provider/contract.csv')

In [3]:
contract.head()

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65


In [4]:
contract.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
customerID          7043 non-null object
BeginDate           7043 non-null object
EndDate             7043 non-null object
Type                7043 non-null object
PaperlessBilling    7043 non-null object
PaymentMethod       7043 non-null object
MonthlyCharges      7043 non-null float64
TotalCharges        7043 non-null object
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


#### Вывод

Таблица не содержит пустых значений, не правильный тип у следующих полей:
- BeginDate - date
- EndDate - date
- TotalCharges - float

### Замена типа данных

#### Поле TotalCharges

In [5]:
contract['TotalCharges'] = contract['TotalCharges'].str.strip()

In [6]:
contract.loc[[488, 753,936,1082,1340]]

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
488,4472-LVYGI,2020-02-01,No,Two year,Yes,Bank transfer (automatic),52.55,
753,3115-CZMZD,2020-02-01,No,Two year,No,Mailed check,20.25,
936,5709-LVOEQ,2020-02-01,No,Two year,No,Mailed check,80.85,
1082,4367-NUYAO,2020-02-01,No,Two year,No,Mailed check,25.75,
1340,1371-DWPAZ,2020-02-01,No,Two year,No,Credit card (automatic),56.05,


In [7]:
contract['TotalCharges'] = pd.to_numeric(contract['TotalCharges'])

In [8]:
contract[contract['TotalCharges'].isna()].head()

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
488,4472-LVYGI,2020-02-01,No,Two year,Yes,Bank transfer (automatic),52.55,
753,3115-CZMZD,2020-02-01,No,Two year,No,Mailed check,20.25,
936,5709-LVOEQ,2020-02-01,No,Two year,No,Mailed check,80.85,
1082,4367-NUYAO,2020-02-01,No,Two year,No,Mailed check,25.75,
1340,1371-DWPAZ,2020-02-01,No,Two year,No,Credit card (automatic),56.05,


##### Вывод

Замена типа не испортила данные, эти поля и были пустые 

#### Поле BeginDate

In [9]:
contract['BeginDate'] = pd.to_datetime(contract['BeginDate'], format='%Y-%m-%d')

#### Поле EndDate

In [10]:
contract['EndDate'] = contract['EndDate'].replace('No', np.nan)

In [11]:
contract['EndDate'] = pd.to_datetime(contract['EndDate'], format='%Y-%m-%d %H:%M:%S')

#### Вывод

In [12]:
contract.head()

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,NaT,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,NaT,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,NaT,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01,Month-to-month,Yes,Electronic check,70.7,151.65


In [13]:
contract.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
customerID          7043 non-null object
BeginDate           7043 non-null datetime64[ns]
EndDate             1869 non-null datetime64[ns]
Type                7043 non-null object
PaperlessBilling    7043 non-null object
PaymentMethod       7043 non-null object
MonthlyCharges      7043 non-null float64
TotalCharges        7032 non-null float64
dtypes: datetime64[ns](2), float64(2), object(4)
memory usage: 440.3+ KB


Замена типов произведена корректно 

In [14]:
============================================================

SyntaxError: invalid syntax (<ipython-input-14-b6af01ee3de8>, line 1)

### Расчет периода 

In [None]:
contract['BeginDate'].min()

In [None]:
contract['EndDate'].min()

## Таблица personal

In [None]:
personal = pd.read_csv('/datasets/final_provider/personal.csv')

In [None]:
personal.head()

In [None]:
personal.info()

## Таблица internet

In [None]:
internet = pd.read_csv('/datasets/final_provider/internet.csv')

In [None]:
internet.head()

In [None]:
internet.info()

## Таблица phone

In [None]:
phone = pd.read_csv('/datasets/final_provider/phone.csv')

In [None]:
phone.head()

In [None]:
phone.info()