# Notebook di preparazione

In [1]:
!pip install pandas
!pip install sklearn



In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

Ispezioniamo il dataset:

In [3]:
origin_path = "./Telco-Customer-Churn.partial.csv"

data = pd.read_csv(origin_path)

pd.set_option("max_columns", None)
data.head(10)

Unnamed: 0,Churn,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,No,4223-BKEOR,Female,0,No,Yes,21,Yes,No,DSL,Yes,No,Yes,No,No,Yes,One year,No,Mailed check,64.85,1336.8
1,No,6035-RIIOM,Female,0,No,No,54,Yes,Yes,Fiber optic,No,Yes,No,No,Yes,Yes,Two year,Yes,Bank transfer (automatic),97.2,5129.45
2,Yes,3797-VTIDR,Male,0,Yes,No,1,No,No phone service,DSL,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,23.45,23.45
3,Yes,2568-BRGYX,Male,0,No,No,4,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.2,237.95
4,No,2775-SEFEE,Male,0,No,Yes,0,Yes,Yes,DSL,Yes,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
5,No,4291-SHSBH,Male,0,No,No,7,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,69.55,521.35
6,No,4635-EJYPD,Male,0,Yes,Yes,32,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,18.95,613.95
7,No,2607-DHDAK,Male,0,Yes,Yes,72,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.8,1414.65
8,Yes,5204-QZXPU,Male,0,No,No,19,No,No phone service,DSL,No,No,Yes,No,Yes,No,Month-to-month,Yes,Electronic check,39.65,733.35
9,No,0221-NAUXK,Male,0,No,Yes,10,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Bank transfer (automatic),19.95,219.5


È sicuramente più variegato e realistico rispetto a quello dei funghi. Gia dalle prime 10 righe si può vedere che alcune celle sono vuote (riga 4, TotalCharges), le colonne hanno tipi differenti.

In [4]:
non_categorical = ["customerID", "SeniorCitizen", "tenure", "MonthlyCharges", "TotalCharges"]
numerical = ["SeniorCitizen", "tenure", "MonthlyCharges", "TotalCharges"]
categorical = [col for col in data.columns if col not in non_categorical]

for col in categorical:
    print(col, pd.get_dummies(data[col]), "\n")

Churn       No  Yes
0      1    0
1      1    0
2      0    1
3      0    1
4      1    0
...   ..  ...
5629   0    1
5630   1    0
5631   1    0
5632   0    1
5633   1    0

[5634 rows x 2 columns] 

gender       Female  Male
0          1     0
1          1     0
2          0     1
3          0     1
4          0     1
...      ...   ...
5629       0     1
5630       1     0
5631       0     1
5632       0     1
5633       0     1

[5634 rows x 2 columns] 

Partner       No  Yes
0      1    0
1      1    0
2      0    1
3      1    0
4      1    0
...   ..  ...
5629   0    1
5630   0    1
5631   0    1
5632   1    0
5633   1    0

[5634 rows x 2 columns] 

Dependents       No  Yes
0      0    1
1      1    0
2      1    0
3      1    0
4      0    1
...   ..  ...
5629   1    0
5630   0    1
5631   0    1
5632   1    0
5633   1    0

[5634 rows x 2 columns] 

PhoneService       No  Yes
0      0    1
1      0    1
2      1    0
3      0    1
4      0    1
...   ..  ...
5629   0    1
563

Vediamo se e quanti valori nulli ci sono

In [5]:
for col in data.columns:
    print(col)
    print(data[col].isnull().sum(), "\n")

Churn
0 

customerID
0 

gender
0 

SeniorCitizen
0 

Partner
0 

Dependents
0 

tenure
0 

PhoneService
0 

MultipleLines
0 

InternetService
0 

OnlineSecurity
0 

OnlineBackup
0 

DeviceProtection
0 

TechSupport
0 

StreamingTV
0 

StreamingMovies
0 

Contract
0 

PaperlessBilling
0 

PaymentMethod
0 

MonthlyCharges
0 

TotalCharges
0 



Secondo questo output non ci sono valori nulli. In realtà noi abbiamo visto però che in (4, TotalCharges) è assente il valore numerico. Questo poiché i tipi sono stringhe. Quindi nel notebook di training bisognerà convertitrli in valori numerici ed eliminare i NaN.

In [6]:
data.loc[4,"TotalCharges"]

' '

## Split del dataset in train + valid e test

La ragione scelta per lo split è 70-15-15. Il 15% dei dati andrà nel file di test. L'85% dei dati andrà nel file di training. Pertanto nel file di training, la porzione di training sarà circa dell'82% mentre la porzione per il validation sarà del 18%

In [7]:
train_data, test_data = train_test_split(data, random_state=10, test_size=0.15)

path_train = './train.csv'
path_test = './test.csv'

train_data.to_csv(path_train, index=False)
test_data.to_csv(path_test, index=False)