# Análise e Limpeza de Dados de Telecomunicações com Python

## Instalando e Importando Pacotes.

In [1]:
# Instala o pacote watermark. Utilizado para obter informações sobre as versões de outros pacotes utilizados neste Jupyter Notebook.
# https://pypi.org/project/watermark/
%pip install -q watermark

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Carrega o pacote watermark como um comando mágico no Jupyter Notebook.
%load_ext watermark

In [3]:
# Importa pacotes necessários para esse projeto.

# Manipulação de dados.
import pandas as pd
import numpy as np

# Manipulação do sistema operacional.
import sys, os

#Manipulação matemática.
import math

In [4]:
# Adiciona cleaning_strategies à lista de caminhos de pesquisa de módulos.
sys.path.append('cleaning_strategies')

# Importa as estratégias de limpeza necessárias para esse projeto.
from strategy_one import *
from strategy_two import *
from strategy_three import *

In [5]:
# Versão do Python e de todos os pacotes importados neste projeto.
%watermark -a "Samuel G. Ribeiro" -gu "sgribeiro" --python --iversions --watermark

Author: Samuel G. Ribeiro

Github username: sgribeiro

Python implementation: CPython
Python version       : 3.9.7
IPython version      : 7.29.0

pandas: 1.3.4
numpy : 1.20.3
sys   : 3.9.7 (default, Sep 16 2021, 16:59:28) [MSC v.1916 64 bit (AMD64)]

Watermark: 2.3.1



## Análise Exploratória de Dados

### Carregando o dicionário e o conjunto de dados

In [6]:
# Carrega o dicionário dos dados como um Dataframe do pandas.
dictionary = pd.read_excel("dataset/dictionary.xlsx")

In [7]:
#Carrega o dataset como um Dataframe do pandas.
dataset = pd.read_csv('dataset/dataset.csv', na_values = ["n/a", "na", "undefined"])

### Informações Gerais

In [8]:
# Amostra dos dados. Primeiras cinco linhas do dicionário dos dados.
dictionary.head()

Unnamed: 0,Fields,Description
0,bearer id,xDr session identifier
1,Dur. (ms),Total Duration of the xDR (in ms)
2,Start,Start time of the xDR (first frame timestamp)
3,Start ms,Milliseconds offset of start time for the xDR ...
4,End,End time of the xDR (last frame timestamp)


In [9]:
# Amostra dos dados. Primeiras cinco linhas do conjunto de dados.
dataset.head()

Unnamed: 0,Bearer Id,Start,Start ms,End,End ms,Dur. (ms),IMSI,MSISDN/Number,IMEI,Last Location Name,...,Youtube DL (Bytes),Youtube UL (Bytes),Netflix DL (Bytes),Netflix UL (Bytes),Gaming DL (Bytes),Gaming UL (Bytes),Other DL (Bytes),Other UL (Bytes),Total UL (Bytes),Total DL (Bytes)
0,1.311448e+19,4/4/2019 12:01,770.0,4/25/2019 14:35,662.0,1823652.0,208201400000000.0,33664960000.0,35521210000000.0,9.16456699548519E+015,...,15854611.0,2501332.0,8198936.0,9656251.0,278082303.0,14344150.0,171744450.0,8814393.0,36749741.0,308879636.0
1,1.311448e+19,4/9/2019 13:04,235.0,4/25/2019 8:15,606.0,1365104.0,208201900000000.0,33681850000.0,35794010000000.0,L77566A,...,20247395.0,19111729.0,18338413.0,17227132.0,608750074.0,1170709.0,526904238.0,15055145.0,53800391.0,653384965.0
2,1.311448e+19,4/9/2019 17:42,1.0,4/25/2019 11:58,652.0,1361762.0,208200300000000.0,33760630000.0,35281510000000.0,D42335A,...,19725661.0,14699576.0,17587794.0,6163408.0,229584621.0,395630.0,410692588.0,4215763.0,27883638.0,279807335.0
3,1.311448e+19,4/10/2019 0:31,486.0,4/25/2019 7:36,171.0,1321509.0,208201400000000.0,33750340000.0,35356610000000.0,T21824A,...,21388122.0,15146643.0,13994646.0,1097942.0,799538153.0,10849722.0,749039933.0,12797283.0,43324218.0,846028530.0
4,1.311448e+19,4/12/2019 20:10,565.0,4/25/2019 10:40,954.0,1089009.0,208201400000000.0,33699800000.0,35407010000000.0,D88865A,...,15259380.0,18962873.0,17124581.0,415218.0,527707248.0,3529801.0,550709500.0,13910322.0,38542814.0,569138589.0


In [10]:
# Visualização dos tipos de dados do Dataframe.
dictionary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Fields       56 non-null     object
 1   Description  56 non-null     object
dtypes: object(2)
memory usage: 1.0+ KB


In [11]:
# Visualização dos tipos de dados do Dataframe.
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150001 entries, 0 to 150000
Data columns (total 55 columns):
 #   Column                                    Non-Null Count   Dtype  
---  ------                                    --------------   -----  
 0   Bearer Id                                 149010 non-null  float64
 1   Start                                     150000 non-null  object 
 2   Start ms                                  150000 non-null  float64
 3   End                                       150000 non-null  object 
 4   End ms                                    150000 non-null  float64
 5   Dur. (ms)                                 150000 non-null  float64
 6   IMSI                                      149431 non-null  float64
 7   MSISDN/Number                             148935 non-null  float64
 8   IMEI                                      149429 non-null  float64
 9   Last Location Name                        148848 non-null  object 
 10  Avg RTT DL (ms)     

In [12]:
# Descreve os dados numéricos do conjunto de dados.
dataset.describe()

Unnamed: 0,Bearer Id,Start ms,End ms,Dur. (ms),IMSI,MSISDN/Number,IMEI,Avg RTT DL (ms),Avg RTT UL (ms),Avg Bearer TP DL (kbps),...,Youtube DL (Bytes),Youtube UL (Bytes),Netflix DL (Bytes),Netflix UL (Bytes),Gaming DL (Bytes),Gaming UL (Bytes),Other DL (Bytes),Other UL (Bytes),Total UL (Bytes),Total DL (Bytes)
count,149010.0,150000.0,150000.0,150000.0,149431.0,148935.0,149429.0,122172.0,122189.0,150000.0,...,150001.0,150001.0,150001.0,150001.0,150001.0,150001.0,150001.0,150001.0,150000.0,150000.0
mean,1.013887e+19,499.1882,498.80088,104608.6,208201600000000.0,41882820000.0,48474550000000.0,109.795706,17.662883,13300.045927,...,11634070.0,11009410.0,11626850.0,11001750.0,422044700.0,8288398.0,421100500.0,8264799.0,41121210.0,454643400.0
std,2.893173e+18,288.611834,288.097653,81037.62,21488090000.0,2447443000000.0,22416370000000.0,619.782739,84.793524,23971.878541,...,6710569.0,6345423.0,6725218.0,6359490.0,243967500.0,4782700.0,243205000.0,4769004.0,11276390.0,244142900.0
min,6.917538e+18,0.0,0.0,7142.0,204047100000000.0,33601000000.0,440015200000.0,0.0,0.0,0.0,...,53.0,105.0,42.0,35.0,2516.0,59.0,3290.0,148.0,2866892.0,7114041.0
25%,7.349883e+18,250.0,251.0,57440.5,208201400000000.0,33651300000.0,35460710000000.0,32.0,2.0,43.0,...,5833501.0,5517965.0,5777156.0,5475981.0,210473300.0,4128476.0,210186900.0,4145943.0,33222010.0,243106800.0
50%,7.349883e+18,499.0,500.0,86399.0,208201500000000.0,33663710000.0,35722010000000.0,45.0,5.0,63.0,...,11616020.0,11013450.0,11642220.0,10996380.0,423408100.0,8291208.0,421803000.0,8267071.0,41143310.0,455841100.0
75%,1.304243e+19,749.0,750.0,132430.2,208201800000000.0,33683490000.0,86119700000000.0,70.0,15.0,19710.75,...,17448520.0,16515560.0,17470480.0,16507270.0,633174200.0,12431620.0,631691800.0,12384150.0,49034240.0,665705500.0
max,1.318654e+19,999.0,999.0,1859336.0,214074300000000.0,882397100000000.0,99001200000000.0,96923.0,7120.0,378160.0,...,23259100.0,22011960.0,23259190.0,22011960.0,843441900.0,16558790.0,843442500.0,16558820.0,78331310.0,902969600.0


Não é relevante calcular estatísticas descritivas para **Beared Id**, **IMSI**, **MSISDN/Number** e **IMEI**. No entanto, o método *describe()* calcula as estatísticas de todas as colunas que interpretador da linguagem Python classifica como numéricas. É importante lembrar que essas estatísticas são calculadas antes que os dados sejam limpos, o que pode levar a mudanças nos resultados após o tratamento de valores ausentes e outliers.

In [13]:
# Quantidade de linhas e colunas do dicionário dos dados.
rows, columns = dictionary.shape
print(f"Linhas: {rows}\nColunas: {columns}")

Linhas: 56
Colunas: 2


In [14]:
# Quantidade de linhas e colunas do conjunto de dados.
rows, columns = dataset.shape
print(f"Linhas: {rows}\nColunas: {columns}")

Linhas: 150001
Colunas: 55


O dataframe contém 55 colunas, enquanto o dicionário que o descreve contém 56 linhas com as respectivas informações de cada coluna. Portanto, há uma coluna descrita no dicionário que não está presente no dataframe. Vamos determinar qual é essa coluna ausente.

In [15]:
pd.DataFrame({'Dataset Columns':pd.Series(dataset.columns), 'Dictionary Columns':dictionary['Fields']})

Unnamed: 0,Dataset Columns,Dictionary Columns
0,Bearer Id,bearer id
1,Start,Dur. (ms)
2,Start ms,Start
3,End,Start ms
4,End ms,End
5,Dur. (ms),End ms
6,IMSI,Dur. (s)
7,MSISDN/Number,IMSI
8,IMEI,MSISDN/Number
9,Last Location Name,IMEI


A coluna **Dur. (ms)**, no índice 1 do dicionário, não está presente no dataset. No entanto, no índice 5 do dataset, há uma coluna com o mesmo nome. Já no dicionário, essa coluna aparece no índice 6 como **Dur. (s)**. Como as medidas de ambas as colunas diferem conforme mostrado em seus nomes, é necessário verificar qual nome de coluna está correto. Para investigar isso, podemos usar a coluna **Dur. (ms).1**, que se encontra nos índices 28 e 29 no dataset e no arquivo de dicionário, respectivamente.

In [16]:
dataset[['Dur. (ms)', 'Dur. (ms).1']]

Unnamed: 0,Dur. (ms),Dur. (ms).1
0,1823652.0,1.823653e+09
1,1365104.0,1.365104e+09
2,1361762.0,1.361763e+09
3,1321509.0,1.321510e+09
4,1089009.0,1.089009e+09
...,...,...
149996,81230.0,8.123076e+07
149997,97970.0,9.797070e+07
149998,98249.0,9.824953e+07
149999,97910.0,9.791063e+07


Apesar da nomeclatura é possível visualizar que **Dur. (ms)** na verdade está medido em segundos. Portanto, vamos renomeá-la adequadamente para **Dur. (s)**. Além disso, podemos renomear algumas das outras colunas para que fiquem mais claras em relação à sua descrição e sigam o estilo de nomenclatura das demais colunas.

In [17]:
# Renomeia colunas
dataset.rename(columns = {'Dur. (ms)': 'Dur (s)', 
                          'Dur. (ms).1': 'Dur (ms)', 
                          'Start ms': 'Start Offset (ms)', 
                          'End ms': 'End Offset (ms)'}, 
               inplace = True)

In [18]:
# Colunas do conjunto de dados.
dataset.columns

Index(['Bearer Id', 'Start', 'Start Offset (ms)', 'End', 'End Offset (ms)',
       'Dur (s)', 'IMSI', 'MSISDN/Number', 'IMEI', 'Last Location Name',
       'Avg RTT DL (ms)', 'Avg RTT UL (ms)', 'Avg Bearer TP DL (kbps)',
       'Avg Bearer TP UL (kbps)', 'TCP DL Retrans. Vol (Bytes)',
       'TCP UL Retrans. Vol (Bytes)', 'DL TP < 50 Kbps (%)',
       '50 Kbps < DL TP < 250 Kbps (%)', '250 Kbps < DL TP < 1 Mbps (%)',
       'DL TP > 1 Mbps (%)', 'UL TP < 10 Kbps (%)',
       '10 Kbps < UL TP < 50 Kbps (%)', '50 Kbps < UL TP < 300 Kbps (%)',
       'UL TP > 300 Kbps (%)', 'HTTP DL (Bytes)', 'HTTP UL (Bytes)',
       'Activity Duration DL (ms)', 'Activity Duration UL (ms)', 'Dur (ms)',
       'Handset Manufacturer', 'Handset Type',
       'Nb of sec with 125000B < Vol DL',
       'Nb of sec with 1250B < Vol UL < 6250B',
       'Nb of sec with 31250B < Vol DL < 125000B',
       'Nb of sec with 37500B < Vol UL',
       'Nb of sec with 6250B < Vol DL < 31250B',
       'Nb of sec with 6250B 

## Estratégias de Limpeza

### 01 - Tratamento de Valores Ausentes

In [19]:
help(percent_missing)

Help on function percent_missing in module strategy_one:

percent_missing(DataFrame)
    Calculates the percentage of missing values in a pandas DataFrame.
    
    Parameters:
    DataFrame: pandas DataFrame - The DataFrame to be analyzed.
    
    Returns:
    string - A string containing the percentage of missing values in the DataFrame.
    
    Example:
    >>> df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [3, np.nan, np.nan], 'C': [4, 5, 6]})
    >>> percent_missing(df)
    '33.33%'



In [20]:
# Verifica o percentual de valores ausentes
percent_missing(dataset)

'12.72%'

In [None]:
columns_percent_missing(dataset)