In [1]:
import pandas as  pd
import snappy

source_file = '../../Data/Raw/intervencao_eqp.csv'
save_file = '../../Data/Processed/intervencao_eqp.parquet'


### 1. Coletando informações básicas sobre o DataFrame

#### <span style="color:blue"> 1.1 Formato do DataFrame </span>

In [2]:
dataframe = pd.read_csv(source_file, sep=',',encoding = "utf-8")
#ISO-8859-1

if (dataframe.empty) :
    print('DATAFRAME VAZIO')
else:
  print('shape:', dataframe.shape)
  print('columns:', dataframe.columns)
   

shape: (268195, 2)
columns: Index(['CLASSE', 'TEXTO'], dtype='object')


#### <span style="color:blue"> 1.2 Quantidade de valores não nulos </span>

In [3]:
dataframe.count()

CLASSE    268195
TEXTO     268194
dtype: int64

#### <span style="color:blue"> 1.3 Valores nulos </span>

In [4]:
dataframe.isnull().sum()

CLASSE    0
TEXTO     1
dtype: int64

#### <span style="color:blue"> 1.4 "*Visão*" dos dados do Dataframe. </span>

In [5]:
dataframe.head(6)

Unnamed: 0,CLASSE,TEXTO
0,NEG,RETIRAR DA REDE ELETRONORTE O PROTOCOLO OSPF ...
1,POS,INSTALAÇÃO E COMISSIONAMENTO DE TPC TR02.
2,POS,INSTALAÇÃO E COMISSIONAMENTO DE TPC TR02.
3,NEG,INSTALAÇÃO E COMISSIONAMENTO DE TPC TR02.
4,POS,INTERLIGAÇÃO DE PAINÉIS DE PROTEÇÃO E CONTROL...
5,POS,ALTERAÇÃO DA LIGAÇÃO DO SECUNDÁRIO DO TC 230 ...


### 2 Resumo Estatístico da cadeia de caracteres

#### <span style="color:blue"> 2.1 Resumo sobre as colunas </span>

In [6]:
dataframe.describe(include='all')

Unnamed: 0,CLASSE,TEXTO
count,268195,268194
unique,2,266849
top,POS,SUBSTITUIR ISOLADORES E FERRAGENS OXIDADAS.
freq,179539,4


#### <span style="color:blue"> 2.2. Variável Alvo </span>

In [7]:
dataframe.groupby('CLASSE').count()

Unnamed: 0_level_0,TEXTO
CLASSE,Unnamed: 1_level_1
NEG,88656
POS,179538


#### <span style="color:blue"> 2.3. Variáveis Preditoras </span>

In [8]:
dataframe.TEXTO.str.len().describe()

count    268194.000000
mean        125.147423
std         118.688098
min           1.000000
25%          63.000000
50%          94.000000
75%         145.000000
max        2050.000000
Name: TEXTO, dtype: float64

### 3. Preparação dos Dados

#### <span style="color:blue">  3.1 Remover linhas com valores null em qualquer coluna </span>

In [9]:
#dataframe=dataframe.dropna(subset=['TEXTO'])
dataframe = dataframe.dropna()
dataframe.isnull().sum()

CLASSE    0
TEXTO     0
dtype: int64

In [10]:
dataframe.count()

CLASSE    268194
TEXTO     268194
dtype: int64

#### <span style="color:blue">  3.2 Existem valores duplicatos ? </span>

In [11]:
dp=dataframe.duplicated(subset=['CLASSE','TEXTO'])
dp

0         False
1         False
2          True
3         False
4         False
          ...  
268190    False
268191    False
268192    False
268193    False
268194    False
Length: 268194, dtype: bool

#### <span style="color:blue"> 3.3 Remover Duplicatas </spam>

In [12]:
dataframe = dataframe.drop_duplicates()

In [13]:
dataframe.count()

CLASSE    267318
TEXTO     267318
dtype: int64

### 4.**Exportar** Base de Dados parquet

In [14]:
dataframe.to_parquet(save_file, compression='snappy')