# Eletricidade - Clusterização :

#### Marcio Carvalho

### Problema de negócio: 

##### Aneel - órgão regulador. Sabemos o consumo por estado, não conhecemos o perfil do cliente. Precisamos agrupar o perfil do cliente de acordo com o nível de consumo independe de onde eles moram, pois, queremos fazer uma atividade de marketing direcionada. Precisamos construir uma Máquina Preditiva (MP), a partir do consumo de energia de cliente. Agrupe os consumidores por similaridades, afim de compreender o comportamento dos clientes e sua relação com o consumo de energia (Simulação como se cada linha representasse vários clientes).

### Coleta:

https://archive.ics.uci.edu/dataset/235/individual+household+electric+power+consumption

### Dataset:
         
##### Este arquivo contém 2.075.259 medições coletadas em uma casa localizada em Sceaux (7km de Paris, França) entre dezembro de 2006 e novembro de 2010 (47 meses).

### Features:

1.data: Data no formato dd/mm/aaaa

2.time: hora no formato hh:mm:ss

3.global_active_power: potência ativa média global doméstica por minuto (em quilowatts)

4.global_reactive_power: potência reativa média global doméstica por minuto (em quilowatts)

5.tensão: tensão média por minuto (em volts)

6.global_intensity: intensidade de corrente média global por minuto doméstica (em amperes)

7.sub_metering_1: sub medição de energia nº 1 (em watt-hora de energia ativa). Corresponde à cozinha, contendo maioritariamente uma máquina de lavar louça, um forno e um micro-ondas (as placas não são eléctricas mas sim a gás).

8.sub_metering_2: sub medição de energia nº 2 (em watt-hora de energia ativa). Corresponde à lavandaria, contendo máquina de lavar roupa, máquina de secar roupa, frigorífico e luz.

9.sub_metering_3: sub medição de energia nº 3 (em watt-hora de energia ativa). Corresponde a um esquentador eléctrico e a um ar condicionado.


     

   

In [61]:
import pandas as pd
import numpy as np
import warnings
import datetime as dt
warnings.filterwarnings('ignore')

In [9]:
df = pd.read_table('../data/household_power_consumption.txt', sep=";")
df.columns = ['Data','Tempo','Potencia_ativa_total','Potencia_reativa_total','Tensao','Corrente_Total','Sub_area_cozinha','Sub_area_lavanderia','Sub_area_Aq_Ar']
df.head()

Unnamed: 0,Data,Tempo,Potencia_ativa_total,Potencia_reativa_total,Tensao,Corrente_Total,Sub_area_cozinha,Sub_area_lavanderia,Sub_area_Aq_Ar
0,16/12/2006,17:24:00,4.216,0.418,234.84,18.4,0.0,1.0,17.0
1,16/12/2006,17:25:00,5.36,0.436,233.63,23.0,0.0,1.0,16.0
2,16/12/2006,17:26:00,5.374,0.498,233.29,23.0,0.0,2.0,17.0
3,16/12/2006,17:27:00,5.388,0.502,233.74,23.0,0.0,1.0,17.0
4,16/12/2006,17:28:00,3.666,0.528,235.68,15.8,0.0,1.0,17.0


In [88]:
df_cop = df.copy()

In [89]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2075259 entries, 0 to 2075258
Data columns (total 9 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   Data                    object 
 1   Tempo                   object 
 2   Potencia_ativa_total    object 
 3   Potencia_reativa_total  object 
 4   Tensao                  object 
 5   Corrente_Total          object 
 6   Sub_area_cozinha        object 
 7   Sub_area_lavanderia     object 
 8   Sub_area_Aq_Ar          float64
dtypes: float64(1), object(8)
memory usage: 142.5+ MB


In [90]:
df_cop.isnull().sum()

Data                          0
Tempo                         0
Potencia_ativa_total          0
Potencia_reativa_total        0
Tensao                        0
Corrente_Total                0
Sub_area_cozinha              0
Sub_area_lavanderia           0
Sub_area_Aq_Ar            25979
dtype: int64

In [91]:
cat_esp = df.applymap(lambda x: '?' in str(x))
for coluna in cat_esp.columns:
    if cat_esp[coluna].any():
        try:
            df_cop[coluna] = df_cop[coluna].replace('?' , np.nan).astype(float)
            print(f'A coluna {coluna} contém pelo menos um ponto de interrogação.')
        except:
           continue
df_cop.info()

A coluna Potencia_ativa_total contém pelo menos um ponto de interrogação.
A coluna Potencia_reativa_total contém pelo menos um ponto de interrogação.
A coluna Tensao contém pelo menos um ponto de interrogação.
A coluna Corrente_Total contém pelo menos um ponto de interrogação.
A coluna Sub_area_cozinha contém pelo menos um ponto de interrogação.
A coluna Sub_area_lavanderia contém pelo menos um ponto de interrogação.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2075259 entries, 0 to 2075258
Data columns (total 9 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   Data                    object 
 1   Tempo                   object 
 2   Potencia_ativa_total    float64
 3   Potencia_reativa_total  float64
 4   Tensao                  float64
 5   Corrente_Total          float64
 6   Sub_area_cozinha        float64
 7   Sub_area_lavanderia     float64
 8   Sub_area_Aq_Ar          float64
dtypes: float64(7), object(2)
memory usage: 142.5+ MB


In [92]:
df_cop['Data']= pd.to_datetime(df_cop['Data'], format='%d/%m/%Y')
df_cop['Tempo']= pd.to_datetime(df_cop['Tempo'], format='%H:%M:%S')
df_cop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2075259 entries, 0 to 2075258
Data columns (total 9 columns):
 #   Column                  Dtype         
---  ------                  -----         
 0   Data                    datetime64[ns]
 1   Tempo                   datetime64[ns]
 2   Potencia_ativa_total    float64       
 3   Potencia_reativa_total  float64       
 4   Tensao                  float64       
 5   Corrente_Total          float64       
 6   Sub_area_cozinha        float64       
 7   Sub_area_lavanderia     float64       
 8   Sub_area_Aq_Ar          float64       
dtypes: datetime64[ns](2), float64(7)
memory usage: 142.5 MB


In [93]:
df_cop.isnull().sum()

Data                          0
Tempo                         0
Potencia_ativa_total      25979
Potencia_reativa_total    25979
Tensao                    25979
Corrente_Total            25979
Sub_area_cozinha          25979
Sub_area_lavanderia       25979
Sub_area_Aq_Ar            25979
dtype: int64