### Limpeza e preparação dos dados

Primeiro, a planilha foi carregada no Python e identificou-se que o cabeçalho estava incorreto, a linha de títulos não correspondia aos nomes das colunas. Para corrigir, a segunda linha do arquivo foi definida como o novo cabeçalho, a linha antiga foi removida e os índices foram reajustados.

Em seguida, várias colunas estavam formatadas como texto. Para identificar quais poderiam ser tratadas como numéricas, foi testada a conversão de cada coluna e calculado o percentual de valores inválidos. As colunas com menos de 5% de falha foram classificadas como numéricas e convertidas automaticamente.

Essa etapa organizou a estrutura da base, padronizou tipos de dados e deixou o conjunto pronto para análises estatísticas mais confiáveis nas próximas fases.

In [None]:
import pandas as pd

file = "teste1-analise.xlsx"

df = pd.read_excel(file)

df.head()


Unnamed: 0.1,Unnamed: 0,LOCALIZAÇÃO,Unnamed: 2,CARACTERIZAÇÃO,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50,SATISFAÇÃO GERAL,PREÇO,Unnamed: 53
0,ESTADO,MUNICÍPIO,REGIONAL,Com qual gênero você se identifica?,Qual é a sua idade?,Qual é o seu grau de escolaridade?,Quantas pessoas vivem na sua casa?,Qual a renda mensal da sua família?,Faixa Renda,Renda Per Capita,...,A EMPRESA DE ENERGIA investe na melhoria da qu...,A EMPRESA DE ENERGIA comunica aos seus consumi...,"De 1 a 10, a EMPRESA DE ENERGIA combate o cons...",A EMPRESA DE ENERGIA fornece atendimentos sem ...,A EMPRESA DE ENERGIA está disposta a negociar ...,A EMPRESA DE ENERGIA cuida do meio ambiente?,A EMPRESA DE ENERGIA é uma empresa preparada o...,Pensando em tudo o que nós falamos até aqui e ...,Quanto mais ou menos você paga por mês em sua ...,Como você considera o valor da conta de energi...
1,ALAGOAS,ARAPIRACA,OESTE,Feminino,Acima de 60,Superior completo,3,5000,De 4501 a 5000,1666.666667,...,5,5,1,5,1,5,1,5,310,5
2,ALAGOAS,ARAPIRACA,OESTE,Feminino,51 - 60,Médio completo,2,1800,De 1501 a 2000,900,...,2,1,2,5,3,2,3,2,313,1
3,ALAGOAS,ARAPIRACA,OESTE,Masculino,31 - 40,Analfabeto,8,7733.333333,Acima de 5000,966.666667,...,3,4,4,2,4,2,2,2,459,3
4,ALAGOAS,ARAPIRACA,OESTE,Masculino,Acima de 60,Médio completo,3,1500,De 601 a 1500,500,...,8,2,4,2,1,4,5,5,386,3


In [None]:
novo_header = df.iloc[0]

df = df[1:]

df.columns = novo_header

df = df.reset_index(drop=True)

df.head()


Unnamed: 0,ESTADO,MUNICÍPIO,REGIONAL,Com qual gênero você se identifica?,Qual é a sua idade?,Qual é o seu grau de escolaridade?,Quantas pessoas vivem na sua casa?,Qual a renda mensal da sua família?,Faixa Renda,Renda Per Capita,...,"A EMPRESA DE ENERGIA investe na melhoria da qualidade do fornecimento de energia, ou seja, investe em melhorias do fornecimento de energia, como por exemplo, faz manutenção em transformadores, em fios, em postes etc?",A EMPRESA DE ENERGIA comunica aos seus consumidores sobre a sua atuação e atividades realizadas? (Nota de 1 até 10),"De 1 a 10, a EMPRESA DE ENERGIA combate o consumo irregular da energia elétrica, por exemplo fraudes como gatos, furto de energia etc?",A EMPRESA DE ENERGIA fornece atendimentos sem discriminação ou imparcialidade?,"A EMPRESA DE ENERGIA está disposta a negociar com seus clientes, como por exemplo em parcelamento de faturas?",A EMPRESA DE ENERGIA cuida do meio ambiente?,"A EMPRESA DE ENERGIA é uma empresa preparada organizada para atender casos de emergência (enchentes, deslizamentos de terra, incêndio, tempestades muito fortes com muito vento)?","Pensando em tudo o que nós falamos até aqui e pensando em uma escala de satisfação de 1 até 10, qual é o seu grau de satisfação geral em relação à EMPRESA DE ENERGIA?",Quanto mais ou menos você paga por mês em sua conta de luz?,"Como você considera o valor da conta de energia de 1 a 5, onde 1 é muito caro, 3 normal e 5 muito barato?"
0,ALAGOAS,ARAPIRACA,OESTE,Feminino,Acima de 60,Superior completo,3,5000.0,De 4501 a 5000,1666.666667,...,5,5,1,5,1,5,1,5,310,5
1,ALAGOAS,ARAPIRACA,OESTE,Feminino,51 - 60,Médio completo,2,1800.0,De 1501 a 2000,900.0,...,2,1,2,5,3,2,3,2,313,1
2,ALAGOAS,ARAPIRACA,OESTE,Masculino,31 - 40,Analfabeto,8,7733.333333,Acima de 5000,966.666667,...,3,4,4,2,4,2,2,2,459,3
3,ALAGOAS,ARAPIRACA,OESTE,Masculino,Acima de 60,Médio completo,3,1500.0,De 601 a 1500,500.0,...,8,2,4,2,1,4,5,5,386,3
4,ALAGOAS,ARAPIRACA,OESTE,Feminino,31 - 40,Fundamental completo,3,2100.0,De 2001 a 2500,700.0,...,6,5,3,5,2,1,2,6,489,2


In [70]:
df.dtypes


0
ESTADO                                                                                                                                                                                                                                                        object
MUNICÍPIO                                                                                                                                                                                                                                                     object
REGIONAL                                                                                                                                                                                                                                                      object
Com qual gênero você se identifica?                                                                                                                                                                                    

In [72]:
# Informações básicas do dataset
print("INFORMAÇÕES GERAIS DO DATASET")
print("\n")
print("Total de linhas:", df.shape[0])
print("Total de colunas:", df.shape[1])

print("\n")
print("VALORES AUSENTES")
print("\n")

missing = df.isnull().sum()
missing_percent = (df.isnull().sum() / len(df)) * 100

missing_df = pd.DataFrame({
    'Coluna': missing.index,
    'Missing': missing.values,
    'Percentual': missing_percent.values
})

missing_df = missing_df[missing_df['Missing'] > 0].sort_values('Missing', ascending=False)

if len(missing_df) > 0:
    print(missing_df.to_string(index=False))
else:
    print("Nenhum valor ausente encontrado")


INFORMAÇÕES GERAIS DO DATASET


Total de linhas: 400
Total de colunas: 57


VALORES AUSENTES


                                                                                                                                                                                                                                                  Coluna  Missing  Percentual
Caso sim, como você ficou sabendo que a falta de energia aconteceu por causa de um serviço de melhoria da rede elétrica que tinha sido programado pela EMPRESA DE ENERGIA? (Citar os possíveis canais para medir qual o meio de comunicação mais eficaz)      214        53.5
                                                                                                                                                                                                           De 1 a 10, como você avalia o aviso recebido?      214        53.5
                                                                                               

In [73]:
# Perfil demográfico
print("PERFIL DEMOGRAFICO DA AMOSTRA")
print("\n")

print("GENERO:")
print(df['Com qual gênero você se identifica?'].value_counts())
print("\n")

print("FAIXA ETARIA:")
print(df['Qual é a sua idade?'].value_counts().sort_index())
print("\n")

print("ESCOLARIDADE:")
print(df['Qual é o seu grau de escolaridade?'].value_counts())
print("\n")

print("DISTRIBUICAO GEOGRAFICA:")
print("Total de Estados:", df['ESTADO'].nunique())
print(df['ESTADO'].value_counts())



PERFIL DEMOGRAFICO DA AMOSTRA


GENERO:
Com qual gênero você se identifica?
Feminino     217
Masculino    183
Name: count, dtype: int64


FAIXA ETARIA:
Qual é a sua idade?
18 - 30         75
31 - 40        125
41 - 50         75
51 - 60         50
Acima de 60     75
Name: count, dtype: int64


ESCOLARIDADE:
Qual é o seu grau de escolaridade?
Médio completo                        140
Fundamental completo                   72
Superior completo                      69
Analfabeto                             48
Fundamental incompleto                 48
Pós Graduação/ Mestrado/ Doutorado     23
Name: count, dtype: int64


DISTRIBUICAO GEOGRAFICA:
Total de Estados: 4
ESTADO
ALAGOAS     100
MARANHÃO    100
PARÁ        100
PIAUÍ       100
Name: count, dtype: int64


In [74]:
# Análise de renda
print("ANALISE DE RENDA")
print("\n")

print("RENDA FAMILIAR - Estatísticas:")
print(df['Qual a renda mensal da sua família?'].describe())
print("\n")

print("DISTRIBUICAO POR FAIXA DE RENDA:")
print(df['Faixa Renda'].value_counts().sort_index())
print("\n")

print("RENDA PER CAPITA - Estatísticas:")
print(df['Renda Per Capita'].describe())
print("\n")

print("DISTRIBUICAO POR FAIXA RENDA PER CAPITA:")
print(df['Faixa Renda Per Capita'].value_counts())
print("\n")

print("COMPROMETIMENTO COM ENERGIA - Estatísticas:")
print(df['Comprometimento (%)'].describe())


ANALISE DE RENDA


RENDA FAMILIAR - Estatísticas:
count      400.000000
mean      3229.583333
std       1675.431371
min        600.000000
25%       2000.000000
50%       2666.666667
75%       4000.000000
max      10666.666667
Name: Qual a renda mensal da sua família?, dtype: float64


DISTRIBUICAO POR FAIXA DE RENDA:
Faixa Renda
Até 600            4
De 601 a 1500     33
De 1501 a 2000    71
De 2001 a 2500    68
De 2501 a 3000    56
De 3001 a 3500    32
De 3501 a 4000    53
De 4001 a 4500     5
De 4501 a 5000    33
Acima de 5000     45
Name: count, dtype: int64


RENDA PER CAPITA - Estatísticas:
count     400.000000
mean     1146.562500
std       760.489047
min       200.000000
25%       666.666667
50%       833.333333
75%      1333.333333
max      5000.000000
Name: Renda Per Capita, dtype: float64


DISTRIBUICAO POR FAIXA RENDA PER CAPITA:
Faixa Renda Per Capita
De 1001 a 1500    78
De 601 a 700      58
De 701 a 800      49
De 1501 a 2000    45
De 501 a 600      42
Acima de 2000     39

In [75]:
# Criando categorias de vulnerabilidade
print("ANALISE DE VULNERABILIDADE")
print("\n")

# Definir grupos vulneráveis
vulneravel_renda = df[df['Renda Per Capita'] <= 833]
alto_comprometimento = df[df['Comprometimento (%)'] > 10]

print("PESSOAS EM VULNERABILIDADE:")
print("Renda per capita ate R$ 833 (50% mais pobres):", len(vulneravel_renda))
print("Comprometimento acima de 10% (pobreza energetica):", len(alto_comprometimento))
print("\n")

# Cruzamento renda x escolaridade
print("RENDA PER CAPITA POR ESCOLARIDADE:")
print(df.groupby('Qual é o seu grau de escolaridade?')['Renda Per Capita'].agg(['mean', 'median', 'count']))
print("\n")

# Comprometimento por faixa de renda
print("COMPROMETIMENTO POR FAIXA DE RENDA:")
print(df.groupby('Faixa Renda')['Comprometimento (%)'].agg(['mean', 'median']))



ANALISE DE VULNERABILIDADE


PESSOAS EM VULNERABILIDADE:
Renda per capita ate R$ 833 (50% mais pobres): 193
Comprometimento acima de 10% (pobreza energetica): 229


RENDA PER CAPITA POR ESCOLARIDADE:
                                           mean       median  count
Qual é o seu grau de escolaridade?                                 
Analfabeto                           883.680556   733.333333     48
Fundamental completo                1051.851852   800.000000     72
Fundamental incompleto              1031.250000   800.000000     48
Médio completo                       882.202381   666.666667    140
Pós Graduação/ Mestrado/ Doutorado  1694.927536  1333.333333     23
Superior completo                   1862.077295  1500.000000     69


COMPROMETIMENTO POR FAIXA DE RENDA:
                     mean     median
Faixa Renda                         
Até 600         65.916667  70.750000
De 601 a 1500   23.183761  22.600000
De 1501 a 2000  17.287056  16.166667
De 2001 a 2500  15.491695  15.350





In [76]:
# Análise de satisfação
print("ANALISE DE SATISFACAO GERAL")
print("\n")

print("ESTATISTICAS DA SATISFACAO GERAL:")
print(df['SATISFACAO_GERAL'].describe())
print("\n")

print("DISTRIBUICAO DAS NOTAS:")
print(df['SATISFACAO_GERAL'].value_counts().sort_index())
print("\n")

print("SATISFACAO POR FAIXA DE RENDA:")
print(df.groupby('Faixa Renda')['SATISFACAO_GERAL'].agg(['mean', 'median', 'count']))
print("\n")

print("SATISFACAO POR ESCOLARIDADE:")
print(df.groupby('Qual é o seu grau de escolaridade?')['SATISFACAO_GERAL'].agg(['mean', 'median']))



ANALISE DE SATISFACAO GERAL


ESTATISTICAS DA SATISFACAO GERAL:
count    400.000000
mean       5.570000
std        2.795467
min        1.000000
25%        3.000000
50%        5.000000
75%        8.000000
max       10.000000
Name: SATISFACAO_GERAL, dtype: float64


DISTRIBUICAO DAS NOTAS:
SATISFACAO_GERAL
1     41
2     33
3     32
4     30
5     65
6     46
7     36
8     42
9     34
10    41
Name: count, dtype: int64


SATISFACAO POR FAIXA DE RENDA:
                    mean  median  count
Faixa Renda                            
Até 600         6.750000     8.0      4
De 601 a 1500   5.333333     5.0     33
De 1501 a 2000  5.605634     6.0     71
De 2001 a 2500  5.573529     5.5     68
De 2501 a 3000  5.696429     5.0     56
De 3001 a 3500  5.968750     6.0     32
De 3501 a 4000  4.849057     5.0     53
De 4001 a 4500  6.200000     8.0      5
De 4501 a 5000  5.303030     5.0     33
Acima de 5000   6.111111     7.0     45


SATISFACAO POR ESCOLARIDADE:
                                  





In [77]:
# Análise de correlação - Dimensões de qualidade
import numpy as np

# Selecionar variáveis de qualidade (notas 1-10)
qualidade_cols = [
    'De 1 a 10, qual nota você dá para o fornecimento de energia sem interrupção, ou seja, não faltar luz na sua casa?',
    'De 1 a 10, que nota você dá para a variação da energia, ou seja, sem ficar alternando luz forte com luz fraca na sua casa?',
    'De 1 a 10, qual nota você atribui para a rapidez na volta da energia quando falta energia na sua casa, ou seja, o tempo que leva para a energia voltar, quando falta?'
]

# Calcular correlação com satisfação geral
print("CORRELACAO COM SATISFACAO GERAL - QUALIDADE DO FORNECIMENTO:")
print("\n")
for col in qualidade_cols:
    corr = df[col].corr(df['SATISFACAO_GERAL'])
    print(f"Correlacao: {corr:.3f}")
    print(f"Variavel: {col[:80]}...")
    print("\n")

# Médias por dimensão
print("MEDIAS DAS NOTAS DE QUALIDADE:")
print(df[qualidade_cols].mean())


CORRELACAO COM SATISFACAO GERAL - QUALIDADE DO FORNECIMENTO:


Correlacao: 0.069
Variavel: De 1 a 10, qual nota você dá para o fornecimento de energia sem interrupção, ou ...


Correlacao: -0.016
Variavel: De 1 a 10, que nota você dá para a variação da energia, ou seja, sem ficar alter...


Correlacao: 0.041
Variavel: De 1 a 10, qual nota você atribui para a rapidez na volta da energia quando falt...


MEDIAS DAS NOTAS DE QUALIDADE:
0
De 1 a 10, qual nota você dá para o fornecimento de energia sem interrupção, ou seja, não faltar luz na sua casa?                                                        6.5000
De 1 a 10, que nota você dá para a variação da energia, ou seja, sem ficar alternando luz forte com luz fraca na sua casa?                                               5.6250
De 1 a 10, qual nota você atribui para a rapidez na volta da energia quando falta energia na sua casa, ou seja, o tempo que leva para a energia voltar, quando falta?    6.7475
dtype: float64
