### 1. Compreensão Inicial dos Dados


#### Passo 1: Carregar os Dados


In [1]:
import pandas as pd

# Substitua 'caminho_do_arquivo.csv' pelo nome do seu arquivo
data = pd.read_csv('../data/br_seeg_emissoes_brasil.csv')

# Verificar as primeiras linhas do dataset
print(data.head())


    ano       nivel_1           nivel_2  nivel_3 nivel_4  nivel_5 nivel_6  \
0  1970  Agropecuária  Cultivo do Arroz  Diretas  Outros  Vegetal   Arroz   
1  1971  Agropecuária  Cultivo do Arroz  Diretas  Outros  Vegetal   Arroz   
2  1972  Agropecuária  Cultivo do Arroz  Diretas  Outros  Vegetal   Arroz   
3  1973  Agropecuária  Cultivo do Arroz  Diretas  Outros  Vegetal   Arroz   
4  1974  Agropecuária  Cultivo do Arroz  Diretas  Outros  Vegetal   Arroz   

  tipo_emissao      gas atividade_economica produto    emissao  
0      Emissão  CH4 (t)                 NaN     NaN  230462.17  
1      Emissão  CH4 (t)                 NaN     NaN  226016.30  
2      Emissão  CH4 (t)                 NaN     NaN  220101.20  
3      Emissão  CH4 (t)                 NaN     NaN  214195.56  
4      Emissão  CH4 (t)                 NaN     NaN  186862.84  


#### Passo 2: Examinar a Estrutura dos Dados
Analise a estrutura básica:

Dimensões do dataset: data.shape

Tipos de variáveis: data.info()

Estatísticas descritivas: data.describe()


In [3]:
print(data.shape)
print(data.info())
print(data.describe())

(454850, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 454850 entries, 0 to 454849
Data columns (total 12 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   ano                  454850 non-null  int64  
 1   nivel_1              454850 non-null  object 
 2   nivel_2              454850 non-null  object 
 3   nivel_3              454850 non-null  object 
 4   nivel_4              454850 non-null  object 
 5   nivel_5              454850 non-null  object 
 6   nivel_6              454850 non-null  object 
 7   tipo_emissao         454850 non-null  object 
 8   gas                  454850 non-null  object 
 9   atividade_economica  453100 non-null  object 
 10  produto              268100 non-null  object 
 11  emissao              406325 non-null  float64
dtypes: float64(1), int64(1), object(10)
memory usage: 41.6+ MB
None
                 ano       emissao
count  454850.000000  4.063250e+05
mean     1994.500000  1

### 2. Análise Exploratória (EDA)


#### Passo 3: Identificar Tipos de Variáveis
Verifique quais variáveis são numéricas, categóricas ou booleanas.

Crie listas separadas para cada tipo de variável:

In [4]:
numerical_features = data.select_dtypes(include=['float64', 'int64']).columns
categorical_features = data.select_dtypes(include=['object']).columns

print("Variáveis Numéricas:", numerical_features)
print("Variáveis Categóricas:", categorical_features)


Variáveis Numéricas: Index(['ano', 'emissao'], dtype='object')
Variáveis Categóricas: Index(['nivel_1', 'nivel_2', 'nivel_3', 'nivel_4', 'nivel_5', 'nivel_6',
       'tipo_emissao', 'gas', 'atividade_economica', 'produto'],
      dtype='object')


#### Passo 4: Visualizar Distribuições
Use histogramas e boxplots para analisar a distribuição das variáveis numéricas:




In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Exemplo: Histograma para uma variável numérica
sns.histplot(data['emissao'], kde=True)
plt.title('Distribuição da Variável')
plt.show()

# Exemplo: Boxplot para detectar outliers
sns.boxplot(x=data['gas'])
plt.title('Boxplot da Variável')
plt.show()


KeyboardInterrupt: 

Para variáveis categóricas, visualize contagens:



In [None]:
sns.countplot(x=data['nome_variavel_categorica'])
plt.title('Contagem por Categoria')
plt.show()


### 3. Tratamento de Dados Faltantes


#### Passo 5: Identificar Valores Ausentes


In [None]:
print(data.isnull().sum())


#### Passo 6: Estratégias de Tratamento


Preenchimento com média ou mediana (para variáveis numéricas):



In [None]:
data['nome_variavel'] = data['nome_variavel'].fillna(data['nome_variavel'].mean())


Remover colunas ou linhas com muitos valores nulos:



In [None]:
data = data.dropna(axis=1)  # Remove colunas com valores nulos


### 4. Detecção e Tratamento de Outliers


#### Passo 7: Aplicar o Método IQR
Utilize o Interquartile Range (IQR) para detectar outliers:



In [None]:
Q1 = data['nome_variavel'].quantile(0.25)
Q3 = data['nome_variavel'].quantile(0.75)
IQR = Q3 - Q1

# Definir limites para outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrar valores dentro dos limites
data_filtered = data[(data['nome_variavel'] >= lower_bound) & (data['nome_variavel'] <= upper_bound)]


### 5. Correlações Entre Variáveis


#### Passo 8: Calcular Matriz de Correlação
Identifique relações entre variáveis numéricas:

In [None]:
correlation_matrix = data.corr()

# Visualizar a matriz de correlação como um heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()


Remova variáveis redundantes ou com alta multicolinearidade.

