# **&#9776; DESAFIO VI**
---

# **:: Leitura Inicial**

<h4 align="justify">Para o Desafio 6, todos os grupos deverão realizar a leitura do texto abaixo como parte do momento de reflexão. Para acessar o conteúdo, clique no link disponibilizado a seguir.</h4>
<a href="https://cop.dol.com.br/amazonia/o-que-fazer-com-aquele-eletronico-que-nao-serve-mais/7682/" target="_blank">Saiba o que fazer com aquele eletrônico que não serve mais</a>

# **:: Contextualização do Desafio**

<h4 align="justify">A Amazônia é conhecida mundialmente por sua biodiversidade e pela importância vital para o equilíbrio climático do planeta. No entanto, para além do desmatamento e da poluição dos rios, existe uma ameaça crescente e silenciosa que também chega à região: o lixo eletrônico. Computadores, celulares, televisores, pilhas e baterias descartados de forma incorreta liberam metais pesados, como mercúrio, chumbo e cádmio, contaminando solo, rios e entrando na cadeia alimentar que sustenta populações inteiras.</h4>
<h4 align="justify">Esse problema não é exclusivo da Amazônia, mas ganha contornos mais graves no território amazônico, onde a logística de transporte e a ausência de infraestrutura adequada tornam o descarte ainda mais desafiador. Muitas vezes, equipamentos quebrados acabam abandonados em áreas urbanas, lixões ou até mesmo despejados em rios, ampliando os riscos ambientais e de saúde pública.</h4>
<h4 align="justify">Relatórios internacionais já apontam o Brasil como um dos maiores produtores de lixo eletrônico do mundo, com índices de reciclagem muito abaixo do ideal. Dentro desse cenário, o papel dos Tecnoguardas da Amazônia é analisar os dados disponíveis e propor soluções baseadas em evidências, que ajudem a transformar informação em ação prática para reduzir os danos ambientais.</h4>
<h4 align="justify">Para enfrentar esse desafio, vocês receberão uma base de dados fictícia inspirada em situações reais de descarte de lixo eletrônico na Amazônia. O dataset contém informações sobre diferentes tipos de eletrônicos descartados, suas origens, possíveis destinos, além de indicadores socioambientais. Porém, como ocorre na vida real, esses dados não estão limpos: há registros incompletos, duplicados, inconsistentes e com ruídos que dificultarão a análise.</h4>
<h4 align="justify">A missão exige que vocês usem todas as habilidades adquiridas no Bloco 4 – Manipulação e Visualização de Dados. Será necessário trabalhar com Pandas para explorar, tratar e transformar os dados; aplicar agrupamentos e agregações para identificar padrões relevantes; e utilizar bibliotecas de visualização como Matplotlib e Seaborn para comunicar insights de maneira clara e impactante.</h4>
<h4 align="justify">A dificuldade não estará apenas na manipulação dos dados, mas também em interpretar o que eles significam em termos ambientais e sociais. Como bons Tecnoguardas, vocês devem ser capazes de enxergar além dos números: perceber tendências, apontar riscos e até sugerir ações preventivas que poderiam ser aplicadas por governos, ONGs ou comunidades locais.</h4>
<h4 align="justify">O <b>Desafio 6 é um desafio de nível elevado</b> porque vai exigir resiliência, pensamento crítico e criatividade. Não será suficiente aplicar funções básicas de Pandas ou gerar gráficos simples. Vocês precisarão testar hipóteses, organizar relatórios visuais coerentes e lidar com a frustração de trabalhar com dados imperfeitos — exatamente como ocorre no mundo real da ciência de dados aplicada à sustentabilidade.</h4>
<h4 align="justify">Ao final, o objetivo é que cada equipe consiga <b>apresentar um diagnóstico robusto sobre o cenário do lixo eletrônico na Amazônia, baseado na base fornecida</b>. Esse diagnóstico deve se apoiar em análises exploratórias profundas, combinações de variáveis, comparações entre grupos e visualizações poderosas, capazes de sensibilizar qualquer tomador de decisão sobre a urgência de enfrentar o problema.</h4>

# **:: Estrutura da Base de Dados**

### A base fictícia conterá 150 instâncias com as seguintes variáveis:


**ID_Registro** – Identificador único

**Tipo_Eletronico** – Categoria do item (celular, computador, TV, bateria, etc.)

**Ano_Fabricacao** – Ano de fabricação do dispositivo

**Origem** – Origem do descarte (urbana, rural, industrial, governamental)

**Destino_Final** – Local de descarte (cooperativa, lixão, reciclagem formal, rio, aterro controlado)

**Peso_kg** – Peso aproximado do equipamento

**Nivel_Toxico** – Grau de toxicidade (baixo, médio, alto, crítico)

**Custo_Reciclagem_R$** – Estimativa de custo de reciclagem


Este notebook tem como objetivo realizar uma análise exploratória e descritiva do dataset `desafio6_lixo_eletronico.csv`, contendo informações sobre descarte de resíduos eletrônicos.


---

# **:: Base de Dados**

<h4 align="justify">O dataset está disponível para download através do link a seguir:</h4>
<h4 align="justify"><a DOWNLOAD href="https://drive.google.com/file/d/1mZI1yIT5yJUpw-TWi7du3NfOoaSdT7rt/view?usp=drive_link" target="_blank" download="desafio6_lixo_eletronico.csv">desafio6_lixo_eletronico.csv</a></h4>

## 1. Exploração Inicial dos Dados

<h4 align="justify">Carregue a base "desafio6_lixo_eletronico.csv" em um DataFrame do Pandas, faça uma análise exploratória (shape, tipos de variáveis, estatísticas descritivas) e apresente o total de valores ausentes e duplicados.</h4>

### 1.1 Load data

In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Leiura dos dados
path='/home/akel/PycharmProjects/I2A2/data/raw/'
file='desafio6_lixo_eletronico.csv'
df = pd.read_csv(path+file)
display(df.head())

Unnamed: 0,ID_Registro,Tipo_Eletronico,Ano_Fabricacao,Origem,Destino_Final,Peso_kg,Nivel_Toxico,Custo_Reciclagem_R$,Data_Descarte
0,1,Impressora,2006,Urbana,Aterro Controlado,30.95,Alto,122.38,2022-03-30 20:08:03.221476512
1,2,Bateria,2002,Urbana,Aterro Controlado,16.89,Alto,48.65,2021-07-14 10:37:51.140939584
2,3,Geladeira,2016,Governamental,Cooperativa,32.82,Baixo,165.25,2015-12-30 03:42:16.912751676
3,4,Impressora,2021,Governamental,Reciclagem Formal,19.33,Baixo,72.29,2022-07-12 14:20:08.053691264
4,5,TV,1997,Industrial,Lixão,34.11,Baixo,72.79,2020-01-16 17:04:25.771812064


### 1.2 Analise exploratoria Parte 1

In [23]:
# Informações sobre o shape dos dados
print("SHAPE DOS DADOS:")
print(f"Total de linhas: {df.shape[0]}")
print(f"Total de colunas: {df.shape[1]}")
print(f"Shape completo: {df.shape}")
print('\n' + '-'*50 + '\n')

# Informações sobre tipos de dados
print("  TIPOS DE DADOS:")
print(df.dtypes.to_frame('Data Type').to_markdown())
print('\n' + '-'*50 + '\n')

# Verificação linhas duplicadas
print("VERIFICAÇÃO DE DUPLICATAS:")
print(f"Existem duplicatas? {df.duplicated().any()}")
print(f"Total de duplicatas: {df.duplicated().sum()}")
print('\n' + '-'*50 + '\n')

# Verificação de valores nulos
print("VERIFICAÇÃO DE VALORES NULOS:")
print(f"Existem nulos? {df.isnull().any().any()}")
print(f"Total de nulos: {df.isnull().sum().sum()}")
print('\n')

# Detalhamento de nulos por coluna
print("  NULOS POR COLUNA:")
nulos_por_coluna = df.isnull().sum()
#nulos_por_coluna = nulos_por_coluna[nulos_por_coluna > 0]  # Mostra apenas colunas com nulos

#if len(nulos_por_coluna) > 0:
print(nulos_por_coluna.to_frame('Quantidade de Nulos').to_markdown())
#else:
#print("Nenhuma coluna possui valores nulos")
print('\n')

SHAPE DOS DADOS:
Total de linhas: 150
Total de colunas: 9
Shape completo: (150, 9)

--------------------------------------------------

  TIPOS DE DADOS:
|                     | Data Type   |
|:--------------------|:------------|
| ID_Registro         | int64       |
| Tipo_Eletronico     | object      |
| Ano_Fabricacao      | int64       |
| Origem              | object      |
| Destino_Final       | object      |
| Peso_kg             | float64     |
| Nivel_Toxico        | object      |
| Custo_Reciclagem_R$ | float64     |
| Data_Descarte       | object      |

--------------------------------------------------

VERIFICAÇÃO DE DUPLICATAS:
Existem duplicatas? False
Total de duplicatas: 0

--------------------------------------------------

VERIFICAÇÃO DE VALORES NULOS:
Existem nulos? True
Total de nulos: 75


  NULOS POR COLUNA:
|                     |   Quantidade de Nulos |
|:--------------------|----------------------:|
| ID_Registro         |                     0 |
| Tipo_Elet

## 2. Limpeza e Padronização
Identifique e trate valores inconsistentes (ex.: "reciclagem formal" e "Reciclagem Formal"), corrija erros de digitação e padronize todas as colunas categóricas. Em seguida, elimine duplicatas mantendo apenas registros válidos.

### 2.1 Padronização variaveis categoricas

In [24]:
# Padronização das variaveis categoricas
df['Tipo_Eletronico'] = df['Tipo_Eletronico'].str.lower()
df['Origem'] = df['Origem'].str.lower()
df['Destino_Final'] = df['Destino_Final'].str.lower()
df['Nivel_Toxico'] = df['Nivel_Toxico'].str.lower()

df['Origem']=df['Origem'].replace({'urbana': 'urbano'})

print(df['Tipo_Eletronico'].unique())
print(df['Origem'].unique())
print(df['Destino_Final'].unique())
print(df['Nivel_Toxico'].unique())

print("Existem duplicatas?", df.duplicated().any())


['impressora' 'bateria' 'geladeira' 'tv' nan 'computador' 'celular'
 'tablet']
['urbano' 'governamental' 'industrial' 'rural' nan]
['aterro controlado' 'cooperativa' 'reciclagem formal' 'lixão' nan 'rio']
['alto' 'baixo' 'médio' 'crítico']
Existem duplicatas? False


### 2.2 Valores nulos
Para as variaveis categóricas foi criada uma categoria adicional ("Desconhecido") para preservar a informação de que o dado está ausente. Assim, o modelo/estatística pode captar se as informação está correlacionado com outros fatores.


In [25]:
# Variaveis Categóricas
df["Tipo_Eletronico"] = df["Tipo_Eletronico"].fillna("Desconhecido")
df["Origem"] = df["Origem"].fillna("Desconhecido")
df["Destino_Final"] = df["Destino_Final"].fillna("Desconhecido")

In [38]:
# Verificação da aleatoridade dos dados numéricos ausentes
df["Peso_kg_missing"] = df["Peso_kg"].isnull().astype(int)
df["Custo_Reciclagem_missing"] = df["Custo_Reciclagem_R$"].isnull().astype(int)
display(df.groupby("Peso_kg_missing")["Destino_Final"].describe())
display(df.groupby("Peso_kg_missing")["Tipo_Eletronico"].describe())
display(df.groupby("Peso_kg_missing")["Origem"].describe())
display(df.groupby("Peso_kg_missing")["Destino_Final"].describe())
display(df.groupby("Peso_kg_missing")["Nivel_Toxico"].describe())

display(df.groupby("Custo_Reciclagem_missing")["Destino_Final"].describe())
display(df.groupby("Custo_Reciclagem_missing")["Tipo_Eletronico"].describe())
display(df.groupby("Custo_Reciclagem_missing")["Origem"].describe())
display(df.groupby("Custo_Reciclagem_missing")["Destino_Final"].describe())
display(df.groupby("Custo_Reciclagem_missing")["Nivel_Toxico"].describe())

A=df.groupby("Custo_Reciclagem_missing")["Nivel_Toxico"].mean()


Unnamed: 0_level_0,count,unique,top,freq
Peso_kg_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,6,lixão,31
1,15,6,lixão,3


Unnamed: 0_level_0,count,unique,top,freq
Peso_kg_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,8,bateria,21
1,15,7,bateria,4


Unnamed: 0_level_0,count,unique,top,freq
Peso_kg_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,5,governamental,42
1,15,5,urbano,4


Unnamed: 0_level_0,count,unique,top,freq
Peso_kg_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,6,lixão,31
1,15,6,lixão,3


Unnamed: 0_level_0,count,unique,top,freq
Peso_kg_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,4,alto,39
1,15,4,médio,5


Unnamed: 0_level_0,count,unique,top,freq
Custo_Reciclagem_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,6,lixão,31
1,15,5,rio,7


Unnamed: 0_level_0,count,unique,top,freq
Custo_Reciclagem_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,8,bateria,22
1,15,6,celular,7


Unnamed: 0_level_0,count,unique,top,freq
Custo_Reciclagem_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,5,governamental,41
1,15,5,rural,4


Unnamed: 0_level_0,count,unique,top,freq
Custo_Reciclagem_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,6,lixão,31
1,15,5,rio,7


Unnamed: 0_level_0,count,unique,top,freq
Custo_Reciclagem_missing,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,135,4,alto,38
1,15,4,médio,5


TypeError: agg function failed [how->mean,dtype->object]

In [19]:

# Variaveis Numéricas

def preencher_proporcional(df, col):
    valores = df[col].dropna()
    probs = valores.value_counts(normalize=True)
    n_missing = df[col].isnull().sum()
    
    imputados = np.random.choice(probs.index, size=n_missing, p=probs.values)
    df.loc[df[col].isnull(), col] = imputados
    return df

for col in ["Peso_kg", "Custo_Reciclagem_R$"]:
    df = preencher_proporcional(df, col)


#Verificação
nulos_por_coluna = df.isnull().sum()
print(nulos_por_coluna.to_frame('Quantidade de Nulos').to_markdown())
# Variaveis Numéricas

|                          |   Quantidade de Nulos |
|:-------------------------|----------------------:|
| ID_Registro              |                     0 |
| Tipo_Eletronico          |                     0 |
| Ano_Fabricacao           |                     0 |
| Origem                   |                     0 |
| Destino_Final            |                     0 |
| Peso_kg                  |                     0 |
| Nivel_Toxico             |                     0 |
| Custo_Reciclagem_R$      |                     0 |
| Data_Descarte            |                     0 |
| Peso_kg_missing          |                     0 |
| Custo_Reciclagem_missing |                     0 |


In [99]:
#3-
# Frequência por Tipo de Eletrônico
freq_tipo = df['Tipo_Eletronico'].value_counts()
freq_origem = df['Origem'].value_counts()/135
freq_Destino_Final = df['Destino_Final'].value_counts()/135
#freq_Peso_kg  = df['Peso_kg'].value_counts()
freq_Nivel_Toxico = df['Nivel_Toxico'].value_counts()

print(freq_tipo)
print(freq_origem)
print(freq_Destino_Final)
print(freq_Nivel_Toxico)


Tipo_Eletronico
Bateria       25
Geladeira     20
Computador    20
Celular       20
Impressora    18
Tablet        17
TV            14
celular        1
Name: count, dtype: int64
Origem
Governamental    0.333333
Urbana           0.251852
Industrial       0.207407
Rural            0.200000
urbano           0.007407
Name: count, dtype: float64
Destino_Final
Lixão                0.251852
Aterro Controlado    0.222222
Rio                  0.207407
Cooperativa          0.177778
Reciclagem Formal    0.133333
reciclagem formal    0.007407
Name: count, dtype: float64
Nivel_Toxico
Alto       41
Baixo      40
Médio      39
Crítico    30
Name: count, dtype: int64


In [81]:
# verificação arquivos duplicados
print("Existem duplicatas?", df.duplicated().any())
print("Total de duplicatas:", df.duplicated().sum())
# verificação arquivos duplicados
print('--------------------------------------')
print("Existem Nulos?", df.isnull().any().any())
print("Total Nulos:", df.isnull().sum())
print("Total Nulos           ", df.isnull().sum().sum())




Existem duplicatas? False
Total de duplicatas: 0
--------------------------------------
Existem Nulos? True
Total Nulos: ID_Registro             0
Tipo_Eletronico        15
Ano_Fabricacao          0
Origem                 15
Destino_Final          15
Peso_kg                15
Nivel_Toxico            0
Custo_Reciclagem_R$    15
dtype: int64
Total Nulos            75
