In [2]:
# Importando as bibliotecas essenciais
import pandas as pd

# --- 1. Extração (Extraction) ---
# Carregando o conjunto de dados com o nome correto do arquivo que foi enviado.
caminho_do_arquivo = '/content/Global_Mobile_Prices_2025_Extended.csv'

try:
    df = pd.read_csv(caminho_do_arquivo)
    print("Arquivo carregado com sucesso!")
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado em '{caminho_do_arquivo}'.")
    print("Verifique se o nome do arquivo está correto e se o upload foi concluído.")

# Exibindo as 5 primeiras linhas para uma primeira visualização
print("\n--- Amostra dos Dados (5 primeiras linhas) ---")
print(df.head())

# Exibindo informações gerais sobre as colunas, tipos de dados e valores não nulos
print("\n--- Informações Gerais do Dataset ---")
df.info()

# --- 2. Transformação (Transformation) - Análise Preliminar e Instruções para a Próxima Etapa ---

# Verificando a quantidade de valores nulos em cada coluna
print("\n--- Verificação de Valores Nulos por Coluna ---")
print(df.isnull().sum())
print(">>> Ótima notícia: Não temos dados nulos para tratar!")

# Obtendo um resumo estatístico das colunas numéricas
print("\n--- Resumo Estatístico ---")
print(df.describe())

# --- Instruções para o responsável pela Etapa de ETL ---
# TODO 1: Limpar a coluna 'model'. É preciso remover os números aleatórios que aparecem ao final do nome de cada modelo.
# Exemplo de como fazer (o colega responsável irá implementar a lógica correta):
# df['model'] = df['model'].str.replace(r'\s\d+$', '', regex=True)

# TODO 2: Converter a coluna '5g_support' para valores numéricos. Onde 'Yes' pode ser 1 e 'No' pode ser 0.
# Exemplo:
# df['5g_support'] = df['5g_support'].apply(lambda x: 1 if x == 'Yes' else 0)

# TODO 3: Avaliar se outras colunas de texto como 'processor' e 'release_month' precisam de tratamento
# para serem usadas no modelo de machine learning (ex: One-Hot Encoding).

# --- 3. Carga (Load) ---
# Após realizar as transformações dos TODOs acima, o responsável pela ETL irá salvar o dataframe limpo.
# Exemplo de como o código final dele ficaria:
# df.to_csv('/content/dados_limpos_para_analise.csv', index=False)

print("\n\n--- Análise Inicial Concluída ---")
print("Base do projeto estabelecida. Próximo passo: Limpeza e transformação detalhada dos dados (ETL).")

Arquivo carregado com sucesso!

--- Amostra dos Dados (5 primeiras linhas) ---
    brand                  model  price_usd  ram_gb  storage_gb  camera_mp  \
0    Oppo                A98 111        855      16         128        108   
1  Realme            11 Pro+ 843        618       6         128         64   
2  Xiaomi  Redmi Note 14 Pro 461        258      16          64         64   
3    Vivo               V29e 744        837       6         512         48   
4   Apple  iPhone 16 Pro Max 927        335      12         128        200   

   battery_mah  display_size_inch  charging_watt 5g_support       os  \
0         6000                6.6             33        Yes  Android   
1         4500                6.9            100        Yes  Android   
2         4000                6.8             44        Yes  Android   
3         4500                6.0             65        Yes  Android   
4         5000                6.9            100        Yes      iOS   

        processor  