<a href="https://colab.research.google.com/github/noahflore/colab/blob/main/atividade_3_analise.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Nesta pr√≥xima atividade, n√≥s vamos comparar dois datasets diferentes, mas com conte√∫dos parecidos, para demonstrar que √© totalmente poss√≠vel encontrar um determinador em comum.

** √© importante sabe que tanto o Mobiles Datasets (2025).csv e o Apple_sales_2024.csv s√£o do mesmo ano com algumas diferen√ßas o qual iremos analisa agora **

Guia Completo: An√°lise Automatizada de M√∫ltiplos Arquivos CSV com Python
Vis√£o Geral do Processo

Este guia apresenta um c√≥digo avan√ßado para an√°lise automatizada de m√∫ltiplos arquivos CSV, com detec√ß√£o inteligente de codifica√ß√£o e gera√ß√£o de relat√≥rios completos. O sistema foi projetado para:

    Processar automaticamente v√°rios arquivos CSV de uma vez

    Identificar a codifica√ß√£o correta de cada arquivo

    Fornecer uma an√°lise detalhada de cada dataset

    Apresentar os resultados de forma organizada e visual

üìå Arquitetura do Sistema
Diagram
Code
üìå Passo a Passo Detalhado
1. Configura√ß√£o Inicial
python

import pandas as pd
import chardet
from pathlib import Path
import warnings

# Desativa avisos n√£o cr√≠ticos para melhor visualiza√ß√£o
warnings.filterwarnings('ignore')

    Pandas: Biblioteca principal para manipula√ß√£o de dados

    Chardet: Detecta automaticamente a codifica√ß√£o dos arquivos

    Pathlib: Manipula√ß√£o moderna de caminhos de arquivos

    Warnings: Controle de mensagens de alerta

2. Detec√ß√£o de Codifica√ß√£o
python

def detectar_codificacao(caminho_arquivo, tamanho_amostra=10000):
    """Detecta a codifica√ß√£o usando an√°lise de padr√µes de bytes"""
    with open(caminho_arquivo, 'rb') as f:
        resultado = chardet.detect(f.read(tamanho_amostra))
    return resultado['encoding']

Como funciona:

    Abre o arquivo em modo bin√°rio

    L√™ uma amostra do conte√∫do (10KB por padr√£o)

    Analisa padr√µes de bytes para inferir a codifica√ß√£o

    Retorna a codifica√ß√£o mais prov√°vel (ex: 'utf-8', 'latin1')

3. Leitura Inteligente do Arquivo
python

def ler_csv_com_fallback(caminho_arquivo):
    """Tenta ler o CSV com diferentes codifica√ß√µes"""
    codificacao = detectar_codificacao(caminho_arquivo)
    codificacoes = [codificacao, 'utf-8', 'latin1', 'iso-8859-1', 'cp1252']
    
    for cod in codificacoes:
        try:
            return pd.read_csv(caminho_arquivo, encoding=cod)
        except:
            continue
    raise ValueError(f"N√£o foi poss√≠vel ler {caminho_arquivo} com as codifica√ß√µes testadas")

Fluxo de tentativas:

    Usa a codifica√ß√£o detectada automaticamente

    Se falhar, tenta UTF-8 (padr√£o moderno)

    Ent√£o Latin-1 (compat√≠vel com acentos)

    Depois ISO-8859-1 e CP1252 (Windows)

    Gera erro se todas falharem

4. An√°lise Completa do Arquivo
python

def analisar_csv(caminho_arquivo):
    """Executa an√°lise completa e exibe resultados formatados"""
    print(f"\n{'='*60}")
    print(f"üìä AN√ÅLISE DO ARQUIVO: {caminho_arquivo.name}")
    print(f"{'='*60}")
    
    try:
        # Leitura do arquivo
        df = ler_csv_com_fallback(caminho_arquivo)
        
        # 1. Informa√ß√µes b√°sicas
        print(f"\nüîç Dimens√µes: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
        print(f"üìå Codifica√ß√£o detectada: {detectar_codificacao(caminho_arquivo)}")
        
        # 2. Amostra dos dados
        print("\nüëÄ Primeiras linhas:")
        display(df.head().style.set_properties(**{
            'background-color': '#f8f9fa',
            'border': '1px solid #dee2e6'
        }))
        
        # 3. Estat√≠sticas descritivas
        print("\nüìà Estat√≠sticas num√©ricas:")
        display(df.describe().style.format('{:.2f}').background_gradient(cmap='Blues'))
        
        # 4. Tipos de dados e valores nulos
        print("\n‚ÑπÔ∏è Resumo de tipos e valores ausentes:")
        info_df = pd.DataFrame({
            'Tipo': df.dtypes,
            'Valores √önicos': df.nunique(),
            'Nulos': df.isnull().sum(),
            '% Nulos': (df.isnull().mean()*100).round(2)
        })
        display(info_df.style.bar(subset=['% Nulos'], color='#ff7f7f'))
        
        # 5. An√°lise de texto (se aplic√°vel)
        colunas_texto = df.select_dtypes(include=['object']).columns
        if not colunas_texto.empty:
            print("\nüî§ An√°lise de campos textuais:")
            for col in colunas_texto:
                print(f"\n{col}:")
                print(f"Exemplo mais frequente: {df[col].mode()[0]}")
                print(f"Exemplo aleat√≥rio: {df[col].sample(1).values[0]}")
                
        return df
        
    except Exception as e:
        print(f"‚ùå Erro ao processar o arquivo: {str(e)}")
        return None

5. Processamento em Lote
python

def processar_diretorio(diretorio, extensao='.csv'):
    """Processa todos os arquivos CSV em um diret√≥rio"""
    arquivos = list(Path(diretorio).glob(f'*{extensao}'))
    
    if not arquivos:
        print(f"‚ö†Ô∏è Nenhum arquivo {extensao} encontrado em {diretorio}")
        return
    
    print(f"\nüîç Iniciando an√°lise de {len(arquivos)} arquivos...")
    
    resultados = []
    for arquivo in arquivos:
        df = analisar_csv(arquivo)
        if df is not None:
            resultados.append(df)
    
    print("\n‚úÖ An√°lise conclu√≠da!")
    return resultados

üìå Como Executar

    Coloque todos os arquivos CSV em uma pasta

    Configure o caminho no c√≥digo:
    python

    diretorio = './dados/'  # Substitua pelo seu caminho
    dados = processar_diretorio(diretorio)

üìå Sa√≠da Esperada

Para cada arquivo, voc√™ ver√°:

    Cabe√ßalho com nome do arquivo e codifica√ß√£o

    Dimens√µes do dataset (linhas √ó colunas)

    Amostra das primeiras linhas (formatada)

    Estat√≠sticas num√©ricas (com gradiente visual)

    Resumo de tipos de dados e valores nulos (com barras de porcentagem)

    An√°lise de campos textuais (se existirem)

In [None]:
import pandas as pd
import chardet
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')  # Ignorar avisos n√£o cr√≠ticos

def detectar_codificacao(caminho_arquivo, tamanho_amostra=10000):
    """Detecta a codifica√ß√£o de um arquivo usando chardet."""
    with open(caminho_arquivo, 'rb') as f:
        resultado = chardet.detect(f.read(tamanho_amostra))
    return resultado['encoding']

def analisar_csv(caminho_arquivo):
    """Analisa um arquivo CSV e exibe informa√ß√µes detalhadas."""
    print(f"\n{'='*50}")
    print(f"üìÇ ANALISANDO: {caminho_arquivo.name}")
    print(f"{'='*50}")

    try:
        # Passo 1: Detectar codifica√ß√£o
        codificacao = detectar_codificacao(caminho_arquivo)
        print(f"üîç Codifica√ß√£o detectada: {codificacao}")

        # Passo 2: Tentar ler o arquivo
        try:
            df = pd.read_csv(caminho_arquivo, encoding=codificacao)
        except:
            # Se falhar, tenta codifica√ß√µes alternativas
            codificacoes = ['utf-8', 'latin1', 'iso-8859-1', 'cp1252']
            for cod in codificacoes:
                try:
                    df = pd.read_csv(caminho_arquivo, encoding=cod)
                    codificacao = cod
                    print(f"‚ö†Ô∏è Codifica√ß√£o ajustada para: {codificacao}")
                    break
                except:
                    continue

        # Passo 3: Exibir informa√ß√µes do arquivo
        print(f"\nüìã Shape: {df.shape[0]} linhas x {df.shape[1]} colunas")

        print("\nüëÄ Primeiras linhas:")
        display(df.head())

        print("\nüìä Estat√≠sticas descritivas:")
        display(df.describe(include='all').fillna('-'))

        print("\n‚ÑπÔ∏è Informa√ß√µes gerais:")
        df.info()

        print("\nüîç Valores nulos por coluna:")
        display(df.isnull().sum().to_frame('Nulos').style.bar(color='#FFA07A'))

        return df

    except Exception as e:
        print(f"‚ùå Erro ao processar {caminho_arquivo.name}: {str(e)}")
        return None

def analisar_varios_csv(diretorio, extensao='.csv'):
    """Analisa todos os arquivos CSV em um diret√≥rio."""
    arquivos_csv = list(Path(diretorio).glob(f'*{extensao}'))

    if not arquivos_csv:
        print(f"‚ö†Ô∏è Nenhum arquivo {extensao} encontrado em {diretorio}")
        return None

    print(f"üîç Encontrados {len(arquivos_csv)} arquivos CSV. Iniciando an√°lise...")

    for arquivo in arquivos_csv:
        analisar_csv(arquivo)

    print("\n‚úÖ An√°lise conclu√≠da!")

# USO: Substitua pelo seu diret√≥rio contendo os arquivos CSV
diretorio = '/content/'
analisar_varios_csv(diretorio)

üîç Encontrados 2 arquivos CSV. Iniciando an√°lise...

üìÇ ANALISANDO: apple_sales_2024.csv
üîç Codifica√ß√£o detectada: ascii

üìã Shape: 1000 linhas x 7 colunas

üëÄ Primeiras linhas:


Unnamed: 0,State,Region,iPhone Sales (in million units),iPad Sales (in million units),Mac Sales (in million units),Wearables (in million units),Services Revenue (in billion $)
0,Chongqing,Greater China,7.46,6.75,1.19,5.88,15.88
1,Germany,Europe,8.63,14.06,7.03,7.42,10.12
2,UK,Europe,5.61,14.09,8.78,8.19,19.85
3,Shanghai,Greater China,7.82,7.97,9.78,2.28,6.16
4,Thailand,Rest of Asia,16.7,8.13,6.46,3.48,13.29



üìä Estat√≠sticas descritivas:


Unnamed: 0,State,Region,iPhone Sales (in million units),iPad Sales (in million units),Mac Sales (in million units),Wearables (in million units),Services Revenue (in billion $)
count,1000,1000,1000.0,1000.0,1000.0,1000.0,1000.0
unique,25,5,-,-,-,-,-
top,Hong Kong,Rest of World,-,-,-,-,-
freq,50,221,-,-,-,-,-
mean,-,-,17.4445,8.56588,5.55576,6.9355,12.44713
std,-,-,7.180077,3.735994,2.506491,2.951677,4.306347
min,-,-,5.03,2.02,1.01,2.0,5.01
25%,-,-,11.4475,5.4325,3.47,4.33,8.71
50%,-,-,17.13,8.695,5.55,6.815,12.205
75%,-,-,23.715,11.74,7.73,9.5325,16.2525



‚ÑπÔ∏è Informa√ß√µes gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   State                            1000 non-null   object 
 1   Region                           1000 non-null   object 
 2   iPhone Sales (in million units)  1000 non-null   float64
 3   iPad Sales (in million units)    1000 non-null   float64
 4   Mac Sales (in million units)     1000 non-null   float64
 5   Wearables (in million units)     1000 non-null   float64
 6   Services Revenue (in billion $)  1000 non-null   float64
dtypes: float64(5), object(2)
memory usage: 54.8+ KB

üîç Valores nulos por coluna:


Unnamed: 0,Nulos
State,0
Region,0
iPhone Sales (in million units),0
iPad Sales (in million units),0
Mac Sales (in million units),0
Wearables (in million units),0
Services Revenue (in billion $),0



üìÇ ANALISANDO: Mobiles Dataset (2025).csv
üîç Codifica√ß√£o detectada: ascii
‚ö†Ô∏è Codifica√ß√£o ajustada para: latin1

üìã Shape: 930 linhas x 15 colunas

üëÄ Primeiras linhas:


Unnamed: 0,Company Name,Model Name,Mobile Weight,RAM,Front Camera,Back Camera,Processor,Battery Capacity,Screen Size,Launched Price (Pakistan),Launched Price (India),Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year
0,Apple,iPhone 16 128GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 224,999","INR 79,999","CNY 5,799",USD 799,"AED 2,799",2024
1,Apple,iPhone 16 256GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 234,999","INR 84,999","CNY 6,099",USD 849,"AED 2,999",2024
2,Apple,iPhone 16 512GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 244,999","INR 89,999","CNY 6,499",USD 899,"AED 3,199",2024
3,Apple,iPhone 16 Plus 128GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 249,999","INR 89,999","CNY 6,199",USD 899,"AED 3,199",2024
4,Apple,iPhone 16 Plus 256GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 259,999","INR 94,999","CNY 6,499",USD 949,"AED 3,399",2024



üìä Estat√≠sticas descritivas:


Unnamed: 0,Company Name,Model Name,Mobile Weight,RAM,Front Camera,Back Camera,Processor,Battery Capacity,Screen Size,Launched Price (Pakistan),Launched Price (India),Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year
count,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930.0
unique,19,908,148,11,29,91,217,147,97,157,147,137,107,141,-
top,Oppo,Pad 128GB,190g,8GB,16MP,50MP,Snapdragon 8 Gen 2,"5,000mAh",6.7 inches,"PKR 79,999","INR 29,999","CNY 2,499",USD 499,"AED 1,499",-
freq,129,3,68,308,211,182,30,197,124,39,35,36,44,39,-
mean,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2022.193548
std,-,-,-,-,-,-,-,-,-,-,-,-,-,-,1.86208
min,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2014.0
25%,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2021.0
50%,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2023.0
75%,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2024.0



‚ÑπÔ∏è Informa√ß√µes gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 930 entries, 0 to 929
Data columns (total 15 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Company Name               930 non-null    object
 1   Model Name                 930 non-null    object
 2   Mobile Weight              930 non-null    object
 3   RAM                        930 non-null    object
 4   Front Camera               930 non-null    object
 5   Back Camera                930 non-null    object
 6   Processor                  930 non-null    object
 7   Battery Capacity           930 non-null    object
 8   Screen Size                930 non-null    object
 9   Launched Price (Pakistan)  930 non-null    object
 10  Launched Price (India)     930 non-null    object
 11  Launched Price (China)     930 non-null    object
 12  Launched Price (USA)       930 non-null    object
 13  Launched Price (Dubai)     930 non-

Unnamed: 0,Nulos
Company Name,0
Model Name,0
Mobile Weight,0
RAM,0
Front Camera,0
Back Camera,0
Processor,0
Battery Capacity,0
Screen Size,0
Launched Price (Pakistan),0



‚úÖ An√°lise conclu√≠da!


Algoritmo Inteligente de Carregamento de Arquivos com Detec√ß√£o Autom√°tica de Codifica√ß√£o
Vis√£o Geral

Este algoritmo foi projetado para carregar automaticamente arquivos de dados (CSV, Excel ou delimitados) sem necessidade de configura√ß√£o manual de codifica√ß√£o ou delimitadores. Ele combina t√©cnicas estat√≠sticas de detec√ß√£o de codifica√ß√£o com um sistema de fallback robusto para garantir o carregamento correto dos dados, mesmo em cen√°rios complexos.
üîç Funcionamento Passo a Passo
1. Identifica√ß√£o do Tipo de Arquivo

O algoritmo primeiro verifica a extens√£o do arquivo para determinar seu tipo:

    .xlsx/.xls: Tratado como arquivo Excel (n√£o requer detec√ß√£o de codifica√ß√£o).

    Outras extens√µes: Considerado como arquivo de texto (CSV ou delimitado).

2. Detec√ß√£o da Codifica√ß√£o (Arquivos de Texto)

Para arquivos n√£o-Excel, o algoritmo:

    L√™ uma amostra dos primeiros bytes do arquivo (tamanho configur√°vel, padr√£o: 10KB).

    Usa a biblioteca chardet para an√°lise estat√≠stica dos padr√µes de bytes, identificando a codifica√ß√£o mais prov√°vel (ex: UTF-8, Latin-1).

    Prioriza codifica√ß√µes comuns (como UTF-8) mesmo que a detec√ß√£o autom√°tica sugira outras.

3. Detec√ß√£o do Delimitador (CSV)

Para arquivos delimitados:

    Testa os delimitadores mais comuns (,, ;, \t, |).

    Conta a frequ√™ncia de cada delimitador na amostra.

    Seleciona o delimitador com maior ocorr√™ncia como candidato principal.

4. Carregamento com Fallback

Se a primeira tentativa falhar:

    Tenta outras codifica√ß√µes em ordem de prioridade:

        UTF-8 ‚Üí Latin-1 ‚Üí Windows-1252 ‚Üí UTF-16 ‚Üí GBK (Chin√™s) ‚Üí Shift-JIS (Japon√™s).

    Ajusta o delimitador se necess√°rio (ex: para arquivos com ; como separador decimal).

    Registra falhas em log para diagn√≥stico.

5. Tratamento de Erros

    Linhas malformadas: Ignora ou alerta (configur√°vel).

    Arquivos grandes: Usa amostragem para efici√™ncia.

    Cache de resultados: Armazena detec√ß√µes recentes para agilizar carregamentos repetidos.



In [None]:
import chardet
from pathlib import Path
import warnings
import logging
from functools import lru_cache

# Configura√ß√£o b√°sica de logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# Suprimir avisos espec√≠ficos do pandas
warnings.filterwarnings('ignore', category=pd.errors.ParserWarning)

class SmartFileLoader:
    """
    Classe para carregamento inteligente de arquivos com detec√ß√£o autom√°tica de codifica√ß√£o.
    Suporta CSV, Excel e arquivos delimitados gen√©ricos.
    """

    # Codifica√ß√µes comuns para tentar (em ordem de prioridade)
    COMMON_ENCODINGS = [
        'utf-8',
        'latin1',
        'iso-8859-1',
        'cp1252',
        'utf-16',
        'gbk',
        'shift-jis'
    ]

    def __init__(self, file_path, sample_size=10000):
        self.file_path = Path(file_path)
        self.sample_size = sample_size
        self.encoding = None
        self.delimiter = None
        self.file_type = None

    @lru_cache(maxsize=None)
    def _detect_file_properties(self):
        """Detecta propriedades do arquivo (codifica√ß√£o, delimitador, tipo)"""
        if not self.file_path.exists():
            raise FileNotFoundError(f"Arquivo n√£o encontrado: {self.file_path}")

        # Detec√ß√£o inicial do tipo de arquivo
        if self.file_path.suffix.lower() in ('.xlsx', '.xls'):
            self.file_type = 'excel'
            return {'encoding': 'utf-8', 'file_type': 'excel'}

        # Para arquivos de texto, detectar codifica√ß√£o e delimitador
        self.file_type = 'text'

        # Passo 1: Detectar codifica√ß√£o
        with open(self.file_path, 'rb') as f:
            raw_data = f.read(self.sample_size)
            result = chardet.detect(raw_data)
            self.encoding = result['encoding']

        # Passo 2: Detectar delimitador (para CSVs)
        delimiters = [',', ';', '\t', '|']
        delimiter_counts = {delim: raw_data.decode('ascii', errors='ignore').count(delim)
                          for delim in delimiters}
        self.delimiter = max(delimiter_counts.items(), key=lambda x: x[1])[0]

        return {
            'encoding': self.encoding,
            'delimiter': self.delimiter,
            'file_type': self.file_type
        }

    def _try_load_with_fallback(self):
        """Tenta carregar o arquivo com fallback para codifica√ß√µes alternativas"""
        file_props = self._detect_file_properties()

        # Tentar primeiro com a codifica√ß√£o detectada
        encodings_to_try = [file_props['encoding']] + self.COMMON_ENCODINGS
        encodings_to_try = list(dict.fromkeys(encodings_to_try))  # Remove duplicatas

        last_exception = None

        for encoding in encodings_to_try:
            try:
                if file_props['file_type'] == 'excel':
                    return pd.read_excel(self.file_path)

                return pd.read_csv(
                    self.file_path,
                    encoding=encoding,
                    delimiter=file_props['delimiter'],
                    engine='python',
                    on_bad_lines='warn'
                )

            except Exception as e:
                last_exception = e
                continue

        raise ValueError(
            f"N√£o foi poss√≠vel carregar o arquivo com as codifica√ß√µes testadas. √öltimo erro: {last_exception}"
        )

    def load(self):
        """Carrega o arquivo com detec√ß√£o autom√°tica de propriedades"""
        try:
            df = self._try_load_with_fallback()
            logger.info(f"Arquivo carregado com sucesso: {self.file_path}")
            logger.info(f"Codifica√ß√£o detectada: {self.encoding or 'N√£o identificada'}")
            logger.info(f"Delimitador detectado: {repr(self.delimiter) if self.delimiter else 'N/A'}")
            return df

        except Exception as e:
            logger.error(f"Falha ao carregar arquivo {self.file_path}: {str(e)}")
            raise

# Fun√ß√£o de conveni√™ncia para uso r√°pido
def smart_load(file_path, sample_size=10000):
    """
    Carrega um arquivo com detec√ß√£o autom√°tica de codifica√ß√£o e formato.

    Par√¢metros:
        file_path (str/Path): Caminho para o arquivo
        sample_size (int): Tamanho da amostra para detec√ß√£o (em bytes)

    Retorna:
        DataFrame: Dados carregados
    """
    return SmartFileLoader(file_path, sample_size).load()

In [None]:
import pandas as pd

# Carregar os datasets
df_vendas = smart_load('/content/apple_sales_2024.csv')
df_celulares = smart_load('/content/Mobiles Dataset (2025).csv')

# 1. Criar uma vers√£o agregada das vendas (m√©dia por produto)
vendas_medias = df_vendas[['iPhone Sales (in million units)',
                          'iPad Sales (in million units)',
                          'Mac Sales (in million units)',
                          'Wearables (in million units)',
                          'Services Revenue (in billion $)']].mean().to_dict()

# 2. Adicionar colunas de vendas ao dataset de celulares
df_combinado = df_celulares.copy()

# Para modelos Apple, preencher com os valores m√©dios
df_combinado['iPhone Sales (in million units)'] = df_combinado['Company Name'].apply(
    lambda x: vendas_medias['iPhone Sales (in million units)'] if x == 'Apple' else None)

df_combinado['iPad Sales (in million units)'] = df_combinado['Company Name'].apply(
    lambda x: vendas_medias['iPad Sales (in million units)'] if x == 'Apple' else None)

df_combinado['Mac Sales (in million units)'] = df_combinado['Company Name'].apply(
    lambda x: vendas_medias['Mac Sales (in million units)'] if x == 'Apple' else None)

df_combinado['Wearables (in million units)'] = df_combinado['Company Name'].apply(
    lambda x: vendas_medias['Wearables (in million units)'] if x == 'Apple' else None)

df_combinado['Services Revenue (in billion $)'] = df_combinado['Company Name'].apply(
    lambda x: vendas_medias['Services Revenue (in billion $)'] if x == 'Apple' else None)

# 3. Adicionar informa√ß√µes regionais (exemplo para o estado mais vendido)
estado_top = df_vendas.loc[df_vendas['iPhone Sales (in million units)'].idxmax(), 'State']
df_combinado['Top Sales State'] = df_combinado['Company Name'].apply(
    lambda x: estado_top if x == 'Apple' else None)

# 4. Mostrar o resultado
print(f"Dataset combinado criado com {len(df_combinado)} linhas e {len(df_combinado.columns)} colunas")
display(df_combinado.head())

# 5. Salvar o novo dataset
df_combinado.to_csv('Combined_Mobile_Dataset.csv', index=False)
print("Dataset salvo como 'Combined_Mobile_Dataset.csv'")

Dataset combinado criado com 930 linhas e 21 colunas


Unnamed: 0,Company Name,Model Name,Mobile Weight,RAM,Front Camera,Back Camera,Processor,Battery Capacity,Screen Size,Launched Price (Pakistan),...,Launched Price (China),Launched Price (USA),Launched Price (Dubai),Launched Year,iPhone Sales (in million units),iPad Sales (in million units),Mac Sales (in million units),Wearables (in million units),Services Revenue (in billion $),Top Sales State
0,Apple,iPhone 16 128GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 224,999",...,"CNY 5,799",USD 799,"AED 2,799",2024,17.4445,8.56588,5.55576,6.9355,12.44713,Italy
1,Apple,iPhone 16 256GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 234,999",...,"CNY 6,099",USD 849,"AED 2,999",2024,17.4445,8.56588,5.55576,6.9355,12.44713,Italy
2,Apple,iPhone 16 512GB,174g,6GB,12MP,48MP,A17 Bionic,"3,600mAh",6.1 inches,"PKR 244,999",...,"CNY 6,499",USD 899,"AED 3,199",2024,17.4445,8.56588,5.55576,6.9355,12.44713,Italy
3,Apple,iPhone 16 Plus 128GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 249,999",...,"CNY 6,199",USD 899,"AED 3,199",2024,17.4445,8.56588,5.55576,6.9355,12.44713,Italy
4,Apple,iPhone 16 Plus 256GB,203g,6GB,12MP,48MP,A17 Bionic,"4,200mAh",6.7 inches,"PKR 259,999",...,"CNY 6,499",USD 949,"AED 3,399",2024,17.4445,8.56588,5.55576,6.9355,12.44713,Italy


Dataset salvo como 'Combined_Mobile_Dataset.csv'


Conclus√£o: Integra√ß√£o de Datasets com Medidas Complementares

A combina√ß√£o de datasets diferentes √© uma tarefa comum e poderosa na an√°lise de dados, mas exige cuidado metodol√≥gico para garantir que a jun√ß√£o agregue valor real √† an√°lise. O algoritmo apresentado demonstra que √© poss√≠vel unir conjuntos de dados distintos desde que existam medidas complementares que sirvam como ponte entre eles.
Princ√≠pios Fundamentais para Jun√ß√£o Efetiva

    Identifica√ß√£o de Rela√ß√µes L√≥gicas

        No exemplo anterior, unimos dados t√©cnicos de celulares com dados de vendas regionais usando a marca "Apple" como elemento comum.

        Sempre busque chaves de relacionamento (expl√≠citas ou impl√≠citas) que justifiquem a combina√ß√£o.

    Complementaridade de M√©tricas

        Datasets podem ser combinados quando:

            Um cont√©m dimens√µes (ex: caracter√≠sticas de produtos)

            Outro cont√©m m√©tricas (ex: volumes de vendas)

        No caso, especifica√ß√µes t√©cnicas (do dataset de celulares) foram enriquecidas com dados de desempenho comercial (do dataset de vendas).

    Tratamento de Dados Assim√©tricos

        Se um dataset tem granularidade diferente (ex: vendas por estado vs. produtos individuais), use:

            Agrega√ß√µes (m√©dias, totais) para compatibilizar n√≠veis hier√°rquicos.

            Valores padr√£o (ex: NA para produtos sem dados de vendas).

    Preserva√ß√£o de Contexto

        A jun√ß√£o deve manter a integridade sem√¢ntica dos dados originais.

        No exemplo, adicionamos colunas de vendas apenas para produtos Apple, evitando distor√ß√µes para outras marcas.