<a href="https://colab.research.google.com/github/JaCaRego/JaCaRego/blob/main/revisao_M8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TUPLAS, DICIONÁRIOS E LISTAS

*   **Chaves `{}` (curly braces):** São usadas para definir dicionários e conjuntos (sets).
    *   **Dicionários:** São coleções não ordenadas de pares chave: valor. Por exemplo: `{'nome': 'Alice', 'idade': 30}`
    *   **Conjuntos:** São coleções não ordenadas de itens únicos. Por exemplo: `{1, 2, 3}`

*   **Colchetes `[]` (square brackets):** São usados para definir listas.
    *   **Listas:** São coleções ordenadas e mutáveis de itens. Podem conter itens de diferentes tipos de dados. Por exemplo: `['maçã', 'banana', 'cereja']` ou `[1, 'hello', 3.14]`

*   **Parênteses `()` (parentheses):** São usados para definir tuplas.
    *   **Tuplas:** São coleções ordenadas e imutáveis de itens. Assim como as listas, podem conter itens de diferentes tipos de dados, mas uma vez criadas, seus elementos não podem ser alterados. Por exemplo: `('vermelho', 'verde', 'azul')`
    *   Além disso, os parênteses `()` também são usados para:
        *   Chamadas de função: `minha_funcao(argumento)`
        *   Agrupamento de expressões: Para definir a ordem de operações matemáticas, por exemplo: `(2 + 3) * 4`

## Analisando `({'name': ['alice', 'bob']})`

**Pergunta:** E quando temos `({'name': ['alice', 'bob']})` dizemos que é o que? Já que parênteses é imutável por ser tuplas, por que vem dentro dela dados mutáveis com chaves e colchetes?

Essa é uma excelente pergunta e toca num ponto importante sobre mutabilidade em Python! Vamos analisar a estrutura `({'name': ['alice', 'bob']})` passo a passo:

1.  **Parênteses `()` (Tupla):** O elemento mais externo é uma tupla. A tupla, por si só, é uma estrutura de dados **imutável**. Isso significa que, uma vez criada, você não pode adicionar, remover ou substituir os elementos que ela contém.

2.  **Chaves `{}` (Dicionário):** Dentro da tupla, temos um dicionário. Dicionários são estruturas de dados **mutáveis**. Você pode adicionar novas chaves, remover chaves existentes ou modificar os valores associados às chaves.

3.  **Colchetes `[]` (Lista):** Dentro do dicionário, o valor associado à chave `'name'` é uma lista. Listas também são estruturas de dados **mutáveis**. Você pode adicionar, remover ou modificar elementos dentro de uma lista.

### O que significa a imutabilidade da tupla aqui?

A imutabilidade da tupla se aplica à *referência* que ela guarda. Neste caso, a tupla `({'name': ['alice', 'bob']})` contém um único elemento, que é o dicionário `{'name': ['alice', 'bob']}`.

**Você não pode:**
*   Mudar o dicionário por outro dicionário *dentro da tupla*: `minha_tupla[0] = {'outro': 'dicionario'}` (isso resultaria em um erro).
*   Adicionar outro elemento à tupla: `minha_tupla.append('novo')` (tuplas não têm método `append`).

**No entanto, você pode:**
*   Modificar o conteúdo do dicionário que a tupla referencia, porque o dicionário é mutável.
*   Modificar o conteúdo da lista que está dentro do dicionário, porque a lista é mutável.

### Exemplo prático:
```python
minha_estrutura = ({'name': ['alice', 'bob']},) # Adicionado vírgula para deixar claro que é uma tupla de um elemento
print(f"Estrutura original: {minha_estrutura}")

# Acessando o dicionário dentro da tupla
dic = minha_estrutura[0]

# Modificando a lista dentro do dicionário (que está dentro da tupla)
dic['name'].append('carol')
print(f"Após modificar a lista: {minha_estrutura}")

# Modificando o dicionário (que está dentro da tupla)
dic['age'] = 30
print(f"Após modificar o dicionário: {minha_estrutura}")

# Tentativa de modificar a tupla diretamente (resultaria em erro)
# minha_estrutura[0] = {'new_key': 'new_value'} # TypeError: 'tuple' object does not support item assignment
```
**Saída esperada:**
```
Estrutura original: ({'name': ['alice', 'bob']},)
Após modificar a lista: ({'name': ['alice', 'bob', 'carol']},)
Após modificar o dicionário: ({'name': ['alice', 'bob', 'carol'], 'age': 30},)
```
**Conclusão:** `({'name': ['alice', 'bob']})` é uma tupla que contém um dicionário, e esse dicionário, por sua vez, contém uma lista como valor de uma de suas chaves. A imutabilidade da tupla garante que ela sempre referenciará aquele dicionário específico, mas não impede que o conteúdo do dicionário ou da lista interna seja alterado, já que dicionários e listas são objetos mutáveis.

## Mean (Média) e Lower Bound (Limite Inferior) para Outliers

### **Mean (Média)**

A **média** é uma medida estatística fundamental que representa o valor central ou típico de um conjunto de dados. É calculada somando-se todos os valores e dividindo o resultado pelo número total de valores.

*   **Fórmula:** Média = (Soma de todos os valores) / (Número de valores)
*   **Exemplo:** Para os números `[10, 20, 30, 40, 50]`, a soma é 150 e há 5 valores, então a média é `150 / 5 = 30`.
*   **Uso:** É amplamente utilizada para descrever o "centro" de uma distribuição de dados e é um conceito base em várias análises estatísticas.

### **Lower Bound (Limite Inferior) para Outliers**

O `lower_bound` é um limite específico utilizado para identificar **outliers inferiores** (valores atípicos que são considerados muito pequenos) em um conjunto de dados, com base no método do Intervalo Interquartil (IQR).

Ele é calculado da seguinte forma:

`lower_bound = Q1 - 1.5 * IQR`

Onde:
*   **Q1 (Primeiro Quartil):** É o valor abaixo do qual 25% dos dados estão.
*   **IQR (Intervalo Interquartil):** É a diferença entre o Terceiro Quartil (Q3) e o Primeiro Quartil (Q1), ou seja, `IQR = Q3 - Q1`.

Qualquer ponto de dado que seja **menor que** este `lower_bound` é classificado como um outlier inferior. Este método é considerado robusto, pois não é tão sensível a valores extremos quanto outras medidas de dispersão e centralidade.

## Biblioteca NumPy e Intervalo Interquartil (IQR)

### **Biblioteca NumPy**

NumPy (abreviação de Numerical Python) é uma biblioteca fundamental para computação científica em Python. Ela é amplamente utilizada para trabalhar com arrays multidimensionais (vetores e matrizes) e oferece uma vasta coleção de funções matemáticas de alto nível para operar sobre esses arrays.

**Principais características e usos do NumPy:**

*   **Arrays N-dimensionais (`ndarray`):** O objeto principal do NumPy é o `ndarray`, que é uma estrutura de dados de array eficiente e flexível, capaz de armazenar coleções de itens do mesmo tipo. Isso o torna muito mais rápido e otimizado para operações numéricas do que as listas nativas do Python.
*   **Operações Vetorizadas:** NumPy permite realizar operações matemáticas em arrays inteiros de uma só vez (chamadas de operações vetorizadas), sem a necessidade de loops explícitos. Isso acelera significativamente os cálculos e torna o código mais conciso.
*   **Funções Matemáticas Abrangentes:** Inclui funções para álgebra linear, transformadas de Fourier, números aleatórios e muito mais.
*   **Base para Outras Bibliotecas:** Muitas outras bibliotecas populares de ciência de dados em Python, como Pandas, SciPy e Scikit-learn, são construídas sobre o NumPy.
*   **Uso:** É essencial para tarefas como processamento de imagens, machine learning, simulações e qualquer aplicação que envolva grandes volumes de dados numéricos.

### **Intervalo Interquartil (IQR)**

O Intervalo Interquartil (IQR) é uma medida de dispersão estatística que descreve a amplitude da metade central de um conjunto de dados. Ele é frequentemente usado para identificar valores atípicos (outliers) e para entender a variabilidade dos dados sem ser excessivamente influenciado por valores extremos, como a amplitude total.

**Como calcular o IQR:**

1.  **Primeiro Quartil (Q1):** É o valor que separa os 25% inferiores dos dados dos 75% superiores. Também é conhecido como o 25º percentil.
2.  **Terceiro Quartil (Q3):** É o valor que separa os 75% inferiores dos dados dos 25% superiores. Também é conhecido como o 75º percentil.
3.  **Cálculo do IQR:** O IQR é a diferença entre o Terceiro Quartil (Q3) e o Primeiro Quartil (Q1).
    `IQR = Q3 - Q1`

**O que o IQR indica?**

*   Quanto maior o IQR, maior a dispersão dos 50% centrais dos dados.
*   É uma medida de robustez, pois não é afetado por outliers da mesma forma que a amplitude total (máximo - mínimo).

**Identificação de Outliers com IQR:**

Uma regra comum para identificar outliers usando o IQR é:
*   **Outliers Inferiores:** Qualquer valor abaixo de `Q1 - 1.5 * IQR`
*   **Outliers Superiores:** Qualquer valor acima de `Q3 + 1.5 * IQR`

O IQR é uma ferramenta valiosa na análise exploratória de dados para ter uma visão clara da distribuição e da presença de valores atípicos.

# Diferenças entre DataFrame e Dataset

## DataFrame

*   **Definição:** Um `DataFrame` é uma estrutura de dados **tabular**, **bidimensional**, **mutável** e com **rótulos** (axes). É o principal objeto de dados na biblioteca `pandas` em Python (também existe em outras linguagens como R e Apache Spark).
*   **Características:**
    *   Organizado em linhas e colunas.
    *   Cada coluna pode ter um tipo de dado diferente (números, strings, booleanos, etc.).
    *   Muito similar a uma tabela de banco de dados ou a uma planilha Excel.
    *   Oferece funcionalidades ricas para manipulação, limpeza e análise de dados.
*   **Exemplo:** Quando você lê um arquivo CSV usando `pd.read_csv()` em Python, o resultado é um `pandas.DataFrame`.

## Dataset (Conjunto de Dados)

*   **Definição:** O termo "Dataset" (conjunto de dados) é um conceito **mais geral e abrangente**. Refere-se a uma **coleção de dados relacionados** que são tratados como uma única unidade para análise ou processamento.
*   **Características:**
    *   Pode ser **qualquer coleção de dados**, independentemente do formato ou estrutura. Pode ser um arquivo CSV, um banco de dados, uma coleção de imagens, áudios, textos, ou até mesmo um DataFrame.
    *   **Não implica uma estrutura tabular específica**, embora muitos datasets sejam tabulares.
    *   É o termo que usamos para nos referir aos dados brutos ou processados que estamos trabalhando, antes mesmo de pensar em como representá-los em um programa.
*   **Exemplo:** "O dataset MNIST de dígitos escritos à mão" (que é um conjunto de imagens), "o dataset de vendas de uma empresa" (que pode estar em vários arquivos CSV, bancos de dados, etc.).

### Em resumo:

*   Um **DataFrame** é uma **estrutura específica** para organizar e manipular dados, popularizada por ferramentas como `pandas`.
*   Um **Dataset** é o **termo genérico** para qualquer coleção de dados. Um DataFrame é, por sua natureza, um tipo de dataset, mas um dataset nem sempre é um DataFrame (pode ser uma lista de arquivos, um array NumPy, um conjunto de imagens, etc.).

No contexto de Python e análise de dados, quando as pessoas falam de "dataset" e estão trabalhando com dados tabulares, é muito comum que elas estejam se referindo a um `pandas.DataFrame`.

## Funções de String: `str.lower()`, `str.upper()` e `str.title()`

### `str.lower()`
*   **Uso:** Converte todos os caracteres alfabéticos de uma string para minúsculas.
*   **Características:** Retorna uma *nova* string. Caracteres não alfabéticos ou já em minúsculas permanecem inalterados.
*   **Exemplo:**
    ```python
    texto = "Olá Mundo!"
    print(texto.lower()) # Saída: olá mundo!
    ```

### `str.upper()`
*   **Uso:** Converte todos os caracteres alfabéticos de uma string para maiúsculas.
*   **Características:** Retorna uma *nova* string. Caracteres não alfabéticos ou já em maiúsculas permanecem inalterados.
*   **Exemplo:**
    ```python
    texto = "Olá Mundo!"
    print(texto.upper()) # Saída: OLÁ MUNDO!
    ```

### `str.title()`
*   **Uso:** Converte a primeira letra de cada palavra em uma string para maiúscula e as demais letras para minúsculas.
*   **Características:** Retorna uma *nova* string. É ideal para formatar títulos ou nomes próprios.
*   **Exemplo:**
    ```python
    texto = "exemplo de texto em python"
    print(texto.title()) # Saída: Exemplo De Texto Em Python
    ```