# Termos-chave para Tipos de Dados

## Contínuos

Dados que podem assumir qualquer valor em um intervalo.

**Sinônimos:**
- intervalo
- flutuação
- numérico

## Discretos

Dados que podem assumir apenas valores inteiros, como contagens.

**Sinônimos:**
- inteiro
- contagem

## Categóricos

Dados que podem assumir apenas um conjunto específico de valores representando um conjunto de possíveis categorias.

**Sinônimos:**
- enumeração
- enumerado
- fatores
- nominal
- politômico

## Binários

Um caso especial de dados categóricos com apenas duas categorias de valores (0/1, verdadeiro/falso).

**Sinônimos:**
- dicotômico
- lógico
- indicador
- booleano

## Ordinais

Dado categórico que tem uma ordem explícita.

**Sinônimo:**
- fator ordenado

# Por que nos importamos com uma taxonomia de tipos de dados?

 Acontece que, para fins de análise de dados e modelagem preditiva, o tipo de dados é crucial para determinar o formato de exposição visual, análise de dados ou modelo estatístico. Softwares de ciência de dados, como R e Python, utilizam esses tipos de dados para aprimorar seu desempenho computacional. Além disso, o tipo de dados associado a uma variável influencia diretamente como o software processará os cálculos relacionados a essa variável.

Bruce, P., & Bruce, A. (2019). Estatística Prática para Cientistas de Dados: 50 conceitos essenciais. Editora Alta Books. Encontrado no site [Minha biblioteca](https://integrada.minhabiblioteca.com.br/books/9788550813004), trechos das páginas 23 a 24

                "A modelagem preditiva é uma abordagem analítica que utiliza algoritmos e modelos estatísticos para prever resultados futuros com base em dados históricos. Ela é aplicada em engenharia química para otimizar processos, em ciência de dados para prever eventos em conjuntos de dados, e no desenvolvimento backend para melhorar o desempenho de sistemas e prever falhas. Resumidamente, é uma ferramenta que usa dados passados para fazer previsões informadas sobre o futuro."
                
GPT-3.5, OpenAI. "Conversa sobre Modelagem Preditiva." ChatGPT, 2024.


### Principais tipagens de variáveis em Python

1. **Inteiro (int):**
   - Representa números inteiros.
   - Exemplo: `idade = 25`

2. **Ponto Flutuante (float):**
   - Representa números decimais.
   - Exemplo: `altura = 1.75`

3. **String (str):**
   - Representa texto.
   - Exemplo: `nome = "Maria"`

4. **Booleano (bool):**
   - Representa valores lógicos (Verdadeiro ou Falso).
   - Exemplo: `temperatura_alta = True`

5. **Lista (list):**
   - Armazena uma sequência de elementos.
   - Exemplo: `numeros = [1, 2, 3, 4, 5]`

6. **Tupla (tuple):**
   - Similar à lista, mas imutável (não pode ser alterada após a criação).
   - Exemplo: `coordenadas = (3, 4)`

7. **Dicionário (dict):**
   - Armazena pares chave-valor.
   - Exemplo: `aluno = {"nome": "João", "idade": 22}`

8. **Conjunto (set):**
   - Armazena elementos únicos, sem ordem específica.
   - Exemplo: `cores = {"vermelho", "azul", "verde"}`

### Algumas tipagens menos comuns:

1. **Complexo (complex):**
   - Representa números complexos na forma `a + bj`, onde `a` e `b` são números reais e `j` é a unidade imaginária.
   - Exemplo: `numero_complexo = 3 + 4j`

2. **Bytes (bytes):**
   - Armazena sequências de bytes.
   - Exemplo: `dados_binarios = b"01010101"`

3. **ByteArray (bytearray):**
   - Similar a bytes, mas mutável (pode ser alterado após a criação).
   - Exemplo: `dados_mutaveis = bytearray([65, 66, 67])`

4. **NoneType (None):**
   - Representa a ausência de valor ou nulo.
   - Exemplo: `resultado = None`

5. **Range:**
   - Gera uma sequência de números.
   - Exemplo: `sequencia = range(1, 10, 2)` (gera números de 1 a 9, pulando de 2 em 2).

As tipagens mencionadas anteriormente dizem respeito à linguagem Python, que será a principal ferramenta utilizada. No entanto, ao lidar com bancos de dados relacionais, é possível realizar diversas operações, incluindo a criação e manipulação de tabelas, inserção, atualização e exclusão de dados, além de conduzir consultas complexas para extrair informações específicas. Recomenda-se consultar [W³Schools - Tipos de Dados em SQL](https://www.w3schools.com/sql/sql_datatypes.asp) para obter mais informações sobre tipos de dados em SQL. Os bancos de dados são mais detalhados em sua classificação de tipos de dados, incorporando considerações de níveis de precisão, campos de comprimento fixo ou variável e mais.

A linguagem R é otimizada para análise estatística, com pacotes especializados que a tornam eficiente em tarefas estatísticas complexas. Em contraste, o Python, mais versátil e amplamente utilizado, destaca-se pela diversidade de bibliotecas e integrações. Recomendo explorar as nuances da tipagem em R para aprofundar nosso entendimento após a discussão sobre tipagem de variáveis em Python. Consulte [W³Schools - Tipos de Dados em R](https://www.w3schools.com/r/r_data_types.asp) para uma compreensão abrangente dos tipos de variáveis em R, pois a taxonomia em um software pode ser diferente daquela em outro.

### **Dados Retangulares**

"...Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (casos) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares. Na maioria das tarefas de análise e modelagem de dados, os dados em bancos de dados relacionais devem ser extraídos e colocados em uma única tabela..."

Bruce, P., & Bruce, A. (2019). Estatística Prática para Cientistas de Dados: 50 conceitos essenciais. Editora Alta Books. Encontrado no site [Minha biblioteca](https://integrada.minhabiblioteca.com.br/books/9788550813004), trechos das página 27

No cenário apresentado, empregamos o **DataFrame**, uma estrutura tabular bidimensional assemelhada a uma planilha. Este é extensivamente utilizado para a manipulação eficiente e análise de dados, dispondo de métodos para diversas operações, tais como filtragem, seleção e transformação.

#### *FIQUE LIGADO!*

A terminologia para dados retangulares pode gerar confusão, já que estatísticos e cientistas de dados usam termos diferentes para conceitos similares. No contexto estatístico, variáveis preditoras visam prever uma resposta, enquanto cientistas de dados usam características para prever um alvo. Um termo especialmente confuso é "amostra", que, para cientistas da computação, refere-se a uma única linha, enquanto, para estatísticos, significa uma coleção de linhas.