# Guia Prático e Educativo de NumPy e Pandas

## Propósito do Notebook
Este notebook serve como um recurso educativo completo para aprender e aplicar as funcionalidades das bibliotecas NumPy e Pandas, além de funcionar como uma nota de memória prática para consulta rápida dos recursos e técnicas mais importantes dessas ferramentas essenciais em análise de dados e ciência de dados.

## Objetivos
- **Consolidação de Conhecimento**: Consolidar e aprofundar o entendimento sobre operações fundamentais e avançadas em NumPy e Pandas.
- **Referência Rápida**: Servir como uma referência rápida para funções e métodos comuns, facilitando a revisão e o uso diário.
- **Aplicações Práticas**: Demonstração de aplicação prática das técnicas em cenários reais como IoT, educação e ciências experimentais.
- **Visualização e Análise Estatística**: Utilizar ferramentas de visualização e análise estatística para interpretar e apresentar dados de forma eficaz.

## Estrutura do Notebook
Este notebook está organizado em várias seções, cada uma dedicada a diferentes aspectos e funcionalidades de NumPy e Pandas:

1. **Básicos de NumPy**:
   - Criação e manipulação de arrays.
   - Operações básicas: aritmética, lógica e funções agregadas.
2. **Básicos de Pandas**:
   - Criação e manipulação de DataFrames e Series.
   - Importação e exportação de dados.
3. **Visualização de Dados**:
   - Introdução ao uso de Matplotlib e Seaborn para criar gráficos a partir de dados NumPy e Pandas.
4. **Funcionalidades Avançadas**:
   - Manipulação avançada de DataFrames.
   - Técnicas de limpeza e preparação de dados.
5. **Exercícios Aplicados**:
   - Exercícios práticos que simulam cenários reais em áreas como IoT e análise educacional.
6. **Recursos e Documentação**:
   - Links para documentação oficial, tutoriais adicionais e recursos de aprendizagem.

## Como Usar Este Notebook
- **Como Referência**: Consulte as seções específicas para revisar conceitos ou comandos quando necessário.
- **Como Guia de Aprendizado**: Siga os exercícios e explorações passo a passo para construir um entendimento profundo das capacidades das bibliotecas.
- **Como Recurso para Projetos**: Utilize os exemplos e técnicas como base para seus próprios projetos de dados ou como inspiração para novas análises.

Este guia é uma ferramenta dinâmica e será atualizado regularmente com novos exemplos, exercícios e melhores práticas para refletir avanços nas bibliotecas e nas necessidades dos usuários.


In [1]:
%pip install numpy pandas

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple/
Note: you may need to restart the kernel to use updated packages.


In [68]:
import numpy as np
import pandas as pd

# Introdução ao NumPy

A documentação básica do NumPy, que você pode conferir em [aqui](https://numpy.org/devdocs/user/quickstart.html), esclarece que o NumPy foi desenvolvido para trabalhar com matrizes n-dimensionais homogêneas, ou seja, com dados do mesmo tipo.

Antes de entrar nos maiores detalhes sobre como essa biblioteca funciona, vamos aos tipos básicos de dados que o Python possui:

In [51]:
# Números
inteiro = 1             # Representam números inteiros, positivos ou negativos, sem parte fracionária.
flutuante = 3.14        # Representam números reais e podem incluir uma parte decimal.
complexo = 2 + 5j      # Usados para representar números complexos, são escritos como a + bj, onde a e b são floats.

# Sequências
nome = "gustavo"                        # Sequências de caracteres Unicode usadas para armazenar dados textuais.
lista = [1, 2, 3, 4, "texto", True]     # Coleções ordenadas e mutáveis de itens que podem ser de tipos diferentes.
tupla = (1, 2, 3, "olá", False)         # Coleções ordenadas e imutáveis de itens que podem ser de diferentes tipos.

# Mapeamentos
dicionario = {"nome": "Gustavo", "idade": 37, "cidade": "Curitiba"} # Estruturas de dados que armazenam pares de chave-valor, onde as chaves são únicas dentro de um dicionário.

# Conjuntos
conjunto = {1, 2, 3, 4, 5}                          # Coleções não ordenadas de elementos únicos. São mutáveis e úteis para operações de conjunto como união, interseção, etc.
conjunto_imutavel = frozenset([1, 2, 3, 4, 5])      # Versão imutável de conjuntos, que pode ser usada como chave em dicionários.

# Booleano
a = True
b = False   # Pode ter dois valores: True ou False, que são frequentemente o resultado de comparações ou condições.

# None Type
nada = None # Usado para representar a ausência de valor. É útil para indicar que uma variável não foi definida a um valor específico ainda.

# Bytes e Arrays de Bytes
dados_binarios = b'Algum texto em bytes'            # Sequência imutável de bytes, geralmente usados para dados binários.
array_de_bytes = bytearray([50, 100, 76, 72, 90])   # Versão mutável de bytes.

Vamos explorar algumas das operações mais básicas que podemos realizar com os diferentes tipos de dados disponíveis em Python. Este exercício é fundamental para entender como manipular dados e executar operações elementares que formam a base de tarefas mais complexas em programação e análise de dados.

Cada tipo de dado tem suas próprias características e métodos de manipulação associados. Vamos abordar:

- **Números**: Operações aritméticas como adição, multiplicação e acesso a propriedades de números complexos.
- **Sequências**: Indexação e slicing em strings, listas e tuplas.
- **Mapeamentos**: Manipulação de dicionários, incluindo acesso e modificação de elementos.
- **Conjuntos**: Adição e remoção de elementos, demonstrando as propriedades únicas de conjuntos em Python.
- **Booleanos**: Demonstração de operações lógicas básicas.
- **None Type**: Exploração do tipo `None`, usado frequentemente para representar a ausência de valor.

As operações com estes tipos de dados são cruciais para qualquer tipo de programação em Python, especialmente em campos que dependem fortemente do processamento de dados, como ciência de dados, machine learning, desenvolvimento web e automação.

Vamos começar explorando cada um destes tipos com exemplos práticos.


In [28]:
# Operações numéricas
print(f'soma da variável inteiro com outro valor inteiro: {inteiro + 1}')
print(f'subtração da variável inteiro com a variável flutuante: {inteiro - flutuante}')
print(f'multiplicação de flutuantes: {flutuante * 1.55}')
print(f'divisão do número inteiro: {inteiro / 2}')
print(f'parte real do número complexo: {complexo.real}')
print(f'parte imaginária do número complexo: {complexo.imag}')

soma da variável inteiro com outro valor inteiro: 2
subtração da variável inteiro com a variável flutuante: -2.14
multiplicação de flutuantes: 4.867
divisão do número inteiro: 0.5
parte real do número complexo: 2.0
parte imaginária do número complexo: 5.0


In [50]:
# Operações com sequências
print(f'acessando o primeiro caractere da string: {nome[0]}')
print(f'acessando o último item da lista: {lista[-1]}')
print(f'acessando o segundo item da tupla: {lista[1]}')
print(f'cortar a string: {nome[1:4]}')
print(f'cortar a lista: {lista[1:4]}')
print(f'cortar a tupla: {tupla[:4]}')
print(f'concatenar strings {nome + " é um ótimo aluno"}')
print(f'repetir uma string x vezes: {nome * 2}')
print(f'concatenar listas {lista + [5, 6, "outro texto", False]}')
print(f'repetir listas {lista * 2}')

print(f'lista original: {lista}')
print(f'modificando a lista: {lista.append("novo item")}')
lista[1] = "modificado"
print(f'modificando o segundo elemento da lista: {lista}')

print(f'capitalização da string: {nome.capitalize()}')
print(f'todas as letras da string em maiúsculas: {nome.upper()}')
print(f'contando "a" na string: {nome.count('a')}')

acessando o primeiro caractere da string: g
acessando o último item da lista: novo item
acessando o segundo item da tupla: modificado
cortar a string: ust
cortar a lista: ['modificado', 3, 4]
cortar a tupla: (1, 2, 3, 'olá')
concatenar strings gustavo é um ótimo aluno
repetir uma string x vezes: gustavogustavo
concatenar listas [1, 'modificado', 3, 4, 'texto', True, 'novo item', 5, 6, 'outro texto', False]
repetir listas [1, 'modificado', 3, 4, 'texto', True, 'novo item', 1, 'modificado', 3, 4, 'texto', True, 'novo item']
lista original: [1, 'modificado', 3, 4, 'texto', True, 'novo item']
modificando a lista: None
modificando o segundo elemento da lista: [1, 'modificado', 3, 4, 'texto', True, 'novo item', 'novo item']
capitalização da string: Gustavo
todas as letras da string em maiúsculas: GUSTAVO
contando "a" na string: 1


In [37]:
# Operações com mapeamentos
print(f'dicionário original: {dicionario}')
print(f'acessando o nome no dicionário: {dicionario["nome"]}')
print(f'idade: "{dicionario.get("idade")}')
dicionario["país"] = "Brasil"
print(f'dicionário com o país adicionado: {dicionario}')
del dicionario["idade"]
print(f'dicionário após remover idade: {dicionario}')
print(f'acessando as chaves do dicionário: {dicionario.keys()}')
print(f'acessando os valores do dicionário: {dicionario.values()}')

dicionário original: {'nome': 'Gustavo', 'idade': 37, 'cidade': 'Curitiba'}
acessando o nome no dicionário: Gustavo
idade: "37
dicionário com o país adicionado: {'nome': 'Gustavo', 'idade': 37, 'cidade': 'Curitiba', 'país': 'Brasil'}
dicionário após remover idade: {'nome': 'Gustavo', 'cidade': 'Curitiba', 'país': 'Brasil'}
acessando as chaves do dicionário: dict_keys(['nome', 'cidade', 'país'])
acessando os valores do dicionário: dict_values(['Gustavo', 'Curitiba', 'Brasil'])


In [52]:
# Operações com conjuntos
outro_conjunto = {4, 5, 6, 7, 8}
print(f'conjunto original: {conjunto}')
conjunto.add(6)
print(f'conjunto após adição: {conjunto}')
conjunto.remove(2)
print(f'conjunto após remoção: {conjunto}')
uniao = conjunto.union(outro_conjunto)
print(f'união dos conjuntos: {uniao}')
intersecao  = conjunto.intersection(outro_conjunto)
print(f'interseção  dos conjuntos: {intersecao }')
diferenca = conjunto.difference(outro_conjunto)
print(f'diferença dos conjuntos: {diferenca}')
print(f'conjunto é subconjunto de outro_conjunto? {conjunto.issubset(outro_conjunto)}')
print(f'conjunto é superconjunto de outro_conjunto? {conjunto.issuperset(outro_conjunto)}')

conjunto original: {1, 2, 3, 4, 5}
conjunto após adição: {1, 2, 3, 4, 5, 6}
conjunto após remoção: {1, 3, 4, 5, 6}
união dos conjuntos: {1, 3, 4, 5, 6, 7, 8}
interseção  dos conjuntos: {4, 5, 6}
diferença dos conjuntos: {1, 3}
conjunto é subconjunto de outro_conjunto? False
conjunto é superconjunto de outro_conjunto? False


In [53]:
# Operações booleanas
print(f'operador AND: {True and False}')
print(f'operador OR: {True or False}')
print(f'operador NOT: {not True}')

operador AND: False
operador OR: True
operador NOT: False


Apesar da diversidade de tipos de dados disponíveis em Python, como listas, tuplas e dicionários, nenhum deles oferece suporte nativo para operações matriciais avançadas. Esses tipos são excelentes para manipulação de dados genéricos, mas não são otimizados para cálculos numéricos intensivos, que são essenciais em campos como ciência de dados, engenharia e análise financeira.

É aqui que o NumPy se destaca. Esta biblioteca foi projetada especificamente para suprir essa lacuna, introduzindo um tipo de dado array que suporta operações matriciais e numéricas eficientes e diretas. Com NumPy, os usuários ganham uma liberdade ímpar para executar uma variedade de operações matemáticas, que vão desde simples adições até complexas transformações lineares, sem a necessidade de recorrer a loops explícitos ou outras estruturas de código menos eficientes. NumPy não só facilita a escrita de código mais limpo e mais rápido, mas também amplia significativamente as capacidades do Python em aplicações científicas e técnicas.

A seguir, exploraremos como o NumPy permite a criação e manipulação de matrizes, e como você pode utilizar essas capacidades para realizar cálculos numéricos complexos de forma eficiente.


## Operações com Temperaturas

Imagine a seguinte situação:
Gustavo, utilizando seu Arduino Uno e o sensor DHT, coletou dados sobre a temperatura local em Curitiba ao longo do dia 07/09/2024. As medições foram realizadas de hora em hora, começando às 18 horas, com os seguintes resultados:

- 18h: 30°C
- 19h: 23°C
- 20h: 22°C
- 21h: 20°C
- 22h: 19°C
- 23h: 18°C
- 00h: 17°C
- 01h: 17°C
- 02h: 17°C
- 03h: 16°C
- 04h: 16°C
- 05h: 15°C
- 06h: 14°C
- 07h: 15°C
- 08h: 17°C
- 09h: 21°C
- 10h: 26°C
- 11h: 28°C
- 12h: 29°C
- 13h: 31°C
- 14h: 32°C
- 15h: 31°C
- 16h: 30°C
- 17h: 30°C

Gustavo deseja converter e demonstrar esses valores em Fahrenheit e Kelvin para os seus alunos de Física.

### Fórmulas de Conversão

Para converter a temperatura de Celsius para Fahrenheit, utiliza-se a fórmula:
$$
F = C \times 1.8 + 32
$$

Para converter de Celsius para Kelvin, a fórmula é:
$$
K = C + 273.15
$$

Essas conversões ajudarão os alunos a entender como diferentes escalas de temperatura se correlacionam e são aplicadas em contextos científicos. Sem o Numpy, deveríamos fazer assim:


In [76]:
temperaturas_celsius = [
    30,  # 18h
    23,  # 19h
    22,  # 20h
    20,  # 21h
    19,  # 22h
    18,  # 23h
    17,  # 00h
    17,  # 01h
    17,  # 02h
    16,  # 03h
    16,  # 04h
    15,  # 05h
    14,  # 06h
    15,  # 07h
    17,  # 08h
    21,  # 09h
    26,  # 10h
    28,  # 11h
    29,  # 12h
    31,  # 13h
    32,  # 14h
    31,  # 15h
    30,  # 16h
    30   # 17h
]

In [77]:
# Convertendo Celsius para Fahrenheit
temperaturas_fahrenheit = [(c * 1.8 + 32) for c in temperaturas_celsius]
# Convertendo Celsius para Kelvin
temperaturas_kelvin = [(c + 273.15) for c in temperaturas_celsius]

In [78]:
print(f'Temperaturas em Celsius: {temperaturas_celsius}')
print(f'Temperaturas em Fahrenheit: {temperaturas_fahrenheit}')
print(f'Temperaturas em Kelvin: {temperaturas_kelvin}')

Temperaturas em Celsius: [30, 23, 22, 20, 19, 18, 17, 17, 17, 16, 16, 15, 14, 15, 17, 21, 26, 28, 29, 31, 32, 31, 30, 30]
Temperaturas em Fahrenheit: [86.0, 73.4, 71.6, 68.0, 66.2, 64.4, 62.6, 62.6, 62.6, 60.8, 60.8, 59.0, 57.2, 59.0, 62.6, 69.80000000000001, 78.80000000000001, 82.4, 84.2, 87.80000000000001, 89.6, 87.80000000000001, 86.0, 86.0]
Temperaturas em Kelvin: [303.15, 296.15, 295.15, 293.15, 292.15, 291.15, 290.15, 290.15, 290.15, 289.15, 289.15, 288.15, 287.15, 288.15, 290.15, 294.15, 299.15, 301.15, 302.15, 304.15, 305.15, 304.15, 303.15, 303.15]


Vamos criar esse mesmo exemplo com o Numpy

In [79]:
temperaturas_celsius_numpy = np.array([
    30,  # 18h
    23,  # 19h
    22,  # 20h
    20,  # 21h
    19,  # 22h
    18,  # 23h
    17,  # 00h
    17,  # 01h
    17,  # 02h
    16,  # 03h
    16,  # 04h
    15,  # 05h
    14,  # 06h
    15,  # 07h
    17,  # 08h
    21,  # 09h
    26,  # 10h
    28,  # 11h
    29,  # 12h
    31,  # 13h
    32,  # 14h
    31,  # 15h
    30,  # 16h
    30   # 17h
])

In [80]:
# Convertendo Celsius para Fahrenheit
temperaturas_fahrenheit_numpy = temperaturas_celsius_numpy * 1.8 + 32
# Convertendo Celsius para Kelvin
temperaturas_kelvin_numpy = temperaturas_celsius_numpy + 273.15

In [81]:
print(f'Temperaturas em Celsius: {temperaturas_celsius_numpy}')
print(f'Temperaturas em Fahrenheit: {temperaturas_fahrenheit_numpy}')
print(f'Temperaturas em Kelvin: {temperaturas_kelvin_numpy}')

Temperaturas em Celsius: [30 23 22 20 19 18 17 17 17 16 16 15 14 15 17 21 26 28 29 31 32 31 30 30]
Temperaturas em Fahrenheit: [86.  73.4 71.6 68.  66.2 64.4 62.6 62.6 62.6 60.8 60.8 59.  57.2 59.
 62.6 69.8 78.8 82.4 84.2 87.8 89.6 87.8 86.  86. ]
Temperaturas em Kelvin: [303.15 296.15 295.15 293.15 292.15 291.15 290.15 290.15 290.15 289.15
 289.15 288.15 287.15 288.15 290.15 294.15 299.15 301.15 302.15 304.15
 305.15 304.15 303.15 303.15]


## Considerações sobre o Uso de Listas e NumPy para Operações Matemáticas

Quando executamos a conversão de temperaturas com a linha `temperaturas_fahrenheit = [(c * 1.8 + 32) for c in temperaturas_celsius]`, estamos processando os cálculos item a item usando uma compreensão de lista. Esta abordagem, apesar de direta e simples para conjuntos de dados pequenos, torna-se computacionalmente custosa e menos eficiente à medida que o volume de dados aumenta para milhões ou até bilhões de registros.

### Vantagens do Uso de NumPy

Ao utilizar o NumPy e realizar a operação `temperaturas_fahrenheit_numpy = temperaturas_celsius_numpy * 1.8 + 32`, indicamos a operação diretamente no array. A biblioteca NumPy, então, executa a operação de vetorização, que processa o array inteiro em um único passo de cálculo ao invés de iterar sobre cada elemento individualmente. Essa característica traz várias vantagens:

- **Sintaxe Simplificada**: O código é mais limpo e mais fácil de escrever e entender, pois elimina a necessidade de loops explícitos ou compreensões de listas.
- **Otimização de Desempenho**: NumPy é construído sobre implementações em C e Fortran, o que permite que operações sobre arrays sejam extremamente rápidas e eficientes. Isso é especialmente importante em aplicações científicas e análises de dados que exigem a manipulação de grandes volumes de dados.
- **Consumo de Memória Reduzido**: Ao operar diretamente em arrays, NumPy utiliza uma estrutura de dados que consome menos memória do que listas nativas, especialmente quando os arrays são grandes.