# Numpy e Pandas

## **Numpy**

### O Que é Numpy?

O NumPy é uma biblioteca do Python usada principalmente para trabalhar com arrays (listas de números) de forma eficiente. Pense nele como uma ferramenta que te ajuda a lidar com grandes quantidades de dados numéricos de maneira rápida e organizada.<br>
Aqui estão alguns pontos importantes sobre o NumPy:

**Arrays Multidimensionais**: A principal estrutura do NumPy é o array, que pode ser pensado como uma lista de listas (ou uma tabela de dados). Por exemplo, você pode ter um array de 2D que se parece com uma planilha, com linhas e colunas.

**Operações Rápidas**: Com o NumPy, você pode realizar operações matemáticas em grandes conjuntos de dados muito mais rápido do que usando listas normais do Python. Isso porque ele é otimizado para esse tipo de tarefa.

**Funções Matemáticas**: O NumPy tem várias funções matemáticas prontas para uso, como somar todos os números de um array, encontrar a média, ou multiplicar matrizes.


Em resumo, o NumPy é como uma calculadora super eficiente para trabalhar com muitos números ao mesmo tempo no Python.<br><br>
![NUMPY](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSMrTWz33b86nfIrgaW9jE_t-7VCcqJtjL-pg&s)

### O Que é o Array Do Numpy?

Um array do NumPy é como uma "super lista" usada para armazenar e manipular grandes quantidades de dados numéricos de forma eficiente. Vamos imaginar que você tem uma caixa de ovos, onde cada compartimento é um espaço para armazenar um número. Agora, imagine que essa caixa pode ter várias dimensões: uma linha única (como uma lista simples), várias linhas e colunas (como uma planilha), ou até mais dimensões.<br>

Aqui está uma explicação passo a passo:<br>

**Estrutura**: Um array é uma estrutura que pode armazenar múltiplos valores, todos do mesmo tipo (por exemplo, todos inteiros ou todos números decimais). Isso é diferente de uma lista do Python, que pode armazenar diferentes tipos de dados.<br>

**Dimensões**: Arrays podem ter uma dimensão (vetor), duas dimensões (matriz, como uma tabela com linhas e colunas), ou mais. Por exemplo:<br>

Um array de 1D pode ser algo como [1, 2, 3].<br>
Um array de 2D pode ser algo como [[1, 2, 3], [4, 5, 6]].<br>


**Operações Vetorizadas**: Você pode realizar operações em todos os elementos do array de uma só vez, sem precisar de laços (loops). Por exemplo, se você tem um array a = [1, 2, 3] e multiplica por 2 (a * 2), o NumPy vai transformar isso automaticamente em [2, 4, 6].

**Exemplo Visual**: Imagine uma planilha do Excel onde você tem números em várias células. Um array do NumPy é como essa planilha, mas com a capacidade de realizar cálculos em todas as células de uma vez, de forma super rápida e eficiente.<br>

Em resumo, um array do NumPy é uma ferramenta poderosa para trabalhar com dados numéricos organizados em várias dimensões, permitindo que você manipule esses dados de forma rápida e eficiente.

#### Hands ON
agora conheceremos metodos do Numpy e situações que podemos fazer do uso.

In [2]:
import numpy as np

In [3]:
# numpy.array()
'''
O que faz: Cria um array NumPy a partir de uma lista ou lista de listas.

Motivo para utilizar: Transforma listas comuns do Python em arrays do NumPy, que são mais 
eficientes para cálculos matemáticos e operações científicas.
'''

# Array 1D
arr1 = np.array( [1, 2, 3] )
print( arr1 )

# Array 2D
arr2 = np.array( [ [1, 2, 3] , [4, 5, 6] ] )
print( arr2 )

[1 2 3]
[[1 2 3]
 [4 5 6]]


In [4]:
# numpy.zeros()
'''
O que faz: Cria um array preenchido com zeros.

Motivo para utilizar: Útil para inicializar arrays vazios com um valor padrão, 
como zeros, especialmente ao preparar estruturas de dados para cálculos.
'''

# Array 1D de zeros
zeros1 = np.zeros(5)
print(zeros1)  

# Array 2D de zeros
zeros2 = np.zeros((2, 3))
print(zeros2)  


[0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]


In [5]:
#numpy.arange()
'''
O que faz: Cria um array contendo uma sequência de números.

Motivo para utilizar: Ideal para gerar sequências de números, 
semelhante à função range() do Python, mas retorna um array NumPy.
'''

# Array de 0 a 9
arr = np.arange(10)
print(arr)  

# Array de 2 a 8 com passo de 2
arr_step = np.arange(2, 10, 2)
print(arr_step)  

[0 1 2 3 4 5 6 7 8 9]
[2 4 6 8]


In [6]:
# numpy.linspace()
'''
O que faz: Gera um array de números igualmente espaçados entre dois valores.

Motivo para utilizar: Excelente para criar distribuições de dados, especialmente em gráficos, onde você precisa de pontos igualmente espaçados.
python
'''

# 5 números igualmente espaçados entre 0 e 1
arr_lin = np.linspace(0, 1, 5)
print(arr_lin)  

[0.   0.25 0.5  0.75 1.  ]


In [7]:
# numpy.reshape()
'''
O que faz: Altera a forma (dimensões) de um array sem alterar os dados.

Motivo para utilizar: Útil para reorganizar dados, como transformar um 
array 1D em uma matriz 2D ou 3D.
'''

arr = np.arange(6)
print(arr)  #

# Redimensionar para um array 2D (2x3)
arr_reshaped = arr.reshape((2, 3))
print(arr_reshaped) 


[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


In [8]:
# numpy.sum()
'''
O que faz: Calcula a soma de todos os elementos do array ou ao longo de um eixo específico.
Motivo para utilizar: Útil para calcular rapidamente a soma total de elementos, 
como somar valores em uma tabela.
'''

arr = np.array([[1, 2, 3], [4, 5, 6]])

# Soma de todos os elementos
total_sum = np.sum(arr)
print(total_sum)  # Saída: 21

# Soma ao longo das linhas
sum_rows = np.sum(arr, axis=1)
print(sum_rows)  

21
[ 6 15]


In [9]:
# numpy.mean()

'''
O que faz: Calcula a média dos elementos do array.

Motivo para utilizar: Essencial para calcular a média de 
um conjunto de dados, uma medida comum de tendência central.
'''
arr = np.array([1, 2, 3, 4, 5])

# Média de todos os elementos
mean = np.mean(arr)
print(mean) 

3.0


## **Pandas**

### Iloc e Loc

iloc e loc são métodos utilizados para acessar dados em DataFrames e Series do Pandas.

#### iloc

O que é: O método iloc permite acessar elementos de um DataFrame ou Series utilizando índices numéricos (baseados na posição).

Motivo para utilizar: É ideal quando você deseja acessar dados com base em sua posição relativa no DataFrame ou Series, independentemente dos rótulos dos índices.

In [10]:
import pandas as pd

# Criando um DataFrame de exemplo
data = {'Nome': ['Ana', 'Bruno', 'Carlos'], 'Idade': [23, 35, 45], 'Cidade': ['SP', 'RJ', 'BH']}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

In [11]:
# Acessando uma linha pela posição
print(df.iloc[0])  

# Acessando uma célula específica (primeira linha e segunda coluna)
print(df.iloc[0, 1]) 

# Acessando múltiplas linhas e colunas pela posição
print(df.iloc[0:2, 0:2]) 

Nome      Ana
Idade      23
Cidade     SP
Name: a, dtype: object
23
    Nome  Idade
a    Ana     23
b  Bruno     35


#### loc

O que é: O método loc permite acessar elementos de um DataFrame ou Series utilizando rótulos (nomes) de linhas e colunas.

Motivo para utilizar: É útil quando você deseja acessar dados baseados nos nomes de índices ou colunas, tornando o código mais legível e menos propenso a erros, especialmente quando o índice não é numérico.

In [12]:
# Acessando uma linha pelo rótulo
print(df.loc['a'])  

# Acessando uma célula específica (linha 'b' e coluna 'Cidade')
print(df.loc['b', 'Cidade'])  # Saída: RJ

# Acessando múltiplas linhas e colunas
print(df.loc[['a', 'b'], ['Nome', 'Cidade']])

Nome      Ana
Idade      23
Cidade     SP
Name: a, dtype: object
RJ
    Nome Cidade
a    Ana     SP
b  Bruno     RJ


##### Operadores Logicos


Os operadores lógicos em conjunto com os métodos loc e iloc permitem realizar filtragens mais complexas e condições específicas ao selecionar dados em um DataFrame ou Series do Pandas. Esses operadores podem ser usados para aplicar condições que devem ser atendidas pelos dados, permitindo a extração de subconjuntos específicos.


**& (E lógico)**: Retorna True se ambas as condições forem verdadeiras.<br>

**| (OU lógico)**: Retorna True se pelo menos uma das condições for verdadeira.<br>

**~ (NÃO lógico)**: Inverte a condição, retornando True para False e vice-versa.

In [13]:
'''Suponha que você tenha um DataFrame com informações sobre pessoas,
e deseja filtrar as pessoas com mais de 30 anos que moram em "RJ":'''


# Criando um DataFrame de exemplo
data = {'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
        'Idade': [23, 35, 45, 30],
        'Cidade': ['SP', 'RJ', 'BH', 'RJ']}
df = pd.DataFrame(data)

# Filtrando pessoas com mais de 30 anos que moram no RJ
filtro = df.loc[(df['Idade'] > 30) & (df['Cidade'] == 'RJ')]
print(filtro)

    Nome  Idade Cidade
1  Bruno     35     RJ


Como iloc é baseado em posições, ele não trabalha diretamente com operadores lógicos sobre os dados. No entanto, você pode primeiro aplicar os operadores lógicos para filtrar linhas ou colunas e, em seguida, usar iloc para selecionar por posição.

In [None]:
# Filtrando por idade maior que 30
filtro = df[df['Idade'] > 30]

# Selecionando as duas primeiras linhas que atendem à condição
result = filtro.iloc[:2]
print(result)

##### Por que utilizar loc e iloc?<br>


**loc**: Use quando precisar trabalhar com rótulos de índice, tornando o código mais intuitivo e legível. É especialmente útil em DataFrames onde os índices são strings ou datas, e não números inteiros.<br>

**iloc**: Use quando trabalhar com posições numéricas, permitindo acesso baseado em índices zero-based (iniciando do zero). É útil para operações que dependem de posições específicas, como quando você deseja iterar ou realizar operações em subconjuntos de dados baseados na posição.<br>

Ambos os métodos oferecem flexibilidade e precisão na manipulação de dados em DataFrames e Series, tornando-os ferramentas essenciais no trabalho com Pandas.