#Introdução a numPy e Pandas
pandas e numpy são bibliotecas essenciais para análise de dados em Python. numpy fornece suporte para arrays eficientes e operações matemáticas, enquanto pandas usa essa base para trabalhar com dados estruturados em tabelas, facilitando a manipulação, análise e limpeza dos dados.

##Import das Bibliotecas

In [4]:
#Import das bibliotecas
import numpy as np
import pandas as pd

##numPy
O numpy é uma biblioteca fundamental para computação numérica em Python. Ela fornece suporte para arrays multidimensionais, que permitem armazenar e manipular grandes volumes de dados de forma eficiente. Além disso, oferece funções matemáticas de alto desempenho para cálculos científicos e análises complexas.

### Criação de um ndarray

Um ndarray (N-dimensional array) é o principal objeto da biblioteca numpy. Ele é uma estrutura de dados que armazena elementos de forma multidimensional em um array de tamanho fixo, onde todos os elementos devem ser do mesmo tipo (como inteiros, floats, etc.). O ndarray é altamente eficiente para operações matemáticas e computacionais.

In [9]:
#Vamos criar um ndarray simples
numbers = np.array([20, 30, 21, 23])
numbers

array([20, 30, 21, 23])

### Operações Matemáticas

In [11]:
#Multiplicação do ndarray por 2

numbers * 2

array([40, 60, 42, 46])

In [13]:
#Subtração do ndarray por 5

numbers - 5

array([15, 25, 16, 18])

In [15]:
#Multiplicação de dois ndarray
numbers2 = np.array([1, 2, 3, 4])

numbers * numbers2

array([20, 60, 63, 92])

### Seleção, Indexação e Fatiamento

In [27]:
#Selecionar todos os valores menores do que 3

numbers2[numbers2 < 3]

array([1, 2])

In [43]:
#retornar os três primeiro valores do primeiro array

numbers2[0:3]

array([1, 2, 3])

In [49]:
#Criar um ndarray de nomes
nomes = np.array(["Fukurou", "Jin Sakai", "Kratos", "Frieren"])
nomes


array(['Fukurou', 'Jin Sakai', 'Kratos', 'Frieren'], dtype='<U9')

In [47]:
#testar condição de um nome

nomes == "Jin Sakai"

array([False,  True, False])

In [57]:
#relacionar a condição do ndarray de nomes com o de valores
df = pd.DataFrame({
    "Nome": nomes,
    "Valor": numbers2
})

# Relacionando a condição do array de nomes ao de valores
# Exemplo de condição: selecionar valores relacionados com o nome "Ana"


condicao = df["Nome"] == "Kratos"

valores_selecionados = df[condicao]

valores_selecionados


Unnamed: 0,Nome,Valor
2,Kratos,3


### Funções Embutidas

In [65]:
numbers2

array([1, 2, 3, 4])

In [61]:
#Função embutida para somar os valores de um ndarray

numbers2.sum()

10

In [67]:
#Função embutida para realizar a média dos valores de um ndarray

numbers2.mean()

2.5

In [69]:
#Função embutida para retornar o valor máximo de um ndarray

numbers2.max()

4

## Pandas
Pandas é uma biblioteca de código aberto para análise de dados em Python. Ela é usada principalmente para manipulação, limpeza e análise de dados estruturados, como tabelas (similares às planilhas do Excel). Pandas fornece estruturas de dados eficientes e flexíveis, chamadas de Series (colunas unidimensionais) e DataFrames (tabelas bidimensionais).

In [75]:
#Dataframe nota dos alunos
data = {
    'Aluno': ['Robb', 'Jon', 'Arya'],
    'Matemática': [85, 90, 95],
    'História': [88, 92, 80],
    'Ciências': [90, 85, 88]
}

#realizar a leitura de um Dataframe
df_notas = pd.DataFrame(data)


#Exibir os 5 primeiros registros
df_notas.head()
# df_notas.tail()

Unnamed: 0,Aluno,Matemática,História,Ciências
0,Robb,85,88,90
1,Jon,90,92,85
2,Arya,95,80,88


Um DataFrame do pandas é uma tabela composta por dados organizados em linhas e colunas, com cada coluna tendo seu próprio tipo de dado. O índice ajuda a identificar e acessar as linhas de forma eficiente.

### Operações Matemáticas

In [79]:
#Multiplicação de uma coluna de um Dataframe pandas
df_notas["Matemática"] * 3


0    255
1    270
2    285
Name: Matemática, dtype: int64

In [81]:
#Divisão de uma coluna de um Dataframe pandas
df_notas["Matemática"] / 3


0    28.333333
1    30.000000
2    31.666667
Name: Matemática, dtype: float64

In [83]:
#Subtração de uma coluna de um Dataframe pandas
df_notas["Matemática"] - 3


0    82
1    87
2    92
Name: Matemática, dtype: int64

In [85]:
df_notas["História"].mean()

86.66666666666667

### Seleção

In [88]:
#Selecionar dados de uma coluna
df_notas["Ciências"]

0    90
1    85
2    88
Name: Ciências, dtype: int64

In [90]:
#Selecionar duas colunas
df_notas[["Matemática", "Ciências"]]

Unnamed: 0,Matemática,Ciências
0,85,90
1,90,85
2,95,88


### Filtros

O **iloc** é um método do pandas usado para acessar dados de um DataFrame ou Series com base na posição das linhas e colunas, ou seja, por índices numéricos. O nome "iloc" vem de integer location, o que significa que ele utiliza números inteiros para identificar a localização dos dados

In [94]:
#Selecione a primeira posição das linhas
df_notas.iloc[0]


Aluno         Robb
Matemática      85
História        88
Ciências        90
Name: 0, dtype: object

In [51]:
#Selecione as notas de um Aluno
df_notas[ (df_notas["Aluno"] == "Jon") | (df_notas["Aluno"] == "Arya") ]

Unnamed: 0,Aluno,Matemática,História,Ciências
1,Jon,90,92,85
2,Arya,95,80,88


O loc é um método do pandas utilizado para acessar dados em um DataFrame ou Series com base no rótulo das linhas e colunas, ou seja, por nomes e rótulos, ao contrário do iloc que usa posições numéricas.

In [55]:
#Selecione as notas de um Aluno com loc
df_notas.loc[df_notas["Aluno"] == "Jon"]

Unnamed: 0,Aluno,Matemática,História,Ciências
1,Jon,90,92,85


In [56]:
df_notas

Unnamed: 0,Aluno,Matemática,História,Ciências
0,Robb,85,88,90
1,Jon,90,92,85
2,Arya,95,80,88


In [60]:
#Alteração de um valor de coluna baseado em uma condição
df_notas.loc[df_notas["Aluno"] == "Jon", "Matemática"] = 22


In [61]:
#Visualizar o Dataframe
df_notas


Unnamed: 0,Aluno,Matemática,História,Ciências
0,Robb,85,88,90
1,Jon,22,92,85
2,Arya,95,80,88


### Funções Embutidas

In [103]:
#Qual a média da turma na matéria de Matemática?
df_notas["Matemática"].median()

90.0

In [78]:
df_notas

Unnamed: 0,Aluno,Matemática,História,Ciências
0,Robb,85,88,90
1,Jon,22,92,85
2,Arya,95,80,88


In [117]:
#Qual a média geral do Aluno chamado Robb
#df_notas[(df_notas["Aluno"] == "Robb")].iloc[:, 1:4].mean(axis=1)
df_notas[(df_notas["Aluno"] == "Robb")].iloc[:, 1:4].mean(axis=1)

0    87.666667
dtype: float64