#Introdução a numPy e Pandas
pandas e numpy são bibliotecas essenciais para análise de dados em Python. numpy fornece suporte para arrays eficientes e operações matemáticas, enquanto pandas usa essa base para trabalhar com dados estruturados em tabelas, facilitando a manipulação, análise e limpeza dos dados.

##Import das Bibliotecas

In [None]:
!pip install numpy



In [None]:
#Import das bibliotecas
import numpy as np
import pandas as pd

##numPy
O numpy é uma biblioteca fundamental para computação numérica em Python. Ela fornece suporte para arrays multidimensionais, que permitem armazenar e manipular grandes volumes de dados de forma eficiente. Além disso, oferece funções matemáticas de alto desempenho para cálculos científicos e análises complexas.

### Criação de um ndarray

Um ndarray (N-dimensional array) é o principal objeto da biblioteca numpy. Ele é uma estrutura de dados que armazena elementos de forma multidimensional em um array de tamanho fixo, onde todos os elementos devem ser do mesmo tipo (como inteiros, floats, etc.). O ndarray é altamente eficiente para operações matemáticas e computacionais.

In [29]:
#Vamos criar um ndarray simples

arr = np.array([
    [5,6,7,8],
    [8,8,8,8],
    [10,5,7,9],
    [1,1,1,1]
])

arr.dtype

dtype('int64')

### Operações Matemáticas

In [None]:
#Multiplicação do ndarray por 2
arr * 2


array([[10, 12, 14, 16],
       [16, 16, 16, 16],
       [ 2,  2,  2,  2]])

In [None]:
#Subtração do ndarray por 5

arr - 5

array([[ 0,  1,  2,  3],
       [ 3,  3,  3,  3],
       [-4, -4, -4, -4]])

In [18]:
#Multiplicação de dois ndarray

arr * arr

array([[25, 36, 49, 64],
       [64, 64, 64, 64],
       [ 1,  1,  1,  1]])

### Seleção, Indexação e Fatiamento

In [21]:
#Selecionar todos os valores menores do que 3
arr[arr < 3]


array([1, 1, 1, 1])

In [25]:
#retornar os três primeiro valores do primeiro array
arr[0:1, 0:3]


[[5 6 7 8]
 [8 8 8 8]
 [1 1 1 1]]


array([[5, 6, 7]])

In [28]:
#indexações booleana
arr [ arr < 10]

array([5, 6, 7, 8, 8, 8, 8, 8, 1, 1, 1, 1])

In [30]:
#Criar um ndarray de nomes

nomes = np.array(["Erick","Luiz","Luiz","gustavo"])
nomes

array(['Erick', 'Luiz', 'Luiz', 'gustavo'], dtype='<U7')

In [32]:
#testar condição de um nome

nomes == "Luiz"

array([False,  True,  True, False])

In [33]:
#relacionar a condição do ndarray de nomes com o de valores

arr[nomes == "Luiz"]

array([[ 8,  8,  8,  8],
       [10,  5,  7,  9]])

### Funções Embutidas

In [34]:
#Função embutida para somar os valores de um ndarray

np.sum(arr)

93

In [35]:
#Função embutida para realizar a média dos valores de um ndarray

np.mean(arr[0])

6.5

In [36]:
#Função embutida para retornar o valor máximo de um ndarray

arr.max()

10

## Pandas
Pandas é uma biblioteca de código aberto para análise de dados em Python. Ela é usada principalmente para manipulação, limpeza e análise de dados estruturados, como tabelas (similares às planilhas do Excel). Pandas fornece estruturas de dados eficientes e flexíveis, chamadas de Series (colunas unidimensionais) e DataFrames (tabelas bidimensionais).

In [39]:
#Dataframe nota dos alunos
data = {
    'Aluno': ['Robb', 'Jon', 'Arya'],
    'Matemática': [85, 90, 95],
    'História': [88, 92, 80],
    'Ciências': [90, 85, 88]
}

#realizar a leitura de um Dataframe
df_notas = pd.DataFrame(data)

#Exibir os 5 primeiros registros head().tail para trazer os 5 ultimos
df_notas.head()


Unnamed: 0,Aluno,Matemática,História,Ciências
0,Robb,85,88,90
1,Jon,90,92,85
2,Arya,95,80,88


Um DataFrame do pandas é uma tabela composta por dados organizados em linhas e colunas, com cada coluna tendo seu próprio tipo de dado. O índice ajuda a identificar e acessar as linhas de forma eficiente.

### Operações Matemáticas

In [38]:
#Multiplicação de uma coluna de um Dataframe pandas

df_notas['Matemática'] * 3

Unnamed: 0,Matemática
0,255
1,270
2,285


In [40]:
#Divisão de uma coluna de um Dataframe pandas

df_notas['Matemática'] / 2

Unnamed: 0,Matemática
0,42.5
1,45.0
2,47.5


In [41]:
df_notas.columns

Index(['Aluno', 'Matemática', 'História', 'Ciências'], dtype='object')

In [44]:
df_notas['Mat_ciencia'] = df_notas['Matemática'] + df_notas['Ciências']
df_notas.head()

Unnamed: 0,Aluno,Matemática,História,Ciências,Mat_ciencia
0,Robb,265,88,90,355
1,Jon,260,92,85,345
2,Arya,271,80,88,359


In [45]:
df_notas.dtypes

Unnamed: 0,0
Aluno,object
Matemática,int64
História,int64
Ciências,int64
Mat_ciencia,int64


In [46]:
#Subtração de uma coluna de um Dataframe pandas

df_notas['Matemática'] - 5

Unnamed: 0,Matemática
0,260
1,255
2,266


In [48]:
df_notas['História']= df_notas['História'].astype(str)
df_notas.dtypes

Unnamed: 0,0
Aluno,object
Matemática,int64
História,object
Ciências,int64
Mat_ciencia,int64


In [49]:
df_notas['História']= df_notas['História'].astype(int)
df_notas.dtypes

Unnamed: 0,0
Aluno,object
Matemática,int64
História,int64
Ciências,int64
Mat_ciencia,int64


### Seleção

In [50]:
#Selecionar dados de uma coluna
df_notas['Matemática']


Unnamed: 0,Matemática
0,265
1,260
2,271


In [53]:
#Selecionar duas colunas
df_notas[['Matemática', 'História']]


Unnamed: 0,Matemática,História
0,265,88
1,260,92
2,271,80


### Filtros

O **iloc** é um método do pandas usado para acessar dados de um DataFrame ou Series com base na posição das linhas e colunas, ou seja, por índices numéricos. O nome "iloc" vem de integer location, o que significa que ele utiliza números inteiros para identificar a localização dos dados

In [54]:
#Selecione a primeira posição das linhas
df_notas.iloc[0]


Unnamed: 0,0
Aluno,Robb
Matemática,265
História,88
Ciências,90
Mat_ciencia,355


In [56]:
#Selecione as notas de um Aluno
df_notas[ (df_notas['Aluno']== 'Jon') | (df_notas['Aluno']== 'Arya')]


Unnamed: 0,Aluno,Matemática,História,Ciências,Mat_ciencia
1,Jon,260,92,85,345
2,Arya,271,80,88,359


O loc é um método do pandas utilizado para acessar dados em um DataFrame ou Series com base no rótulo das linhas e colunas, ou seja, por nomes e rótulos, ao contrário do iloc que usa posições numéricas.

In [57]:
#Selecione as notas de um Aluno com loc

df_notas.loc[df_notas['Aluno'] == 'Jon']

Unnamed: 0,Aluno,Matemática,História,Ciências,Mat_ciencia
1,Jon,260,92,85,345


In [62]:
#Alteração de um valor de coluna baseado em uma condição

df_notas.loc[df_notas['Aluno'] == 'Jon', 'Matemática'] = 80

In [63]:
#Visualizar o Dataframe
df_notas.head()


Unnamed: 0,Aluno,Matemática,História,Ciências,Mat_ciencia
0,Robb,265,88,90,355
1,Jon,80,92,85,345
2,Arya,271,80,88,359


### Funções Embutidas

In [68]:
#Qual a média da turma na matéria de Matemática?

df_notas['Matemática'].mean()

205.33333333333334

In [78]:
df_notas[df_notas['Aluno']== 'Robb'].head()

Unnamed: 0,Aluno,Matemática,História,Ciências,Mat_ciencia
0,Robb,265,88,90,355


In [76]:
#Qual a média geral do Aluno chamado Robb
df_notas[
    (df_notas['Aluno'] == 'Robb')
].iloc[:, 1:4].mean(axis=1)


Unnamed: 0,0
0,147.666667
