# <font color=green> Ciência de Dados - Unesp 2024
---


### Prof. Clayton

Listas e arrays são dois dos objetos de coleção mais fundamentais e usados com frequência em [Python](https://www.python.org/).

Ambos são mutáveis, usados para armazenar uma coleção de elementos sob um nome comum, e cada elemento tem uma posição específica que pode ser usada para acessá-lo.

No entanto, existem algumas diferenças notáveis. As listas já estão embutidas no Python, enquanto para os arrays, precisamos importar arrays ou módulo [Numpy](https://numpy.org/) e declarar os arrays antes de usá-los. Os arrays também armazenam dados com mais eficiência na memória e são altamente usados para operações matemáticas.

In [None]:
from IPython.display import Image
Image(filename ="numpy.png", width=500, height=500)

In [1]:
a = [2, 4, 6, 8, 10]
b = [1, 3, 5, 7, 9]
c = []

for i in range(len(a)):
    a[i] = i ** 2
    b[i] = i ** 3
    c.append(a[i] + b[i])
print(f"O valor da lista a é: {a}")
print(f"O valor da lista b é: {b}")
print(f"O valor da lista c é: {c}")

O valor da lista a é: [0, 1, 4, 9, 16]
O valor da lista b é: [0, 1, 8, 27, 64]
O valor da lista c é: [0, 2, 12, 36, 80]


In [2]:
# List comprehension

a = [i ** 2 for i in range(len(a))]
b = [i ** 3 for i in range(len(b))]
c = [a[i] + b[i] for i in range(len(a))]
print(f"O valor da lista c é: {c}")

O valor da lista c é: [0, 2, 12, 36, 80]


In [3]:
c = [i ** 2 + i ** 3 for i in range(len(a))]
print(f"O valor da lista c é: {c}")

O valor da lista c é: [0, 2, 12, 36, 80]


In [6]:
a = [2, 4, 6, 8, 10]
b = [1, 3, 5, 7, 9]

c = [(a[i] * 2) + (b[i] * 3) for i in range(len(a))]
print(f"O valor da lista c é: {c}")

O valor da lista c é: [7, 17, 27, 37, 47]


In [55]:
import numpy as np
c = a+b
c

[2, 4, 6, 8, 10, 1, 3, 5, 7, 9]

# <font color=green> 1. LISTAS NO PYTHON
---

# 1.1 Criando listas

As listas são utilizadas para otimizarmos o processamento de declaração de ítens em uma váriável. São sequências **mutáveis**  utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:

```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

Imagine uma variável utilizada para armazenar acessórios de veículos, estando em uma lista, não é necessário criar uma variável para cada ítem:

In [7]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [8]:
type(Acessorios)

list

### Listas também podem aparecer com tipos de dados variados

In [9]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [11]:
len(Carro_2)

7

In [12]:
Carros = [Carro_1, Carro_2]
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

# 1.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [13]:
# Selecionar veiculo por uma determinada característica

'Rodas de liga' in Acessorios

True

In [14]:
# Esse ítem existe?

'4 x 4' in Acessorios

False

In [15]:
'Rodas de liga' not in Acessorios

False

In [16]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado']

In [17]:
B = ['Ar Condicionado', 'Sensores', 'Portas', 'Cor', 'Momdelo']

In [18]:
A

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado']

In [19]:
B

['Ar Condicionado', 'Sensores', 'Portas', 'Cor', 'Momdelo']

In [20]:
A+B

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Ar Condicionado',
 'Sensores',
 'Portas',
 'Cor',
 'Momdelo']

# 1.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

É interessante notarmos que listas são coleções ordenadas de itens nas quais a ordem é determinada por um índice de números inteiros que se inicia no 0.

In [21]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [22]:
# Busca de dados por índice

Acessorios[-2]

'Sensor crepuscular'

In [24]:
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

In [23]:
# Trava elétrica da lista

Carros[0][-2][1]

'Travas elétricas'

In [27]:
# Slice de índices

Acessorios[:5]

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado']

In [26]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [28]:
# Todos os ítens da lista da segunda posição em diante
Acessorios[2:]

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [29]:
# Todos os ítems até o 5°

Acessorios[:5]

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado']

# 1.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types


In [30]:
# Ordenando a Lista

Acessorios.sort()

In [31]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [32]:
# Adicionando informação a lista

Acessorios.append('4 x 4')

In [33]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

In [34]:
# Rremovendo elemento da lista (por padrão é o último elemento que será removido)

Acessorios.pop()

'4 x 4'

In [35]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [36]:
# Removendo determinado elemento da lista

Acessorios.pop(3)
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [38]:
# Criando variável Acessorios2 (Forma ERRADA para manipulação de dados em experimentos)

Acessorios2 = Acessorios
Acessorios2.append('Luz de led')

In [39]:
Acessorios2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 'Luz de led']

In [45]:
# Possuii o mesmo endereço na memória que Acessorios2
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [41]:
Acessorios.pop()

'Luz de led'

In [44]:
Acessorios2.append('Luz de led')

In [42]:
Acessorios2 = Acessorios.copy()
Acessorios2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [49]:
Acessorios2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 'Luz de led']

In [50]:
Acessorios2 = Acessorios[:]

In [51]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

# Exercício 1

In [52]:
# Temos o seguinte cenário:

Acessorios_exer1 = [
    'Rodas de liga',
    'Travas elétricas',
    'Piloto automático',
    'Bancos de couro',
    'Ar condicionado'
]

## # Apresente a sequencia de comandos utilizada para obtermos a seguinte saída:

['Airbag','Ar condicionado','Bancos de couro','Piloto automático','Rodas de liga', 'Travas elétricas']



In [53]:
# Qual  a sequencia de comando utilizada para obtermos essa saída:

Acessorios_exer1.append('Airbag')
Acessorios_exer1.append('Vidros elétricos')
Acessorios_exer1.sort()
Acessorios_exer1.pop()
Acessorios_exer1

['Airbag',
 'Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Travas elétricas']

# <font color=green> 2. INTRODUÇÃO AO NUMPY
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

Arange Numpy:
https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [56]:
import numpy as np

In [57]:
# Arange numpy
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
from numpy import arange

In [58]:
arange(10)

NameError: name 'arange' is not defined

# 2.1 Criando arrays Numpy

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [59]:
import numpy as np

In [60]:
arr = np.array([1234, 456678, 9865])
arr

array([  1234, 456678,   9865])

In [61]:
len(arr)

3

In [62]:
type(arr)

numpy.ndarray

In [63]:
arr.dtype

dtype('int64')

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [None]:
# O conjunto de dados do nosso projeto possui informações de veículos, como ano de fabricação, km e valor.

arr = np.loadtxt(fname = 'data/carros-km.txt', dtype=int)
len(arr)

In [None]:
arr.dtype

### Arrays com duas dimensões


In [64]:
# Lista de listas

dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [65]:
# Lista de listas

Acessorios = np.array(dados)
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [66]:
# Indexação entre linhas e colunas

Acessorios.shape

(3, 8)

### Comparando desempenho com listas

Agora que conhecemos um pouco do funcionamento desses arrays, ainda falta entendermos o motivo para utilizá-los ao invés das listas. Primeiramente, os arrays têm um desempenho muito melhor que o das listas quando fazemos operações matemáticas com eles.

In [67]:
# Recebe um arange de um milhão como parâmetro

np_array = np.arange(1000000)

In [68]:
py_list = list(range(1000000))

In [69]:
# Utilizando a função time no array numpy
%time for _ in range(100): np_array *= 2

CPU times: user 100 ms, sys: 0 ns, total: 100 ms
Wall time: 99.3 ms


In [70]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 4.44 s, sys: 698 ms, total: 5.14 s
Wall time: 5.14 s


# 2.2 Operações aritméticas com arrays Numpy

In [71]:
km = [44410,   5712,  37123,      0,  25757]
anos = [2003, 1991, 1990, 2021, 2006]

In [72]:
idade = 2024 - anos

TypeError: unsupported operand type(s) for -: 'int' and 'list'

In [73]:
km = np.array([44410,   5712,  37123,      0,  25757])
anos = np.array([2003, 1991, 1990, 2021, 2006])

In [74]:
idade = 2024 - anos
idade

array([21, 33, 34,  3, 18])

### Operações entre arrays


In [75]:
km_media = km / idade

In [76]:
km_media

array([2114.76190476,  173.09090909, 1091.85294118,    0.        ,
       1430.94444444])

In [77]:
44410 / (2024 - 2003)

2114.7619047619046

### Operações com arrays de duas dimensões

In [78]:
# Lista de lista array]
dados = np.array([km, anos])
dados

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2021,  2006]])

In [79]:
# Da mesma forma que fizemos com listas, o índice 0 indica que estamos acessando o primeiro ítem, ou seja
# o primeiro array contendo 5 informações. Já com dados[1] é acessado o sedunto índice/linha.

km_media = dados[0] / (2019 - dados[1])
km_media

array([2775.625     ,  204.        , 1280.10344828,   -0.        ,
       1981.30769231])

In [80]:
Image(filename ="array.png", width=800, height=800)

NameError: name 'Image' is not defined

# 2.3 Seleções com arrays Numpy

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [81]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [82]:
# Se quero determinada posição:
item = 6
index = item -1
index

5

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [None]:
dados

In [None]:
dados[1,2]

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

In [None]:
contador

In [None]:
# Quero do 1 até o 3
contador[1:4]

In [None]:
# passos = 2
contador[1:8:2]

In [None]:
# Pares
contador[::2]

In [None]:
contador[1::2]

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [None]:
contador

In [None]:
contador[contador > 5]

In [None]:
contador > 5

In [None]:
dados

In [None]:
dados[1] > 2000

In [None]:
dados[:, dados[1] > 2000]

## Exercícios

Vamos criar um dataset para aplicarmos alguns comandos do python e numpy.

 - Redimensionar o dataset (por exemplo, transformar 30 linhas em 10 linhas e 12 colunas)
 - Acessar o primeiro elemento (primeira linha) do dataset
 - Acessar o salário (terceira coluna) da terceira pessoa
 - Selecionar os salários de todos os funcionários
 - Concatenar o dataset com um array de bônus (por exemplo, uma nova coluna)
 - Transpor o dataset
 - Calcular a soma dos salários
 - Calcular a média dos anos de experiência
 - Calcular o desvio padrão das idades
 - Multiplicar o salário e os anos de experiência de cada funcionário
 - Calcular o produto da matriz transposta do dataset com ela mesma
 - Filtrar funcionários com salários maiores que 60.000
 - Ordenar o dataset pelo salário
 - Criar uma cópia do dataset

In [None]:
import numpy as np
import pandas as pd

# Definindo uma semente para garantir que os dados sejam reprodutíveis
np.random.seed(42)

# Criando um dataset fictício de 30 linhas (30 funcionários) com as colunas ID, Idade, Salário, Anos de Experiência
n = 30
ids = np.arange(1, n + 1)  # IDs de 1 a 30
idades = np.random.randint(20, 60, size=n)  # Idades entre 20 e 60 anos
salarios = np.random.randint(40000, 100000, size=n)  # Salários entre 40.000 e 100.000
anos_experiencia = np.random.randint(1, 35, size=n)  # Anos de experiência entre 1 e 35 anos

# Combinando os dados em um array
dataset = np.column_stack((ids, idades, salarios, anos_experiencia))

# Convertendo para DataFrame para visualização
df = pd.DataFrame(dataset, columns=['ID', 'Idade', 'Salário', 'Anos de Experiência'])

# Exibindo o DataFrame
# print(df)