![aula06capa.png](./figuras/aula06capa.png)

## 1. Introdução às Bibliotecas

Contextualizar numpy e pandas no ecossistema Python para ciência de dados, abordando suas principais diferenças e quando usar cada uma.

- numpy: Focado em operações com arrays e cálculos numéricos de alto desempenho.

- pandas: Voltado para manipulação e análise de dados, especialmente estruturados em formato de tabela.

In [1]:
import numpy as np
import pandas as pd

## 2. Fundamentos do numpy

In [2]:
np.__version__ # Versão da biblioteca

'1.25.0'

In [3]:
pd.__version__

'2.0.1'

### 2.1 Criando Arrays a partir de Listas em Python

Primeiro, podemos usar `np.array` para criar arrays a partir de listas em Python:

In [101]:
# integer array:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

Lembre-se de que, ao contrário das listas em Python, o NumPy é restrito a arrays que contêm todos os elementos do mesmo tipo.
Se os tipos não forem compatíveis, o NumPy fará o *upcast* se possível (aqui, inteiros são convertidos para ponto flutuante):

In [103]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

Se quisermos definir explicitamente o tipo de dado do array resultante, podemos usar o parâmetro ``dtype``:


In [104]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

Por fim, ao contrário das listas em Python, os arrays do NumPy podem ser explicitamente multidimensionais; aqui está uma maneira de inicializar um array multidimensional usando uma lista de listas:

In [105]:
# Criando arrays unidimensionais e multidimensionais
array_1d = np.array([1, 2, 3, 4])
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
array_3d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Array 1D:", array_1d)
print("Array 2D:", array_2d)
print("Array 3D:", array_3d)

Array 1D: [1 2 3 4]
Array 2D: [[1 2 3]
 [4 5 6]]
Array 3D: [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [106]:
# listas aninhadas resultam em arrays multidimensionais
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

As listas internas são tratadas como linhas do array bidimensional resultante.

### 2.2 Criando Arrays do Zero

Especialmente para arrays maiores, é mais eficiente criar arrays do zero usando rotinas integradas no NumPy.
Aqui estão alguns exemplos:


In [110]:
alunos = np.zeros(15, dtype=np.int8)
alunos

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [9]:
# Criar um array de inteiros de comprimento 10 preenchido com zeros
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [114]:
# Criar um array de ponto flutuante 3x5 preenchido com uns
vetor_uns = np.ones((3, 5), dtype=np.int8)
vetor_uns

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int8)

In [115]:
10 * vetor_uns

array([[10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10]], dtype=int8)

In [11]:
# Criar um array 3x5 preenchido com 3.14
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [116]:
# Criar um array 3x5 preenchido com 3.14
np.full((3, 5), 10)

array([[10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10]])

In [117]:
# Criar um array preenchido com uma sequência linear. Começando em 0, terminando em 20, com passo de 2
# (isso é similar à função range())
np.arange(start=0,stop=20,step=2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [119]:
np.arange(start=1,stop=101,step=3)

array([  1,   4,   7,  10,  13,  16,  19,  22,  25,  28,  31,  34,  37,
        40,  43,  46,  49,  52,  55,  58,  61,  64,  67,  70,  73,  76,
        79,  82,  85,  88,  91,  94,  97, 100])

In [122]:
# Criar um array com cinco valores espaçados uniformemente entre 0 e 1
np.linspace(start=0, stop=1, num=100)

array([0.        , 0.01010101, 0.02020202, 0.03030303, 0.04040404,
       0.05050505, 0.06060606, 0.07070707, 0.08080808, 0.09090909,
       0.1010101 , 0.11111111, 0.12121212, 0.13131313, 0.14141414,
       0.15151515, 0.16161616, 0.17171717, 0.18181818, 0.19191919,
       0.2020202 , 0.21212121, 0.22222222, 0.23232323, 0.24242424,
       0.25252525, 0.26262626, 0.27272727, 0.28282828, 0.29292929,
       0.3030303 , 0.31313131, 0.32323232, 0.33333333, 0.34343434,
       0.35353535, 0.36363636, 0.37373737, 0.38383838, 0.39393939,
       0.4040404 , 0.41414141, 0.42424242, 0.43434343, 0.44444444,
       0.45454545, 0.46464646, 0.47474747, 0.48484848, 0.49494949,
       0.50505051, 0.51515152, 0.52525253, 0.53535354, 0.54545455,
       0.55555556, 0.56565657, 0.57575758, 0.58585859, 0.5959596 ,
       0.60606061, 0.61616162, 0.62626263, 0.63636364, 0.64646465,
       0.65656566, 0.66666667, 0.67676768, 0.68686869, 0.6969697 ,
       0.70707071, 0.71717172, 0.72727273, 0.73737374, 0.74747

In [14]:
# Criar um array 3x3 de valores aleatórios distribuídos uniformemente entre 0 e 1
np.random.random((3, 3))

array([[0.80696857, 0.38008283, 0.80943045],
       [0.2250345 , 0.28882507, 0.39807221],
       [0.16185956, 0.70585788, 0.36362484]])

In [15]:
# Criar um array 3x3 de valores aleatórios distribuídos normalmente
# com média 0 e desvio padrão 1
np.random.normal(0, 1, (3, 3))

array([[ 0.16653666, -1.34372202, -1.19066537],
       [-0.69104825,  0.69425436,  0.43035604],
       [-0.27930449,  0.8681903 ,  1.18740791]])

In [16]:
# Criar um array 3x3 de inteiros aleatórios no intervalo [0, 10)
np.random.randint(0, 10, (3, 3))

array([[8, 8, 0],
       [8, 4, 8],
       [1, 2, 5]])

In [123]:
np.random.randint(0, 10, (3, 5))

array([[0, 2, 7, 2, 9],
       [2, 3, 3, 2, 3],
       [4, 1, 2, 9, 1]])

In [128]:
# Criar uma matriz identidade  3x3
np.eye(5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]], dtype=int8)

### 2.3 Tipos de Dados Padrão do NumPy

Arrays do NumPy contêm valores de um único tipo, então é importante ter um conhecimento detalhado desses tipos e suas limitações.
Como o NumPy é construído em C, os tipos serão familiares para usuários de C, Fortran e outras linguagens relacionadas.

Os tipos de dados padrão do NumPy estão listados na tabela a seguir.
Observe que, ao construir um array, eles podem ser especificados usando uma string:

```python
np.zeros(10, dtype='int16')

Ou usando o objeto associado do NumPy:

np.zeros(10, dtype=np.int16)




| Tipo de dado   | Descrição |
|--------------- |-----------|
| `bool_`        | Booleano (Verdadeiro ou Falso) armazenado como um byte |
| `int_`         | Tipo de inteiro padrão (igual ao `long` em C; normalmente `int64` ou `int32`) |
| `intc`         | Idêntico ao `int` em C (normalmente `int32` ou `int64`) |
| `intp`         | Inteiro usado para indexação (igual a `ssize_t` em C; normalmente `int32` ou `int64`) |
| `int8`         | Byte (-128 a 127) |
| `int16`        | Inteiro (-32768 a 32767) |
| `int32`        | Inteiro (-2147483648 a 2147483647) |
| `int64`        | Inteiro (-9223372036854775808 a 9223372036854775807) |
| `uint8`        | Inteiro sem sinal (0 a 255) |
| `uint16`       | Inteiro sem sinal (0 a 65535) |
| `uint32`       | Inteiro sem sinal (0 a 4294967295) |
| `uint64`       | Inteiro sem sinal (0 a 18446744073709551615) |
| `float_`       | Abreviação para `float64`. |
| `float16`      | Float de meia precisão: bit de sinal, 5 bits para o expoente, 10 bits para a mantissa |
| `float32`      | Float de precisão simples: bit de sinal, 8 bits para o expoente, 23 bits para a mantissa |
| `float64`      | Float de precisão dupla: bit de sinal, 11 bits para o expoente, 52 bits para a mantissa |
| `complex_`     | Abreviação para `complex128`. |
| `complex64`    | Número complexo, representado por dois floats de 32 bits |
| `complex128`   | Número complexo, representado por dois floats de 64 bits |


### 2.4 Conceitos Básicos de Arrays do NumPy


A manipulação de dados em Python é quase sinônimo de manipulação de arrays do NumPy: até mesmo o Pandas é construído em torno dos arrays do NumPy.

Aqui, abordaremos algumas categorias de manipulações básicas de arrays:

- Atributos de arrays: Determinando o tamanho, forma, consumo de memória e tipos de dados dos arrays
- Indexação de arrays: Obtendo e definindo o valor de elementos individuais do array
- Fatiamento de arrays: Obtendo e definindo subarrays menores dentro de um array maior
- Remodelagem de arrays: Alterando a forma de um array existente
- Junção e divisão de arrays: Combinando vários arrays em um, e dividindo um array em muitos


Primeiro, vamos discutir alguns atributos úteis de arrays. Começaremos definindo três arrays aleatórios: um unidimensional, um bidimensional e um tridimensional. Usaremos o gerador de números aleatórios do NumPy, que será inicializado com um valor definido para garantir que os mesmos arrays aleatórios sejam gerados cada vez que este código for executado:


In [151]:
import numpy as np
np.random.seed(10)  # função para "pseudo"-aleatoriedade

x1 = np.random.randint(10, size=6)  # array 1D
x2 = np.random.randint(10, size=(3, 4))  # array 2D
x3 = np.random.randint(10, size=(3, 4, 5))  # array 3D - define o formato do array com 3 "blocos" de 4 linhas e 5 colunas.

print("x1:\n",x1)
print("x2:\n",x2)
print("x3:\n",x3)

x1:
 [9 4 0 1 9 0]
x2:
 [[1 8 9 0]
 [8 6 4 3]
 [0 4 6 8]]
x3:
 [[[1 8 4 1 3]
  [6 5 3 9 6]
  [9 1 9 4 2]
  [6 7 8 8 9]]

 [[2 0 6 7 8]
  [1 7 1 4 0]
  [8 5 4 7 8]
  [8 2 6 2 8]]

 [[8 6 6 5 6]
  [0 0 6 9 1]
  [8 9 1 2 8]
  [9 9 5 0 2]]]


Cada array possui os atributos `ndim` (o número de dimensões), `shape` (o tamanho de cada dimensão) e `size` (o tamanho total do array):

In [152]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


In [153]:
print("x3 ndim: ", x2.ndim)
print("x3 shape:", x2.shape)
print("x3 size: ", x2.size)

x3 ndim:  2
x3 shape: (3, 4)
x3 size:  12


Outro atributo útil é o `dtype`, o tipo de dado do array; Outros atributos incluem `itemsize`, que lista o tamanho (em bytes) de cada elemento do array, e `nbytes`, que lista o tamanho total (em bytes) do array:

In [154]:
print("dtype:", x3.dtype)
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

dtype: int64
itemsize: 8 bytes
nbytes: 480 bytes


In [156]:
x4 = np.random.randint(10, size=(3, 4, 5), dtype=np.int8)  # array 3D - define o formato do array com 3 "blocos" de 4 linhas e 5 colunas.
x4

array([[[8, 8, 6, 1, 0],
        [2, 5, 8, 9, 1],
        [1, 1, 0, 4, 1],
        [1, 7, 3, 9, 2]],

       [[0, 2, 3, 0, 8],
        [2, 2, 2, 9, 5],
        [5, 9, 0, 0, 3],
        [0, 7, 8, 4, 6]],

       [[5, 1, 3, 1, 6],
        [9, 0, 6, 8, 9],
        [6, 2, 5, 0, 5],
        [2, 8, 3, 1, 0]]], dtype=int8)

In [157]:
print("dtype:", x4.dtype)
print("itemsize:", x4.itemsize, "bytes")
print("nbytes:", x4.nbytes, "bytes")

dtype: int8
itemsize: 1 bytes
nbytes: 60 bytes


### 2.5 Indexação de Arrays: Acessando Elementos Individuais

Se você está familiarizado com a indexação padrão de listas em Python, a indexação no NumPy parecerá bastante familiar.
Em um array unidimensional, o $i^{th}$ valor (contando a partir de zero) pode ser acessado especificando o índice desejado entre colchetes, assim como nas listas em Python:


In [165]:
print(x1)
print(f'Elemento da primeira posição: {x1[0]}')
print(f'Elemento da última posição: {x1[-1]}')
print(f'Elemento da antepenúltima posição: {x1[-3]}')

[9 4 0 1 9 0]
Elemento da primeira posição: 9
Elemento da última posição: 0
Elemento da antepenúltima posição: 1


Para indexar a partir do final do array, você pode usar índices negativos:


In [166]:
print(x1[-1])
print(x1[-5])

0
4


Em um array multidimensional, os elementos podem ser acessados usando uma tupla de índices separada por vírgulas:


In [170]:
print(x2)
print(x2[0, 0])
print(x2[0, 3])
print(x2[-1, -1]) #última linha e última coluna

print(x2[1,2]) #última linha e última coluna

[[1 8 9 0]
 [8 6 4 3]
 [0 4 6 8]]
1
0
8
4


Os valores também podem ser modificados usando qualquer uma das notações de índice mencionadas acima:

In [171]:
x2[0, 0] = 12
print(x2)

[[12  8  9  0]
 [ 8  6  4  3]
 [ 0  4  6  8]]


In [177]:
# x2[inicio:fim:passo]
x1



array([3, 4, 0, 1, 9, 0])

In [179]:
sub_x1 = x1[2:4]
sub_x1

array([0, 1])

In [180]:
sub_x1 = x1[1:5]
sub_x1

array([4, 0, 1, 9])

In [187]:
x1

array([3, 4, 0, 1, 9, 0])

In [186]:
x1[::-1]

array([0, 9, 1, 0, 4, 3])

In [191]:
numeros_ordenados = np.sort(x1)
numeros_ordenados[::-1]

array([9, 4, 3, 1, 0, 0])

Lembre-se de que, ao contrário das listas em Python, os arrays do NumPy têm um tipo fixo.
Isso significa, por exemplo, que se você tentar inserir um valor de ponto flutuante em um array de inteiros, o valor será truncado "silenciosamente". Não seja pego de surpresa por esse comportamento!


In [172]:
print("Valor anterior:", x1)
x1[0] = 3.14159  # this will be truncated!
print("Valor após alteração:", x1)

Valor anterior: [9 4 0 1 9 0]
Valor após alteração: [3 4 0 1 9 0]


### 2.6 "Slicing" de Arrays: Acessando Subarrays

Assim como podemos usar colchetes para acessar elementos individuais de um array, também podemos usá-los para acessar subarrays com a notação de *fatiamento*, marcada pelo caractere dois pontos (`:`).
A sintaxe de fatiamento do NumPy segue a das listas padrão do Python; para acessar uma fatia de um array `x`, use:
``` python
x[inicio:fim:passo]
```

Se algum desses parâmetros não for especificado, eles assumem os valores padrão `inicio=0`, `fim=`*`tamanho da dimensão`*, `passo=1`.
Vamos explorar o acesso a subarrays em uma dimensão e em múltiplas dimensões.


In [173]:
x = np.arange(10)
print(x)

print(x[:5])  # primeiros 5 elementos
print(x[5:]) # elementos após o índice 5 (incluindo)
print(x[4:7])  # sub-array central
print(x[::2]) # inicio ao fim de 2 em 2
print(x[1::2])  # iniciando no indíce 1 e passando de 2 em 2

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4]
[5 6 7 8 9]
[4 5 6]
[0 2 4 6 8]
[1 3 5 7 9]


Um caso potencialmente confuso ocorre quando o valor de `passo` é negativo.
Nesse caso, os valores padrão de `inicio` e `fim` são invertidos.
Essa é uma maneira conveniente de inverter um array:


In [193]:
print(x[::-1])  # invertendo todo os elementos
print(x[5::-2])  # invertido a cada dois elementos a partir do índice 5

[9 8 7 6 5 4 3 2 1 0]
[5 3 1]


In [195]:
print(x2)
print("------")
print(x2[:2, :3]) #apenas duas linhas e 3 colunas
print("------")
print(x2[::, ::2])  # todas as linhas, a cada duas colunas
print("------")
print(x2[::-1, ::-1]) # revertendo os elementos

[[12  8  9  0]
 [ 8  6  4  3]
 [ 0  4  6  8]]
------
[[12  8  9]
 [ 8  6  4]]
------
[[12  9]
 [ 8  4]
 [ 0  6]]
------
[[ 8  6  4  0]
 [ 3  4  6  8]
 [ 0  9  8 12]]


In [197]:
x2

array([[12,  8,  9,  0],
       [ 8,  6,  4,  3],
       [ 0,  4,  6,  8]])

In [199]:
# x2[row, col]
x2[:2, 0]

array([12,  8])

In [200]:
x2[1, :]

array([8, 6, 4, 3])

#### Acessando linhas e colunas de um array

Uma rotina comumente necessária é o acesso a linhas ou colunas individuais de um array.
Isso pode ser feito combinando indexação e fatiamento, usando uma fatia vazia marcada por um único dois pontos (`:`):


In [29]:
print(x2)
print('------------')
print(x2[:, 0])  # primeira coluna de x2
print('------------')
print(x2[0, :])  # primeira linha de x2
print('------------')
print(x2[0])  # igual a x2[0, :] -> primeira linha de x2

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]
------------
[12  7  1]
------------
[12  5  2  4]
------------
[12  5  2  4]


#### Subarrays como visualizações sem cópia

Uma coisa importante – e extremamente útil – a saber sobre o fatiamento de arrays é que ele retorna *visualizações* em vez de *cópias* dos dados do array.
Esta é uma área em que o fatiamento de arrays no NumPy difere do fatiamento de listas em Python: em listas, as fatias serão cópias.
Considere nosso array bidimensional anterior:


In [201]:
print(x2)

[[12  8  9  0]
 [ 8  6  4  3]
 [ 0  4  6  8]]


Vamos extrair um subarray $2 \times 2$ deste:

In [202]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  8]
 [ 8  6]]


Agora, se modificarmos este subarray, veremos que o array original é alterado! Observe:

In [203]:
x2_sub[0, 0] = 99
print(x2_sub)

print("------------")

print(x2)

[[99  8]
 [ 8  6]]
------------
[[99  8  9  0]
 [ 8  6  4  3]
 [ 0  4  6  8]]


Esse comportamento padrão é, na verdade, bastante útil: ele significa que, ao trabalharmos com grandes conjuntos de dados, podemos acessar e processar partes desses conjuntos sem a necessidade de copiar o buffer de dados subjacente.


#### Criando cópias de arrays

Apesar das boas funcionalidades das visualizações de arrays, às vezes é útil copiar explicitamente os dados dentro de um array ou subarray. Isso pode ser feito facilmente com o método `copy()`:


In [204]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

print("-----------")

x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

print("-----------")
print(x2)

[[99  8]
 [ 8  6]]
-----------
[[42  8]
 [ 8  6]]
-----------
[[99  8  9  0]
 [ 8  6  4  3]
 [ 0  4  6  8]]


### 2.7 Praticando com o numpy

Imagine que você tem dados de temperaturas diárias (em graus Celsius) para uma semana, registrados em três cidades. Queremos:

1. Calcular a temperatura média de cada cidade.
2. Identificar o dia mais quente da semana em cada cidade.
3. Encontrar a cidade que teve a temperatura média mais alta na semana.

Passo 1: Criar os Dados com numpy

Primeiro, vamos gerar uma matriz numpy onde cada linha representa uma cidade e cada coluna, um dia da semana (7 dias).

In [205]:
import numpy as np

# Criando um array com temperaturas aleatórias entre 15 e 35 para 3 cidades ao longo de 7 dias
temperaturas = np.random.randint(15, 35, size=(3, 7))
print("Temperaturas semanais (linhas = cidades, colunas = dias da semana):\n", temperaturas)


Temperaturas semanais (linhas = cidades, colunas = dias da semana):
 [[18 33 28 26 31 28 26]
 [32 34 20 26 16 26 15]
 [20 24 23 20 26 26 22]]


In [207]:
np.mean(temperaturas), np.std(temperaturas)

(24.761904761904763, 5.218143821639132)

In [212]:
media_temperaturas = np.mean(temperaturas, axis=0)

Passo 2: Calcular a Temperatura Média de Cada Cidade

In [223]:
# Calculando a média de temperatura para cada cidade (média ao longo das colunas)
media_temperaturas = np.mean(temperaturas, axis=1)
# Calcula a média ao longo das colunas (axis=1), ou seja, a média de cada linha, que representa cada cidade.
print("Temperatura média semanal por cidade:", media_temperaturas)

# se quissemos a média por dia de cada cidade (axis=0)  # Média ao longo das linhas (colunas)
media_diaria_cidades = np.mean(temperaturas, axis=0)
print("Temperatura média diária nas cidades:", media_diaria_cidades)

Temperatura média semanal por cidade: [27.14285714 24.14285714 23.        ]
Temperatura média diária nas cidades: [23.33333333 30.33333333 23.66666667 24.         24.33333333 26.66666667
 21.        ]


Passo 3: Identificar o Dia Mais Quente da Semana em Cada Cidade

In [226]:
# Identificando o dia mais quente da semana para cada cidade
dia_mais_quente_cada_cidade = np.argmax(temperaturas, axis=1)
print("Dia mais quente da semana em cada cidade:", dia_mais_quente_cada_cidade)

Dia mais quente da semana em cada cidade: [1 1 4]


Passo 4: Encontrar a Cidade com a Maior Temperatura Média Semanal

In [225]:
media_temperaturas

array([27.14285714, 24.14285714, 23.        ])

In [228]:
np.argmax(media_temperaturas)

0

In [229]:
cidade_maior_temp_media = np.argmax(media_temperaturas)
print("Cidade com a maior temperatura média semanal:", cidade_maior_temp_media)

Cidade com a maior temperatura média semanal: 0


## 3. Fundamentos do pandas

In [38]:
import pandas
pandas.__version__

'2.0.1'

Assim como geralmente importamos o NumPy com o alias `np`, vamos importar o Pandas com o alias `pd`:

In [39]:
import pandas as pd

### 3.1 Introdução aos Objetos do Pandas

No nível mais básico, os objetos do Pandas podem ser considerados versões aprimoradas dos arrays estruturados do NumPy, nos quais as linhas e colunas são identificadas com rótulos, em vez de índices inteiros simples. O Pandas fornece uma série de ferramentas, métodos e funcionalidades úteis em cima das estruturas de dados básicas, mas praticamente tudo que abordaremos exigirá uma compreensão dessas estruturas. Portanto, antes de prosseguirmos, vamos introduzir as três estruturas de dados fundamentais do Pandas: `Series`, `DataFrame` e `Index`.

#### O Objeto Series do Pandas

Uma `Series` do Pandas é um array unidimensional de dados indexados.
Pode ser criada a partir de uma lista ou array da seguinte forma:

In [230]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

A `Series` engloba tanto uma sequência de valores quanto uma sequência de índices, que podemos acessar com os atributos `values` e `index`.
Os `values` são simplesmente um array familiar do NumPy:

In [231]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

O índice é um objeto semelhante a um array do tipo `pd.Index`.

In [232]:
data.index

RangeIndex(start=0, stop=4, step=1)

Assim como em um array do NumPy, os dados podem ser acessados pelo índice associado usando a notação de colchetes do Python:

In [234]:
print(data[1])
print(data[1:3])

0.5
1    0.50
2    0.75
dtype: float64


Como veremos, a `Series` do Pandas é muito mais geral e flexível do que o array unidimensional do NumPy que ela emula.

### 3.2 `Series` como um array generalizado do NumPy.

Pode parecer que o objeto `Series` é basicamente intercambiável com um array unidimensional do NumPy. A diferença essencial é a presença do índice: enquanto o array do NumPy possui um índice inteiro definido implicitamente para acessar os valores, a `Series` do Pandas possui um índice explicitamente definido associado aos valores.

Essa definição explícita de índice confere ao objeto `Series` capacidades adicionais. Por exemplo, o índice não precisa ser um inteiro; ele pode consistir em valores de qualquer tipo desejado. Por exemplo, se quisermos, podemos usar strings como índice:


In [238]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['joana', 'huan', 'eduardo', 'tais'])
print(data)
print("---------------")
print(data['eduardo'])

joana      0.25
huan       0.50
eduardo    0.75
tais       1.00
dtype: float64
---------------
0.75


In [239]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
print(data)
print("---------------")
print(data[2])

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64
---------------
0.25


### 3.3 `Series` como um dicionário especializado

Dessa forma, você pode pensar em uma `Series` do Pandas como uma especialização de um dicionário do Python.
Um dicionário é uma estrutura que mapeia chaves arbitrárias para um conjunto de valores arbitrários, enquanto uma `Series` é uma estrutura que mapeia chaves tipadas para um conjunto de valores tipados.
Essa tipagem é importante: assim como o código compilado e específico para tipos de um array do NumPy o torna mais eficiente que uma lista do Python para certas operações, a informação de tipo de uma `Series` do Pandas a torna muito mais eficiente que dicionários do Python para determinadas operações.

A analogia da `Series` como um dicionário pode ser ainda mais clara ao construir um objeto `Series` diretamente a partir de um dicionário do Python:


In [240]:
populacao_dicionario = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}


populacao = pd.Series(populacao_dicionario)
print(populacao)
print('----------')
print(populacao['California'])
print('----------')
print(populacao['California':'Florida'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
----------
38332521
----------
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64


#### Construindo objetos `Series`

Já vimos algumas maneiras de construir uma `Series` do Pandas do zero; todas elas são alguma versão do seguinte:

```python
>>> pd.Series(data, index=index)
```
onde `index` é um argumento opcional, e `data` pode ser uma de várias entidades.

Por exemplo, `data` pode ser uma lista ou um array do NumPy, caso em que `index` é padronizado para uma sequência de inteiros:



In [241]:
print(pd.Series([2, 4, 6]))

0    2
1    4
2    6
dtype: int64


`data` pode ser um valor escalar, que é repetido para preencher o índice especificado:


In [242]:
print(pd.Series(5, index=[100, 200, 300]))

100    5
200    5
300    5
dtype: int64


`data` pode ser um dicionário, em que `index` é padronizado para as chaves do dicionário em ordem crescente:

In [243]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

Em cada caso, o índice pode ser definido explicitamente se um resultado diferente for preferido:

In [244]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

Observe que, nesse caso, a `Series` é preenchida apenas com as chaves explicitamente identificadas.

### 3.4 O Objeto DataFrame do Pandas

A próxima estrutura fundamental no Pandas é o `DataFrame`.
Assim como o objeto `Series` discutido na seção anterior, o `DataFrame` pode ser visto tanto como uma generalização de um array do NumPy quanto como uma especialização de um dicionário do Python.
Agora vamos examinar cada uma dessas perspectivas.

#### DataFrame como uma generalização do array do NumPy

Se uma `Series` é um análogo de um array unidimensional com índices flexíveis, um `DataFrame` é um análogo de um array bidimensional com índices de linha flexíveis e nomes de coluna flexíveis.
Assim como você pode pensar em um array bidimensional como uma sequência ordenada de colunas unidimensionais alinhadas, você pode pensar em um `DataFrame` como uma sequência de objetos `Series` alinhados.
Aqui, "alinhados" significa que eles compartilham o mesmo índice.

Para demonstrar isso, vamos primeiro construir uma nova `Series` listando a área de cada um dos cinco estados discutidos na seção anterior:


In [247]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}

area = pd.Series(area_dict)
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


In [248]:
populacao

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Agora que temos isso, junto com a `Series` de `populacao` da seção anterior, podemos usar um dicionário para construir um único objeto bidimensional contendo essas informações:


In [249]:
estados = pd.DataFrame({'populacao': populacao,
                       'area': area})
estados

Unnamed: 0,populacao,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [253]:
estados['populacao']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: populacao, dtype: int64

Assim como o objeto `Series`, o `DataFrame` possui um atributo `index` que permite acesso aos rótulos do índice:

In [53]:
estados.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Além disso, o `DataFrame` possui um atributo `columns`, que é um objeto `Index` que contém os rótulos das colunas:

In [54]:
estados.columns

Index(['populacao', 'area'], dtype='object')

Assim, o `DataFrame` pode ser visto como uma generalização de um array bidimensional do NumPy, onde tanto as linhas quanto as colunas possuem um índice generalizado para acessar os dados.

### 3.5 DataFrame como um dicionário especializado

Da mesma forma, também podemos pensar em um `DataFrame` como uma especialização de um dicionário.
Enquanto um dicionário mapeia uma chave para um valor, um `DataFrame` mapeia o nome de uma coluna para uma `Series` de dados dessa coluna.
Por exemplo, solicitar o atributo `'area'` retorna o objeto `Series` contendo as áreas que vimos anteriormente:


In [55]:
estados['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Observe o potencial ponto de confusão aqui: em um array bidimensional do NumPy, `data[0]` retornará a primeira linha. Para um `DataFrame`, `data['col0']` retornará a primeira coluna. Por isso, é provavelmente melhor pensar em `DataFrames` como dicionários generalizados em vez de arrays generalizados, embora ambas as formas de interpretar a situação possam ser úteis.

#### Construindo objetos DataFrame

Um `DataFrame` do Pandas pode ser construído de várias maneiras. Veja alguns exemplos.


#### A partir de um único objeto Series

Um `DataFrame` é uma coleção de objetos `Series`, e um `DataFrame` de coluna única pode ser construído a partir de um único `Series`:


In [255]:
df = pd.DataFrame(populacao, columns=['pop'])
df

Unnamed: 0,pop
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [256]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, California to Illinois
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   pop     5 non-null      int64
dtypes: int64(1)
memory usage: 252.0+ bytes


In [258]:
df.describe()

Unnamed: 0,pop
count,5.0
mean,23373370.0
std,9640386.0
min,12882140.0
25%,19552860.0
50%,19651130.0
75%,26448190.0
max,38332520.0


#### A partir de uma lista de dicionários

Qualquer lista de dicionários pode ser transformada em um `DataFrame`. Usaremos uma simples compreensão de lista para criar alguns dados:


In [261]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [260]:
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

Mesmo que algumas chaves no dicionário estejam ausentes, o Pandas preencherá essas posições com valores `NaN` (ou seja, "not a number"):


In [262]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### A partir de um dicionário de objetos Series

Como vimos anteriormente, um `DataFrame` também pode ser construído a partir de um dicionário de objetos `Series`:


In [263]:
pd.DataFrame({'populacao': populacao,
              'area': area})

Unnamed: 0,populacao,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### A partir de um array bidimensional do NumPy

Dado um array bidimensional de dados, podemos criar um `DataFrame` com nomes de colunas e de índice especificados. Se omitidos, um índice inteiro será usado para cada um:


In [267]:
df = pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['idx1', 'idx2', 'idx3'])
df

Unnamed: 0,foo,bar
idx1,0.744603,0.469785
idx2,0.598256,0.14762
idx3,0.184035,0.645072


In [271]:
df.loc['idx1']

foo    0.744603
bar    0.469785
Name: idx1, dtype: float64

### 3.6 O Objeto Index do Pandas

Vimos que tanto os objetos `Series` quanto `DataFrame` contêm um *índice* explícito que permite referenciar e modificar dados.
Esse objeto `Index` é uma estrutura interessante por si só e pode ser visto tanto como um *array imutável* quanto como um *conjunto ordenado* (tecnicamente, um multi-conjunto, já que objetos `Index` podem conter valores repetidos).
Essas perspectivas têm algumas consequências interessantes nas operações disponíveis em objetos `Index`.
Como exemplo simples, vamos construir um `Index` a partir de uma lista de inteiros:


In [61]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

#### Index como um array imutável

O `Index`, em muitos aspectos, opera como um array.
Por exemplo, podemos usar a notação de indexação padrão do Python para recuperar valores ou fatias:


In [272]:
print(ind[1])
print("------")
print(ind[::2])

3
------
Index([2, 5, 11], dtype='int64')


Objetos `Index` também possuem muitos dos atributos familiares dos arrays do NumPy:

In [63]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Uma diferença entre objetos `Index` e arrays do NumPy é que os índices são imutáveis – ou seja, eles não podem ser modificados pelos meios normais:


In [273]:
ind[1] = 0

TypeError: Index does not support mutable operations

#### Index como conjunto ordenado


Os objetos do Pandas são projetados para facilitar operações como junções entre conjuntos de dados, que dependem de muitos aspectos da aritmética de conjuntos.
O objeto `Index` segue muitas das convenções usadas pela estrutura de dados `set` embutida do Python, permitindo que uniões, interseções, diferenças e outras combinações sejam computadas de uma maneira familiar:


In [276]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print(indA.intersection(indB)) # interseção
print(indA.union(indB)) # união
print(indA.difference(indB)) # diferença simétrica A-B ou B-A

Index([3, 5, 7], dtype='int64')
Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Index([1, 9], dtype='int64')


### 3.7 Seleção de Dados em DataFrame

Lembre-se de que um `DataFrame` age de várias maneiras como um array bidimensional ou estruturado e, de outras formas, como um dicionário de estruturas `Series` que compartilham o mesmo índice.
Essas analogias podem ser úteis para manter em mente enquanto exploramos a seleção de dados dentro dessa estrutura.


#### DataFrame como um dicionário

A primeira analogia que vamos considerar é o `DataFrame` como um dicionário de objetos `Series` relacionados.
Vamos retornar ao nosso exemplo de áreas e populações dos estados:


In [66]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


As `Series` individuais que compõem as colunas do `DataFrame` podem ser acessadas por meio de indexação no estilo de dicionário usando o nome da coluna:

In [67]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

De forma equivalente, podemos usar o acesso no estilo de atributo com nomes de coluna que são strings:

In [68]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Esse acesso de coluna no estilo de atributo acessa exatamente o mesmo objeto que o acesso no estilo de dicionário:


In [69]:
data.area is data['area']

True

Embora essa seja uma forma abreviada útil, tenha em mente que ela não funciona para todos os casos!
Por exemplo, se os nomes das colunas não forem strings ou se os nomes das colunas entrarem em conflito com métodos do `DataFrame`, esse acesso no estilo de atributo não será possível.
Por exemplo, o `DataFrame` possui um método `pop()`, então `data.pop` apontará para esse método em vez da coluna `"pop"`:

In [70]:
data.pop is data['pop']

False

Em particular, você deve evitar a tentação de tentar atribuir colunas via atributo (ou seja, use `data['pop'] = z` em vez de `data.pop = z`).

Assim como nos objetos `Series` discutidos anteriormente, essa sintaxe no estilo de dicionário também pode ser usada para modificar o objeto, neste caso, adicionando uma nova coluna:


In [71]:
data['densidade'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,densidade
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [72]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [73]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
densidade,90.41393,38.01874,139.0767,114.8061,85.88376


### 3.8 Filtragem de Dados
Filtrando linhas com base em uma condição

Suponha que temos um DataFrame com uma coluna idade e queremos selecionar apenas as linhas onde a idade é maior que 18.

In [74]:
import pandas as pd

# Exemplo de DataFrame
data = {'nome': ['Ana', 'Bruno', 'Carlos', 'Diana'],
        'idade': [17, 21, 16, 25]}
df = pd.DataFrame(data)

# Filtrar onde idade > 18
df_maior_18 = df[df['idade'] > 18]
print(df_maior_18)

    nome  idade
1  Bruno     21
3  Diana     25


Filtrando com base em várias condições

Se quisermos selecionar apenas as linhas onde a idade é maior que 18 e o nome começa com a letra "B".

In [75]:
# Condições múltiplas
df_filtrado = df[(df['idade'] > 18) & (df['nome'].str.startswith('B'))]
print(df_filtrado)


    nome  idade
1  Bruno     21


Filtrando com base em valores específicos de uma coluna

Para selecionar apenas as linhas onde a coluna nome contém valores específicos (por exemplo, 'Ana' ou 'Diana').

In [76]:
# Filtrar onde nome é 'Ana' ou 'Diana'
df_filtrado_nomes = df[df['nome'].isin(['Ana', 'Diana'])]
print(df_filtrado_nomes)

    nome  idade
0    Ana     17
3  Diana     25


Filtrando linhas com valores nulos (ou não nulos)

Para selecionar linhas onde a coluna idade possui valores nulos.

In [77]:
# Adicionando valores nulos para o exemplo
df.loc[1, 'idade'] = None

# Filtrar linhas com valores nulos em 'idade'
df_com_nulos = df[df['idade'].isnull()]
print(df_com_nulos)

    nome  idade
1  Bruno    NaN


Filtrando com base em uma faixa de valores

Para selecionar linhas onde a coluna idade está entre 18 e 25.

In [78]:
# Filtrar onde idade está entre 18 e 25
df_faixa_idade = df[df['idade'].between(18, 25)]
print(df_faixa_idade)


    nome  idade
3  Diana   25.0


Filtrando com base em uma expressão complexa

Para filtrar linhas onde o comprimento do nome é maior que 4 e a idade é menor que 20.

In [79]:
# Filtrar com expressão complexa
df_expressao = df[(df['nome'].str.len() > 4) & (df['idade'] < 20)]
print(df_expressao)

     nome  idade
2  Carlos   16.0


### 3.9 Operando com Valores Nulos

Como vimos, o Pandas trata `None` e `NaN` como essencialmente intercambiáveis para indicar valores ausentes ou nulos.
Para facilitar essa convenção, existem vários métodos úteis para detectar, remover e substituir valores nulos nas estruturas de dados do Pandas.
Eles são:

- `isnull()`: Gera uma máscara booleana indicando valores ausentes
- `notnull()`: Oposto de `isnull()`
- `dropna()`: Retorna uma versão filtrada dos dados
- `fillna()`: Retorna uma cópia dos dados com valores ausentes preenchidos ou imputados

Concluiremos esta seção com uma breve exploração e demonstração dessas rotinas.


#### Detectando valores nulos

As estruturas de dados do Pandas possuem dois métodos úteis para detectar dados nulos: `isnull()` e `notnull()`.
Qualquer um deles retornará uma máscara booleana sobre os dados. Por exemplo:


In [80]:
data = pd.Series([1, np.nan, 'hello', None])
print(data.isnull())
print('-----------')
print(data[data.notnull()]) # filtrar o que não é nulo

0    False
1     True
2    False
3     True
dtype: bool
-----------
0        1
2    hello
dtype: object


#### Removendo valores nulos

Além da criação de máscaras usada anteriormente, existem métodos convenientes, `dropna()`
(que remove valores NA) e `fillna()` (que preenche valores NA). Para uma `Series`,
o resultado é direto:


In [81]:
data.dropna()

0        1
2    hello
dtype: object

Para um `DataFrame`, há mais opções.
Considere o seguinte `DataFrame`:


In [82]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


Não podemos remover valores individuais de um `DataFrame`; só podemos remover linhas ou colunas inteiras.
Dependendo da aplicação, você pode querer uma ou outra opção, então `dropna()` oferece várias opções para um `DataFrame`.

Por padrão, `dropna()` removerá todas as linhas em que *qualquer* valor nulo esteja presente:


In [83]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


Alternativamente, você pode remover valores NA ao longo de um eixo diferente; `axis=1` remove todas as colunas que contêm um valor nulo:

In [84]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


Mas isso também remove alguns dados válidos; você pode estar mais interessado em remover linhas ou colunas com *todos* os valores NA ou a maioria deles.
Isso pode ser especificado por meio dos parâmetros `how` ou `thresh`, que permitem um controle mais preciso do número de valores nulos permitidos.

O padrão é `how='any'`, de modo que qualquer linha ou coluna (dependendo do parâmetro `axis`) contendo um valor nulo será removida.
Você também pode especificar `how='all'`, o que removerá apenas linhas/colunas que contenham *todos* os valores nulos:


In [85]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [86]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


Para um controle mais detalhado, o parâmetro `thresh` permite especificar um número mínimo de valores não nulos para que a linha/coluna seja mantida:


In [87]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


Aqui, a primeira e a última linha foram removidas, pois contêm apenas dois valores não nulos.

#### Preenchendo valores nulos

Às vezes, em vez de remover valores NA, você prefere substituí-los por um valor válido.
Esse valor pode ser um único número, como zero, ou algum tipo de imputação ou interpolação a partir dos valores válidos.
Você poderia fazer isso diretamente usando o método `isnull()` como uma máscara, mas como essa é uma operação comum, o Pandas fornece o método `fillna()`, que retorna uma cópia do array com os valores nulos substituídos.

Considere a seguinte `Series`:


In [88]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Podemos preencher entradas NA com um único valor, como zero:

In [89]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

Podemos especificar um preenchimento para frente (forward-fill) para propagar o valor anterior adiante:

In [90]:
# forward-fill
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Ou podemos especificar um preenchimento para trás (back-fill) para propagar os próximos valores para trás:

In [91]:
# back-fill
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Para `DataFrames`, as opções são semelhantes, mas também podemos especificar um `axis` ao longo do qual o preenchimento ocorrerá:

In [92]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [93]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


### 4 Leitura em arquivo

In [97]:
import pandas as pd

# Leitura do arquivo CSV
df_csv = pd.read_csv('datasets/sample_data.csv')
print(df_csv)


print('-------------')

# Leitura do arquivo Excel
df_excel = pd.read_excel('datasets/sample_data.xlsx')
print(df_excel)


      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
-------------
      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston


### 5. Escrita em arquivo

In [98]:

df = pd.read_csv('datasets/sample_data.csv')  # Para CSV
# df = pd.read_excel('caminho_do_arquivo.xlsx')  # Para Excel

# Apresentar dataframe do arquivo
print("DataFrame do arquivo:")
print(df)

# selecionar os dados onde a idade é maior que 25
filtered_df = df[df['Age'] > 25]
print("\nDataFrame Filtrado (idade > 25):")
print(filtered_df)

# Modificar o DataFrame, por exemplo, adicionar 1 para a coluna age(idade)
df['Age'] = df['Age'] + 1
print("\nDataFrame com Idades Modificadas:")
print(df)

# Salvar o DataFrame modificado em um novo arquivo
df.to_csv('datasets/nova_data_modificado.csv', index=False)
#df.to_excel('novo_arquivo_modificado.xlsx', index=False)

DataFrame do arquivo:
      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston

DataFrame Filtrado (idade > 25):
    Name  Age         City
1    Bob   27  Los Angeles
3  David   32      Houston

DataFrame com Idades Modificadas:
      Name  Age         City
0    Alice   25     New York
1      Bob   28  Los Angeles
2  Charlie   23      Chicago
3    David   33      Houston
