## <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

#### Importando o pacote Pandas

In [1]:
# Importando o módulo Pandas e NumPy
import numpy as np
import pandas as pd

## Operações com Séries 

In [2]:
# Criando e Visualizando Lista de Matriz

matriz = [[9, 4, 3], [2, 6, 1], [7, 5, 8]]

matriz

[[9, 4, 3], [2, 6, 1], [7, 5, 8]]

In [3]:
# Converte a matriz em dataframe e verifica o tipo
df = pd.DataFrame(matriz)

# Tipo do objeto
type(df)

pandas.core.frame.DataFrame

In [4]:
# Visualiza
df

Unnamed: 0,0,1,2
0,9,4,3
1,2,6,1
2,7,5,8


In [5]:
# Extrai a linha de índice 0
linha = df.iloc[0, :]

linha

0    9
1    4
2    3
Name: 0, dtype: int64

#### Uma linha do dataframe é uma série no Pandas

In [6]:
# Verificando que uma linha do dataframe é uma série no Pandas
type(linha)

pandas.core.series.Series

In [7]:
# Extrai a coluna de índice 0
coluna = df[0]

coluna

0    9
1    2
2    7
Name: 0, dtype: int64

#### Uma coluna do dataframe é uma série no Pandas

In [8]:
# Verificando que uma coluna do dataframe é uma série no Pandas
type(coluna)

pandas.core.series.Series

### Criando uma Série

In [9]:
# Cria uma série
serie_pandas = pd.Series(['a', 'b', 'c', 'd', 'e'])

In [10]:
# Visualizando a série
serie_pandas

0    a
1    b
2    c
3    d
4    e
dtype: object

In [11]:
# Visualiza os índices
serie_pandas.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
# Visualiza os valores
serie_pandas.values

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [13]:
# Visualiza o tipo dos dados  ('O' de object)
serie_pandas.dtypes

dtype('O')

In [14]:
# Visualiza o shape
serie_pandas.shape

(5,)

#### Podemos ter uma série com dados de tipos diferentes?

In [15]:
# Criando uma série com dados de tipos diferentes e com indexação
serie_pandas = pd.Series(['a', 'b', 'c', 10, True], index = [10, 20, 30, 40, 50])

In [16]:
# Visualizando
serie_pandas

10       a
20       b
30       c
40      10
50    True
dtype: object

In [17]:
# Visualiza os índices  (tipo inteiro)
serie_pandas.index

Index([10, 20, 30, 40, 50], dtype='int64')

In [18]:
# Visualiza o tipo dos dados  ('O' de object)
serie_pandas.dtypes

dtype('O')

In [19]:
# Visualiza os valores
serie_pandas.values

array(['a', 'b', 'c', 10, True], dtype=object)

In [20]:
# Visualizando a Série novamente
serie_pandas

10       a
20       b
30       c
40      10
50    True
dtype: object

In [21]:
# Criando série novamente sem indexação
serie_pandas = pd.Series(['a', 'b', 'c', 10, True])

In [22]:
# Visualizando a Série novamente
serie_pandas

0       a
1       b
2       c
3      10
4    True
dtype: object

In [23]:
# Visualiza o tipo dos dados  ('O' de object)
serie_pandas.dtypes

dtype('O')

In [24]:
# Visualizando dados do índice 0
print(serie_pandas[0])

a


In [25]:
# Visualiza o tipo dos dados  (string)
type(serie_pandas[0])

str

In [26]:
# Visualizando dados do índice 3
print(serie_pandas[3])

10


In [27]:
# Visualiza o tipo dos dados  (int)
type(serie_pandas[3])

int

In [28]:
# Visualizando dados do índice 4
print(serie_pandas[4])

True


In [29]:
# Visualiza o tipo dos dados  (bool)
type(serie_pandas[4])

bool

In [30]:
# Realizando operação com dados do índice inteiro
resultado = serie_pandas[3] + 1

resultado

11

In [31]:
# Por que esta célula gera erro? Porque índice 2 não é inteiro
resultado = serie_pandas[2] + 1

TypeError: can only concatenate str (not "int") to str

#### Lista

In [32]:
# Criando uma lista
lista = ['Data', 'Science', 'Academy']

print(lista)
print(type(lista))

['Data', 'Science', 'Academy']
<class 'list'>


In [33]:
# Convertendo a lista em séries
serie_pandas = pd.Series(lista)

print(serie_pandas)
print(type(serie_pandas))

0       Data
1    Science
2    Academy
dtype: object
<class 'pandas.core.series.Series'>


#### Dicionário

In [34]:
# Criando um dicionário
dicionario = {'a': 'Data', 'b': 'Science', 'c': 'Academy'}

print(dicionario)
print(type(dicionario))

{'a': 'Data', 'b': 'Science', 'c': 'Academy'}
<class 'dict'>


In [35]:
# Convertendo o dicionário em séries  (ele mantém os índices do dicionário)
serie_pandas = pd.Series(dicionario)

print(serie_pandas)
print(type(serie_pandas))

a       Data
b    Science
c    Academy
dtype: object
<class 'pandas.core.series.Series'>


#### Array Numpy

In [36]:
# Cria um array Numpy
arr = np.random.randint(0, 10, size = 5)

print(arr)
print(type(arr))

[6 9 2 6 3]
<class 'numpy.ndarray'>


In [37]:
# Convertendo o array Numpy em séries
serie_pandas = pd.Series(arr)

print(serie_pandas)
print(type(serie_pandas))

0    6
1    9
2    2
3    6
4    3
dtype: int64
<class 'pandas.core.series.Series'>


### Outros Exemplos com Séries

#### Exemplo 1

In [38]:
# Criando Uma Série
serie_pandas = pd.Series({1: 'data', 2: 'science'})

In [39]:
serie_pandas

1       data
2    science
dtype: object

In [40]:
# Visualizando dados do índice 1
print(serie_pandas[1])

data


In [42]:
# Visualizando dados do índice 0 (não existe, resulta em erro)
# print(serie_pandas[0])

#### Exemplo 2

In [43]:
# Criando Uma Série com numéros (o type será inteiro)
serie_pandas = pd.Series([1, 2, 3, 4, 5])

In [44]:
serie_pandas

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [45]:
# Criando Uma Série com numéros (informando o type float)
serie_pandas = pd.Series([1, 2, 3, 4, 5], dtype = 'float')

In [46]:
serie_pandas

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

#### Exemplo 3

In [70]:
# Criando Uma Série com Palavras 
serie_pandas = pd.Series(['Azul', 'Amarelo', 'Azul', 'Branco', 'Branco', 'Verde', 'Azul'])

In [71]:
serie_pandas

0       Azul
1    Amarelo
2       Azul
3     Branco
4     Branco
5      Verde
6       Azul
dtype: object

In [72]:
# Visualizando valores únicos
print(serie_pandas.unique())

['Azul' 'Amarelo' 'Branco' 'Verde']


In [73]:
# Visualizando a quantidade de valores únicos
print(serie_pandas.nunique())

4


In [74]:
# Visualizando a quantidade de valores únicos de cada item
print(serie_pandas.value_counts())

Azul       3
Branco     2
Amarelo    1
Verde      1
Name: count, dtype: int64


#### Exemplo 4

In [75]:
# Criando Uma Série com valores numéricos
serie_pandas = pd.Series([201, 323, 17, 97, 43, 9, 26, 4])

In [76]:
serie_pandas

0    201
1    323
2     17
3     97
4     43
5      9
6     26
7      4
dtype: int64

In [77]:
# Visualizando os 3 maiores números da série (em ordem)
print(serie_pandas.nlargest(n = 3))

1    323
0    201
3     97
dtype: int64


In [78]:
# Visualizando os 3 menores números da série (em ordem)
print(serie_pandas.nsmallest(n = 3))

7     4
5     9
2    17
dtype: int64


#### Exemplo 5

In [79]:
# Criando Uma Série com valores numéricos e valores NaN
serie_pandas = pd.Series([1, 2, 3, np.nan, np.nan])

In [80]:
serie_pandas

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

In [81]:
# Verificando quais índices possuem valores NaN
print(serie_pandas.isna())

0    False
1    False
2    False
3     True
4     True
dtype: bool


In [82]:
# Verificando quantidade de índices que possuem valores NaN
print(serie_pandas.isna().sum())

2


In [83]:
# Verificando quantidade de índices que NÃO possuem valores NaN
print(serie_pandas.count())

3


#### Exemplo 5

In [88]:
# Criando Uma Série com valores numéricos
serie_pandas = pd.Series([1, 2, 3, 4])

In [89]:
serie_pandas

0    1
1    2
2    3
3    4
dtype: int64

In [90]:
# Visualizando índices que tem valores igual a 3
print(serie_pandas.eq(3))

0    False
1    False
2     True
3    False
dtype: bool


In [91]:
# Visualizando índices que tem valores igual a 2
print(serie_pandas.eq(2))

0    False
1     True
2    False
3    False
dtype: bool


In [92]:
# Visualizando índices que tem valores maior que 2
print(serie_pandas.gt(2))

0    False
1    False
2     True
3     True
dtype: bool


#### Exemplo 6

In [93]:
# Criando Uma Série com valores numéricos
serie_pandas = pd.Series([56, 34, 68, 21, 49])

In [94]:
# Visualizando a Média dos valores somados
print(serie_pandas.mean())

45.6


In [95]:
# # Visualizando a Média, Mediana, Soma e Contagem dos valores somados
print(serie_pandas.agg(['mean', 'median', 'sum', 'count']))

mean       45.6
median     49.0
sum       228.0
count       5.0
dtype: float64


## Fim