# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

## <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

https://pandas.pydata.org/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.10.0


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
#!pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
#!pip install -q -U watermark

In [3]:
# Import
import numpy as np
import pandas as pd

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

pandas: 2.0.2
numpy : 1.25.0



## Operações com Series

In [5]:
# Lista de listas (matriz)
matriz = [[9, 4, 3], [2, 6, 1], [7, 5, 8]]

In [6]:
matriz

[[9, 4, 3], [2, 6, 1], [7, 5, 8]]

In [7]:
# Converte a matriz em dataframe
df = pd.DataFrame(matriz)

In [8]:
# Tipo do objeto
type(df)

pandas.core.frame.DataFrame

In [9]:
# Extrai a linha de índice 0
linha = df.iloc[0, :]

In [10]:
# Uma linha do dataframe é uma série no Pandas
type(linha)

pandas.core.series.Series

In [11]:
# Extrai a coluna de índice 0
coluna = df[0]

In [12]:
# Uma coluna do dataframe é uma série no Pandas
type(coluna)

pandas.core.series.Series

In [13]:
# Cria uma série
serie_pandas = pd.Series(['a', 'b', 'c', 'd', 'e'])

In [14]:
serie_pandas

0    a
1    b
2    c
3    d
4    e
dtype: object

In [15]:
# Visualiza os índices
serie_pandas.index

RangeIndex(start=0, stop=5, step=1)

In [16]:
# Visualiza os valores
serie_pandas.values

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [17]:
# Visualiza o tipo dos dados
serie_pandas.dtypes

dtype('O')

In [18]:
# Visualiza o shape
serie_pandas.shape

(5,)

> Podemos ter uma série com dados de tipos diferentes?

In [19]:
serie_pandas = pd.Series(['a', 'b', 'c', 10, True], index = [10, 20, 30, 40, 50])

In [20]:
serie_pandas.index

Index([10, 20, 30, 40, 50], dtype='int64')

In [21]:
serie_pandas.dtypes

dtype('O')

In [22]:
# Visualiza os valores
serie_pandas.values

array(['a', 'b', 'c', 10, True], dtype=object)

In [23]:
serie_pandas

10       a
20       b
30       c
40      10
50    True
dtype: object

In [24]:
serie_pandas = pd.Series(['a', 'b', 'c', 10, True])

In [25]:
serie_pandas

0       a
1       b
2       c
3      10
4    True
dtype: object

In [26]:
serie_pandas.dtypes

dtype('O')

In [27]:
print(serie_pandas[0])

a


In [28]:
type(serie_pandas[0])

str

In [29]:
print(serie_pandas[3])

10


In [30]:
type(serie_pandas[3])

int

In [31]:
print(serie_pandas[4])

True


In [32]:
type(serie_pandas[4])

bool

In [33]:
resultado = serie_pandas[3] + 1

In [34]:
print(resultado)

11


In [35]:
# Por que esta célula gera erro?
resultado = serie_pandas[2] + 1

TypeError: can only concatenate str (not "int") to str

In [36]:
lista = ['Data', 'Science', 'Academy']

In [37]:
serie_pandas = pd.Series(lista)

In [38]:
print(serie_pandas)

0       Data
1    Science
2    Academy
dtype: object


In [39]:
dicionario = {'a': 'Data', 'b': 'Science', 'c': 'Academy'}

In [40]:
serie_pandas = pd.Series(dicionario)

In [41]:
print(serie_pandas)

a       Data
b    Science
c    Academy
dtype: object


In [42]:
# Cria um array Numpy
arr = np.random.randint(0, 10, size = 5)

In [43]:
print(arr)

[5 5 1 0 0]


In [44]:
serie_pandas = pd.Series(arr)

In [45]:
print(serie_pandas)

0    5
1    5
2    1
3    0
4    0
dtype: int32


In [46]:
serie_pandas = pd.Series({1: 'data', 2: 'science'})

In [47]:
serie_pandas

1       data
2    science
dtype: object

In [48]:
print(serie_pandas[1])

data


In [49]:
print(serie_pandas[0])

KeyError: 0

In [50]:
serie_pandas = pd.Series([1, 2, 3, 4, 5])

In [51]:
print(serie_pandas)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [52]:
serie_pandas = pd.Series([1, 2, 3, 4, 5], dtype = 'float')

In [53]:
print(serie_pandas)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64


In [54]:
serie_pandas = pd.Series(['Azul', 'Amarelo', 'Azul', 'Branco', 'Branco', 'Verde', 'Azul'])

In [55]:
print(serie_pandas.unique())

['Azul' 'Amarelo' 'Branco' 'Verde']


In [56]:
print(serie_pandas.nunique())

4


In [57]:
serie_pandas = pd.Series([201, 323, 17, 97, 43, 9, 26, 4])

In [58]:
print(serie_pandas.nlargest(n = 3))

1    323
0    201
3     97
dtype: int64


In [59]:
print(serie_pandas.nsmallest(n = 2))

7    4
5    9
dtype: int64


In [60]:
serie_pandas = pd.Series(['Azul', 'Amarelo', 'Azul', 'Branco', 'Branco', 'Verde', 'Azul'])

In [61]:
print(serie_pandas.value_counts())

Azul       3
Branco     2
Amarelo    1
Verde      1
Name: count, dtype: int64


In [62]:
serie_pandas = pd.Series([1, 2, 3, np.nan, np.nan])

In [63]:
print(serie_pandas.isna())

0    False
1    False
2    False
3     True
4     True
dtype: bool


In [64]:
print(serie_pandas.isna().sum())

2


In [65]:
print(serie_pandas.count())

3


In [66]:
serie_pandas = pd.Series([1, 2, 3, 4])

In [67]:
print(serie_pandas.eq(3))

0    False
1    False
2     True
3    False
dtype: bool


In [68]:
print(serie_pandas.gt(2))

0    False
1    False
2     True
3     True
dtype: bool


In [69]:
serie_pandas = pd.Series([56, 34, 68, 21, 49])

In [70]:
print(serie_pandas.mean())

45.6


In [71]:
print(serie_pandas.agg(['mean', 'median', 'sum', 'count']))

mean       45.6
median     49.0
sum       228.0
count       5.0
dtype: float64


# Fim