# Big Data Real-Time Analytics com Python e Spark

## Capítulo 3 - Manipulação de Dados em Python com Pandas
https://pandas.pydata.org/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versao_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.
#!pip install -q -U pandas

In [5]:
# Importando o módulo Pandas
import numpy as np
import pandas as pd

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Andrew Borges" --iversions

Author: Andrew Borges

pandas: 1.5.3



## Operações com Series

In [6]:
# Lista de listas (matriz)
matriz = [[9, 4, 3], [2, 6, 1], [7, 5, 8]]

In [14]:
matriz

[[9, 4, 3], [2, 6, 1], [7, 5, 8]]

In [7]:
# Converte a matriz em dataframe
df = pd.DataFrame(matriz)

In [8]:
type(df)

pandas.core.frame.DataFrame

In [9]:
# Extrai a linha de índice 0
linha = df.iloc[0, :]

In [10]:
# Uma linha do dataframe é uma série no Pandas
type(linha)

pandas.core.series.Series

In [12]:
# Extrai a coluna de índice 0
coluna = df[0]

In [13]:
# Uma coluna do dataframe é uma série no Pandas
type(coluna)

pandas.core.series.Series

In [15]:
# Cria uma série
serie_pandas = pd.Series(['a', 'b', 'c', 'd', 'e'])

In [21]:
serie_pandas

0    a
1    b
2    c
3    d
4    e
dtype: object

In [16]:
# Visualiza os índices
serie_pandas.index

RangeIndex(start=0, stop=5, step=1)

In [17]:
# Visualiza os valores 
serie_pandas.values

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [19]:
# Visualiza o tipo dos dados
serie_pandas.dtypes

dtype('O')

In [20]:
# Visualiza o shape
serie_pandas.shape

(5,)

> Podemos ter uma série com dados de tipos diferentes?

In [22]:
serie_pandas = pd.Series(['a', 'b', 'c', 10, True], index = [10, 20, 30, 40, 50])

In [23]:
serie_pandas.index

Int64Index([10, 20, 30, 40, 50], dtype='int64')

In [24]:
serie_pandas.dtypes

dtype('O')

In [25]:
# Visualiza os valores
serie_pandas.values

array(['a', 'b', 'c', 10, True], dtype=object)

In [28]:
serie_pandas

0       a
1       b
2       c
3      10
4    True
dtype: object

In [26]:
serie_pandas = pd.Series(['a', 'b', 'c', 10, True])

In [27]:
serie_pandas.dtypes

dtype('O')

In [29]:
print(serie_pandas[0])

a


In [30]:
type(serie_pandas[0])

str

In [31]:
print(serie_pandas[3])

10


In [32]:
type(serie_pandas[3])

int

In [33]:
print(serie_pandas[4])

True


In [34]:
type(serie_pandas[4])

bool

In [35]:
resultado = serie_pandas[3] + 1

In [36]:
print(resultado)

11


In [37]:
# Por que esta célula gera erro?
resultado = serie_pandas[2] + 1

TypeError: can only concatenate str (not "int") to str

In [38]:
lista = ['Data', 'Science', 'Python']

In [39]:
serie_pandas = pd.Series(lista)

In [40]:
print(serie_pandas)

0       Data
1    Science
2     Python
dtype: object


In [41]:
dicionario = {'a': 'Data', 'b': 'Science', 'c': 'Pyton'}

In [42]:
serie_pandas = pd.Series(dicionario)

In [43]:
print(serie_pandas)

a       Data
b    Science
c      Pyton
dtype: object


In [44]:
# Cria um array Numpy
arr = np.random.randint(0, 10, size = 5)

In [45]:
print(arr)

[5 8 5 7 8]


In [46]:
serie_pandas = pd.Series(arr)

In [47]:
print(serie_pandas)

0    5
1    8
2    5
3    7
4    8
dtype: int32


In [48]:
serie_pandas = pd.Series({1: 'data', 2: 'science'})

In [49]:
serie_pandas

1       data
2    science
dtype: object

In [50]:
print(serie_pandas[1])

data


In [51]:
serie_pandas = pd.Series([1, 2, 3, 4, 5])

In [52]:
print(serie_pandas)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [53]:
serie_pandas = pd.Series([1, 2, 3, 4, 5], dtype = 'float')

In [54]:
print(serie_pandas)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64


In [55]:
serie_pandas = pd.Series(['Azul', 'Amarelo', 'Azul', 'Branco', 'Branco', 'Verde', 'Azul'])

In [56]:
print(serie_pandas.unique())

['Azul' 'Amarelo' 'Branco' 'Verde']


In [57]:
print(serie_pandas.nunique())

4


In [58]:
serie_pandas = pd.Series([201, 323, 17, 97, 43, 9, 26, 4])

In [59]:
print(serie_pandas.nlargest(n = 3))

1    323
0    201
3     97
dtype: int64


In [60]:
print(serie_pandas.nsmallest(n = 2))

7    4
5    9
dtype: int64


In [61]:
serie_pandas = pd.Series(['Azul', 'Amarelo', 'Azul', 'Branco', 'Branco', 'Verde', 'Azul'])

In [63]:
print(serie_pandas.value_counts())

Azul       3
Branco     2
Amarelo    1
Verde      1
dtype: int64


In [64]:
serie_pandas = pd.Series([1, 2, 3, np.nan, np.nan])

In [65]:
print(serie_pandas.isna())

0    False
1    False
2    False
3     True
4     True
dtype: bool


In [67]:
print(serie_pandas.isna().sum())

2


In [68]:
print(serie_pandas.count())

3


In [69]:
serie_pandas = pd.Series([1, 2, 3, 4])

In [70]:
print(serie_pandas.eq(3))

0    False
1    False
2     True
3    False
dtype: bool


In [71]:
print(serie_pandas.gt(2))

0    False
1    False
2     True
3     True
dtype: bool


In [73]:
serie_pandas = pd.Series([56, 34, 68, 21, 49])

In [74]:
print(serie_pandas.mean())

45.6


In [76]:
print(serie_pandas.agg(['mean', 'median', 'sum', 'count']))

mean       45.6
median     49.0
sum       228.0
count       5.0
dtype: float64


# Fim