<a href="https://colab.research.google.com/github/gm-0liveira/Estudos-Pandas/blob/main/desbravando_pandas_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

# Séries

- Diferente das listas, todos os elementos das séries precisam ser de um mesmo
tipo!

In [None]:
# Lista
idade = [31, 33, 2, 5, 78, 45, 89]

# Série
s_idade = pd.Series(idade)
s_idade

0    31
1    33
2     2
3     5
4    78
5    45
6    89
dtype: int64

In [None]:
# Utilizando métodos das Séries
media = s_idade.mean()
media

40.42857142857143

In [None]:
variancia = s_idade.var()
variancia

1111.285714285714

In [None]:
desvio_padrao = s_idade.std()
desvio_padrao

33.33595227806931

In [None]:
# Faz uma breve descrição da série levando em conta dados de posição e dispersão
s_idade.describe()

count     7.000000
mean     40.428571
std      33.335952
min       2.000000
25%      18.000000
50%      33.000000
75%      61.500000
max      89.000000
dtype: float64

- Imagine que seja necessário buscar as idades maiores do que 30 anos na lista
de idades. Para esse problema é possivel utilizar um laço `for` como a seguir:

In [None]:
maior30 = []
for i in idade:
  if i >= 30:
    maior30.append(i)

maior30

[31, 33, 78, 45, 89]

- Apesar de resolver o problema, além de utilizar um loop `for` que atrapalha na
performace de código também possui uma solução mais prática quando utilizada com as séries, como visto a seguir:

In [None]:
filtro = s_idade >= 30

s_idade[filtro]

0    31
1    33
4    78
5    45
6    89
dtype: int64

- Primeiro é comparado os valores da série com o escalar apresentado, neste caso 30, depois é retornado os valores booleanos para cada uma das comparações, quando associamos isso para os valores de cada uma destas comparações como visto em `s_idade[filtro]` temos o retorno dos valores sendo uma solução mais elegante ao problema

- O mesmo conceito pode ser utilizado para a coleta de elementos em um array, utilizando dos valores booleanos indicados:

In [None]:
s_idade[[True, False, True, True, False, False, True]]

0    31
2     2
3     5
6    89
dtype: int64

# Dataframes

In [None]:
# Criando um dicionário
data = {
    "nome": ["Gustavo", "Teo", "Maria", "Jessica", "Erick", "Felipe", "Lucas"],
    "idade": [24, 30, 2, 41, 23, 23, 24],
    "cor": ["Preto", "Verde", "Azul", "Amarelo", "Laranja", "Vermelho", "Branco"],
    "renda": [3560, 5476, 8520, 1236, 4521, 1212, 0]
}

In [None]:
# Criando um dataframe apartir do dicionário
df = pd.DataFrame(data)
df

Unnamed: 0,nome,idade,cor,renda
0,Gustavo,24,Preto,3560
1,Teo,30,Verde,5476
2,Maria,2,Azul,8520
3,Jessica,41,Amarelo,1236
4,Erick,23,Laranja,4521
5,Felipe,23,Vermelho,1212
6,Lucas,24,Branco,0


- Um dataframe é um agregador de séries, tornando-as relacionadas

In [None]:
# Acessando a série de idade do dataframe
df["idade"]

0    24
1    30
2     2
3    41
4    23
5    23
6    24
Name: idade, dtype: int64

In [None]:
type(df["idade"])

pandas.core.series.Series

In [None]:
# É possivel passar métodos para os dataframes que os aplica a cada série (coluna) de acordo com a correspondência do método
df.describe()

Unnamed: 0,idade,renda
count,7.0,7.0
mean,23.857143,3503.571429
std,11.625096,2965.399572
min,2.0,0.0
25%,23.0,1224.0
50%,24.0,3560.0
75%,27.0,4998.5
max,41.0,8520.0


# Importação de Arquivos

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Estudos/Desbravando Pandas/data/pedido.csv")
df

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
0,0,2023-05-11T10:59:33.000+0000,,Goiás,
1,1,2023-05-11T11:23:42.000+0000,,Paraná,Aquela pizza perfeita! :-D
2,2,2023-05-11T11:24:29.000+0000,,São Paulo,Muito obrigado!!
3,3,2023-05-11T11:29:39.000+0000,,São Paulo,
4,4,2023-05-11T11:31:30.000+0000,,Rio Grande do Sul,Capricha no peperoni
...,...,...,...,...,...
1101,1101,2023-05-25T16:47:40.000+0000,True,Sergipe,Esse formulário deu fome no meio do expediente...
1102,1102,2023-05-25T16:55:35.000+0000,False,São Paulo,
1103,1103,2023-05-25T17:07:05.000+0000,False,São Paulo,Bastante queijo
1104,1104,2023-05-25T18:18:02.000+0000,True,São Paulo,


## Pegando os atributos de um dataframe

In [None]:
# Selecionando as colunas
df.columns

Index(['idPedido', 'dtPedido', 'flKetchup', 'descUF', 'txtRecado'], dtype='object')

In [None]:
# Selecionando o formato
df.shape

(1106, 5)

In [None]:
# Selecionando os indexes
df.index

RangeIndex(start=0, stop=1106, step=1)

In [None]:
# Selecionando informações úteis
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1106 entries, 0 to 1105
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   idPedido   1106 non-null   int64 
 1   dtPedido   1106 non-null   object
 2   flKetchup  1097 non-null   object
 3   descUF     1106 non-null   object
 4   txtRecado  538 non-null    object
dtypes: int64(1), object(4)
memory usage: 295.4 KB


In [None]:
# Selecionando os tipos de cada coluna do dataframe
df.dtypes

idPedido      int64
dtPedido     object
flKetchup    object
descUF       object
txtRecado    object
dtype: object

## Utilizando métodos em um dataframe

In [None]:
# Cabeçalho do Dataframe
df.head()

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
0,0,2023-05-11T10:59:33.000+0000,,Goiás,
1,1,2023-05-11T11:23:42.000+0000,,Paraná,Aquela pizza perfeita! :-D
2,2,2023-05-11T11:24:29.000+0000,,São Paulo,Muito obrigado!!
3,3,2023-05-11T11:29:39.000+0000,,São Paulo,
4,4,2023-05-11T11:31:30.000+0000,,Rio Grande do Sul,Capricha no peperoni


In [None]:
# Final do Dataframe
df.tail()

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
1101,1101,2023-05-25T16:47:40.000+0000,True,Sergipe,Esse formulário deu fome no meio do expediente...
1102,1102,2023-05-25T16:55:35.000+0000,False,São Paulo,
1103,1103,2023-05-25T17:07:05.000+0000,False,São Paulo,Bastante queijo
1104,1104,2023-05-25T18:18:02.000+0000,True,São Paulo,
1105,1105,2023-05-25T18:27:12.000+0000,False,São Paulo,Favor deixar a massa crocante e lave as mãos.


In [None]:
# Linhas aleatórias do Dataframe
df.sample(10)

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
663,663,2023-05-24T14:09:43.000+0000,True,São Paulo,Null
359,359,2023-05-23T09:35:09.000+0000,False,São Paulo,No capricho
859,859,2023-05-24T17:06:12.000+0000,False,São Paulo,
265,265,2023-05-19T00:13:57.000+0000,False,Piauí,Nao economiza no cheddar
438,438,2023-05-23T14:42:04.000+0000,False,São Paulo,Salve!
600,600,2023-05-24T13:46:35.000+0000,False,São Paulo,
530,530,2023-05-24T13:29:03.000+0000,False,Pernambuco,
18,18,2023-05-11T15:36:52.000+0000,True,Santa Catarina,
104,104,2023-05-13T19:43:50.000+0000,False,São Paulo,
144,144,2023-05-15T09:17:08.000+0000,False,Minas Gerais,


# Navegando

In [None]:
df = pd.read_csv("/content/drive/MyDrive/Estudos/Desbravando Pandas/data/pedido.csv")
df

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
0,0,2023-05-11T10:59:33.000+0000,,Goiás,
1,1,2023-05-11T11:23:42.000+0000,,Paraná,Aquela pizza perfeita! :-D
2,2,2023-05-11T11:24:29.000+0000,,São Paulo,Muito obrigado!!
3,3,2023-05-11T11:29:39.000+0000,,São Paulo,
4,4,2023-05-11T11:31:30.000+0000,,Rio Grande do Sul,Capricha no peperoni
...,...,...,...,...,...
1101,1101,2023-05-25T16:47:40.000+0000,True,Sergipe,Esse formulário deu fome no meio do expediente...
1102,1102,2023-05-25T16:55:35.000+0000,False,São Paulo,
1103,1103,2023-05-25T17:07:05.000+0000,False,São Paulo,Bastante queijo
1104,1104,2023-05-25T18:18:02.000+0000,True,São Paulo,


## Organizando as Colunas

In [None]:
# Selecionando apenas uma coluna
df['idPedido']

0          0
1          1
2          2
3          3
4          4
        ... 
1101    1101
1102    1102
1103    1103
1104    1104
1105    1105
Name: idPedido, Length: 1106, dtype: int64

In [None]:
# Selecionando mais de uma coluna
df[["dtPedido", "idPedido"]]

Unnamed: 0,dtPedido,idPedido
0,2023-05-11T10:59:33.000+0000,0
1,2023-05-11T11:23:42.000+0000,1
2,2023-05-11T11:24:29.000+0000,2
3,2023-05-11T11:29:39.000+0000,3
4,2023-05-11T11:31:30.000+0000,4
...,...,...
1101,2023-05-25T16:47:40.000+0000,1101
1102,2023-05-25T16:55:35.000+0000,1102
1103,2023-05-25T17:07:05.000+0000,1103
1104,2023-05-25T18:18:02.000+0000,1104


In [None]:
# Organizando a exibição das colunas de um dataframe
df[['idPedido', 'flKetchup', 'descUF', 'txtRecado', 'dtPedido']]

Unnamed: 0,idPedido,flKetchup,descUF,txtRecado,dtPedido
0,0,,Goiás,,2023-05-11T10:59:33.000+0000
1,1,,Paraná,Aquela pizza perfeita! :-D,2023-05-11T11:23:42.000+0000
2,2,,São Paulo,Muito obrigado!!,2023-05-11T11:24:29.000+0000
3,3,,São Paulo,,2023-05-11T11:29:39.000+0000
4,4,,Rio Grande do Sul,Capricha no peperoni,2023-05-11T11:31:30.000+0000
...,...,...,...,...,...
1101,1101,True,Sergipe,Esse formulário deu fome no meio do expediente...,2023-05-25T16:47:40.000+0000
1102,1102,False,São Paulo,,2023-05-25T16:55:35.000+0000
1103,1103,False,São Paulo,Bastante queijo,2023-05-25T17:07:05.000+0000
1104,1104,True,São Paulo,,2023-05-25T18:18:02.000+0000


In [None]:
# Alterando a disposição das colunas de um dataframe
df = df[['idPedido', 'flKetchup', 'descUF', 'txtRecado', 'dtPedido']]
df

Unnamed: 0,idPedido,flKetchup,descUF,txtRecado,dtPedido
0,0,,Goiás,,2023-05-11T10:59:33.000+0000
1,1,,Paraná,Aquela pizza perfeita! :-D,2023-05-11T11:23:42.000+0000
2,2,,São Paulo,Muito obrigado!!,2023-05-11T11:24:29.000+0000
3,3,,São Paulo,,2023-05-11T11:29:39.000+0000
4,4,,Rio Grande do Sul,Capricha no peperoni,2023-05-11T11:31:30.000+0000
...,...,...,...,...,...
1101,1101,True,Sergipe,Esse formulário deu fome no meio do expediente...,2023-05-25T16:47:40.000+0000
1102,1102,False,São Paulo,,2023-05-25T16:55:35.000+0000
1103,1103,False,São Paulo,Bastante queijo,2023-05-25T17:07:05.000+0000
1104,1104,True,São Paulo,,2023-05-25T18:18:02.000+0000


## Organizando as Linhas

In [None]:
# Pegando 100 linhas aleatórias do dataframe
df_sample = df.sample(100)
df_sample

Unnamed: 0,idPedido,flKetchup,descUF,txtRecado,dtPedido
282,282,False,Bahia,,2023-05-19T20:05:18.000+0000
1034,1034,True,Rio de Janeiro,,2023-05-24T21:36:24.000+0000
829,829,True,São Paulo,"Obrigado por contribuírem com uma ""fatia de pi...",2023-05-24T16:14:44.000+0000
483,483,False,Mato Grosso do Sul,Borda com cerveja,2023-05-23T20:32:08.000+0000
167,167,True,Rondônia,,2023-05-15T21:09:09.000+0000
...,...,...,...,...,...
980,980,True,Minas Gerais,CÊS SÃO F*DA! BRIGADA POR TUDO SEMPRE,2023-05-24T19:57:25.000+0000
919,919,False,São Paulo,,2023-05-24T18:42:14.000+0000
576,576,False,São Paulo,Manda pizza!,2023-05-24T13:40:43.000+0000
53,53,True,São Paulo,Sem cebola rsrsrs,2023-05-12T19:53:51.000+0000


In [None]:
# Pegando o elemento na primeira posição do dataframe
df_sample.iloc[0]

idPedido                              282
flKetchup                           False
descUF                              Bahia
txtRecado                             NaN
dtPedido     2023-05-19T20:05:18.000+0000
Name: 282, dtype: object

In [None]:
# Pegando os 5 primeiros elementos com base no intervalo de 0:4
df_sample.iloc[0:4]

Unnamed: 0,idPedido,flKetchup,descUF,txtRecado,dtPedido
282,282,False,Bahia,,2023-05-19T20:05:18.000+0000
1034,1034,True,Rio de Janeiro,,2023-05-24T21:36:24.000+0000
829,829,True,São Paulo,"Obrigado por contribuírem com uma ""fatia de pi...",2023-05-24T16:14:44.000+0000
483,483,False,Mato Grosso do Sul,Borda com cerveja,2023-05-23T20:32:08.000+0000


In [None]:
# Pegando os  elementos com base em uma lista de posição
df_sample.iloc[[0, 2, 12]]

Unnamed: 0,idPedido,flKetchup,descUF,txtRecado,dtPedido
282,282,False,Bahia,,2023-05-19T20:05:18.000+0000
829,829,True,São Paulo,"Obrigado por contribuírem com uma ""fatia de pi...",2023-05-24T16:14:44.000+0000
523,523,True,Minas Gerais,,2023-05-24T12:50:06.000+0000


In [None]:
# Pegando o elemento com base em seu indice
df_sample.loc[829]

idPedido                                                   829
flKetchup                                                 True
descUF                                               São Paulo
txtRecado    Obrigado por contribuírem com uma "fatia de pi...
dtPedido                          2023-05-24T16:14:44.000+0000
Name: 829, dtype: object