# Pandas

biblioteca de código aberto em Python projetada para análise de dados. Ela fornece estruturas de dados e ferramentas de manipulação de dados de alta performance e fáceis de usar, tornando-a uma das bibliotecas mais populares para trabalhar com dados tabulares.

In [1]:
# Como instalar e importar
!pip install pandas
import pandas as pd



# Series

estrutura unidimensional semelhante a um array (numpy) ou uma coluna de uma planilha. As operações que você pode realizar nas Series são semelhantes às operações em um DataFrame

In [6]:
# Criando um Series com preços de livros
s = pd.Series([30, 40, 70, 50])
s

0    30
1    40
2    70
3    50
dtype: int64

In [7]:
# Acessando elementos

print(s[2])

70


In [8]:
# Alterar os índices

s = pd.Series([30, 40, 70, 50], index = ['Livro a', "Livro b", "Livro c", "Livro d"])
s

Livro a    30
Livro b    40
Livro c    70
Livro d    50
dtype: int64

In [9]:
# Operações matemáticas

s = s + 2
s

Livro a    32
Livro b    42
Livro c    72
Livro d    52
dtype: int64

* sum(): Calcula a soma de todos os elementos do Series.
* mean(): Calcula a média dos elementos do Series.
* max(): Encontra o valor máximo no Series.
* min(): Encontra o valor mínimo no Series.
* unique(): Retorna os valores únicos no Series.

In [13]:
print(s.sum())       # Soma dos elementos
print(s.mean())      # Média dos elementos
print(s.max())       # Valor máximo
print(s.min())       # Valor mínimo
print(s.unique())    # Valores únicos

198
49.5
72
32
[32 42 72 52]


# Data Frame

DataFrame é uma estrutura de dados tabular bidimensional, semelhante a uma planilha ou tabela de banco de dados, onde os dados são organizados em colunas rotuladas.
É uma das estruturas de dados mais importantes na biblioteca pandas, que é amplamente utilizada para análise de dados

In [4]:
df_notas= pd.DataFrame ({"Matérias": ["Cálculo","Microeconomia","Contabilidade"],
                        "Fernanda":[5,7,10],
                         "Sandra": [7,3,9],
                         "Guilherme": [10,2,7] })
df_notas

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
0,Cálculo,5,7,10
1,Microeconomia,7,3,2
2,Contabilidade,10,9,7


In [8]:
#head(): Retornar as primeiras linhas do DataFrame.
df_notas.head(1)

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
0,Cálculo,5,7,10


In [9]:
#tail(): Retorna as últimas linhas do DataFrame.
df_notas.tail(2)

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
1,Microeconomia,7,3,2
2,Contabilidade,10,9,7


In [13]:
#columns(): Retorna as colunas
df_notas.columns

Index(['Matérias', 'Fernanda', 'Sandra', 'Guilherme'], dtype='object')

In [15]:
#Um colchete: Series#
df_notas["Guilherme"]

0    10
1     2
2     7
Name: Guilherme, dtype: int64

In [16]:
#Dois colchetes: DataFrame novo#
df_notas[['Guilherme']]

Unnamed: 0,Guilherme
0,10
1,2
2,7


In [17]:
#describe(): Calcula estatísticas resumidas (como média, desvio padrão, mínimo, máximo, quartis) para colunas numéricas.
df_notas.describe()

Unnamed: 0,Fernanda,Sandra,Guilherme
count,3.0,3.0,3.0
mean,7.333333,6.333333,6.333333
std,2.516611,3.05505,4.041452
min,5.0,3.0,2.0
25%,6.0,5.0,4.5
50%,7.0,7.0,7.0
75%,8.5,8.0,8.5
max,10.0,9.0,10.0


In [20]:
#shape: Retorna o número de linhas e colunas do DataFrame.
df_notas.shape

(3, 4)

In [23]:
#Filtrar dados com um Boleano
df_notas[(df_notas["Fernanda"]>5) & (df_notas["Sandra"]>6)]

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
2,Contabilidade,10,9,7


In [26]:
#drop(): Remove linhas ou colunas específicas do DataFrame.
#Remover colunas: axis=1
#Remover linhas: axis=2
df_notas.drop(["Guilherme"],axis=1)

Unnamed: 0,Matérias,Fernanda,Sandra
0,Cálculo,5,7
1,Microeconomia,7,3
2,Contabilidade,10,9


# Leitura de Dados

O Pandas disponibiliza inúmeras ferramentas para leitura de dados de arquivos. A leitura de arquivos "csv" é mais comum devido à disponibilidade de dados neste formato. O Pandas Dataframe torna-se muito útil principalmente quando se trabalha com grandes quantias de dados

### Leitura de Arquivo CSV

In [2]:
import pandas as pd
df = pd.read_csv("data_pandas.csv", sep = ",", index_col=0)

### .head()

In [3]:
df.head()

Unnamed: 0_level_0,Filial,Cidade,Tipo cliente,Genero,Linha produto,Preco unitario,Quantidade,Taxa 5%,Total,Data,Hora,Forma pagamento,Custo produto vendido,Margem bruta,Receita bruta,Rating
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
319-50-3348,B,Mandalay,Normal,Female,Home and lifestyle,40.3,2,4.03,84.63,3/11/2019,15:30,Ewallet,80.6,4.761905,4.03,4.4
390-80-5128,B,Mandalay,Member,Female,Health and beauty,19.15,1,0.9575,20.1075,1/28/2019,17:58,Credit card,19.15,4.761905,0.9575,9.5
523-38-0215,C,Naypyitaw,Normal,Male,Home and lifestyle,37.0,1,1.85,38.85,3/6/2019,13:29,Credit card,37.0,4.761905,1.85,7.9
565-91-4567,B,Mandalay,Normal,Male,Health and beauty,10.75,8,4.3,90.3,3/15/2019,14:38,Ewallet,86.0,4.761905,4.3,6.2
829-34-3910,A,Yangon,Normal,Female,Health and beauty,71.38,10,35.69,749.49,3/29/2019,19:21,Cash,713.8,4.761905,35.69,5.7


### .shape

In [4]:
df.shape

(1100, 16)

### Valores Vazios .isna()

Retorna um valor booleano indicando "True"(vazio) ou "False" (preenchido) para cada valor no dataframe.

In [5]:
df.isna()

Unnamed: 0_level_0,Filial,Cidade,Tipo cliente,Genero,Linha produto,Preco unitario,Quantidade,Taxa 5%,Total,Data,Hora,Forma pagamento,Custo produto vendido,Margem bruta,Receita bruta,Rating
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
319-50-3348,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
390-80-5128,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
523-38-0215,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
565-91-4567,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
829-34-3910,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
122-61-9553,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
789-23-8625,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
600-38-9738,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
355-34-6244,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


Com ".isna().sum()" é possível vizualizar de maneira muito mais clara quais itens possuem valores vazios

In [6]:
df.isna().sum()

Filial                     0
Cidade                     0
Tipo cliente               0
Genero                     0
Linha produto              0
Preco unitario             0
Quantidade                 0
Taxa 5%                  163
Total                      0
Data                       0
Hora                       0
Forma pagamento            0
Custo produto vendido      0
Margem bruta               0
Receita bruta              0
Rating                     0
dtype: int64

Com "dropna()" é possível remover itens com valores vazios

In [7]:
df = df.dropna()
df.shape

(937, 16)

In [8]:
df.isna().sum()

Filial                   0
Cidade                   0
Tipo cliente             0
Genero                   0
Linha produto            0
Preco unitario           0
Quantidade               0
Taxa 5%                  0
Total                    0
Data                     0
Hora                     0
Forma pagamento          0
Custo produto vendido    0
Margem bruta             0
Receita bruta            0
Rating                   0
dtype: int64

### Valores Duplicados .duplicated()

Retorna um valor booleano indicando "True"(duplicado) ou "False" (novo) para cada valor no dataframe.

In [9]:
df.duplicated().sum()

92

Com "drop_duplicates()" é possível remover linhas duplicadas

In [10]:
df = df.drop_duplicates()
df.shape

(845, 16)

### Criação e substituição de novas colunas

É possivel criar ou substituir colunas ao definir ou redefinir um coluna no seu dataframe

In [11]:
#Criação
df['Preço Ajustado'] = df["Preco unitario"] * 2
df.columns

Index(['Filial', 'Cidade', 'Tipo cliente', 'Genero', 'Linha produto',
       'Preco unitario', 'Quantidade', 'Taxa 5%', 'Total', 'Data', 'Hora',
       'Forma pagamento', 'Custo produto vendido', 'Margem bruta',
       'Receita bruta', 'Rating', 'Preço Ajustado'],
      dtype='object')

In [12]:
#Substituição
df = df.drop(df.columns[-1], axis = 1)
df["Preco unitario"] = df["Preco unitario"] * 2
df.head()


Unnamed: 0_level_0,Filial,Cidade,Tipo cliente,Genero,Linha produto,Preco unitario,Quantidade,Taxa 5%,Total,Data,Hora,Forma pagamento,Custo produto vendido,Margem bruta,Receita bruta,Rating
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
319-50-3348,B,Mandalay,Normal,Female,Home and lifestyle,80.6,2,4.03,84.63,3/11/2019,15:30,Ewallet,80.6,4.761905,4.03,4.4
390-80-5128,B,Mandalay,Member,Female,Health and beauty,38.3,1,0.9575,20.1075,1/28/2019,17:58,Credit card,19.15,4.761905,0.9575,9.5
523-38-0215,C,Naypyitaw,Normal,Male,Home and lifestyle,74.0,1,1.85,38.85,3/6/2019,13:29,Credit card,37.0,4.761905,1.85,7.9
565-91-4567,B,Mandalay,Normal,Male,Health and beauty,21.5,8,4.3,90.3,3/15/2019,14:38,Ewallet,86.0,4.761905,4.3,6.2
829-34-3910,A,Yangon,Normal,Female,Health and beauty,142.76,10,35.69,749.49,3/29/2019,19:21,Cash,713.8,4.761905,35.69,5.7


### .describe()

In [13]:
df.describe()

Unnamed: 0,Preco unitario,Quantidade,Taxa 5%,Total,Custo produto vendido,Margem bruta,Receita bruta,Rating
count,845.0,845.0,845.0,845.0,845.0,845.0,845.0,845.0
mean,112.091408,5.519527,15.912483,334.162152,318.249669,4.761905,15.912483,6.980947
std,54.4803,3.036299,12.65062,265.66301,253.01239,0.0,12.65062,1.715749
min,20.16,1.0,0.5085,10.6785,10.17,4.761905,0.5085,4.0
25%,64.5,3.0,4.84,101.64,96.8,4.761905,4.84,5.5
50%,112.22,6.0,9.848,206.808,196.96,4.761905,9.848,7.0
75%,159.48,8.0,24.7815,520.4115,495.63,4.761905,24.7815,8.5
max,199.92,10.0,49.65,1042.65,993.0,4.761905,49.65,10.0


### .dtypes

Retorna o tipo de cado de cada item

In [None]:
df.dtypes

Filial                    object
Cidade                    object
Tipo cliente              object
Genero                    object
Linha produto             object
Preco unitario           float64
Quantidade                 int64
Taxa 5%                  float64
Total                    float64
Data                      object
Hora                      object
Forma pagamento           object
Custo produto vendido    float64
Margem bruta             float64
Receita bruta            float64
Rating                   float64
dtype: object

In [None]:
df["Quantidade"] = df["Quantidade"].astype(float)
df.dtypes

Filial                    object
Cidade                    object
Tipo cliente              object
Genero                    object
Linha produto             object
Preco unitario           float64
Quantidade               float64
Taxa 5%                  float64
Total                    float64
Data                      object
Hora                      object
Forma pagamento           object
Custo produto vendido    float64
Margem bruta             float64
Receita bruta            float64
Rating                   float64
dtype: object

### .pivot

Pivot permite, por exemplo, dividir os dados de uma coluna em várias. Isso pode ser feito discriminando os dados entre índices, valores etc.

In [2]:
import pandas as pd

Usemos o exemplo de uma papelaria que contabilizou sua baixa de estoque

In [4]:
dados = {
    'Entradas': [15000, 40000, 31500, 61200, 39000, 30000],
    'Ano': ['2020', '2020', '2021', '2021', '2021', '2020'],
    'Artigo': ['Lápis', 'Canetas', 'Canetas', 'Lápis', 'Borrachas', 'Borrachas']
}
df = pd.DataFrame(dados)
df

Unnamed: 0,Entradas,Ano,Artigo
0,15000,2020,Lápis
1,40000,2020,Canetas
2,31500,2021,Canetas
3,61200,2021,Lápis
4,39000,2021,Borrachas
5,30000,2020,Borrachas


Agora discriminaremos os dados do Data Frame criado. Utilizaremos a separação índice, coluna e valor.

In [7]:
pivot_df = df.pivot(index='Artigo', columns='Ano', values='Entradas')
pivot_df

Ano,2020,2021
Artigo,Unnamed: 1_level_1,Unnamed: 2_level_1
Borrachas,30000,39000
Canetas,40000,31500
Lápis,15000,61200
