# 📌 Avaliação Sumária

OBS: Suba o arquivo que deseja analisar, como aquele do nosso exemplo

[Clique para acessar os dados](https://docs.google.com/spreadsheets/d/1YQhDNSt1sOrzq6AKxyYG6wzRAvM-M7l7jJRIHunNB88/copy?gid=1190375422#gid=1190375422)

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_receitas = pd.read_csv("/content/Cópia de Dados - TCC - Planilhas - Receitas.csv")

## 1️⃣ Verificando as Dimensões do DataFrame

🔹 O que faz?
* Retorna o número de linhas e colunas do DataFrame.
* Ajuda a verificar se os dados foram carregados corretamente.
* Útil para: Ter uma visão rápida do tamanho do dataset.




In [3]:
df_receitas.shape

(1242, 15)

Curiosidade: Atributos são propriedades estáticas de um objeto, não precisam de parêntese, como métodos

## 2️⃣ Identificando os Tipos de Dados das Colunas

🔹 O que faz?
* Mostra informações gerais sobre o DataFrame.
* Inclui: O tipo de cada coluna, Quantidade de valores não nulos (dados preenchidos), Total de colunas e registros
* Útil para Identificar colunas numéricas e categóricas
* Útil para Verificar se os tipos de dados estão corretos.



In [4]:
df_receitas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1242 entries, 0 to 1241
Data columns (total 15 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Data Lançamento             1242 non-null   object
 1   Id Atendimento              1242 non-null   int64 
 2   Receita Código              1242 non-null   int64 
 3   Quantidade Vendida          1242 non-null   int64 
 4   Valor de venda              1242 non-null   object
 5   Cliente ID                  1242 non-null   object
 6   Cliente Sexo                1050 non-null   object
 7   Cliente Nome                1242 non-null   object
 8   Cliente Data Nascimento     1139 non-null   object
 9   Cliente Origem              673 non-null    object
 10  Cliente Cidade              1095 non-null   object
 11  Profissional Nome           1242 non-null   object
 12  Profissional Especialidade  1242 non-null   object
 13  Data de Pagamento           1242 non-null   obje

🔹 É possível ver quantas linhas nulas perguntando "Ei, quantos nulos?" ⛔

In [5]:
df_receitas.isna()

Unnamed: 0,Data Lançamento,Id Atendimento,Receita Código,Quantidade Vendida,Valor de venda,Cliente ID,Cliente Sexo,Cliente Nome,Cliente Data Nascimento,Cliente Origem,Cliente Cidade,Profissional Nome,Profissional Especialidade,Data de Pagamento,Forma Pagamento
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1237,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
1238,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1239,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1240,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


🔹 A pergunta retorna False ( = 0) e True ( = 1). Ora, e se somarmos? A soma nos dará o total de nulos

In [6]:
df_receitas.isna().sum()

Unnamed: 0,0
Data Lançamento,0
Id Atendimento,0
Receita Código,0
Quantidade Vendida,0
Valor de venda,0
Cliente ID,0
Cliente Sexo,192
Cliente Nome,0
Cliente Data Nascimento,103
Cliente Origem,569


🔹 Se quiser saber apenas dos tipos




In [7]:
df_receitas.dtypes

Unnamed: 0,0
Data Lançamento,object
Id Atendimento,int64
Receita Código,int64
Quantidade Vendida,int64
Valor de venda,object
Cliente ID,object
Cliente Sexo,object
Cliente Nome,object
Cliente Data Nascimento,object
Cliente Origem,object


Algum dado tem tipo errado? 😮

## 3️⃣  Obtendo Estatísticas Descritivas das Colunas Numéricas

In [8]:
df_receitas.describe()

Unnamed: 0,Id Atendimento,Receita Código,Quantidade Vendida
count,1242.0,1242.0,1242.0
mean,45168360000000.0,881915400.0,1.058776
std,244586100000.0,6105148.0,0.334324
min,44487880000000.0,879938600.0,1.0
25%,44995880000000.0,879941100.0,1.0
50%,45268880000000.0,879949100.0,1.0
75%,45369900000000.0,881732900.0,1.0
max,45443930000000.0,939708300.0,6.0


🔹 O que faz?
* Exibe estatísticas resumidas para todas as colunas numéricas.
* Inclui métricas como média, desvio padrão, mínimo, máximo e quartis.

In [9]:
#Use um parâmetro que filtra colunas numéricas, para ter estatísticas aplicáveis a dados numéricos

df_receitas.describe(include=[float, int])

Unnamed: 0,Id Atendimento,Receita Código,Quantidade Vendida
count,1242.0,1242.0,1242.0
mean,45168360000000.0,881915400.0,1.058776
std,244586100000.0,6105148.0,0.334324
min,44487880000000.0,879938600.0,1.0
25%,44995880000000.0,879941100.0,1.0
50%,45268880000000.0,879949100.0,1.0
75%,45369900000000.0,881732900.0,1.0
max,45443930000000.0,939708300.0,6.0


Aqui reparamos que os identificadores deveriam ter sido entendidos como string (Sempre como string, lembre-se do zero à esquerda), mudança que vamos aplicar posteriormente.

## 4️⃣  Obtendo Estatísticas Descritivas das Colunas Categóricas

Também é interessante verificarmos **quais os valores existentes na coluna**. Para isso, podemos usar a função  <font color = "orange">**`.unique()`</font>**:

In [10]:
df_receitas

Unnamed: 0,Data Lançamento,Id Atendimento,Receita Código,Quantidade Vendida,Valor de venda,Cliente ID,Cliente Sexo,Cliente Nome,Cliente Data Nascimento,Cliente Origem,Cliente Cidade,Profissional Nome,Profissional Especialidade,Data de Pagamento,Forma Pagamento
0,18/10/2021,44487881736038,879941033,1,"R$ 5.989,00",e\aez\eae,F,Eneida Dos Reis,1975-01-01,Indicação,BH,Mário Monteiro Campos,Cirurgia Plástica,2021-10-21,TED/DOC
1,18/10/2021,44487881736038,879941033,1,"R$ 5.989,00",881736038aeeaeeaaeea,F,Eneida Dos Reis,1975-01-01,Indicação,BH,Mário Monteiro Campos,Cirurgia Plástica,2021-10-21,TED/DOC
2,18/10/2021,44487881736038,879941033,1,"R$ 5.989,00",881736038aeeae,F,Eneida Dos Reis,1975-01-01,Indicação,BH,Mário Monteiro Campos,Cirurgia Plástica,2021-10-21,TED/DOC
3,18/10/2021,44487881736038,879941033,1,"R$ 5.989,00",881736038,F,Eneida Dos Reis,1975-01-01,Indicação,BH,Mário Monteiro Campos,Cirurgia Plástica,2021-10-21,TED/DOC
4,08/11/2021,44508881735973,879941073,1,"R$ 10.535,00",881735973,F,Cláudia Alves Rodrigues Moura,1972-06-22,Indicação,BH,Talia Estevão de Oliveira,Cirurgia Plástica,2021-11-08,Pix
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1237,28/05/2024,45440933201102,881732900,1,"R$ 300,00",933201102,Feminino,Rafaela Lima Gonçalves,,Indicação,Belo Horizonte,Mateus Henrique Lopes Ribeiro,Cirurgia Plástica,2024-06-10,Pix
1238,29/05/2024,45441920676452,881732900,1,"R$ 250,00",920676452,Feminino,Tatiane Gonçalves Martins,1994-11-11,Rede Social,João Monlevade,Mário Tiago Rezende Pires,Cirurgia Plástica,2024-06-05,Pix
1239,29/05/2024,45441923179337,879938579,1,"R$ 1.500,00",923179337,Feminino,Vanessa Lima Martins,1977-12-27,Rede Social,João Monlevade,Talia Estevão de Oliveira,Cirurgia Plástica,2024-06-28,Cartão de crédito à vista
1240,31/05/2024,45443933211803,881732900,1,"R$ 250,00",933211803,Feminino,Rafaela Martins Oliveira,1998-01-26,,Belo Horizonte,Mário Tiago Rezende Pires,Cirurgia Plástica,2024-06-12,Pix


In [11]:
df_receitas['Cliente Sexo'].unique()

array(['F', 'M', nan, 'Feminino', 'Masculino'], dtype=object)

🔹 O que faz?
* Exibe estatísticas resumidas para todas as colunas categóricas
* top → O valor mais frequente na coluna.
* freq → Quantidade de vezes que o valor mais frequente aparece.

In [12]:
# Use um parâmetro que filtra colunas categóricas, para ter estatísticas aplicáveis a dados categóricos (fictícios)

df_receitas.describe(include=[object])

Unnamed: 0,Data Lançamento,Valor de venda,Cliente ID,Cliente Sexo,Cliente Nome,Cliente Data Nascimento,Cliente Origem,Cliente Cidade,Profissional Nome,Profissional Especialidade,Data de Pagamento,Forma Pagamento
count,1242,1242,1242,1050,1242,1139,673,1095,1242,1242,1242,1242
unique,366,200,682,4,679,596,4,9,16,8,499,6
top,29/02/2024,"R$ 300,00",881735998,F,Denise Marques Casa Nova,1982-08-04,Indicação,BH,Júlia Duarte Barbosa,Cirurgia Plástica,2024-04-07,Pix
freq,49,193,27,536,27,27,454,611,266,624,17,878


In [13]:
# Usando o método .value_counts() em uma coluna específica é possível verificar sua distribuição de valores

df_receitas["Cliente Origem"].value_counts()

Unnamed: 0_level_0,count
Cliente Origem,Unnamed: 1_level_1
Indicação,454
Rede Social,102
Convênio,96
Google,21


In [14]:
# Caso queira contar números de nulos, adicione como parâmetro do value_counts()

df_receitas["Cliente Origem"].value_counts(dropna=False)

Unnamed: 0_level_0,count
Cliente Origem,Unnamed: 1_level_1
,569
Indicação,454
Rede Social,102
Convênio,96
Google,21


In [15]:
# Caso queira na verdade o percentual, adicione como parâmetro de value_counts()

df_receitas["Cliente Origem"].value_counts(dropna=False, normalize=True)

Unnamed: 0_level_0,proportion
Cliente Origem,Unnamed: 1_level_1
,0.458132
Indicação,0.365539
Rede Social,0.082126
Convênio,0.077295
Google,0.016908


In [16]:
# Se quer multiplicar por 100, basta multiplicar por 100

df_receitas["Cliente Origem"].value_counts(dropna=False, normalize=True) * 100

Unnamed: 0_level_0,proportion
Cliente Origem,Unnamed: 1_level_1
,45.813205
Indicação,36.553945
Rede Social,8.21256
Convênio,7.729469
Google,1.690821
