# # Projeto 4: Primeira Análise da Base de Clientes (CRM)
# 
# ## Objetivo
# Realizar um diagnóstico inicial em um novo dataset de clientes para responder a perguntas de negócio fundamentais sobre a composição e a qualidade da base.

In [29]:
import pandas as pd

df_clientes = pd.read_csv('clientes.csv')

# ## Análise Exploratória Inicial
# Primeiro, vamos usar os métodos `.head()` e `.info()` para ter uma visão geral da estrutura e da qualidade dos dados.

In [30]:
display(df_clientes.head())
print("\n--- Informações Gerais do DataFrame ---")
df_clientes.info()

Unnamed: 0,ID_Cliente,Nome,Email,Pais,Data_Cadastro,Gasto_Total
0,1,Ana Silva,ana.silva@email.com,Brasil,2024-01-15,1500.5
1,2,John Smith,john.smith@email.com,EUA,2024-02-20,800.0
2,3,Maria Garcia,maria.garcia@email.com,Espanha,2024-03-10,2200.75
3,4,Ken Adams,ken.adams@email.com,EUA,2024-04-05,500.25
4,5,Lara Croft,lara.croft@email.com,Reino Unido,2024-05-22,950.0



--- Informações Gerais do DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   ID_Cliente     8 non-null      int64  
 1   Nome           8 non-null      object 
 2   Email          8 non-null      object 
 3   Pais           7 non-null      object 
 4   Data_Cadastro  8 non-null      object 
 5   Gasto_Total    8 non-null      float64
dtypes: float64(1), int64(1), object(4)
memory usage: 516.0+ bytes


# ## Perguntas de Negócio

# ### 1. Quantos clientes estão na base de dados?

In [31]:
# O atributo .shape retorna uma tupla (linhas, colunas). O número de linhas corresponde ao de clientes.
num_clientes = df_clientes.shape[0]
print(f'Resposta: Existem {num_clientes} clientes na base de dados.')

Resposta: Existem 8 clientes na base de dados.


# ### 2. Quais colunas possuem dados faltantes?

In [32]:
# O método .isnull().sum() nos dá uma contagem direta de valores nulos por coluna.
dados_faltantes = df_clientes.isnull().sum()
print("Resposta: A contagem de dados faltantes por coluna é:")

# Filtramos para mostrar apenas as colunas que de fato têm dados faltantes
print(dados_faltantes[dados_faltantes > 0])

Resposta: A contagem de dados faltantes por coluna é:
Pais    1
dtype: int64


# ### 3. De quais países vêm a maioria dos nossos clientes?

In [33]:
# O método .value_counts() é a ferramenta ideal para contar a frequência de cada valor em uma coluna.
contagem_paises = df_clientes['Pais'].value_counts()
print("Resposta: A distribuição de clientes por país é a seguinte:")
display(contagem_paises)

pais_maioria = contagem_paises.index[0] # .index[0] pega o primeiro item do índice (o país com maior contagem)
print(f"\nO país com a maioria dos clientes é: {pais_maioria}")

Resposta: A distribuição de clientes por país é a seguinte:


Pais
EUA            3
Brasil         1
Espanha        1
Reino Unido    1
Japao          1
Name: count, dtype: int64


O país com a maioria dos clientes é: EUA
