## Análise Exploratória de Dados com Databricks


### Introdução
Este notebook documenta uma análise exploratória de dados (EDA) utilizando o Databricks, uma plataforma de análise de dados baseada em Apache Spark. O objetivo é explorar dois conjuntos de dados: churn_newgeo, que contém informações sobre o comportamento de churn de clientes em diferentes regiões, e iris, um conjunto de dados clássico utilizado para estudos de classificação de espécies de flores.

A análise é conduzida utilizando consultas SQL no ambiente Databricks, complementada por gráficos gerados diretamente na plataforma. Estes gráficos ajudam a identificar padrões e tendências nos dados, oferecendo insights valiosos para uma compreensão mais profunda dos conjuntos de dados analisados.

### Configuração do Ambiente de Trabalho
Antes de iniciar a análise, definimos o banco de dados a ser utilizado no ambiente do Databricks. Neste caso, utilizamos o banco de dados sales.

In [0]:
%sql
use sales

###  Análise do Conjunto de Dados churn_newgeo
####  Visualização Geral dos Dados
Primeiro, exploramos o conteúdo do conjunto de dados churn_newgeo para entender sua estrutura e as informações contidas.

In [0]:
%sql
select * from churn_newgeo;

CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
619,France,Female,42,2,0,1,1,1,10134888,1
502,France,Female,42,8,1596608,3,1,0,11393157,1
699,France,Female,39,1,0,2,0,0,9382663,0
822,France,Male,50,7,0,2,1,1,100628,0
501,France,Male,44,4,14205107,2,0,1,749405,0
684,France,Male,27,2,13460388,1,1,1,7172573,0
528,France,Male,31,6,10201672,2,0,0,8018112,0
476,France,Female,34,10,0,2,1,0,2626098,0
549,France,Female,25,5,0,2,0,0,19085779,0
726,France,Female,24,6,0,2,1,1,5472403,0


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

#### Gráficos e Análises
1 Total do Score de Crédito por Região
Este gráfico de barras mostra o total do score de crédito acumulado em cada uma das três regiões (France, Germany, Spain).

Observamos que a França tem o maior total de score de crédito, seguida pela Alemanha e pela Espanha. Isso pode indicar uma concentração maior de clientes na França ou uma tendência de clientes com scores de crédito mais altos nessa região.

2 Distribuição de Gênero por Abandono (Churn)
Este gráfico de rosca compara a proporção de clientes masculinos e femininos entre aqueles que permaneceram (churn = 0) e aqueles que saíram (churn = 1).

Para os clientes que permaneceram, a maioria é feminina (57,3%), enquanto para os clientes que saíram, a maioria é masculina (55,9%). Isso sugere que o gênero pode influenciar o comportamento de churn.

3 Distribuição do Saldo dos Clientes
Este gráfico de barras exibe a contagem de clientes em faixas de saldo diferentes.

A maioria dos clientes tem saldo baixo, na faixa de 0 a 5 milhões. Conforme o saldo aumenta, o número de clientes diminui, com muito poucos clientes tendo saldos superiores a 20 milhões.

### Análise do Conjunto de Dados iris
#### Visualização Geral dos Dados
Em seguida, exploramos o conjunto de dados iris, que contém informações sobre diferentes espécies de flores.

In [0]:
%sql
select * from iris;

sepallength,sepalwidth,petallength,petalwidth,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

#### Gráficos e Análises
1 Scatter Plot de PetalWidth vs SepalLength
Este gráfico de dispersão mostra a relação entre o comprimento das sépalas (sepal length) e a largura das pétalas (petal width) das diferentes espécies de flores.

As diferentes espécies mostram padrões distintos de dispersão. Por exemplo, Iris-setosa (azul) tende a ter sépalas mais curtas e pétalas mais estreitas, enquanto Iris-virginica (verde) apresenta maiores valores tanto para comprimento de sépala quanto para largura de pétala.

2 Scatter Plot de SepalWidth vs SepalLength com Tamanho de Bolhas
Este gráfico de dispersão mostra a relação entre o comprimento das sépalas (sepal length) e a largura das sépalas (sepal width), com o tamanho das bolhas representando outra métrica.

 A Iris-setosa (azul) tende a ter uma largura de sépala maior em relação ao seu comprimento, enquanto as outras espécies mostram diferentes padrões de dispersão.

#### Conclusão
A análise exploratória conduzida neste notebook oferece infomações sobre os dois conjuntos de dados analisados. No caso do churn_newgeo, identificamos padrões de churn que variam por região e gênero, o que pode informar estratégias de retenção de clientes. Já no conjunto de dados iris, observamos como diferentes características das flores distinguem as espécies, o que é útil para estudos de classificação.

Os gráficos gerados no Databricks permitem uma visualização clara dessas tendências, facilitando a compreensão dos dados e servindo como base para análises futuras ou modelagens preditivas.