## Análise de Dados no Databricks com Koalas

### Introdução
O Pandas é uma biblioteca extremamente popular no Python para manipulação e análise de dados. No entanto, quando lidamos com grandes volumes de dados, as limitações de desempenho do Pandas começam a aparecer. É aqui que entra o Koalas, uma biblioteca que traz a interface familiar do Pandas para o Apache Spark, permitindo que você escale operações Pandas em um cluster distribuído sem precisar mudar o código de forma significativa.

Neste notebook, é demonstrado como o Koalas pode ser utilizado no Databricks para realizar operações comuns de manipulação de dados, comparando-as com o Pandas. Utilizaremos um conjunto de dados de churn (Churn.csv) para exemplificar essas operações.

### Desenvolvimento
#### Instalação do Koalas
Antes de começarmos, precisamos garantir que o Koalas esteja instalado em nosso ambiente. Isso é feito usando o comando %pip install.

In [0]:
%pip install koalas

#### Carregamento de Dados com Pandas
Primeiro, carregamos os dados de um arquivo CSV utilizando o Pandas. O arquivo é copiado para o sistema de arquivos local do Databricks e, em seguida, lido em um DataFrame do Pandas.

In [0]:
import pandas as pd
# Caminho do arquivo
caminho_arquivo = "/FileStore/tables/Churn.csv"

# Copia o arquivo para o sistema de arquivos local
dbutils.fs.cp(caminho_arquivo, "file:/databricks/driver/Churn.csv")

# Carrega o arquivo usando o Pandas
caminho_local = "/databricks/driver/Churn.csv"
df_pandas = pd.read_csv(caminho_local, sep=';')
df_pandas.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0,1,1,1,10134888,1
1,608,Spain,Female,41,1,8380786,1,0,1,11254258,0
2,502,France,Female,42,8,1596608,3,1,0,11393157,1
3,699,France,Female,39,1,0,2,0,0,9382663,0
4,850,Spain,Female,43,2,12551082,1,1,1,790841,0


#### Carregamento de Dados com Koalas
Agora, realizamos o mesmo processo utilizando o Koalas, carregando o mesmo arquivo CSV diretamente em um DataFrame do Koalas.

In [0]:
import databricks.koalas as ks
df_koalas = ks.read_csv("/FileStore/tables/Churn.csv", sep=';')
df_koalas.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0,1,1,1,10134888,1
1,608,Spain,Female,41,1,8380786,1,0,1,11254258,0
2,502,France,Female,42,8,1596608,3,1,0,11393157,1
3,699,France,Female,39,1,0,2,0,0,9382663,0
4,850,Spain,Female,43,2,12551082,1,1,1,790841,0


O DataFrame df_koalas é criado e, assim como no Pandas, as primeiras linhas dos dados são exibidas. A grande vantagem do Koalas é que ele permite a execução de operações em um cluster distribuído, oferecendo escalabilidade para grandes volumes de dados.

#### Seleção de Colunas Específicas
Vamos selecionar apenas algumas colunas do DataFrame utilizando tanto o Pandas quanto o Koalas.

- Com Pandas:

In [0]:
df_sub = df_pandas[['CreditScore', 'Geography', 'Gender']]
df_sub.head()

Unnamed: 0,CreditScore,Geography,Gender
0,619,France,Female
1,608,Spain,Female
2,502,France,Female
3,699,France,Female
4,850,Spain,Female


- Com Koalas:

In [0]:
df_sub = df_koalas[['CreditScore', 'Geography', 'Gender']]
df_sub.head()

Unnamed: 0,CreditScore,Geography,Gender
0,619,France,Female
1,608,Spain,Female
2,502,France,Female
3,699,France,Female
4,850,Spain,Female


Ambas as operações resultam em um DataFrame contendo apenas as colunas CreditScore, Geography e Gender. A sintaxe é idêntica, mostrando a facilidade de transição entre Pandas e Koalas.

#### Filtragem de Dados
Vamos filtrar os dados para obter apenas os clientes que realizaram o churn (Exited igual a 1).

- Com Pandas:

In [0]:
df_filtered = df_pandas[df_pandas['Exited'] == 1]
df_filtered.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0,1,1,1,10134888,1
2,502,France,Female,42,8,1596608,3,1,0,11393157,1
5,645,Spain,Male,44,8,11375578,2,1,0,14975671,1
7,376,Germany,Female,29,4,11504674,4,1,0,11934688,1
16,653,Germany,Male,58,1,13260288,1,1,0,509767,1


- Com Koalas:

In [0]:
df_filtered = df_koalas[df_koalas['Exited'] == 1]
df_filtered.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0,1,1,1,10134888,1
2,502,France,Female,42,8,1596608,3,1,0,11393157,1
5,645,Spain,Male,44,8,11375578,2,1,0,14975671,1
7,376,Germany,Female,29,4,11504674,4,1,0,11934688,1
16,653,Germany,Male,58,1,13260288,1,1,0,509767,1


Tanto no Pandas quanto no Koalas, o DataFrame resultante contém apenas os clientes que saíram. A operação de filtragem é direta e semelhante em ambos os casos.

#### Agrupamento e Cálculo de Médias
Finalmente, vamos agrupar os dados por Geography e calcular a média de cada grupo.

- Com Pandas:

In [0]:
df_grouped = df_pandas.groupby('Geography').mean()
df_grouped.head()

Unnamed: 0_level_0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
France,649.668329,38.511767,5.004587,5666779.0,1.530913,0.706621,0.516753,9082430.0,0.161548
Germany,651.453567,39.771622,5.009964,10919510.0,1.519729,0.71383,0.497409,9213755.0,0.324432
Spain,651.333872,38.890997,5.032297,5649749.0,1.539362,0.694792,0.529673,8977487.0,0.166734


- Com Koalas:

In [0]:
df_grouped = df_koalas.groupby('Geography').mean()
df_grouped.head()

Unnamed: 0_level_0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Germany,651.453567,39.771622,5.009964,10919510.0,1.519729,0.71383,0.497409,9213755.0,0.324432
France,649.668329,38.511767,5.004587,5666779.0,1.530913,0.706621,0.516753,9082430.0,0.161548
Spain,651.333872,38.890997,5.032297,5649749.0,1.539362,0.694792,0.529673,8977487.0,0.166734


A operação de agrupamento e cálculo de médias funciona da mesma forma nos dois frameworks. As médias de cada coluna numérica são calculadas para cada país (Geography), e os resultados são muito semelhantes, demonstrando a eficiência do Koalas em operações distribuídas.

### Conclusão
O Koalas se mostrou uma ferramenta eficiente que permite escalar operações familiares do Pandas em um ambiente distribuído, sem perder a simplicidade de uso.

Enquanto o Pandas é excelente para análise de dados em pequenos conjuntos de dados, o Koalas oferece uma solução escalável para grandes volumes de dados, tirando proveito do poder do Apache Spark. Ao adotar o Koalas, você pode aproveitar o melhor dos dois mundos: a familiaridade com a API do Pandas e a escalabilidade do Spark.