#***Tipos de Análise Exploratória de Dados***

Neste notebook, vamos explorar diferentes tipos de análise exploratória de dados (EDA - Exploratory Data Analysis). A EDA é uma etapa crucial na análise de dados, que nos permite compreender melhor os conjuntos de dados, identificar padrões, tendências e relações entre as variáveis. Vamos abordar os seguintes tipos de análise:

1. Univariada sem gráficos
2. Univariada gráfica
3. Multivariada sem gráficos
4. Multivariada com gráficos

Vamos começar importando as bibliotecas necessárias e carregando os dados de interesse.

**1. Univariada sem gráficos:**

A análise univariada sem gráficos é uma forma simples de análise de dados que lida com apenas uma variável. O objetivo principal é descrever os dados e identificar padrões dentro deles. Essa análise não leva em consideração causas ou relacionamentos.

Vamos realizar uma análise univariada sem gráficos em nosso conjunto de dados.

In [None]:
import pandas as pd
from google.colab import files

# Carregar o arquivo CSV para o ambiente do Colab
uploaded = files.upload()

# Obter o nome do arquivo carregado
nome_arquivo = list(uploaded.keys())[0]

# Carregar os dados
dados = pd.read_csv(nome_arquivo)

# Análise univariada sem gráficos
variavel = dados['variavel']
estatisticas_descritivas = variavel.describe()

print(estatisticas_descritivas)



Neste exemplo, carregamos os dados de um arquivo CSV e selecionamos uma variável específica para análise. Usamos o método describe() para obter estatísticas descritivas dessa variável, como média, desvio padrão, mínimo, máximo e quartis.


**2. Univariada gráfica**

A análise univariada gráfica complementa a análise univariada sem gráficos, fornecendo uma visão mais completa dos dados. Vamos explorar alguns tipos comuns de gráficos para análise univariada:

Tabelas cruzadas: Mostram os valores dos dados e a distribuição.
Histogramas: Gráficos de colunas que representam a frequência ou proporção de casos em intervalos de valores.
Diagramas de caixa: Exibem graficamente os cinco números resumidos (mínimo, primeiro quartil, mediana, terceiro quartil e máximo).
Vamos usar a biblioteca matplotlib para criar gráficos univariados.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import files

# Carregar o arquivo CSV para o ambiente do Colab
uploaded = files.upload()

# Obter o nome do arquivo carregado
nome_arquivo = list(uploaded.keys())[0]

# Carregar os dados
dados = pd.read_csv(nome_arquivo)

# Tabelas cruzadas
tabela_cruzada = pd.crosstab(index=dados['variavel'], columns='count')

# Histogramas
plt.hist(dados['variavel'], bins=10)
plt.xlabel('Variável')
plt.ylabel('Frequência')
plt.title('Histograma da Variável')
plt.show()

# Diagrama de caixa
plt.boxplot(dados['variavel'])
plt.xlabel('Variável')
plt.title('Diagrama de Caixa da Variável')
plt.show()



Neste exemplo, usamos a função crosstab do pandas para criar uma tabela cruzada que mostra a contagem dos valores da variável. Em seguida, criamos um histograma e um diagrama de caixa para visualizar a distribuição e os valores discrepantes da variável.

**3. Multivariada sem gráficos**

A análise multivariada lida com conjuntos de dados que envolvem mais de uma variável. Na análise multivariada sem gráficos, exploramos a relação entre duas ou mais variáveis por meio de tabulação cruzada ou estatística.

In [None]:
import pandas as pd
from google.colab import files

# Carregar o arquivo CSV para o ambiente do Colab
uploaded = files.upload()

# Obter o nome do arquivo carregado
nome_arquivo = list(uploaded.keys())[0]

# Verificar se o usuário selecionou um arquivo
if nome_arquivo:
    # Carregar os dados
    dados = pd.read_csv(nome_arquivo)

    # Exibir as colunas presentes no arquivo
    print("Colunas disponíveis:")
    print(dados.columns)

    # Solicitar ao usuário para escolher as colunas
    coluna_variavel1 = input("Digite o nome da coluna 'variavel1': ")
    coluna_variavel2 = input("Digite o nome da coluna 'variavel2': ")

    # Análise multivariada sem gráficos - Tabela de frequência cruzada
    relacao_variaveis = pd.crosstab(index=dados[coluna_variavel1], columns=dados[coluna_variavel2])
    # ou
    # relacao_variaveis = dados[[coluna_variavel1, coluna_variavel2]].groupby([coluna_variavel1, coluna_variavel2]).size().unstack()

    # Exibir a tabela de frequência cruzada
    print(relacao_variaveis)

    # Salvar a tabela de frequência cruzada em um arquivo CSV
    relacao_variaveis.to_csv('tabela_frequencia_cruzada.csv')
else:
    print("Nenhum arquivo selecionado.")


Neste exemplo, usamos a função crosstab do pandas para criar uma tabela cruzada que mostra a relação entre duas variáveis. Também é possível usar o método groupby para agrupar as variáveis e calcular estatísticas resumidas.


**4. Multivariada com gráficos**

A análise multivariada com gráficos nos permite visualizar as relações entre dois ou mais conjuntos de dados. Um gráfico comumente utilizado é o gráfico de colunas agrupadas, onde cada grupo representa um nível de uma variável e cada coluna dentro de um grupo representa os níveis de outra variável.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import files

# Carregar o arquivo CSV para o ambiente do Colab
uploaded = files.upload()

# Obter o nome do arquivo carregado
nome_arquivo = list(uploaded.keys())[0]

# Verificar se o usuário selecionou um arquivo
if nome_arquivo:
    # Carregar os dados
    dados = pd.read_csv(nome_arquivo)

    # Exibir as colunas presentes no arquivo
    print("Colunas disponíveis:")
    print(dados.columns)

    # Solicitar ao usuário para escolher as colunas
    coluna_variavel1 = input("Digite o nome da coluna 'variavel1': ")
    coluna_variavel2 = input("Digite o nome da coluna 'variavel2': ")

    # Gráfico de colunas agrupadas
    dados_agrupados = dados.groupby([coluna_variavel1, coluna_variavel2]).size().unstack()
    dados_agrupados.plot(kind='bar', stacked=True)

    plt.xlabel('Variável 1')
    plt.ylabel('Contagem')
    plt.title('Gráfico de Colunas Agrupadas')

    plt.show()
else:
    print("Nenhum arquivo selecionado.")


Neste exemplo, usamos o método groupby para agrupar as variáveis e criar um gráfico de colunas agrupadas. Isso nos permite visualizar a relação entre as variáveis e comparar os níveis de uma variável com os níveis de outra.

**Importância:**

1. Diversidade de técnicas: Diferentes tipos de análise exploratória usam abordagens variadas, como estatísticas descritivas, gráficos, visualizações, análise de clusters, análise de componentes principais, entre outras. Cada técnica fornece uma perspectiva única dos dados, permitindo uma compreensão mais completa do conjunto de dados.

2. Exploração abrangente: A variedade de técnicas de análise exploratória permite explorar os dados de várias maneiras, revelando padrões ocultos ou tendências que podem não ser evidentes em uma única abordagem.

3. Detecção de anomalias: Algumas técnicas de análise exploratória, como a análise de outliers, ajudam a identificar pontos de dados incomuns ou anomalias que podem ser importantes para entender o comportamento geral dos dados.

Em resumo, ter diferentes tipos de análise exploratória de dados é fundamental para obter uma compreensão completa dos dados, detectar padrões importantes e insights valiosos, além de validar suposições iniciais. Essa diversidade de técnicas ajuda a tornar a análise de dados mais abrangente e eficiente, permitindo que os analistas tomem decisões informadas e precisas com base nos dados disponíveis.


#**Bibliografia**

**Livros:**

*   "An Introduction to Statistical Learning" de Gareth James, Daniela Witten, Trevor Hastie, e Robert Tibshirani".

*   "Python for Data Analysis" de Wes McKinney".

**Sites**

*   https://www.ibm.com/br-pt/topics/exploratory-data-analysis