# Analise Exploratoria 


### O que é analise exploratoria?


Análise Exploratória de Dados é como uma primeira "explorada" nos dados que você tem. Imagine que você recebeu uma grande quantidade de informações e precisa entender o que está ali. Antes de começar a fazer qualquer análise mais profunda ou construir modelos, você precisa conhecer bem os dados.

Aqui estão os principais pontos para analise:

Entender o formato dos dados: Verificar como os dados estão organizados. Isso inclui olhar as colunas (ou variáveis) e os tipos de dados (números, texto, datas, etc.).

Limpar os dados: É comum encontrar dados que estão faltando, repetidos ou errados. A EDA ajuda a identificar e corrigir esses problemas.

A analise é essencial para "conhecer" os dados antes de começar qualquer análise mais profunda. É como um processo de "familiarização" que ajuda a fazer as perguntas certas e escolher as ferramentas adequadas para uma análise posterior.

### Ferramentas para analise

Existem várias ferramentas e bibliotecas que você pode usar para realizar Análise Exploratória de Dados. A escolha depende do seu nível de conhecimento, do tamanho e complexidade dos dados, e do ambiente de trabalho. Aqui estão algumas das mais populares:

1. Python
Pandas: Uma biblioteca essencial para manipulação e análise de dados em Python. Permite carregar, limpar, e transformar dados, além de calcular estatísticas descritivas.
Matplotlib e Seaborn: Bibliotecas para visualização de dados. Matplotlib é mais básica e flexível, enquanto Seaborn oferece gráficos mais elegantes e simplificados.
NumPy: Usada para operações matemáticas e manipulação de arrays numéricos, ajudando a realizar cálculos rápidos e eficientes.
3. Ferramentas de Business Intelligence (BI)
Tableau: Uma ferramenta de BI que permite criar gráficos e dashboards interativos para explorar dados de forma visual.
Power BI: Ferramenta da Microsoft que oferece recursos avançados de visualização e análise exploratória, também com integração facilitada com outros produtos Microsoft.

4. Excel
Tabelas Dinâmicas: Excelente para resumir e explorar grandes conjuntos de dados.
Gráficos: Permite criar gráficos básicos para visualizar distribuições e tendências.
Power Query: Usado para importar, transformar e limpar dados de várias fontes.

5. Ferramentas Interativas e Plataformas na Web
Google Data Studio: Ferramenta gratuita do Google para criar relatórios interativos e dashboards a partir de diferentes fontes de dados.
Kaggle Notebooks: Ambiente online onde você pode carregar dados e realizar EDA utilizando Python e R com acesso a diversas bibliotecas.

6. Ferramentas Específicas de Big Data
Apache Spark (com PySpark ou SparkR): Para trabalhar com grandes volumes de dados em clusters, permitindo analise escalável.
Dask: Similar ao Pandas, mas com suporte a dados maiores que a memória do computador.

### Utilizando pandas para analise exploratoria

Vimos que a biblioteca Pandas é uma das ferramentas essenciais para analise, mas agora veremos como utiliza-la!

In [1]:
#importando a biblioteca depois de baixa-la
import pandas as pd

Sera utilizado como exemplo a base de dados do navio Titanic.<br>
Base de dados retirada do Kaggle.<br>
link: [data frame titanic](https://www.kaggle.com/datasets/brendan45774/test-file)

In [2]:
#lendo o arquivo
data_frame = pd.read_csv('titanic.csv', sep=',')

#### Explorando data set

In [3]:
# head()
''' 
O que faz: Exibe as 5 primeiras linhas de um DataFrame.

Por que usar: É útil para dar uma olhada inicial nos dados e entender a estrutura do DataFrame.
'''

data_frame.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [4]:
# tail()
'''
O que faz: Exibe as últimas linhas de um DataFrame.

Por que usar: É útil para verificar o final do DataFrame, especialmente após realizar 
operações que podem alterar a ordem dos dados.
'''

data_frame.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
417,1309,0,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C


In [5]:
# info()
'''
O que faz: Exibe um resumo das colunas do DataFrame, incluindo o tipo de dados e o número de valores não nulos.

Por que usar: Ajuda a entender a estrutura do DataFrame e verificar se há valores ausentes.'''

data_frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB


In [6]:
# describe()
'''
O que faz: Fornece estatísticas descritivas das colunas numéricas, como média, desvio padrão, valor mínimo e máximo.

Por que usar: Útil para obter uma visão geral das características estatísticas dos dados numéricos.
'''
data_frame.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,0.363636,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.481622,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,0.0,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,0.0,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,1.0,3.0,39.0,1.0,0.0,31.5
max,1309.0,1.0,3.0,76.0,8.0,9.0,512.3292


Quando você usa describe() em um DataFrame, ele retorna as seguintes estatísticas por padrão:

count: O número de valores não nulos em cada coluna.

mean: A média aritmética dos valores de cada coluna.

std: O desvio padrão dos valores de cada coluna, que indica a dispersão ou variação em torno da média.

min: O valor mínimo em cada coluna.

25%: O primeiro quartil (Q1), que é o valor abaixo do qual 25% dos dados estão.<br>
50%: O segundo quartil (Q2), também conhecido como mediana, onde 50% dos dados estão abaixo desse valor.<br>
75%: O terceiro quartil (Q3), que é o valor abaixo do qual 75% dos dados estão.<br>
max: O valor máximo em cada coluna.<br>

In [7]:
# value_counts()
'''
O que faz: Conta a frequência de valores únicos em uma coluna.

Por que usar: Ajuda a entender a distribuição dos valores em uma coluna categórica.
'''
data_frame['Survived'].value_counts()

Survived
0    266
1    152
Name: count, dtype: int64

In [8]:
# Min (Mínimo): É o menor valor em um conjunto de dados.
data_frame['Age'].min()

0.17

In [9]:
# Max (Máximo): É o maior valor em um conjunto de dados
data_frame['Age'].max()

76.0

In [10]:
# unique()
'''
O que faz: Retorna uma lista de valores únicos em uma coluna.

Por que usar: Permite verificar quais valores distintos estão presentes em uma coluna.
'''
data_frame['Name'].unique()

array(['Kelly, Mr. James', 'Wilkes, Mrs. James (Ellen Needs)',
       'Myles, Mr. Thomas Francis', 'Wirz, Mr. Albert',
       'Hirvonen, Mrs. Alexander (Helga E Lindqvist)',
       'Svensson, Mr. Johan Cervin', 'Connolly, Miss. Kate',
       'Caldwell, Mr. Albert Francis',
       'Abrahim, Mrs. Joseph (Sophie Halaut Easu)',
       'Davies, Mr. John Samuel', 'Ilieff, Mr. Ylio',
       'Jones, Mr. Charles Cresson',
       'Snyder, Mrs. John Pillsbury (Nelle Stevenson)',
       'Howard, Mr. Benjamin',
       'Chaffee, Mrs. Herbert Fuller (Carrie Constance Toogood)',
       'del Carlo, Mrs. Sebastiano (Argenia Genovesi)',
       'Keane, Mr. Daniel', 'Assaf, Mr. Gerios',
       'Ilmakangas, Miss. Ida Livija',
       'Assaf Khalil, Mrs. Mariana (Miriam")"', 'Rothschild, Mr. Martin',
       'Olsen, Master. Artur Karl',
       'Flegenheim, Mrs. Alfred (Antoinette)',
       'Williams, Mr. Richard Norris II',
       'Ryerson, Mrs. Arthur Larned (Emily Maria Borie)',
       'Robins, Mr. Alexander

In [11]:
# isnull() e sum()
'''
O que faz: isnull() retorna um DataFrame de booleanos indicando se cada valor é nulo; sum() 
aplicado ao resultado conta o número de valores nulos.

Por que usar: Ajuda a identificar e contar valores ausentes no DataFrame.
'''

data_frame.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [12]:
# dropna()
'''
O que faz: Remove linhas ou colunas com valores ausentes (NaN).

Por que usar: Utilizado para limpar o DataFrame removendo dados incompletos.
'''

data_frame.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
12,904,1,1,"Snyder, Mrs. John Pillsbury (Nelle Stevenson)",female,23.0,1,0,21228,82.2667,B45,S
14,906,1,1,"Chaffee, Mrs. Herbert Fuller (Carrie Constance...",female,47.0,1,0,W.E.P. 5734,61.1750,E31,S
24,916,1,1,"Ryerson, Mrs. Arthur Larned (Emily Maria Borie)",female,48.0,1,3,PC 17608,262.3750,B57 B59 B63 B66,C
26,918,1,1,"Ostby, Miss. Helene Ragnhild",female,22.0,0,1,113509,61.9792,B36,C
28,920,0,1,"Brady, Mr. John Bertram",male,41.0,0,0,113054,30.5000,A21,S
...,...,...,...,...,...,...,...,...,...,...,...,...
404,1296,0,1,"Frauenthal, Mr. Isaac Gerald",male,43.0,1,0,17765,27.7208,D40,C
405,1297,0,2,"Nourney, Mr. Alfred (Baron von Drachstedt"")""",male,20.0,0,0,SC/PARIS 2166,13.8625,D38,C
407,1299,0,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
411,1303,1,1,"Minahan, Mrs. William Edward (Lillian E Thorpe)",female,37.0,1,0,19928,90.0000,C78,Q


In [13]:
# fillna()
'''
O que faz: Preenche valores ausentes com um valor especificado.

Por que usar: Útil para substituir valores nulos por um valor padrão ou calculado.
'''

data_frame.fillna(value={'Serie':'valor que irá substituir os valores nulos'})

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [14]:
# groupby()
'''
O que faz: Agrupa dados com base em uma ou mais colunas e permite aplicar 
funções agregadas a esses grupos.

Por que usar: Útil para resumir dados e calcular estatísticas por grupo.
'''
data_frame.groupby('Survived')['Age'].mean()


Survived
0    30.272732
1    30.272362
Name: Age, dtype: float64

In [18]:
data_frame.isnull().count()

PassengerId    418
Survived       418
Pclass         418
Name           418
Sex            418
Age            418
SibSp          418
Parch          418
Ticket         418
Fare           418
Cabin          418
Embarked       418
dtype: int64