# Análise Exploratória dos Dados
- O principal passo de um projeto de Ciência de Dados, bem antes de usar modelos de Aprendizado de Máquinas, é **entender os seus dados**!
- Algumas etapas são fundamentais nesse processo!
- Para isso, vamos utilizar o dataset do titanic
    - https://www.kaggle.com/competitions/titanic/data

As colunas desse dataset são:
- Passenger ID: ID do passageiro (número único para cada um dos passageiros)
- Survived: sobrevivente (0 = Não, 1 = Sim)
- Pclass: Classe da passagem (1 = primeira classe, 2 = segunda classe, 3 = terceira classe)
- Name: nome do passageiro
- Sex: Gênero do passageiro
- Age: Idade (em anos) do passageiro
- SibSp: número de irmãos / cônjuges a bordo do Titanic
- Parch: número de pais / filhos a bordo do Titanic
- Ticket: número do ticket
- Fare: tarifa da passagem
- Cabin: número da cabine
- Embarked: porto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# Importando a base de dados
base = pd.read_csv('titanic_train.csv')

In [None]:
# Visualizando as 3 primeiras linhas
base.head(3)

In [None]:
# Visualizando as 3 últimas linhas
base.tail(3)

In [None]:
# Verificando o tamanho da base
base.shape

### Visualizando um resumo das informações

In [None]:
# Verificando as informações 
base.info()

In [None]:
# Contando a quantidade de valores nulos
base.isnull().sum()

In [None]:
# Verificando as informações estatísticas
base.describe()

**A cardinalidade nos ajuda a saber a quantidade de dados distintos em uma coluna**
- Se tivermos muitos valores distintos, provavelmente aquela coluna não será uma boa opção para usarmos no modelo
- Matematicamente, cardinalidade é o número de elementos de um conjunto
- Podemos verificar a cardinalidade usando o `.nunique()`

In [None]:
# Verificando o número de valores únicos
base.nunique()

### Visualizando de forma gráfica
- Para visualizar essas informações de maneira gráfica, podemos utilizar o matplotlib
    - https://matplotlib.org/

In [None]:
# Importando o matplotlib
import matplotlib.pyplot as plt

In [None]:
# Verificando o histograma das tarifas
x = base.Fare

# plot:
fig, ax = plt.subplots()

ax.hist(x, bins=40, linewidth=0.5, edgecolor="white")

plt.show()

In [None]:
# Verificando o histograma das tarifas apenas para tarifas menores que 100 reais
x = base[base.Fare < 100].Fare

# plot:
fig, ax = plt.subplots()

ax.hist(x, bins=40, linewidth=0.5, edgecolor="white")

plt.show()

In [None]:
# Verificando o boxplot para a coluna Fare
x = base[base.Fare < 100].Fare

# plot:
fig, ax = plt.subplots()

ax.boxplot(x)

plt.show()

**Dependendo do visual, outras bibliotecas já podem ter opções mais prontas para usarmos, como o caso do pairplot no seaborn**
- Como cientistas, devemos escolher a ferramenta que melhor resolve o nosso problema
- O pairplot no seaborn:
    - https://seaborn.pydata.org/generated/seaborn.pairplot.html

In [None]:
# Importando o seaborn
import seaborn as sns

In [None]:
# Criando o pairplot
sns.pairplot(base,hue='Survived')

In [None]:
# Criando uma matriz de correlação entre as variáveis
base.corr()

In [None]:
# Utilizando o heatmap do seaborn para tornar essa matriz mais visual
sns.heatmap(base.corr())

## Pandas Profiling
- https://pypi.org/project/pandas-profiling/

In [None]:
#pip install pandas-profiling==3.2.0


In [None]:
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
