In [None]:
from IPython.display import display, HTML

display(HTML('''
<style>
mjx-container {
    font-size: 200% !important;
}
</style>
'''))


# `$ whoami`

Vinicius Silva Amâncio:
- emails para contato:
    - vinicius.amancio@estudante.ifms.edu.br (acadêmico)
    - vnamn@proton.me (pessoal)
- 9° Período de Engenharia de Computação
- Participação Acadêmica: Monitoria, IC, SEENG e Viagens Técnicas
- Segundo estágio (Ciência de Dados) em uma consultoria de São Paulo, SP.
- Participação em diversos projetos reais nesse segundo estágio:
    - Análises (EDA).
    - Modelos de recomendação.
    - Predição de Churn/Turnover.
    - Clusterização.
    - Migração de pipelines de modelos em Cloud.
    - Criação de Agentes.

# 1. Introdução a Ciência de Dados

## 1.1 O que é Ciência de Dados?

Área do conhecimento que combina: programação, estatística e conhecimento situacional (vária de acordo com contexto e análise) para analisar informações, prever tendências e transformar dados brutos em decisões mais inteligentes.

![image.png](attachment:e992394b-9a3c-4be8-8d85-ae8cef3a20e6.png)

## 1.2 O que é uma EDA?

EDA é a sigla para Exploratory Data Analysis, que em português significa Análise Exploratória de Dados. É o processo de investigar um conjunto de dados para entender suas principais características. O objetivo é usar estatísticas resumidas e visualizações (gráficos) para:

- Encontrar padrões e tendências.
- Identificar erros, valores ausentes e outliers (pontos fora da curva).
- Entender a relação entre as variáveis.

## 1.3 Porque fazer uma EDA?

Fazemos uma EDA para entender os dados profundamente antes de confiar neles.

Isso nos ajuda a:

- Encontrar e corrigir problemas (erros, outliers, dados faltantes).
- Descobrir padrões e relações importantes entre as variáveis.
- Tomar decisões melhores sobre qual modelo de machine learning usar e se é necessário algum modelo de machine learning.

# 2. Conceitos estatísticos para EDA

Para uma sequência:

$a = (a_0,a_1,a_2,\dots,a_n)$

## 2.1 Medidas de tendência central

### 2.1.1 Média

$$ \bar{a} = \frac{1}{n}\sum_{i = 1}^{n} a_i $$

Útil para encontrar o "centro de gravidade" dos dados quando eles são simétricos e não possuem valores extremos (outliers).

### 2.1.2 Mediana

$$ a = sort(a) $$

#### Se n é par

$$ \text{Med}(a) = \frac{a_{\frac{n}{2}} + a_{\frac{n}{2}+1}}{2} $$

#### Se n é ímpar

$$ \text{Med}(a) = a_{\frac{n+1}{2}} $$

Útil para encontrar o valor central que não é afetado por outliers, representando melhor o "ponto típico" em dados assimétricos.

### 2.1.3 Moda

$$ \text{Mo}(a) = \text{argmax}(\text{freq}(a_i)) $$

Útil para identificar o valor mais comum ou a categoria mais frequente em um conjunto de dados, especialmente os categóricos.

## 2.2 Medidas de dispersão

### 2.2.1 Amplitude

$$ \text{Amplitude} = \text{max}(a) - \text{min}(a) $$

 Mede a dispersão total dos dados de forma rápida, mas é sensível a outliers.

### 2.2.2 Variância

#### 2.2.2.1 Variância Amostral

$$ s^2 = \frac{\sum_{i=1}^{n}(a_i - \bar{a})^2}{n-1} $$ 

Útil para estimar a dispersão total de uma população com base em uma amostra, corrigindo o viés da estimativa.

#### 2.2.2.2 Variância Populacional

$$ \sigma^2 = \frac{\sum_{i=1}^{n}(a_i - \mu)^2}{N} $$ 

Útil para calcular a dispersão exata de um conjunto de dados quando você tem acesso à população inteira (censo).

### 2.2.3 Desvio Padrão

#### 2.2.3.1 Desvio Padrão Amostral

$$ s = \sqrt{\frac{\sum_{i=1}^{n}(a_i - \bar{a})^2}{n-1}} $$ 

Útil para estimar a "distância média" de um ponto de dado até a média, na mesma unidade dos dados, ao inferir a partir de uma amostra.

#### 2.2.3.1 Desvio Padrão Populacional

$$ \sigma = \sqrt{\frac{\sum_{i=1}^{n}(a_i - \mu)^2}{N}} $$ 

Útil para medir a "distância média" exata de um ponto de dado até a média quando se trabalha com a população completa.

# 3. Ferramentas

- Linguagem: Python
- IDE: Jupyter Notebook (jupyterlab)
- Gerenciador de dependências: [uv](https://docs.astral.sh/uv/getting-started/)
- Bibliotecas: jupyterlab, ipykernel, pandas, matplotlib, seaborn, numpy

# 4. Introdução as bibliotecas

## 4.1 Pandas

É a principal ferramenta para manipulação e análise de dados. Sua estrutura central é o DataFrame, uma tabela bidimensional (como uma planilha ou tabela de SQL) onde linhas e colunas são rotuladas, permitindo acesso e manipulação de dados de forma intuitiva e poderosa.

In [None]:
import pandas as pd

dados = {'Nome': ['Ana', 'Bruno', 'Carla'],
         'Idade': [23, 34, 19]}

df = pd.DataFrame(dados)

display(df)

## 4.2 Matplotlib

É a biblioteca fundamental para criar visualizações e gráficos em Python. Ela oferece controle total sobre cada elemento de um gráfico (eixos, títulos, cores, estilos), funcionando como uma base para outras bibliotecas (como o Seaborn).

In [None]:
import matplotlib.pyplot as plt

ano = [2021, 2022, 2023, 2024, 2025]
vendas = [100, 130, 110, 150, 170]

plt.plot(ano, vendas)
plt.title('Vendas por Ano')
plt.xlabel('Ano')
plt.ylabel('Vendas (em milhões)')
plt.show()

## 4.3 Seaborn

É uma biblioteca de visualização de dados baseada no Matplotlib. Ela simplifica a criação de gráficos estatísticos mais complexos e esteticamente agradáveis, como boxplots e mapas de calor, com menos código.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

df_gorjetas = sns.load_dataset('tips')

sns.boxplot(x='day', y='total_bill', data=df_gorjetas)
plt.title('Distribuição do Valor da Conta por Dia')
plt.show()

## 4.4 Numpy

É a base da computação numérica no Python. Seu objeto principal é o array, uma estrutura de dados multidimensional que permite realizar operações matemáticas em vetores e matrizes de forma extremamente rápida e eficiente (muito mais rápido que listas Python).

In [None]:
import numpy as np

alturas = np.array([1.75, 1.80, 1.65, 1.90])

alturas_cm = alturas * 100

print(alturas_cm)

# 5. EDA

## 5.1 Importação

In [None]:
import pandas as pd
import seaborn as sns

## 5.2 Leitura das bases de entrada

In [None]:
df = sns.load_dataset('titanic')

## 5.3 Primeiras visualizações

### 5.3.1 Inicio e fim

In [None]:
df.head()

In [None]:
df.tail()

### 5.3.2 Forma do DF: número de linhas e colunas

In [None]:
df.shape

### 5.3.3 Outras informações

In [None]:
df.info()

In [None]:
df.columns

In [None]:
df.dtypes

### 5.3.4 Resumo estatístico

In [None]:
df.describe()

## 5.4 Valores ausentes

In [None]:
df.isnull().sum()

In [None]:
plt.title('Mapa de Calor de Dados Faltantes')
sns.heatmap(df.isnull(), cbar=False, cmap='viridis', yticklabels=False)
plt.show()

### 5.4.1 O que fazer com valores ausentes? Remoção vs Preenchimento

- Calcule a % de ausentes por coluna:
    - Se a % for muito alta (ex: > 70%):
        - Considere remover a coluna.
    - Se a % for muito baixa (ex: < 3%):
        - Remover as linhas é uma opção fácil e geralmente segura.
    - Se a % for moderada (entre 3% e 70%):
        - Imputação é a melhor escolha.
            - A variável é numérica?
                - Tem outliers ou é assimétrica? -> Use a Mediana.
                - É simétrica? -> Use a Média.
            - A variável é categórica? -> Use a Moda.

In [None]:
df.isnull().sum() * 100 / df.shape[0]

#### 5.4.1.1 Remoção

##### 5.4.1.1.1 Remoção de linhas

Usado quando a porcentagem de linhas com valores ausentes é muito pequena em relação ao total do dataset (ex: < 2-3%), dessa forma, existem dados suficientes para "perder" algumas linha sem comprometer a análise.

In [None]:
df = df.loc[~df['embarked'].isnull()]

In [None]:
df.isnull().sum()

##### 5.4.1.1.2 Remoção de colunas

Usada quando uma coluna tem uma porcentagem altíssima de valores ausentes (ex: > 60-70%) e não é uma variável crucial para o seu modelo.

In [None]:
df = df.drop('deck', axis=1)

- axis=0 se refere às linhas (o eixo vertical).
- axis=1 se refere às colunas (o eixo horizontal).

In [None]:
df.isnull().sum()

#### 5.4.1.2 Preenchimento

In [None]:
df['age'].describe()

##### 5.4.1.2.1 Imputação Simples

###### 5.4.1.2.1.1 Média

In [None]:
df['age'] = df['age'].fillna(df['age'].mean())

###### 5.4.1.2.1.2 Mediana

In [None]:
df['age'] = df['age'].fillna(df['age'].median())

###### 5.4.1.2.1.3 Moda

In [None]:
df['sex'].describe()

In [None]:
df['sex'].mode()[0]

In [None]:
df['sex'].fillna(df['sex'].mode()[0])

###### 5.4.1.2.1.4 Valor constante

In [None]:
df['coluna'].fillna(0)

## 5.5 Indexiçação e Manipulação de Dataframes

### 5.5.1 `.loc` e `.iloc`

- `.loc`: Seleciona dados pelos RÓTULOS (nomes) das linhas e colunas.
- `.iloc`: Seleciona dados pela POSIÇÃO numérica (índice inteiro, começando em 0), como em uma lista do python.

### 5.5.2 Filtros

In [None]:
df.loc[df['age'] > 70]['age']

### 5.5.3 Slicing

In [None]:
df.loc[0:3,'survived':'pclass']

In [None]:
df.iloc[0:4,0:2]

## 5.6 Visualizações

### 5.6.1 Importância

O quarteto de Anscombe compreende quatro conjuntos de dados que têm estatísticas descritivas simples quase idênticas, mas têm distribuições muito diferentes e aparecem muito diferentes quando representados graficamente. Cada conjunto de dados consiste em onze pontos (x, y). Eles foram construídos em 1973 pelo estatístico Francis Anscombe para demonstrar tanto a importância de graficamente dados ao analisá-los, quanto o efeito de outliers e outras observações influentes sobre propriedades estatísticas. Ele descreveu o artigo como sendo destinado a contrariar a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas os gráficos são ásperos".

![image.png](attachment:5ec6487f-1a82-4850-a5e8-6cc2041504e6.png)

![image.png](attachment:1d3f8fa8-1e97-428b-9731-6270040ef46c.png)

![image.png](attachment:3b4e41cf-4baa-40bc-ad46-40fc26517c7f.png)

### 5.6.2 Análise Univariada

#### 5.6.2.1 Váriaveis Numéricas

##### 5.6.2.1.1 Histograma (sns.histplot)

In [None]:
sns.histplot(data=df, x='age', kde=True, bins=30).set_title('Distribuição de Idade')
plt.show()

  * A distribuição de idade mostra uma grande quantidade de jovens adultos (20-40 anos) e algumas crianças.

##### 5.6.2.1.2 Boxplot (sns.boxplot)

![image.png](attachment:02056051-ac08-4c46-b831-ce92dd9845a4.png)

In [None]:
plt.figure(figsize=(12, 4))
sns.boxplot(
    x=df['fare'],
    color='skyblue'
)

plt.title('Distribuição da Tarifa Paga pelos Passageiros')
plt.xlabel('Tarifa Paga (USD)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

- A grande maioria pagou muito pouco: Metade dos passageiros pagou menos de 15 USD, com os dados fortemente concentrados em uma faixa de preço baixa e estreita.
- Uma minoria pagou valores exorbitantes: Existe uma longa cauda de outliers, mostrando que um pequeno número de passageiros pagou tarifas excepcionalmente altas em comparação com os demais.
- Conclusão: A distribuição das tarifas é fortemente assimétrica, indicando que a população do navio era majoritariamente de baixa renda, com uma pequena elite abastada.

#### 5.6.2.2 Váriaveis Categóricas

##### 5.6.2.2.1 Gráfico de contagem (sns.countplot)

In [None]:
plt.title('Distribuição de Sobreviventes')
sns.countplot(x='survived', data=df)
plt.show()
print(f"Taxa de Sobrevivência: {df['survived'].mean() * 100:.2f}%")

A maioria dos passageiros (cerca de 62%) não sobreviveu.

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
sns.countplot(ax=axes[0], x='pclass', data=df).set_title('Passageiros por Classe')
sns.countplot(ax=axes[1], x='sex', data=df).set_title('Passageiros por Sexo')
sns.countplot(ax=axes[2], x='embarked', data=df).set_title('Passageiros por Porto de Embarque')
plt.show()

* A grande maioria dos passageiros estava na 3ª classe.
  * Havia quase o dobro de homens em relação a mulheres.
  * A maioria embarcou em Southampton (`S`).

### 5.6.3 Análise Bivariada

#### 5.6.3.1 Númerica vs Númerica

In [None]:
#df_clean = df.dropna(subset=['age'])

plt.figure(figsize=(12, 7))
sns.scatterplot(
    data=df,
    x='age',
    y='fare',
    hue='survived',  
    style='sex',     
    alpha=0.6        
)

plt.title('Relação entre Idade, Tarifa Paga e Sobrevivência no Titanic')
plt.xlabel('Idade (anos)')
plt.ylabel('Tarifa Paga (USD)')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

- Relação Idade vs. Tarifa: Não parece haver uma correlação linear forte entre idade e tarifa. Isso sugere que a idade de um passageiro não determinava diretamente o preço do seu bilhete.
- Aglomeração de Dados: A maioria dos passageiros pagou tarifas mais baixas, o que resulta em uma grande aglomeração de pontos na parte inferior do gráfico. Alguns poucos passageiros pagaram tarifas altíssimas.
- Sobrevivência (hue):
    - Podemos observar que, entre os que pagaram tarifas mais altas, há uma proporção maior de sobreviventes (pontos com hue='Yes'). Isso reforça a ideia de que a classe/tarifa estava ligada à sobrevivência.
    - No grupo de tarifas mais baixas, a maioria não sobreviveu (pontos com hue='No').
- Sexo (style):
    - Os marcadores de estilo (para sex) mostram que, entre os sobreviventes de tarifas mais altas, há uma predominância de mulheres (representadas por 'x'). Isso alinha com a política de "mulheres e crianças primeiro", especialmente para aqueles em classes superiores.
    - Em contraste, na região de tarifas mais baixas, há muitos homens que não sobreviveram (representados por 'o').

#### 5.6.3.2 Categórica vs Númerica

##### 5.6.3.2.1 Categórica vs Númerica

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(
    data=df,
    x='sex',
    y='age',
    hue='survived',
    palette='pastel'
)

plt.title('Distribuição de Idade por Sexo e Sobrevivência')
plt.xlabel('Sexo')
plt.ylabel('Idade (anos)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

  * Crianças (`age` \< 10) tiveram uma alta taxa de sobrevivência em ambos os sexos.
  * Entre os homens, a maioria dos sobreviventes era jovem.

##### 5.6.3.2.2 Categórica vs Númerica

In [None]:
sns.boxplot(
    data=df,
    x='pclass',
    y='age',
    palette='pastel',
    hue='pclass',
    legend=False
)

plt.title('Distribuição de Idade por Classe dos Passageiros')
plt.xlabel('Classe do Bilhete')
plt.ylabel('Idade (anos)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

#### 5.6.3.3 Categórica vs Categórica

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 5))
sns.countplot(ax=axes[0], data=df, x='sex', hue='survived').set_title('Sobrevivência por Sexo')
sns.countplot(ax=axes[1], data=df, x='pclass', hue='survived').set_title('Sobrevivência por Classe')
plt.show()

  * **Sexo vs. Sobrevivência:** Mulheres tiveram uma taxa de sobrevivência muito maior que os homens, confirmando a política de "mulheres e crianças primeiro".
  * **Classe vs. Sobrevivência:** Passageiros da 1ª classe tiveram uma taxa de sobrevivência muito maior que os da 3ª classe. O status socioeconômico foi um fator decisivo.

### 5.6.4 Análise Multivariada

In [None]:
sns.catplot(data=df, x='pclass', y='survived', hue='sex', kind='bar', height=5, aspect=2)
plt.title('Taxa de Sobrevivência por Classe e Sexo')
plt.ylabel('Taxa de Sobrevivência')
plt.show()

numeric_df = df.select_dtypes(include=np.number)
correlation_matrix = numeric_df.corr()
plt.title('Matriz de Correlação')
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.show()

  * O `catplot` mostra de forma clara que as mulheres da 1ª e 2ª classe tiveram taxas de sobrevivência altíssimas (\>90%), enquanto os homens da 3ª classe tiveram a menor taxa.
  * A matriz de correlação mostra uma correlação negativa entre `pclass` e `survived` (-0.34), confirmando que, quanto menor a classe (1 é menor que 3), maior a chance de sobrevivência. Há também uma correlação negativa entre `pclass` e `fare`.

# 6. Conclusão

## 6.1 Resumo do fluxo da EDA

Carregar -> Inspecionar -> Limpar (se necessário) -> Analisar com estatísticas -> Visualizar -> Tirar conclusões.

## 6.2 O que é possível se fazer ao dominar a realização de uma EDA?

- Pré-processamento
- Feature Engineering
    - Possibilitando: Machine Learning
        - Regressões
        - KNN, K-Means, SVM
        - Redes Neurais
        - Modelos de classificação
- Consolidar análises
- Tomar decisões de negócio
- Criar storytelling