# Bem-vindo

Me chamo **Bruno Dezorzi**, sou estudante de **Análise e Desenvolvimento de Sistemas** e tenho a ambição de me tornar um **Cientista de Dados**.

Neste script, você verá a aplicação de várias habilidades que um Cientista de Dados precisa dominar.

O dataset utilizado será o **california_housing**, obtido no framework **scikit-learn**.


In [5]:
import pandas as pd
import numpy as np
import statistics
from sklearn.datasets import fetch_california_housing

In [4]:
california_housing_data = fetch_california_housing()
print(california_housing_data.keys())
df = fetch_california_housing(as_frame= True)
df = df.frame
df.head()

dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [34]:
def analise_features_cs_min_max(feature):
    feature_normal = feature

    feature_normal_media = feature_normal.median()
    feature_normal_std = feature_normal.std()

    feature_max = feature_normal.max()
    feature_min = feature_normal.min()

    indexes_max = feature_normal[feature_normal == feature_max].index
    indexes_min = feature_normal[feature_normal == feature_min].index

    # Remover max e min corretamente
    feature_sem_mm = feature_normal.drop(indexes_max).drop(indexes_min)

    feature_sem_mm_media = feature_sem_mm.median()
    feature_sem_mm_std = feature_sem_mm.std()

    print(f"A feature {feature.name} possui:\n"
          f"Normal -> média: {feature_normal_media:.2f} desvio padrão: {feature_normal_std:.2f}, Coeficiente de Variação: {(feature_normal_std/feature_normal_media*100):.2f}% e com {feature_normal.count()} linhas\n"
          f"Sem max e min -> média: {feature_sem_mm_media:.2f} desvio padrão: {feature_sem_mm_std:.2f} Coeficiente de Variação: {(feature_sem_mm_std/feature_sem_mm_media*100):.2f}%  e com {feature_sem_mm.count()} linhas\n")


In [35]:
def analise_geral_cs_max_min(dataframe):
    qtde_features = dataframe.shape[1]

    for i in range(qtde_features):
        feature_name = dataframe.columns[i]  # Nome da feature
        print(f"Analisando a feature: {feature_name}")
        analise_features_cs_min_max(dataframe.iloc[:, i])

In [36]:
analise_geral_cs_max_min(df)

Analisando a feature: MedInc
A feature MedInc possui:
Normal -> média: 3.53 desvio padrão: 1.90, Coeficiente de Variação: 53.75% e com 20640 linhas
Sem max e min -> média: 3.53 desvio padrão: 1.82 Coeficiente de Variação: 51.58%  e com 20579 linhas

Analisando a feature: HouseAge
A feature HouseAge possui:
Normal -> média: 29.00 desvio padrão: 12.59, Coeficiente de Variação: 43.40% e com 20640 linhas
Sem max e min -> média: 27.00 desvio padrão: 11.42 Coeficiente de Variação: 42.30%  e com 19363 linhas

Analisando a feature: AveRooms
A feature AveRooms possui:
Normal -> média: 5.23 desvio padrão: 2.47, Coeficiente de Variação: 47.32% e com 20640 linhas
Sem max e min -> média: 5.23 desvio padrão: 2.28 Coeficiente de Variação: 43.69%  e com 20638 linhas

Analisando a feature: AveBedrms
A feature AveBedrms possui:
Normal -> média: 1.05 desvio padrão: 0.47, Coeficiente de Variação: 45.19% e com 20640 linhas
Sem max e min -> média: 1.05 desvio padrão: 0.41 Coeficiente de Variação: 39.53%  e 

## Exploração de dados
- **Análise inicial dos dados: dimensões, tipos de variáveis, valores nulos**
  - Verificação das características principais dos dados.
- **Distribuições e dispersão dos dados**
  - Análise da distribuição e variabilidade dos dados.
- **Análise de outliers (boxplots, IQR)**
  - Identificação de valores atípicos e sua influência nos dados.

## Visualização de dados com Matplotlib e Seaborn
- **Criação de gráficos de linhas, dispersão, histogramas, heatmaps**
  - Construção de diferentes tipos de gráficos para visualização.
- **Customização de gráficos (títulos, rótulos, legendas)**
  - Adição de elementos visuais para melhorar a interpretação.
- **Gráficos multi-dimensionais (pairplots, catplots)**
  - Visualização de relações entre múltiplas variáveis.

## Transformações de dados
- **Normalização e padronização (scaling)**
  - Técnicas para ajustar a escala das variáveis.
- **Aplicação de log-transform e outras técnicas para lidar com skewness**
  - Transformações para melhorar a distribuição dos dados.
- **Binning de variáveis contínuas em categorias**
  - Agrupamento de variáveis contínuas em bins ou categorias.


## Estatística Descritiva
- **Medidas de tendência central: média, mediana, moda**
  - Resumos das características centrais dos dados.
- **Medidas de dispersão: variância, desvio padrão, intervalo interquartil (IQR)**
  - Análise da variabilidade dos dados.
- **Análise de assimetria (skewness) e curtose (kurtosis)**
  - Medidas de forma da distribuição dos dados.

## Estatística Inferencial
- **Amostragem: diferença entre população e amostra**
  - Conceitos de amostragem e suas implicações.
- **Testes de hipóteses: Teste t, Teste z, Teste de qui-quadrado**
  - Métodos para testar hipóteses sobre os dados.
- **P-valores e significância estatística**
  - Interpretação dos p-valores para determinar significância.
- **Intervalos de confiança**
  - Cálculo e interpretação de intervalos para estimativas de parâmetros.

## Distribuições de Probabilidade
- **Distribuições discretas: Binomial, Poisson**
  - Propriedades e aplicações das distribuições discretas.
- **Distribuições contínuas: Normal, Exponencial, Uniforme**
  - Características e usos das distribuições contínuas.
- **Distribuições conjuntas e probabilidade condicional**
  - Análise de distribuições conjuntas e probabilidade condicional.
- **Teorema de Bayes e inferência bayesiana**
  - Conceitos fundamentais da inferência bayesiana.

## Modelos Supervisionados
- **Regressão Linear**
  - Conceito de regressão linear simples e múltipla.
  - Interpretação dos coeficientes e diagnóstico de multicolinearidade.
- **Regressão Logística**
  - Aplicações em classificação binária.
  - Curva ROC e AUC (Área sob a curva) e conceito de odds ratio.
- **Árvores de Decisão**
  - Critérios de divisão (gini, entropia), podas de árvores e regularização.
  - Prevenção de overfitting em árvores de decisão.

## Modelos Não Supervisionados
- **k-Means Clustering**
  - Escolha do número de clusters (método do cotovelo) e métricas para avaliar clustering (silhueta, inércia).
- **PCA (Análise de Componentes Principais)**
  - Redução de dimensionalidade e interpretação dos componentes principais.

## Técnicas de Avaliação de Modelos
- **Métricas de Regressão**
  - RMSE, MAE, R² para avaliação de modelos de regressão.
- **Métricas de Classificação**
  - Accuracy, Precision, Recall, F1-Score e matriz de confusão.
  - Cross-validation e k-fold validation para validação de modelos.
- **Overfitting e Underfitting**
  - Técnicas para evitar overfitting (regularização: L1, L2, Dropout).



## Data Wrangling
- **Tratamento de dados ausentes: remoção, imputação de valores**
  - Técnicas para lidar com dados ausentes.
- **Conversão de tipos de dados (strings para datetime, etc.)**
  - Conversão entre diferentes tipos de dados.
- **Tratamento de dados inconsistentes e duplicados**
  - Identificação e correção de inconsistências e duplicatas.

## Feature Engineering
- **Criação de novas features a partir de variáveis existentes**
  - Ex: densidade, taxa de crescimento.
- **Codificação de variáveis categóricas (one-hot encoding, label encoding)**
  - Métodos para transformar variáveis categóricas em numéricas.
- **Transformações logarítmicas e interações entre variáveis**
  - Criação de novas features para melhorar o desempenho do modelo.

## Normalização e Padronização
- **Min-Max scaling e StandardScaler**
  - Técnicas para normalização e padronização de dados.
- **Z-score normalization**
  - Transformação dos dados para uma distribuição padrão normal.

## Consultas SQL Básicas
- **SELECT, WHERE, JOIN, GROUP BY, ORDER BY, LIMIT**
  - Consultas para selecionar, filtrar e ordenar dados em bancos de dados.

## Consultas SQL Avançadas
- **Subqueries, Common Table Expressions (CTEs)**
  - Consultas aninhadas e uso de CTEs para consultas complexas.
- **Operações de agregação (SUM, COUNT, AVG, etc.)**
  - Funções para agregação e resumo de dados.

## Manipulação de Dados
- **Inserção, atualização e exclusão de registros (INSERT, UPDATE, DELETE)**
  - Manipulação dos dados em uma tabela.

## Indexação e Performance
- **Como e quando usar índices para otimizar consultas**
  - Criação e uso de índices para melhorar o desempenho.
- **Entendimento de esquemas de banco de dados relacionais (normalização)**
  - Estruturação de dados e normalização para evitar redundância.