# Bem-vindo

Me chamo **Bruno Dezorzi**, sou estudante de **Análise e Desenvolvimento de Sistemas** e tenho a ambição de me tornar um **Cientista de Dados**.

Neste script, você verá a aplicação de várias habilidades que um Cientista de Dados precisa dominar.

O dataset utilizado será o **california_housing**, obtido no framework **scikit-learn**.


# 1. **Domínio de Programação (Python)**

## Manipulação de Dados com Pandas

### Leitura e Escrita de Dados (CSV, Excel, SQL)
- **Dica**: Use `pd.read_csv('caminho/do/arquivo.csv')` para carregar o dataset `california_housing` em um DataFrame. Se estiver utilizando o dataset do `sklearn`, você pode carregá-lo diretamente com `fetch_california_housing()`.
- **Exercício**: Salve o DataFrame manipulado em um novo arquivo CSV com `df.to_csv('caminho/do/novo_arquivo.csv')`.

### Seleção, Filtragem e Ordenação de Dados (`loc`, `iloc`)
- **Dica**: Utilize `df.loc[]` para seleção baseada em rótulos e `df.iloc[]` para seleção baseada em índices.
- **Exercício**: Filtre os dados para mostrar apenas as linhas onde o valor da coluna `median_house_value` é maior que 200.000 e ordene por `median_income` em ordem decrescente.

### Agrupamento e Agregação de Dados (`groupby`, `agg`)
- **Dica**: Use `df.groupby('column_name')` para agrupar os dados e `agg()` para aplicar funções de agregação.
- **Exercício**: Agrupe os dados por `ocean_proximity` e calcule a média de `median_house_value` para cada grupo.

### Tratamento de Valores Ausentes (`dropna`, `fillna`)
- **Dica**: Aplique `df.dropna()` para remover linhas com valores ausentes e `df.fillna(value)` para substituir valores ausentes.
- **Exercício**: Substitua valores ausentes na coluna `total_bedrooms` com a média dos valores dessa coluna.

### Merge e Join de DataFrames
- **Dica**: Utilize `pd.merge(df1, df2, on='key_column')` para combinar DataFrames com base em uma coluna chave.
- **Exercício**: Se tiver um segundo DataFrame com dados adicionais (por exemplo, dados demográficos), combine-o com o DataFrame `california_housing` usando uma coluna comum, como `longitude` ou `latitude`.


In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing

In [26]:
california_housing_data = fetch_california_housing()
print(california_housing_data.keys())
df = fetch_california_housing(as_frame= True)
df = df.frame
df.head()

dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


## NumPy

### Criação e Manipulação de Arrays Multidimensionais
- **Dica**: Crie arrays com `np.array()` e altere suas formas usando `reshape()`.
- **Exercício**: Converta uma coluna do DataFrame `california_housing` em um array NumPy e redimensione-o para uma matriz 2D.

### Operações Vetorizadas e Broadcasting
- **Dica**: Use operações diretamente em arrays NumPy para realizar cálculos rápidos e eficientes.
- **Exercício**: Aplique uma operação matemática, como a normalização, a uma coluna de dados convertida em array NumPy.

### Funções Matemáticas Básicas (Média, Desvio Padrão, Soma, etc.)
- **Dica**: Utilize funções como `np.mean()`, `np.std()`, `np.sum()` para calcular estatísticas básicas.
- **Exercício**: Calcule a média e o desvio padrão das colunas `median_house_value` e `median_income` do DataFrame `california_housing`.


## Controle de Fluxo em Python

### Estruturas de Decisão (`if`, `else`, `elif`)
- **Dica**: Use essas estruturas para executar código com base em condições.
- **Exercício**: Crie uma condição para categorizar o valor de `median_house_value` em "Alto", "Médio" ou "Baixo".

### Laços de Repetição (`for`, `while`)
- **Dica**: Utilize laços para iterar sobre dados ou realizar operações repetitivas.
- **Exercício**: Use um laço `for` para calcular a média de `median_house_value` para diferentes intervalos de `median_income`.

### Funções e Lambda Functions
- **Dica**: Defina funções com `def` e use funções lambda para operações rápidas e inline.
- **Exercício**: Crie uma função que calcula a diferença entre `median_house_value` e `median_income` e aplique essa função a cada linha do DataFrame.


## Manipulação de Arquivos e Scripts

### Criação e Execução de Scripts Python
- **Dica**: Escreva scripts Python para realizar tarefas automatizadas e execute-os no terminal.
- **Exercício**: Crie um script Python que leia o dataset `california_housing`, aplique algumas transformações e salve o resultado em um novo arquivo.

### Leitura de Grandes Arquivos de Dados
- **Dica**: Use técnicas de leitura eficiente, como leitura em pedaços com `chunksize`.
- **Exercício**: Carregue o dataset em partes e processe cada parte individualmente para otimizar a memória.


# 2. **Análise de Dados**

 em bins ou categorias.


## Exploração de dados
- **Análise inicial dos dados: dimensões, tipos de variáveis, valores nulos**
  - Verificação das características principais dos dados.
- **Distribuições e dispersão dos dados**
  - Análise da distribuição e variabilidade dos dados.
- **Análise de outliers (boxplots, IQR)**
  - Identificação de valores atípicos e sua influência nos dados.

## Visualização de dados com Matplotlib e Seaborn
- **Criação de gráficos de linhas, dispersão, histogramas, heatmaps**
  - Construção de diferentes tipos de gráficos para visualização.
- **Customização de gráficos (títulos, rótulos, legendas)**
  - Adição de elementos visuais para melhorar a interpretação.
- **Gráficos multi-dimensionais (pairplots, catplots)**
  - Visualização de relações entre múltiplas variáveis.

## Transformações de dados
- **Normalização e padronização (scaling)**
  - Técnicas para ajustar a escala das variáveis.
- **Aplicação de log-transform e outras técnicas para lidar com skewness**
  - Transformações para melhorar a distribuição dos dados.
- **Binning de variáveis contínuas em categorias**
  - Agrupamento de variáveis contínuas em bins ou categorias.

# 3. **Estatística e Probabilidade**

is da inferência bayesiana.



## Estatística Descritiva
- **Medidas de tendência central: média, mediana, moda**
  - Resumos das características centrais dos dados.
- **Medidas de dispersão: variância, desvio padrão, intervalo interquartil (IQR)**
  - Análise da variabilidade dos dados.
- **Análise de assimetria (skewness) e curtose (kurtosis)**
  - Medidas de forma da distribuição dos dados.

## Estatística Inferencial
- **Amostragem: diferença entre população e amostra**
  - Conceitos de amostragem e suas implicações.
- **Testes de hipóteses: Teste t, Teste z, Teste de qui-quadrado**
  - Métodos para testar hipóteses sobre os dados.
- **P-valores e significância estatística**
  - Interpretação dos p-valores para determinar significância.
- **Intervalos de confiança**
  - Cálculo e interpretação de intervalos para estimativas de parâmetros.

## Distribuições de Probabilidade
- **Distribuições discretas: Binomial, Poisson**
  - Propriedades e aplicações das distribuições discretas.
- **Distribuições contínuas: Normal, Exponencial, Uniforme**
  - Características e usos das distribuições contínuas.
- **Distribuições conjuntas e probabilidade condicional**
  - Análise de distribuições conjuntas e probabilidade condicional.
- **Teorema de Bayes e inferência bayesiana**
  - Conceitos fundamentais da inferência bayesiana.

# 4. **Machine Learning**ização: L1, L2, Dropout).


## Modelos Supervisionados
- **Regressão Linear**
  - Conceito de regressão linear simples e múltipla.
  - Interpretação dos coeficientes e diagnóstico de multicolinearidade.
- **Regressão Logística**
  - Aplicações em classificação binária.
  - Curva ROC e AUC (Área sob a curva) e conceito de odds ratio.
- **Árvores de Decisão**
  - Critérios de divisão (gini, entropia), podas de árvores e regularização.
  - Prevenção de overfitting em árvores de decisão.

## Modelos Não Supervisionados
- **k-Means Clustering**
  - Escolha do número de clusters (método do cotovelo) e métricas para avaliar clustering (silhueta, inércia).
- **PCA (Análise de Componentes Principais)**
  - Redução de dimensionalidade e interpretação dos componentes principais.

## Técnicas de Avaliação de Modelos
- **Métricas de Regressão**
  - RMSE, MAE, R² para avaliação de modelos de regressão.
- **Métricas de Classificação**
  - Accuracy, Precision, Recall, F1-Score e matriz de confusão.
  - Cross-validation e k-fold validation para validação de modelos.
- **Overfitting e Underfitting**
  - Técnicas para evitar overfitting (regularização: L1, L2, Dropout).


# 5. **Data Wrangling e Feature Engineering**



## Data Wrangling
- **Tratamento de dados ausentes: remoção, imputação de valores**
  - Técnicas para lidar com dados ausentes.
- **Conversão de tipos de dados (strings para datetime, etc.)**
  - Conversão entre diferentes tipos de dados.
- **Tratamento de dados inconsistentes e duplicados**
  - Identificação e correção de inconsistências e duplicatas.

## Feature Engineering
- **Criação de novas features a partir de variáveis existentes**
  - Ex: densidade, taxa de crescimento.
- **Codificação de variáveis categóricas (one-hot encoding, label encoding)**
  - Métodos para transformar variáveis categóricas em numéricas.
- **Transformações logarítmicas e interações entre variáveis**
  - Criação de novas features para melhorar o desempenho do modelo.

## Normalização e Padronização
- **Min-Max scaling e StandardScaler**
  - Técnicas para normalização e padronização de dados.
- **Z-score normalization**
  - Transformação dos dados para uma distribuição padrão normal.

# 6. **Banco de Dados e SQL** evitar redundância.


## Consultas SQL Básicas
- **SELECT, WHERE, JOIN, GROUP BY, ORDER BY, LIMIT**
  - Consultas para selecionar, filtrar e ordenar dados em bancos de dados.

## Consultas SQL Avançadas
- **Subqueries, Common Table Expressions (CTEs)**
  - Consultas aninhadas e uso de CTEs para consultas complexas.
- **Operações de agregação (SUM, COUNT, AVG, etc.)**
  - Funções para agregação e resumo de dados.

## Manipulação de Dados
- **Inserção, atualização e exclusão de registros (INSERT, UPDATE, DELETE)**
  - Manipulação dos dados em uma tabela.

## Indexação e Performance
- **Como e quando usar índices para otimizar consultas**
  - Criação e uso de índices para melhorar o desempenho.
- **Entendimento de esquemas de banco de dados relacionais (normalização)**
  - Estruturação de dados e normalização para evitar redundância.