# Data Science
## Como começar na Ciência de Dados
######                                                    Tiago de Morais Pereira - Maio/2022

___

In [None]:
# IMPORTAÇÕES
import numpy as np                # Numpy
import pandas as pd               # Pandas
import matplotlib.pyplot as plt   # Matplotlib
import seaborn as sns             # Seaborn

### Numpy

#### Numerical Python
- Biblioteca muito utlizada para computação científica
- Costruída com base em C, o que traz velocidade na execução
- Dados homogêneos
- Estrutura de arrays

#### Arrays

#### Criando arrays

In [None]:
array1 = np.array([0, 1, 2])
array2 = np.array([10, 20, 30])

print(array1)
print(array2)
print(array1 + array2)

#### Array bidimensional

In [None]:
array2d = np.array([[1, 2, 3],[4, 5, 6]])

print(array2d)

#### Array aleatório

In [None]:
random_array = np.random.random(size = 10)

print(random_array)

#### Estatísticas do array

In [None]:
maximo = np.max(random_array)
minimo = np.min(random_array)
media = np.mean(random_array)
mediana = np.median(random_array)

print(f"Maximo: {maximo}")
print(f"Minimo: {minimo}")
print(f"Média: {media}")
print(f"Mediana: {mediana}")

#### Ordenando array e acessando valores

In [None]:
random_array.sort()          # Ordenar um array

print(random_array)

print(random_array[0])       # Acessando o primeiro valor

print(random_array[-1])      # Acessando último valor

print(random_array[1:6])     # Acessando valores entre as posições 1 e 5 (inclusive)

print(random_array[1:])      # Acessando todos os valores a partir do segundo

---

### Pandas

- Biblioteca para manipulação e análise de dados

#### Abrindo um dataset no formato .csv

In [None]:
dataset = pd.read_csv("dataset.csv", index_col = 0)
dataset

#### Separando coluna específica

In [None]:
tamanho = dataset["tamanho"]
tamanho

#### Retirando colunas com o método loc

dataset.loc[linhas, colunas]

##### Selecione todas as linhas das colunas "tipo" e "quartos"

In [None]:
tipo_quarto = dataset.loc[:, ["tipo", "quartos"]]
tipo_quarto

##### Selecione as 10 primeiras linhas das colunas "vida" e "rio"

In [None]:
vida_rio = dataset.loc[:10, ["vida","rio"]]
vida_rio

##### Selecione todas as colunas dos imóveis com mais de três quartos

In [None]:
mais_3_quartos = dataset.loc[dataset["quartos"] > 3, :]
mais_3_quartos

#### Selecionando linhas e colunas baseado nos índices

Método iloc

dataset.iloc[linhas, colunas]

##### Selecione todos os valores entre as linhas 10 e 20 (inclusive) e entre as colunas 2 e 4 (inclusive)

In [None]:
dataset_iloc = dataset.iloc[10:21, 2:5]
dataset_iloc

#### Agrupando dados

##### Qual a média de preços de acordo com a quantidade de quartos?

In [None]:
quarto_preco = dataset.groupby(["quartos"])["preco"].mean()
quarto_preco

##### Qual opreço médio de cada tipo de imóvel?

In [None]:
imovel_tamanho = dataset.groupby(["tipo"])["preco"].mean()
imovel_tamanho

---

##### OK, mas como eu visualizo isso tudo?

### Matplotlib

* Biblioteca para visualização de dados

* Estrutura básica

plt.figure(figsize = (6,4))

plt.title("")

plt.ylabel("")

plt.xlabel("")

plt.show()

##### Mostre qual a média de preço dos imóveis dependendo do tipo

In [None]:
preco_tipo = dataset.groupby(["tipo"])["preco"].mean()

plt.figure(figsize = (6,4))
plt.title("Tipo x Preco médio")

plt.bar(x = 0, height = preco_tipo["casa"], color = "green")
plt.bar(x = 1, height = preco_tipo["apartamento"], color = "blue")

plt.ylabel("Preco medio")
plt.xlabel("Tipo do imóvel")
plt.xticks(ticks = [0, 1], labels = ["casa", "apartamento"])

plt.show()

##### Como é a distribuição dos preços?

In [None]:
plt.figure(figsize = (6,4))
plt.title("Distribuição de preços")

plt.hist(dataset['preco'], edgecolor = "black")

plt.xlabel("Preco")
plt.ylabel("Ocorrências")

plt.show()

##### E a distribuição dos tamanhos?

In [None]:
plt.figure(figsize = (6,4))
plt.title("Distribuição de tamanhos")

plt.hist(dataset['tamanho'], edgecolor = "black")

plt.xlabel("Tamanho")
plt.ylabel("Ocorrências")

plt.show()

##### Qual a relação entre o preço do imóvel e o seu tamanho?

In [None]:
plt.figure(figsize = (6,4))
plt.title("Preço x Tamanho")

plt.scatter(x = dataset["tamanho"], y = dataset["preco"], c = "black")
plt.ylabel("Preço dos imóveis")
plt.xlabel("Tamanho dos imóveis")

plt.show()

##### Qual a relação entre os preços dos imóveis e a taxa de criminalidade?

In [None]:
plt.figure(figsize = (6,4))
plt.title("Preço x Criminalidade")

plt.scatter(x = dataset["criminalidade"], y = dataset["preco"], c = "red")
plt.ylabel("Preco dos imoveis")
plt.xlabel("Taxa de criminalidade")

plt.show()

##### E a relação entre a distância para o centro e a qualidade de vida?

In [None]:
plt.figure(figsize = (6,4))
plt.title("Distancia centro x Qualidade de vida")

plt.scatter(x = dataset["dist_centro"], y = dataset["vida"], c = "blue")
plt.ylabel("Qualidade de vida")
plt.xlabel("Distancia do centro")

plt.show()

##### Em resumo, qual a relação entre todas as variáveis?
##### Correlação / Mapa de calor

In [None]:
correlacao = dataset.corr()

sns.heatmap(correlacao)

### Machine Learning

#### Ok, fizemos uma breve análise dos dados, e agora? O que fazer?
#### Que tal construir um modelo de aprendizado de máquina que nos diga qual o valor ideal de um imóvel baseado nas suas características?
#### Vamos utilizar um modelo de regressão chamado Linear Regression

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression

##### Escalonando dados

In [None]:
data_model = dataset.loc[:, ["tamanho", "dist_centro", "vida", "ar", "quartos", "criminalidade","preco"]]

scaler = MinMaxScaler()
scaler.fit(data_model)
data_model = scaler.transform(data_model)
data_model

##### Definindo variáveis de entrada, saída, treino e teste

In [None]:
x = data_model[:, :-1]
y = data_model[:, -1]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

##### Criando e treinando modelo

In [None]:
modelo = LinearRegression()

modelo.fit(x_train, y_train)

##### Prevendo valor dos dados de teste

In [None]:
previsao = modelo.predict(x_test)

pontuacao = r2_score(y_test, previsao)
erro = mean_squared_error(y_test, previsao)

print(f"Pontuação: {pontuacao}")
print(f"Erro: {erro}")