### **Ciência de Dados**

#### **Manipulação de Dados com Pandas**

##### **1. Carregar e Visualizar um DataFrame**

In [None]:
import pandas as pd

# Carregar dados de um arquivo CSV (certifique-se de que 'dados.csv' exista)
# Exemplo de como criar um 'dados.csv' para teste:
# data = {'idade': [25, 35, 45, 28, 50], 'sexo': ['M', 'F', 'M', 'F', 'M']}
# pd.DataFrame(data).to_csv('dados.csv', index=False)

df = pd.read_csv('dados.csv')

# Visualizar as primeiras linhas do DataFrame
print(df.head())

##### **2. Filtrar Dados com base em uma Condição**

In [None]:
# Filtrar linhas onde a coluna 'idade' é maior que 30
df_filtrado = df[df['idade'] > 30]
print(df_filtrado.head())

##### **3. Agrupar e Resumir Dados**

In [None]:
# Calcular a média da idade para cada sexo
resumo = df.groupby('sexo')['idade'].mean()
print(resumo)

##### **4. Adicionar uma Nova Coluna Calculada**

In [None]:
# Adicionar uma nova coluna 'idade_dobrada' com a idade multiplicada por 2
df['idade_dobrada'] = df['idade'] * 2
print(df.head())

##### **5. Salvar Dados em um Novo Arquivo CSV**

In [None]:
# Salvar o DataFrame em um novo arquivo CSV
df.to_csv('dados_processados.csv', index=False)

-----

#### **Visualização de Dados com Matplotlib e Seaborn**

##### **6. Gráfico de Barras com Matplotlib**

In [None]:
import matplotlib.pyplot as plt

# Dados
categorias = ['A', 'B', 'C', 'D']
valores = [10, 20, 15, 25]

# Criar gráfico de barras
plt.bar(categorias, valores)
plt.xlabel('Categorias')
plt.ylabel('Valores')
plt.title('Gráfico de Barras')
plt.show()

##### **7. Gráfico de Dispersão com Matplotlib**

In [None]:
import matplotlib.pyplot as plt

# Dados
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Criar gráfico de dispersão
plt.scatter(x, y)
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Gráfico de Dispersão')
plt.show()

##### **8. Histograma com Matplotlib**

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Dados
dados = np.random.randn(1000)

# Criar histograma
plt.hist(dados, bins=30)
plt.xlabel('Valores')
plt.ylabel('Frequência')
plt.title('Histograma')
plt.show()

##### **9. Gráfico de Boxplot com Seaborn**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Dados
dados = np.random.normal(loc=0, scale=1, size=100)

# Criar boxplot com Seaborn
sns.boxplot(data=dados)
plt.xlabel('Valores')
plt.title('Boxplot')
plt.show()

##### **10. Gráfico de Violino com Seaborn**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Dados
dados = np.random.normal(loc=0, scale=1, size=100)

# Criar gráfico de violino com Seaborn
sns.violinplot(data=dados)
plt.xlabel('Valores')
plt.title('Gráfico de Violino')
plt.show()

-----

#### **Modelagem e Machine Learning com Scikit-learn**

##### **11. Regressão Linear**

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Dados
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 3, 4, 5, 6])

# Criar e treinar modelo de regressão linear
modelo = LinearRegression()
modelo.fit(X, y)

# Prever valores
X_novo = np.array([[6], [7]])
y_pred = modelo.predict(X_novo)

print("Valores previstos:", y_pred)

##### **12. Classificação com Support Vector Machine (SVM)**

In [None]:
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Carregar conjunto de dados Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# Criar e treinar modelo SVM
modelo = SVC(kernel='linear', C=1.0)
modelo.fit(X_train, y_train)

# Avaliar modelo
score = modelo.score(X_test, y_test)
print("Acurácia do modelo SVM:", score)

##### **13. Clustering com K-Means**

In [None]:
from sklearn.cluster import KMeans
import numpy as np

# Dados
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# Criar e treinar modelo K-Means
modelo = KMeans(n_clusters=2, random_state=42, n_init=10)
modelo.fit(X)

# Centróides
print("Centróides:", modelo.cluster_centers_)

##### **14. Redução de Dimensionalidade com PCA**

In [None]:
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Carregar conjunto de dados Iris
iris = load_iris()
X = iris.data

# Aplicar PCA para redução de dimensionalidade
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("Dimensões originais:", X.shape)
print("Dimensões reduzidas com PCA:", X_pca.shape)

##### **15. Avaliação de Modelos com Cross-Validation**

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris

# Carregar conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

# Criar e avaliar modelo de regressão logística com cross-validation
modelo = LogisticRegression(max_iter=200)
scores = cross_val_score(modelo, X, y, cv=5)

print("Acurácias do cross-validation:", scores)
print("Acurácia Média:", scores.mean())

-----

#### **Processamento de Dados com NumPy**

##### **16. Criar um Array NumPy**

In [None]:
import numpy as np

# Criar um array NumPy a partir de uma lista
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(type(arr))

##### **17. Operações Matemáticas com Arrays NumPy**

In [None]:
import numpy as np

# Criar dois arrays NumPy
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([6, 7, 8, 9, 10])

# Adicionar os arrays
soma = arr1 + arr2
print("Soma:", soma)

# Multiplicação
multiplicacao = arr1 * arr2
print("Multiplicação:", multiplicacao)

##### **18. Indexação e Fatiamento de Arrays NumPy**

In [None]:
import numpy as np

# Criar um array NumPy
arr = np.array([1, 2, 3, 4, 5])

# Acessar elementos por índice
print(arr[0])  # Primeiro elemento
print(arr[-1]) # Último elemento

# Fatiamento
print(arr[1:4])  # Elementos do índice 1 ao 3

##### **19. Funções Estatísticas com Arrays NumPy**

In [None]:
import numpy as np

# Criar um array NumPy
arr = np.array([1, 2, 3, 4, 5])

# Média
media = np.mean(arr)

# Desvio padrão
desvio_padrao = np.std(arr)

print("Média:", media)
print("Desvio Padrão:", desvio_padrao)

##### **20. Reshape de Arrays NumPy**

In [None]:
import numpy as np

# Criar um array NumPy
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8])

# Redimensionar o array para uma matriz 2x4
matriz = arr.reshape(2, 4)
print(matriz)

-----

#### **Análise Estatística com SciPy**

##### **21. Teste de Hipótese (Teste t)**

In [None]:
from scipy import stats
import numpy as np

# Dados
grupo1 = np.array([85, 90, 88, 82, 87])
grupo2 = np.array([78, 80, 85, 75, 82])

# Teste t de Student para médias de amostras independentes
t_stat, p_valor = stats.ttest_ind(grupo1, grupo2)

print("Estatística t:", t_stat)
print("Valor p:", p_valor)

##### **22. Regressão Linear com SciPy**

In [None]:
from scipy import stats
import numpy as np

# Dados
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 4, 5, 6])

# Regressão linear
slope, intercept, r_value, p_value, std_err = stats.linregress(X, y)

print("Coeficiente Angular:", slope)
print("Intercepto:", intercept)
print("Coeficiente de Correlação (R):", r_value)
print("Valor p:", p_value)

##### **23. Análise de Variância (ANOVA)**

In [None]:
from scipy import stats
import numpy as np

# Dados
grupo1 = np.array([85, 90, 88, 82, 87])
grupo2 = np.array([78, 80, 85, 75, 82])
grupo3 = np.array([72, 68, 74, 80, 73])

# ANOVA one-way
f_stat, p_valor = stats.f_oneway(grupo1, grupo2, grupo3)

print("Estatística F:", f_stat)
print("Valor p:", p_valor)

##### **24. Interpolação com SciPy**

In [None]:
from scipy import interpolate
import numpy as np

# Dados
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 4, 5, 6])

# Interpolação linear
interp_func = interpolate.interp1d(x, y, kind='linear')

# Valor interpolado para x = 2.5
valor_interpolado = interp_func(2.5)
print("Valor interpolado para x=2.5:", valor_interpolado)

##### **25. Distribuições Estatísticas com SciPy**

In [None]:
from scipy.stats import norm

# Gerar 1000 amostras de uma distribuição normal padrão
amostras = norm.rvs(size=1000)

# Média e Desvio Padrão da distribuição
media = norm.mean()
desvio_padrao = norm.std()

print("Média da distribuição:", media)
print("Desvio Padrão da distribuição:", desvio_padrao)

-----

#### **Projetos Rápidos**

##### **26. Carregamento de dados com Pandas**

In [None]:
import pandas as pd

def carregar_dados_csv(nome_arquivo):
    """Carrega dados de um arquivo CSV."""
    return pd.read_csv(nome_arquivo)

def carregar_dados_excel(nome_arquivo):
    """Carrega dados de um arquivo Excel."""
    return pd.read_excel(nome_arquivo)

# Exemplo de uso (requer arquivos existentes)
# df_csv = carregar_dados_csv('dados.csv')
# print(df_csv.head())

##### **27. Visualização de Dados com Matplotlib**

In [None]:
import matplotlib.pyplot as plt

def plotar_grafico(x, y, titulo='', xlabel='', ylabel=''):
    """Plota um gráfico de linhas simples."""
    plt.figure(figsize=(8, 6))
    plt.plot(x, y)
    plt.title(titulo)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.grid(True)
    plt.show()

# Exemplo de uso
x_exemplo = [1, 2, 3, 4, 5]
y_exemplo = [2, 3, 5, 7, 11]
plotar_grafico(x_exemplo, y_exemplo, titulo="Meu Gráfico", xlabel="Eixo X", ylabel="Eixo Y")

##### **28. Processamento de Dados com Scikit-Learn**

In [None]:
from sklearn.preprocessing import StandardScaler, LabelEncoder
import numpy as np

def padronizar_dados(dados):
    """Padroniza os dados (média 0, desvio padrão 1)."""
    scaler = StandardScaler()
    return scaler.fit_transform(dados)

def codificar_labels(labels):
    """Codifica labels categóricos em numéricos."""
    encoder = LabelEncoder()
    return encoder.fit_transform(labels)

# Exemplo de uso
dados_numericos = np.array([[10], [20], [30], [40], [50]])
print("Dados padronizados:\n", padronizar_dados(dados_numericos))

labels_categoricos = ['gato', 'cachorro', 'gato', 'passaro']
print("\nLabels codificados:", codificar_labels(labels_categoricos))

##### **29. Avaliação de modelos de machine learning com scikit-learn**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris

def dividir_dados_treino_teste(X, y, tamanho_teste=0.2, estado_aleatorio=None):
    """Divide os dados em conjuntos de treino e teste."""
    return train_test_split(X, y, test_size=tamanho_teste, random_state=estado_aleatorio)

def avaliar_modelo(modelo, X_teste, y_teste):
    """Avalia um modelo de classificação."""
    y_pred = modelo.predict(X_teste)
    return {
        'acuracia': accuracy_score(y_teste, y_pred),
        'relatorio_classificacao': classification_report(y_teste, y_pred)
    }

# Exemplo de uso
iris = load_iris()
X_treino, X_teste, y_treino, y_teste = dividir_dados_treino_teste(iris.data, iris.target, estado_aleatorio=42)

modelo = LogisticRegression(max_iter=200)
modelo.fit(X_treino, y_treino)

avaliacao = avaliar_modelo(modelo, X_teste, y_teste)
print("Acurácia:", avaliacao['acuracia'])
print("Relatório de Classificação:\n", avaliacao['relatorio_classificacao'])

##### **30. Análise estatística com NumPy**

In [None]:
import numpy as np

def calcular_media(array):
    """Calcula a média de um array NumPy."""
    return np.mean(array)

def calcular_desvio_padrao(array):
    """Calcula o desvio padrão de um array NumPy."""
    return np.std(array)

# Exemplo de uso
meu_array = np.array([10, 12, 15, 13, 11, 19])
print("Média:", calcular_media(meu_array))
print("Desvio Padrão:", calcular_desvio_padrao(meu_array))

-----

#### **Previsões**

##### **31. Previsão do Tempo (Exemplo Simplificado)**

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Vamos criar dados fictícios para simular uma previsão do tempo
dias = np.array([1, 2, 3, 4, 5, 6, 7]).reshape(-1, 1)
temperaturas = np.array([22, 24, 23, 25, 26, 27, 28])

# Vamos ajustar um modelo de regressão linear simples
modelo = LinearRegression()
modelo.fit(dias, temperaturas)

# Preveja a temperatura para o dia seguinte
dia_seguinte = np.array([[8]])
previsao = modelo.predict(dia_seguinte)

print(f"Previsão da temperatura para o dia seguinte: {previsao[0]:.2f}°C")

# Vamos criar um gráfico para visualizar a tendência
plt.scatter(dias, temperaturas, color='b', label='Dados Históricos')
plt.plot(dias, modelo.predict(dias), color='r', label='Linha de Regressão')
plt.scatter(dia_seguinte, previsao, color='g', marker='x', s=100, label='Previsão')
plt.xlabel('Dia')
plt.ylabel('Temperatura (°C)')
plt.title('Previsão de Temperatura')
plt.legend()
plt.grid(True)
plt.show()

##### **32. Previsões de Ações (Exemplo Simplificado)**

In [None]:
# !pip install yfinance # Descomente e execute se não tiver a biblioteca instalada
import pandas as pd
import numpy as np
import yfinance as yf
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Use a biblioteca yfinance para obter dados de preços de ações
ticker = 'AAPL'  # Exemplo: ação da Apple
data = yf.download(ticker, start='2022-01-01', end='2023-01-01')

# Crie um DataFrame com os dados
df = data[['Adj Close']].reset_index()

# Vamos ajustar um modelo de regressão linear simples
dias = np.arange(len(df)).reshape(-1, 1)
precos = df['Adj Close'].values

modelo = LinearRegression()
modelo.fit(dias, precos)

# Preveja o preço para o próximo dia
dia_seguinte = np.array([[len(df)]])
previsao = modelo.predict(dia_seguinte)

print(f"Previsão do preço de {ticker} para o próximo dia: ${previsao[0]:.2f}")

# Vamos criar um gráfico para visualizar a tendência de preços
plt.figure(figsize=(10, 6))
plt.plot(df['Date'], df['Adj Close'], label='Preço Histórico')
plt.plot(df['Date'], modelo.predict(dias), label='Linha de Regressão', linestyle='--')
plt.xlabel('Data')
plt.ylabel('Preço das Ações (USD)')
plt.title(f'Previsão de Preço para {ticker}')
plt.legend()
plt.grid(True)
plt.show()

##### **33. Previsões de Vendas (Exemplo com Dados Fictícios)**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

# Crie um arquivo 'dados_de_vendas.csv' para o exemplo funcionar
vendas_data = {
    'Preco': [10, 12, 11, 15, 9, 13, 14],
    'Promocao': [1, 0, 1, 1, 0, 0, 1],
    'Sazonalidade': [0.8, 0.9, 0.85, 1.2, 0.7, 1.0, 1.1],
    'Vendas': [100, 80, 110, 150, 70, 95, 130]
}
pd.DataFrame(vendas_data).to_csv('dados_de_vendas.csv', index=False)


# Carregue seus dados de vendas em um DataFrame
data = pd.read_csv('dados_de_vendas.csv')

# Divida os dados em conjuntos de treinamento e teste
X = data[['Preco', 'Promocao', 'Sazonalidade']]
y = data['Vendas']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crie e treine o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Faça previsões com o modelo
y_pred = model.predict(X_test)

# Avalie o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Crie visualizações dos resultados
plt.scatter(y_test, y_pred)
plt.xlabel('Vendas Reais')
plt.ylabel('Previsões de Vendas')
plt.title('Desempenho do Modelo de Previsão de Vendas')
plt.grid(True)
plt.show()

# Imprima métricas de desempenho
print(f'Erro Quadrático Médio: {mse:.2f}')
print(f'Coeficiente de Determinação (R²): {r2:.2f}')

##### **34. Previsão de Reembolso (Estrutura do Código)**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Nota: Este código precisa de um arquivo 'dados_de_reembolso.csv'
# e provavelmente de pré-processamento para colunas categóricas (OneHotEncoder).

# Exemplo de como criar um arquivo para teste:
reembolso_data = {
    'Tipo_de_Produto': ['Eletronico', 'Roupa', 'Eletronico', 'Livro', 'Roupa'],
    'Motivo_do_Reembolso': ['Defeito', 'Tamanho', 'Defeito', 'Arrependimento', 'Tamanho'],
    'Historico_do_Cliente': [10, 2, 5, 1, 3],
    'Valor_do_Reembolso': [500, 50, 700, 20, 80]
}
# pd.DataFrame(reembolso_data).to_csv('dados_de_reembolso.csv', index=False)


# Carregue seus dados de histórico de reembolso em um DataFrame
# data = pd.read_csv('dados_de_reembolso.csv')

# --- Início do Bloco de Pré-processamento (Necessário) ---
# data_processed = pd.get_dummies(data, columns=['Tipo_de_Produto', 'Motivo_do_Reembolso'])
# X = data_processed.drop('Valor_do_Reembolso', axis=1)
# y = data_processed['Valor_do_Reembolso']
# --- Fim do Bloco de Pré-processamento ---


# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# model = LinearRegression()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# print("Previsões de reembolso:", y_pred)

print("Estrutura do código para previsão de reembolso pronta.")
print("É necessário implementar o pré-processamento dos dados categóricos.")

##### **35. Dashboard de Análise de Despesas (com Plotly)**

In [None]:
# !pip install plotly # Descomente e execute se não tiver a biblioteca instalada
import plotly.express as px

# Dados de exemplo (substitua por seus próprios dados)
categorias = ['Aluguel', 'Alimentação', 'Transporte', 'Lazer', 'Outros']
despesas = [1200, 500, 300, 200, 700]

# Crie um gráfico de barras interativo
fig = px.bar(
    x=categorias,
    y=despesas,
    labels={'x': 'Categorias', 'y': 'Despesas (em R$)'},
    title='Análise de Despesas por Categoria',
    text=despesas # Adiciona o valor no topo de cada barra
)

# Personalize o layout do gráfico
fig.update_layout(
    xaxis_title_font=dict(size=14, family='Arial'),
    yaxis_title_font=dict(size=14, family='Arial'),
    title_font=dict(size=16, family='Arial'),
    xaxis=dict(categoryorder='total descending')
)

# Exiba o gráfico interativo
fig.show()