In [3]:
import numpy as np
import glob

# Problema 1: Portifolio de Investimentos

## Dados:
 Série histórica de retornos de investimentos ao longo de 12 meses

In [24]:
"""
Análise de Risco de Portfolio de Investimentos

Use normas e desvio padrão para analisar risco e retorno de investimentos.
"""
print("\n" + "=" * 60)
print("ANÁLISE DE RISCO DE PORTFOLIO DE INVESTIMENTOS")
print("=" * 60)

# Retornos mensais (%) de 5 ativos durante 12 meses
ativos = ['Ação A', 'Ação B', 'Ação C', 'Título D', 'Fundo E']

retornos = np.array([
    [2.1, -1.5, 3.2, 0.8, 1.2],   # Mês 1
    [1.8, 2.3, -0.5, 0.9, 1.1],   # Mês 2
    [-0.5, 1.8, 2.1, 0.7, 0.9],   # Mês 3
    [3.2, -2.1, 1.8, 0.8, 1.3],   # Mês 4
    [0.9, 3.5, -1.2, 0.6, 1.0],   # Mês 5
    [2.5, 0.8, 2.8, 0.9, 1.4],    # Mês 6
    [-1.2, 2.9, 0.5, 0.7, 0.8],   # Mês 7
    [1.6, -0.8, 3.1, 0.8, 1.2],   # Mês 8
    [2.8, 1.5, -0.8, 0.6, 1.1],   # Mês 9
    [0.3, 2.7, 1.9, 0.9, 1.3],    # Mês 10
    [1.9, -1.3, 2.4, 0.7, 0.9],   # Mês 11
    [2.2, 1.1, 0.7, 0.8, 1.2]     # Mês 12
])

print("Retornos mensais (%) dos ativos:")
print(f"{'Mês':<5}", end="")
for ativo in ativos:
    print(f"{ativo:>10}", end="")
print()
   
for i in range(12):
    print(f"{i+1:<5}", end="")
    for j in range(5):
        print(f"{retornos[i,j]:>10.1f}", end="")
    print()



ANÁLISE DE RISCO DE PORTFOLIO DE INVESTIMENTOS
Retornos mensais (%) dos ativos:
Mês      Ação A    Ação B    Ação C  Título D   Fundo E
1           2.1      -1.5       3.2       0.8       1.2
2           1.8       2.3      -0.5       0.9       1.1
3          -0.5       1.8       2.1       0.7       0.9
4           3.2      -2.1       1.8       0.8       1.3
5           0.9       3.5      -1.2       0.6       1.0
6           2.5       0.8       2.8       0.9       1.4
7          -1.2       2.9       0.5       0.7       0.8
8           1.6      -0.8       3.1       0.8       1.2
9           2.8       1.5      -0.8       0.6       1.1
10          0.3       2.7       1.9       0.9       1.3
11          1.9      -1.3       2.4       0.7       0.9
12          2.2       1.1       0.7       0.8       1.2


In [None]:
# a) Análise de retorno e risco individual
print(f"\na) Análise individual dos ativos:")
print(f"{'Ativo':<10} {'Retorno Médio':<15} {'Risco (Std)':<12} {'Sharpe Ratio':<12}")

retornos_medios = np.mean(retornos, axis=0)
# feito na mão
# restornos_medios = np.zeros(len(ativos))
# for i, ativo in enumerate(ativos):
#     mean_ativo = np.mean(retornos[:, i])
#     retornos_medios[i] = mean_ativo
riscos = np.std(retornos, axis=0)
sharpe_ratios = retornos_medios / riscos

for i, ativo in enumerate(ativos):
    print(f"{ativo:<10} {retornos_medios[i]:<15.2f} {riscos[i]:<12.3f} {sharpe_ratios[i]:<12.3f}")


a) Análise individual dos ativos:
Ativo      Retorno Médio   Risco (Std)  Sharpe Ratio
Ação A     1.47            1.283        1.143       
Ação B     0.91            1.818        0.500       
Ação C     1.33            1.485        0.898       
Título D   0.77            0.103        7.462       
Fundo E    1.12            0.177        6.303       


### b) Análise de correlação usando produto interno
- Normalizar os retornos (centrar na média)
    - retornos_centrados = retornos - retornos_medios

- Exercício: Calcular a matriz de correlação usando produto interno
    - $ C_{ij} = <v_i, v_j> / (||v_i||\cdot ||v_j||)$

In [32]:
# b)[v1 v2 v3 v4 v5]
retornos_centrados = retornos - retornos_medios
n_acoes = len(ativos)
C = np.zeros((n_acoes, n_acoes))
for i in range(n_acoes):
    vi = retornos_centrados[:, i]
    for j in range(i, n_acoes):
        vj = retornos_centrados[:, j]
        corr = np.dot(vi, vj) / (np.linalg.norm(vi) * np.linalg.norm(vj))
        C[i, j] = corr
        C[j, i] = corr
# np.linalg.norm(v_i)

print(f"\nMatriz de correlação entre ativos:")
print(C)


Matriz de correlação entre ativos:
[[ 1.         -0.61661665  0.07756007  0.18116709  0.63646006]
 [-0.61661665  1.         -0.67592713 -0.1769571  -0.32639199]
 [ 0.07756007 -0.67592713  1.          0.46623199  0.34324012]
 [ 0.18116709 -0.1769571   0.46623199  1.          0.67146234]
 [ 0.63646006 -0.32639199  0.34324012  0.67146234  1.        ]]


In [36]:
# c) Análise de portfolios
print(f"\nc) Análise de diferentes portfolios:")

# Portfolio 1: Igualmente distribuído
pesos1 = np.array([0.2, 0.2, 0.2, 0.2, 0.2])

# Portfolio 2: Conservador (mais em títulos)
pesos2 = np.array([0.1, 0.1, 0.1, 0.5, 0.2])

# Portfolio 3: Agressivo (mais em ações)
pesos3 = np.array([0.4, 0.3, 0.3, 0.0, 0.0])

portfolios = [pesos1, pesos2, pesos3]
nomes_portfolios = ['Equilibrado', 'Conservador', 'Agressivo']

print(f"{'Portfolio':<12} {'Retorno':<10} {'Risco':<10} {'Sharpe':<10}")

for i, (nome, pesos) in enumerate(zip(nomes_portfolios, portfolios)):
    
    # Retorno esperado do portfolio
    retorno_medio_portfolio = np.dot(retornos_medios, pesos)
    # [p1* ]
    # Risco do portfolio (norma dos retornos ponderados centrados)
    retornos_ponderados = np.dot(retornos, pesos)
    risco_portfolio = np.std(retornos_ponderados)

    # Sharpe ratio
    sharpe_portfolio = retorno_medio_portfolio / risco_portfolio

    print(f"{nome:<12} {retorno_medio_portfolio:<10.2f} {risco_portfolio:<10.3f} {sharpe_portfolio:<10.3f}")


c) Análise de diferentes portfolios:
Portfolio    Retorno    Risco      Sharpe    
Equilibrado  1.12       0.235      4.767     
Conservador  0.98       0.164      5.950     
Agressivo    1.26       0.348      3.617     


# Problema 2: Sistema de busca simples

## Dados:
- Lista de documentos ou páginas
- texto de busca

In [5]:
# Leitura dos arquivos de texto
print("\nLeitura de arquivos de texto:")
doc_dir = "documentos"
arquivos = glob.glob(f"{doc_dir}/*.txt")
docs = []
file_names = [arquivo.split('/')[-1].replace('.txt', '') for arquivo in arquivos]
for arquivo in arquivos:
    with open(arquivo, 'r', encoding='utf-8') as f:
        docs.append(f.read())

# Exemplo de arquivos lidos
print(f"Arquivos encontrados: {len(docs)}")
print("Primeiro arquivo lido:")
print(docs[0][:100] + "...")  # Exibe os primeiros 100 caracteres do primeiro arquivo


Leitura de arquivos de texto:
Arquivos encontrados: 5
Primeiro arquivo lido:
A culinária é a arte de cozinhar,[1] (ver: artes mecânicas) ou seja, o acto de confeccionar alimento...


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# criação do vetor de características
stopwords_pt = ['a', 'o', 'e', 'de', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'têm', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']
vectorizer = CountVectorizer(stop_words=stopwords_pt)
vectorizer.fit(docs)
X = vectorizer.transform(docs)

# Exibe o tamanho da matriz de características
print(f"\nMatriz de características (documentos x termos): {X.shape}")
print("Termos encontrados:")
print(vectorizer.get_feature_names_out()[-20:])  # Exibe os primeiros 20 termos
print(X[4,-20])  # Exibe os primeiros 20 termos


Matriz de características (documentos x termos): (5, 699)
Termos encontrados:
['vez' 'vezes' 'veículos' 'viajar' 'vida' 'virtuais' 'visto' 'voz'
 'várias' 'vários' 'vôlei' 'waymo' 'web' 'xadrez' 'xxi' 'youtube' 'área'
 'áreas' 'ética' 'óptico']
0


In [12]:
# exemplo de busca: Buscar documento com maior semelhança de coseno
print("\nExemplo de busca: Buscar documento com maior semelhança de coseno")
texto_busca = "Qual melhor jogador de futebol"
X_busca = vectorizer.transform([texto_busca])

similaridades = cosine_similarity(X_busca, X)
indice_mais_similar = np.argmax(similaridades)

print(f"Documento mais similar encontrado: {file_names[indice_mais_similar]}")
print(f"Conteúdo do documento mais similar:\n{docs[indice_mais_similar][:200]}...")  # Exibe os primeiros 200 caracteres



Exemplo de busca: Buscar documento com maior semelhança de coseno
Documento mais similar encontrado: documentos\esporte
Conteúdo do documento mais similar:
O esporte no Brasil é praticado em muitas modalidades e é organizado por confederações nacionais de esportes, sendo a principal o Comitê Olímpico Brasileiro. Os brasileiros estão fortemente envolvidos...


In [42]:
# Exercicio: mude o critério de busca para encontrar documentos que estejam mais proximos pela distancia euclidiana

# exemplo de busca: Buscar documento com maior semelhança de coseno
print("\nExemplo de busca: Buscar documento com menor distancia euclidiana")
texto_busca = "Qual a comida mais popular do brasil"
X_busca = vectorizer.transform([texto_busca])

similaridades = np.linalg.norm(X.toarray() - X_busca.toarray(), axis=1)
indice_mais_similar = np.argmin(similaridades)

print(f"Documento mais similar encontrado: {file_names[indice_mais_similar]}")
print(f"Conteúdo do documento mais similar:\n{docs[indice_mais_similar][:200]}...")  # Exibe os primeiros 200 caracteres



Exemplo de busca: Buscar documento com menor distancia euclidiana
Documento mais similar encontrado: documentos\medicina
Conteúdo do documento mais similar:
Medicina é uma das muitas áreas do conhecimento ligada à manutenção e restauração da saúde. Ela trabalha, num sentido amplo, com a prevenção e cura das doenças humanas e animais num contexto médico. L...


In [51]:
# Exemplo de dataset de casas usando numpy
dados_casas = np.array([
    [100., 1, 1, 1],
    [120, 3, 2, 2],
    [60, 1, 1, 1],
    [150, 4, 3, 2],
    [100, 3, 2, 1]
])

colunas = ['area', 'quartos', 'banheiros', 'andares']
print(colunas)
print(dados_casas)
# Converte a área de metros quadrados para pés quadrados (1 m² ≈ 10.764 ft²)
dados_casas_pes = dados_casas.copy()
dados_casas_pes[:, 0] = np.round(dados_casas[:, 0] * 10.764, 2)

print("\nDados das casas com área em pés quadrados:")
print(colunas)
print(dados_casas_pes)

['area', 'quartos', 'banheiros', 'andares']
[[100.   1.   1.   1.]
 [120.   3.   2.   2.]
 [ 60.   1.   1.   1.]
 [150.   4.   3.   2.]
 [100.   3.   2.   1.]]

Dados das casas com área em pés quadrados:
['area', 'quartos', 'banheiros', 'andares']
[[1.07640e+03 1.00000e+00 1.00000e+00 1.00000e+00]
 [1.29168e+03 3.00000e+00 2.00000e+00 2.00000e+00]
 [6.45840e+02 1.00000e+00 1.00000e+00 1.00000e+00]
 [1.61460e+03 4.00000e+00 3.00000e+00 2.00000e+00]
 [1.07640e+03 3.00000e+00 2.00000e+00 1.00000e+00]]


In [52]:
semelhancas = np.zeros((len(dados_casas), len(dados_casas)))

for i, c1 in enumerate(dados_casas):
    for j, c2 in enumerate(dados_casas):
        semelhancas[i,j] = np.linalg.norm(c1 - c2)
print("\nMatriz de semelhança entre casas:")
print(semelhancas)



Matriz de semelhança entre casas:
[[ 0.         20.14944168 40.         50.13980455  2.23606798]
 [20.14944168  0.         60.04997918 30.03331484 20.02498439]
 [40.         60.04997918  0.         90.0777442  40.06245125]
 [50.13980455 30.03331484 90.0777442   0.         50.02999101]
 [ 2.23606798 20.02498439 40.06245125 50.02999101  0.        ]]


In [46]:
semelhancas_pes = np.zeros((len(dados_casas), len(dados_casas)))

for i, c1 in enumerate(dados_casas_pes):
    for j, c2 in enumerate(dados_casas_pes):
        semelhancas[i,j] = np.linalg.norm(c1 - c2)
print("\nMatriz de semelhança entre casas:")
print(semelhancas)


Matriz de semelhança entre casas:
[[  0.         215.01395304 431.         538.013011     2.23606798]
 [215.01395304   0.         646.00464395 323.00309596 215.00232557]
 [431.         646.00464395   0.         969.00722392 431.00580043]
 [538.013011   323.00309596 969.00722392   0.         538.0027881 ]
 [  2.23606798 215.00232557 431.00580043 538.0027881    0.        ]]


In [53]:
print("\nDados das casas com área em pés quadrados:")
print(colunas)
print(dados_casas)

def zscore(data):
    media = np.mean(data)
    desvio = np.std(data)
    return (data - media) / desvio


casas_zscore = np.zeros_like(dados_casas)
print(dados_casas.shape)
for i in range(dados_casas.shape[1]):
    casas_zscore[:, i] = zscore(dados_casas[:, i])

print("\nDados das casas com área:")
print(colunas)
print(casas_zscore)


Dados das casas com área em pés quadrados:
['area', 'quartos', 'banheiros', 'andares']
[[100.   1.   1.   1.]
 [120.   3.   2.   2.]
 [ 60.   1.   1.   1.]
 [150.   4.   3.   2.]
 [100.   3.   2.   1.]]
(5, 4)

Dados das casas com área:
['area', 'quartos', 'banheiros', 'andares']
[[-0.20412415 -1.16666667 -1.06904497 -0.81649658]
 [ 0.47628967  0.5         0.26726124  1.22474487]
 [-1.56495178 -1.16666667 -1.06904497 -0.81649658]
 [ 1.4969104   1.33333333  1.60356745  1.22474487]
 [-0.20412415  0.5         0.26726124 -0.81649658]]


In [54]:
print("\nDados das casas com área em pés quadrados:")
print(colunas)
print(dados_casas_pes)



casas_zscore_pes = np.zeros_like(dados_casas_pes)
print(dados_casas_pes.shape)
for i in range(dados_casas_pes.shape[1]):
    casas_zscore_pes[:, i] = zscore(dados_casas_pes[:, i])

print("\nDados das casas com área:")
print(colunas)
print(casas_zscore_pes)


Dados das casas com área em pés quadrados:
['area', 'quartos', 'banheiros', 'andares']
[[1.07640e+03 1.00000e+00 1.00000e+00 1.00000e+00]
 [1.29168e+03 3.00000e+00 2.00000e+00 2.00000e+00]
 [6.45840e+02 1.00000e+00 1.00000e+00 1.00000e+00]
 [1.61460e+03 4.00000e+00 3.00000e+00 2.00000e+00]
 [1.07640e+03 3.00000e+00 2.00000e+00 1.00000e+00]]
(5, 4)

Dados das casas com área:
['area', 'quartos', 'banheiros', 'andares']
[[-0.20412415 -1.16666667 -1.06904497 -0.81649658]
 [ 0.47628967  0.5         0.26726124  1.22474487]
 [-1.56495178 -1.16666667 -1.06904497 -0.81649658]
 [ 1.4969104   1.33333333  1.60356745  1.22474487]
 [-0.20412415  0.5         0.26726124 -0.81649658]]


In [55]:
print(casas_zscore[:,0])
print(casas_zscore_pes[:,0])

[-0.20412415  0.47628967 -1.56495178  1.4969104  -0.20412415]
[-0.20412415  0.47628967 -1.56495178  1.4969104  -0.20412415]
