In [11]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import glob

# Problema 1: Portifolio de Investimentos

## Dados:
 Série histórica de retornos de investimentos ao longo de 12 meses

In [12]:
"""
Análise de Risco de Portfolio de Investimentos

Use normas e desvio padrão para analisar risco e retorno de investimentos.
"""
print("\n" + "=" * 60)
print("ANÁLISE DE RISCO DE PORTFOLIO DE INVESTIMENTOS")
print("=" * 60)

# Retornos mensais (%) de 5 ativos durante 12 meses
ativos = ['Ação A', 'Ação B', 'Ação C', 'Título D', 'Fundo E']

retornos = np.array([
    [2.1, -1.5, 3.2, 0.8, 1.2],   # Mês 1
    [1.8, 2.3, -0.5, 0.9, 1.1],   # Mês 2
    [-0.5, 1.8, 2.1, 0.7, 0.9],   # Mês 3
    [3.2, -2.1, 1.8, 0.8, 1.3],   # Mês 4
    [0.9, 3.5, -1.2, 0.6, 1.0],   # Mês 5
    [2.5, 0.8, 2.8, 0.9, 1.4],    # Mês 6
    [-1.2, 2.9, 0.5, 0.7, 0.8],   # Mês 7
    [1.6, -0.8, 3.1, 0.8, 1.2],   # Mês 8
    [2.8, 1.5, -0.8, 0.6, 1.1],   # Mês 9
    [0.3, 2.7, 1.9, 0.9, 1.3],    # Mês 10
    [1.9, -1.3, 2.4, 0.7, 0.9],   # Mês 11
    [2.2, 1.1, 0.7, 0.8, 1.2]     # Mês 12
])

print("Retornos mensais (%) dos ativos:")
print(f"{'Mês':<5}", end="")
for ativo in ativos:
    print(f"{ativo:>10}", end="")
print()
   
for i in range(12):
    print(f"{i+1:<5}", end="")
    for j in range(5):
        print(f"{retornos[i,j]:>10.1f}", end="")
    print()



ANÁLISE DE RISCO DE PORTFOLIO DE INVESTIMENTOS
Retornos mensais (%) dos ativos:
Mês      Ação A    Ação B    Ação C  Título D   Fundo E
1           2.1      -1.5       3.2       0.8       1.2
2           1.8       2.3      -0.5       0.9       1.1
3          -0.5       1.8       2.1       0.7       0.9
4           3.2      -2.1       1.8       0.8       1.3
5           0.9       3.5      -1.2       0.6       1.0
6           2.5       0.8       2.8       0.9       1.4
7          -1.2       2.9       0.5       0.7       0.8
8           1.6      -0.8       3.1       0.8       1.2
9           2.8       1.5      -0.8       0.6       1.1
10          0.3       2.7       1.9       0.9       1.3
11          1.9      -1.3       2.4       0.7       0.9
12          2.2       1.1       0.7       0.8       1.2


In [13]:
# a) Análise de retorno e risco individual
print(f"\na) Análise individual dos ativos:")
print(f"{'Ativo':<10} {'Retorno Médio':<15} {'Risco (Std)':<12} {'Sharpe Ratio':<12}")
                                            # o quanto se dis       # indica se compensa o risco do investimento
                                            # tancia da media

                            
retornos_medios = np.mean (retornos, axis=0)    # axis = eixo = media de cada investimento

riscos = np.std(retornos, axis=0)               # desvio padrão de cada investimento   -> risco

sharpe_ratios = retornos_medios / riscos        # indica se compensa o investimento


for i, ativo in enumerate(ativos):
     print(f"{ativo:<10} {retornos_medios[i]:<15.2f} {riscos[i]:<12.3f} {sharpe_ratios[i]:<12.3f}")


a) Análise individual dos ativos:
Ativo      Retorno Médio   Risco (Std)  Sharpe Ratio
Ação A     1.47            1.283        1.143       
Ação B     0.91            1.818        0.500       
Ação C     1.33            1.485        0.898       
Título D   0.77            0.103        7.462       
Fundo E    1.12            0.177        6.303       


### b) Análise de correlação usando produto interno
- Normalizar os retornos (centrar na média)
    - retornos_centrados = retornos - retornos_medios

- Exercício: Calcular a matriz de correlação usando produto interno
    - $ C_{ij} = <v_i, v_j> / (||v_i||\cdot ||v_j||)$

In [14]:
# b)   
import numpy as np

retornos = np.array([
    [2.1, -1.5, 3.2, 0.8, 1.2],   # Mês 1
    [1.8, 2.3, -0.5, 0.9, 1.1],   # Mês 2
    [-0.5, 1.8, 2.1, 0.7, 0.9],   # Mês 3
    [3.2, -2.1, 1.8, 0.8, 1.3],   # Mês 4
    [0.9, 3.5, -1.2, 0.6, 1.0],   # Mês 5
    [2.5, 0.8, 2.8, 0.9, 1.4],    # Mês 6
    [-1.2, 2.9, 0.5, 0.7, 0.8],   # Mês 7
    [1.6, -0.8, 3.1, 0.8, 1.2],   # Mês 8
    [2.8, 1.5, -0.8, 0.6, 1.1],   # Mês 9
    [0.3, 2.7, 1.9, 0.9, 1.3],    # Mês 10
    [1.9, -1.3, 2.4, 0.7, 0.9],   # Mês 11
    [2.2, 1.1, 0.7, 0.8, 1.2]     # Mês 12
])

retornos_medios = np.mean (retornos, axis=0)    # axis = eixo = media de cada investimento

riscos = np.std(retornos, axis=0)               # desvio padrão de cada investimento   -> risco

sharpe_ratios = retornos_medios / riscos        # indica se compensa o investimento

# É aquele X barra -> X_barra = x - avg 
retornos_centrados = retornos - retornos_medios

print (f"Retornos centrados:{retornos_centrados}\n\n")

##################################################################

C = np.zeros((5, 5))          # matriz de correlação

for i in range(5):
    vi = retornos_centrados[:,i]
    for j in range(5):
        vj = retornos_centrados[:,j] 
        C[i,j] = np.dot(vi, vj) / (np.linalg.norm(vi) * np.linalg.norm(vj))
    
print (C)








Retornos centrados:[[ 0.63333333 -2.40833333  1.86666667  0.03333333  0.08333333]
 [ 0.33333333  1.39166667 -1.83333333  0.13333333 -0.01666667]
 [-1.96666667  0.89166667  0.76666667 -0.06666667 -0.21666667]
 [ 1.73333333 -3.00833333  0.46666667  0.03333333  0.18333333]
 [-0.56666667  2.59166667 -2.53333333 -0.16666667 -0.11666667]
 [ 1.03333333 -0.10833333  1.46666667  0.13333333  0.28333333]
 [-2.66666667  1.99166667 -0.83333333 -0.06666667 -0.31666667]
 [ 0.13333333 -1.70833333  1.76666667  0.03333333  0.08333333]
 [ 1.33333333  0.59166667 -2.13333333 -0.16666667 -0.01666667]
 [-1.16666667  1.79166667  0.56666667  0.13333333  0.18333333]
 [ 0.43333333 -2.20833333  1.06666667 -0.06666667 -0.21666667]
 [ 0.73333333  0.19166667 -0.63333333  0.03333333  0.08333333]]


[[ 1.         -0.61661665  0.07756007  0.18116709  0.63646006]
 [-0.61661665  1.         -0.67592713 -0.1769571  -0.32639199]
 [ 0.07756007 -0.67592713  1.          0.46623199  0.34324012]
 [ 0.18116709 -0.1769571   0.4662

In [15]:
import numpy as np

# c) Análise de portfolios
print(f"\nc) Análise de diferentes portfolios:")

# Portfolio 1: Igualmente distribuído
pesos1 = np.array([0.2, 0.2, 0.2, 0.2, 0.2])

# Portfolio 2: Conservador (mais em títulos)
pesos2 = np.array([0.1, 0.1, 0.1, 0.5, 0.2])

# Portfolio 3: Agressivo (mais em ações)
pesos3 = np.array([0.4, 0.3, 0.3, 0.0, 0.0])

portfolios = [pesos1, pesos2, pesos3]
nomes_portfolios = ['Equilibrado', 'Conservador', 'Agressivo']

print(f"{'Portfolio':<12} {'Retorno':<10} {'Risco':<10} {'Sharpe':<10}")

for i, (nome, pesos) in enumerate(zip(nomes_portfolios, portfolios)):
    
    # Retorno esperado do portfolio
    retorno_medio_portifolio = np.dot(retornos_medios, pesos)

    # Risco do portfolio (norma dos retornos ponderados centrados)
    retorno_portfolio = np.dot(retornos, pesos)

    risco_portfolio = np.std(retorno_portfolio)
    
    # Sharpe ratio
    
    sharpe_portfolio = retorno_medio_portifolio / risco_portfolio

    # print(f"{nome:<12} {retorno_portfolio:<10.2f} {risco_portfolio:<10.3f} {sharpe_portfolio:<10.3f}")


c) Análise de diferentes portfolios:
Portfolio    Retorno    Risco      Sharpe    


# Problema 2: Sistema de busca simples

## Dados:
- Lista de documentos ou páginas
- texto de busca

In [16]:
# Leitura dos arquivos de texto
print("\nLeitura de arquivos de texto:")
doc_dir = "documentos"

# pega todos os arquivos de padrão .txt
arquivos = glob.glob(f"{doc_dir}/*.txt")

docs = []

file_names = [arquivo.split('/')[-1].replace('.txt', '') for arquivo in arquivos]

for arquivo in arquivos:
    with open(arquivo, 'r', encoding='utf-8') as f:
        docs.append(f.read())

# Exemplo de arquivos lidos
print(f"Arquivos encontrados: {len(docs)}")
print("Primeiro arquivo lido:")
print(docs[0][:100] + "...")  # Exibe os primeiros 100 caracteres do primeiro arquivo


Leitura de arquivos de texto:
Arquivos encontrados: 5
Primeiro arquivo lido:
O esporte no Brasil é praticado em muitas modalidades e é organizado por confederações nacionais de ...


In [17]:
# criação do vetor de características

# palavras comuns a serem excluidas
stopwords_pt = ['a', 'o', 'e', 'de', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'têm', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']

# retirando as palavras
vectorizer = CountVectorizer(stop_words=stopwords_pt)

# fit - aprende o vocabulário || transform - transforma os dados - conte as palavras
X = vectorizer.fit_transform(docs)

# x é uma matriz esparsa com as palavras

# Exibe o tamanho da matriz de características
print(f"\nMatriz de características (documentos x termos): {X.shape}")
print("Termos encontrados:")
print(vectorizer.get_feature_names_out()[:20])  # Exibe os primeiros 20 termos


Matriz de características (documentos x termos): (5, 699)
Termos encontrados:
['10' '11' '12' '13' '14' '15' '16' '17' '18' '19' '1950' '1956' '1963'
 '20' '2007' '2012' '2016' '2017' '2020' '21']


In [None]:
# exemplo de busca: Buscar documento com maior semelhança de coseno
print("\nExemplo de busca: Buscar documento com maior semelhança de coseno")

# string procurada
texto_busca = "comida mais popular no Brasil"

# usa o transform - transforma em um vetor de busca
X_busca = vectorizer.transform([texto_busca])

# similaridade de cos -> ou seja, cosseno entre dois vetores -> retorna x posições (cada palavra da string texto_busca)
# dois vetores que "apontam" pra mesma direção -> proximo de 1 -> próximos
# dois vetores que "apontam" pra direção opostas -> proximo de 0 -> não próximos
# proximidade com correlação

# axis = 1 -> calcula a norma só das colunas (0 - linha
#                                             1 - coluna)
# axis indica sobre qual eixo será operado -> axis = 0, cada linha é um vetor
similaridades = np.linalg.norm(X.toarray() - X_busca.toarray(), axis=1)

#
indice_mais_similar = np.argmax(similaridades)

print(f"Documento mais similar encontrado: {file_names[indice_mais_similar]}")
print(f"Conteúdo do documento mais similar:\n{docs[indice_mais_similar][:200]}...")  # Exibe os primeiros 200 caracteres



Exemplo de busca: Buscar documento com maior semelhança de coseno


NameError: name 'vectorizer' is not defined

In [None]:
# Exercicio: mude o critério de busca para encontrar documentos que estejam mais proximos pela distancia euclidiana

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer


# exemplo de busca: Buscar documento com maior semelhança de coseno
print("\nExemplo de busca: Buscar documento com maior semelhança de coseno")

# string procurada
texto_busca = "comida mais popular no Brasil"

# usa o transform - transforma em um vetor de busca
X_busca = vectorizer.transform([texto_busca])


# palavras comuns a serem excluidas
stopwords_pt = ['a', 'o', 'e', 'de', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'têm', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']

# retirando as palavras
vectorizer = CountVectorizer(stop_words=stopwords_pt)

# fit - aprende o vocabulário || transform - transforma os dados - conte as palavras
X = vectorizer.fit_transform(docs)


similaridades = np.linalg.norm(X.toarray() - X_busca.toarray(), axis=1)

#
indice_mais_similar = np.argmax(similaridades)

print(f"Documento mais similar encontrado: {file_names[indice_mais_similar]}")
print(f"Conteúdo do documento mais similar:\n{docs[indice_mais_similar][:200]}...")  # Exibe os primeiros 200 caracteres






ImportError: cannot import name 'vectorizer' from 'sklearn.feature_extraction.text' (c:\Users\Cauan\AppData\Local\Programs\Python\Python313\Lib\site-packages\sklearn\feature_extraction\text.py)