### Reading Files with __Open__

In [5]:
# Usando a funcao "Open" para obter um arquivo. Podemos aplicar algum metodo a este objeto para ler os dados do arquivo.

# Para usa-la, passamos para a funcao "open" o local do arquivo, o nome do arquivo, e o modo.
# "r" para leitura, "w" para escrita, e "a" para acrescentar. Existem tambem outros modos para utilizacao da funcao "open".
data = open("car_stocks.csv", "r")

print(data.name) # Exibe o nome do arquivo
print(data.mode) # Exibe o modo
data.close() # Usado para fechar o arquivo.

car_stocks.csv
r


In [6]:
# Porem, vamos observar agora uma melhor pratica, usando "with".

with open("car_stocks.csv", "r") as data:
    arquivo = data.read()
    print(arquivo)
print(data.closed)
print(arquivo)

Symbol,Date,Open,High,Low,Close,Adj Close,Volume
RIVN,2021-11-10,106.750000,119.459999,95.199997,100.730003,100.730003,103679500
RIVN,2021-11-11,114.625000,125.000000,108.010002,122.989998,122.989998,83668200
RIVN,2021-11-12,128.645004,135.199997,125.250000,129.949997,129.949997,50437500
RIVN,2021-11-15,130.800003,152.529999,127.510002,149.360001,149.360001,64982300
RIVN,2021-11-16,163.800003,179.470001,153.779999,172.009995,172.009995,94036600
RIVN,2021-11-17,160.880005,163.000000,140.350006,146.070007,146.070007,71765600
RIVN,2021-11-18,136.809998,138.779999,120.150002,123.379997,123.379997,63603600
RIVN,2021-11-19,129.979996,139.899994,125.599998,128.600006,128.600006,49368200
RIVN,2021-11-22,123.879997,124.930000,106.910004,118.110001,118.110001,40993900
RIVN,2021-11-23,117.830002,124.000000,113.000000,119.849998,119.849998,24967900
RIVN,2021-11-24,119.379997,120.000000,113.449997,114.849998,114.849998,11539200
RIVN,2021-11-26,111.000000,114.500000,106.139999,112.129997,112.129997,

---

### Pandas

#### Loading data
Pandas eh uma biblioteca para analise de dados.

Para importa-la, usamos a seguinte declaracao: __import pandas as pd__    -> onde "pd" eh o alias.

In [7]:
# Importando a biblioteca e lendo um arquivo csv
# O pandas eh capaz de ler varios tipos de arquivos, como: csv, excel, json, etc.

import pandas as pd # O alias pode ser qualquer outro nome, mas geralmente eh usado "pd".
df = pd.read_csv("car_stocks.csv")

In [8]:
# Visualizar as primeiras linhas de uma DataFrame.
df.head() # Por default, "head" exibe as primeiras 5 linhas do DF.

Unnamed: 0,Symbol,Date,Open,High,Low,Close,Adj Close,Volume
0,RIVN,2021-11-10,106.75,119.459999,95.199997,100.730003,100.730003,103679500
1,RIVN,2021-11-11,114.625,125.0,108.010002,122.989998,122.989998,83668200
2,RIVN,2021-11-12,128.645004,135.199997,125.25,129.949997,129.949997,50437500
3,RIVN,2021-11-15,130.800003,152.529999,127.510002,149.360001,149.360001,64982300
4,RIVN,2021-11-16,163.800003,179.470001,153.779999,172.009995,172.009995,94036600


In [9]:
# Podemos copiar algumas colunas do dataframe atribuindo-as a alguma variavel. Para ficar mais claro, vamos a um exemplo

x = df[["Symbol"]]
x.head()

Unnamed: 0,Symbol
0,RIVN
1,RIVN
2,RIVN
3,RIVN
4,RIVN


In [10]:
# Podemos tambem copiar varias colunas do dataframe.

y = df[["Date", "Open", "Volume"]]
y.head()

Unnamed: 0,Date,Open,Volume
0,2021-11-10,106.75,103679500
1,2021-11-11,114.625,83668200
2,2021-11-12,128.645004,50437500
3,2021-11-15,130.800003,64982300
4,2021-11-16,163.800003,94036600


In [11]:
# Podemos acessar valores do dataframe usando o metodo "iloc". No metodo "iloc", o primeiro argumento representa o index da linha
# e o segundo elemento representa o index da coluna.
print(df.iloc[0, 0]) # Primeira linha, primeira coluna
print(df.iloc[1, 0]) # Segunda linha, primeira coluna
print(df.iloc[0, 2]) # Primeira linha, terceira coluna

RIVN
RIVN
106.75


In [12]:
# Tambem podemos acessar elementos usando o metodo "loc". Nele, o primeiro argumento eh a linha, e o segundo eh o nome da coluna.
print(df.loc[0, "Date"])
print(df.loc[1, "Volume"])

2021-11-10
83668200


In [13]:
# Podemos realizar slices do dataframe e instancia-los a uma nova variavel.
# Esse tipo de slice pode ser feito usando "iloc" e "loc".

z = df.iloc[:20, :3] # Pega todas as primeiras 20 linhas, e as 3 primeiras colunas.
z

Unnamed: 0,Symbol,Date,Open
0,RIVN,2021-11-10,106.75
1,RIVN,2021-11-11,114.625
2,RIVN,2021-11-12,128.645004
3,RIVN,2021-11-15,130.800003
4,RIVN,2021-11-16,163.800003
5,RIVN,2021-11-17,160.880005
6,RIVN,2021-11-18,136.809998
7,RIVN,2021-11-19,129.979996
8,RIVN,2021-11-22,123.879997
9,RIVN,2021-11-23,117.830002


In [14]:
# Quando queremos observar quais sao os valores unicos em uma coluna, usamos o metodo "unique".

df["Symbol"].unique()

array(['RIVN', 'LCID', 'GM'], dtype=object)

In [15]:
# Podemos fazer um filtro booleano para as colunas.
# Ao fazer o filtro abaixo, receberemos uma serie de valores booleanos. Receberemos "True" quando a condicao for atendida, e "False"
# quando a condicao nao for atendida.
df["Low"] < 99


0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
26     True
27     True
28     True
29     True
30     True
31     True
32     True
33     True
34     True
35     True
36     True
37     True
38     True
Name: Low, dtype: bool

In [16]:
# Mas podemos fazer essa selecao de uma maneeira mais util.
# Neste exemplo abaixo, estamos fazendo um filtro do df na variavel Low para valores menores do que 99. Fazendo dessa forma,
# obtemos os dados de todas as linhas e colunas onde a condicao do filtro eh atendido.

testando = df[df["Low"] < 99]
testando

Unnamed: 0,Symbol,Date,Open,High,Low,Close,Adj Close,Volume
0,RIVN,2021-11-10,106.75,119.459999,95.199997,100.730003,100.730003,103679500
13,LCID,2021-11-10,42.299999,45.0,39.341,40.75,40.75,79342800
14,LCID,2021-11-11,42.75,45.75,41.740002,44.98,44.98,69846300
15,LCID,2021-11-12,44.0,45.189999,42.740002,43.93,43.93,40899600
16,LCID,2021-11-15,44.599998,46.139999,43.41,44.880001,44.880001,77111000
17,LCID,2021-11-16,49.93,55.68,46.508999,55.52,55.52,248654600
18,LCID,2021-11-17,56.200001,57.75,50.310001,52.549999,52.549999,198386200
19,LCID,2021-11-18,49.029999,49.669998,43.0,47.049999,47.049999,131634800
20,LCID,2021-11-19,47.16,55.400002,47.150002,55.209999,55.209999,166276500
21,LCID,2021-11-22,53.035,57.439999,50.080002,51.119999,51.119999,130761800


In [17]:
# Para salvar esse arquivo filtrado, fazemos da seguinte forma:
testando_csv = testando.to_csv("testando.csv")

Alguns atributos e metodos que podem ser uteis:
- __values__: retorna a serie como um array numpy;
- __index__: retorna o index da serie;
- __shape__: retorna um tupla com as dimensoes do DF;
- __size__: retorna o numero de elementos na serie;
- __mean__, __sum__, __max__, __min__: retorna o calculo dessas medidas;
- __unique__, __nunique__: retorna os valores unicos ou o numero de valores unicos;
- __sort_values__, __sort_index__: ordena a serie pelos valores ou index;
- __isnull__, __notnull__: Verifica a presenca de NaN ou de nao nulos;
- __apply__: aplica uma funcao a cada elemento da serie.

In [1]:
import numpy as np

In [8]:
a = np.array([0, 1])
b = np.array([1, 0])
c = np.dot(a, b)
c

0

In [5]:
x = np.array([[1, 0], [0, 1]])
y = np.array([[2, 2], [2, 2]])
z = np.dot(x, y)
z

array([[2, 2],
       [2, 2]])

In [11]:
X=np.array([[1,0],[0,1]])

Y=np.array([[2,2],[2,2]]) 

Z=np.dot(X,Y)
Z

array([[2, 2],
       [2, 2]])