<a href="https://colab.research.google.com/github/gabryel-silva/estudos-python/blob/main/revisao_prova_a2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introdução Python**


#### ***Declaração de varíaveis***

Variáveis são posições da memória reservada para armazenar um determiando valor, que tem um nome específico associado a cada
variável. No caso específico do Python, o nome da variável deve atender às seguintes regras:

* Começar com letra ou underline;
* Se for um nome composto, não pode conter espaço em branco;
* Os nomes são “case sensitive”;
* Use nomes que sejam auto-explicativos.

##### Declaração implícita

No python você não precisa definir o tipo de uma variável, que podem ser em geral do tipo: string, integer e float. Basta atribuir um valor a uma variável, depois, se quiser, podemos saber o tipo do dado armazenado usando type.

In [None]:
print('Saída:')
var_nome = 'Gabryel'
print(var_nome)

Saída:
Gabryel


#### ***Entrada e saída de dados***

Podemos utilizar duas funções simples para entrada e saída de dados: `input( )` e `print( )`.
`variável = input(“texto”)`

Onde:
* variável = nome da variável que irá receber o valor lido
* “texto” é a pergunta que você pode fazer ao usuário
`print("texto {} texto{}".format(variável1,variável2))`

Onde:
* texto é parte da informação que você quer mostrar na tela
* `{}` é o local do texto onde você quer inserir um valor
* `format()` é uma função que converte o valor para uma representação formatada

A entrada de dados com input será sempre lida como um string.

##### Exemplo:

In [None]:
print("Entrada e Saída: ")

var_nome = input('Qual é o seu nome?')
print("Meu nome é {}".format(var_nome))

# ou print(f"Meu nome é {var_nome}")
print(type(var_nome))

Entrada e Saída: 
Qual é o seu nome?Gabryel
Meu nome é Gabryel
<class 'str'>


#### ***Casting***

É a operação que muda um valor de um tipo para outro. Por exemplo, sabemos que a entrada da função input retorna sempre um string. Se quisermos converter de string para inteiro, devemos usar o casting.

##### Exemplo:

In [None]:
print("Entrada e Saída: ")

var_idade = input("Qual é a sua idade?")

#Antes da conversão
print(type(var_idade))

#Após a conversão
print(type(int(var_idade)))

Entrada e Saída: 
Qual é a sua idade?22
<class 'str'>
<class 'int'>


## **Numpay**

Segundo o site https://numpy.org/, o NumPy é o pacote fundamental para a computação científica com Python. Ele contém entre outras coisas:

* um poderoso **objeto de matriz N-dimensional**;
* funções sofisticadas (transmissão);
* ferramentas para integrar códigos escritos em **C / C ++ e Fortran**;
* recursos úteis de álgebra linear, transformação de Fourier e números aleatórios.

Além de seus óbvios usos científicos, o NumPy também pode ser usado como um eficiente recipiente multidimensional de dados genéricos. Tipos de dados arbitrários podem ser definidos. Isso permite que o NumPy se integre de maneira fácil e rápida a uma ampla variedade de bancos de dados. O NumPy é licenciado sob a licença BSD , permitindo a reutilização com poucas restrições. Compreender o uso do NumPy pode ajudar a usar ferramentas de análise de dados como o Pandas, cujas principais operações são as seguintes operações, por exemplo:

    1.1. remoção e limpeza de dados;
    1.2. subconjunto e filtragem;
    1.3. transformação;
    1.4. classificação, únicas e definidas;
    1.5. estatísticas descritivas eficientes e agregação;
    1.6. mesclar e unir conjuntos de dados heterogêneos.


#### ***Instalação do NumPy***
Certifique-se que o NumPy está disponível em seu ambiente de desenvolvimento. No caso do Anaconda, na
interface do Anaconda Navigator, selecione Environments no menu lateral esquerdo. E certifique-se que o NumPy
está instalado.

#### ***Começando a usar NumPy***
Usaremos a convenção **`import numpy as np`**, de modo que você precisa apenas incluir np. antes do nome do
método.

#### ***Array***

Em Python podemos usar tanto Listas quanto Arrays para armazenar dados, e ambos podem ser indexados e
iterados. Os arrays precisam ser declaradas, enquanto as listas não precisam, pois fazem parte da sintaxe nativa
do Python. Portanto, as listas são mais usadas que os arrays. Entretanto, se precisar executar alguma função
aritmética deve utilizar arrays.

In [None]:
import numpy as np

print("Saída: ")

listCitys = ['Brasília','Goiânia','Belo horizonte']
print(listCitys)

Saída: 
['Brasília', 'Goiânia', 'Belo horizonte']


#### ***Principais funções com arrays***
Um ndarray é um contêiner multidimensional genérico para dados homogêneos, ou seja, todos os elementos devem ser do mesmo tipo.

* ***`array( )`***: converte dados de entrada (lista, tupla, array ou outro tipo de sequência) em um ndarray;

* ***`arange( )`***: como o intervalo interno, mas retorna um ndarray em vez de uma lista;

* ***`Ones( )`***: produza uma matriz de todos os 1s com a forma e o tipo especificados. Já a função ones_like leva outra array e produz um array ones da mesma forma e tipo;

* ***`Zeros( )`***: produz arrays de zer;

* ***`Empty()`***: produz um array vazio, não necessariamente com zeros.


##### **Exemplos:**

In [None]:
import numpy as np

print("Saída: ")

dados = [3,5,7,9]
print(f"\n Dados = {dados}")

array = np.array(dados)
print(f"\n Array = {array}")

var_arange = np.arange(10)
print(f"\n Arange = {var_arange}")

var_ones = np.ones((2,2))
print(f"\n Ones = {var_ones}")

var_zerosX = np.zeros((10))
print(f"\n Zeros = {var_zerosX}")

var_zerosM = np.zeros((2,3))
print(f"\n Zeros = {var_zerosM}")

var_empty = np.empty((2,3))
print(f"\n Empty = {var_empty}")

Saída: 

 Dados = [3, 5, 7, 9]

 Array = [3 5 7 9]

 Arange = [0 1 2 3 4 5 6 7 8 9]

 Ones = [[1. 1.]
 [1. 1.]]

 Zeros = [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

 Zeros = [[0. 0. 0.]
 [0. 0. 0.]]

 Empty = [[0. 0. 0.]
 [0. 0. 0.]]


#### ***Operações com arrays***
Outra vantagem do array é poder realizar operações em lote com os dados, sem precisar utilizar um loop,
também conhecido com vetorização. Inclusive muitas operações simples como **`sqrt`** ou **`exp`**.

In [None]:
import numpy as np

print("Saída: ")

a1 = np.array([[1,2,3],[4,5,6]])
print(f"\n Array1 = {a1}")

a2 = np.ones((2,3))
print(f"\n Array2 = {a2}")

var_sum = a1+a2
print(f"\n Array1 + Array2 = {var_sum}")

var_exp = a1**a2
print(f"\n Array1 elevado a 2 {var_exp}")

var_sub = a1-a2
print(f"\n Arra1 - Array2 = {var_sub}")

Saída: 

 Array1 = [[1 2 3]
 [4 5 6]]

 Array2 = [[1. 1. 1.]
 [1. 1. 1.]]

 Array1 + Array2 = [[2. 3. 4.]
 [5. 6. 7.]]

 Array1 elevado a 2 [[1. 2. 3.]
 [4. 5. 6.]]

 Arra1 - Array2 = [[0. 1. 2.]
 [3. 4. 5.]]


#### ***Outras operações com arrays***
Observe que existe uma importante diferença entre lista e arrays. Fatias de um array são visualizações do array original. Portanto, os dados não são copiados e quaisquer modificações na exibição serão refletidas no array original.

In [None]:
print("Saída: ")

myList = [3,4,5,7]
print(f"\n Lista = {myList}")

outList = myList[1:3]
print(f"\n Parte da lista = {outList}")

outList[1] = 23
print(f"\n modifica a parte da lista = {outList}")

print(f"\n Voltando à lista original = {myList}")

Saída: 

 Lista = [3, 4, 5, 7]

 Parte da lista = [4, 5]

 modifica a parte da lista = [4, 23]

 Voltando à lista original = [3, 4, 5, 7]


Em matrizes multidimensionais, se você omitir índices posteriores, o objeto retornado será uma dimensão
dimensional ndarray que consiste em todos os dados ao longo das dimensões mais altas.

In [3]:
import numpy as np

print("Saída: ")

array3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])

print(f"\n\n array 3d: \n {array3d}")

print(f"\n\n Primeriro Array: \n {array3d[0]}")

old_values = array3d[0].copy()
print(f"\n\n copiando os dados do primeito array: \n {old_values}")

array3d[0] = 25
print(f"\n\n Mudando valor so primeiro array: \n {array3d[0]}")

array3d[0] = old_values
print(f"\n\n Voltando para o primeiro array {array3d[0]}")

Saída: 


 array 3d: 
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


 Primeriro Array: 
 [[1 2 3]
 [4 5 6]]


 copiando os dados do primeito array: 
 [[1 2 3]
 [4 5 6]]


 Mudando valor so primeiro array: 
 [[25 25 25]
 [25 25 25]]


 Voltando para o primeiro array [[1 2 3]
 [4 5 6]]


# **Pandas**

O pandas é uma biblioteca de código aberto, licenciada por BSD, que fornece estruturas de dados de alto
desempenho e fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. Algumas
coisas básicas sobre o Pandas:

* Introduz o conceito de Data Frame no Python, que são estruturas de dados alinhados de forma de tabela em
linhas e colunas, divididos em dados , linhas e colunas.
* Possui várias funções para manipulação dos dados;
* É baseada em NumPy.

#### **Leitura e carregamento de dados**

Existem diferentes formatos de armazenamento de dados em arquivos. Não conseguiremos tratar todas as
possibilidades, porém podemos destcar os seguintes:
* Dados delimitados em texto (csv);
* Microsoft Excel (xls, xlsx);
* Arquivos nativos do R (RData e rds)
* Formato fst (fst)
* SQLite (SQLITE)
* Texto não estruturado (txt).

O Pandas possui funcoes para leitura de dados em diversos formatos, vamos comecar com o formato mais
simples: csv. Utilizaremos como base de estudo um conjunto de dados contém uma lista de videogames com
vendas superiores a 100.000 cópias. Disponível também em:

https://www.kaggle.com/gregorut/videogamesales#vgsales.csv

Os campos dessa base de dados incluem:

* Rank: classificação das vendas globais
* Name: o nome dos jogos
* Platform: plataforma do lançamento dos jogos (PC, PS4 etc.)
* Year: ano do lançamento do jogo
* Genre: gênero do jogo
* Publisher: editora do jogo
* NA_Sales: vendas na América do Norte (em milhões)
* EU_Sales: vendas na Europa (em milhões)
* JP_Sales: vendas no Japão (em milhões)
* Other_Sales: vendas no resto do mundo (em milhões)
* Global_Sales: total de vendas em todo o mundo.


#### **Importando o Pandas**
Vamos iniciar os trabalhos com o uso da função read_csv(), que pode utilizar
diversos parâmteros, cujos detalhes podem ser obtidos em:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Básico:
* **`sep:`** Delimitador para usar.
* **`header`**: Número(s) de linha a ser usado como nome da coluna e início dos dados.
* **`names`**: Lista de nomes de colunas a serem usados. Se o arquivo não contiver nenhuma linha de cabeçalho,
você deve passar explicitamente header=None. Duplicatas nesta lista não são permitidas.

***Exemplo:***

Dados contém uma lista de videogames com vendas superiores a 100.000 cópias. Disponível em:

https://www.kaggle.com/gregorut/videogamesales#vgsales.csv

In [5]:
import numpy as np
import pandas as pd

print("Saida: \n")

games = pd.read_csv(
      "vgsales.csv",
      sep = ',',
      header = 0
)

print(games.shape)
games.head()

Saida: 

(16598, 11)


Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


#### **Outro exemplo:**
Dados coletados do catálogo de dados abertos sibre crimes da cidade de Vancouver.

***Disponível em:***

https://www.kaggle.com/agilesifaka/vancouver-crime-report/downloads/vancouver-crime-report.zip/1

In [None]:
import numpy as np
import pandas as pd

games = pd.read_csv(
    "crime_records.csv",
    sep=',',
    header=0
)

print(games.shape)
games.head()

#### **Obtendo descrições e tipos dos dados**
Precisamos sempre verificar se o carregamento dos dados foram feitos de forma correta, e se foram lidos no
formato correto, para isso podemos fazer o seguinte:

In [7]:
print(games.describe(),"\n")
print(games.dtypes)

               Rank          Year      NA_Sales      EU_Sales      JP_Sales  \
count  16598.000000  16327.000000  16598.000000  16598.000000  16598.000000   
mean    8300.605254   2006.406443      0.264667      0.146652      0.077782   
std     4791.853933      5.828981      0.816683      0.505351      0.309291   
min        1.000000   1980.000000      0.000000      0.000000      0.000000   
25%     4151.250000   2003.000000      0.000000      0.000000      0.000000   
50%     8300.500000   2007.000000      0.080000      0.020000      0.000000   
75%    12449.750000   2010.000000      0.240000      0.110000      0.040000   
max    16600.000000   2020.000000     41.490000     29.020000     10.220000   

        Other_Sales  Global_Sales  
count  16598.000000  16598.000000  
mean       0.048063      0.537441  
std        0.188588      1.555028  
min        0.000000      0.010000  
25%        0.000000      0.060000  
50%        0.010000      0.170000  
75%        0.040000      0.470000  
