# **INTRODUÇÃO À LINGUAGEM PYTHON**

---

##### *Nesta aula, faremos uma introdução à lógica de programação e sintaxe envolvidas na linguagem Python, com ênfase em tópicos que poderão ser úteis nas tarefas de análise e modelagem de dados em nosso curso.*

### **Seção 1**. Comentários em código

**1.1** *É essencial que códigos sejam organizados e devidamente comentados, para fins de documentação do seu objetivo. Os comentários podem ser criados por meio do símbolo de hashtag (#). Tudo que é escrito numa linha de código após este símbolo não é interpretado como linguagem de programação, mas sim como texto livre.*

In [None]:
 # Exemplo de comentário isolado

In [None]:
print('hello world')

In [None]:
print('hello world') # Este comando printará na tela a mensagem 'hello world'

### **Seção 2**. Criação de objetos

**2.1** *Objetos são elementos que armazenam alguma informação. Pode se tratar de um número fixo, um resultado de um cálculo, um texto, uma base de dados ou mesmo outros tipos de outputs que veremos mais adiante. A criação de objetos é feita por meio do simbolo de igual (=).*

In [None]:
a = 1

In [None]:
b = 2

In [None]:
c = 3

In [None]:
d = 4.25 # O separador padrão de casas decimais é o símbolo de ponto (.)

In [None]:
e = 'estatistica'

In [None]:
f = "Estatistica" # Aspas simples são equivalentes a aspas duplas

**2.2** *Para verificar o valor atribuído a um objeto, basta escrever o seu nome.*

In [None]:
a

In [None]:
c

**2.3** *Para alterar o valor associado a um objeto, basta sobrescrevê-lo atribuindo o novo valor.*

In [None]:
c = 30

In [None]:
d = 'um texto qualquer'

### **Seção 3**. Realização de cálculos

**3.1** *O Python pode ser utilizado como calculadora, tanto para cálculos matemáticos simples quanto mais complexos.*

*Exemplo: Adição*

In [None]:
a + b

*Exemplo: Subtração*

In [None]:
a - b

*Exemplo: Multiplicação*

In [None]:
a * b

*Exemplo: Divisão*

In [None]:
a / b

*Exemplo: Potenciação*

In [None]:
a ** b

### **Seção 4**. Uso de módulos e bibliotecas

**4.1** *Grande parte das tarefas que realizamos em ciência de dados em Python requerem a utilização de módulos e bibliotecas de funções, que precisam ser instaladas e carregadas. <br>
De forma simplificada, **módulos** são arquivos em Python (.py) que contêm funções e classes; **pacotes** são diretórios que contêm múltiplos módulos; e **bibliotecas** são coleções de módulos e pacotes que fornecem funcionalidades específicas.*

*Exemplo: Módulo **math**, que contém funções para cálculos matemáticos básicos. Ele pode ser carregado a partir da instrução **import**, seguida do seu nome.*

In [None]:
import math

*Exemplo: Biblioteca **pandas**, que reúne funcionalidades para tarefas de manipulação de bancos de dados tabulares. <br>
É comum carregar certas bibliotecas atribuindo um 'apelido' (alias) para elas, que ajudará posteriormente a referenciar as suas funções. <br>
Para esta biblioteca, o apelido usual é 'pd'.*

In [None]:
import pandas as pd

*Exemplo: Biblioteca **numpy**, utilizada para cálculos numéricos e manipulação de vetores. Seu apelido usual é 'np'.*

In [None]:
import numpy as np

*Exemplo: Biblioteca **scipy**, utilizada para diversos cálculos matemáticos avançados e estatísticos. Seu apelido usual é 'sp'.*

In [None]:
import scipy as sp

**4.2** *Além de carregar uma biblioteca como um todo, é possível carregar apenas um de seus módulos, ou ainda, apenas uma das funções dentro de um módulo.*

In [None]:
import scipy.stats as sps # importa apenas o módulo 'stats', para tarefas de análise estatística, dentro da biblioteca 'scipy'

In [None]:
from scipy.stats import pearsonr # importa apenas a função 'pearsonr', para cálculo de correlação de Pearson, dentro do módulo 'stats' da biblioteca 'scipy'

### **Seção 5**. Funções

**5.1** *Para a realização de diversas operações em Python, é necessário o uso de funções. Em geral, as funções são chamadas a partir do apelido de sua biblioteca, seguido de ponto, seguido do nome da função.*

*Exemplo: Raiz quadrada (função sqrt, módulo math)*

In [None]:
math.sqrt(2)

In [None]:
math.sqrt(b)

*Exemplo: Logaritmo natural (função log, módulo math)*

In [None]:
math.log(30)

In [None]:
math.log(c)

*Exemplo: Valor absoluto (função abs)*

In [None]:
abs(-10)

In [None]:
abs(15000)

*Exemplo: Arredondamento de um valor para o inteiro mais próximo (função round)*

In [None]:
round(2.01)

In [None]:
round(2.99)

*Exemplo: Arredondamento de um valor para o inteiro superior (função ceil, módulo math)*

In [None]:
math.ceil(2.01)

In [None]:
math.ceil(2.99)

**5.2** *Algumas funções em Python requerem mais de um argumento (tal como as fórmulas do Excel). Elas envolvem a seguinte estrutura: <br>
**FUNCAO(nome_argumento_1 = valor_1, nome_argumento_2 = valor_2, ...)** <br>
Note que os argumentos devem ser separados entre si com vírgula.*

*Exemplo: Valor arredondado (round)* <br>
*Argumentos: 'number' (valor para ser arredondado) e 'ndigits' (quantidade de casas decimais)*

In [None]:
round(number = 2.16, ndigits = 1)

Existem funções que, apesar de receberem mais de um argumento, não aceitam receber nomes de argumentos dentro de sua estrutura. Apenas os valores devem ser informados.

*Exemplo: Logaritmo (log)* <br>
*Argumentos: 'x' (logaritmando) e 'base' (base do logaritmo)*

In [None]:
math.log(100, 10)

**5.3** *A função **signature** da biblioteca **inspect** exibe a lista de argumentos que uma determinada função assume.*

In [None]:
import inspect
inspect.signature(round)

**5.4** *Ao chamar uma função passível de receber os nomes dos argumentos em sua estrutura, caso eles sejam listados em sua ordem padrão (definida na função **inspect**), não é necessário escrevê-los, mas apenas os seus valores.*

In [None]:
round(2.16, 1)

### **Seção 6**. Verificações lógicas

**6.1** *O Python também pode ser utilizado como um verificador de condições lógicas: igualdade, desigualdade etc. Isso pode ser realizado diretamente entre valores numéricos/textos fixos, ou entre objetos previamente declarados.*

*Igualdade de valores*

In [None]:
1 == 1

In [None]:
1 == 2

In [None]:
'estatistica' == 'estatistica'

In [None]:
'estatistica' == 'Estatistica' # A linguagem Python diferencia letras maiúsculas e minúsculas (case sensitive)

In [None]:
a == b

In [None]:
e == f

*Desigualdade de valores*

In [None]:
1 != 1

In [None]:
1 != 2

In [None]:
'estatistica' != 'estatistica'

In [None]:
'estatistica' != 'Estatistica'

In [None]:
a != b

*Maior ou menor valor*

In [None]:
1 > 1

In [None]:
1 >= 1

In [None]:
2 < 3

In [None]:
2 <= 3

In [None]:
'matematica' < 'estatistica' # No caso de textos, os operadores '<' e '>' avaliam ordem alfabética

In [None]:
'maria' >= 'joao'

**6.2** *Duas ou mais condições podem ser combinadas entre si para avaliação da sua veracidade.*

*Intersecção de condições (verificação de se todas ocorrem)*

In [None]:
(1 == 1) & (2 == 2)

In [None]:
(1 == 1) & (1 == 2)

In [None]:
('estatistica' == 'estatistica') & ('machine learning' != 'deep learning')

*União de condições (verificação de se ao menos uma ocorre)*

In [None]:
(1 == 1) | (1 == 2)

In [None]:
(1 == 2) | (3 == 4)

In [None]:
('estatistica' == 'estatistica') | ('machine learning' == 'deep learning')

### **Seção 7**. Listas e Vetores


**7.1** *Pode-se criar ***listas*** ordenadas de elementos, que podem se tratar de valores numéricos ou textos (além de outros tipos). Uma lista é criada especificando os seus elementos entre dois colchetes e separando-os com vírgulas.*

In [None]:
[1, 2, 3, 4, 5, 6]

In [None]:
lista_pares = [2, 4, 6, 8, 10]

In [None]:
lista_impares = [1, 3, 5, 7, 9]

**7.2** *Os elementos de uma lista podem ser acessados por meio da sua posição relativa dentro da lista. Para isso, especifica-se o número da posição dentro de colchetes, conforme exemplos a seguir.* ***Observação:*** *Em Python, as posições de uma lista são indexadas a partir do valor zero, ao contrário de vetores do R, que são indexados a partir de 1.*

In [None]:
lista_pares[0] # Primeiro elemento do 'lista_pares'

In [None]:
lista_pares[3] # Quarto elemento do 'lista_pares'

In [None]:
lista_impares[2] # Terceiro elemento do 'lista_impares'

*Para selecionar um conjunto de elementos subsequentes em uma lista criada, pode-se utilizar dois pontos (:), especificando a primeira posição e a posição seguinte à última desejada.*

In [None]:
lista_pares[0:3] # Elementos das posições de 0 até 2 do 'lista_pares'

In [None]:
lista_impares[2:5] # Elementos das posições de 2 até 4 do 'lista_impares'

*Já para selecionar um conjunto de elementos NÃO subsequentes em uma lista criada, a abordagem em Python é um pouco mais indireta do que em R.*

In [None]:
[lista_impares[i] for i in [0,4]] # Elementos das posições 1 e 5 do 'vetor_impares'

**7.3** *Para realizar operações matemáticas em listas, o mais apropriado é declará-las como vetores da biblioteca ***NumPy*** (função 'array'). Um vetor do NumPy é conceitualmente semelhante a uma lista, porém, é mais flexível no que diz respeito às operações que podem ser realizadas. É necessário apenas que os dois vetores tenham o mesmo comprimento (ou seja, a mesma quantidade de elementos).*

In [None]:
import numpy as np

In [None]:
vetor_pares   = np.array([2, 4, 6, 8, 10])
vetor_impares = np.array([1, 3, 5, 7, 9])

In [None]:
vetor_pares + vetor_impares

In [None]:
vetor_pares - vetor_impares

In [None]:
vetor_pares * vetor_impares

In [None]:
vetor_pares / vetor_impares

### **Seção 8**. Criação de um conjunto de dados

**8.1** *A função **DataFrame** da biblioteca ***pandas*** pode ser utilizada para criar conjuntos de dados diretamente dentro da linguagem Python (sem leitura de arquivos externos, por enquanto). A função recebe como argumento um ***dicionário***.* <br>
*Um dicionário em Python é uma coleção de pares do tipo chave/valor, onde cada chave é única. No contexto da função DataFrame, as chaves representam os nomes das colunas, e os valores associados a essas chaves são listas que representam os dados de cada coluna. As chaves e valores são separados com dois pontos (:).*

In [None]:
import pandas as pd

In [None]:
dados = pd.DataFrame({
    'NOME_CLIENTE':     ['Bruno', 'Carlos', 'Mariana', 'Roberta'],
    'IDADE_CLIENTE':    [28, 53, 33, 19],
    'QTDE_COMPRAS_12M': [2, 1, 3, 2]
})

**8.2** *A função 'display' da biblioteca **IPython** e módulo **display** ajuda a visualizar um conjunto de dados em estrutura tabular.*

In [None]:
import IPython.display
display(dados)

### **Seção 9**. Atributos de um conjunto de dados

**9.1** *As colunas de um conjunto de dados podem ser referenciadas por meio da sintaxe de colchetes; ou por meio de um ponto (.) que separa o nome da base de dados e o nome da coluna, que, neste caso, atua como um **atributo** do banco de dados. A opção de usar os colchetes é preferível, por lidar melhor com eventuais nomes de colunas que contenham espaços ou caracteres especiais.*

In [None]:
dados['NOME_CLIENTE']

In [None]:
dados.NOME_CLIENTE

In [None]:
dados['IDADE_CLIENTE']

In [None]:
dados['QTDE_COMPRAS_12M']

**9.2** *Também é possível filtrar as linhas e/ou selecionar as colunas de uma base de dados a partir de suas posições relativas, tal como numa **matriz**, utilizando o atributo **iloc**.*

In [None]:
dados.iloc[0, 0]   # Valor da 1a. linha e 1a. coluna do conjunto 'dados'

In [None]:
dados.iloc[2, 1]   # Valor da 3a. linha e 2a. coluna do conjunto 'dados'

In [None]:
dados.iloc[0, :]   # Todos os valores da 1a. linha do conjunto 'dados' (operação de filtro)

In [None]:
dados.iloc[0:2, :] # Todos os valores da 1a. até a 2a. linha do conjunto 'dados' (operação de filtro)

In [None]:
dados.iloc[:, 0]   # Todos os valores da 1a. coluna do conjunto 'dados' (operação de seleção)

In [None]:
dados.iloc[:, 0:2] # Todos os valores da 1a. até a 2a. coluna do conjunto 'dados' (operação de seleção)

### **Seção 10**. Leitura de um conjunto de dados externo

**10.1** *A função **read.table** pode ser utilizada para ler dados a partir de arquivos externos com extensão .txt, que utilizaremos no nosso curso. Outras funções estão disponíveis para leitura de dados em extensões csv, xlsx, parquet etc.*

In [None]:
dados = pd.read_table(filepath_or_buffer = 'Exemplo_Inicial.txt',  # Nome do arquivo
                      sep                = '\t',                   # Separador entre colunas
                      decimal            = '.',                    # Separador de decimal
                      header             = 0)                      # Linha que contém o cabeçalho (se não houver, especificar: None)

In [None]:
display(dados)

### **Seção 11**. Métodos

**11.1** *Métodos em Python são funções que estão associadas a objetos. Eles são chamados usando a sintaxe objeto.metodo(), tal como para atributos. Ao contrário de funções comuns, em que os objetos são apenas passados como parâmetros, os métodos têm acesso ao objeto a que pertencem e podem não apenas executar operações baseadas nesse objeto, mas também modificar o seu estado.*

*Exemplo: Verificação de nomes duplicados.* <br>
*Em R, utilizaríamos a sintaxe **duplicated(dados\$NOME_CLIENTE)**, onde duplicated() é uma função é dados\$NOME_CLIENTE é o seu argumento.*
*Já em Python, duplicated() é um método pertencente à classe DataFrame da biblioteca pandas, que recebe como argumento opcional o nome da(s) coluna(s) para investigação.*

In [None]:
dados.duplicated(subset = 'NOME_CLIENTE')

*Exemplo: Outra forma de selecionar colunas de uma base de dados, por meio do método get().*

In [None]:
dados.get('NOME_CLIENTE')

*Vários métodos podem ser utilizados de forma concomitante, concatenando cada nova chamada com um novo sinal de ponto (.).*

In [None]:
dados.duplicated(subset = 'NOME_CLIENTE').sum()

### **Seção 12**. Ajuda

*Para obter ajuda sobre como utilizar pacotes e funções em linguagem Python, consulte a **documentação oficial** da linguagem e das bibliotecas. <br> A documentação é extensiva e bastante útil, tanto para iniciantes quanto para programadores avançados. Algumas referências são: <br>*


*   *Python: <br>
https://docs.python.org/3/*
*   *pandas (manipulação e análise de dados): <br>
https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide*
*   *NumPy (cálculos numéricos): <br>
https://numpy.org/doc/stable/user/index.html#user*
*   *SciPy (computação científica): <br>
https://docs.scipy.org/doc/scipy/tutorial/index.html*
*   *Matplotlib (visualização de dados): <br>
https://matplotlib.org/stable/users/index.html*
*   *scikit-learn (machine learning): <br>
https://scikit-learn.org/stable/index.html*

*Para apoio em questões mais específicas sobre a linguagem Python, tem crescido a utilização de chats interativos baseados em inteligência artificial, como o **ChatGPT**.  Consulte, também, fóruns de dúvidas na internet, tal como o **Stack Overflow**: https://stackoverflow.com*