![PPGI_UFRJ](imagens/ppgi-ufrj.png)
# Fundamentos de Ciencia de Dados

---
# PPGI/UFRJ 2020.3, 2022.2, 2024.2
## Prof Sergio Serra e Jorge Zavaleta

---
# Módulo 1 - Introdução a Python

**Python** é uma linguagem de programação de alto nível, interpretada de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Gratuita de uso geral com uma elegante sintaxe, disponível em várias plataformas, incluindo Windows, Linux e macOS.

Python possui vários tipos de dados integrados, incluindo strings, inteiros e listas. Esses tipos de dados podem ser usados ​​para armazenar e manipular diferentes tipos de informações em um programa. Além desses tipos de dados básicos, Python também possui tipos de dados avançados, como dicionários e conjuntos. Python também possui um módulo integrado para operações de entrada/saída, que permite que um programa leia e grave em fontes externas, como arquivos e fluxos.

A linguagem Python pode ser usada em uma ampla gama de aplicações, como ciência de dados, ciência da computação, engenharia de software, matemática, ciências biológicas, linguística e jornalismo. No entanto, aprender programação Python para ciência de dados requer conhecimento específico único, adaptado ao seu uso nesse campo. 

A caminhada pelos diversos notebooks do curso de Fundamentos de Ciência de Dados (FCD) apresentará os fundamentos da sintaxe python para ciência de dados, incluindo: 
- Tipos de dados (listas, tuplas, strings, sequências, conjuntos, dicionários)
- Variáveis ​​
- Operadores e expressões
- Instruções (atribuições, comentários, instruções if, para instruções, e instruções while)
- Funções (funções integradas, funções de módulo, funções definidas pelo usuário e funções lambda)

## Palavras-chave 
Em Python, uma palavra-chave é uma palavra que possui um significado especial na linguagem Python. Palavras-chave são usadas para definir a sintaxe e a estrutura da Linguagem Python e não podem ser usados ​​como identificadores (ou seja, nomes de variáveis, nomes de funções, etc.) no código Python.

Podemos verificar as palavras-chave com os seguintes comandos:

In [None]:
# keywords list
import keyword as key
#visualiza a lista de palavas-chave
print(key.kwlist)

## Identificadores

Um identificador em Python é um nome usado para identificar uma variável, função, classe, módulo ou outros objetos. Existem algumas regras e convenções para nomear identificadores em Python:
- Os identificadores devem começar com uma letra ou sublinhado (_). 
- Os identificadores não podem começar com um número.
- Os identificadores só podem conter letras, números e sublinhados. 
- Os identificadores diferenciam maiúsculas de minúsculas, portanto myVariable e myvariable são considerados identificadores diferentes.
- Python reserva um conjunto de palavras-chave que não podem ser usadas como identificadores. Por exemplo: if, else, for, class, etc.
- Os identificadores devem ser descritivos e significativos.

Exemplos de identificadores válidos em Python:
- myVariavel
- _privateVariavel
- contador
- calcular_promedio
- MinhaClasse

Exemplos de identificadores inválidos em Python:
- 2daVariavel (começa com um número)
- mi-variavel (contém um hífen)
- if (palavra-chave reservada)
- True (palavra-chave reservada)
- class (palavra-chave reservada)

Convenções mais avançadas para identificadores Python: 
1. O nome da classe começa com uma letra maiúscula. Todos os outros identificadores começam com uma letra minúscula. 
2. Iniciar um identificador com um único sublinhado (_) indica que o identificador é privado. 
3. Começar um identificador com dois sublinhados iniciais (__) indica que o identificador é um identificador fortemente privado. 
4. Se o identificador também terminar com dois sublinhados à direita, o identificador será um nome especial definido no idioma.

## Script

Um programa python é denominado de **script** e é uma sequencia de definições e comandos. As definições são avaliadas e os comandos são executados pelo interpretador python, chamando de **shell**.

**Objetos** são os elementos fundamentais que a linguagem manipula. Cada objeto tem um **tipo** que define a variedade de manipulações (operações) que o programa pode fazer com este objeto.

Os tipos podem ser de duas classes: **Escalares** e **não escalares**

- **Escalares**: Objetos indivisiveis ou atómicos.
    1. **int** representa números inteiros.
    2. **float** representa números reais.
    3. **bool** usada para representar valores booleanos True e False.
    
    
- **Não escalares**: Objetos que têm uma estrutura interna, por exemplo, **strings**

Uma **Expressões** é a combinação de objetos e operadores. Uma expressão retorna um **valor** de algum **tipo**.

## Operadores

Python oferece suporte a um rico conjunto de operadores integrados. Um Operador é um símbolo especial que informa ao computador para realizar certas operações matemáticas e lógicas, como adição e multiplicação. Os operadores fazem parte das expressões matemáticas e lógicas. Uma expressão é uma sequência de operandos e operadores que se reduz a um único valor. 

Os operadores Python podem ser classificados nas seguintes categorias:
1. Operadores aritméticos 
2. Operadores relacionais 
3. Operadores lógicos 
4. Operadores de atribuição

### Operadores ariméticos

Python fornece todos os operadores aritméticos básicos. Eles estão listados na Tabela a seguir. Os operadores *, /, + e – funcionam da mesma forma que em outras linguagens.

Tabela 1: Operadores aritméticos (x=3,y=5)
| Operdador    | Significado    | instâncias | Resultado |
|:------------:|:---------------|:----------:|:---------:|
| +            | Adição         | x + y      | 8         |
| -            | Subtração      | x - y      | -2        |
| *            | Multiplicação  | x*y        | 15        |
| /            | Divisão        |  y/x       | 1,66      |
| **           | Exponenciação  |  x**y      | 243       |
| //           | Divisão inteira| y//x       | 1         |
| %            | Resto (Módulo) | y%x        | 2         |

### Operadores relacionais

Tabela 2: Operadores relacionais (x=3,y=5)
| Operdador    | Significado      | instâncias | Resultado |
|:------------:|:-----------------|:----------:|:---------:|
| ==           | Igual a          | x == y     | False     |
| !=           | Diferente        | x != y     | True      |
| >            | Maior que        | x > y      | False     |
| <            | Menor que        | x < y      | True      |
| >=           | Maior ou igual a | x >= y     | False     |
| <=           | Menor ou igual a | x <= y     | True      |

**Operadores matemáticos e de comparação**:

In [None]:
# soma: +
10 + 4

In [None]:
# subtração: -
10 - 4

In [None]:
# multiplicacao
10*4

In [None]:
# divisao
10/4

In [None]:
# divisao inteira 
10//4

In [None]:
# resto da divisao
10%4

In [None]:
# potencia de um numero
10**4

In [None]:
# comparacao: >
10 >4

In [None]:
# comparacao: <, >, <=, >=, != 
10 < 4

In [None]:
10 != 4

In [None]:
# como saber o tipo da expressao
print(type(10.3))
print(type(3))
print(type('s'))

**Operadores booleanos**
- **a and b**: True, se a e b são verdadeiros e False nos outros casos.
- **a or b**: True, se a e b são True ou algum valor de a ou b são verdadeiros, nos outros casos False.
- **not a**: True se for False e False de for True.

### Python como máquina de Calcular

In [None]:
# soma de numeros
7 + 4

In [None]:
# multiplicacao de numeros
10 * 5

In [None]:
# divisao
10/5

In [None]:
# resto de divisao
10 % 2

In [None]:
# string
'Curso' + ' de '+' Data Science'

In [None]:
# duplicacao de string
' curso '*10

### Variáveis e Atribuição

Uma **variável** é um nome de dados que pode ser usado para armazenar um valor de dados. Ao contrário das constantes que permanecem inalteradas durante a execução de um programa, uma variável pode assumir valores diferentes em momentos diferentes durante a execução.

As **variáveis** fornecem uma forma de associar **nomes** com objetos. Pode ser usada qualquer palavra para determinar uma variriável com exeção das palavras reservadas da linguagem, tipo *for*, *else*, *int*, *float*, etc.

*O nome de uma variável pode ser escolhido pelo programador de forma significativa, de modo a refletir sua função ou natureza no programa*.

In [None]:
# exemplo de variavel (nome), atribuicao (=) e valor da atribuição
# documentar
pi = 3.14   # pi
r = 4
# --documentar
area = pi*(r**2)  # r**2
#area
print('area de X:>',area)  # imprime valor final
#


In [None]:
area

In [None]:
x = [1,2,3,4,5]
#x
print('x=',x)

In [None]:
x1 =['a',2,'aqui',40,'calor',1.0]
x1

In [None]:
x1[2]

In [None]:
# atribuicao de valores boolianos
a = 4
b = False  # b= True
r= a and b
print(r)

### Visualização de variáveis

In [None]:
# visualizacao de variaveis
nome = 'Rio de Janeiro é considerada a Cidade Maravilhosa'
# visualizar - 1: nome da variavel
nome

In [None]:
# visualizar - 2: usando o comando print()
print(nome)

In [None]:
# visualizar - 3: usaando comando print()
print('Um fato:',nome)

In [None]:
#visualizacao - 4: usando o comando print()
print(nome,' ...',' sengundo a Revista Fofoca')

### Tipos de Dados

Python fornece uma rica coleção de tipos de dados para permitir que os programadores executem praticamente qualquer tarefa de programação que desejarem em outra linguagem. A linguagem fornece muitos tipos de dados úteis e únicos (como listas, tuplas e dicionários).

Python é conhecido como uma linguagem de tipo dinâmico, o que significa que não precisamos identificar explicitamente o tipo de dados ao inicializar uma variável. 

Um **tipo** de dato é um conjuntos de valores e operações que podem ser realizados com esses valores.

**Tipos numéricos**

- **Inteiro**: *int*

In [None]:
# exemplo de int
n_i = 4
n_i

In [None]:
# visualizar o tipo de dado
type(n_i)

- **Real**:*float*

In [None]:
# exemplo de float
f = 3.9
f

In [38]:
# visualizar o tipo de dados

In [None]:
type(f)

- **Complexo**: *complex*

In [None]:
# exemplo de numero complexo
nc1 = 3+4j
nc1

In [None]:
type(nc1)

#### Strings

Uma **string** é uma sequência de caracteres fechados entre aspas simples ou duplas.

In [None]:
# exemplo de string
cidade1 = 'Rio de Janeiro'
cidade2 = "Niterói"
print(cidade1)
print(cidade2)

In [None]:
# outra forma de apresentar?
print(cidade1+' '+cidade2)

- **função**: **str(objeto)** - retorna um objeto de tipo *string*

In [None]:
# exemplo de uso de str() - numero2string
str(10)

In [None]:
# exemplo de criacao de str()
string_vazia = str()
type(string_vazia)

#### Operações Básicas com Strings

- **Concatenação de strings**:**+**

In [None]:
# exemplo de concatenacao
print(cidade1+cidade2)

In [None]:
# outra forma?
print(' ..',cidade1,' ',cidade2)

In [None]:
# tipo ?
type(cidade1)

- **Sequências repetidas de string**: \*

In [None]:
tres_vezes = cidade1*3 + '-'+str(50)
tres_vezes

- Verificar a existência de uma string em outras string. Retorna **True** ou **False**

In [50]:
# exemplo
s1 = 'O coronavírus esta solto na cidade do Rio de Janeiro'
s2 = 'cidade'

In [None]:
# exemplo
s3='Araruama'
r1 = s2 in s1
r2 = s3 in s1
print(r2)

In [None]:
print(s3 in s1)

In [None]:
# exemplo
r2 = s2 not in s1
r2

- Comparação de **strings**: <, >, >=, <=, ==, !=

In [None]:
# exemplo de comparacao
print(s1 == s2)
#print(s1 > s2) # why?

- **Funções de strings**: *len()*,*max()*,*min()* 

In [None]:
# tamanho da string
l1 = len(s1)
l1

In [None]:
# max()
mx = max(s1)
mx

In [None]:
# min()
mi = min(s1)
mi

- **Índices** - indica a posição de um caracter na string

In [None]:
# exemplo do tamanho de uma string
tam = len(s1)
p0 = s1[10]
p0

## Listas

Uma **lista** é uma sequência de zero ou mais objetos. Usa-se os "[]" para indicar uma lista.

### Operadores de Listas

In [None]:
# exemplo de lista
lista = [1,4,"oi",'Teste']
print(lista)
lista0 = [10, 'a',4-5j,3.1]
print(lista0)
print(len(lista0))
print(lista0[3])

| Operador | ação |
|:----------|:-------------|
| []        | lista vazia |
|append()   | adiciona elementos|
| sort()    | ordena os elementos |
| insert()  | insere elementos|
| pop()     | elimina o último elemento |
| remove()  | remove um elemento |

In [None]:
# exemplo de listas
Lista = []
print('Lista vazia L:',Lista)
Lista.append(34)
print('append(34)-> L:',Lista)
Lista.append(22)
print('append(22)-> L:',Lista)
Lista.append(50)
print('append(50)-> L:',Lista)
Lista.append(-10)
print('append(-10)-> L:',Lista)
Lista.sort()
print('sort(L)-> L:',Lista)
Lista.pop()
print('pop()-> L:',Lista)
Lista.insert(0, 40)
print('insert(0,40)-> L:',Lista)
Lista.insert(1, 55) 
print('insert(1,55)-> L:',Lista)
Lista.pop(1)
print('pop(1)-> L:',Lista)
Lista.remove(22)
print('remove(22)-> L:',Lista)
print('O que acontece com os elementos da lista L?')
Lista.remove(55) #
print('remove(55)-> L:',Lista)

In [None]:
# split(): converte uma string em lista
s = 'Rio de Janeiro está em lockdown por causa da pandemia COVID-19'
r = s.split()
print(r)

In [None]:
# acesar elementos da lista usando o indice
elemento = r[5]
print('Elemento na posição 6:> ',elemento)

In [None]:
# join(): Converte uma lista em string
ns =" ".join(r)
print('ns:',ns)


### Indexação e Fatiamento de listas

In [None]:
# list index
print('Indexação de uma Lista')
#print('')
texto =['Python','para','Data Science','curso','introdutório']
t0 = texto[0]
t4 = texto[4]
print('  texto-0:>',t0)
print('  texto-4:>',t4)

In [None]:
# posicao do elemento numa lista
elemento = texto[3]
print('Elemento :>',elemento)
pos = texto.index(elemento)
print('Posição do elemento :>',pos)

In [None]:
# numero de elementos de uma lista
l = len(texto)
print('Número de elemento :>',l)

In [None]:
# sum(). max(); min()
numeros = [23,25,28,45,33,20]
s1 = sum(numeros)
print('Soma :>',s1)
print('Máximo :>',max(numeros))
print('Mínimo :>',min(numeros))

In [None]:
# any(): verifica se algum dos elementos de uma lista é TRUE (iterable)
an1 = any([0,0,0,False,0])
print('A1:>',an1)
an2 = any([4,0,0,False,0])
print('A2:>',an2)
an3 = any([0,0,0,False,''])
print('A3:>',an3)
an4 = any([0,0,0,False,'Casa'])
print('A4:>',an4)

In [None]:
# all() - Retorna TRUE se todos os items de um objeto são "iterable" são TRUE
al1 = all([1,1,1,1])
print('AL1:>',al1)
al2 = all([1,1,1,0])
print('AL2:>',al2)
al3 = all([1,1,1,''])
print('AL3:>',al3)
al4 = all([1,1,1,'J'])
print('AL4:>',al4)

In [None]:
# ordena uma lista
#L = ['Z','z','a','A']
L = [5,3,2,-1,1,4]
lo = sorted(L)
print('Lista ordenada :>',lo) # menor -> maior
lr = sorted(L, reverse=True) # maior -> menor
print('Lista ordenada :>',lr)

In [None]:
# ordenando palavras
texto = "COVID-19, Araruama"
T = sorted(texto)
print('T:>',T)

In [None]:
# criar uma lista interativa
items_da_lista = []
total_de_items = int(input("Ingressar o número de items:"))
for i in range(total_de_items):
    item = input(" Item da lista:> ")
    items_da_lista.append(item)
print(f"Lista de items: {items_da_lista}")
print()
print('Número de elementos da lista :> ',len(items_da_lista))

In [None]:
# fatiamento (slices) usando os indices
txt ="O transporte público está um caos"
print('texto :>',txt)
txt1 = txt[3:]
print('txt:>',txt1)
txt2 = txt[3:20]
print('txt:>',txt2)

In [None]:
# 5 valores iniciais
txt5 = txt[:5]
txt5

In [None]:
# valores 
txt4 = txt[12:20]
txt4

In [None]:
# slice(inicio:fim,step)
lv = [0, 10, 20, 30, 40, 50, 60, 70, 80]
#
print('Lista de valores :>',lv)
sl = slice(2,8,2)
print('valores :> ',lv[sl])

In [None]:
# Eliminar um elemento
del lv[0]
print(lv)

In [None]:
# indice negativo
t1 = lv[-1]
t1

In [None]:
# indice negativo
t2 = lv[:-1]
t2

## Dicionários
Um **dicionário** tem zero ou mais entradas. A cada entrada tem associdada uma chave única e um valor **{key:valor}**

- {} : dicionário vazio
- {"nome":"Jorge"} : uma entrada
- {"nome":"Jorge", "Idade":57} : duas entradas
- {"hobbies":["Leitura","viajar"]} : uma entrada e o valor é uma lista

In [None]:
# exemplo de dicionario
mesNumero = {'Janeiro':1, 'Fevereiro':2, 'Março':3, 'Abril':4, 'Maio':5, 
             1:'Janeiro', 2:'Fevereiro', 3:'Março', 4:'Abril', 5:'Maio'}
#
print('O terceiro mês é ' + mesNumero[3])
distancia = mesNumero['Abril'] - mesNumero['Janeiro']
print('De Abril a Janeiro são', distancia, 'mêses de espaço ')

In [None]:
# chaves do dicionario
chaves = mesNumero.keys()
print('Chaves:> ',chaves)

In [None]:
# valores do dicionario
valores  = mesNumero.values()
print('Valores:>',valores)

In [None]:
# verificar chaves
key = 'três'
res = key in chaves
print('Resultado da consulta :>',res)

In [None]:
# verificar valor do key = 2
valor = mesNumero[2]
print('Resultado da consulta :>',valor)

In [None]:
# iteracao sobre as chaves 
for key in mesNumero:
    print('Chave:>',key)

## Funções

In [86]:
# def nome_funcao (lista_de_parametros):
#    <sequencia_de_expressoes>

In [87]:
# exemplo de funcao
def soma(a,b):
    return a+b

In [None]:
# uso da funcao
so = soma(7,2000)
print('Soma:>',so)

In [None]:
def valorx(a):
    if a > 3:
        x='verdade'
    x='falso'
    return x
#
t = valorx(23) # chama a funcao
#
print('Valor :>',t)

## Exercícios
Prática dos conteúdos estudados: construindo e operando listas e strings

1. Seja x='cachorro' e y='gato'. Quais são os valores retornados pelas operações:
    - x + y
    - "O" + x + "não gosta de " + y
    - x*6

2. Escreva uma string que contenha nome, endereço, bairro e cidade:
    - Em linhas diferentes
    - Na mesma linha

3. Quais das seguintes variáveis são nomes válidos?
    - a) length
    - b) _width
    - c) firstBase
    - d) 2MaisDois
    - e) halt!

4. Que tipo de dados seria mais apropriado para representar os seguintes valores?
    - o número de meses de um ano
    - a área de um círculo
    - o salário mínimo atual
    - a idade do universo
    - seu nome

5. Seja x = 4 e y = 0.5. Escrever os valores das seguintes expressões:
    - a) x + y * 3
    - b) (x + y) * 3
    - c) x ** y
    - d) x % y
    - e) x / 12.0
    - f) x / 6

6. Seja x = 5.33. Escrever os valores das seguintes expressões:
    - a) round(x)
    - b) int(x)
    
 Têm alguma diferença?

7. Se pode concatenar um valor numérico e uma string?. Apresente exemplos.

8. Definir funções para as operações matemáticas básicas. 

---
#### &copy; Copyright 2021, 2022, 2024 - Sergio Serra & Jorge Zavaleta