# Introdução ao Python 3.0 para Ciência de Dados

#### Por que aprender uma Linguagem de Programação?

* É uma forma de compreender e interagir melhor com as tecnologias computacionais disponíveis;
* Torna possível automatizar tarefas repetitivas;
* É essencial para tratar e analisar dados em diferentes padrões e formatos;
* Possibilita criar saídas de programas e formas de apresentar os dados personalizadas;
* É muito importante para o mercado de ciência de dados;
* Em TI, desenvolvedores, suporte (DevOps) e gestores (relatórios automatizados) utilizam;
* É interessante, desafiador e divertido.

#### Por que aprender Python?

* As duas linguagens de programação mais utilizadas em Ciência de Dados são Python e R;
* É uma linguagem de programação muito poderosa, com diversas bibliotecas disponíveis para tratar necessidades diversas, mesmo fora de ciência de dados;
* Existem bibliotecas estatísticas e para aprendizado de máquina, análise de dados, visão computacional, mineração de textos, visualização de dados;
* É multiplataforma;
* Fácil de aprender e de alta produtividade.

#### Uso em relação a outras linguagens de programação

![1.png](attachment:1.png)

![2.png](attachment:2.png)

![3.png](attachment:3.png)

#### Uso em Ciência de Dados

![4.jpg](attachment:4.jpg)

#### Python 2 ou Python 3?

![5.png](attachment:5.png)

#### Interfaces de Desenvolvimento (IDE - Integrated Development Environment)

![6.png](attachment:6.png)

00:30

#### 1) Hello World em Python 3.0:


In [None]:
print('Hello World')

#### 2) Variáveis e Tipos de Dados Básicos

###### Inteiro

In [None]:
my_int = 1
print('Tipo de my_int:')
print(type(my_int))


##### Float

In [None]:
my_float = 1.0
print('Tipo de my_float:')
print(type(my_float))

##### String (cadeia de caracteres / texto)

In [None]:
my_string = "name"
print('Tipo de my_string:')
print(type(my_string))

###### Booleano (Lógico - Falso / Verdadeiro)

In [None]:
my_boolean = True
print('Tipo de my_boolean:')
print(type(my_boolean))

#### 3) Operações Básicas com Inteiros

In [None]:
a = 1
b = 2
c = 5

###### Soma, subtração, multiplicação e divisão

In [None]:
print(a + b)
print(c - b)
print(a * c)
print(b / c)

###### Exponenciação

In [None]:
print(a ** b)

###### Divisão inteira

In [None]:
print(b // c)

###### Módulo (resto)

In [None]:
print(c % a)
print(c % b)

###### Expressões numéricas

In [None]:
print((4+53)*3)
print((4+53)*3-7+1**4)
print((4%3)*8//7)

##### Outras representações inteiras

In [None]:
d = 0xA5
print(d)
print(type(d))

In [None]:
e = 0o76
print(e)
print(type(e))

In [None]:
print(d+e)

f = 0b100101
print('f:', f)

k = 2 + 3j
print('k:', type(k))

#### Atenção a diferença entre inteiro e float

In [None]:
type(1)==type(1.0)

#### 4) Operações Básicas com Strings

In [None]:
print("Concatenação")
"este texto será unido" + " a este outro"

In [None]:
print("Tamanho do texto: ")
len("abacate banana maçã")

In [None]:
"Aprender Python é importante para analisar dados de fontes diversas.".count("a")

In [None]:
"Aprender Python é importante para analisar dados de fontes diversas.".lower()

In [None]:
texto_sobre_python = "Aprender Python é importante para analisar dados de fontes diversas.".upper()
texto_sobre_python

###### Substrings

In [None]:
texto_sobre_python[2:5]

In [None]:
texto_sobre_python[4:]

In [None]:
texto_sobre_python[:5]

In [None]:
texto_sobre_python[:]

In [None]:
texto_sobre_python[2:-8]

###### Split

In [None]:
texto_sobre_python.split("A")

###### Index

In [None]:
print(texto_sobre_python.index("ANALISAR"))
print(texto_sobre_python.index("FONTES"))


###### 5) Operadores Lógicos e de Comparação

In [None]:
a = True
b = False
print('a and b :', a and b)
print('a or b :', a or b)
print('not a :', a)

print('a==b :', a == b)
print('a != b :', a != b)

a = 15
b = 27

print('a < 15 :', a < 15)
print('a < b :', a < b)
print('b > a :', b > a)
print('a >= b :', a >= b)
print('a <= b :', a <= b)


###### 6) Operadores aritméticos e de atribuição

In [None]:
contador = 0
contador += 3
contador += 3
contador

In [None]:
contador = 2
contador *= 3
contador *= 4
contador

Outros operadores de atribuiçao incluem: +=, -=, *=, /=, //=, **=, %=

Atenção: Não confundir o operador de atribuição = com o operador lógico ==

###### 7) Comentários em Python

In [None]:
# Primeira linha comentada
# print('esta linha não será executada')
print('está linha sera executada')

1:00

#### 8) Listas

Listas são coleções ordenadas de objetos, e em Python uma lista pode conter objetos de tipos diversos. Uma lista pode conter até mesmo outras listas.

Além disso, devido a sua característica de ser ordenada, você pode acessar os elementos de uma lista através de seu índice. Os índices de uma lista em Python começam em 0 e vão até o (tamanho da lista -1).

In [None]:
lista_objetos = [1, 'primeira string', True, 'segunda string', 3, [4, 5, 6]]
print(lista_objetos)

###### Acessando elementos

In [None]:
lista_objetos = [1, 'primeira string', True, 'segunda string', 3]
print(lista_objetos[:])

In [None]:
print(lista_objetos[1:])

In [None]:
print(lista_objetos[5:])

In [None]:
print(lista_objetos[-2:])

In [None]:
print(lista_objetos[3:4])

In [None]:
print(lista_objetos[2:4])

###### Modificando listas

In [None]:
lista_objetos = [1, 'primeira string', True, 'segunda string', 3]
lista_objetos[0] = 4
print(lista_objetos)

In [None]:
lista_objetos[2:4] = [3, 4]
print(lista_objetos)

###### Métodos e usos comuns

In [None]:
lista_objetos = [1, 'primeira string', True, 'segunda string', 3]
print(len(lista_objetos))

In [None]:
lista_objetos.append('novo')
print(lista_objetos)

In [None]:
lista_objetos.remove('novo')
print(lista_objetos)

In [None]:
lista_objetos = lista_objetos + ['mais um objeto']  
print(lista_objetos)

In [None]:
del lista_objetos[5]
lista_objetos = lista_objetos + ['mais um objeto', 'mais outro']
print(lista_objetos)

In [None]:
lista_objetos.remove('mais um objeto')
print(lista_objetos)

In [None]:
lista_objetos.pop(3)
print(lista_objetos)

In [None]:
'primeira string' in lista_objetos

In [None]:
print(lista_objetos.count(True))
print(lista_objetos.index('primeira string'))

###### Ordenação

In [None]:
lista_numerica =[1,4,5,6,92,78,34,21,56]
lista_numerica.sort()
print(lista_numerica)
lista_numerica.reverse()
print(lista_numerica)

##### Copiando uma lista

In [None]:
a = [1,2,3]
b = a
print(b)
b[1] = 5
print(b)
print(a)

In [None]:
a = [1,2,3]
b = a.copy()
print(b)
b[1]=5
print(b)
print(a)

#### 9) Dicionários

Um dicionário é uma estrutura de dados que permite o mapeamento entre uma chave e um valor. É muito útil utilizarmos dicionários para acesso rápido a determinado elemento se já conhecermos a chave correspondente. Assim, no lugar de varrermos uma lista em busca de um certo elemento, o que seria uma tarefa de complexidade de pior caso O(n), em que n é o número de elementos da lista, com um dicionário encontraríamos a chave em O(1), se conhecermos a chave.

As chaves e valores em um dicionário não são ordenados.

In [None]:
populacoes_estados = {'São Paulo': 45538936,
                      'Minas Gerais': 21040662,
                      'Rio de Janeiro':17159960,
                      'Bahia': 14812617,
                      'Paraná': 11348937,
                      'Rio Grande do Sul': 11329605,
                      'Pernambuco':9496294
                     }
print(populacoes_estados)

In [None]:
print(populacoes_estados['Minas Gerais'])
print(populacoes_estados['Bahia'])

In [None]:
print(populacoes_estados['Ceará'])

In [None]:
populacoes_estados = {}
populacoes_estados['São Paulo'] = 45538936
populacoes_estados['Rio de Janeiro'] = 17159960
print(populacoes_estados)

In [None]:
populacoes_estados['Minas Gerais'] = 21040662
populacoes_estados['Rio de Janeiro'] += 50000
print(populacoes_estados)

In [None]:
print(populacoes_estados.keys())
print(populacoes_estados.values())
print(populacoes_estados.items())
print('Minas Gerais' in populacoes_estados)

#### 10) Tuplas

Uma tupla é uma estrutura de dados ordenada semelhante a uma lista, mas não pode ser modificada. Tentar modificar uma tupla gera um erro.
Algumas funções retornam tuplas. Como são imutáveis, tuplas podem ser utilizadas como chaves de dicionários.

In [None]:
tupla_paises = ('Brasil', 'Argentina', 'Uruguai', 'Paraguai')
tupla_paises[1]

In [None]:
tupla_paises[1] = 'Chile'

Em geral, os métodos de listas também funcionam para tuplas.

#### 11) Conjuntos

Um conjunto é uma coleção não ordenada, de conceito equivalente aos conjuntos da matemática. Em um conjunto, um mesmo elemento não se repete.

Criando conjuntos a partir de listas:

In [None]:
a = set([1,2,3,4])
print(a)

Conjuntos são muito úteis quando queremos evitar repetições de elementos ao adicionar grupos de novos elementos. Ou, quando queremos remover repetições de uma lista rapidamente.

In [None]:
a = [1,2,4,5,5,5,5,6,7,6,5,3,4,2,3,1,2,3,4,8,9,11,17,14,15]
a = set(a)
a = list(a)
print(a)

Lembre-se, conjuntos não são ordenados, logo não podemos recuperar elementos por índices como nas listas:

In [None]:
a = set(a)
a[1]

Podemos realizar operações tais como interseções, uniões e diferença de conjuntos como na matemática:

|Comando |Retorno |
|:---|:---|
|len(s) |número de elementos no conjunto (cardinalidade) |
|x in s |testa se x pertence a s |
|x not in s |testa se x não pertence a s |
|s.issubset(t) |testa se s é subconjunto de t (s<=t) |
|s.issuperset(t) |testa se s contém t |
|s.union(t) |união de t com s, sem repetição (s | t) |
|s.intersection(t) |interseção entre s e t (s & t) |
|s.difference(t) |remove do conjunto s os elementos em t (s - t) |
|s.symmetric_difference(t) |elementos em s ou t somente, elementos em ambos não estão presentes. |

In [None]:
s = set(['Abacate','Abacaxi','Acerola','Ameixa','Amora'])
x = set(['Abacate', 'Ameixa'])
print(x in s)
print(x.issubset(s))

In [None]:
c = set(['Caju', 'Caja', 'Caqui', 'Carambola', 'Cereja', 'Coco', 'Cupuaçu'])
b = set(['Caju', 'Caja', 'Banana', 'Carambola', 'Ameixa', 'Acerola', 'Cupuaçu'])
b.intersection(c)

In [None]:
b.union(x)

In [None]:
b.symmetric_difference(c)

2:00

#### 12) Entrada de Dados via terminal

In [None]:
valor = input('Insira seu texto aqui: ')
print ('O valor inserido foi: ' + valor)

#### 13) Estruturas de Controle de Fluxo

###### Estruturas de condição

In [None]:
ano = int(input())

if ((ano%4==0) and (ano%100!=0) or (ano%400==0)):
    print("Ano Bissexto")
else:
    print("Não é um ano Bissexto!")
    

In [None]:
erro = float(input())
if (erro >= 0.8):
    print('Modelo selecionado.')
elif (erro > 0.5 and erro < 0.8):
    print('Modelo precisa de ajustes.')
else:
    print('Modelo não poderá ser utilizado')

In [None]:
# Discretizando valores
valor = int(input())
if (valor <= 1000):
    print('Ruim')
elif (valor >1000 and valor<=2000):
    print('Regular')
elif (valor >2000 and valor<=3000):
    print('Bom')
elif (valor >3000 and valor<=4000):
    print('Muito bom')
else:
    print('Excelente')

In [None]:
peso = float(input('Insira seu peso:'))
altura = float(input('Insira sua altura:'))

# Cálculo do índice de massa corpórea (IMC)
IMC = peso / (altura**2)

print("\n")

# Categorização
if(IMC < 18.5):
    print('abaixo do peso')
elif (IMC >= 18.5 and IMC < 25):
    print('peso saudável')
elif (IMC >= 25 and IMC < 30):
    print('sobrepeso')
elif (IMC >= 30 and IMC < 40):
    print('obeso')
elif (IMC >= 40):
    print('muito obeso')

Não há **switch ... case** em python. A implementação pode ser feita com **if...elif...else**.

#### For Loops

In [None]:
valores = [10030, 100,4636,4545,2331,1500]
categorias = []
for valor in valores:
    # Selecionar categoria
    if (valor < 1000):
        categoria = 'Ruim'
    elif (valor >1000 and valor<2000):
        categoria = 'Regular'
    elif (valor >2000 and valor<3000):
        categoria = 'Bom'
    elif (valor >3000 and valor<4000):
        categoria = 'Muito bom'
    else:
        categoria = 'Excelente'
    
    categorias.append(categoria)
    
print(categorias)

In [None]:
a = range(10)
print(list(a))

a = range(0, 10, 2)
print(list(a))

a = range(10, 5, -1)
print(list(a))

In [None]:
for i in range(10):
    print(i, end=' ')

In [None]:
for i in range(10):
    if(i==5):
        break
    print(i, end=' ')


In [None]:
for i in range(10):
    if(i==5):
        continue
    print(i, end=' ')

In [None]:
for i in range(10):
    for j in range(5):
        print(str(i) + '.' + str(j), end=' , ')
    

#### While Loops

In [None]:
import random
import math
a  = math.ceil(random.random() * 100)

while (a < 70):
    print(a)
    a  = math.ceil(random.random() * 100)
print(a)

In [None]:
a = 1
while (a<10):
    print(a, end=' ')
    a+=1

In [None]:
valores = [10030, 100,4636,4545,2331,1500]
categorias = []
i = 0

while i in range(len(valores)):
    valor = valores[i]
    # Selecionar categoria
    if (valor < 1000):
        categoria = 'Ruim'
    elif (valor >1000 and valor<2000):
        categoria = 'Regular'
    elif (valor >2000 and valor<3000):
        categoria = 'Bom'
    elif (valor >3000 and valor<4000):
        categoria = 'Muito bom'
    else:
        categoria = 'Excelente'
    i+=1
    categorias.append(categoria)
    
print(categorias)

###### List Comprehension

In [None]:
numeros = range(100)
x = [x**2 for x in numeros]
print(x)

In [None]:
numeros = range(100)
x = [x**2 for x in numeros if (x%4) != 0]
print(x)

In [None]:
stopwords = ['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'uma', 'para', 'é', 'como', 'não']
texto = "Python é uma linguagem de programação de alto nível,[4] interpretada, de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi lançada por Guido van Rossum em 1991.[1] Atualmente possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation. Apesar de várias partes da linguagem possuírem padrões e especificações formais, a linguagem como um todo não é formalmente especificada. O padrão de facto é a implementação CPython."

tokens = texto.split(" ")
termos_sem_stopwords = [token.lower() for token in tokens if token not in stopwords]
print(termos_sem_stopwords)

02:30

#### 14) Manipulação de Arquivos

###### Criando um arquivo

In [None]:
# Abrimos o arquivo para escrita
lista_de_compras = open('lista.txt', 'w')
# Escrevemos o conteúdo
lista_de_compras.write('2kg de batatas\n')
lista_de_compras.write('1 kg de tomates\n')
lista_de_compras.write('1 kg de cebola\n')
lista_de_compras.write('coentro\n')
lista_de_compras.write('alface\n')
lista_de_compras.write('cheiro-verde\n')
lista_de_compras.write('1kg de acém moído\n')
# Fechamos o arquivo
lista_de_compras.close()

##### Abrindo um arquivo

In [None]:
filmes_arquivo = open('IMDB-Movie-Data.csv')
filmes = filmes_arquivo.read()
print(filmes)
filmes_arquivos.close()

In [None]:
filmes_arquivo = open('IMDB-Movie-Data.csv', encoding='utf-8')

line_counter = 0
# Lendo as cinco primeiras linhas do arquivo
for line in filmes_arquivo:
    print(line)
    
    line_counter+=1
    
    if line_counter==5:
        break

filmes_arquivo.close()

In [None]:
filmes_arquivo = open('IMDB-Movie-Data.csv', encoding='utf-8')

line_counter = 0
for line in filmes_arquivo:
    splitted_line = line.split(',')
    print(splitted_line[1] + ',' + splitted_line[-4])
    
    line_counter+=1
    if line_counter==5:
        break
        
filmes_arquivo.close()

Como estamos em um curso de Python para Ciência de Dados, vamos explorar alguns formatos que podemos encontrar:

###### CSV

In [None]:
import csv

filmes_arquivo = open('IMDB-Movie-Data.csv', encoding='utf-8')
csv_reader = csv.reader(filmes_arquivo, delimiter=',', quotechar='"')

i=0
for row in csv_reader:
    print(row[1] + ':  ' + row[3] +'\n')
    i+=1
    if i==5:
        break


###### XML

In [None]:
from lxml import etree

filmes_arquivo = open('IMDB-Movie-Data.xml', encoding='utf-8')
root = etree.fromstring(filmes_arquivo.read())

i=0
for movie in root.getchildren():
    movie_attributes = movie.getchildren()
    
    line_content = []
    for movie_attribute in movie_attributes:
        line_content.append(movie_attribute.text)
        
    print(', '.join(line_content) + '\n')
    i+=1
    if i==5:
        break

###### JSON

In [None]:
import json

filmes_arquivo = open('IMDB-Movie-Data.json', encoding='utf-8')
conteudo = filmes_arquivo.read()
filmes = json.loads(conteudo)

i=0
for filme in filmes:
    dados = list(filme.values())
    print(dados)
    
    i+=1
    if i==5:
        break
    

3:00

##### 15) Funções

In [None]:
import math

def entropia(qtd_classe_1, qtd_classe_2):

    p1 = qtd_classe_1 / (qtd_classe_1 + qtd_classe_2)
    p2 = qtd_classe_2 / (qtd_classe_1 + qtd_classe_2)
    
    return (-1) * p1 * math.log(p1, 2) + (-1) * p2 * math.log(p2, 2)

entropia(15, 27)

In [None]:
def media(valores):
    return sum(valores)/len(valores)

def variancia(valores):
    media_valores = media(valores)
    
    soma = 0.0
    for valor in valores:
        soma += (valor - media_valores)**2
    return soma/len(valores)

variancia([3,5,7,1,4,10, 10, 10])


##### Referências

In [None]:
a = [3, 4, 5]
def altera_valor(a):
    a[0] += 5

altera_valor(a)
print(a)

In [None]:
a = [3, 4, 5]
def altera_valor(a):
    a[0] += 5

altera_valor(a.copy())
print(a)

###### Generators

In [None]:
def fibonacci():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b
        
valor = fibonacci()

for i in range(5):
    print(next(valor), end=", ")


##### Lambda

In [None]:
x = lambda a: a + 5
x(5)

In [None]:
x = lambda a, b: a * b
x(2,3)

In [None]:
def multiplication(n):
    return lambda a : a * n

doubler = multiplication(2)
tripler = multiplication(3)

print(doubler(4))
print(doubler(3))
print(tripler(5))

In [None]:
notas_filmes = [filme['Rating'] for filme in filmes]
avaliacao = lambda x : 'Bom' if (notas_filmes[x] > 7.0) else 'Ruim'
print(filmes[6]['Title'] + ' recebeu a avaliação: ' + avaliacao(4))

In [None]:
lista_ano = [2001, 2005, 2007, 2018,2019,1997, 1993, 1995]
lista_filtrada = filter(lambda x : x > 2007, lista_ano)
print(list(lista_filtrada))


In [None]:
lista_filtrada = filter(lambda x : x % 2==0 , lista_ano )
list(lista_filtrada)

In [None]:
nova_lista = map(lambda x: x **2, [1,2,3,4,5,6])
print(list(nova_lista))

In [None]:
def multiply(x):
    return (x*x)
def add(x):
    return (x+x)

funcs = [multiply, add]
for i in range(5):
    value = list(map(lambda x: x(i), funcs))
    print(value)

In [None]:
from functools import reduce
x = reduce(lambda x, y: x * y, [1,2,3,4,5,6])
print(x)

4:00

##### 16) Classes

In [None]:
import random
class Cao:

    def __init__(self, nome):
        self.nome = nome
        self.truques = []

    def adicionar_truque(self, trick):
        self.truques.append(trick)
        
    def realizar_truque(self):
        return print(self.nome + ' acabou de ' + random.choice(self.truques))

axuxu = Cao('Axuxu')
axuxu.adicionar_truque('sentar')
axuxu.adicionar_truque('deitar')
axuxu.adicionar_truque('rolar')
axuxu.adicionar_truque('morder')

axuxu.realizar_truque()


#### 17) Herança

In [None]:
# -*- coding: utf-8 -*-
class CaoDeCaça(Cao):
    
    def __init__(self, nome):
        super(CaoDeCaça, self).__init__(nome)
        self.truques+=['caçar']
    

In [None]:
axuxu.realizar_truque()
ni = CaoDeCaça('ni')
ni.realizar_truque()
ni.adicionar_truque('sentar')
ni.realizar_truque()

In [None]:
class CaoFarejador(Cao):
    def __init__(self, nome):
        super(CaoFarejador, self).__init__(nome)
        self.truques+=['farejar']
        
    def latir(self):
        print(self.nome + ' faz AU AU AU!')

rex = CaoFarejador('Rex')
rex.realizar_truque()
rex.latir()

5:00

#### 18) Tratamento de Exceções

In [None]:
result = 1/0

In [None]:
try:
    result = 1/0
except:
    print('Opa! Exceção capturada, por favor, verifique o código')

In [None]:
try:
    result = 1/0
except:
    print('Opa! Exceção capturada, por favor, verifique o código')
else:
    print('Nenhuma exceção!')

In [None]:
try:
    result = 1/2
except:
    print('Opa! Exceção capturada, por favor, verifique o código')
else:
    print('Nenhuma exceção! Pode seguir tranquilamente.')

In [None]:
try:
    result = 1/0
except:
    print('Opa! Exceção capturada, por favor, verifique o código')
else:
    print('Nenhuma exceção! Pode seguir tranquilamente.')
finally:
    print('Este trecho precisa ser executado não importa o que aconteça.')

In [None]:
num = 14
if num > 10:
    raise Exception('O valor de x não pode ser maior do que 10: valor encontrado {}'.format(x))
print('execução normal')

#### 19) Decorators

In [None]:
import time

def terminal_log(func):
    
    def funcao_interna(*args, **kwargs):
        print('Iniciando execução da função ' + func.__name__)
        start = time.time()
        resultado = func(*args, **kwargs)
        end = time.time()
        print('A função ' + func.__name__ +' retornou ' + str(resultado) + ' e levou ' + str(end - start) + ' segundos')
        
    return funcao_interna



@terminal_log
def soma(a, b):
    time.sleep(2)
    return a + b

@terminal_log
def mult(a,b):
    time.sleep(1)
    return a + b
    
    
soma(3,5)
mult(3,4)
        

6:00

#### 20) Exercícios

* https://wiki.python.org.br/ListaDeExercicios
* http://www-di.inf.puc-rio.br/~milidiu/inf1025/exercicios/Lista12_INF1025.pdf


#### 21) Materiais

* https://python.ime.usp.br/pensepy/static/pensepy/index.html
* https://python-guide-pt-br.readthedocs.io/pt_BR/latest/intro/learning.html
* https://www.caelum.com.br/apostila-python-orientacao-objetos/


#### 22) Próxima aula

* Análise de dados usando Python: Numpy e Pandas