# Introdução à Data Science com Python - Data ICMC-USP

Esse material foi desenvolvido pelo Data, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP.

Esse notebook é acompanhado de um curso em video, que pode ser encontrado em [aqui](https://www.youtube.com/playlist?list=PLFE-LjWAAP9SfEuLXf3qrpw4szKWjlYq9)

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!

## Jupyter Notebook e Python

### Jupyter Notebook

Isso daqui é um **Jupyter Notebook** é uma maneira de executar códigos Python (e de algumas outras linguagens) interativamente. Em oposição a um arquivo Python padrão (*.py*), onde o código é executado do começo ao fim, um Jupyter Notebook (*.ipynb*) permite que o programador execute o código em pequenos trechos, observando resultados intermediários.

Além disso o notebooks permitem a inclusão de texto, imagens, videos e formulas matemáticas. Sendo assim ainda melhores para utilização em ciência de dados, permitindo explicar linhas de raciocínio e exibir gráficos.

### Python

Python é um linguagem de programação de propósito geral criada na década de 1990. A primeira coisa que é possível perceber ao se utilizar Python é que o código é bastante limpo e possui uma boa legibilidade. Para programadores que já possuem familiaridades com linguagens como C/C++ ou Java a adaptação ao Python é bem tranquila, e além disso a linguagem é uma excelente alternativa para começar a aprender programação.

É muito importante perceber que esse não é um curso de Python, muito menos de programação. A introdução fornecida nessa aula tem como objetivo apresentar os principais pontos da linguagem, mas é muito recomendado para quem deseja entender de fato o que está acontecendo que estudo Python separadamente também. Nesse curso veremos como aplicar Python no contexto de ciência de dados, então um bom entendimento da linguagem é fundamental.

Agora vamos a uma introdução prática ao Python!

#### Variáveis

In [1]:
# Declarando algumas variaveis (isso é um comentário)
nome = 'Pedro'
idade = 28
altura = 1.75
solteiro = True

In [2]:
# Imprimindo o valor dessas variáveis
print(nome)
print(idade)
print(altura)
print(solteiro)

Pedro
28
1.75
True


In [3]:
# Podemos olhar o tipo das variaveis
print(type(nome))
print(type(idade))
print(type(altura))
print(type(solteiro))

<class 'str'>
<class 'int'>
<class 'float'>
<class 'bool'>


#### Operações

In [4]:
# Temos todas as operações aritméticas populares
a = idade + 10
b = altura - 5
c = altura * 2
d = idade / 3

print(idade)
print('Soma 10:', a)
print('Subtrai 5:', b)
print('Multiplica por 2:', c)
print('Divide por 3:', d)

28
Soma 10: 38
Subtrai 5: -3.25
Multiplica por 2: 3.5
Divide por 3: 9.333333333333334


In [5]:
# Também pode-se destacar operações de módulo (resto da divisão)
# e de divisão inteira

e = idade % 10 # Modulo
f = idade // 3 # Div. inteira

print('Modulo 10:', e)
print('Divisão inteira por 3:', f)

Modulo 10: 8
Divisão inteira por 3: 9


Podemos realizar operações na própria variavel de maneira simplificada

In [6]:
var = 10
print(var)

var += 5 # var = var + 5
print(var)

10
15


In [7]:
# Isso não existe em Python
var++

SyntaxError: invalid syntax (<ipython-input-7-8934bf02f07a>, line 2)

In [8]:
print(var)

15


Um conceito diferente é o de operações aritméticas com dados que não são números

In [9]:
# "Soma" de strings funciona como a concatenação
'a' + 'b'

'ab'

In [10]:
# Por exemplo:
sobrenome = 'Silva'
nome_completo = nome + ' ' + sobrenome
print(nome_completo)

Pedro Silva


In [11]:
# Também podemos fazer "multiplicação" com strings
'a' * 10 

'aaaaaaaaaa'

É importante perceber que não temos "subtração" nem "divisão".

#### Listas
Muitas vezes estaremos trabalhando com listas de valores

In [15]:
# Utilizamos [] para definir listas
lucro_por_mes = [100, 110, 200, 140]

lucro_por_mes



[100, 110, 200, 140]

In [16]:
type(lucro_por_mes)

list

In [17]:
# Com a função len() podemos ver o tamanho da lista
len(lucro_por_mes)

4

In [18]:
# Podemos inserir elementos em listas com .append()
lucro_por_mes.append(90)

lucro_por_mes

[100, 110, 200, 140, 90]

In [19]:
# Também podemos concatenar duas listas
lucro_por_mes = lucro_por_mes + [100, 80, 250]

lucro_por_mes

[100, 110, 200, 140, 90, 100, 80, 250]

Uma coisa muito importante em listas é acessar seus elementos, o que pode ser feito um a um ou por pedaços da lista

In [20]:
# A indexação é feita com [] e começa no indice 0
lucro_terceiro_mes = lucro_por_mes[2]

lucro_terceiro_mes

200

In [21]:
# Também podemos retornar um intervalo da lista usando :
# Só é importante perceber que o intervalo é aberto na direita
lucro_terceiro_ao_sexto = lucro_por_mes[2:6]

lucro_terceiro_ao_sexto

[200, 140, 90, 100]

In [22]:
# Indices negativos significam indexar de trás para frente
ultimo_lucro = lucro_por_mes[-1]

ultimo_lucro

250

Listas podem conter qualquer tipo de dados, inclusive misturando tipos diferentes em uma mesma lista

In [23]:
# Uma lista de strings
filmes = ['Star Wars', 'Frances Ha', 'O Rei Leão']
print(filmes)

# Uma lista misturado vários tipos de dados
minha_lista = [3.1415, 'Vinte', 42, True]
print(minha_lista)

['Star Wars', 'Frances Ha', 'O Rei Leão']
[3.1415, 'Vinte', 42, True]


Podemos inclusive fazer um lista de listas

In [24]:
# Uma lista de listas
gastos = [[10, 22, 13], [11, 50], [32, 21, 48]]
print(gastos)

[[10, 22, 13], [11, 50], [32, 21, 48]]


In [28]:
# Para acessar usamos [] duas vezes
gastos[1][0] # imprimir item 0 da lista 1

11

#### Tuplas

São muito semelhantes a listas, porem são imutáveis. São definidas com `()`

In [29]:
# Criando uma tupla
minha_tupla = (70, 84, 10, 12)

print(minha_tupla)
print(minha_tupla[2])
print(minha_tupla[1:3])

(70, 84, 10, 12)
10
(84, 10)


In [30]:
# Não podemos alterar valores
minha_tupla[0] = 50

TypeError: 'tuple' object does not support item assignment

#### Estruturas condicionais
As estruturas condicionais do Python tem estrutura similar a outras linguagens de programação. O detalhe mais importante é que a definição dos blocos de código é através da identação, enquanto outras linguens usam simbolos como {}.

In [31]:
# Definindo uma variavel que vamos usar
meu_numero = 42

if meu_numero < 50:
    print('Menor que 50')
else:
    print('Maior que 50')

Menor que 50


In [32]:
meu_numero = 50

# Assim como em outras linguagens temos elif
if meu_numero < 50:
    print('Menor que 50')
elif meu_numero > 50:
    print('Maior que 50')
else:
    print('Exatamente 50')

Exatamente 50


#### Estruturas de repetição
Assim com outra linguagens o Python possui as estruturas de repetição `for` e `while`. É importante perceber que o _for_ do Python é um *for each*, conceito presente em outras linguagens de programação. Lembre-se da identação

In [33]:
# Definindo uma lista
minha_lista = [3, 5, 7, 4, 9]

# Vamos fazer um laço que imprima cada elemento da nossa lista
for num in minha_lista:
    print(num)

3
5
7
4
9


In [34]:
# Vamos fazer algo mais interessante
total = 0
for lucro in lucro_por_mes:
    total += lucro
    
num_meses = len(lucro_por_mes)
media = total/num_meses
media

133.75

Em algumas situações queremos um laço que itere por uma variável com valores 0, 1, 2, 3, ... Podemos fazer isso utilizando o método `range()`

In [35]:
# Perceba que aqui o intervalo da direita também é aberto
for i in range(8):
    print(i, 2*i)

0 0
1 2
2 4
3 6
4 8
5 10
6 12
7 14


In [38]:
# Pode começar de um valor diferente de 0
for i in range(2, 9):
    print(i, 2*i)

2 4
3 6
4 8
5 10
6 12
7 14
8 16


In [39]:
# Pode inclusive dar passos diferentes de 1
for i in range(2, 9, 2):
    print(i, 2*i)

2 4
4 8
6 12
8 16


#### Dicionários
Dicionário é uma estrutura de dados utilizada para armazenar informações do tipo chave-valor. Ele é definido com `{}` e seus elementos são acessados com `[]`

In [40]:
# Definindo um dicionário vazio
idades = {}

# Acrescentando dados
idades['Maria'] = 23
idades['João'] = 34
idades['Jose'] = 28

# Acessando um elemento através da chave e imprimindo o valor armazenado
print(idades['Maria'])

23


In [43]:
# Também podemos criar um dicionário já adicionando valores
idades = {
    'Maria': 23,
    'João': 34,
    'José': 28,
}

idades['João']

34

Algumas funções uteis para manipular dicionarios

In [44]:
# Assim como listas len() retorna o tamanho
print(len(idades))

3


In [45]:
# Podemos conferir se um valor com uma certa chave já existe no dicionário
print('Maria' in idades)
print('Joana' in idades)

True
False


#### Funções
Assim como em outras linguagens podemos definir funções em Python, isso é feito através da palavra-chave `def`

In [46]:
# Definindo uma função simples
def imprime_dobro(num):
    print(num * 2)

In [47]:
imprime_dobro(4)
imprime_dobro(5)

8
10


In [48]:
# Vamos definir uma função um pouco mais complexa
def soma_lista(lista):
    total = 0
    for num in lista:
        total += num
    return total

In [49]:
soma_lista([2, 4, 5])

11

In [50]:
# Funções podem retornar mais de um valor
def soma_e_multiplica(a, b):
    soma = a + b
    multi = a * b
    
    return soma, multi

In [51]:
s, m = soma_e_multiplica(3, 2)
print(s, m)

5 6


#### Bibliotecas
Bibliotecas são conjuntos de classes e funções que já estam prontas. Existem bibliotecas nativas do Python e bibliotecas de terceiros, com as mais diversas utilidades

In [57]:
# Funções relacionadas a números aleatórios
import random

# Numero aleatorio no intervalo [10, 20]
print(random.randint(10, 20))

13


In [58]:
# Podemos importar apenas as funções que queremos
from random import randint

print(randint(10, 20))

16


<hr>

O conteúdo básico de Python é esse, recomendamos fortemente que você busque outras fontes de estudo de Python para ter maior facilidade em taferas de ciência de dados. O que foi coberto aqui é bem introdutório, então no decorrer das aulas iremos introduzir alguns conceitos novos conforme surgir a necessidade.