# Data Science
Tem como objetivo fazer inferências a partir de dados que podem ou não ser estruturados, utilizando métodos cientificos e diferentes competências.

## Tecnologia
### Banco de Dados
- SQL
- MongoDB
- Cassandra
- Hadoop

### Linguagens de Programação
- R
- Julia
- Java
- Matlab
- Python


# Python
## O que é Python?
Python é uma linguagem interpretada de programação de propósito geral, open source, orientada a objeto de alto nível.

## Por que Python?
- Sintaxe simples focada em legibilidade, facilitando a manutenabilidade de código e acelera o processo de desenvolvimento
- Comunidade ativa com muitos pacotes prontos focados em Data Science
- Extensível em C++ e C

## Exemplo de código em C
~~~~C
int i, j;
int a[10];

for (i = 0; i < 10; i++) {
    a[i] = i * 2;
}

for (j = 0; j < 10; j++ ) {
  printf("a[%d] = %d\n", j, a[j]);
}
~~~~

In [135]:
# Exemplo de código em Python
a = []

for i in range(10):
    a.append(i * 2)
    
print(a)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


In [136]:
a = [i * 2 for i in range(10)]

print(a)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


### Recursos
Para aprender mais sobre python

[learnpython.org]()

[Code Academy](https://www.codecademy.com/learn/learn-python)


# NumPy
## O que é NumPy?
É uma biblioteca/pacote em *Python* que fornece objetos de *arrays* multidimensionais.

## Por que NumPy?
- Implementações em C compiladas, isto é, muito mais rápido
- Sintaxe simples para trabalhar com operações com vetor e matriz
- Múltiplos pacotes científicos e matemáticos utilizando NumPy

In [137]:
# Soma de vetores com list
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]

c = a + b
print(c)

[1, 2, 3, 4, 5, 6, 7, 8]


In [138]:
c = []
for i in range(len(a)):
    c.append(a[i] + b[i])
    
print(c)

[6, 8, 10, 12]


In [5]:
import numpy as np

In [6]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("a =", a)
print("b =", b)

a = [1 2 3 4]
b = [5 6 7 8]


In [7]:
c = a + b
print("c =", c)

c = [ 6  8 10 12]


In [8]:
# Multiplicação por escalar
a = [1, 2, 3, 4]

b = 5 * a

print(b)

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]


In [9]:
b = [val * 5 for val in a]

print(b)

[5, 10, 15, 20]


In [10]:
a = np.array([1, 2, 3, 4])
b = a * 5

print(b)

[ 5 10 15 20]


In [11]:
# Cálculo com Matrizes
# Soma de matrizes
A = [[1, 2, 3],
     [4, 5, 6]]

B = [[7,  8,  9],
     [10, 11, 12]]

C = []
for i in range(len(A)):
    C.append([])
    for j in range(len(A[i])):
        C[i].append(A[i][j] + B[i][j])
        
C


[[8, 10, 12], [14, 16, 18]]

In [12]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])

B = np.array([[7,  8,  9],
              [10, 11, 12]])

C = A + B

C

array([[ 8, 10, 12],
       [14, 16, 18]])

In [13]:
# Transposta
A = [[1, 2, 3],
     [4, 5, 6]]

lines = len(A)
rows = len(A[1])

AT = [[] for row in range(rows)]

print(AT)

[[], [], []]


In [14]:
for i in range(lines):
    for j in range(rows):
        AT[j].append(A[i][j])

print(AT)

[[1, 4], [2, 5], [3, 6]]


In [15]:
A = [[1, 2, 3],
     [4, 5, 6]]

list(map(list, zip(*A)))

[[1, 4], [2, 5], [3, 6]]

In [16]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])

print(A.T)

[[1 4]
 [2 5]
 [3 6]]


In [18]:
# Multiplicação de Matrizes
A = [[1, 4],
     [2, 5],
     [3, 6]]

B = [[7,  8,  9],
     [10, 11, 12]]

C = []

for i in range(len(A)):
    C.append([])
    for j in range(len(B[0])):
        C[i].append(0)
C

[[0, 0, 0], [0, 0, 0], [0, 0, 0]]

In [19]:
for i in range(len(C)):
    for j in range(len(C[i])):
        c = 0
        for k in range(len(A[i])):
            c += A[i][k] * B[k][j]
        C[i][j] = c

C

[[47, 52, 57], [64, 71, 78], [81, 90, 99]]

In [155]:
A = np.array([[1, 4],
              [2, 5],
              [3, 6]])

B = np.array([[7,  8,  9],
              [10, 11, 12]])

C = np.dot(A, B)

C

array([[47, 52, 57],
       [64, 71, 78],
       [81, 90, 99]])

In [20]:
# Outros operadores
# Dado um array de notas quem passou?

notas = np.array([4.8, 6, 4.75, 7, 2, 4, 2.5, 4.95, 3.2, 7, 5, 9])

notas >= 5

array([False,  True, False,  True, False, False, False, False, False,
        True,  True,  True])

In [21]:
# Quantos alunos passaram?
notas[notas >= 5]

array([6., 7., 7., 5., 9.])

In [22]:
len(notas[notas >= 5])

5

In [23]:
# Considerando arrendondamento de notas
np.logical_and(notas >= 4.8, notas < 5)

array([ True, False, False, False, False, False, False,  True, False,
       False, False, False])

In [24]:
notas[np.logical_and(notas >= 4.8, notas < 5)]

array([4.8 , 4.95])

In [161]:
notas[np.logical_and(notas >= 4.8, notas < 5)] = 5

notas

array([5.  , 6.  , 4.75, 7.  , 2.  , 4.  , 2.5 , 5.  , 3.2 , 7.  , 5.  ,
       9.  ])

In [25]:
# Quantos alunos passaram?
len(notas[notas >= 5])

5