<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Aula_Semana_02_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Programação para Ciência de Dados com Python**

A linguagem de programação Python emergiu como uma ferramenta indispensável no campo da Ciência de Dados, impulsionada por sua sintaxe clara, vasta biblioteca e comunidade ativa. Este texto técnico visa fornecer uma visão concisa da sintaxe básica do Python e suas principais bibliotecas: NumPy e Pandas, essenciais para manipulação e análise de dados.

## **Sintaxe Básica do Python**

Se destaca por sua legibilidade e sintaxe concisa, facilitando o aprendizado e desenvolvimento. Alguns conceitos fundamentais incluem:

- **Tipos de Dados:** Python suporta int, float, str, bool; tipagem dinâmica permite trocar tipos em execução.









In [21]:
x = 10
print(type(x))  # <class 'int'>

x = 3.14
print(type(x))  # <class 'float'>

x = "Olá"
print(type(x))  # <class 'str'>

x = True
print(type(x))  # <class 'bool'>

<class 'int'>
<class 'float'>
<class 'str'>
<class 'bool'>


- **Estruturas de Dados:** Listas, tuplas, dicionários e conjuntos trazem flexibilidade para armazenar e organizar dados.









In [22]:
# Lista
frutas = ["maçã", "banana", "laranja"]
frutas.append("uva")
print(frutas)  # ["maçã", "banana", "laranja", "uva"]

# Tupla
cores = ("vermelho", "verde", "azul")
print(cores[0])  # "vermelho"

# Dicionário
aluno = {
    "nome": "Ana",
    "idade": 22,
    "curso": "Engenharia"
}
print(aluno["nome"])  # "Ana"

# Conjunto
numeros = {1, 2, 3, 2, 1}
print(numeros)  # {1, 2, 3}

['maçã', 'banana', 'laranja', 'uva']
vermelho
Ana
{1, 2, 3}


- **Controle de Fluxo:** Declarações condicionais (if, elif, else) e loops (for, while) permitem controlar o fluxo de execução do programa.

In [23]:
# if, elif, else
idade = 18
if idade < 18:
    print("Menor de idade")
elif idade == 18:
    print("Exatamente 18 anos")
else:
    print("Maior de idade")

# for
for i in range(3):
    print(i)  # 0, 1, 2

# while
contador = 0
while contador < 3:
    print(contador)  # 0, 1, 2
    contador += 1

Exatamente 18 anos
0
1
2
0
1
2


- **Funções:** Funções permitem encapsular blocos de código para reutilização, promovendo modularidade e organização.

In [24]:
def saudar(nome):
    print(f"Olá, {nome}!")

saudar("Ana")  # Chamada da função

def somar(a, b):
    return a + b

resultado = somar(3, 4)
print("Resultado da soma:", resultado)

Olá, Ana!
Resultado da soma: 7


## **[NumPy]((https://numpy.org/)) (Numerical Python)**

É uma biblioteca fundamental para computação científica em Python. Ela fornece suporte para arrays multidimensionais, além de diversas funções matemáticas otimizadas para trabalhar com esses arrays de forma eficiente.



### **O que são Arrays NumPy?**


Arrays NumPy, ou ndarrays, são estruturas de dados homogêneas que armazenam elementos do mesmo tipo. Eles oferecem vantagens significativas em relação às listas Python tradicionais, como:

- Desempenho superior: Operações matemáticas em arrays NumPy são realizadas de forma mais rápida e eficiente.
- Menor consumo de memória: Arrays NumPy armazenam os dados de forma mais compacta.
- Facilidade de uso: NumPy oferece diversas funções para manipulação e cálculo com arrays.

### **Criando Arrays NumPy**

Existem diversas maneiras de criar arrays NumPy:

- **A partir de listas Python:** Converta listas comuns em arrays NumPy usando `np.array()`. Isso permite aproveitar a eficiência e a flexibilidade de processamento oferecidas pelos arrays NumPy.


In [25]:
import numpy as np

lista = [1, 2, 3, 4, 5]
array = np.array(lista)
print(array)  # Output: [1 2 3 4 5]

[1 2 3 4 5]


- **Com valores iniciais:** Inicialize arrays já preenchidos com zeros, uns ou valores aleatórios. Útil para criar vetores ou matrizes iniciais antes de aplicar transformações ou cálculos.

In [26]:
# Array com 5 zeros
array_zeros = np.zeros(5)
print("array_zeros:", array_zeros)

# Array 2x3 com uns
array_ones = np.ones((2, 3))
print("array_ones:\n", array_ones)

# Array com 4 números aleatórios entre 0 e 1
array_random = np.random.rand(4)
print("array_random:", array_random)

array_zeros: [0. 0. 0. 0. 0.]
array_ones:
 [[1. 1. 1.]
 [1. 1. 1.]]
array_random: [0.81972534 0.62729788 0.54350777 0.0462277 ]


- **Com sequências numéricas:** Utilize funções como `np.arange()` e `np.linspace()` para gerar sequências de números com intervalos ou espaços definidos, facilitando a criação de séries matemáticas e varreduras de parâmetros.

In [27]:
# Array com valores de 0 a 9, pulando de 2 em 2
array_arange = np.arange(0, 10, 2)
print("array_arange:", array_arange)

# Array com 5 valores igualmente espaçados entre 0 e 1
array_linspace = np.linspace(0, 1, 5)
print("array_linspace:", array_linspace)

array_arange: [0 2 4 6 8]
array_linspace: [0.   0.25 0.5  0.75 1.  ]


### **Atributos de Arrays NumPy**

Arrays NumPy possuem diversos atributos que fornecem informações sobre sua estrutura e conteúdo:

- `ndim`: Número de dimensões do array.
- `shape`: Dimensões do array (tupla com o tamanho de cada dimensão).
- `size`: Número total de elementos do array.
- `dtype`: Tipo de dados dos elementos do array.

In [28]:
# Cria um array 2D (matriz) com 2 linhas e 3 colunas
matriz = np.array([[1, 2, 3],
                   [4, 5, 6]])

print("ndim:", matriz.ndim)    # Número de dimensões do array (2)
print("shape:", matriz.shape)  # Tupla com as dimensões (2, 3)
print("size:", matriz.size)    # Número total de elementos (6)
print("dtype:", matriz.dtype)  # Tipo dos elementos (int32, int64, etc.)

ndim: 2
shape: (2, 3)
size: 6
dtype: int64


### **Indexação e Slicing de Arrays NumPy**


A indexação e o slicing de arrays NumPy são semelhantes aos de listas Python, com algumas extensões para arrays multidimensionais:

In [29]:
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(array[0, 1])  # Output: 2 (elemento na linha 0, coluna 1)
print(array[:, 2])  # Output: [3 6 9] (todos os elementos da coluna 2)
print(array[1:, 1:])  # Output: [[5 6], [8 9]] (submatriz a partir da linha 1, coluna 1)

2
[3 6 9]
[[5 6]
 [8 9]]


### **Operações Matemáticas com Arrays NumPy**

NumPy permite realizar operações matemáticas em arrays de forma eficiente:

- **Operações elemento a elemento:** Arrays NumPy permitem realizar operações diretamente em cada posição, como soma e multiplicação, sem a necessidade de loops explícitos.

In [30]:
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

print(array1 + array2)  # Output: [5 7 9]
print(array1 * array2)  # Output: [4 10 18]

[5 7 9]
[ 4 10 18]


- **Funções matemáticas:** NumPy oferece funções prontas, como sum, mean e max, para operações comuns de estatística e agregação sobre os elementos do array.

In [31]:
array = np.array([1, 2, 3, 4, 5])

print(np.sum(array))   # 15  (soma dos elementos)
print(np.mean(array))  # 3.0 (média dos elementos)
print(np.max(array))   # 5   (valor máximo)

15
3.0
5


### **Funções Úteis do NumPy**

- `reshape()`: Altera o formato de um array, mantendo a mesma quantidade de elementos. É especialmente útil para reestruturar dados sem precisar criar um novo array.


In [32]:
# Criando um array 1D com 6 elementos
array = np.array([1, 2, 3, 4, 5, 6])
print("Array original:", array)

# Transformando em um array 2D de formato (2, 3)
array_reshaped = array.reshape(2, 3)
print("Array reshape(2, 3):\n", array_reshaped)

Array original: [1 2 3 4 5 6]
Array reshape(2, 3):
 [[1 2 3]
 [4 5 6]]


- `transpose()`: Transpõe um array, invertendo linhas e colunas em arrays 2D. Para arrays de mais dimensões, retorna uma nova vista com os eixos invertidos.

In [33]:
# Matriz 2D (2 linhas, 3 colunas)
matriz = np.array([[1, 2, 3],
                   [4, 5, 6]])
print("Matriz original:\n", matriz)

# Transpondo a matriz (3 linhas, 2 colunas)
matriz_transposta = matriz.transpose()
# Equivalente: matriz.T
print("Matriz transposta:\n", matriz_transposta)


Matriz original:
 [[1 2 3]
 [4 5 6]]
Matriz transposta:
 [[1 4]
 [2 5]
 [3 6]]


- `concatenate()`: Concatena (une) dois ou mais arrays ao longo de um eixo. Por padrão, une ao longo do eixo 0 (linhas).

In [34]:
# Arrays 1D
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
concatenado_1d = np.concatenate((a, b))
print("Concatenação 1D:", concatenado_1d)

# Arrays 2D
matriz1 = np.array([[1, 2],
                    [3, 4]])
matriz2 = np.array([[5, 6],
                    [7, 8]])

# Concatena verticalmente (eixo 0)
concatenado_2d = np.concatenate((matriz1, matriz2), axis=0)
print("Concatenação 2D ao longo do eixo 0:\n", concatenado_2d)

Concatenação 1D: [1 2 3 4 5 6]
Concatenação 2D ao longo do eixo 0:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]


- `split()`: Divide um array em subarrays. O parâmetro indica em quantas partes dividir (ou quais índices de corte) e o eixo ao longo do qual a divisão será feita (por padrão, eixo 0).

In [37]:
matriz_2d = np.array([[1, 2, 3],
                      [4, 5, 6],
                      [7, 8, 9]])

# Dividir em 3 partes iguais ao longo do eixo 0
parte1, parte2, parte3 = np.split(matriz_2d, 3, axis=0)
print("Parte 1:\n", parte1)
print("Parte 2:\n", parte2)
print("Parte 3:\n", parte3)

Parte 1:
 [[1 2 3]]
Parte 2:
 [[4 5 6]]
Parte 3:
 [[7 8 9]]


## **Pandas**

[Pandas](https://pandas.pydata.org/) é uma biblioteca essencial para manipulação e análise de dados em Python. Oferece:
- Estruturas de dados de alto desempenho: **Series** (1D) e **DataFrame** (2D).
- Ferramentas para leitura de arquivos (CSV, Excel, SQL, etc.).
- Filtros e transformações de dados simples e eficientes.
- Agregação, merge, joins, limpeza de dados e muito mais.

### **Series e DataFrames**

In [None]:
import pandas as pd

# Criando uma Series
minha_series = pd.Series([10, 20, 30, 40, 50], name="ExemploSeries")
print("Series:\n", minha_series)

# Criando um DataFrame
dados = {
    "ColunaA": [1, 2, 3],
    "ColunaB": ["A", "B", "C"]
}
df = pd.DataFrame(dados)
print("\nDataFrame:\n", df)

# Lendo arquivos CSV (exemplo hipotético)
# df_csv = pd.read_csv("caminho/para/seu_arquivo.csv")

# Informações sobre o DataFrame
print("\nInformações sobre o DataFrame:")
print(df.info())

print("\nDescrição estatística (DataFrame numérico):")
df_numerico = pd.DataFrame({
    "X": [10, 20, 30, 40],
    "Y": [5, 6, 7, 8]
})
print(df_numerico.describe())

### **Manipulação de Dados com Pandas**

Nesta seção, vamos mostrar algumas operações comuns de manipulação de dados, como seleção de colunas, filtragem, criação de colunas e agrupamentos.

In [None]:
# Exemplo de DataFrame para manipulação
dados = {
    "Nome": ["Ana", "Bruno", "Carlos", "Daniela", "Eduarda"],
    "Idade": [23, 35, 45, 29, 37],
    "Salário": [3500, 5000, 6200, 4000, 5200],
    "Departamento": ["RH", "Financeiro", "TI", "TI", "Financeiro"]
}
funcionarios = pd.DataFrame(dados)
print("DataFrame original:\n", funcionarios)

# Selecionando colunas
print("\nSelecionando coluna 'Nome':\n", funcionarios["Nome"])

# Filtrando dados (Idade maior que 30)
print("\nFiltrando por Idade > 30:\n", funcionarios[funcionarios["Idade"] > 30])

# Criando nova coluna (Exemplo: Salário Anual)
funcionarios["Salário Anual"] = funcionarios["Salário"] * 12
print("\nCom nova coluna 'Salário Anual':\n", funcionarios)

# Agrupando dados
agrupado_departamento = funcionarios.groupby("Departamento")["Salário"].mean()
print("\nSalário médio por Departamento:\n", agrupado_departamento)

## **Conclusão**

Neste notebook, você viu:
1. **Sintaxe básica do Python**: como variáveis, condicionais e loops.  
2. **NumPy**: criação e manipulação de arrays para computação científica.  
3. **Pandas**: manipulação de dados com estruturas como Series e DataFrames, além de operações de limpeza, transformação e agregação.

Essas ferramentas são a base para **Ciência de Dados** com Python. A partir desse conhecimento, você poderá explorar bibliotecas mais avançadas como **matplotlib** (visualização), **scikit-learn** (aprendizado de máquina), entre outras.

## **Sugestões de estudo e prática**


- Praticar leituras de arquivos CSV, Excel e SQL para manipular dados reais.
- Explorar funções estatísticas e de limpeza de dados no Pandas, como `dropna`, `fillna`, `merge`, `concat` etc.
- Manipular arrays NumPy para operações matemáticas mais complexas.