<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Aula_Semana_02_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Programação para Ciência de Dados com Python**

A linguagem de programação Python emergiu como uma ferramenta indispensável no campo da Ciência de Dados, impulsionada por sua sintaxe clara, vasta biblioteca e comunidade ativa. Este texto técnico visa fornecer uma visão concisa da sintaxe básica do Python e suas principais bibliotecas: NumPy e Pandas, essenciais para manipulação e análise de dados.

## **Sintaxe Básica do Python**

Se destaca por sua legibilidade e sintaxe concisa, facilitando o aprendizado e desenvolvimento. Alguns conceitos fundamentais incluem:

- **Tipos de Dados:** Python suporta int, float, str, bool; tipagem dinâmica permite trocar tipos em execução.









In [1]:
x = 10
print(type(x))  # class 'int'

<class 'int'>


In [2]:
x = 3.14
print(type(x))  # class 'float'

<class 'float'>


In [3]:
x = "Olá"
print(type(x))  # class 'str'

<class 'str'>


In [4]:
x = True
print(type(x))  # class 'bool'

<class 'bool'>


- **Estruturas de Dados:** Listas, tuplas, dicionários e conjuntos trazem flexibilidade para armazenar e organizar dados.









In [5]:
# Lista
frutas = ["maçã", "banana", "laranja"]
frutas.append("uva")
print(frutas)  # ["maçã", "banana", "laranja", "uva"]

['maçã', 'banana', 'laranja', 'uva']


In [6]:
# Tupla
cores = ("vermelho", "verde", "azul")
print(cores[0])  # "vermelho"

vermelho


In [7]:
# Dicionário
aluno = {
    "nome": "Ana",
    "idade": 22,
    "curso": "Engenharia"
}
print(aluno["nome"])  # "Ana"

Ana


In [8]:
# Conjunto
numeros = {1, 2, 3, 2, 1}
print(numeros)  # {1, 2, 3}

{1, 2, 3}


- **Controle de Fluxo:** Declarações condicionais (if, elif, else) e loops (for, while) permitem controlar o fluxo de execução do programa.

In [9]:
# if, elif, else
idade = 18
if idade < 18:
    print("Menor de idade")
elif idade == 18:
    print("Exatamente 18 anos")
else:
    print("Maior de idade")

Exatamente 18 anos


In [10]:
# for
for i in range(3):
    print(i)  # 0, 1, 2

0
1
2


In [11]:
# while
contador = 0
while contador < 3:
    print(contador)  # 0, 1, 2
    contador += 1

0
1
2


- **Funções:** Funções permitem encapsular blocos de código para reutilização, promovendo modularidade e organização.

In [12]:
def saudar(nome):
    print(f"Olá, {nome}!")

saudar("Ana")  # Chamada da função

Olá, Ana!


In [13]:
def somar(a, b):
    return a + b

resultado = somar(3, 4)
print("Resultado da soma:", resultado)

Resultado da soma: 7


## **[NumPy]((https://numpy.org/)) (Numerical Python)**

É uma biblioteca fundamental para computação científica em Python. Ela fornece suporte para arrays multidimensionais, além de diversas funções matemáticas otimizadas para trabalhar com esses arrays de forma eficiente.



### **O que são Arrays NumPy?**


Arrays NumPy, ou ndarrays, são estruturas de dados homogêneas que armazenam elementos do mesmo tipo. Eles oferecem vantagens significativas em relação às listas Python tradicionais, como:

- Desempenho superior: Operações matemáticas em arrays NumPy são realizadas de forma mais rápida e eficiente.
- Menor consumo de memória: Arrays NumPy armazenam os dados de forma mais compacta.
- Facilidade de uso: NumPy oferece diversas funções para manipulação e cálculo com arrays.

### **Criando Arrays NumPy**

Existem diversas maneiras de criar arrays NumPy:

- **A partir de listas Python:** Converta listas comuns em arrays NumPy usando `np.array()`. Isso permite aproveitar a eficiência e a flexibilidade de processamento oferecidas pelos arrays NumPy.


In [14]:
import numpy as np

lista = [1, 2, 3, 4, 5]
array = np.array(lista)
print(array)  # Output: [1 2 3 4 5]

[1 2 3 4 5]


- **Com valores iniciais:** Inicialize arrays já preenchidos com zeros, uns ou valores aleatórios. Útil para criar vetores ou matrizes iniciais antes de aplicar transformações ou cálculos.

In [15]:
# Array com 5 zeros
array_zeros = np.zeros(5)
print("array_zeros:", array_zeros)

array_zeros: [0. 0. 0. 0. 0.]


In [16]:
# Array 2x3 com uns
array_ones = np.ones((2, 3))
print("array_ones:\n", array_ones)

array_ones:
 [[1. 1. 1.]
 [1. 1. 1.]]


In [17]:
# Array com 4 números aleatórios entre 0 e 1
array_random = np.random.rand(4)
print("array_random:", array_random)

array_random: [0.76966036 0.97002425 0.1631964  0.7832303 ]


- **Com sequências numéricas:** Utilize funções como `np.arange()` e `np.linspace()` para gerar sequências de números com intervalos ou espaços definidos, facilitando a criação de séries matemáticas e varreduras de parâmetros.

In [18]:
# Array com valores de 0 a 9, pulando de 2 em 2
array_arange = np.arange(0, 10, 2)
print("array_arange:", array_arange)

array_arange: [0 2 4 6 8]


In [19]:
# Array com 5 valores igualmente espaçados entre 0 e 1
array_linspace = np.linspace(0, 1, 5)
print("array_linspace:", array_linspace)

array_linspace: [0.   0.25 0.5  0.75 1.  ]


### **Atributos de Arrays NumPy**

Arrays NumPy possuem diversos atributos que fornecem informações sobre sua estrutura e conteúdo:

- `ndim`: Número de dimensões do array.
- `shape`: Dimensões do array (tupla com o tamanho de cada dimensão).
- `size`: Número total de elementos do array.
- `dtype`: Tipo de dados dos elementos do array.

In [20]:
# Cria um array 2D (matriz) com 2 linhas e 3 colunas
matriz = np.array([[1, 2, 3],
                   [4, 5, 6]])

print("ndim:", matriz.ndim)    # Número de dimensões do array (2)
print("shape:", matriz.shape)  # Tupla com as dimensões (2, 3)
print("size:", matriz.size)    # Número total de elementos (6)
print("dtype:", matriz.dtype)  # Tipo dos elementos (int32, int64, etc.)

ndim: 2
shape: (2, 3)
size: 6
dtype: int64


### **Indexação e Slicing de Arrays NumPy**


A indexação e o slicing de arrays NumPy são semelhantes aos de listas Python, com algumas extensões para arrays multidimensionais:

In [21]:
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(array[0, 1])  # Output: 2 (elemento na linha 0, coluna 1)
print(array[:, 2])  # Output: [3 6 9] (todos os elementos da coluna 2)
print(array[1:, 1:])  # Output: [[5 6], [8 9]] (submatriz a partir da linha 1, coluna 1)

2
[3 6 9]
[[5 6]
 [8 9]]


### **Operações Matemáticas com Arrays NumPy**

NumPy permite realizar operações matemáticas em arrays de forma eficiente:

- **Operações elemento a elemento:** Arrays NumPy permitem realizar operações diretamente em cada posição, como soma e multiplicação, sem a necessidade de loops explícitos.

In [22]:
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

print(array1 + array2)  # Output: [5 7 9]
print(array1 * array2)  # Output: [4 10 18]

[5 7 9]
[ 4 10 18]


- **Funções matemáticas:** NumPy oferece funções prontas, como sum, mean e max, para operações comuns de estatística e agregação sobre os elementos do array.

In [23]:
array = np.array([1, 2, 3, 4, 5])

print(np.sum(array))   # 15  (soma dos elementos)
print(np.mean(array))  # 3.0 (média dos elementos)
print(np.max(array))   # 5   (valor máximo)

15
3.0
5


### **Funções Úteis do NumPy**

- `reshape()`: Altera o formato de um array, mantendo a mesma quantidade de elementos. É especialmente útil para reestruturar dados sem precisar criar um novo array.


In [24]:
# Criando um array 1D com 6 elementos
array = np.array([1, 2, 3, 4, 5, 6])
print("Array original:", array)

Array original: [1 2 3 4 5 6]


In [25]:
# Transformando em um array 2D de formato (2, 3)
array_reshaped = array.reshape(2, 3)
print("Array reshape(2, 3):\n", array_reshaped)

Array reshape(2, 3):
 [[1 2 3]
 [4 5 6]]


- `transpose()`: Transpõe um array, invertendo linhas e colunas em arrays 2D. Para arrays de mais dimensões, retorna uma nova vista com os eixos invertidos.

In [26]:
# Matriz 2D (2 linhas, 3 colunas)
matriz = np.array([[1, 2, 3],
                   [4, 5, 6]])
print("Matriz original:\n", matriz)

Matriz original:
 [[1 2 3]
 [4 5 6]]


In [27]:
# Transpondo a matriz (3 linhas, 2 colunas)
matriz_transposta = matriz.transpose()
# Equivalente: matriz.T
print("Matriz transposta:\n", matriz_transposta)

Matriz transposta:
 [[1 4]
 [2 5]
 [3 6]]


- `concatenate()`: Concatena (une) dois ou mais arrays ao longo de um eixo. Por padrão, une ao longo do eixo 0 (linhas).

In [28]:
# Arrays 1D
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
concatenado_1d = np.concatenate((a, b))
print("Concatenação 1D:", concatenado_1d)

Concatenação 1D: [1 2 3 4 5 6]


In [29]:
# Arrays 2D
matriz1 = np.array([[1, 2],
                    [3, 4]])
matriz2 = np.array([[5, 6],
                    [7, 8]])

# Concatena verticalmente (eixo 0)
concatenado_2d = np.concatenate((matriz1, matriz2), axis=0)
print("Concatenação 2D ao longo do eixo 0:\n", concatenado_2d)

Concatenação 2D ao longo do eixo 0:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]


- `split()`: Divide um array em subarrays. O parâmetro indica em quantas partes dividir (ou quais índices de corte) e o eixo ao longo do qual a divisão será feita (por padrão, eixo 0).

In [30]:
matriz_2d = np.array([[1, 2, 3],
                      [4, 5, 6],
                      [7, 8, 9]])

# Dividir em 3 partes iguais ao longo do eixo 0
parte1, parte2, parte3 = np.split(matriz_2d, 3, axis=0)
print("Parte 1:\n", parte1)
print("Parte 2:\n", parte2)
print("Parte 3:\n", parte3)

Parte 1:
 [[1 2 3]]
Parte 2:
 [[4 5 6]]
Parte 3:
 [[7 8 9]]


## **[Pandas](https://pandas.pydata.org/)**

É uma biblioteca Python essencial para análise e manipulação de dados. Ela oferece estruturas de dados flexíveis e de alto desempenho, projetadas para tornar o trabalho com dados "relacionais" ou "rotulados" intuitivo e eficiente.



### **O que são Series e DataFrames Pandas?**

Pandas introduz duas estruturas de dados principais:

- **Series**: Arrays unidimensionais rotulados, capazes de armazenar qualquer tipo de dado (inteiros, strings, floats, objetos Python, etc.). Pense nelas como colunas de uma tabela.

In [31]:
import pandas as pd

# Criando uma Series a partir de uma lista
s = pd.Series([10, 20, 30, 40, 50])
print(s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [32]:
# Criando uma Series com índices personalizados
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s)

a    10
b    20
c    30
d    40
e    50
dtype: int64


- **DataFrames**: Estruturas de dados tabulares bidimensionais, semelhantes a planilhas ou tabelas SQL. DataFrames são coleções de Series, compartilhando o mesmo índice. Eles são incrivelmente versáteis para representar e manipular dados tabulares.


In [33]:
# Criando um DataFrame a partir de um dicionário
data = {'coluna1': [1, 2, 3, 4],
        'coluna2': ['A', 'B', 'C', 'D'],
        'coluna3': [True, False, True, False]}
df = pd.DataFrame(data)
print(df)

   coluna1 coluna2  coluna3
0        1       A     True
1        2       B    False
2        3       C     True
3        4       D    False


In [34]:
# Criando um DataFrame a partir de uma lista de dicionários
data = [{'coluna1': 1, 'coluna2': 'A', 'coluna3': True},
        {'coluna1': 2, 'coluna2': 'B', 'coluna3': False},
        {'coluna1': 3, 'coluna2': 'C', 'coluna3': True},
        {'coluna1': 4, 'coluna2': 'D', 'coluna3': False}]
df = pd.DataFrame(data)
print(df)

   coluna1 coluna2  coluna3
0        1       A     True
1        2       B    False
2        3       C     True
3        4       D    False


In [35]:
# Criando um DataFrame a partir de um arquivo CSV
# df = pd.read_csv('arquivo.csv')

### **Manipulando DataFrames Pandas**

A seguir, confira as operações básicas para manipulação e análise de dados:

- **Selecionando Colunas:** Podemos selecionar uma única coluna de um DataFrame acessando-a como se fosse uma chave de dicionário. Para selecionar múltiplas colunas, passamos uma lista de nomes de colunas.

In [36]:
# Selecionando uma única coluna
coluna1 = df['coluna1']
print("Coluna 1:\n", coluna1)

Coluna 1:
 0    1
1    2
2    3
3    4
Name: coluna1, dtype: int64


In [37]:
# Selecionando múltiplas colunas
colunas_selecionadas = df[['coluna1', 'coluna2']]
print("\nColunas 1 e 2:\n", colunas_selecionadas)


Colunas 1 e 2:
    coluna1 coluna2
0        1       A
1        2       B
2        3       C
3        4       D


- **Selecionando Linhas (Indexação e Slicing):** Existem várias formas de selecionar linhas de um DataFrame:
 - `loc`: Seleciona linhas baseadas nos rótulos do índice.

 - `iloc`: Seleciona linhas baseadas na posição (índices inteiros).

 - **Slicing**: Funciona de forma semelhante às listas em Python.




In [38]:
# Selecionando linhas com base no índice (rótulos) usando loc
linha_0 = df.loc[0]
print("Linha 0:\n", linha_0)

linhas_0_e_2 = df.loc[[0, 2]]
print("\nLinhas 0 e 2:\n", linhas_0_e_2)

Linha 0:
 coluna1       1
coluna2       A
coluna3    True
Name: 0, dtype: object

Linhas 0 e 2:
    coluna1 coluna2  coluna3
0        1       A     True
2        3       C     True


In [39]:
# Selecionando linhas com base na posição (índices inteiros) usando iloc
linha_1 = df.iloc[1]
print("\nLinha 1:\n", linha_1)

linhas_1_e_3 = df.iloc[[1, 3]]
print("\nLinhas 1 e 3:\n", linhas_1_e_3)


Linha 1:
 coluna1        2
coluna2        B
coluna3    False
Name: 1, dtype: object

Linhas 1 e 3:
    coluna1 coluna2  coluna3
1        2       B    False
3        4       D    False


In [40]:
# Selecionando linhas usando slicing
linhas_0_a_2 = df[0:3]  # Seleciona linhas de 0 a 2 (exclusivo)
print("\nLinhas de 0 a 2:\n", linhas_0_a_2)


Linhas de 0 a 2:
    coluna1 coluna2  coluna3
0        1       A     True
1        2       B    False
2        3       C     True


- **Filtrando dados:** Para filtrar os dados de acordo com uma condição, basta usar expressões lógicas dentro dos colchetes do DataFrame. O resultado será um subconjunto das linhas que satisfazem a condição.

In [41]:
# Filtrando linhas onde a coluna 'coluna1' é maior que 2
df_filtrado = df[df['coluna1'] > 2]
print("\nDataFrame filtrado (coluna1 > 2):\n", df_filtrado)


DataFrame filtrado (coluna1 > 2):
    coluna1 coluna2  coluna3
2        3       C     True
3        4       D    False


In [42]:
# Filtrando linhas onde a coluna 'coluna2' é igual a 'C'
df_filtrado = df[df['coluna2'] == 'C']
print("\nDataFrame filtrado (coluna2 == 'C'):\n", df_filtrado)


DataFrame filtrado (coluna2 == 'C'):
    coluna1 coluna2  coluna3
2        3       C     True


In [43]:
# Filtrando linhas onde a coluna 'coluna3' é True
df_filtrado = df[df['coluna3']]
print("\nDataFrame filtrado (coluna3 == True):\n", df_filtrado)


DataFrame filtrado (coluna3 == True):
    coluna1 coluna2  coluna3
0        1       A     True
2        3       C     True


- **Adicionando/Removendo Colunas:** É simples criar novas colunas, ou remover colunas existentes usando o método `drop()`.

In [44]:
# Criando uma nova coluna chamada 'coluna4' com valores de uma lista
df['coluna4'] = [5, 6, 7, 8]
print("\nDataFrame com nova coluna:\n", df)


DataFrame com nova coluna:
    coluna1 coluna2  coluna3  coluna4
0        1       A     True        5
1        2       B    False        6
2        3       C     True        7
3        4       D    False        8


In [45]:
# Removendo a coluna 'coluna3'
df = df.drop('coluna3', axis=1)
print("\nDataFrame com coluna removida:\n", df)


DataFrame com coluna removida:
    coluna1 coluna2  coluna4
0        1       A        5
1        2       B        6
2        3       C        7
3        4       D        8


- **Agrupando Dados:** A função `groupby()` permite agrupar os dados de acordo com uma ou mais colunas, possibilitando aplicar funções de agregação como `mean()`, `sum()`, entre outras.

In [46]:
# Exemplo de DataFrame
data = {'Nome': ['Ana', 'João', 'Maria', 'Pedro', 'Ana', 'João'],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'São Paulo', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro'],
        'Vendas': [100, 150, 200, 120, 180, 170]}
df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Cidade,Vendas
0,Ana,São Paulo,100
1,João,Rio de Janeiro,150
2,Maria,São Paulo,200
3,Pedro,Belo Horizonte,120
4,Ana,São Paulo,180
5,João,Rio de Janeiro,170


In [47]:
# Agrupando por 'Nome' e calculando a soma das vendas
grouped_data = df.groupby('Nome')['Vendas'].sum()
grouped_data

Unnamed: 0_level_0,Vendas
Nome,Unnamed: 1_level_1
Ana,280
João,320
Maria,200
Pedro,120


In [48]:
# Agrupando por 'Cidade' e calculando a média das vendas
grouped_data = df.groupby('Cidade')['Vendas'].mean()
grouped_data

Unnamed: 0_level_0,Vendas
Cidade,Unnamed: 1_level_1
Belo Horizonte,120.0
Rio de Janeiro,160.0
São Paulo,160.0


In [49]:
# Agrupando por 'Nome' e 'Cidade', calculando a soma das vendas
grouped_data = df.groupby(['Nome', 'Cidade'])['Vendas'].sum()
grouped_data

Unnamed: 0_level_0,Unnamed: 1_level_0,Vendas
Nome,Cidade,Unnamed: 2_level_1
Ana,São Paulo,280
João,Rio de Janeiro,320
Maria,São Paulo,200
Pedro,Belo Horizonte,120
