# Introdução ao Python para Análise de Dados

## Pandas

Esta biblioteca é projetada para trabalhar com estruturas de dados tabulares. Ela oferece duas principais estruturas de dados: **DataFrame**, para tabelas bidimensionais, e **Series**, para dados unidimensionais. Além disso, ela facilita operações complexas como filtragem, agregação e transformação de dados. É uma ferramenta muito útil para a análise exploratória de dados, limpeza e pré-processamento, especialmente quando se trabalha com dados estruturados em formato de tabelas ou planilhas.

Abaixo, vamos importá-la de forma abreviada como **pd**, facilitando futuras chamadas de funções e classes desta biblioteca.

In [1]:
import pandas as pd

In [4]:
# Criar um DataFrame
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Bruna', 'Vitor', 'Julio', 'Joana', 'Bianca'],
    'Idade': [23, 34, 45, 50, 89, 34, 67, 43],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'Vitória']
}
df = pd.DataFrame(data)  # converte o dicionário data em um DataFrame no pandas

In [5]:
print(df)

     Nome  Idade          Cidade
0     Ana     23       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     45  Belo Horizonte
3   Bruna     50       São Paulo
4   Vitor     89  Rio de Janeiro
5   Julio     34  Belo Horizonte
6   Joana     67        Salvador
7  Bianca     43         Vitória


In [6]:
df.head()  # exibe as primeiras linhas do DataFrame

Unnamed: 0,Nome,Idade,Cidade
0,Ana,23,São Paulo
1,Bruno,34,Rio de Janeiro
2,Carlos,45,Belo Horizonte
3,Bruna,50,São Paulo
4,Vitor,89,Rio de Janeiro


In [7]:
pd.read_csv('/content/sample_data/california_housing_train.csv')   # este arquivo é interno do Colab, não há necessidade de fazer upload

FileNotFoundError: [Errno 2] No such file or directory: '/content/sample_data/california_housing_train.csv'

## Numpy
A biblioteca Numpy fornece suporte para arrays multidimensionais e matrizes, além de uma grande coleção de funções matemáticas e operações para manipulação de arrays. As operações vetoriais são realizadas de maneira muito eficientes, o que torna esta biblioteca muito útil em tarefas que exigem manipulação e análise de grandes volumes de dados, especialmente em contextos que envolvem álgebra linear e processamento de sinais.

In [1]:
import numpy as np

# Criação um array numpy
array = np.array([1, 2, 3, 4, 5])
print(array)
print(array.mean())  # calcula a média
print(array.sum())   # calcula o somatório
print(array * 2)  # calcula o dobro de todos os elementos
print(array ** 0.5)  # calcula a raiz quadrada de todos os elementos

[1 2 3 4 5]
3.0
15
[ 2  4  6  8 10]
[1.         1.41421356 1.73205081 2.         2.23606798]


## Matplotlib
Esta biblioteca permite visualizar os dados a partir da criação de gráficos, que podem ser: estáticos, animados e interativos, além de ser altamente personalizável.

In [2]:
import matplotlib.pyplot as plt

# Dados para plotar
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Criar um gráfico de linha
plt.plot(x, y)
plt.xlabel('Eixo X')
plt.ylabel('Eixo Y')
plt.title('Gráfico de Linha')
plt.show()

ModuleNotFoundError: No module named 'matplotlib'