# Pandas

biblioteca de código aberto em Python projetada para análise de dados. Ela fornece estruturas de dados e ferramentas de manipulação de dados de alta performance e fáceis de usar, tornando-a uma das bibliotecas mais populares para trabalhar com dados tabulares.

In [1]:
# Como instalar e importar
!pip install pandas
import pandas as pd



# Series

estrutura unidimensional semelhante a um array (numpy) ou uma coluna de uma planilha. As operações que você pode realizar nas Series são semelhantes às operações em um DataFrame

In [6]:
# Criando um Series com preços de livros
s = pd.Series([30, 40, 70, 50])
s

0    30
1    40
2    70
3    50
dtype: int64

In [7]:
# Acessando elementos

print(s[2])

70


In [8]:
# Alterar os índices

s = pd.Series([30, 40, 70, 50], index = ['Livro a', "Livro b", "Livro c", "Livro d"])
s

Livro a    30
Livro b    40
Livro c    70
Livro d    50
dtype: int64

In [9]:
# Operações matemáticas

s = s + 2
s

Livro a    32
Livro b    42
Livro c    72
Livro d    52
dtype: int64

* sum(): Calcula a soma de todos os elementos do Series.
* mean(): Calcula a média dos elementos do Series.
* max(): Encontra o valor máximo no Series.
* min(): Encontra o valor mínimo no Series.
* unique(): Retorna os valores únicos no Series.

In [13]:
print(s.sum())       # Soma dos elementos
print(s.mean())      # Média dos elementos
print(s.max())       # Valor máximo
print(s.min())       # Valor mínimo
print(s.unique())    # Valores únicos

198
49.5
72
32
[32 42 72 52]


# Data Frame

DataFrame é uma estrutura de dados tabular bidimensional, semelhante a uma planilha ou tabela de banco de dados, onde os dados são organizados em colunas rotuladas.
É uma das estruturas de dados mais importantes na biblioteca pandas, que é amplamente utilizada para análise de dados

In [4]:
df_notas= pd.DataFrame ({"Matérias": ["Cálculo","Microeconomia","Contabilidade"],
                        "Fernanda":[5,7,10],
                         "Sandra": [7,3,9],
                         "Guilherme": [10,2,7] })
df_notas

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
0,Cálculo,5,7,10
1,Microeconomia,7,3,2
2,Contabilidade,10,9,7


In [8]:
#head(): Retornar as primeiras linhas do DataFrame.
df_notas.head(1)

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
0,Cálculo,5,7,10


In [9]:
#tail(): Retorna as últimas linhas do DataFrame.
df_notas.tail(2)

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
1,Microeconomia,7,3,2
2,Contabilidade,10,9,7


In [13]:
#columns(): Retorna as colunas
df_notas.columns

Index(['Matérias', 'Fernanda', 'Sandra', 'Guilherme'], dtype='object')

In [15]:
#Um colchete: Series#
df_notas["Guilherme"]

0    10
1     2
2     7
Name: Guilherme, dtype: int64

In [16]:
#Dois colchetes: DataFrame novo#
df_notas[['Guilherme']]

Unnamed: 0,Guilherme
0,10
1,2
2,7


In [17]:
#describe(): Calcula estatísticas resumidas (como média, desvio padrão, mínimo, máximo, quartis) para colunas numéricas.
df_notas.describe()

Unnamed: 0,Fernanda,Sandra,Guilherme
count,3.0,3.0,3.0
mean,7.333333,6.333333,6.333333
std,2.516611,3.05505,4.041452
min,5.0,3.0,2.0
25%,6.0,5.0,4.5
50%,7.0,7.0,7.0
75%,8.5,8.0,8.5
max,10.0,9.0,10.0


In [20]:
#shape: Retorna o número de linhas e colunas do DataFrame.
df_notas.shape

(3, 4)

In [23]:
#Filtrar dados com um Boleano
df_notas[(df_notas["Fernanda"]>5) & (df_notas["Sandra"]>6)]

Unnamed: 0,Matérias,Fernanda,Sandra,Guilherme
2,Contabilidade,10,9,7


In [26]:
#drop(): Remove linhas ou colunas específicas do DataFrame.
#Remover colunas: axis=1
#Remover linhas: axis=2
df_notas.drop(["Guilherme"],axis=1)

Unnamed: 0,Matérias,Fernanda,Sandra
0,Cálculo,5,7
1,Microeconomia,7,3
2,Contabilidade,10,9
