<a href="https://colab.research.google.com/github/HuelFra/phyton/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
#Pandas
'''A biblioteca Pandas é uma das bibliotecas mais populares e poderosas da linguagem Python,
usada principalmente para análise e manipulação de dados. O nome “Pandas” vem de "Panel Data",
um termo usado em econometria.

📌 Para que serve o Pandas?
Pandas fornece estruturas de dados de alto desempenho e fáceis de usar, especialmente para
trabalhar com dados tabulares (como planilhas e bancos de dados) e temporais (como séries de tempo).

Principais estruturas de dados do Pandas
- Series:
Uma coluna única (unidimensional) com rótulos (índices).
Exemplo:
import pandas as pd
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

- DataFrame:
Uma tabela de dados em formato de matriz (bidimensional), parecida com uma planilha do Excel ou uma tabela SQL.
Exemplo:
import pandas as pd
data = {'Nome': ['Ana', 'João'], 'Idade': [25, 30]}
df = pd.DataFrame(data)

🛠️ Funcionalidades principais
- Leitura e gravação de arquivos: .csv, .excel, .json, .sql, entre outros.
- Filtragem, ordenação e agrupamento de dados.
- Limpeza e transformação de dados (remoção de valores nulos, substituições, conversões).
- Análise estatística básica.
- Criação de novas colunas com base em condições ou cálculos.
- Integração com outras bibliotecas como NumPy, Matplotlib, Seaborn e Scikit-learn.

✅ Por que usar Pandas?
Facilita o tratamento de dados complexos.
Muito utilizado em ciência de dados, machine learning, estatística, finanças e engenharia de dados.
Interface intuitiva para quem está acostumado com Excel ou SQL.'''

#Como instalar o Pandas
!pip install pandas

#Importando a Biblioteca
import pandas as pd



In [9]:
#Criando Series
'''
🧩 O que é uma Series?
Uma Series é uma estrutura de dados unidimensional (como uma coluna de uma planilha).
É similar a um array do NumPy, mas com rótulos (index) para cada elemento.

import pandas as pd
# Criando uma Series
dados = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(dados)
Saída:
a    10
b    20
c    30
d    40
dtype: int64

📊 O que é um DataFrame?
Um DataFrame é uma tabela bidimensional, como uma planilha do Excel ou uma tabela SQL.
Ele é composto por várias Series, uma para cada coluna.
import pandas as pd

# Criando um DataFrame
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 30],
    'Cidade': ['SP', 'RJ', 'BH']
}

df = pd.DataFrame(dados)
print(df)
Saída:
    Nome  Idade Cidade
0    Ana     23     SP
1  Bruno     35     RJ
2 Carlos     30     BH '''

#Conhecendo a versão do Numpy e do pandas instalado
! pip install NumPy
import numpy as np
print('A versão Numpy instalada é: ' , np.__version__)
print('A versão Panda instalada é: ' , pd.__version__)



A versão Numpy instalada é:  2.0.2
A versão Panda instalada é:  2.2.2


In [10]:
# Criando lista
lista = [10,20,30,40,50]
print(lista)


[10, 20, 30, 40, 50]


In [17]:
#Criando uma lista no Pandas, que seria uma Series
series = pd.Series([10,20,30,40,50])
print(series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [18]:
#Uma outra maneira que podemos chamar Series é:
pd.Series(data = lista)

'''
pd: é a abreviação comum usada para importar a biblioteca pandas (ex: import pandas as pd).
Series: é uma classe do pandas usada para criar uma série de dados.
data=lista: é o argumento que define os dados que serão armazenados na série. Aqui, lista é uma lista Python ([10, 20, 30, 40, 50]).

Os valores 10, 20, 30, 40 e 50 vêm da lista.
Os índices (0, 1, 2) são atribuídos automaticamente.
O dtype indica o tipo de dado (neste caso, int64).
'''

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [11]:
#Criando tupla
tupla = (10,20,30,40,50)
print(tupla)

(10, 20, 30, 40, 50)


In [19]:
#Criando a tupla usando pandas
pd.Series(data = tupla)

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [12]:
#Criando um array
array = np.array([10,20,30,40,50])
print(array)

[10 20 30 40 50]


In [22]:
#Criando um array usando panda
pd.Series(data = array)

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [21]:
#ou
array_pandas = pd.Series ([10,20,30,40,50])
print(array_pandas)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [25]:
#Criando um dicionário
dicionario = {'A':10, 'B':20, 'C':30, 'D':40, 'E':50}
print(dicionario)

{'A': 10, 'B': 20, 'C': 30, 'D': 40, 'E': 50}


In [31]:
#Criando um dicionário pandas
pd.Series(data = dicionario)

Unnamed: 0,0
A,10
B,20
C,30
D,40
E,50


In [32]:
#ou
dicionario_pandas = pd.Series ({'A':10, 'B':20, 'C':30, 'D':40, 'E':50})
print(dicionario_pandas)

A    10
B    20
C    30
D    40
E    50
dtype: int64


In [34]:
#Indexando Series
'''Esse comando cria uma pandas Series com valores personalizados para os índices.'''

minha_Serie = pd.Series([10,20,30,40,50], index = ['A','B','C','D','E'])

'''
pd.Series(...): cria uma série do pandas.
[10, 20, 30, 40, 50]: é a lista de dados.
index=['A', 'B', 'C', 'D', 'E']: define rótulos personalizados para os índices da série.

O resultado:
A Série tem 5 elementos.
Cada valor é associado a um índice personalizado (letras A a E).
O dtype indica que os dados são do tipo inteiro (int64).

Vantagens da indexação personalizada:
Você pode acessar os valores usando os rótulos: minha_Serie['C']  # retorna 30
Pode fazer operações com base nos rótulos (por exemplo, fatiamento, filtragem, etc.).
Essa é uma das principais forças do pandas: você pode tratar dados de forma parecida
com tabelas, mas com flexibilidade para indexação e manipulação.
'''
print(minha_Serie)

A    10
B    20
C    30
D    40
E    50
dtype: int64


In [41]:
#Outros exemplos de indexação
nova_Serie = pd.Series([10,20,30,40,50], index = ['Primeiro','Segundo','Terceiro','Quarto','Quinto'])
print(nova_Serie)

Primeiro    10
Segundo     20
Terceiro    30
Quarto      40
Quinto      50
dtype: int64


In [38]:
#Mostrando o Primeiro Valor
nova_Serie['Primeiro']

np.int64(10)

In [43]:
#Mostrando o Segundo e Quarto Valores
nova_Serie[['Segundo','Quarto']]

Unnamed: 0,0
Segundo,20
Quarto,40


In [58]:
#Criando uma Series pandas com texto
# Você precisa chamar a classe Series como uma função, usando parênteses ()
# Passe a lista de strings como o argumento 'data'.
texto = pd.Series(data = ['Ana', 'Bruno', 'Carlos'])

'''O pandas internamente utiliza tipos como:
int64 para inteiros
float64 para números decimais
datetime64 para datas
bool para booleanos
object para qualquer outro tipo, especialmente strings ou misturas de tipos.'''

print(texto)

0       Ana
1     Bruno
2    Carlos
dtype: object


In [57]:
#Outra forma
pd.Series(['Ana', 'Bruno', 'Carlos'])

'''O resultado de dtype é object, por qual motivo?
No pandas, o tipo object é usado para dados não numéricos, especialmente strings (textos).

A partir de versões mais recentes do pandas, também existe o tipo string
(mais moderno e eficiente que object para textos), mas ele precisa ser especificado:
pd.Series(['Ana', 'Bruno', 'Carlos'], dtype='string')'''
pd.Series(['Ana', 'Bruno', 'Carlos'], dtype='string')

Unnamed: 0,0
0,Ana
1,Bruno
2,Carlos


In [53]:
#Criando um Series pandas float
pd.Series([2.78, 3.95])

Unnamed: 0,0
0,2.78
1,3.95


In [56]:
#Criando uma Series pandas com tipos diferentes
'''Converte tudo para string, caso tenha algum tipo diferente'''
pd.Series(['Maria',4.64, True])

pd.Series(['Maria',4.64, True])

Unnamed: 0,0
0,Maria
1,4.64
2,True


In [None]:
# Conhecendo mais algumas funções do pandas Python
'''
A função sum() no contexto do pandas (ou até mesmo em Python puro) é usada para somar valores.
Exemplo: sum([1, 2, 3, 4])

Em uma pandas.Series:
import pandas as pd

s = pd.Series([10, 20, 30])
s.sum()

sum() ignora automaticamente valores NaN (nulos).

Se a Series for de strings, ele concatena:
s = pd.Series(['Ana', 'Bruno', 'Carlos'])
s.sum()

Resumo:
Numérico	Soma dos valores
String (object)	Concatenação das strings
Com NaN	Ignora NaN por padrão

Se quiser que NaN afete o resultado (retorne NaN), use:
s.sum(skipna=False)


In [60]:
s = pd.Series([10, 20, 30])
s.sum()

np.int64(60)

In [61]:
s = pd.Series(['Ana', 'Bruno', 'Carlos'])
s.sum()

'AnaBrunoCarlos'