# Pandas

## Importando

In [None]:
# **Aula 1: Introdução ao Pandas**

# **1. Introdução**
# Pandas é uma biblioteca poderosa para manipulação e análise de dados em Python.
# Vamos aprender a trabalhar com dados de forma eficiente.

# Instalando Pandas (caso não esteja instalado):
# !pip install pandas

# Importando a biblioteca
import pandas as pd




## Criando Series / Dataframe

In [None]:
# **2. Criação de Estruturas Básicas: Series e DataFrames**

# Criando uma Series (estrutura unidimensional)
print("Criando uma Series:")
series = pd.Series([10, 20, 30, 40, 50], name="Numeros")
print(series)

# Criando um DataFrame (estrutura bidimensional)
print("\nCriando um DataFrame:")
df = pd.DataFrame({
    "Nomes": ["Ana", "Bruno", "Carla", "Diego", "Eva"],
    "Idades": [23, 35, 30, 40, 28],
    "Salarios": [3000, 4500, 4000, 5000, 3500]
})
print(df)



Criando uma Series:
0    10
1    20
2    30
3    40
4    50
Name: Numeros, dtype: int64

Criando um DataFrame:
   Nomes  Idades  Salarios
0    Ana      23      3000
1  Bruno      35      4500
2  Carla      30      4000
3  Diego      40      5000
4    Eva      28      3500


## Explorando os dados

In [None]:
# **3. Explorando Dados**

# Visualizar os primeiros registros
print("\nVisualizar os primeiros registros do DataFrame:")
print(df.head())

# Informações sobre o DataFrame
print("\nInformações sobre o DataFrame:")
print(df.info())

# Estatísticas descritivas
print("\nEstatísticas descritivas:")
print(df.describe())

# Ver os nomes das colunas
print("\nNomes das colunas:")
print(df.columns)

# Ver o número de linhas e colunas
print("\nNúmero de linhas e colunas:")
print(df.shape)

print("\nNúmero de dados duplicados:")
print(df.duplicated().sum())

print("\nNúmero de valores vazios por coluna:")
print(df.isnull().sum())



Visualizar os primeiros registros do DataFrame:
   Nomes  Idades  Salarios
0    Ana      23      3000
1  Bruno      35      4500
2  Carla      30      4000
3  Diego      40      5000
4    Eva      28      3500

Informações sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Nomes     5 non-null      object
 1   Idades    5 non-null      int64 
 2   Salarios  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
None

Estatísticas descritivas:
          Idades     Salarios
count   5.000000     5.000000
mean   31.200000  4000.000000
std     6.534524   790.569415
min    23.000000  3000.000000
25%    28.000000  3500.000000
50%    30.000000  4000.000000
75%    35.000000  4500.000000
max    40.000000  5000.000000

Nomes das colunas:
Index(['Nomes', 'Idades', 'Salarios'], dtype='object')

Número de linhas e colunas:
(5, 3)

## Selecao e filtragem de dados

In [None]:
# **4. Seleção e Filtragem de Dados**

# Selecionando uma coluna
print("\nSelecionando a coluna 'Idades':")
print(df["Idades"])

# Selecionando múltiplas colunas
print("\nSelecionando as colunas 'Nomes' e 'Salarios':")
print(df[["Nomes", "Salarios"]])

# Selecionando linhas por índices
print("\nSelecionando a primeira linha (índice 0):")
print(df.loc[0])

# Filtrando dados (idade maior que 30)
print("\nFiltrando pessoas com idade maior que 30:")
print(df[df["Idades"] > 30])




Selecionando a coluna 'Idades':
0    23
1    35
2    30
3    40
4    28
Name: Idades, dtype: int64

Selecionando as colunas 'Nomes' e 'Salarios':
   Nomes  Salarios
0    Ana      3000
1  Bruno      4500
2  Carla      4000
3  Diego      5000
4    Eva      3500

Selecionando a primeira linha (índice 0):
Nomes        Ana
Idades        23
Salarios    3000
Name: 0, dtype: object

Filtrando pessoas com idade maior que 30:
   Nomes  Idades  Salarios
1  Bruno      35      4500
3  Diego      40      5000


## Modificacao de dados

In [None]:
# **5. Modificação de Dados**

# Adicionando uma nova coluna
df["Cidade"] = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba", "Recife"]
print("\nDataFrame após adicionar a coluna 'Cidade':")
print(df)

# Alterando valores (atualizar salário de Ana)
df.loc[0, "Salarios"] = 3200
print("\nDataFrame após alterar o salário de Ana:")
print(df)

# Deletando uma coluna
df.drop("Cidade", axis=1, inplace=True)
print("\nDataFrame após remover a coluna 'Cidade':")
print(df)




DataFrame após adicionar a coluna 'Cidade':
   Nomes  Idades  Salarios          Cidade
0    Ana      23      3000       São Paulo
1  Bruno      35      4500  Rio de Janeiro
2  Carla      30      4000  Belo Horizonte
3  Diego      40      5000        Curitiba
4    Eva      28      3500          Recife

DataFrame após alterar o salário de Ana:
   Nomes  Idades  Salarios          Cidade
0    Ana      23      3200       São Paulo
1  Bruno      35      4500  Rio de Janeiro
2  Carla      30      4000  Belo Horizonte
3  Diego      40      5000        Curitiba
4    Eva      28      3500          Recife

DataFrame após remover a coluna 'Cidade':
   Nomes  Idades  Salarios
0    Ana      23      3200
1  Bruno      35      4500
2  Carla      30      4000
3  Diego      40      5000
4    Eva      28      3500


## Exercicios

In [None]:
# **Aula 1: Introdução ao Pandas**

# (O código acima permanece o mesmo até a seção de Exercício Prático)

# **6. Exercício Prático**

# Pergunta 1: Qual é a média dos salários?
media_salarios = df["Salarios"].mean()
print("\nMédia dos salários:", media_salarios)

# Pergunta 2: Quem tem o maior salário?
maior_salario = df[df["Salarios"] == df["Salarios"].max()]
print("\nPessoa com o maior salário:")
print(maior_salario)

# Pergunta 3: Quantas pessoas têm idade maior que 30 anos?
qtd_maior_30 = len(df[df["Idades"] > 30])
print("\nNúmero de pessoas com idade maior que 30 anos:", qtd_maior_30)

# Pergunta 4: Qual é a soma total dos salários?
soma_salarios = df["Salarios"].sum()
print("\nSoma total dos salários:", soma_salarios)

# Pergunta 5: Liste as pessoas que têm salário acima de 4000.
salario_acima_4000 = df[df["Salarios"] > 4000]
print("\nPessoas com salário acima de 4000:")
print(salario_acima_4000)

# Pergunta 6: Qual é a idade média das pessoas no DataFrame?
media_idades = df["Idades"].mean()
print("\nIdade média das pessoas:", media_idades)

# Pergunta 7: Qual é o nome da pessoa mais jovem?
pessoa_mais_jovem = df[df["Idades"] == df["Idades"].min()]
print("\nPessoa mais jovem:")
print(pessoa_mais_jovem)

# Pergunta 8: Ordene as pessoas por idade em ordem decrescente.
ordenado_por_idade = df.sort_values("Idades", ascending=False)
print("\nDataFrame ordenado por idade (decrescente):")
print(ordenado_por_idade)

# Pergunta 9: Crie um DataFrame com pessoas que têm salário entre 3000 e 4000.
salario_entre = df[(df["Salarios"] >= 3000) & (df["Salarios"] <= 4000)]
print("\nPessoas com salário entre 3000 e 4000:")
print(salario_entre)

# Pergunta 10: Quantas pessoas têm o nome começando com a letra "A"?
qtd_nome_com_a = len(df[df["Nomes"].str.startswith("A")])
print("\nNúmero de pessoas com nomes começando com a letra 'A':", qtd_nome_com_a)

# Pergunta 11: Qual é a mediana dos salários?
mediana_salarios = df["Salarios"].median()
print("\nMediana dos salários:", mediana_salarios)

# Pergunta 12: Qual é o desvio padrão dos salários?
desvio_padrao_salarios = df["Salarios"].std()
print("\nDesvio padrão dos salários:", desvio_padrao_salarios)

# Pergunta 13: Adicione 10% ao salário de todas as pessoas e crie uma nova coluna chamada 'Salarios_Ajustados'.
df["Salarios_Ajustados"] = df["Salarios"] * 1.1
print("\nDataFrame com a coluna 'Salarios_Ajustados':")
print(df)

# Pergunta 14: Liste os nomes e as idades das pessoas que têm salário ajustado acima de 4500.
salario_ajustado_acima_4500 = df[df["Salarios_Ajustados"] > 4500][["Nomes", "Idades"]]
print("\nNomes e idades das pessoas com salário ajustado acima de 4500:")
print(salario_ajustado_acima_4500)

# Pergunta 15: Remova a coluna 'Salarios_Ajustados' do DataFrame.
df.drop("Salarios_Ajustados", axis=1, inplace=True)
print("\nDataFrame após remover a coluna 'Salarios_Ajustados':")
print(df)

# **Conclusão**
# Nesta aula, aprendemos os fundamentos do Pandas:
# - Criar e explorar DataFrames e Series
# - Selecionar e filtrar dados
# - Modificar valores no DataFrame
# - Responder perguntas simples com os dados.

print("\nParabéns por concluir sua primeira aula de Pandas!")



Média dos salários: 4040.0

Pessoa com o maior salário:
   Nomes  Idades  Salarios
3  Diego      40      5000

Número de pessoas com idade maior que 30 anos: 2

Soma total dos salários: 20200

Pessoas com salário acima de 4000:
   Nomes  Idades  Salarios
1  Bruno      35      4500
3  Diego      40      5000

Idade média das pessoas: 31.2

Pessoa mais jovem:
  Nomes  Idades  Salarios
0   Ana      23      3200

DataFrame ordenado por idade (decrescente):
   Nomes  Idades  Salarios
3  Diego      40      5000
1  Bruno      35      4500
2  Carla      30      4000
4    Eva      28      3500
0    Ana      23      3200

Pessoas com salário entre 3000 e 4000:
   Nomes  Idades  Salarios
0    Ana      23      3200
2  Carla      30      4000
4    Eva      28      3500

Número de pessoas com nomes começando com a letra 'A': 1

Mediana dos salários: 4000.0

Desvio padrão dos salários: 730.0684899377592

DataFrame com a coluna 'Salarios_Ajustados':
   Nomes  Idades  Salarios  Salarios_Ajustados
0   