## **1. Fundamentos do Pandas**
- Estruturas de dados: `Series`, `DataFrame`, `Index`, `MultiIndex`
- Criando DataFrames (`dict`, `listas`, `arrays`, `csv`, `json`, `excel`, `sql`)
- Trabalhando com listas e dicionários (`from_dict()`, `explode()`, `to_dict()`)
- Índices e colunas (`set_index()`, `reset_index()`, `rename()`)
- Tipos de dados (`dtypes`, `convert_dtypes()`, `astype()`)

In [1]:
from random import randint
import pandas as pd
import numpy as np
from itertools import product

---

# Exercícios - Fundamentos do Pandas

## **1.1 Estruturas de Dados: `Series`, `DataFrame`, `Index`, `MultiIndex`**

1. Crie uma `Series` a partir de uma lista de números inteiros de 1 a 10 e exiba suas propriedades (`index`, `values`, `dtype`).


In [5]:
lista = [randint(1, 30) for _ in range(10)]

serie_x = pd.Series(lista)

serie_x.dtypes

dtype('int64')

2. Construa uma `Series` a partir de um dicionário, onde as chaves são nomes de frutas e os valores são seus preços.

In [7]:
frutas = {
	"Tomate": 2.00,
	"Batata Inglesa": 1.89,
	"Morango": 12
}

lista_horti = pd.Series(data=frutas.values(), index=frutas.keys(), dtype='float', name='Preços')
lista_horti

Tomate             2.00
Batata Inglesa     1.89
Morango           12.00
Name: Preços, dtype: float64

3. Crie um `DataFrame` com três colunas (`Nome`, `Idade`, `Profissão`) e pelo menos cinco registros.

In [9]:
df = pd.DataFrame(
	data=[('Márcio', 35, 'Economista'), ('Patrícia', 34, 'Professora')],
	columns=['Nome', 'Idade', 'Profissão']
)
df

Unnamed: 0,Nome,Idade,Profissão
0,Márcio,35,Economista
1,Patrícia,34,Professora


4. Extraia os índices de um `DataFrame` e os transforme em uma lista.

In [10]:
indices = [x for x in df.index]
print(indices)

[0, 1]


5. Crie um `MultiIndex` a partir de duas listas: uma com nomes de cidades e outra com anos.

In [22]:
lista_cidades = ['Canoas', 'Porto Alegre', 'Caxias do Sul']
lista_anos = [2020, 2021, 2022, 2023, 2024, 2025]
lista_valores = [randint(1, 20) for x in range(1, len(lista_cidades) * len(lista_anos) + 1)]

index = pd.MultiIndex.from_tuples(product(lista_cidades, lista_anos))

df_2 = pd.DataFrame(
	data=lista_valores,
	index=index,
	columns=['Valores']
)
df_2

Unnamed: 0,Unnamed: 1,Valores
Canoas,2020,20
Canoas,2021,9
Canoas,2022,2
Canoas,2023,15
Canoas,2024,18
Canoas,2025,14
Porto Alegre,2020,4
Porto Alegre,2021,19
Porto Alegre,2022,13
Porto Alegre,2023,1


6. Crie um `DataFrame` usando um `MultiIndex` e preencha com valores numéricos aleatórios.

In [23]:
lista_cidades = ['Canoas', 'Porto Alegre', 'Caxias do Sul']
lista_anos = [2020, 2021, 2022, 2023, 2024, 2025]
lista_valores = [randint(1, 20) for x in range(1, len(lista_cidades) * len(lista_anos) + 1)]

index = pd.MultiIndex.from_tuples(product(lista_cidades, lista_anos))

df_2 = pd.DataFrame(
	data=lista_valores,
	index=index,
	columns=['Valores']
)
df_2

Unnamed: 0,Unnamed: 1,Valores
Canoas,2020,18
Canoas,2021,10
Canoas,2022,16
Canoas,2023,3
Canoas,2024,12
Canoas,2025,17
Porto Alegre,2020,3
Porto Alegre,2021,5
Porto Alegre,2022,6
Porto Alegre,2023,17


7. Converta um `MultiIndex` em colunas de um `DataFrame` e depois volte para `MultiIndex`.

In [7]:
lista_cidades = ['Canoas', 'Porto Alegre', 'Caxias do Sul']
lista_anos = [2020, 2021, 2022, 2023, 2024, 2025]
lista_valores = [randint(1, 20) for x in range(1, len(lista_cidades) * len(lista_anos) + 1)]

index = pd.MultiIndex.from_tuples(product(lista_cidades, lista_anos))

df_2 = pd.DataFrame(
	data=lista_valores,
	index=index,
	columns=['Valores']
)
df_2

Unnamed: 0,Unnamed: 1,Valores
Canoas,2020,2
Canoas,2021,2
Canoas,2022,18
Canoas,2023,18
Canoas,2024,20
Canoas,2025,9
Porto Alegre,2020,10
Porto Alegre,2021,9
Porto Alegre,2022,7
Porto Alegre,2023,19


In [8]:
df_2 = df_2.reset_index()
df_2

Unnamed: 0,level_0,level_1,Valores
0,Canoas,2020,2
1,Canoas,2021,2
2,Canoas,2022,18
3,Canoas,2023,18
4,Canoas,2024,20
5,Canoas,2025,9
6,Porto Alegre,2020,10
7,Porto Alegre,2021,9
8,Porto Alegre,2022,7
9,Porto Alegre,2023,19


In [11]:
index_2 = pd.MultiIndex.from_frame(df_2[['level_0', 'level_1']])

df_2 = pd.DataFrame(data=df_2['Valores'].to_list(), index=index_2, columns=['Valores'])
df_2

Unnamed: 0_level_0,Unnamed: 1_level_0,Valores
level_0,level_1,Unnamed: 2_level_1
Canoas,2020,2
Canoas,2021,2
Canoas,2022,18
Canoas,2023,18
Canoas,2024,20
Canoas,2025,9
Porto Alegre,2020,10
Porto Alegre,2021,9
Porto Alegre,2022,7
Porto Alegre,2023,19


## **1.2 Criando DataFrames (`dict`, `listas`, `arrays`, `csv`, `json`, `excel`, `sql`)**

8. Crie um `DataFrame` a partir de um dicionário contendo os nomes de três produtos, seus preços e quantidades em estoque.

In [2]:
dicionario = {
	"Produtos": ['Tomate', 'Batata inglesa', 'Cebola'],
	"Preços": [2.00, 2.20, 2.00],
	"Quantidade": [200, 100, 150]
}

df = pd.DataFrame.from_dict(dicionario)
df

Unnamed: 0,Produtos,Preços,Quantidade
0,Tomate,2.0,200
1,Batata inglesa,2.2,100
2,Cebola,2.0,150


9. Utilize `numpy` para criar um `DataFrame` contendo uma matriz 5x3 de números aleatórios.

In [8]:
import numpy as np
import pandas as pd

x = np.array([[1, 2, 3], [2, 3, 4], [6, 5, 4], [8, 7, 7], [6, 9, 3]], dtype='int')
x = pd.DataFrame(x)
x = x.rename(columns={0: 'A', 1: 'B', 2: 'C'})
x

Unnamed: 0,A,B,C
0,1,2,3
1,2,3,4
2,6,5,4
3,8,7,7
4,6,9,3


10. Leia um arquivo CSV contendo informações sobre vendas e exiba as cinco primeiras linhas.

In [10]:
vendas = pd.read_csv('auxiliar/vendas.csv')
vendas.head(5)

Unnamed: 0,Data,Produto,Valor
0,2022-02-02,Tomate,2.0
1,2022-02-03,Batata,3.0
2,2022-02-04,Cebola,2.0
3,2022-02-05,Tomate,4.0
4,2022-02-02,Batata,3.0


11. Salve um `DataFrame` em formato JSON e depois carregue novamente.

In [11]:
vendas.to_json('auxiliar/vendas.json')

In [12]:
x = pd.read_json('auxiliar/vendas.json')
x

Unnamed: 0,Data,Produto,Valor
0,2022-02-02,Tomate,2.0
1,2022-02-03,Batata,3.0
2,2022-02-04,Cebola,2.0
3,2022-02-05,Tomate,4.0
4,2022-02-02,Batata,3.0
5,2022-02-03,Cebola,2.0
6,2022-02-04,Tomate,1.5
7,2022-02-05,Batata,1.8
8,2022-02-02,Cebola,2.1
9,2022-02-02,Tomate,2.2


12. Conecte-se a um banco de dados SQLite e carregue uma tabela como um `DataFrame`.

In [1]:
import sqlite3 as sql

conn = sql.connect('auxiliar/vendas.db')

conn.close()

In [2]:
conn = sql.connect('auxiliar/vendas.db')
cursor = conn.cursor()

cursor.execute("""
	CREATE TABLE vendas(
 	id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
	data date NOT NULL,
	produto varchar(20) NOT NULL,
	valor real
	);
""")
conn.close()

In [18]:
conn = sql.connect('auxiliar/vendas.db')
cursor = conn.cursor()

cursor.execute("""INSERT INTO vendas (data, produto, valor) VALUES ('2022-02-02', 'Tomate', 2.90)""")
cursor.execute("""INSERT INTO vendas (data, produto, valor) VALUES ('2022-02-02', 'Batata', 2.75)""")
cursor.execute("""INSERT INTO vendas (data, produto, valor) VALUES ('2022-02-03', 'Tomate', 2.8)""")
cursor.execute("""INSERT INTO vendas (data, produto, valor) VALUES ('2022-02-03', 'Batata', 2.5)""")
cursor.execute("""INSERT INTO vendas (data, produto, valor) VALUES ('2022-02-04', 'Tomate', 3.00)""")

conn.commit()
conn.close()

In [21]:
import pandas as pd
conn = sql.connect('auxiliar/vendas.db')

cursor = conn.cursor()
cursor.execute("""SELECT * FROM vendas""")

x = cursor.fetchall()

x = pd.DataFrame(x)
conn.close()

x

Unnamed: 0,0,1,2,3
0,1,2022-02-02,Tomate,2.9
1,2,2022-02-02,Batata,2.75
2,3,2022-02-03,Tomate,2.8
3,4,2022-02-03,Batata,2.5
4,5,2022-02-04,Tomate,3.0


14. Crie um `DataFrame` a partir de uma lista de listas representando notas de alunos em diferentes disciplinas.

In [23]:
import pandas as pd
lista_de_listas = [['Tomate',2.3],['Batata inglesa',2.2], ['Cebola',1.8]]
lista = pd.DataFrame(lista_de_listas, columns=['Produtos', 'Valor'])

lista

Unnamed: 0,Produtos,Valor
0,Tomate,2.3
1,Batata inglesa,2.2
2,Cebola,1.8


13. Escreva um `DataFrame` em um arquivo Excel e depois carregue-o de volta.

In [25]:
import pandas as pd
lista_de_listas = [['Tomate',2.3],['Batata inglesa',2.2], ['Cebola',1.8]]
lista = pd.DataFrame(lista_de_listas, columns=['Produtos', 'Valor'])

lista.to_excel('auxiliar/vendas.xlsx', index=False)

In [26]:
x = pd.read_excel('auxiliar/vendas.xlsx')
x

Unnamed: 0,Produtos,Valor
0,Tomate,2.3
1,Batata inglesa,2.2
2,Cebola,1.8


## **1.3 Trabalhando com listas e dicionários (`from_dict()`, `explode()`, `to_dict()`)**

15. Converta um dicionário contendo listas como valores em um `DataFrame` usando `from_dict()`.

In [13]:
dicionario_listas = {
	"Nomes": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades": [35, 34, 9, 6]
}
df_familia = pd.DataFrame.from_dict(dicionario_listas)

df_familia

Unnamed: 0,Nomes,Idades
0,Márcio,35
1,Pareícia,34
2,Lorenzo,9
3,Lucas,6


16. Transforme um `DataFrame` em um dicionário usando `to_dict()`, com o formato `'records'`.

In [14]:
df_familia.to_dict(orient='records')

[{'Nomes': 'Márcio', 'Idades': 35},
 {'Nomes': 'Pareícia', 'Idades': 34},
 {'Nomes': 'Lorenzo', 'Idades': 9},
 {'Nomes': 'Lucas', 'Idades': 6}]

17. Crie um `DataFrame` onde uma coluna contém listas e use `explode()` para separá-las em linhas distintas.

In [18]:
dicionario_listas = {
	"Nomes": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades": [35, 34, 9, 6]
}
df_familia = pd.DataFrame.from_dict(dicionario_listas)

x = df_familia.explode(column='Idades')
print(x)

      Nomes  Idades
0    Márcio      35
1  Patrícia      34
2   Lorenzo       9
3     Lucas       6


18. Crie uma coluna que contenha listas de hobbies e expanda essas listas em linhas separadas.

19. Extraia os valores únicos de uma coluna de listas antes e depois de utilizar `explode()`.

20. Utilize `to_dict()` para transformar um `DataFrame` em um dicionário indexado pela coluna "ID".

## **1.4 Índices e Colunas (`set_index()`, `reset_index()`, `rename()`)**

21. Defina uma coluna específica de um `DataFrame` como índice.

In [29]:
import pandas as pd
lista_idades = {
	"Nome":['Márcio','Patrícia', 'Lorenzo', 'Lucas'],
	"Idades":[35, 34, 9, 6]
}

lista_idades = pd.DataFrame(lista_idades, columns=['Nome', 'Idades']).set_index('Nome')
lista_idades

Unnamed: 0_level_0,Idades
Nome,Unnamed: 1_level_1
Márcio,35
Patrícia,34
Lorenzo,9
Lucas,6


22. Resete o índice de um `DataFrame` e transforme o índice antigo em uma coluna.

In [30]:
import pandas as pd
lista_idades = {
	"Nome":['Márcio','Patrícia', 'Lorenzo', 'Lucas'],
	"Idades":[35, 34, 9, 6]
}

lista_idades = pd.DataFrame(lista_idades, columns=['Nome', 'Idades']).set_index('Nome')
lista_idades = lista_idades.reset_index()
lista_idades

Unnamed: 0,Nome,Idades
0,Márcio,35
1,Patrícia,34
2,Lorenzo,9
3,Lucas,6


23. Renomeie todas as colunas de um `DataFrame` para letras maiúsculas.

In [36]:
import pandas as pd

lista_idades = {
	"Nome": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades": [35, 34, 9, 6]
}

lista_idades = pd.DataFrame(lista_idades, columns=['Nome', 'Idades'])
lista_idades = lista_idades.rename(columns={col: col.capitalize() for col in lista_idades.columns})
lista_idades

Unnamed: 0,Nome,Idades
0,Márcio,35
1,Patrícia,34
2,Lorenzo,9
3,Lucas,6


24. Renomeie apenas a terceira coluna de um `DataFrame` para "Categoria".

In [44]:
import pandas as pd

lista_idades = {
	"Nome": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades": [35, 34, 9, 6],
	"Cor": ['Azul', 'Rosa', 'Preto', 'Roxo']
}

lista_idades = pd.DataFrame(lista_idades, columns=['Nome', 'Idades', 'Cor'])
lista_idades = lista_idades.rename(columns={col: col.upper() for col in lista_idades.columns})
lista_idades = lista_idades.rename(columns={'COR': 'CATEGORIA'})
print(lista_idades)


       NOME  IDADES CATEGORIA
0    Márcio      35      Azul
1  Patrícia      34      Rosa
2   Lorenzo       9     Preto
3     Lucas       6      Roxo


25. Substitua todos os espaços nos nomes das colunas de um `DataFrame` por underscores.

In [54]:
import pandas as pd
import re

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo']
}

lista_idades = pd.DataFrame(lista_idades)
lista_idades = lista_idades.rename(columns={col: re.sub(' ','_',col) for col in lista_idades.columns})
lista_idades = lista_idades.rename(columns={col: re.sub('[pP]','$',col) for col in lista_idades.columns})
lista_idades = lista_idades.rename(columns={col: re.sub('[aA]','@',col) for col in lista_idades.columns})

lista_idades


Unnamed: 0,Nome_$esso@is,Id@des_de_c@d@,Cor_$referid@
0,Márcio,35,Azul
1,Patrícia,34,Rosa
2,Lorenzo,9,Preto
3,Lucas,6,Roxo


26. Utilize `set_index()` em mais de uma coluna simultaneamente e exiba o `DataFrame` resultante.

In [1]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo']
}

lista_idades = pd.DataFrame(lista_idades).set_index(['Cor preferida','Nome pessoais'])

lista_idades

Unnamed: 0_level_0,Unnamed: 1_level_0,Idades de cada
Cor preferida,Nome pessoais,Unnamed: 2_level_1
Azul,Márcio,35
Rosa,Patrícia,34
Preto,Lorenzo,9
Roxo,Lucas,6


27. Troque o índice de um `DataFrame` para uma numeração sequencial e salve o índice antigo como uma coluna.

In [2]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo']
}

lista_idades = pd.DataFrame(lista_idades).set_index(['Cor preferida','Nome pessoais'])

lista_idades = lista_idades.reset_index()
lista_idades

Unnamed: 0,Cor preferida,Nome pessoais,Idades de cada
0,Azul,Márcio,35
1,Rosa,Patrícia,34
2,Preto,Lorenzo,9
3,Roxo,Lucas,6


## **1.5 Tipos de Dados (`dtypes`, `convert_dtypes()`, `astype()`)**

28. Verifique os tipos de dados (`dtypes`) de um `DataFrame` e liste quais são numéricos e quais são categóricos.

In [5]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo']
}
lista_idades = pd.DataFrame(lista_idades)
lista_idades.dtypes

Nome pessoais     object
Idades de cada     int64
Cor preferida     object
dtype: object

29. Converta uma coluna numérica para string usando `astype()`.

In [6]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo']
}
lista_idades = pd.DataFrame(lista_idades)
lista_idades['Idades de cada'] = lista_idades['Idades de cada'].astype('str')
lista_idades

Unnamed: 0,Nome pessoais,Idades de cada,Cor preferida
0,Márcio,35,Azul
1,Patrícia,34,Rosa
2,Lorenzo,9,Preto
3,Lucas,6,Roxo


30. Transforme uma coluna de valores decimais para inteiros sem arredondamento.

In [7]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo'],
	"Data Nascimento":['1989-04-22','1990-02-12','2015-03-17','2018-06-10'],
	"Peso":[70.0, 49.9, 30.5, 19.8]
}
lista_idades = pd.DataFrame(lista_idades)
lista_idades['Peso'] = lista_idades['Peso'].astype('int')
lista_idades

Unnamed: 0,Nome pessoais,Idades de cada,Cor preferida,Data Nascimento,Peso
0,Márcio,35,Azul,1989-04-22,70
1,Patrícia,34,Rosa,1990-02-12,49
2,Lorenzo,9,Preto,2015-03-17,30
3,Lucas,6,Roxo,2018-06-10,19


31. Altere uma coluna de datas para o tipo `datetime64` e extraia o ano de cada data.

In [10]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo'],
	"Data Nascimento":['1989-04-22','1990-02-12','2015-03-17','2018-06-10'],
	"Peso":[70.0, 49.9, 30.5, 19.8]
}
lista_idades = pd.DataFrame(lista_idades)
lista_idades['Data Nascimento'] = lista_idades['Data Nascimento'].astype('datetime64[ns]')
lista_idades['Ano'] = lista_idades['Data Nascimento'].dt.year
lista_idades['Mês'] = lista_idades['Data Nascimento'].dt.month
lista_idades['Dia'] = lista_idades['Data Nascimento'].dt.day
lista_idades

Unnamed: 0,Nome pessoais,Idades de cada,Cor preferida,Data Nascimento,Peso,Ano,Mês,Dia
0,Márcio,35,Azul,1989-04-22,70.0,1989,4,22
1,Patrícia,34,Rosa,1990-02-12,49.9,1990,2,12
2,Lorenzo,9,Preto,2015-03-17,30.5,2015,3,17
3,Lucas,6,Roxo,2018-06-10,19.8,2018,6,10


32. Utilize `convert_dtypes()` para transformar automaticamente os tipos de dados de um `DataFrame`.

In [11]:
import pandas as pd

lista_idades = {
	"Nome pessoais": ['Márcio', 'Patrícia', 'Lorenzo', 'Lucas'],
	"Idades de cada": [35, 34, 9, 6],
	"Cor preferida": ['Azul', 'Rosa', 'Preto', 'Roxo'],
	"Data Nascimento":['1989-04-22','1990-02-12','2015-03-17','2018-06-10'],
	"Peso":[70.0, 49.9, 30.5, 19.8]
}
lista_idades = pd.DataFrame(lista_idades).convert_dtypes()
lista_idades['Data Nascimento'] = lista_idades['Data Nascimento'].astype('datetime64[ns]')
lista_idades['Ano'] = lista_idades['Data Nascimento'].dt.year
lista_idades['Mês'] = lista_idades['Data Nascimento'].dt.month
lista_idades['Dia'] = lista_idades['Data Nascimento'].dt.day
lista_idades

Unnamed: 0,Nome pessoais,Idades de cada,Cor preferida,Data Nascimento,Peso,Ano,Mês,Dia
0,Márcio,35,Azul,1989-04-22,70.0,1989,4,22
1,Patrícia,34,Rosa,1990-02-12,49.9,1990,2,12
2,Lorenzo,9,Preto,2015-03-17,30.5,2015,3,17
3,Lucas,6,Roxo,2018-06-10,19.8,2018,6,10


33. Converta uma coluna booleana para inteiro (`0` e `1`).

In [4]:
import pandas as pd

def verificar(texto):
	if texto:
		texto = '1'
	else:
		texto = '0'
	return texto
df = {
	'Verdadeiro ou Falso':[True, False,True, False,True, False,True, False]
}

df = pd.DataFrame(df)

df['Verdadeiro ou Falso'] = df['Verdadeiro ou Falso'].apply(lambda x: verificar(x))
df

Unnamed: 0,Verdadeiro ou Falso
0,1
1,0
2,1
3,0
4,1
5,0
6,1
7,0


34. Force a conversão de uma coluna para float e analise os possíveis erros.

In [6]:
import pandas as pd

df = {
	'numeros': [1,2,3,4,5,6,7,8,9]
}
df = pd.DataFrame(df)

df['numeros'] = df['numeros'].astype(float)
df

Unnamed: 0,numeros
0,1.0
1,2.0
2,3.0
3,4.0
4,5.0
5,6.0
6,7.0
7,8.0
8,9.0


## **Desafios**

35. Crie um `DataFrame` que contenha uma hierarquia de índices (`MultiIndex`) e demonstre como acessar elementos específicos.

In [18]:
meses_ordenados = ['JAN', 'FEV', 'MAR', 'ABR', 'MAI', 'JUN', 'JUL', 'AGO', 'SET', 'OUT', 'NOV', 'DEZ']

array = [[2022,2023,2022,2023,2022,2023],['JAN','JAN','FEV','FEV','MAR','MAR']]
valores = [12,13,14,15,16,17]
index = pd.MultiIndex.from_arrays(array, names=['Ano','Mes'], sortorder=0)

df = pd.DataFrame({'Valores': valores}, index=index)

df

Unnamed: 0_level_0,Unnamed: 1_level_0,Valores
Ano,Mes,Unnamed: 2_level_1
2022,JAN,12
2023,JAN,13
2022,FEV,14
2023,FEV,15
2022,MAR,16
2023,MAR,17


36. Leia um arquivo CSV, defina a primeira coluna como índice e depois salve como um novo arquivo CSV sem índice.

In [20]:
import pandas as pd
dados = pd.read_csv('auxiliar/dados.csv', sep=';', parse_dates=['Data'], date_format='%d/%m/%Y')
dados

Unnamed: 0,Data,Valor
0,2022-01-01,135
1,2022-01-02,108
2,2022-01-03,205
3,2022-01-04,180
4,2022-01-05,235
5,2022-01-06,198
6,2022-01-07,281
7,2022-01-08,269
8,2022-01-09,158
9,2022-01-10,129


37. Construa um `DataFrame` a partir de um JSON aninhado e normalize seus dados.

In [29]:
import pandas as pd
from pandas import json_normalize
import json

dados = json.loads(
	open('auxiliar/dados.json', 'r').read()
)

dados = pd.json_normalize(dados['dados'])

dados

Unnamed: 0,nome,idade,cidade
0,JoÃ£o,30,Canoas
1,Maria,25,Porto Alegre
2,Carlos,35,SÃ£o Paulo


38. Compare a performance de conversões de tipos de dados entre `astype()` e `convert_dtypes()`.

39. Escreva um `DataFrame` para um banco de dados SQLite e consulte apenas os registros em que a idade seja superior a 30 anos.

40. Leia um arquivo Excel contendo várias planilhas e combine todas elas em um único `DataFrame`.

41. Gere um `DataFrame` com valores aleatórios e substitua os valores negativos por `NaN`.

42. Calcule a média, mediana e desvio padrão de uma coluna numérica de um `DataFrame`.

43. Substitua os valores `NaN` de um `DataFrame` pelo valor da média de cada coluna.

44. Crie um `DataFrame` categórico com rótulos representando tipos de clientes e converta-o para `category`.

45. A partir de um `DataFrame`, selecione apenas as linhas que contêm valores nulos em qualquer coluna.

46. Gere um `DataFrame` com colunas representando diferentes moedas e converta os valores entre elas com base em uma taxa de câmbio.

47. Crie um `DataFrame` que contenha uma coluna de datas aleatórias e ordene as linhas por essa coluna.

48. Faça um `explode()` em um `DataFrame` contendo listas, mas antes converta os valores individuais para inteiro.

49. Utilize `rename()` para alterar os índices de um `DataFrame`, transformando-os em valores mais compreensíveis.

50. Escreva um código que valide automaticamente os tipos de dados de um `DataFrame` e gere um relatório sobre a consistência das colunas.