In [1]:
import pandas as pd

# √çndice

- [Se√ß√£o 1 - Introdu√ß√£o](#1.-Analisando-dados-com-Pandas)
    - [1.1. - Conceitos b√°sicos de Pandas](#1.1.-Conceitos-b√°sicos-de-Pandas)
    - [1.2. - Series](#1.2.-Series)
- [T√≥picos](#T√≥picos)


___

# 1. Analisando dados com Pandas

### 1.1. Conceitos b√°sicos de Pandas


A Ci√™ncia de Dados, ou a An√°lise de Dados, √© um ramo que vem ganhando cada vez mais notoriedade, v√°rias empresas de pequeno a grande porte, como a Netflix, Airbnb e Google j√° possuem atividades de tomada de decis√£o baseadas em dados. Nesse cen√°rio, a linguagem Python √© bastante utilizada devido a sua versatilidade e simplicidade, contando com uma vasta quantidade de bibliotecas, e entre elas, o Pandas.

#### O que √© Pandas?

Pandas √© uma biblioteca de c√≥digo aberto (open source), constru√≠da sobre a linguagem Python, e que providencia uma abordagem r√°pida e flex√≠vel, com estruturas robustas para se trabalhar com dados relacionais (ou rotulados), e tudo isso de maneira simples e intuitiva.

De maneira geral, o Pandas pode ser utilizado para v√°rias atividades e processos, entre eles: **limpeza e tratamento de dados, an√°lise explorat√≥ria de dados (EDA)**, suporte em atividades de Machine Learning, consultas e queries em bancos de dados relacionais, visualiza√ß√£o de dados, webscraping e muito mais. E al√©m disso, tamb√©m possui √≥tima integra√ß√£o com v√°rias outras bibliotecas muito utilizadas em Ci√™ncia de Dados, tais como: Numpy, Scikit-Learn, Seaborn, Altair, Matplotlib, Plotly, Scipy e outros.

___

### 1.2. Series

A estrutura principal do Pandas √© composta por dois tipos de objetos: _Series e DataFrames_, vamos falar um pouco sobre o primeiro tipo;

As _Series_ nada mais s√£o que uma esp√©cie de arranjo unidimensional, como uma lista por exemplo, mas que possui algumas caracter√≠sticas diferentes, uma delas √© que possui r√≥tulos para cada elemento do array, ou seja, **uma S√©rie √© um array unidimensional capaz de armazenar qualquer tipo de dado e vem com um √≠ndice que nos ajuda a localizar esses dados rapidamente.** Para facilitar, pense na _Serie_ como uma coluna de uma tabela no Excel.

Uma s√©rie tem 4 partes importantes:
- Os elementos em si
- O √≠ndice que cont√©m a refer√™ncia para acessar os elementos
- O tipo dos elementos
- Um nome

#### Elementos e Tipos

Os elementos podem ser de qualquer tipo, ou seja, podemos ter uma s√©rie com n√∫meros e strings, por exemplo.

Abaixo, criamos duas s√©ries de exemplo de forma bem parecida como criamos a lista, com a exce√ß√£o de que as criamos a partir da classe Series do pandas:

In [3]:
serie = pd.Series([42, 99, -1])
serie

0    42
1    99
2    -1
dtype: int64

In [4]:
serie2 = pd.Series(['radiohead', 2.3, True])
serie2

0    radiohead
1          2.3
2         True
dtype: object

#### Acessando elementos

Numa lista, acessamos os elementos por meio de √≠ndices posicionais, num√©ricos, certo?

Acessar o primeiro elemento: lista[0], o terceiro elemento: lista[2], e assim por diante.

Nas s√©ries podemos acessar da mesma forma, por√©m, podemos acessar os elementos de uma _serie_ com um √≠ndice posicional, mas n√£o precisa ser assim, podemos criar um √≠ndice pr√≥prio que nem precisa ser num√©rico.

Vamos criar um caso de exemplo, queremos guardar as calorias de cada alimento que vamos ingerir... E com isso criamos uma serie com as calorias de uma banana, um prato feito e um big mac:

In [7]:
serie_sem_nome = pd.Series([200, 350, 550])
serie_sem_nome

0    200
1    350
2    550
dtype: int64

In [8]:
# Vamos agora dar nomes aos indices e assim saberemos quais calorias √© de quais alimentos:
serie_com_nome = pd.Series([200, 350, 550], index=['banana', 'prato feito', 'big mac'])
serie_com_nome

banana         200
prato feito    350
big mac        550
dtype: int64

In [10]:
# Quantas calorias tem um big mac?
serie_com_nome['big mac']

np.int64(550)

Vamos para mais um exemplo, para conseguirmos entender sobre acessar os elementos de uma **serie**

In [19]:
labels = ['a', 'b', 'c']
minha_lista = [10, 20, 30]
d = {'a':10, 'b':20, 'c':30} # Um dicion√°rio para utilizar no Series

**Uma observa√ß√£o importante:**
N√£o preciso especificar qual ser√° meu _data_ ou meu _index_, o pandas identifica autom√°ticamente quando eu coloco em ordem, veja os exemplos abaixo.

In [14]:
pd.Series(labels)

0    a
1    b
2    c
dtype: object

In [16]:
pd.Series(labels, minha_lista)
# A mesma coisa seria: pd.Series(data=labels, index=minha_lista)

10    a
20    b
30    c
dtype: object

Eu tamb√©m posso utilizar dicion√°rios no Series, e o interessante √© que, automaticamente o _pandas_ identifica a chave do dicion√°rio como o indice do elemento. Vejamos abaixo:

In [17]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

In [18]:
d2 = {"banana": 34, "uva": 21, "laranja": 22} # Quantidade de frutas que eu tenho
pd.Series(d2)

banana     34
uva        21
laranja    22
dtype: int64

In [22]:
# Quantas bananas eu tenho?
d2['banana']

34

___

### 1.3. DataFrames

O DataFrame do Pandas √© uma maneira de representar e trabalhar com dados tabulares. Ele pode ser visto como uma tabela que organiza os dados em linhas e colunas, criando uma estrutura de dados bidimensional. Um DataFrame pode ser criado do zero ou voc√™ pode usar outras estruturas de dados, como matrizes NumPy.

Em outras palavras: DataFrames s√£o estruturas 2D (linhas e colunas) ‚Äî parecida com uma planilha do Excel ou uma tabela SQL.

#### Criando DataFrames

In [4]:
# Criando DataFrames a partir de dicion√°rios:

dados = {
'Nome': ['Ana', 'Bruno', 'Carlos'],
'Idade': [25, 30, 35],
'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(dados)
print(df)

     Nome  Idade          Cidade
0     Ana     25       S√£o Paulo
1   Bruno     30  Rio de Janeiro
2  Carlos     35  Belo Horizonte


In [32]:
# Criando DataFrames a partir de listas:
df2 = pd.DataFrame({'Calorias':[200, 350, 550], 'Gordura (%)':[0, 6, 15]}, index=['banana', 'prato feito', 'big mac'])
print(df2)
print()

             Calorias  Gordura (%)
banana            200            0
prato feito       350            6
big mac           550           15



In [5]:
# Outra maneira de criar um DataFrame
df2_v2 = pd.DataFrame(dados, columns= ['Nome', 'Idade', 'Cidade', 'UF'], index=[1, 2, 3])
# Criei o DataFrame j√° identificando os indices e tamb√©m quais seriam suas colunas.
# E tamb√©m passando de onde viria os dados.

df2_v2

Unnamed: 0,Nome,Idade,Cidade,UF
1,Ana,25,S√£o Paulo,
2,Bruno,30,Rio de Janeiro,
3,Carlos,35,Belo Horizonte,


#### Acessando DataFrames

Quando trabalhamos com Series, acessamos atraves do indice, j√° nos DataFrammes, acessamos atraves do nome da coluna

In [36]:
df[['Cidade']] # Retornar a consulta como DataFrame

Unnamed: 0,Cidade
0,S√£o Paulo
1,Rio de Janeiro
2,Belo Horizonte


In [37]:
df['Cidade'] # Retornar a consulta como Serie

0         S√£o Paulo
1    Rio de Janeiro
2    Belo Horizonte
Name: Cidade, dtype: object

#### Adicionando colunas

In [55]:
df['new'] = df['Idade']

In [39]:
df

Unnamed: 0,Nome,Idade,Cidade,new
0,Ana,25,S√£o Paulo,25
1,Bruno,30,Rio de Janeiro,30
2,Carlos,35,Belo Horizonte,35


In [44]:
# Quantas calorias eu consumiria ao comer duas vezes:
df2['Total_Calorias'] = df2['Calorias'] * 2

In [43]:
df2

Unnamed: 0,Calorias,Gordura (%),Total_Calorias
banana,200,0,400
prato feito,350,6,700
big mac,550,15,1100


#### Deletando colunas do DataFrame

Um observa√ß√£o curiosa √© que, no Pandas, se n√£o for especificado, ele ira trabalhar com uma especie de copia do DataFrame, e voc√™ trabalhar√° com isso, at√© que seja especificado que voc√™ quer que seja o original. O que isso quer dizer?

Vamos atentar ao exemplo abaixo:

In [50]:
df.drop('new', axis=1)	

# axis=0 corresponde a linhas
# axis=1 corresponde a colunas

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carlos,35,Belo Horizonte


O comando: _df.drop('new', axis=1)_ diz para o Pandas apagar a coluna que tem o nome 'new'. Por√©m, ele trabalha com o 'como seria' se for feito dessa maneira.

Se eu for acessar novamente esse dataframe, a coluna 'new' ainda estar√° l√°:

In [51]:
df

Unnamed: 0,Nome,Idade,Cidade,new
0,Ana,25,S√£o Paulo,25
1,Bruno,30,Rio de Janeiro,30
2,Carlos,35,Belo Horizonte,35


Ent√£o, como eu apago definitivamente a coluna?

Existem diversas maneiras, uma delas √© salvar em um novo DataFrame:

In [52]:
df3 = df.drop('new', axis=1)
df3

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carlos,35,Belo Horizonte


Ou ent√£o, utilizar a flag da pr√≥pria fun√ß√£o que permite fazer isso:

In [56]:
df.drop('new', axis=1, inplace=True) # Est√° dizendo que quero deletar do DataFrame Original sem c√≥pias

In [57]:
df

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carlos,35,Belo Horizonte


### üîç Principais opera√ß√µes com DataFrame:

| Comando                | O que faz                                      | Exemplo                             |
| ---------------------- | ---------------------------------------------- | ----------------------------------- |
| `.head()`              | Mostra as 5 primeiras linhas                   | `df.head()`                         |
| `.tail()`              | Mostra as 5 √∫ltimas linhas                     | `df.tail()`                         |
| `.shape`               | Retorna (linhas, colunas)                      | `df.shape`                          |
| `.columns`             | Mostra os nomes das colunas                    | `df.columns`                        |
| `.index`               | Mostra os √≠ndices                              | `df.index`                          |
| Acessar uma coluna     | Retorna uma Series                             | `df['Nome']`                        |
| Acessar v√°rias colunas | Retorna outro DataFrame com colunas escolhidas | `df[['Nome', 'Idade']]`             |
| Acessar uma linha      | Retorna uma linha espec√≠fica                   | `df.loc[0]`                         |
| Filtrar linhas         | Retorna linhas com condi√ß√£o l√≥gica             | `df[df['Idade'] > 25]`              |
| Adicionar coluna       | Cria uma nova coluna                           | `df['Altura'] = [1.65, 1.80, 1.70]` |
| Remover coluna         | Remove uma coluna                              | `df.drop('Cidade', axis=1)`         |
| Ordenar por coluna     | Ordena as linhas                               | `df.sort_values('Idade')`           |


### üìù Exemplo completo:

In [4]:
dados2 = {
    'Nome': ['Ana', 'Bruno', 'Carla'],
    'Idade': [25, 30, 22],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Curitiba']
}

df_dados2 = pd.DataFrame(dados2)

print("DataFrame completo:\n", df_dados2)
print("----------------------------------------")
print("\nSomente a coluna Nome:\n", df_dados2['Nome'])
print("----------------------------------------")
print("\nSomente as duas primeiras linhas:\n", df_dados2.head(2))
print("----------------------------------------")
print("\nFiltrando quem tem Idade maior que 23 anos:\n", df_dados2[df_dados2['Idade'] > 23])
print("----------------------------------------")
print("\nDataFrame ordenado pela Idade:\n", df_dados2.sort_values('Idade'))
print("----------------------------------------")


DataFrame completo:
     Nome  Idade          Cidade
0    Ana     25       S√£o Paulo
1  Bruno     30  Rio de Janeiro
2  Carla     22        Curitiba
----------------------------------------

Somente a coluna Nome:
 0      Ana
1    Bruno
2    Carla
Name: Nome, dtype: object
----------------------------------------

Somente as duas primeiras linhas:
     Nome  Idade          Cidade
0    Ana     25       S√£o Paulo
1  Bruno     30  Rio de Janeiro
----------------------------------------

Filtrando quem tem Idade maior que 23 anos:
     Nome  Idade          Cidade
0    Ana     25       S√£o Paulo
1  Bruno     30  Rio de Janeiro
----------------------------------------

DataFrame ordenado pela Idade:
     Nome  Idade          Cidade
2  Carla     22        Curitiba
0    Ana     25       S√£o Paulo
1  Bruno     30  Rio de Janeiro
----------------------------------------


____

# 1.4. Acessando o indice do DataFrame (iloc[]) e Filtros

### O que √© .iloc[]?
.iloc[] √© usado para selecionar linhas e colunas pelo n√∫mero da posi√ß√£o (√≠ndice inteiro). Significa: "integer-location based indexing".

Ou seja: voc√™ n√£o usa o nome da coluna ou do √≠ndice personalizado ‚Äî usa apenas n√∫meros (0, 1, 2, ...).


In [5]:
# Vamos utilizar o dataFrame anterior: dados2
df_dados2

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba


## 1.4.1. Utilizando o *iloc*:

**Aten√ß√£o**: O √≠ndice come√ßa do zero, e como consequencia o fatiamento √© igual ao range() do Python, por exemplo:

Dado os seguintes valores: (5, 2, 6, 8). Fa√ßa um fatiamento de (0, 2).

Resultado: _(5, 2)_


**Quando usar .iloc[]?**
- ‚úîÔ∏è Quando voc√™ quer selecionar pelo n√∫mero da posi√ß√£o da linha/coluna, e n√£o pelo nome.
- ‚úîÔ∏è Muito √∫til em la√ßos, fun√ß√µes ou manipula√ß√µes onde n√£o sabe o nome da coluna.

___

### 1. Selecionar uma linha especifica:

In [16]:
df.iloc[0]
# Vai selecionar a primeira linha do dataFrame

Nome            Ana
Idade            25
Cidade    S√£o Paulo
Name: 0, dtype: object

### 2. Selecionar uma c√©lula espec√≠fica (linha, coluna):

In [19]:
df.iloc[0, 1] # Primeira linha, segunda coluna

# O resultado ser√° a idade de Ana, 25

np.int64(25)

### 3. Selecionar um intervalo de linhas (slice):

In [23]:
df.iloc[0:2] # Vai retornar as duas primeiras linhas

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro


### 4. Selecionar uma coluna espec√≠fica (todas as linhas, coluna 0):


In [25]:
df.iloc[:, 0] # Retorna a coluna 'Nome' e todas as linhas da coluna

0      Ana
1    Bruno
2    Carla
Name: Nome, dtype: object

### 5. Selecionar um "peda√ßo" espec√≠fico:

In [27]:
df.iloc[0:2, 0:2]    # Linhas 0 e 1, Colunas 0 e 1

Unnamed: 0,Nome,Idade
0,Ana,25
1,Bruno,30



### üìå Diferen√ßa entre .loc[] e .iloc[]:

| M√©todo    | Baseado em...        | Exemplo             |
| --------- | -------------------- | ------------------- |
| `.loc[]`  | **Nome** (label)     | `df.loc[0, 'Nome']` |
| `.iloc[]` | **Posi√ß√£o (n√∫mero)** | `df.iloc[0, 0]`     |


### 1.4.2. Filtros:
 
#### O que √© um Filtro no Pandas?
Filtrar um DataFrame significa selecionar linhas que atendem a uma condi√ß√£o espec√≠fica.
Saber fazer filtros em DataFrames √© uma das habilidades mais importantes em Pandas ‚Äî e a maioria das an√°lises de dados come√ßa por aqui.

Por exemplo:
- Quero ver s√≥ as pessoas com idade maior que 25.
- Quero ver quem mora em "S√£o Paulo".

In [47]:
dados3 = {
    'Nome': ['Ana', 'Bruno', 'Carla', 'Daniel'],
    'Idade': [25, 30, 22, 28],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Curitiba', 'S√£o Paulo']
}

df3 = pd.DataFrame(dados3)
df3

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba
3,Daniel,28,S√£o Paulo


### Como fazer filtros?

#### 1. Filtro simples (condi√ß√£o √∫nica)

In [12]:
# Quero apenas as colunas que tenham idade maior que 25 anos
df3[df3['Idade'] > 25]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,30,Rio de Janeiro
3,Daniel,28,S√£o Paulo


#### 2. Filtro com Igualdade: 

In [14]:
# Mostre s√≥ quem mora em S√£o Paulo:
df3[df3['Cidade'] == 'S√£o Paulo']

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
3,Daniel,28,S√£o Paulo


#### 3. Filtro com m√∫ltiplas condi√ß√µes (AND):

In [18]:
# Quem tem mais de 25 anos e mora em S√£o Paulo:
df3[(df3['Idade'] > 25) & (df3['Cidade'] == 'S√£o Paulo')]

Unnamed: 0,Nome,Idade,Cidade
3,Daniel,28,S√£o Paulo


#### 4. Filtros com m√∫ltiplas condi√ß√µes (OR):

In [19]:
# Quem mora em Curitiba ou S√£o Paulo:
df3[(df3['Cidade'] == 'Curitiba') | (df3['Cidade'] == 'S√£o Paulo')]

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
2,Carla,22,Curitiba
3,Daniel,28,S√£o Paulo


#### 5. Filtro com isin() (valor est√° em uma lista):


In [23]:
# Quem mora em Curitiba ou Rio de Janeiro:
df3[df3['Cidade'].isin(['Curitiba', 'Rio de Janeiro'])]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba


#### 6. Filtro com not(~):

In [26]:
# Quem n√£o mora em S√£o Paulo
df3[~df3['Cidade'].isin(['S√£o Paulo'])]

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba


### Dicas importantes:
Para combinar condi√ß√µes:
- AND: &
- OR: |
- NOT: ~

Sempre coloque par√™nteses nas condi√ß√µes:

In [27]:
(df3['Idade'] > 25) & (df3['Cidade'] == 'S√£o Paulo')

0    False
1    False
2    False
3     True
dtype: bool

.isin([]) √© √≥timo para verificar v√°rios valores de uma vez.

___

# 1.5. Opera√ß√µes com √≠ndices

### O que √© um √çndice no Pandas?
Em um DataFrame ou Series, o √≠ndice √© a "etiqueta" que identifica cada linha.

Ele funciona como o "endere√ßo" de cada dado ‚Äî como se fosse o n√∫mero da linha em uma tabela do Excel

In [48]:
# Exemplo:
df3

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba
3,Daniel,28,S√£o Paulo


Os n√∫meros a esquerda (0, 1, 2 e 3) s√£o os √≠ndices. Eles n√£o fazem parte dos seus dados ‚Äî s√£o um "r√≥tulo" para acessar linhas.


**Uma dica importante e interresante** √© que voc√™ sempre pode usar **_√≠ndices num√©ricos_ com .iloc[]** e **_√≠ndices "nomeados"_ com .loc[]**.

## Opera√ß√µes Comuns com √≠ndices:

### 1. Acessar um √≠ndice:

In [49]:
# Ele mostrara os indices
# Caso os indices tenham sido gerados de maneira padr√£o, que √© quando n√£o definimos um index
# e o pr√≥prio pandas cria um rangeIndex, ele mostrar√° exatamente isso no resultado.
df3.index

RangeIndex(start=0, stop=4, step=1)

In [42]:
# Por exemplo, as colunas foram definidas antecipadamente, ent√£o quando eu pe√ßo para ver...
df3.columns

Index(['Nome', 'Idade', 'Cidade'], dtype='object')

### 2. Definir um √≠ndice personalizado:

In [50]:
#### Vamos definir que a coluna 'Nome' ser√° os index
df3.set_index('Nome', inplace=True)

In [51]:
df3

Unnamed: 0_level_0,Idade,Cidade
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Ana,25,S√£o Paulo
Bruno,30,Rio de Janeiro
Carla,22,Curitiba
Daniel,28,S√£o Paulo


### 3. Resetar o √≠ndice
O √≠ndice volta a ser num√©rico (0, 1, 2) e a coluna 'Nome' volta a ser coluna normal.

In [52]:
df3.reset_index(inplace=True)

In [53]:
df3

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,S√£o Paulo
1,Bruno,30,Rio de Janeiro
2,Carla,22,Curitiba
3,Daniel,28,S√£o Paulo


### 4. Renomear √≠ndices:

In [55]:
df3.index = ['A', 'B', 'C', 'D']

In [56]:
df3

Unnamed: 0,Nome,Idade,Cidade
A,Ana,25,S√£o Paulo
B,Bruno,30,Rio de Janeiro
C,Carla,22,Curitiba
D,Daniel,28,S√£o Paulo


### 5. Filtrar usando √≠ndice:

In [60]:
df3_copy = df3.set_index('Nome')
print(df3_copy.loc['Ana']) # Acessa a lista da Ana

Idade            25
Cidade    S√£o Paulo
Name: Ana, dtype: object


### RESUMO R√ÅPIDO:

| Opera√ß√£o                    | C√≥digo                       | O que faz                               |
| --------------------------- | ---------------------------- | --------------------------------------- |
| Ver √≠ndice                  | `df.index`                   | Mostra o √≠ndice atual                   |
| Definir coluna como √≠ndice  | `df.set_index('coluna')`     | Transforma uma coluna no novo √≠ndice    |
| Resetar √≠ndice              | `df.reset_index()`           | Volta para √≠ndice padr√£o (0,1,2...)     |
| Ordenar pelo √≠ndice         | `df.sort_index()`            | Ordena DataFrame pelo √≠ndice            |
| Renomear √≠ndice manualmente | `df.index = ['a', 'b', 'c']` | Define √≠ndices novos                    |
| Filtrar pelo √≠ndice         | `df.loc['r√≥tulo']`           | Acessa linhas espec√≠ficas usando √≠ndice |


___

# 1.6. Tratamento de dados ausentes

### O que s√£o Dados Ausentes?
S√£o valores faltantes, nulos ou indefinidos em um conjunto de dados.

No Pandas, eles aparecem geralmente como:
- NaN (Not a Number)
- None (Python)


**Dicas importantes**:
- Nunca elimine dados ausentes automaticamente ‚Äî √†s vezes eles s√£o importantes.
- Decida o que fazer caso a caso: remover? preencher? ignorar?
- Valores ausentes podem enviesar uma an√°lise estat√≠stica se n√£o forem tratados.

In [85]:
# Exemplo
import numpy as np

dados_ausentes = {'Nome': ['Ana', 'Bruno', 'Carla', 'Daniel'],
         'Idade': [25, np.nan, 22, 28],
         'Cidade': ['S√£o Paulo', 'Rio de Janeiro', None, 'S√£o Paulo']}

df_ausentes = pd.DataFrame(dados_ausentes)

In [66]:
df_ausentes

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,,Rio de Janeiro
2,Carla,22.0,
3,Daniel,28.0,S√£o Paulo


### 1. Identificar dados ausentes:

In [68]:
df_ausentes.isnull() # Mostra True onde h√° valores ausentes


Unnamed: 0,Nome,Idade,Cidade
0,False,False,False
1,False,True,False
2,False,False,True
3,False,False,False


In [69]:
# Contar os valores ausentes
df_ausentes.isnull().sum()

Nome      0
Idade     1
Cidade    1
dtype: int64

### 2. Filtrar linhas com dados ausentes:

In [70]:
df_ausentes[df_ausentes['Idade'].isnull()]   # Filtra linhas onde 'Idade' √© NaN

Unnamed: 0,Nome,Idade,Cidade
1,Bruno,,Rio de Janeiro


### 3. Remover dados ausentes

In [72]:
# Remove qualquer linha que contenha pelo menos um NaN:
df_ausentes.dropna()

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
3,Daniel,28.0,S√£o Paulo


In [73]:
#  Remove s√≥ se todos os valores da linha forem NaN:
df_ausentes.dropna(how='all')

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,,Rio de Janeiro
2,Carla,22.0,
3,Daniel,28.0,S√£o Paulo


### 4. Preencher valores ausentes:

In [74]:
# Com valor especifico:
df_ausentes['Idade'] = df_ausentes['Idade'].fillna(0)   # Preenche NaN da coluna 'Idade' com 0

In [75]:
df_ausentes

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,0.0,Rio de Janeiro
2,Carla,22.0,
3,Daniel,28.0,S√£o Paulo


In [80]:
# Com a m√©dia, mediana ou moda:
df_ausentes['Idade'] = df_ausentes['Idade'].fillna(df_ausentes['Idade'].mean())  # Preenche com a m√©dia

In [81]:
df_ausentes

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,25.0,Rio de Janeiro
2,Carla,22.0,
3,Daniel,28.0,S√£o Paulo


In [89]:
# Utiliza√ß√£o em texto:
df_ausentes['Cidade'] = df_ausentes['Cidade'].fillna('N√£o informado')

In [84]:
df_ausentes

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,25.0,Rio de Janeiro
2,Carla,22.0,N√£o informado
3,Daniel,28.0,S√£o Paulo


### 5. Substituir todos os NaN's do DataFrame

In [88]:
df_ausentes.fillna('Sem dado')  # Substitui todos os NaN do DataFrame

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25.0,S√£o Paulo
1,Bruno,Sem dado,Rio de Janeiro
2,Carla,22.0,Sem dado
3,Daniel,28.0,S√£o Paulo


___

# 1.6. Groupby

O m√©todo groupby() do Pandas √© uma das ferramentas mais poderosas e essenciais para an√°lises agrupadas ‚Äî muito usado em relat√≥rios, resumos, dashboards e an√°lise de dados reais.

### O que √© o .groupby()?
O .groupby() √© usado para:
1. Agrupar dados de um DataFrame com base em uma ou mais colunas.
2. Fazer alguma opera√ß√£o de agrega√ß√£o (como soma, m√©dia, contagem, etc.) em cada grupo.

Ele funciona assim: Dividir ‚û°Ô∏è Agrupar ‚û°Ô∏è Agregar

Vamos ao exemplo:

In [91]:
dados3 = {'Categoria': ['A', 'B', 'A', 'B', 'A', 'C'],
         'Valor': [10, 20, 15, 25, 10, 30]}

df3 = pd.DataFrame(dados3)
df3

Unnamed: 0,Categoria,Valor
0,A,10
1,B,20
2,A,15
3,B,25
4,A,10
5,C,30


### 1. Agregar por categoria e somar valores:

In [93]:
df3.groupby('Categoria')['Valor'].sum() # O pandas ir√° somar os valores de cada categoria

Categoria
A    35
B    45
C    30
Name: Valor, dtype: int64

### 2. Calcular a m√©dia dos valores por categoria:

In [95]:
df3.groupby('Categoria')['Valor'].mean()

Categoria
A    11.666667
B    22.500000
C    30.000000
Name: Valor, dtype: float64

### 3. Contar em quantas entradas h√° em cada categoria:

In [96]:
df3.groupby('Categoria')['Valor'].count()

Categoria
A    3
B    2
C    1
Name: Valor, dtype: int64

### 4. Obter v√°rias estatisticas ao mesmo tempo:

In [99]:
df3.groupby('Categoria')['Valor'].agg(['sum', 'mean', 'count'])

Unnamed: 0_level_0,sum,mean,count
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,35,11.666667,3
B,45,22.5,2
C,30,30.0,1


## Agrupando por mais de uma coluna

In [101]:
dados4 = {'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
         'Subcategoria': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
         'Valor': [10, 15, 20, 25, 30, 35]}

df4 = pd.DataFrame(dados4)
df4

Unnamed: 0,Categoria,Subcategoria,Valor
0,A,X,10
1,A,Y,15
2,B,X,20
3,B,Y,25
4,C,X,30
5,C,Y,35


In [102]:
df4.groupby(['Categoria', 'Subcategoria'])['Valor'].sum()

Categoria  Subcategoria
A          X               10
           Y               15
B          X               20
           Y               25
C          X               30
           Y               35
Name: Valor, dtype: int64

___

# 1.7. Merge, concat e Join
Todas essas fun√ß√µes s√£o usadas para combinar/juntar DataFrames. Mas cada uma tem um jeito espec√≠fico de fazer isso.

## 1.7.1. Concat:
√â simplesmente juntar um embaixo ou ao lado do outro.

Pense assim: `√â como empilhar v√°rias planilhas ou colar blocos`.

Serve para:
- Empilhar DataFrames (em cima/embaixo ou lado a lado).
- N√£o se importa com chaves/colunas iguais.


In [104]:
df_1 = pd.DataFrame({'A': ['A1', 'A2'], 'B': ['B1', 'B2']})
df_2 = pd.DataFrame({'A': ['A3', 'A4'], 'B': ['B3', 'B4']})

In [105]:
df_1

Unnamed: 0,A,B
0,A1,B1
1,A2,B2


In [106]:
df_2

Unnamed: 0,A,B
0,A3,B3
1,A4,B4


### Juntar DataFrames em linhas (vertical):

In [107]:
pd.concat([df_1, df_2])

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
0,A3,B3
1,A4,B4


### Juntar DataFrames lado a lado (horizontal):

In [109]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,A,B,A.1,B.1
0,A1,B1,A3,B3
1,A2,B2,A4,B4


## 1.7.2. merge() - Juntar como no SQL (por chave):

 Serve para:
- Juntar DataFrames com base em uma coluna em comum (chave).
-  Igual ao JOIN do SQL.

Pense assim: _Juntar duas tabelas onde existe uma coluna em comum, tipo ID, CPF, produto, etc._

**Dicas importantes:**
- Sempre confira se as colunas-chaves est√£o com nomes id√™nticos antes de fazer merge.
- Para merges com nomes de colunas diferentes: **`|pd.merge(df1, df2, left_on='coluna1', right_on='coluna2')|`**
- No concat(), os dados podem ficar desalinhados se as colunas forem diferentes.

In [110]:
# Exemplo:
df_1 = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['Ana', 'Bruno', 'Carla']})
df_2 = pd.DataFrame({'ID': [1, 2, 4], 'Cidade': ['SP', 'RJ', 'MG']})

In [111]:
df_1

Unnamed: 0,ID,Nome
0,1,Ana
1,2,Bruno
2,3,Carla


In [112]:
df_2

Unnamed: 0,ID,Cidade
0,1,SP
1,2,RJ
2,4,MG


In [114]:
pd.merge(df_1, df_2, on='ID')

Unnamed: 0,ID,Nome,Cidade
0,1,Ana,SP
1,2,Bruno,RJ


‚úîÔ∏è S√≥ aparecem os IDs que existem nos dois DataFrames.

### Tipos de Merge:

| Tipo de Merge    | Descri√ß√£o                        | C√≥digo                                     |
| ---------------- | -------------------------------- | ------------------------------------------ |
| `inner` (padr√£o) | S√≥ o que existe nos dois         | `pd.merge(df1, df2, on='ID', how='inner')` |
| `left`           | Tudo do DF1 + combina√ß√µes do DF2 | `how='left'`                               |
| `right`          | Tudo do DF2 + combina√ß√µes do DF1 | `how='right'`                              |
| `outer`          | Todos os dados dos dois DF       | `how='outer'`                              |


## 1.7.3. join() - Juntar usando o √≠ndice como chave:

Serve para:
- Juntar DataFrames pelos seus √≠ndices (n√£o colunas).

In [115]:
# Exemplo:
df_1 = pd.DataFrame({'Nome': ['Ana', 'Bruno', 'Carla']}, index=[1,2,3])
df_2 = pd.DataFrame({'Idade': [25,30,22]}, index=[1,2,3])

In [116]:
df_1

Unnamed: 0,Nome
1,Ana
2,Bruno
3,Carla


In [117]:
df_2

Unnamed: 0,Idade
1,25
2,30
3,22


In [119]:
df_1.join(df_2)

Unnamed: 0,Nome,Idade
1,Ana,25
2,Bruno,30
3,Carla,22


‚úîÔ∏è Juntou automaticamente pelos √≠ndices iguais.

## Resumo:

| M√©todo     | Usa chave?       | Usa √≠ndice?  | Exemplo √∫til             | Parecido com        |
| ---------- | ---------------- | ------------ | ------------------------ | ------------------- |
| `concat()` | N√£o (s√≥ empilha) | N√£o          | Empilhar ou lado a lado  | "Copiar e colar"    |
| `merge()`  | Sim (coluna)     | N√£o          | Juntar por coluna comum  | SQL JOIN            |
| `join()`   | N√£o              | Sim (√≠ndice) | Juntar baseado no √≠ndice | SQL JOIN por √≠ndice |


___

# 1.8. Opera√ß√µes com DataFrames
Depois que voc√™ entende bem o que √© um DataFrame, o pr√≥ximo passo natural √© aprender a fazer opera√ß√µes com DataFrames ‚Äî algo que voc√™ usar√° muito no dia a dia de an√°lise de dados.

## O que s√£o "opera√ß√µes com DataFrames"?
S√£o a√ß√µes que podemos realizar entre colunas, entre linhas, entre dois DataFrames ou com constantes.

**Exemplos:**
- Soma de colunas
- Subtra√ß√£o entre DataFrames
- Opera√ß√µes aritm√©ticas
- Compara√ß√µes
- Aplica√ß√£o de fun√ß√µes

In [121]:
df = pd.DataFrame({
    'Produto': ['A', 'B', 'C'],
    'Pre√ßo': [10, 20, 15],
    'Quantidade': [2, 1, 3]
})

In [122]:
df

Unnamed: 0,Produto,Pre√ßo,Quantidade
0,A,10,2
1,B,20,1
2,C,15,3


## Tipos de opera√ß√µes comuns:

### 1. Opera√ß√µes aritmeticas comuns

In [125]:
# Quero o valor total dos produtos (A quantidade multiplicado pelo pre√ßo
df['Total'] = df['Pre√ßo'] * df['Quantidade']

In [124]:
df

Unnamed: 0,Produto,Pre√ßo,Quantidade,Total
0,A,10,2,20
1,B,20,1,20
2,C,15,3,45


### 2. Opera√ß√µes Aritm√©ticas com Constantes:

In [126]:
df['Pre√ßo_com_Desconto'] = df['Pre√ßo'] * 0.9   # 10% de desconto

In [127]:
df

Unnamed: 0,Produto,Pre√ßo,Quantidade,Total,Pre√ßo_com_Desconto
0,A,10,2,20,9.0
1,B,20,1,20,18.0
2,C,15,3,45,13.5


### 3. Opera√ß√µes entre DataFrames (Mesmo formato):

In [129]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

df1 + df2

Unnamed: 0,A,B
0,6,10
1,8,12


### 4. Opera√ß√µes l√≥gicas (Compara√ß√µes):

In [132]:
df['Caro'] = df['Pre√ßo'] > 15 # Se 'Pre√ßo' for maior que 15, significa que ele √© caro, ent√£o retorna 'True'

In [131]:
df

Unnamed: 0,Produto,Pre√ßo,Quantidade,Total,Pre√ßo_com_Desconto,Caro
0,A,10,2,20,9.0,False
1,B,20,1,20,18.0,True
2,C,15,3,45,13.5,False


### 5. Estat√≠sticas r√°pidas:

In [135]:
df['Pre√ßo'].sum()     # Soma total

np.int64(45)

In [136]:
df['Pre√ßo'].mean()    # M√©dia

np.float64(15.0)

In [137]:
df['Pre√ßo'].min()     # M√≠nimo

np.int64(10)

In [138]:
df['Pre√ßo'].max()     # M√°ximo

np.int64(20)

In [139]:
df['Pre√ßo'].std()     # Desvio padr√£o

np.float64(5.0)

### 6. Aplicando fun√ß√µes com `.apply()`

In [146]:
df['Pre√ßo_formatado'] = df['Pre√ßo'].apply(lambda x: f'R${x:.2f}')

In [147]:
df

Unnamed: 0,Produto,Pre√ßo,Quantidade,Total,Pre√ßo_com_Desconto,Caro,Pre√ßo_formatado
0,A,10,2,20,9.0,False,R$10.00
1,B,20,1,20,18.0,True,R$20.00
2,C,15,3,45,13.5,False,R$15.00


### Outras coisas:

In [141]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Produto             3 non-null      object 
 1   Pre√ßo               3 non-null      int64  
 2   Quantidade          3 non-null      int64  
 3   Total               3 non-null      int64  
 4   Pre√ßo_com_Desconto  3 non-null      float64
 5   Caro                3 non-null      bool   
dtypes: bool(1), float64(1), int64(3), object(1)
memory usage: 255.0+ bytes


In [142]:
df.memory_usage()

Index                 132
Produto                24
Pre√ßo                  24
Quantidade             24
Total                  24
Pre√ßo_com_Desconto     24
Caro                    3
dtype: int64

In [144]:
# Gerar um novo dataframe copiando algum j√° existente
df_copiar = df.copy()

In [145]:
df_copiar

Unnamed: 0,Produto,Pre√ßo,Quantidade,Total,Pre√ßo_com_Desconto,Caro
0,A,10,2,20,9.0,False
1,B,20,1,20,18.0,True
2,C,15,3,45,13.5,False


___

# 1.9. S√©ries Temporais no Pandas

## O que s√£o S√©ries Temporais?
S√©rie temporal √© um conjunto de dados onde o fator tempo (data/hora) √© essencial.

**Exemplo de s√©ries temporais:**

- Pre√ßos de a√ß√µes ao longo dos dias.
- Vendas mensais de uma empresa.
- Temperatura di√°ria de uma cidade.
- Frequ√™ncia de acesso a um site por hora.

**Dicas Importantes**:
- Trabalhe sempre com datas no tipo datetime64: **`pd.to_datetime(df['coluna_de_data'])`**
- Use resample() para agrupar dados temporais (muito usado em dashboards).
- Para an√°lise de tend√™ncias e sazonalidade, s√©ries temporais s√£o essenciais!

In [154]:
# Exemplo:
datas = pd.date_range(start='2024-01-01', periods=5, freq='D')
vendas = [100, 150, 200, 130, 170]

df = pd.DataFrame({'Data': datas, 'Vendas': vendas})

In [155]:
df

Unnamed: 0,Data,Vendas
0,2024-01-01,100
1,2024-01-02,150
2,2024-01-03,200
3,2024-01-04,130
4,2024-01-05,170


### 1. Transformando coluna em √≠ndice temporal:

In [157]:
df.set_index('Data', inplace=True) # Agora o √≠ndice √© temporal ‚Äî o Pandas reconhece a coluna "Data" como um objeto de tempo.

In [159]:
df.index # O √≠ndice √© do tipo 'DatetimeIndex

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05'],
              dtype='datetime64[ns]', name='Data', freq=None)

In [160]:
df

Unnamed: 0_level_0,Vendas
Data,Unnamed: 1_level_1
2024-01-01,100
2024-01-02,150
2024-01-03,200
2024-01-04,130
2024-01-05,170


### 2. Selecionando por datas:

In [162]:
# Com o index sendo um dataframe, tamb√©m temos a capacidade de fazer o seguinte...
# Quero puxar apenas quando o dia for apenas 04:
df[df.index.day == 4]

# Mas tamb√©m serve para se quisesse apenas o m√™s, ou o ano, enfim, para diversas coisas envolvendo per√≠odos de tempo

Unnamed: 0_level_0,Vendas
Data,Unnamed: 1_level_1
2024-01-04,130


In [163]:
df.loc['2024-01-03']

Vendas    200
Name: 2024-01-03 00:00:00, dtype: int64

### 3. Filtro por intervalo de datas:

In [164]:
df.loc['2024-01-02':'2024-01-04']

Unnamed: 0_level_0,Vendas
Data,Unnamed: 1_level_1
2024-01-02,150
2024-01-03,200
2024-01-04,130


### 4. Resampling (Reamostragem)

Reagrupar dados por per√≠odo ‚Äî exemplo: somar vendas por m√™s:

In [166]:
df.resample('D').sum()    # 'D' = di√°rio
df.resample('ME').sum()    # 'ME' = mensal

Unnamed: 0_level_0,Vendas
Data,Unnamed: 1_level_1
2024-01-31,750


### 5. Extraindo partes da data:

In [167]:
df['Ano'] = df.index.year
df['Mes'] = df.index.month
df['Dia'] = df.index.day

In [168]:
df

Unnamed: 0_level_0,Vendas,Ano,Mes,Dia
Data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2024-01-01,100,2024,1,1
2024-01-02,150,2024,1,2
2024-01-03,200,2024,1,3
2024-01-04,130,2024,1,4
2024-01-05,170,2024,1,5


___

# 1.10. Entrada e Sa√≠da de dados

Saber como fazer entrada e sa√≠da de dados (I/O ‚Äî Input/Output) no Pandas √© essencial, porque quase todo trabalho real de an√°lise come√ßa com:

- Ler dados de um arquivo (Excel, CSV, SQL, JSON etc.)
- Manipular no Python
- Salvar os dados processados para um novo arquivo.

O Pandas consegue ler arquivos de v√°rios formatos, como por exemplo: **_CSV (o mais comum), Excel (.xlsx), JSON, Arquivo de texto delimitado, SQL, dentre outros_**.

Como s√£o diversos os modos de se ter uma entrada de dados (e consequentemente a sa√≠da dos dados), n√£o vai ser poss√≠vel mostrar todas as maneiras, por isso **irei focar apenas em CSV**. 


Foi baixado um modelo de dataset CSV no 'Kaggle' para ser utilizado como pr√°tica.

In [171]:
# Lendo o arquivo CSV
df_csv = pd.read_csv('Books.csv')

In [170]:
df_csv

Unnamed: 0,title,author,pages,genre,description,published_date,publisher,language,average_rating,ratings_count,thumbnail
0,Fictional Points of View,Peter Lamarque,252,Literary Criticism,The volume focuses on a wide range of thinkers...,1996,Cornell University Press,en,No rating,0,http://books.google.com/books/content?id=rh-om...
1,Science Fiction and Fantasy Literature,"R. Reginald, Douglas Menville, Mary A. Burgess",802,Reference,"Science Fiction and Fantasy Literature, A Chec...",2010-09-01,Wildside Press LLC,en,No rating,0,http://books.google.com/books/content?id=P8zW2...
2,Library of Congress Subject Headings,Library of Congress. Cataloging Policy and Sup...,1662,"Subject headings, Library of Congress",No description available,2004,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=pEhkh...
3,Library of Congress Subject Headings,Library of Congress,1512,"Subject headings, Library of Congress",No description available,2007,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=FgAjF...
4,Fictional Space in the Modernist and Post-mode...,Carl Darryl Malmgren,248,Fiction,Fictional space is the imaginal expanse of fie...,1985,Bucknell University Press,en,No rating,0,http://books.google.com/books/content?id=KXzoz...
...,...,...,...,...,...,...,...,...,...,...,...
2044,The Index Card,"Helaine Olen, Harold Pollack",256,Personal Finance,Simplifies personal finance to ten rules that ...,2016-01-05,Portfolio,en,4.0,30000,http://books.google.com/books/content?id=8z4_D...
2045,The Road to Wealth,Suze Orman,608,Personal Finance,"A comprehensive guide to managing money, inves...",2001-04-01,Riverhead Books,en,4.1,50000,http://books.google.com/books/content?id=zv0oD...
2046,The Success Principles,Jack Canfield,512,Self-Help,A guide to achieving personal and financial su...,2004-12-28,HarperCollins,en,4.2,100000,http://books.google.com/books/content?id=7zL_D...
2047,The Courage to Be Rich,Suze Orman,448,Personal Finance,Combines emotional and practical advice for bu...,1999-03-01,Riverhead Books,en,4.0,40000,http://books.google.com/books/content?id=2c3_D...


In [172]:
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2049 entries, 0 to 2048
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   title           2049 non-null   object
 1   author          2049 non-null   object
 2   pages           2049 non-null   object
 3   genre           2049 non-null   object
 4   description     2049 non-null   object
 5   published_date  2049 non-null   object
 6   publisher       2049 non-null   object
 7   language        2049 non-null   object
 8   average_rating  2049 non-null   object
 9   ratings_count   2049 non-null   int64 
 10  thumbnail       2049 non-null   object
dtypes: int64(1), object(10)
memory usage: 176.2+ KB


---

In [182]:
# Filtrando o DataFrame para mostrar os livros publicados acima de 1990 e menor que 2000:
df_filtrado = df_csv[(df_csv['published_date'] > '1990') | (df_csv['published_date'] < '2000') ]

In [183]:
df_filtrado

Unnamed: 0,title,author,pages,genre,description,published_date,publisher,language,average_rating,ratings_count,thumbnail
0,Fictional Points of View,Peter Lamarque,252,Literary Criticism,The volume focuses on a wide range of thinkers...,1996,Cornell University Press,en,No rating,0,http://books.google.com/books/content?id=rh-om...
1,Science Fiction and Fantasy Literature,"R. Reginald, Douglas Menville, Mary A. Burgess",802,Reference,"Science Fiction and Fantasy Literature, A Chec...",2010-09-01,Wildside Press LLC,en,No rating,0,http://books.google.com/books/content?id=P8zW2...
2,Library of Congress Subject Headings,Library of Congress. Cataloging Policy and Sup...,1662,"Subject headings, Library of Congress",No description available,2004,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=pEhkh...
3,Library of Congress Subject Headings,Library of Congress,1512,"Subject headings, Library of Congress",No description available,2007,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=FgAjF...
4,Fictional Space in the Modernist and Post-mode...,Carl Darryl Malmgren,248,Fiction,Fictional space is the imaginal expanse of fie...,1985,Bucknell University Press,en,No rating,0,http://books.google.com/books/content?id=KXzoz...
...,...,...,...,...,...,...,...,...,...,...,...
2044,The Index Card,"Helaine Olen, Harold Pollack",256,Personal Finance,Simplifies personal finance to ten rules that ...,2016-01-05,Portfolio,en,4.0,30000,http://books.google.com/books/content?id=8z4_D...
2045,The Road to Wealth,Suze Orman,608,Personal Finance,"A comprehensive guide to managing money, inves...",2001-04-01,Riverhead Books,en,4.1,50000,http://books.google.com/books/content?id=zv0oD...
2046,The Success Principles,Jack Canfield,512,Self-Help,A guide to achieving personal and financial su...,2004-12-28,HarperCollins,en,4.2,100000,http://books.google.com/books/content?id=7zL_D...
2047,The Courage to Be Rich,Suze Orman,448,Personal Finance,Combines emotional and practical advice for bu...,1999-03-01,Riverhead Books,en,4.0,40000,http://books.google.com/books/content?id=2c3_D...


In [184]:
# Criando um novo arquivo CSV:
# Vamos pegar a informa√ß√£o anterior gerada com o filtro e colocara para gerar um novo arquivo

df_filtrado.to_csv("book_filtrado.csv")

In [186]:
pd.read_csv('book_filtrado.csv') # Gerado e visualizado com sucesso

Unnamed: 0.1,Unnamed: 0,title,author,pages,genre,description,published_date,publisher,language,average_rating,ratings_count,thumbnail
0,0,Fictional Points of View,Peter Lamarque,252,Literary Criticism,The volume focuses on a wide range of thinkers...,1996,Cornell University Press,en,No rating,0,http://books.google.com/books/content?id=rh-om...
1,1,Science Fiction and Fantasy Literature,"R. Reginald, Douglas Menville, Mary A. Burgess",802,Reference,"Science Fiction and Fantasy Literature, A Chec...",2010-09-01,Wildside Press LLC,en,No rating,0,http://books.google.com/books/content?id=P8zW2...
2,2,Library of Congress Subject Headings,Library of Congress. Cataloging Policy and Sup...,1662,"Subject headings, Library of Congress",No description available,2004,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=pEhkh...
3,3,Library of Congress Subject Headings,Library of Congress,1512,"Subject headings, Library of Congress",No description available,2007,Unknown Publisher,en,No rating,0,http://books.google.com/books/content?id=FgAjF...
4,4,Fictional Space in the Modernist and Post-mode...,Carl Darryl Malmgren,248,Fiction,Fictional space is the imaginal expanse of fie...,1985,Bucknell University Press,en,No rating,0,http://books.google.com/books/content?id=KXzoz...
...,...,...,...,...,...,...,...,...,...,...,...,...
2044,2044,The Index Card,"Helaine Olen, Harold Pollack",256,Personal Finance,Simplifies personal finance to ten rules that ...,2016-01-05,Portfolio,en,4.0,30000,http://books.google.com/books/content?id=8z4_D...
2045,2045,The Road to Wealth,Suze Orman,608,Personal Finance,"A comprehensive guide to managing money, inves...",2001-04-01,Riverhead Books,en,4.1,50000,http://books.google.com/books/content?id=zv0oD...
2046,2046,The Success Principles,Jack Canfield,512,Self-Help,A guide to achieving personal and financial su...,2004-12-28,HarperCollins,en,4.2,100000,http://books.google.com/books/content?id=7zL_D...
2047,2047,The Courage to Be Rich,Suze Orman,448,Personal Finance,Combines emotional and practical advice for bu...,1999-03-01,Riverhead Books,en,4.0,40000,http://books.google.com/books/content?id=2c3_D...


# Referencias:

- Sobre Series:
    - https://pythonacademy.com.br/blog/series-no-pandas
 

- Sobre DataFrames:
    - https://pythonacademy.com.br/blog/dataframes-do-pandas
 
- https://www.alura.com.br/artigos/pandas-o-que-e-para-que-serve-como-instalar?srsltid=AfmBOoownB66j48peufL3Qc19kyDVEx4h1Id7PtWKpn9LGqSsJOU1dwZ

# T√≥picos
Os t√≥picos a seguir foram retirados de estudos do curso: 
- "Data Science e Machine Learning - Asimov Academy, -> A maior parte
- "Curso da DSA - " ,
- "Ci√™ncia de Dados Impressionardo" - Telegram, e
- de outros locais de sites da internet.