# 🎯 Introdução

##  👾 <font size=5>Porque pandas?<font>

- [Pandas](https://pandas.pydata.org/) é um pacote que oferece estrutura de dados rapidas, fexiveis e expressivas projetadas para tornar o trabalho com dados "Relacionais" ou "Rotulados/Indexados" fácil e intuitivo. 

- O pandas é a biblioteca mais utilizada para manipulação de dados.

- Tem uma sintaxe simples.

- Possui comandos muito importante para tratar e tirar insights.

##  👾 <font size=5>O que é o pandas?<font>

- O pandas é uma biblioteca python criada por Wes Mckinney.
- Por debaixo do panos o pandas utiliza o numpy para ser mais eficiente e muitos dos seus bits algoritmicos de baixo nivel foram extensivamente ajustados no código Cython. 
- Cria e manipula estruturas unidimencionais e bidimensionais.
- Tem integração com matplotlib para visualização de dados.
- Fornece muitas funcionalidadades para a preparação de dados: reshaping, merging, ordenação, slince, agregação, etc.
- Permite a crição de novas colunas derivadas (muito importante para machine learning).
- Permite o tratamento de dados faltantes (também essencial para machine learning).

##  👾 <font size=5>Estrutura de dados do pandas<font>

As duas estrutura de dados primária do pandas são:
- Series: Array de tipo homogêneo rotulado e contém 1 dimensão.
- DataFrame: Estrutura tabular de tamanho mutável e rotulado, contém 2 dimenções com coluna potencialmente heterogênea.

Todas as estruturas de dados pandas são mutáveis em valor (os valores que elas contém podem ser alterados), mas nem sempre mutáveis em tamanho. O comprimento de uma "Series" não pode ser alterado, mas por exemplo, colunas podem ser inseridas em um DataFrame, no entanto a grande maioria dos métodos produz novos objetos.

Veremos mais sobre essas dus estruturas mais adiante.

##  👾 <font size=5>O necessário para manipular dados no pandas<font>

* Criação de objetos
* Entrada e saída de dados
* Visualizando dados
* Gráficos
* Seleção
* Operações
* Agregações e Junções (Merge vs Join)
* Agrupamento (Grouping)
* Remodelagem
* Dados ausentes
* Séries Temporais
* Categóricos
* Lidando com Erros

# 🎯 Instalação

Para instalar o pandas existem várias maneiras, a que eu vou apresentar você vai precisar ter o jupyter [notebook](https://jupyter.org/install#jupyter-notebook) e o [python](https://www.python.org/downloads/) instalados.

Agora você abre o jupyter e roda esse comando para instalar o pandas.

In [1]:
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable


Rode esse outro comando para conferir a versão do pandas

In [2]:
import pandas
pandas.__version__

'1.4.4'

# 🎯 Convenção de importação

O acordo feito pela comunidade pandas escolheu o apelido 'pd' como padrão para utilizar na hora da importação. Para que outras pessoas possam ler o seu código sem dificuldades é bom usar pd.

In [3]:
import pandas as pd 

# 🎯  Series

##  👾 <font size=5>Definição<font>

<br>
Series é uma matriz rotulada unidimensional que pode receber diversos tipos dados como entrada, por exemplo, str, bool, int, float, uma lista, um 1D np.ndarray, alguns objetos python e etc. <br><br>

Já os dados que podem ser armazenados nas colunas de uma Series são: str, int, float, bool, dados categóricos e mais ...<br><br>

obs: Dentro de uma Series pode haver uma salada de dados, no entanto vale ressalatar que o pandas é implementado usando o numpy, então se você colocar uma salada mista de dados dentro uma Series ela irá perder performace e muitas das suas vantangens.<br><br>

<img src='https://pythonru.com/wp-content/uploads/2020/05/struktura-obekta-series.png' style='float:left'>

 <br>

##  👾 <font size=5>Parametros de criação<font>

<br>
Os parametros para a criação de uma Series estão logo abaixo junto com a explicação de cada um. 

No entanto caso você queira beber da fonte o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.Series.html?highlight=pandas%20series#pandas.Series).<br><br>

### <font color=purple>_pandas.Series (_<font>
<br>

**data** =  None<br> 
**index** =  None<br>
**dtype** =  None<br>
**name** =  None<br>
**copy** =  False<br>

### <font color=purple>_)_<font>
<br>


### <font color=purple>data : array-like, Iterable, dict, or scalar value<font>

O parâmetro data recebe um objeto python que será transformado em uma Series. Esse objeto pode ser uma iterable, um dicionário, um int, uma str, etc.

Quando você for passar ao parâmetro **data** alguma iterable, é bom lembrar que o pandas utiliza o numpy por baixo do capor, por isso passar uma iterable com elementos que possuem tipos de dados diferentes fará com que você tenha uma Series pouco performática. Você pode até criar uma Series que contém uma salada mista de dados, mas o ideal é utilizar apenas um tipo de dado.

Agora vamos criar uma Series a partir de uma lista e também apartir de um valor do tipo int.

In [4]:
se1 = pd.Series(data=['A', 'B', 'C', 'D'])
print(f'--se1-- \n{se1}')

print('\n')

se2 = pd.Series(data=2)
print(f'--se2-- \n{se2}')

--se1-- 
0    A
1    B
2    C
3    D
dtype: object


--se2-- 
0    2
dtype: int64


 <br>

Criando uma Series que contém uma salada mista de dados.

In [5]:
se = pd.Series(data=['Audax', 18, 1.81, 'M', True])
se

0    Audax
1       18
2     1.81
3        M
4     True
dtype: object

 <br>

Quando criamos uma Series a partir de um dicionário, as chaves do dicionário se tornarão os indices da Series e os valores da chaves se tornarão os elementos da Series. Mais adiante falaremos melhor sobre como funciona os indices de uma Series.

In [6]:
dicionario = {
    'Nome' : 'Audax',
    'Idade': 18,
    'Sexo': 'Masculino'
}

se = pd.Series(data=dicionario)
se

Nome         Audax
Idade           18
Sexo     Masculino
dtype: object

 <br> 


### <font color=purple>index : array-like or Index (1d) <font>

Antes de tudo precisamos entender como os indices de uma Series funciona. 

Uma Series tem 3 tipos de indices: 

**Indice negativo:** São valores negativos usados para representar os índices de uma Series. Para entendermos como isso acontece, o último elemento fica na posição -1, o penúltimo fica na posição -2, o antepenúltimo, na posição -3 e assim por diante. 


**Indice padrão:** Funciona como parecido como os indices de uma lista. O primeiro elemento tem indice 0, o segundo tem indice 1 e assim por diante. O que difere esse indice do indice de uma lista é a maneira como cada um é armazenado na memória, mais para frente veremos esse assunto.


**Index label:** Quando você defini os indices da uma Series ou DataFrame você está trabalhando com o index label (no português rótulo de indice). É possivel alterá-los sempre que necessário. 

---

Nesse primeiro momento não iremos ver como selecionar elementos ou fatias de uma Series. Apena iresmo aprender como definir os indices de uma Series.

---

O parâmetro **index** serve para definir os index labels de uma Series. Você passa uma lista com o mesmo tamanho que o objeto passado ao parâmetro **data**, composta por qualquer tipo de dado, desde que esses dados sejam [hashable](https://stackoverflow.com/questions/14535730/what-does-hashable-mean-in-python). Quando não definimos o index label, a Series adota por padrão o RangeIndex (0, 1, 2, …, n).

In [7]:
# Criando uma Series sem o index label

se = pd.Series(data=['Audax', 'Netuno', 'Ciclope'])
se

0      Audax
1     Netuno
2    Ciclope
dtype: object

In [8]:
# Criando uma Series e definindo o index label
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope'], index=['nome1', 'nome2', 'nome3'])
se

nome1      Audax
nome2     Netuno
nome3    Ciclope
dtype: object

In [9]:
# Definindo um index label muito louco
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope', 'Spike'], index=['nome1', 2.5, 2, True])
se

nome1      Audax
2.5       Netuno
2        Ciclope
True       Spike
dtype: object

 <br>

É importante lembrar que é possivel usar o indice negativo e o indice padrão após o index label ser definido, menos quando o index label for definido por valores do tipo int ou float. Nesse caso o index label meio que sobrescrevece os outros tipos de indices.

In [10]:
# Definindo um index label com valores numericos, mas que não remete ao RangeIndex(0, 1, 2, ..., n)
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope', 'Spike'], index=[-2, 13.3, 10, 0])
se

-2.0       Audax
 13.3     Netuno
 10.0    Ciclope
 0.0       Spike
dtype: object

 <br>

Parece meio estranho, mas podemos ter valores de índices iguais, quando buscamos pelo indice, ele tráz todos os elementos 'apontados' por aquele indice (todas as linhas que tem referência daquele índice).

In [11]:
# Definindo um index label com valores de indices repetidos
se = pd.Series(data=['Audax', 'Netuno', 'Ciclope', 'Spike'], index=['A', 'A', 'B', 'C'])
print(se, '\n')

# Selecionando os valores que correspondem ao indice 'A'
se['A']

A      Audax
A     Netuno
B    Ciclope
C      Spike
dtype: object 



A     Audax
A    Netuno
dtype: object

 <br>


### <font color=purple>dtype : str, numpy.dtype, or ExtensionDtype, optional <font>

Esse parâmetro serve para definirmos o tipo de dado dos elementos de uma Series. Se não definirmos o tipo, o pandas infere a partir dos dados. É bem importante que uma Series tenha elementos com o mesmo tipo de dado, pois assim você terá mais eficiencia e muitas vantangens para manipulá-la.

In [12]:
# Usando uma string para definir o dtype de uma Series 
se = pd.Series(data=[18, 25, 19, 31], dtype='float') # Poderia ser 'str32', 'str16', 'int8', 'int32', 'bool', etc.
print(se.dtype)

float64


In [13]:
# Usando o numpy.dtype para definir o dtype de uma Series
se = pd.Series(data=[18, 25, 19, 31], dtype=np.float64)
print(se.dtype)

float64


 <br>

Quando uma Series tem uma salada mista de dados ou os dados são do tipo str, o dtype dela é defido pelo pandas como object.

In [14]:
se1 = pd.Series(data=['Audax', 18, 'M', 1.81])
se2 = pd.Series(data=['A', 'B', 'C', 'D'])

print(se1.dtype)
print(se2.dtype)

object
object


 <br>

Cuidado na hora conversão, para não tentar fazer conversões que não sejam possiveis.

In [15]:
se1 = pd.Series(data=[18.1, 25.3, 19.7, 31.8], dtype='int64')

ValueError: Trying to coerce float values to integers

 <br>


### <font color=purple>name : str, optional <font>

Serve para nomear uma Series, deve ser passado uma string. Se uma Serie for transformada numa coluna de um dataframe, o nome dela será usado como o rótulo da coluna do dataframe.

In [None]:
se = pd.Series(data=[13, 18, 17, 20, 23], name='Idade')
se

 <br>


### <font color=purple>copy : bool, default False <font>

Faz uma cópia do objeto de entrada. Afeta apenas a entrada Série ou 1d ndarray.

In [None]:
import numpy as np

# Criando um nd array para usar no exemplo
x = np.array([12, 13, 15, 11, 10])
print(x)

# Criando 2 Series, uma é uma copia e a outra apenas um tipo de apontamento para x
se1 = pd.Series(data=x, copy=True)
se2 = pd.Series(data=x, copy=False)

# Modificando o a variável x
x[0] = 99

# Mostrando as 2 Series e a variável x
print(x, '\n')
print(f'**se1** \n{se1}\n')
print(f'**se2** \n{se2}\n')

##  👾 <font size=5>Indexação basica<font>

Vimos anteriormente que uma Series possui 3 tipos de indices: **Indice negativo**, **Indice padão** e **Index
label**. Quando não definimos o index label podemos selecionar elementos de uma Series apenas usando o indice padrão. Já para selecionar intervalos podemos utilizar o indice padrão ou indece negativo.

In [42]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split())

# selecionando um único elemento
print(se[2], '\n\n')

# selecionando elementos especificos
print(se[[2, 3]], '\n\n')

# selecionando um intervalo de elementos
print(se[-4:-1]) 
se.index

Mike 


2    Mike
3    Xuxa
dtype: object 


1    Spike
2     Mike
3     Xuxa
dtype: object


RangeIndex(start=0, stop=5, step=1)

 <br>

Quando definimos os index labels de uma Series como valores inteiros ou float, só poderemos acessar os itens dessa Series utilizando o index label. Já para selecionar intervalos podemos utilizar o indice padrão ou indice negativo.

In [44]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index = [10, 20, 30, 40, 50])

# selecionando um único elemento
print(se[10], '\n\n')

# selecionando elementos especificos
print(se[[10, 20]], '\n\n')

# selecionando um intervalo de elementos
print(se[1:4])

Audax 


10    Audax
20    Spike
dtype: object 


20    Spike
30     Mike
40     Xuxa
dtype: object


 <br>

Por fim, quando definimos os index labels de uma Series como strings ou outro tipo de dado que não seja float ou int, poderemos acessar os elementos da Series utilizando os 3 tipos de indice. Para selecionar intervalos podemos também utilizar os 3 tipos de indice.

In [50]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index = 'a b c d e'.split())

# selecionando um único elemento
print(se['a'])
print(se[0])
print(se[-5])

Audax
Audax
Audax


In [52]:
# selecionando elementos especificos
print(se[['a', 'b']],'\n')
print(se[[0, 1]],'\n')
print(se[[-5, -4]])

a    Audax
b    Spike
dtype: object 

a    Audax
b    Spike
dtype: object 

a    Audax
b    Spike
dtype: object


In [53]:
# selecionando um intervalo de elementos
print(se['c':'d'],'\n') # perceba que o elemento que se encontra na posição 'd' é selecionado 
print(se[2:4], '\n')
print(se[-3:-1])

c    Mike
d    Xuxa
dtype: object 

c    Mike
d    Xuxa
dtype: object 

c    Mike
d    Xuxa
dtype: object


 <br>

O **range index** (index default da Series) deixa a Series ocupando menos espaço na memória do que o **int64 index** (tipo de indice de uma lista e outras iterables), pois em vez de armazenar o indice de cada elemento na memória ele guarada apenas o start, stop e o step, ou seja, o **primeiro indice**, o **ultimo indice** e a **razão entre os indices**.

In [None]:
import sys

# criando uma series com o indice range index
s1 = pd.Series([x for x in range(1000000)])
print(f'Tamanho de s1 em bytes: {sys.getsizeof(s1)}')

# criando uma series com o indice int64 index
s2 = pd.Series([x for x in range(1000000)], index=[x for x in range(1000000)])
print(f'Tamanho de s2 em bytes: {sys.getsizeof(s2)}')

 <br>

É possivel que uma Series tenha elementos com o mesmo indice, devido o index label aceitar duplicatas.

In [None]:
# criando uma Series com alguns indices repetidos
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index = 'a a a d e'.split())

# selecionando todos os elementos que correnspodem ao indice 'a'
se['a']

 <br>

Sobrescrevendo um elemento de uma Series.

In [None]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo o 1° elemento
se[0] = 999
print(se)

 <br>

Sobrescrevendo elementos especificos de uma Series.

In [None]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo os elementos
se[[0, 1, 2]] = 999
print(se)

 <br>

Sobrescrevendo intervalos de uma Series.

In [None]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo o intervalo
se[4:] = 999
print(se)

 <br>

Sobrescrevendo uma Series completa.


In [None]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70], index='A B C D E F G'.split())

# sobrescrevendo os elementos
novos_valores = [x for x in range(7)]
se[:] = novos_valores
print(se)

# note que somente os valores foram sobrescritos

 <br>

Trocando elementos de uma Series através de outra Series.

In [None]:
x = pd.Series([10, 20, 30, 40])
y = pd.Series(['A', 'A', 'A', 'A'])

# os elementos que estão na posição 0 e 2 de x vão ser substituidos pelos elementos que estão na posição 0 e 2 de y
x.loc[[0,2]] = y

print(x)

 <br>

##  👾 <font size=5>Indexação utilizando métodos<font>

No pandas temos duas maneiras muito interessantes de resgatar os dados que queremos, seja de um dataframe ou uma series. Neste tópico iremos trabalhar apenas com as series.

- Series.loc
- Series.iloc

Basicamente os dois métodos servem para resgatar dados, mas possuem características distintas na hora que vamos utilizá-los. Vamos entender agora quais são as particularidades deles e os casos de uso para cada um.

###  🐥 <font size=4>Series.loc<font>

Quando a Series tiver como indice o **range index**, o método loc só poderá selecionar elementos da Series através do range index.  
Quando a Series tiver como indice o **index label**, o método loc só poderá selecionar elementos da Series através do index label. 
 

Vamos criar uma Series para usar nos exemplos seguintes.

In [79]:
x = pd.Series(data='A B C D E F G H I J '.split())
x

0    A
1    B
2    C
3    D
4    E
5    F
6    G
7    H
8    I
9    J
dtype: object

Selecioando um elemento.

In [33]:
x.loc[0]

'A'

Selecionando elementos específicos.

In [34]:
x.loc[[0, 2, 4]]

0    A
2    C
4    E
dtype: object

Selecionando um intervalo de elementos. 

In [35]:
x.loc[3:5] # o elemento que se encontra no indice 5 será selecionado também

3    D
4    E
5    F
dtype: object

Selecionando e trocando os elementos da Series.

In [36]:
x.loc[0:3] = 'A'
x

0    A
1    A
2    A
3    A
4    E
5    F
6    G
7    H
8    I
9    J
dtype: object

###  🐥 <font size=4>Series.iloc<font>

O método iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso. Ou seja, por mais que uma Series tenha um index label definido o método iloc só seleciona os elementos da Series através do **range index** e também através do indice negativo. Apenas e nada mais.

Vamos criar uma Series para usar nos exemplos seguintes.

In [83]:
s = pd.Series(data=[x for x in range(100, 1001, 100)], index=[x for x in range(10, 101, 10)])
s

10      100
20      200
30      300
40      400
50      500
60      600
70      700
80      800
90      900
100    1000
dtype: int64

Selecionando apenas um elemento da Series.

In [84]:
s.iloc[0] # no lugar o 0 poderia ser o -10

100

Selecioando elementos específicos da Series.

In [85]:
s.iloc[[1, 2, 3]] 

20    200
30    300
40    400
dtype: int64

Selecioando um intervalo da Series.

In [86]:
s.iloc[0:5] # o valor que corresponde ao indice 5 não está incluso na seleção

10    100
20    200
30    300
40    400
50    500
dtype: int64

Selecionando e trocando os elementos da Series.

In [90]:
s.iloc[[0, 5, 8]] = 11111
s

10     11111
20       200
30       300
40       400
50       500
60     11111
70       700
80       800
90     11111
100     1000
dtype: int64

### 🐥 <font size=4>View e copy<font>

Compreender **view** (visualização superficial) e **copy** (cópia profunda) é uma parte importante para saber como o NumPy e o Pandas manipulam dados. Também pode ajudá-lo a evitar erros e gargalos de desempenho. Às vezes, os dados são copiados de uma parte da memória para outra, mas em outros casos, dois ou mais objetos podem compartilhar os mesmos dados, economizando tempo e memória.

Para saber se no pandas você obteve uma **view** (visualização superficial) ou uma **copy** (cópia profunda)  e se as alterações feitas em uma view serão propagadas para a Series ou o DataFrame original, vai depender da estrutura e dos tipos de dados da Series ou do DataFrame.

Uma visualização superficial é um ndarray do numpy que não possui seus próprios dados. Ele analisa, ou “visualiza”, os dados contidos no ndarray original. Por isso quando alterado, o ndarray original também será alterado, vice-versa.

In [91]:
# criando uma Series
x = pd.Series([x for x in range(10,101,10)])
x

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64

 <br>

O método loc e o método iloc retorna uma **view**

In [92]:
# view 1 
a = x.loc[0:4]   
print(f'**view 1**\n{a}', '\n\n')

# view 2
b = x.iloc[5:]
print(f'**view 2**\n{b}', '\n')

**view 1**
0    10
1    20
2    30
3    40
4    50
dtype: int64 


**view 2**
5     60
6     70
7     80
8     90
9    100
dtype: int64 



<br>

Quando tentamos mudar o elemento de uma view por outro elemento que tenha o tipo de dado diferente essa view deixa de ser view e se torna uma copy. Caso os elementos tenham o mesmo tipo a view continua sendo view.

In [94]:
# alterando a view 1   
a.loc[0,1] = 9999  
print(f'**view 1**\n{a}', '\n\n')

# alterando a view 2
b.iloc[3:] = 9999
print(f'**view 2**\n{b}', '\n')

**view 1**
0    9999
1    9999
2      30
3      40
4      50
dtype: int64 


**view 2**
5      60
6      70
7      80
8    9999
9    9999
dtype: int64 



 <br>

Resultado

In [95]:
print(f'**view 1**\n{a}', '\n\n')
print(f'**view 2**\n{b}', '\n\n')
print(f'Series original\n{x}')

**view 1**
0    9999
1    9999
2      30
3      40
4      50
dtype: int64 


**view 2**
5      60
6      70
7      80
8    9999
9    9999
dtype: int64 


Series original
0    9999
1    9999
2      30
3      40
4      50
5      60
6      70
7      80
8    9999
9    9999
dtype: int64


##  👾 <font size=5>Indexação booleana<font>

##  👾 <font size=5>Operações aritiméticas com Series<font>

## 👾 <font size=5>Coletando informações sobre uma Series<font>

Nesse tópico eu pretendo mostrar algumas formar de coletar informações de uma Series. Informações essas, que serão importante para entender melhor os seus dados. Segue a baixo alguns métodos e atributos que usaremos.

- Series.dtypes
- Series.index
- Series.name
- Series.shape
- Series.max( )
- Series.min( )
- Series.mean( )
- Series.median( )
- Series.std( )
- Series.describe( )
- Series.unique( ) e nunique( )
- Series.count( )
- Series.value_counts( )
- Series.sample( )

###  🐥 <font size=4>Series.dtype<font>

O atributo dtype de uma Series quando chamado, informa o tipo de dado dos elementos que a compõe.

In [None]:
# criando a Series
se = pd.Series([13, 18, 19, 20, 16, 18])

# retornando o tipo dos dados que compõe a Series
print(se.dtype)

Quando uma series é composta por dados que possuem tipos diferentes ou por dados do tipo string. O pandas determina o seu tipo como object.

In [None]:
# criando as Series
se1 = pd.Series([(0, 1), False, True, 'Audax', 16, 18.5])
se2 = pd.Series('meu contato nas redes sociais > ohuanxp'.split())

# retornando o tipo dos dados que compõe a Series
print(se1.dtype)
print(se2.dtype)

###  🐥 <font size=4>Series.index<font>

###  🐥 <font size=4>Series.name<font>

# 🎯 DataFrame

## 👾  <font size=5>Definição<font>

<br>
O DataFrame é uma estrutura de dados tabular, semelhante a planilha de dados do Excel, essa estrutrura conciste em três componentes principais, os dados, linhas e colunas, onde as linhas e colunas possuem rotulos.<br>

Olhando para a estrutura do DataFrame vamos perceber que ele é a junção de duas ou mais Series, ou seja, cada coluna de um _**DataFrame**_ é uma _**Series**_, veja.<br><br>


![S](https://www.datasciencemadesimple.com/wp-content/uploads/2020/05/create-series-in-python-pandas-0.png)

<br><br>

Os dados que compoem cada coluna de um DataFrame podem ser variados, ou seja, uma coluna pode conter vários tipos de dados, como por exemplo, int e object (o pandas identifica str  como object). No entanto como o pandas  é implementado usando o numpy, isso fará o DataFrame perder performance e muitas das suas vantagens.<br>

Alguns dados de entrada para a criação de um DataFrame são: Dict, listas, Series, np.ndarray de 1D ou 2D , outro DataFrame e muito mais ...<br>

Já os dados que podem ser armazenados nas colunas de um DataFrame são: object (str), int, float, bool, dados categóricos e etc.<br>

Um DataFrame pode ter seu tamanho mudado, através da exclusão ou inserção de linhas ou colunas.


## 👾 <font size=5>Parametros de criação <font>

<br>
Os parametros de criação de um DataFrame estão abaixo junto com a explicação de cada um. 

No entanto caso você queira beber da fonte o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html?highlight=pandas%20dataframe#pandas.DataFrame).<br><br>

### <font color=purple>_pandas.DataFrame (_<font>
<br>

**data**    =  None<br> 
**index**   =  None<br>
**columns** =  None<br>
**dtype**   =  None<br>
**copy**    =  None<br>

### <font color=purple>_)_<font>
<br>


### <font color=purple>data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame<font>


O parametro _**data**_ é responsavel por receber o objeto que será transformado em um DataFrame, esse objeto pode ser do tipo dict, listas, Series, np.ndarray de 1D ou 2D e outro DataFrame.<br>

Por padrão esse parametro é None, o que signica que não há a necessidade de atribuir algum valor para esse parametro na hora da criação do DataFrame.


Quando não atribuimos nenhum valor ao parametro **data** estamos criando um DF vazio.

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame()
df

 <br>

Podemos montar um DataFrame com os estados da região norte do Brasil com uma **lista**, ao fazer isso a lista se trasmormará em uma coluna do DF (as linhas e colunas terão rotulos numéricos).

In [None]:
estados = ['Acre',
           'Amapá',
           'Amazonas',
           'Pará',
           'Rondônia',
           'Roraima',
           'Tocantins']

df = pd.DataFrame(data=estados)
df

 <br>

Também podemos utilizar uma **lista de listas** para montar um DataFrame com várias colunas.

In [None]:
capitais = [['Acre', 'AC', '803,5 mil', 'Rio Branco'],
            ['Amapá', 'AP', '776,6 mil', 'Macapá'],
            ['Amazonas', 'AM', '3,9 milhões', 'Manaus'],
            ['Pará', 'PA', '8,1 milhões', 'Belém'],
            ['Rondônia', 'RO', '1,7 milhão', 'Porto Velho'],
            ['Roraima', 'RR', '505,6 mil', 'Boa Vista'],
            ['Tocantins', 'TO', '1,5 milhão', 'Palmas']]


df = pd.DataFrame(data=capitais)
df

 <br>

Outra forma de criar um DataFrame é apartir de um **dicionário**. Quando criamos um DF a partir de um dicionário, cada item do dicionário será uma coluna do df, a chave será o rotulo da coluna e o valor da chave serão os valores da coluna.

In [None]:
estados = {'Estado': ['Acre',
                       'Amapá',
                       'Amazonas',
                       'Pará',
                       'Rondônia',
                       'Roraima',
                       'Tocantins'],
            'Sigla': ['AC',
                      'AP',
                      'AM',
                      'PA',
                      'RO',
                      'RR',
                      'TO'],
            'População': ['803,5 mil',
                          '776,6 mil',
                          '3,9 milhões',
                          '8,1 milhões',
                          '1,7 milhão',
                          '505,6 mil',
                          '1,5 milhão'],
            'Capital': ['Rio Branco',
                        'Macapá',
                        'Manaus',
                        'Belém',
                        'Porto Velho',
                        'Boa Vista',
                        'Palmas']}


df = pd.DataFrame(data=estados)
df

 <br>

**Resumo**<br>
Resumindo, o parametro data serve para indicar o que queremos que o pandas transforme em um DataFrame.

 <br>


### <font color=purple>index : Index or array-like<font>

O parametro index é opcional, por padrão o índice do dataframe começa em 0 e termina no último valor. Ele define os índices das linha.

Quando criamos um DataFrame a partir de outros objetos ou de inportação de dados, o pandas define o indice das linhas por padrão como numérico, mas é possivel modificar esses índices e passar como valor para o parametro **index** algum array.

In [None]:
import pandas as pd

In [None]:
nomes = ['Alba', 'Ana', 'Amélia', 
         'Breno', 'Bruno', 'Bernardo',
         'Carla', 'Cesar', 'Cris']

rotulo = [10, 11, 12, 13, 14, 15, 16, 17, 18]
# rotulo2 = [p[0] for p in nomes] 

df = pd.DataFrame(data=nomes, index=rotulo)
df

 <br>


### <font color=purple>Columns : Index or array-like<font>

Este parâmetro se comporta de duas maneiras diferentes. Vamos ver ná prática.

Quando criamos um dataframe a partir de uma lista de listas, os indices das linhas e os rotulos das colunas serão numéricos. Quando o rótulo das colunas forem numéricos, podemos usar o parâmetro columns para nomear as colunas.

In [None]:
lista = [['huan', 18, 'm'],   
         ['luigi', 19, 'm'],
         ['lucas', 18, 'm'],
         ['manoel', 17, 'm'], 
         ['simão', 19, 'm']]

# colunas sem nome 
df = pd.DataFrame(data=lista)
display(df)


# nomeando as colunas
df = pd.DataFrame(data=lista, columns=['nome', 'idade', 'sexo'])
display(df)

 <br>

Já quando criamos um dataframe a partir de um dicionário ou uma lista de Series, o parâmetro columns serve para definir quais itens do dicionário ou, quais Series da lista devem ser transformado no dataframe.

In [None]:
dic = {
    'nome' : ['huan', 'luigi', 'lucas', 'manoel', 'simão'],
    'idade' : [18, 19, 18, 17, 19],
    'sexo' : ['m', 'm', 'm', 'm', 'm']
    
}

# dataframe completo 
df = pd.DataFrame(data=dic)
display(df)


# apenas nome e sexo
df = pd.DataFrame(data=dic, columns=['nome', 'sexo'])
display(df)

 <br>


### <font color=purple>dtype : dtype, default None<font>

Esse parametro serve para forçar todos os valores a terem o mesmo tipo. Apenas um único dtype é permitido.<br>
Caso o DF tenha algum valor com tipo de dado igual a str não será possivel fazer a conversão.

In [None]:
idades = [12, 13, 14, 10, 11, 17, 10, 69]

# Alguns tipos de dados numéricos
flutuante = [np.float16, np.float32, np.float64]
inteiro = [np.int16, np.int32, np.int64]

df = pd.DataFrame(data=idades, dtype = inteiro[0])

df.dtypes

 <br>

Obs: caso exista um valor que é um numero, mas tem tipo str, é possivel fazer a conversão de todos os valores para float.

In [None]:
idades = ['12', 13, 14, 10, '11', '17', 10, '69']

flutuante = [np.float16, np.float32, np.float64]

df = pd.DataFrame(data=idades, dtype = flutuante[0])

df.dtypes

 <br>


### <font color=purple>copy : bool, default None<font>

O parametro **copy** serve para situações que você queira criar um dataframe novo a partir de uma Series ou um Dataframe antigo sem que alterações futuras nesses objetos possam alterar o DataFrame também.<br>

Esse parametro recebe valores booleanos, ou seja, **False** ou **True**. Por padrão ele é **False**.<br>

Caso o valor seja **True**, qualquer alteração no objeto de criação não acarretará em uma mudança no DataFrame.<br>

E se for **False**, qualquer alteração no objeto de criação acarretará em uma mudança no DataFrame.

In [None]:
dic = {
    'nome' : ['huan', 'luigi', 'lucas', 'manoel', 'simão'],
    'idade' : [18, 19, 18, 17, 19],
    'sexo' : ['m', 'm', 'm', 'm', 'm']
}

df = pd.DataFrame(data=dic)

df1 = pd.DataFrame(df, copy= True) # Agora é possivel fazer alterações no df1 sem alterar o df, vice e versa.
df2 = pd.DataFrame(df, copy= False) 

df.loc[0, ['nome']] = 'modificado'

display(df1)
display(df2)

 <br>

## 👾 <font size=5>Importando arquivos ou bases de dados<font>


<br>
O pandas oferece uma variedade de métodos que serve para ler um arquivo e transforma-lo em uma tabela (DataFrame). Veja alguns:
    
| [pd.read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=pandas%20read_) | 
[pd.read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html?highlight=pandas%20read_) | 
[pd.read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html?highlight=pandas%20read_) | 
[pd.read_html](https://pandas.pydata.org/docs/reference/api/pandas.read_html.html?highlight=pandas%20read_) | 
[pd.read_sas](https://pandas.pydata.org/docs/reference/api/pandas.read_sas.html?highlight=pandas%20read_) | 
[pd.read_sql](https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html?highlight=pandas%20read_) | 
[pd.read_table](https://pandas.pydata.org/docs/reference/api/pandas.read_table.html?highlight=pandas%20read_) |


<br>
Cada método foi criado para ler um tipo de arquivo e por isso tem suas particularidades, devido ao nome dos métodos fica facil entender pra qual tipo de arquivo ele serve. Abaixo segue a explicação de alguns desses métodos.<br><br>

###  🐥 pd.read_csv ( )



### O que esse método faz?

A maioria dos dados está disponivel em um formato tabular (linhas e colunas) de arquivos CSV. É muito popular. Por isso o pandas despolibiliza o método pd.read_csv, que importa um arquivo csv para o formato DataFrame. Também suporta iterar ou dividir o arquivo em partes. Caso você queira aprender como ler um arquivo CSV sem usar o pandas, o link está [aqui](https://www.youtube.com/watch?v=AnJPtKLtc7o&ab_channel=HashtagPrograma%C3%A7%C3%A3o).

### O que é um arquivo CSV?

CSV é a sigla para 'Comma Separated Values' (em português, valores separados por virgula). Um arquivo CSV é um arquivo de texto que organiza informações reparados por virgula em 2 dimenções, ou seja, linhas e colunas. O conteúdo geralmente são textos números ou datas. Os arquivos CSV podem ser facilmente importados e exportados usando programas que armazenam dados em tabelas.

### Como um arquivo CSV é organizado?

Em geral a primeira linha contém os rótulos das colunas das tabelas. Cada uma das linhas subsequentes representam uma linha da tabela. Virgulas separam cada valor da linha, o que é motivo para o nome do formato.

Aqui temos um exemplo de um arquivo CSV. O exemplo tem 3 colunas, com os rótulos nome, idade e comida favorita. Temos 5 linhas incluindo a linha do cabeçalho.

In [None]:
nome,idade,comida favorita
huan barros,18,muita coisa
joão polinario,15,pizza
ana barretos,17,lasanha
marcos silva,13,sorvete


### Parâmetros

Os parâmetros que esse método pode receber são inumeros, por isso separamos somente os que você provavelmente precisa conhecer no inicio. Mas, caso você queira conhecer todos os parâmetros o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv). <br><br>

### <font color=purple>_pd.read_csv (_<font> 
<br>

**filepath_or_buffer**<br>
**sep** = ',' <br>
**header** = 'infer' <br>
**names** = _NoDefault.no_default <br>
**index_col** = None <br>
**usecols** = None <br>
**dtype** = None <br> 
**converters** = None <br>
**skiprows** = None <br>
**skipfooter** = 0 <br>
**nrows** = None <br>
**na_values** = None <br>
**skipfooter** = True


### <font color=purple>_)_ <font> <br>




### <font color=purple>filepath_or_buffer : str<font>

Esse parâmetro é a localização do **arquivo.csv** e deve ser passado no formato de uma string. Se o **arquivo.csv** estiver no mesmo diretório do projeto será necessário ser passado apenas o nome do arquivo, caso contrário você terá que passar o caminho completo da base do seu sistema de arquivos para o **arquivo.csv** que você deseja carregar, por exemplo, /home/audax/Downloads/test_file.csv . Esse parâmetro também aceita a URL do arquivo como localização.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('base-de-dados/teste1.csv')
df

 <br>


### <font color=purple>sep : str<font>

Significa um separador, que serve para separar os valores de cada linha de um arquivo.csv, o padrão é uma vírgula. No entanto pode haver arquivos com o sepador diferente da virgula, como por exemplo, dois pontos, a barra vertical e muitos outros. Nesse caso é necessário indicar ao parâmetro **sep** que separador é esse.

In [None]:
df = pd.read_csv('base-de-dados/teste2.csv', sep='|') # o arquivo usa a barra vertical como separador
df

 <br>

É possivel haver mais de um tipo de separador em um arquivo CSV. Por isso o pandas dispolibiliza 3 mecanismos diferentes para o analisador de arquivos CSV. Os mecanismos C, pyarrow e python. C e pyarrow são mais rápidos ná hora de ler o arquivo e separar os valores, no entato eles não conseguem ler arquivos que tenham mais de 1 separador. Já o mecanismo python é atualmente mais completo e é capaz de ler arquivos CSV com mais de 1 separador, no entanto deixa a dejar na sua velocidade.

Para usar o pyarrow é necessário fazer a instalação do pyarrow.csv via pip ou conda. Os outros não precisa.

Para escolher o mecanismo que você quer usar o pandas disponibilizou o parametro **engine**, que recebe uma str com o nome do mecanismo.<br>



In [None]:
# é necessário passar os separadores dentro de colchetes, e o tipo do dado tem que ser str
df = pd.read_csv('base-de-dados/teste3.csv', sep='[,|:]', engine='python')
df

 <br>


### <font color=purple>header  : int, list of int<font>

Serve para especificar qual linha do seu arquivo será usada como os rótulos das colunas do seu DataFrame. É esperado um valor int ou uma lista de valores int. O valor padrão é **_header=0_**.

In [None]:
# Escolhendo a 4ª linha do arquivo como cabeçalho
df = pd.read_csv('base-de-dados/teste1.csv', header=3) 
df

In [None]:
# Escolhendo a 1ª e  a 2ª linha do arquivo como cabeçalho
df = pd.read_csv('base-de-dados/teste1.csv', header=[0, 1])   # Só pode ser uma lista de ints, outro tipo de array não
df

 <br>


### <font color=purple>names : array - like<font>

O parâmetro names recebe um array com valores que serão usados como o cabeçalho do DataFrame. O array não pode conter valores repetidos. Caso o seu arquivo CSV já tenha cabeçalho, ele se tornará a primeira linha do DataFrame. Para sobrescrever um cabeçalho já existente é necessário passar **header=0**.

In [None]:
# Antes de mudar o nome das colunas
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# Depois de mudar o nome das colunas
df = pd.read_csv('base-de-dados/teste1.csv',header=0, names=['name', 'age', 'favorite food'])
display(df)

 <br>



### <font color=purple>index_col : int, str, sequence of int or str, or False<font>

Serve para escolher qual coluna será usada como índice do DataFrame, o valor padrão é None/False. Para escolher a coluna você precisa passar o nome ou o índice da coluna. Também é possivel passar uma lista com os nomes ou os índices da colunas que você queira que virem o índice do seu DataFrame. Ao fazer isso um MultiIndex será usado, ou seja, o seu DataFrame terá mutiplos índices.

In [None]:
# Utilizando o indice da coluna

df = pd.read_csv('base-de-dados/teste1.csv', index_col=0)
df

In [None]:
# Utilizando o nome da coluna

df = pd.read_csv('base-de-dados/teste1.csv', index_col='nome')
df

In [None]:
# Utilizando uma lista com os indices das colunas, poderia ser outro tipo de array

df = pd.read_csv('base-de-dados/teste1.csv', index_col= [0, 2])
df

In [None]:
# Utilizando uma lista com os nomes das colunas, poderia ser outro tipo de array

df = pd.read_csv('base-de-dados/teste1.csv', index_col= ['nome', 'comida favorita'])
df

 <br>


### <font color=purple>usecols : list-like ou callable<font>

Serve para especificar quais colunas do arquivo CSV devem ser importadas para o DataFrame. O padrão é None, ou seja, todas as colunas serão importadas. O parâmetro deve receber uma lista com os índices ou os nomes das colunas que devem ser importadas para o DataFrame.

In [None]:
# Utilizando os índice da coluna

df = pd.read_csv('base-de-dados/teste1.csv', usecols=[0, 2]) # É possivel escolher apenas uma coluna, mas o indice
                                                         # presica estar dentro de uma lista.
df

In [None]:
# Utilizando os nomes da coluna

df = pd.read_csv('base-de-dados/teste1.csv', usecols=['nome', 'comida favorita'])
df

 <br>


### <font color=purple>dtype : Type name or dict of column -> type, optional<font>

O parâmetro dtype serve para determinar o tipo de dado que cada coluna deve ter. Ele recebe um dicionário, aonde a chave do dicionário, deve ser nome da coluna e o valor da chave, o tipo de dado que será forçado na coluna.

In [None]:
df = pd.read_csv('base-de-dados/teste1.csv', dtype={'nome':'string', 'idade':'float', 'comida favorita':'string'})

df.dtypes

 <br>


### <font color=purple>converters : dict<font>

O parametro converters possiblita que você faça alterações, transformações ou conversões nos valores das colunas do arquivo CSV enquanto importa o próprio CSV. Para isso é necessário passar um dicionário com funções. A chave do dicionário deve conter o nome da coluna e o valor da chave a função. 

Vamos a um exemplo: o objetivo é, da coluna nome, pegar somente o primeiro nome da pessoa. E da coluna idade, transformar os anos em meses.

In [None]:
# DataFrame importado sem alterações
df1 = pd.read_csv( filepath_or_buffer = 'base-de-dados/teste1.csv') 
display(df1)


# DataFrame importado com alterações
df2 = pd.read_csv(
    
    filepath_or_buffer = 'base-de-dados/teste1.csv',
    converters = {'nome' : lambda x: x.split()[0],
                  'idade': lambda x: int(x)*12}
)

display(df2)

 <br>


### <font color=purple>skiprows : list-like, int ou callable<font>

O skiprows serve para definir quais linhas desde o inicio do arquivo devem ser ignoradas na hora da importação. O skiprows pode receber 3 tipos de valores, um numero (int), uma lista de índices ou uma função. O valor padrão do parâmetro é **None**.

Suponha que você queira ignorar as 3 primeiras linhas do arquivo, para isso basta passar ao parâmetro o numero 3. Se você quer ignorar as **n** primeiras linhas do arquivo é só passar o numero **n** ao parâmetro. Quando essa operação é feita, a linha **n+1** se tornará o cabeçalho do dataframe. Veja um exemplo. 

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows=2)
display(df)

 <br>

Caso queira pular linhas específicas, você pode passar uma lista com os índices das linhas a serem ignoradas.

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows=[1, 3])
display(df)

 <br>

Também é possivel passar uma função ao parâmetro para pular linhas específcas. Vamos passar uma função lambda que vai ignorar as linhas ímpares. Quando um linha for ímpar a função lambda retorna True indicando que essa linha deve ser ignorada caso ela seja par a função lambda retorna False indicando que esse linha não deve ser ignorada. 

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows= lambda n: n%2!=0)
display(df)

 <br>


### <font color=purple>skipfooter : int <font>

Serve para definir o numero de linhas que devem ser igonaradas na parte inferior do arquivo. O valor padrão é 0. **Não suportado com engine='c'**, ou seja, quando você precisar ignorar algumas linhas da parte inferior do arquivo, terá que usar o engine python ou pyarrow. Vamos a um exemplo:

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv',engine='python' ,skipfooter = 1)
display(df)

 <br>


### <font color=purple>nrows : int<font>

Numero de linhas do arquivo a serem lidas, o cabeçário vem incluso por padrão. Útil para ler pedaçõs de arquivos grandes. O valor padrão do parâmetro é None.

Obs: Se você colocar um numero maior que o numero de linhas existente no arquivo não acontece nada, o pandas simplismente ler o arquivo todo.

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv',nrows=2)
display(df)

 <br>


### <font color=purple>na_values : scalar, str, list-like ou dict<font>


Por padrão, os seguintes valores são interpretados como nulo: 

**'NaN'** ﾠﾠ**'n /a'**ﾠﾠﾠ**'nan'**ﾠﾠﾠ**'null'**<br>

**''**ﾠﾠﾠﾠ**'#N/A'**ﾠﾠ**'#N/AN/A'**ﾠﾠ**'#NA'**<br>

**'-1.#IND'**ﾠﾠ**'-1.#QNAN'**ﾠﾠﾠ**'-NaN'**

**'-nan'**ﾠﾠﾠ**'1.#IND'**ﾠﾠﾠﾠ**'1.#QNAN'**

**'N/A'**ﾠﾠﾠﾠ**'NA'**ﾠﾠﾠﾠﾠﾠ**'NULL'**

<br>

Com o parâmetro na_values você pode definir outros valores para serem considerado como nulos no momento da importação do arquivo. 

É possivel passar como valor para ao parâmetro um dicionário, aonde a chave do dicionário deve ser o nome da coluna e o valor da chave deve ser os valores que deverão ser considerados nulos, pode ser uma str ou uma lista de str.

In [None]:
df = pd.read_csv(
    
    filepath_or_buffer='base-de-dados/teste1.csv', 
    na_values= {'idade' : '18',
                'comida favorita' : ['pizza', 'sorvete']}
)

df

 <br>

Também é possivel definir quais valores devem ser considerados nulos sem filtrar pela coluna, ou seja, não importa a coluna que o valor estiver ele será considerado como nulo. Basta passar ao parâmetro uma str ou uma lista de str, com os valores que deverão ser considerados nulos. 

In [None]:
df = pd.read_csv(
    
    filepath_or_buffer='base-de-dados/teste1.csv', 
    na_values= ['18', 'sorvete']
)

df

 <br>


### <font color=purple>skip_blank_lines : bool, padrão True<font>

Se o valor passado ao parâmetro for True, as linhas em branco serão puldas em vez de interpretadas como valores NaN.

In [None]:
# sem desconsiderar as linhas brancas
df = pd.read_csv(
    
    filepath_or_buffer='base-de-dados/teste4.csv', 
    skip_blank_lines=False
)

df

In [None]:
# desconsiderando as linhas brancas
df = pd.read_csv(
    
    filepath_or_buffer='base-de-dados/teste4.csv', 
    skip_blank_lines=True
)

df

 <br>


## Dicas

- Antes de carregar o arquivo CSV em um quadro de dados do pandas, sempre dê uma olhada no arquivo. Ele o ajudará a estimar quais colunas você deve importar e determinar quais tipos de dados suas colunas devem ter.


- Você também deve procurar a contagem total de linhas do conjunto de dados. Um sistema com 4 GB de RAM pode não consegue carregar 7 a 8 milhões de linhas.

 <br>

## 👾 <font size=5>Visualisando um dataframe<font>

Neste tópico iremos aprender algumas formas de visualisar um dataframe. A baixo segue alguns métodos que iremos estudar.

- print(df)
- display(df)
- DataFrame.head( )
- DataFrame.tail( )

### 🐥 print( )

Uma das maneiras mais simples de ver um dataframe. Por ser tão simples não é reconmendável ustilizá-lo, estou apresentando ele apenas para dizer que é possivel.

In [None]:
df = pd.read_csv(filepath_or_buffer='base-de-dados/teste1.csv')

print(df) # Apenas coloque o nome do dataframe dentro da função

 <br>

### 🐥 display( )

A função display pode-se dizer que é um print( ) melhorado. Essa função mostra o dataframe em um formato de tabela beem agrádavel.

In [None]:
df = pd.read_csv(filepath_or_buffer='base-de-dados/teste1.csv')

display(df)

 <br>

### 🐥 DataFrame.head( )

O metodo head( ) serve para visualizas as n primeiras linhas de um dataframe.


### Parametros

Esse método recebe apenas 1 parâmetro, veja.


### n : int

Esse parâmetro serve para definir a quantidade de linhas que você deseja visualisar. Veja o exemplo abaixo.

In [None]:
df = pd.read_csv(filepath_or_buffer='base-de-dados/teste1.csv')

# todo o dataframe
display(df)

# apenas as 2 primeiras linhas
display(df.head(n=2))

 <br>

### 🐥 DataFrame.tail( )

Esse parâmetro é o contrário do head(), basicamente ele serve para ver as ultimas n linhas de um dataframe.


### Parametros

Esse método recebe apenas 1 parâmetro, veja.


### n : int

Esse parâmetro serve para definir a quantidade de linhas que você deseja visualisar. Veja o exemplo abaixo.

In [None]:
df = pd.read_csv(filepath_or_buffer='base-de-dados/teste1.csv')

# todo o dataframe
display(df)

# apenas as 2 ultimas linhas
display(df.tail(n=2))

 <br>

## 👾 <font size=5>Indexação basica<font>

- Selecionar linha (s)
- Selecionar coluna (s)
- Selecionar linha (s) e selecionar coluna (s) específica (s)
- Selecionar 1 valor em especifico


## 👾 <font size=5>Indexação booleana<font>

- Selecionar linha (s) usando condições

## 👾 <font size=5>Indexação utilizando métodos<font>

- DataFrame.select_dtype( )
- DataFrame.loc 
- DataFrame.iloc

## 👾 <font size=5>Coletando informações sobre o DataFrame<font>

Nesse tópico eu pretendo mostrar algumas formar de coletar informações de um DataFrame. Informações essas, que serão importante para entender melhor os seus dados. Segue a baixo alguns métodos e atributos que usaremos.

- DataFrame.dtypes
- DataFrame.columns
- DataFrame.index
- DataFrame.shape
- DataFrame.max( )
- DataFrame.min( )
- DataFrame.mean( )
- DataFrame.median( )
- DataFrame.std( )
- DataFrame.describe( )
- DataFrame.unique( ) e nunique( )
- DataFrame.count( )
- DataFrame.value_counts( )
- DataFrame.sample( )
- pd.crosstab( )

## 👾 <font size=5>Exportando arquivos ou base de dados<font>

###  🐥 DataFrame.to_csv( )


## 👾 <font size=5>Resumo do que você precisa aprender sobre um DataFrame<font>


### Adicionar colunas em um DataFrame 

- Com DataFrame.loc e sem ele 

### Adicionar linhas ou juntar DataFrames

- pd.concat( )

### Excluir linhas e/ou colunas de um DataFrame

- DataFrame.drop( )

### Trabalhar com valores ausentes

- DataFrame.isnull( )
- DataFrame.notnull( )
- DataFrame.dropna( )
- DataFrame.fillna( )
- DataFrame.ffill()

### Outras operaçoẽs 

- DataFrame.apply( )
- DataFrame.merge( )
- DataFrame.map( )
- DataFrame.astype( )
- DataFrame.set_index( )
- DataFrame.sort_values( )
- DataFrame.groupby( )
- DataFrame.T (transposta)
- DataFrame.pivot( )
- DataFrame.replace( )
- pd.cut( )
- pd.crosstab( )

### Criar gráficos

- DataFrame.plot( )
- DataFrame.plot.box( )
- DataFrame.plot.hist( ) e muito mais