In [1]:
import pandas as pd
import random as rd

# 🎯 Importando conjunto de dados 

<br>
O pandas oferece uma variedade de métodos que serve para ler um arquivo e transforma-lo em uma tabela (DataFrame). Veja alguns:
    

- [pd.read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=pandas%20read_) 
- [pd.read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html?highlight=pandas%20read_) 
- [pd.read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html?highlight=pandas%20read_) 
- [pd.read_html](https://pandas.pydata.org/docs/reference/api/pandas.read_html.html?highlight=pandas%20read_) 
- [pd.read_sas](https://pandas.pydata.org/docs/reference/api/pandas.read_sas.html?highlight=pandas%20read_) 
- [pd.read_sql](https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html?highlight=pandas%20read_) 
- [pd.read_table](https://pandas.pydata.org/docs/reference/api/pandas.read_table.html?highlight=pandas%20read_) 


Cada método foi criado para ler um tipo de arquivo e por isso tem suas particularidades, devido ao nome dos métodos fica facil entender pra qual tipo de arquivo ele serve. Abaixo segue a explicação de alguns desses métodos.<br><br>

## 👾 <font size=5>read_csv<font>



### O que esse método faz?

A maioria dos dados está disponivel em um formato tabular (linhas e colunas) de arquivos CSV. É muito popular. Por isso o pandas despolibiliza o método pd.read_csv, que importa um arquivo csv para o formato DataFrame. Também suporta iterar ou dividir o arquivo em partes. Caso você queira aprender como ler um arquivo CSV sem usar o pandas, o link está [aqui](https://www.youtube.com/watch?v=AnJPtKLtc7o&ab_channel=HashtagPrograma%C3%A7%C3%A3o).

### O que é um arquivo CSV?

CSV é a sigla para 'Comma Separated Values' (em português, valores separados por virgula). Um arquivo CSV é um arquivo de texto que organiza informações reparados por virgula em 2 dimenções, ou seja, linhas e colunas. O conteúdo geralmente são textos números ou datas. Os arquivos CSV podem ser facilmente importados e exportados usando programas que armazenam dados em tabelas.

### Como um arquivo CSV é organizado?

Em geral a primeira linha contém os rótulos das colunas das tabelas. Cada uma das linhas subsequentes representam uma linha da tabela. Virgulas separam cada valor da linha, o que é motivo para o nome do formato.

Aqui temos um exemplo de um arquivo CSV. O exemplo tem 3 colunas, com os rótulos nome, idade e comida favorita. Temos 5 linhas incluindo a linha do cabeçalho.

In [None]:
nome, idade, comida favorita
huan barros, 18, muita coisa
joão polinario, 15, pizza
ana barretos, 17, lasanha
marcos silva, 13, sorvete


### Parâmetros

Os parâmetros que esse método pode receber são inumeros, por isso separamos somente os que você provavelmente precisa conhecer no inicio. Mas, caso você queira conhecer todos os parâmetros o link está [aqui](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv). <br><br>

### <font color=purple>pd.read_csv (<font> 
<br>

**filepath_or_buffer**<br>
**sep** = ',' <br>
**header** = 'infer' <br>
**names** = _NoDefault.no_default <br>
**index_col** = None <br>
**usecols** = None <br>
**dtype** = None <br> 
**converters** = None <br>
**skiprows** = None <br>
**skipfooter** = 0 <br>
**nrows** = None <br>
**na_values** = None <br>
**skip_blank_lines** = True


### <font color=purple>) <font> <br>




### <font color=purple>filepath_or_buffer : str<font>

Esse parâmetro é a localização do **arquivo.csv** e deve ser passado no formato de uma string. Se o **arquivo.csv** estiver no mesmo diretório do projeto será necessário ser passado apenas o nome do arquivo, caso contrário você terá que passar o caminho completo da base do seu sistema de arquivos para o **arquivo.csv** que você deseja carregar, por exemplo, /home/audax/Downloads/test_file.csv . Esse parâmetro também aceita a URL do arquivo como localização.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('base-de-dados/teste1.csv')
df

 <br>


### <font color=purple>sep : str<font>

Significa um separador, que serve para separar os valores de cada linha de um arquivo.csv, o padrão é uma vírgula. No entanto pode haver arquivos com o sepador diferente da virgula, como por exemplo, dois pontos, a barra vertical e muitos outros. Nesse caso é necessário indicar ao parâmetro **sep** que separador é esse.

In [None]:
# o arquivo usa a barra vertical como separador
df = pd.read_csv('base-de-dados/teste2.csv', sep='|')
df

 <br>

É possivel haver mais de um tipo de separador em um arquivo CSV. Por isso o pandas dispolibiliza 3 mecanismos diferentes para o analisador de arquivos CSV. Os mecanismos C, pyarrow e python. C e pyarrow são mais rápidos ná hora de ler o arquivo e separar os valores, no entato eles não conseguem ler arquivos que tenham mais de 1 separador. Já o mecanismo python é atualmente mais completo e é capaz de ler arquivos CSV com mais de 1 separador, no entanto deixa a dejar na sua velocidade.

Para usar o pyarrow é necessário fazer a instalação do pyarrow.csv via pip ou conda. Os outros não precisa.

Para escolher o mecanismo que você quer usar o pandas disponibilizou o parametro **engine**, que recebe uma str com o nome do mecanismo.<br>



In [None]:
# é necessário passar os separadores dentro de colchetes, e o tipo do dado tem que ser str
df = pd.read_csv('base-de-dados/teste3.csv', sep='[,|:]', engine='python')
df

 <br>


### <font color=purple>header  : int, list of int<font>

Serve para especificar qual linha do seu arquivo será usada como os rótulos das colunas do seu DataFrame. É esperado um valor int ou uma lista de valores int. O valor padrão é **_header=0_**.

In [None]:
# Escolhendo a 4ª linha do arquivo como cabeçalho
df = pd.read_csv('base-de-dados/teste1.csv', header=3)
df

In [None]:
# Escolhendo a 1ª e  a 2ª linha do arquivo como cabeçalho
# Só pode ser uma lista de ints, outro tipo de array não
df = pd.read_csv('base-de-dados/teste1.csv', header=[0, 1])
df

 <br>


### <font color=purple>names : array - like<font>

O parâmetro names recebe um array com valores que serão usados como o cabeçalho do DataFrame. O array não pode conter valores repetidos. Caso o seu arquivo CSV já tenha cabeçalho, ele se tornará a primeira linha do DataFrame. Para sobrescrever um cabeçalho já existente é necessário passar **header=0**.

In [None]:
# Antes de mudar o nome das colunas
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# Depois de mudar o nome das colunas
df = pd.read_csv('base-de-dados/teste1.csv', header=0,
                 names=['name', 'age', 'favorite food'])
display(df)

 <br>



### <font color=purple>index_col : int, str, sequence of int or str, or False<font>

Serve para escolher qual coluna será usada como índice do DataFrame, o valor padrão é None/False. Para escolher a coluna você precisa passar o nome ou o índice da coluna. Também é possivel passar uma lista com os nomes ou os índices da colunas que você queira que virem o índice do seu DataFrame. Ao fazer isso um MultiIndex será usado, ou seja, o seu DataFrame terá mutiplos índices.

In [None]:
# Utilizando o indice da coluna

df = pd.read_csv('base-de-dados/teste1.csv', index_col=0)
df

In [None]:
# Utilizando o nome da coluna

df = pd.read_csv('base-de-dados/teste1.csv', index_col='nome')
df

In [None]:
# Utilizando uma lista com os indices das colunas, poderia ser outro tipo de array

df = pd.read_csv('base-de-dados/teste1.csv', index_col=[0, 2])
df

In [None]:
# Utilizando uma lista com os nomes das colunas, poderia ser outro tipo de array

df = pd.read_csv('base-de-dados/teste1.csv',
                 index_col=['nome', 'comida favorita'])
df

 <br>


### <font color=purple>usecols : list-like ou callable<font>

Serve para especificar quais colunas do arquivo CSV devem ser importadas para o DataFrame. O padrão é None, ou seja, todas as colunas serão importadas. O parâmetro deve receber uma lista com os índices ou os nomes das colunas que devem ser importadas para o DataFrame.

In [None]:
# Utilizando os índice da coluna

# É possivel escolher apenas uma coluna, mas o indice
df = pd.read_csv('base-de-dados/teste1.csv', usecols=[0, 2])
# presica estar dentro de uma lista.
df

In [None]:
# Utilizando os nomes da coluna

df = pd.read_csv('base-de-dados/teste1.csv',
                 usecols=['nome', 'comida favorita'])
df

 <br>


### <font color=purple>dtype : Type name or dict of column -> type, optional<font>

O parâmetro dtype serve para determinar o tipo de dado que cada coluna deve ter. Ele recebe um dicionário, aonde a chave do dicionário, deve ser nome da coluna e o valor da chave, o tipo de dado que será forçado na coluna.

In [2]:
df = pd.read_csv('base-de-dados/teste1.csv',
                 dtype={'nome': 'string', 'idade': 'float', 'comida favorita': 'string'})

df.dtypes

nome                string
idade              float64
comida favorita     string
dtype: object

 <br>


### <font color=purple>converters : dict<font>

O parametro converters possiblita que você faça alterações, transformações ou conversões nos valores das colunas do arquivo CSV enquanto importa o próprio CSV. Para isso é necessário passar um dicionário com funções. A chave do dicionário deve conter o nome da coluna e o valor da chave a função. 

Vamos a um exemplo: o objetivo é, da coluna nome, pegar somente o primeiro nome da pessoa. E da coluna idade, transformar os anos em meses.

In [None]:
# DataFrame importado sem alterações
df1 = pd.read_csv(filepath_or_buffer='base-de-dados/teste1.csv')
display(df1)


# DataFrame importado com alterações
df2 = pd.read_csv(

    filepath_or_buffer='base-de-dados/teste1.csv',
    converters={'nome': lambda x: x.split()[0],
                'idade': lambda x: int(x)*12}
)

display(df2)

 <br>


### <font color=purple>skiprows : list-like, int ou callable<font>

O skiprows serve para definir quais linhas desde o inicio do arquivo devem ser ignoradas na hora da importação. O skiprows pode receber 3 tipos de valores, um numero (int), uma lista de índices ou uma função. O valor padrão do parâmetro é **None**.

Suponha que você queira ignorar as 3 primeiras linhas do arquivo, para isso basta passar ao parâmetro o numero 3. Se você quer ignorar as **n** primeiras linhas do arquivo é só passar o numero **n** ao parâmetro. Quando essa operação é feita, a linha **n+1** se tornará o cabeçalho do dataframe. Veja um exemplo. 

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows=2)
display(df)

 <br>

Caso queira pular linhas específicas, você pode passar uma lista com os índices das linhas a serem ignoradas.

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows=[1, 3])
display(df)

 <br>

Também é possivel passar uma função ao parâmetro para pular linhas específcas. Vamos passar uma função lambda que vai ignorar as linhas ímpares. Quando um linha for ímpar a função lambda retorna True indicando que essa linha deve ser ignorada caso ela seja par a função lambda retorna False indicando que esse linha não deve ser ignorada. 

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', skiprows=lambda n: n % 2 != 0)
display(df)

 <br>


### <font color=purple>skipfooter : int <font>

Serve para definir o numero de linhas que devem ser igonaradas na parte inferior do arquivo. O valor padrão é 0. **Não suportado com engine='c'**, ou seja, quando você precisar ignorar algumas linhas da parte inferior do arquivo, terá que usar o engine python ou pyarrow. Vamos a um exemplo:

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', engine='python', skipfooter=1)
display(df)

 <br>


### <font color=purple>nrows : int<font>

Numero de linhas do arquivo a serem lidas, o cabeçário vem incluso por padrão. Útil para ler pedaçõs de arquivos grandes. O valor padrão do parâmetro é None.

Obs: Se você colocar um numero maior que o numero de linhas existente no arquivo não acontece nada, o pandas simplismente ler o arquivo todo.

In [None]:
# dataframe original
df = pd.read_csv('base-de-dados/teste1.csv')
display(df)

# dataframe depois de pular as linhas
df = pd.read_csv('base-de-dados/teste1.csv', nrows=2)
display(df)

 <br>


### <font color=purple>na_values : scalar, str, list-like ou dict<font>


Por padrão, os seguintes valores são interpretados como nulo: 

**'NaN'** ﾠﾠ**'n /a'**ﾠﾠﾠ**'nan'**ﾠﾠﾠ**'null'**<br>

**''**ﾠﾠﾠﾠ**'#N/A'**ﾠﾠ**'#N/AN/A'**ﾠﾠ**'#NA'**<br>

**'-1.#IND'**ﾠﾠ**'-1.#QNAN'**ﾠﾠﾠ**'-NaN'**

**'-nan'**ﾠﾠﾠ**'1.#IND'**ﾠﾠﾠﾠ**'1.#QNAN'**

**'N/A'**ﾠﾠﾠﾠ**'NA'**ﾠﾠﾠﾠﾠﾠ**'NULL'**

<br>

Com o parâmetro na_values você pode definir outros valores para serem considerado como nulos no momento da importação do arquivo. 

É possivel passar como valor para ao parâmetro um dicionário, aonde a chave do dicionário deve ser o nome da coluna e o valor da chave deve ser os valores que deverão ser considerados nulos, pode ser uma str ou uma lista de str.

In [None]:
df = pd.read_csv(

    filepath_or_buffer='base-de-dados/teste1.csv',
    na_values={'idade': '18',
               'comida favorita': ['pizza', 'sorvete']}
)

df

 <br>

Também é possivel definir quais valores devem ser considerados nulos sem filtrar pela coluna, ou seja, não importa a coluna que o valor estiver ele será considerado como nulo. Basta passar ao parâmetro uma str ou uma lista de str, com os valores que deverão ser considerados nulos. 

In [None]:
df = pd.read_csv(

    filepath_or_buffer='base-de-dados/teste1.csv',
    na_values=['18', 'sorvete']
)

df

 <br>


### <font color=purple>skip_blank_lines : bool, padrão True<font>

Se o valor passado ao parâmetro for True, as linhas em branco serão puldas em vez de interpretadas como valores NaN.

In [None]:
# sem desconsiderar as linhas brancas
df = pd.read_csv(

    filepath_or_buffer='base-de-dados/teste4.csv',
    skip_blank_lines=False
)

df

In [None]:
# desconsiderando as linhas brancas
df = pd.read_csv(

    filepath_or_buffer='base-de-dados/teste4.csv',
    skip_blank_lines=True
)

df

 <br>


## Dicas

- Antes de carregar o arquivo CSV em um quadro de dados do pandas, sempre dê uma olhada no arquivo. Ele o ajudará a estimar quais colunas você deve importar e determinar quais tipos de dados suas colunas devem ter.


- Você também deve procurar a contagem total de linhas do conjunto de dados. Um sistema com 4 GB de RAM pode não consegue carregar 7 a 8 milhões de linhas.

 <br>

# 🎯  Tranformando um DF em outro objeto ou arquivo 

- DataFrame.to_csv
- DataFrame.to_dict

# 🎯 Formas de visualisar uma Series e um DataFrame

<br>
Neste tópico iremos aprender algumas formas de visualisar um dataframe. A baixo segue alguns métodos que iremos estudar.

- display
- head e tail

## 👾 <font size=5>display<font>

A função display pode-se dizer que é um print( ) melhorado. Essa função mostra o dataframe em um formato de tabela bem agrádavel.

In [None]:
# Criando o DataFrame para usar no exemplo
nomes = ['Anthony Gabriel','Enzo Gabriel','Luiz Felipe', 'Arthur Miguel',
         'João Guilherme', 'Luiz Miguel', 'Davi Lucas','João Lucas','Pedro Henrique', 
         'Davi Lucca','João Miguel', 'Pedro Lucas', 'Davi Luiz', 'João Vitor', 'Pedro Miguel']

idades = [rd.randint(10, 20) for x in range(len(nomes))]
df = pd.DataFrame({'nome':nomes, 'idade':idades})

In [22]:
display(df)

Unnamed: 0,nome,idade
0,Anthony Gabriel,18
1,Enzo Gabriel,10
2,Luiz Felipe,11
3,Arthur Miguel,20
4,João Guilherme,20
5,Luiz Miguel,13
6,Davi Lucas,19
7,João Lucas,15
8,Pedro Henrique,13
9,Davi Lucca,20


 <br>

## 👾 <font size=5>head e tail<font>

Os métodos **head** e **tail** serve para visualizas as **n** primeiras linhas de um DataFrame ou Series. Enquanto o head serve para ver o começo o tail serve para olhar o final. 

O unico parâmetro que esses métodos recebem é o **n**, esse parâmetro serve para definir quantas linhas o método deve mostrar. Por padrão **n=5**.

In [31]:
# Criando o DataFrame para usar no exemplo
nomes = ['Anthony Gabriel','Enzo Gabriel','Luiz Felipe', 'Arthur Miguel',
         'João Guilherme', 'Luiz Miguel', 'Davi Lucas','João Lucas','Pedro Henrique', 
         'Davi Lucca','João Miguel', 'Pedro Lucas', 'Davi Luiz', 'João Vitor', 'Pedro Miguel']

idades = [rd.randint(10, 20) for x in range(len(nomes))]

df = pd.DataFrame({'nome':nomes, 'idade':idades})


# Criando uma Series para usar no exemplo
s = pd.Series([x for x in range(10, 101)])

Agora vamos ver as 3 primeiras e as 3 ultimas linhas do DataFrame.

In [20]:
display(df.head(n=3))
display(df.tail(n=3))

Unnamed: 0,nome,idade
0,Anthony Gabriel,18
1,Enzo Gabriel,10
2,Luiz Felipe,11


Unnamed: 0,nome,idade
12,Davi Luiz,14
13,João Vitor,10
14,Pedro Miguel,15


Da mesma forma vamos fazer com a Series.

In [21]:
display(s.head(n=3))
display(s.tail(n=3))

0    10
1    11
2    12
dtype: int64

88     98
89     99
90    100
dtype: int64