<h1><center> Tópicos Avançados em Python para Análise de Dados </center></h1>

![](https://drive.google.com/uc?export=view&id=1qCH-jlzKK1aFaTBpiTHN4qxTFrCVs720) 




<center>
<h5>
O objetivo desse material é mostrar a você como aplicar diversos métodos das duas bibliotecas mais famosas para Ciência de Dados: Pandas e Seaborn. Ao longo do curso além de conhecermos como essas ferramentas funcionam vamos praticar a análise em dados reais e transformar os dados que temos em informações. 
Vamos nessa!
<h5>
<center>

## Módulo 2: Apresentação e manipulação dos dados

### Lição 1: Objetivos do módulo 

### Lição 2: Apresentação e entendimento dos dados 

### Lição 3: Leitura de arquivos com o Pandas

Uma das grandes utilidades do **Pandas** é a facilidade para trabalhar com diferentes arquivos de dados. 

A leitura de dados, geralmente, é o primeiro passo em qualquer projeto de um cientista de dados. 

É muito comum lidarmos com o formato CSV (*Comma Separeted Values*). 

Assim, vamos usar o método **.read_csv('name_of_file.csv')** para facilitar a leitura do nosso arquivo de dados.

O código acima mostra que a nossa base *listings.csv* vai ser armazenada na variável *dados* no formato de um DataFrame.

Através do **.read_csv**, conseguimos importar a base de dados que usaremos ao longo do curso. Observe que apenas passamos o nome (ou localização) do arquivo como parâmetro para a função, porém ela apresenta diversos parâmetros interessantes para lermos nossos dados:

* *sep* -> Determina qual separador será usado para delimitar os campos da base. Default = ','
* *usecols* -> Determina quais colunas específicas queremos utilizar
* *nrows* -> Ao invés de ler todas as linhas da base, a função lerá apenas a quantidade determinada
* header -> Indica qual linha será usada como cabeçalho da base de dados

Para ver os demais parâmetros veja a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [None]:
#Célula para mostrar os diferentes tipos de leitura que podemos ter

Podemos visualizar um DataFrame da seguinte forma:

Os *DataFrames* possuem dois métodos interessantes para visualização dos dados: o **.head()** e o **.tail()**. 

O primeiro mostra apenas uma determinada quantidade de linhas iniciais (head = cabeça = início) dos nossos dados, enquanto o segundo mostra apenas uma determinada quantidade de linhas finais (tail = rabo = final) dos nossos dados.

Podemos perceber que temos diversas linhas e diversas colunas: 
* Cada coluna corresponde a uma informação do nosso DataFrame, como nome do hospedeiro, qual a vizinhança que o Airbnb se encontra, etc.
* Cada linha representa um Airbnb diferente, uma instância. 

Os números em negrito à esquerda são referentes aos índices e os nomes em negrito são referentes aos nomes das colunas. Assim como pegamos os índices ao lidarmos com *Series*, podemos fazer a mesma coisa com DataFrames

Além dos índices, podemos também pegar os valores e as colunas de um DataFrame

Observe que o atributo *values* transformou o DataFrame em um *Numpy Array*

### Lição 4: Tipos de dados

Para identificar os tipos de dados que temos em nosso *DataFrame* usamos o atributo **.dtypes**

Veja que ele retorna o tipo de dado de cada uma das colunas do *DataFrame*, em que temos dados numéricos (int e float) e dados do tipo object. É importante ressaltar que se usarmos a função nativa *type()* o resultado será diferente.

A função *type()* mostra qual o tipo da variável *dados* e não das colunas dentro dela.

O **Pandas** nos permite selecionar os tipos de dados das colunas que queremos trabalhar através do método **.select_dtypes()**. Isso é útil, por exemplo, quando queremos trabalhar apenas com colunas numéricas ou apenas colunas de texto 

### Lição 5: Selecionando colunas


O *DataFrame* permite acessarmos apenas os dados de uma coluna específica. 

Mas e se quiséssemos acessar várias colunas de uma vez?

Observe que ao fazermos isso, temos uma *Series* ou um *DataFrame* com todas as informações da coluna selecionada. 

Esse tipo de acesso lembra o acesso dos **dicionários**, no qual queríamos todos os valores relacionados a uma ou mais chaves.

Porém, os DataFrames também oferecem uma diferente forma de acesso:

Dessa forma, acessamos as colunas como se elas fossem atributos do nosso *DataFrame*. 

Porém, é preciso termos atenção ao usar esse tipo de acesso, pois ele **não funcionará com colunas que apresentam espaços em seus nomes**.

### Lição 6: Adição e exclusão de novas variáveis

Os *DataFrames* e as *Series* são estruturas mutáveis, ou seja, conseguimos adicionar e retirar elementos. Nesse caso, é possível retirar e adicionar linhas e colunas.

Podemos adicionar colunas dos DataFrames com base em outras.

![](https://drive.google.com/uc?export=view&id=1Qe1D7MeNztguBz0wRRd6U6ueYr2ZFg7f) 



Como a nossa base de dados é sobre Airbnbs em Amsterdam, o preço dos hotéis é dado em Euros. Apesar do Euro ser uma moeda conhecida, seria mais interessante que esse preço estivesse em dólar, já que essa é a moeda base para a economia mundial.

Sabemos que 1 euro = 1,18 dólar. Assim, podemos criar a coluna *price_dolar* da seguinte forma:

Para removermos uma coluna no **Pandas** usamos o método **.drop()**. Esse método remove linhas e/ou colunas especificadas. É importante lembrar que ele retorna o *DataFrame* modificado, mas não muda nossos dados direto na memória. Por isso, se quisermos que nossos dados não possuam certa linha ou coluna devemos atribuir o novo *DataFrame* a variável dos dados.

### Lição 7: Indexação de dados

Ao contrário dos arrays de duas dimensões, não conseguimos acessar dados na forma *dataframe[linha][coluna]*.

Dessa forma, os *DataFrames* possuem dois principais métodos para acessarmos as linhas dos nossos dados: **.loc()** e **.iloc()**.

#### iLoc

O método **.iloc()** é baseado em localização inteira (de 0 até tamanho - 1) e ajuda você a selecionar pela posição. Digamos que queremos saber as informações do Airbnb da posição 10 podemos fazer o seguinte:

Além de poder receber como entrada um inteiro, o **.iloc()** pode receber como entrada:

* Uma lista de inteiros. Ex: [1, 2, 5, 9, 10]
* Uma fatia (slice). Ex: [1:7]
* Um array booleano ou expressões booleanas. Ex: [True, False, False, True]. É importante ressaltar que esse array deve ser do tamanho do DataFrame
* Uma função que pode ser chamada com um argumento e que retorna uma saída válida para indexação. Ex: funções lambda

#### Loc

Com o método **.loc()** conseguimos, também, acessar índices através de inteiros, slices e booleanos. Porém, ao contrário do iloc, não conseguimos usar funções para acessar as linhas do DataFrame.

É interessante pontuar que conseguimos acessar colunas através de *slices*, porém, ao invés de números usamos os nomes das colunas do *DataFrame*

### Lição 8: Consultas dentro de DataFrames

Assim como fizemos consultas dentro de arrays, podemos fazer com *DataFrames* e *Series*. 

Essa consulta pode ser feita em todo *DataFrame* ou em apenas um conjunto de colunas.

Se quisermos saber, por exemplo, quais Airbnbs apresentam o número mínimo de noites maior que três podemos usar o seguinte código:

Esse código nos retorna uma *Series* preenchida com **True**, para os elementos que atendem a condição, ou **False**, para os que não atendem. Para melhorar o retorno desses dados, podemos fazer: 

Dessa forma, ele retorna todas as informações dos hoteis com um mínimo de noites maior que 3.

Além de permitir consultas desse tipo em uma única coluna, o **Pandas** permite consultarmos valores em múltiplas colunas ou em todo o *DataFrame*. 

Porém, para isso, os dados do *DataFrame* devem homogêneos (somente números ou somente textos, por exemplo)

Podemos ver também que a consulta em *DataFrames* aceita **expressões relacionais**. Se estivéssemos buscando Airbnbs com mínimos de noites maiores que 3, apenas considerando os **Private room**, podemos fazer o seguinte:

Além das consultas mostradas acima, os *DataFrames* oferecem o método **.query()**. Esse método faz a consulta dentro do *DataFrame* tendo como base uma expressão condicional passada como parâmetro. 

É interessante pontuar que esse tipo de acesso é muito aplicado em consultas **SQL** (Banco de dados).

O **.query()** também permite fazermos comparações com variáveis externas ao modelo ou listas, veja: