<h1><center> Tópicos Avançados em Python para Análise de Dados </center></h1>

![](https://drive.google.com/uc?export=view&id=1qCH-jlzKK1aFaTBpiTHN4qxTFrCVs720) 

<center>
<h5>
O objetivo desse material é mostrar a você como aplicar diversos métodos das duas bibliotecas mais famosas para Ciência de Dados: Pandas e Seaborn. Ao longo do curso além de conhecermos como essas ferramentas funcionam vamos praticar a análise em dados reais e transformar os dados que temos em informações. 
Vamos nessa!
<h5>
<center>

## Módulo 1: 

### Lição 1: Objetivos do módulo

### Lição 2: O que é o Pandas?

### Lição 3: Relação entre Pandas, Numpy e *builtins*

Como vimos, é possível fazer uma transformação direta entre arrays, listas e séries. Isso ocorre pois as bibliotecas Numpy e Pandas estão diretamente conectadas e as listas fazem parte das principais estruturas de dados nativas do Python. Vamos ver como podemos fazer essas transformações entre as estruturas.

Mas antes de utilizá-las, devemos importar as bibliotecas necessárias

In [None]:
import pandas as pd
import numpy as np

Vamos criar 3 tipos de estruturas (lista, array e series) contendo o preço de uma diária em 5 Airbnb do Rio de Janeiro

In [None]:
copacabana = [56, 207, 201, 140,80] #Lista de Airbnb em Copacabana
leblon = np.array([65, 153, 272, 149, 98]) #Array de Airbnb no Leblon
barra = pd.Series([223, 179, 338, 90, 181]) #Series de Airbnb na Barra

**Listas e Arrays**

In [None]:
copacabana_array = np.array(copacabana)
leblon_lista = leblon.tolist()

In [None]:
print("Tipo da estrutura copacabana_array:",type(copacabana_array))
print("Tipo da estrutura leblon_lista:",type(leblon_lista))

Tipo da estrutura copacabana_array: <class 'numpy.ndarray'>
Tipo da estrutura leblon_lista: <class 'list'>


**Listas e Series**

In [None]:
barra_lista = barra.to_list()
copacabana_series = pd.Series(copacabana)

In [None]:
print("Tipo da estrutura barra_lista:",type(barra_lista))
print("Tipo da estrutura copacabana_series:",type(copacabana_series))

Tipo da estrutura barra_lista: <class 'list'>
Tipo da estrutura copacabana_series: <class 'pandas.core.series.Series'>


**Series e Arrays**

In [None]:
leblon_series = pd.Series(leblon)
barra_array = barra.values #Podemos tambem usar o barra.to_numpy(), mas o values é mais comum

In [None]:
print("Tipo da estrutura leblon_series:",type(leblon_series))
print("Tipo da estrutura barra_array:",type(barra_array))

Tipo da estrutura leblon_series: <class 'pandas.core.series.Series'>
Tipo da estrutura barra_array: <class 'numpy.ndarray'>


### Lição 4: Estruturas de dados da biblioteca

### Lição 5: Como lidar com as Series?

Agora que sabemos quais são as principais estruturas do Pandas, vamos ver como podemos manipular as Series na prática.

Na lição 3 criamos uma Series denominada *barra*, contendo o preço das diárias de Airnbn na Barra da Tijuca, Rio de Janeiro. 

Veja como é apresentada a estrutura *Series*:

In [None]:
barra

0    223
1    179
2    338
3     90
4    181
dtype: int64

Acima mostramos uma *Series* homogênea, com o **dtype** int64 (inteiros). 

Porém, é importante verificarmos que as *Series* podem ser estruturas **heterogêneas**.

In [None]:
barra_het = pd.Series(['precos','na','barra',223, 179.98, 338.56, 90, 181])
barra_het

0    precos
1        na
2     barra
3       223
4    179.98
5    338.56
6        90
7       181
dtype: object

Observe que o **dtype** muda de int64 para object

Como já dito, as *Series* nos oferecem as informações organizadas por índices (coluna da esquerda) e valores associados a eles (coluna da direita). 

Podemos verificar o que temos em cada um desses elementos (índices e valores) através dos atributos *index* e *values*.

In [None]:
print(barra.index)
print(barra.values)

RangeIndex(start=0, stop=5, step=1)
[223 179 338  90 181]


Podemos observar que os índices da *Series* estão como índices padrões, de **0** até **n-1**, em que **n** é a quantidade de elementos. 

Poderíamos modificar esses índices da seguinte forma:

In [None]:
barra = pd.Series([223, 179, 338, 90, 181], index=['apartamento', 'loft', 'casa', 'kitnet', 'flat'])
barra

apartamento    223
loft           179
casa           338
kitnet          90
flat           181
dtype: int64

Também podemos criar *Series* a partir de dicionários. 

Fazemos isso da seguinte forma:

In [None]:
dicionario = {'apartamento': 223, 'loft': 179, 'casa': 338, 'kitnet': 90, 'flat': 181}
dicionario

{'apartamento': 223, 'loft': 179, 'casa': 338, 'kitnet': 90, 'flat': 181}

In [None]:
barra = pd.Series(dicionario)
barra

apartamento    223
loft           179
casa           338
kitnet          90
flat           181
dtype: int64

Perceba que ao criarmos uma *Series* a partir de um dicionário o **Pandas** identifica as chaves do dicionário como índices da *Series*. 

A princípio, podemos acessar valores nas *Series* de duas formas: 
* (I) ```Series[index]``` ou 
* (II) usando métodos específicos de acesso (veremos a seguir).

In [None]:
barra[0]

223

In [None]:
barra[0:3]

apartamento    223
loft           179
casa           338
dtype: int64

### Lição 6: Entendo os DataFrames

Vamos discutir sobre as estruturas dos *DataFrames*. Como vimos, os *DataFrames* funcionam como tabelas, com linhas e colunas que podem ser criados a partir de várias estruturas de dados do Python, como dicionários, listas, arrays, etc. 

Como exemplo, vamos criar um dicionário a partir das informações vistas na parte teórica.

| Preço Hotéis | Nº quartos | Avaliação Média |
|--------------|------------|-----------------|
| 223          | 3          | 5               |
| 179          | 2          | 4               |
| 338          | 5          | 5               |
| 181          | 1          | 3               |

In [1]:
import pandas as pd
info_hoteis = {'preco': [223, 179, 338, 181],
              'n_quartos': [3,2,5,1],
              'avaliacao_media': [5,4,5,3]}
info_hoteis

{'avaliacao_media': [5, 4, 5, 3],
 'n_quartos': [3, 2, 5, 1],
 'preco': [223, 179, 338, 181]}

In [2]:
df = pd.DataFrame(info_hoteis)
df

Unnamed: 0,preco,n_quartos,avaliacao_media
0,223,3,5
1,179,2,4
2,338,5,5
3,181,1,3


Ao contrário da criação de *Series* por meio de dicionários, o *DataFrame* identifica as chaves como colunas e não como índices.

Podemos perceber que criamos uma tabela simples com as informações do dicionário. Observe que os índices (coluna em negrito à esquerda) estão com os índices padrões do **Pandas**. 

Podemos adaptar esses índices da seguinte forma:

In [4]:
lista = ['apto', 'loft', 'casa', 'kitnet']
df = pd.DataFrame(info_hoteis, index=lista)
df

Unnamed: 0,preco,n_quartos,avaliacao_media
apto,223,3,5
loft,179,2,4
casa,338,5,5
kitnet,181,1,3


Assim como fizemos nas *Series*, podemos acessar informações sobre os *DataFrames*, como os índices, as colunas ou apenas os valores no interior da estrutura.

In [5]:
print(df.index)
print(df.columns)
print(df.values)

Index(['apto', 'loft', 'casa', 'kitnet'], dtype='object')
Index(['preco', 'n_quartos', 'avaliacao_media'], dtype='object')
[[223   3   5]
 [179   2   4]
 [338   5   5]
 [181   1   3]]


Além disso, é interessante mostrarmos que podemos ter múltiplos índices nos *DataFrames*.

Essa topologia pode ser importante para o entendimento dos resultados de métodos mais sofisticados ou para a representação de dados mais complexos. 

Vejamos um exemplo:

In [None]:
tipo = [(0,'apto'),(1,'loft'), (2,'casa'), (3,'kitnet')]
indices = pd.MultiIndex.from_tuples(tipo)

df = pd.DataFrame(info_hoteis,index=indices)
df

Unnamed: 0,Unnamed: 1,preco,n_quartos,avaliacao_media
0,apto,223,3,5
1,loft,179,2,4
2,casa,338,5,5
3,kitnet,181,1,3


Para saber um pouco mais sobre as estruturas do **Pandas** veja a documentação delas:

* [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)
* [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)