# Aula 03 - Series & DataFrames
---

<img src="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp" width="220px" style="position: absolute; top: 15px; right: 20px; border-radius: 5px;" />

## Series - Continuação...

In [1]:
import pandas as pd
serie2 = pd.Series(data = [2320, 5430, 8300, 4560, 3768], index = ['seg', 'ter', 'qua', 'qui', 'sex'])

In [2]:
(serie2 + serie2['seg':'qua']).sort_index()

qua    16600.0
qui        NaN
seg     4640.0
sex        NaN
ter    10860.0
dtype: float64

In [3]:
serie2.add(serie2['seg':'qua'], fill_value = 0)

qua    16600.0
qui     4560.0
seg     4640.0
sex     3768.0
ter    10860.0
dtype: float64

### Indexação e Slices

In [4]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [5]:
serie2[0]

2320

In [6]:
serie2['seg']

2320

In [7]:
serie2[0:3]

seg    2320
ter    5430
qua    8300
dtype: int64

In [8]:
serie2['seg':'qua']

seg    2320
ter    5430
qua    8300
dtype: int64

In [9]:
serie2['qui':'ter': -1]

qui    4560
qua    8300
ter    5430
dtype: int64

### Máscaras

In [10]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [11]:
serie2[serie2 > 5000]

ter    5430
qua    8300
dtype: int64

In [12]:
serie2[(serie2 > 3000) & (serie2 < 6000)]

ter    5430
qui    4560
sex    3768
dtype: int64

### Operações com Series

## DataFrames
---

- [Criação de DataFrames]()
- Acesso aos dados
    
- Criando novas colunas
- `reset_index` e `set_index`
- Carregando e Salvando Datasets
    - Conhecendo o [Kaggle](https://www.kaggle.com/)
    - CSV
    - XLSX
    - HTML  
    - ...

### Criação de DataFrames

<div style="display: block; margin: 2rem 0; background-color: #1E90FF33; border: 2px solid #1E90FF; border-radius: 7px; padding: 20px; width: 50%">
    <a style="text-align: center; display: block; width: 100%; font-size: 1.2rem" href="https://www.walissonsilva.com/posts/diferentes-formas-de-criar-um-dataframe">Diferentes formas de criar um DataFrame</a>
<div>

####  Array Bidimensional 

In [13]:
import numpy as np

In [14]:
dados = np.random.randint(1, 100, (4,4))
dados

array([[ 3, 41, 23, 38],
       [ 3, 89, 47, 18],
       [18, 68, 59, 63],
       [90, 43, 87, 42]])

In [15]:
pd.DataFrame(data = dados, columns=['Coluna 1', 'Coluna 2', 'Coluna3', 'Coluna 4'])

Unnamed: 0,Coluna 1,Coluna 2,Coluna3,Coluna 4
0,3,41,23,38
1,3,89,47,18
2,18,68,59,63
3,90,43,87,42


In [16]:
matriz = np.array([[72, 180, 26], [80, 170, 19], [60, 165, 15]])
matriz

array([[ 72, 180,  26],
       [ 80, 170,  19],
       [ 60, 165,  15]])

In [17]:
pd.DataFrame(data=matriz, columns=['Peso', 'Altura', 'Idade'], index=['João', 'Felipe', 'Patrícia'])

Unnamed: 0,Peso,Altura,Idade
João,72,180,26
Felipe,80,170,19
Patrícia,60,165,15


In [18]:
# Geralmente índices não são usados, por não afetar o funcionamento
pd.DataFrame(data=matriz, columns=['Peso', 'Altura', 'Idade'])

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [19]:
dl = {
    'Peso': [72, 80, 60], 
    'Altura': [180, 170, 165], 
    'Idade': [26, 19, 15]
}

In [20]:
pd.DataFrame(dl)

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


#### Lista de dicionários

In [21]:
ld = [
    {
        'Peso': 72,
        'Altura': 180,
        'Idade': 26
    },
    {
        'Peso': 80,
        'Altura': 170,
        'Idade': 19
    },
    {
        'Peso': 60,
        'Altura': 165,
        'Idade': 15
    }
]


In [22]:
pd.DataFrame(ld)

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


### Acessando os elementos

- Acessando coluna(s)
- Acessando um elemento específico
- Acessando linha(s)
- `loc` e `iloc`

In [41]:
dl = {
    'Peso': [72, 80, 60], 
    'Altura': [180, 170, 165], 
    'Idade': [26, 19, 15]
}

df = pd.DataFrame(dl)
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [42]:
df['Peso']

0    72
1    80
2    60
Name: Peso, dtype: int64

In [43]:
df['Altura']

0    180
1    170
2    165
Name: Altura, dtype: int64

In [44]:
#Acessar a linha
df.loc[0]

Peso       72
Altura    180
Idade      26
Name: 0, dtype: int64

In [45]:
df['Altura'][0]

180

In [46]:
df.loc[0]['Peso']

72

In [47]:
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [48]:
#Acessar pelo índice [linha, coluna]
df.iloc[0, 1]

180

### Criando novas colunas

In [49]:
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


#### IMC

$$
IMC = \frac{Peso}{Altura^2}
$$

In [50]:
df['Peso']/(df['Altura']/100)**2

0    22.222222
1    27.681661
2    22.038567
dtype: float64

In [51]:
df['IMC'] = df['Peso']/(df['Altura']/100)**2
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
1,80,170,19,27.681661
2,60,165,15,22.038567


### Removendo Linhas/Colunas

In [52]:
#Apenas retorna o df sem a linha 1, mas não salva o df
df.drop(1)

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
2,60,165,15,22.038567


In [53]:
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
1,80,170,19,27.681661
2,60,165,15,22.038567


In [54]:
#Exlui a linha 1 do df
df = df.drop(1)
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
2,60,165,15,22.038567


In [55]:
# axis 0 (default) é linha, axis 1 é coluna
# inplace: substitui o df atual, sem ter que atribuir
df.drop('Idade', axis = 1, inplace = True)

### `reset_index` e `set_index`

In [56]:
df

Unnamed: 0,Peso,Altura,IMC
0,72,180,22.222222
2,60,165,22.038567


In [59]:
df.set_index('Nome', inplace = True)

KeyError: "None of ['Nome'] are in the columns"

In [58]:
df.reset_index(inplace = True)

### Carregando e Salvando DataFrames

In [65]:
pd.read_csv('datasets/aluguel.csv', sep = ';')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
19826,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
19827,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
19828,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
19829,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento


### Principais métodos e atributos

- `index`
- `columns`
- `values`
- `shape`
- `dtypes`
- `head()`
- `tail()`
- `describe()`
- `info()`
- `min()`, `max()`, `sum()`...
- `rename()`
- `duplicated()`
- `drop_duplicates()`

### Agrupamento e Ordenação de Dados

### Transformação de Dados

#### `map`

#### `apply`

1. Utilizando uma função pronta
2. Criando uma função própria
3. Utilizando uma função lambda

#### `get_dummies`