# 🐼 Pandas - Criando, Carregando e Selecionando

## Introducao

### 1. Importando o módulo Pandas
Pandas é um módulo Python para trabalhar com dados tabulares (ou seja, dados em uma tabela com linhas e colunas).

In [69]:
import pandas as pd

### 2. Crie um DataFrame I

Um DataFrame é um objeto que armazena dados como linhas e colunas. Você pode pensar em um DataFrame como uma planilha ou uma tabela SQL. Você pode criar manualmente um DataFrame ou preenchê-lo com dados de um CSV, uma planilha do Excel ou uma consulta SQL.

DataFrames possuem linhas e colunas. Cada coluna possui um nome, que é uma string. Cada linha possui um índice, que é um número inteiro. DataFrames podem conter muitos tipos de dados diferentes: strings, ints, floats, tuples, etc.

Você pode passar um dicionário para **pd.DataFrame()**. Cada chave é um nome de coluna e cada valor é uma lista de valores de coluna. As colunas devem ter todas o mesmo comprimento ou você receberá um erro.

In [70]:
df1 = pd.DataFrame({
  'Product ID': [1, 2, 3, 4],
  'Product Name': ['t-shirt', 't-shirt', 'skirt', 'skirt'],
  'Color': ['blue', 'green', 'red', 'black']
})

print(df1)

   Product ID Product Name  Color
0           1      t-shirt   blue
1           2      t-shirt  green
2           3        skirt    red
3           4        skirt  black


### 3. Crie um DataFrame II
Pode passar uma lista de listas, onde cada uma representa uma linha de dados. Use o argumento palavra-chave **columns** para passar uma lista de nomes de colunas.

In [71]:
df2 = pd.DataFrame([
  [1, 'San Diego', 100],
  [2, 'Los Angeles', 120],
  [3, 'San Francisco', 90],
  [4, 'Sacramento', 115]
],
  columns = [
    'Store ID', 'Location', 'Number of Employees'
  ])

print(df2)

   Store ID       Location  Number of Employees
0         1      San Diego                  100
1         2    Los Angeles                  120
2         3  San Francisco                   90
3         4     Sacramento                  115


### 4. Variáveis ​​​​separadas por vírgula (CSV)
CSV (valores separados por vírgula) é um formato de planilha somente texto

A primeira linha de um CSV contém títulos de colunas. Todas as linhas subsequentes contêm valores. Cada cabeçalho de coluna e cada variável são separados por uma vírgula:

column1,column2,column3

value1,value2,value3

##### exmeplo:
name,cake_flavor,frosting_flavor,topping

Chocolate Cake,chocolate,chocolate,chocolate shavings

Birthday Cake,vanilla,vanilla,rainbow sprinkles

Carrot cake,carrot,cream cheese,almonds

### 5. Carregando e salvando CSVs
Quando você tem dados em um CSV, você pode carregá-los em um DataFrame no Pandas usando **.read_csv()**

Também podemos salvar dados em um CSV, usando **.to_csv()**

In [72]:
df = pd.read_csv('data/imdb.csv')
print(df)

      id                                       name   genre  year  imdb_rating
0      1                                     Avatar  action  2009          7.9
1      2                             Jurassic World  action  2015          7.3
2      3                               The Avengers  action  2012          8.1
3      4                            The Dark Knight  action  2008          9.0
4      5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
..   ...                                        ...     ...   ...          ...
215  216                                   Hannibal   drama  2001          6.7
216  217                        Catch Me If You Can   drama  2002          8.0
217  218                                  Big Daddy   drama  1999          6.4
218  219                                      Se7en   drama  1995          8.6
219  220                                      Seven   drama  1979          6.1

[220 rows x 5 columns]


### 6. Inspecione um DataFrame
O método **df.head()** fornece as primeiras 5 linhas de um DataFrame. Se quiser ver mais linhas, você pode passar o argumento posicional n

O método **df.info()** fornece algumas estatísticas para cada coluna, como dtype, colunas, memoria ocupada, entre outros

In [73]:
print(df.head())

   id                                       name   genre  year  imdb_rating
0   1                                     Avatar  action  2009          7.9
1   2                             Jurassic World  action  2015          7.3
2   3                               The Avengers  action  2012          8.1
3   4                            The Dark Knight  action  2008          9.0
4   5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6


In [74]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 220 entries, 0 to 219
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           220 non-null    int64  
 1   name         220 non-null    object 
 2   genre        220 non-null    object 
 3   year         220 non-null    int64  
 4   imdb_rating  220 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 8.7+ KB
None


### 7. Selecione Colunas
Existem duas sintaxes possíveis para selecionar todos os valores de uma coluna:

1. Selecione a coluna como se estivesse selecionando um valor de um dicionário usando uma chave. Em nosso exemplo, digitaríamos **df['column']** para selecionar as idades
2. Se o nome de uma coluna seguir todas as regras para um nome de variável (não começar com um número, não conter espaços ou caracteres especiais, etc.), então você poderá selecioná-la usando a seguinte notação: df.MySecondColumn. Em nosso exemplo, digitaríamos **df.column**

In [75]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

clinic_north = df['clinic_north']
#print(type(clinic_north))
print(type(df))

<class 'pandas.core.frame.DataFrame'>


### 8. Selecionando múltiplas colunas
Para selecionar duas ou mais colunas de um DataFrame, usamos uma lista de nomes de colunas

**Nota:** Certifique-se de ter um conjunto duplo de colchetes ([[]]), ou este comando não funcionará!

In [76]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

clinic_north_south = df[['clinic_north', 'clinic_south']]
print(type(clinic_north_south))

<class 'pandas.core.frame.DataFrame'>


### 9. Selecione linhas
DataFrames são indexados em zero, o que significa que começamos com a 0ª linha e contamos a partir daí

```python
df.iloc[1]
```


In [77]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

march = df.iloc[2]
print(march)

month           March
clinic_east        81
clinic_north       96
clinic_south       65
clinic_west        96
Name: 2, dtype: object


### 10. Selecionando múltiplas linhas
Algumas maneiras de selecionar varias linhas (utiliza fatiamento):

```python
df.iloc[3:7]
df.iloc[:4]
df.iloc[-3:]
```

In [78]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

april_may_june = df.iloc[3:7]
print(april_may_june)

   month  clinic_east  clinic_north  clinic_south  clinic_west
3  April           80            80            54          180
4    May           51            54            54          154
5   June          112           109            79          129


### 11. Selecione linhas com lógica I
Você pode selecionar um subconjunto de um DataFrame usando instruções lógicas:

```python
df[df.MyColumnName == desired_column_value] 
# operadores logico (<, >, >=, <= e !=)
```

In [79]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

january = df[df.month == 'January']
print(january)

     month  clinic_east  clinic_north  clinic_south  clinic_west
0  January          100           100            23          100


### 12. Selecione linhas com Logic II
**|** significa “ou” e **&** significa “e”

```python
df[(df.MyColumnName1 == desired_column_value1)|
   (df.MyColumnName2 != desired_column_value2)] 
```

In [80]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])


march_april = df[(df.month == 'March')|
                (df.month == 'April')]
print(march_april)

   month  clinic_east  clinic_north  clinic_south  clinic_west
2  March           81            96            65           96
3  April           80            80            54          180


### 13. Selecione linhas com Logic III
Poderíamos usar o **isin** comando para verificar se **df.name** é um de uma lista de valores

In [81]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

january_february_march = df[df.month.isin(['January', 'February', 'March'])]
print(january_february_march)

      month  clinic_east  clinic_north  clinic_south  clinic_west
0   January          100           100            23          100
1  February           51            45           145           45
2     March           81            96            65           96


### 14. Definir índices
Quando selecionamos um subconjunto de um DataFrame usando lógica, obtemos índices não consecutivos. Isso é deselegante e dificulta o uso **.iloc()**.

Podemos corrigir isso usando o método **.reset_index()**.

Se executarmos o comando **df.reset_index(drop=True)**, para nao acabar com a coluna indice.

Usar **.reset_index()r** retornará um novo DataFrame, mas geralmente queremos apenas modificar nosso DataFrame existente. Se usarmos a palavra-chave, **inplace=True** podemos simplesmente modificar nosso DataFrame existente.

In [82]:
df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

df2 = df.loc[[1, 3, 5]]

# print(df2)

df3 = df2.reset_index()

print(df3)

df2.reset_index(inplace = True, drop = True)

print(df2)

   index     month  clinic_east  clinic_north  clinic_south  clinic_west
0      1  February           51            45           145           45
1      3     April           80            80            54          180
2      5      June          112           109            79          129
      month  clinic_east  clinic_north  clinic_south  clinic_west
0  February           51            45           145           45
1     April           80            80            54          180
2      June          112           109            79          129


## Modificando Dataframe

### 1. Adicionando uma coluna I

Uma maneira de adicionar uma nova coluna é fornecendo uma lista com o mesmo comprimento do DataFrame existente

In [83]:
df = pd.DataFrame([
  [1, '3 inch screw', 0.5, 0.75],
  [2, '2 inch nail', 0.10, 0.25],
  [3, 'hammer', 3.00, 5.50],
  [4, 'screwdriver', 2.50, 3.00]
],
  columns=['Product ID', 'Description', 'Cost to Manufacture', 'Price']
)

df['Sold in Bulk?'] = ['Yes', 'Yes', 'No', 'No']
print(df)

   Product ID   Description  Cost to Manufacture  Price Sold in Bulk?
0           1  3 inch screw                  0.5   0.75           Yes
1           2   2 inch nail                  0.1   0.25           Yes
2           3        hammer                  3.0   5.50            No
3           4   screwdriver                  2.5   3.00            No


### 2. Adicionando uma Coluna II

Também podemos adicionar uma nova coluna que seja igual para todas as linhas do DataFrame.

In [84]:
df = pd.DataFrame([
  [1, '3 inch screw', 0.5, 0.75],
  [2, '2 inch nail', 0.10, 0.25],
  [3, 'hammer', 3.00, 5.50],
  [4, 'screwdriver', 2.50, 3.00]
],
  columns=['Product ID', 'Description', 'Cost to Manufacture', 'Price']
)

df["Is taxed?"] = "Yes"
print(df)

   Product ID   Description  Cost to Manufacture  Price Is taxed?
0           1  3 inch screw                  0.5   0.75       Yes
1           2   2 inch nail                  0.1   0.25       Yes
2           3        hammer                  3.0   5.50       Yes
3           4   screwdriver                  2.5   3.00       Yes


### 3. Adicionando uma Coluna III

Adcionando uma nova coluna executando uma função nas colunas existentes

In [85]:
df = pd.DataFrame([
  [1, '3 inch screw', 0.5, 0.75],
  [2, '2 inch nail', 0.10, 0.25],
  [3, 'hammer', 3.00, 5.50],
  [4, 'screwdriver', 2.50, 3.00]
],
  columns=['Product ID', 'Description', 'Cost to Manufacture', 'Price']
)

df['Margin'] = df['Price'] - df['Cost to Manufacture']
print(df)

   Product ID   Description  Cost to Manufacture  Price  Margin
0           1  3 inch screw                  0.5   0.75    0.25
1           2   2 inch nail                  0.1   0.25    0.15
2           3        hammer                  3.0   5.50    2.50
3           4   screwdriver                  2.5   3.00    0.50


### 4. Executando operações de coluna

**apply** função para aplicar uma função a cada valor em uma coluna específica

In [86]:
df = pd.DataFrame([
  ['JOHN SMITH', 'john.smith@gmail.com'],
  ['Jane Doe', 'jdoe@yahoo.com'],
  ['joe schmo', 'joeschmo@hotmail.com']
],
columns=['Name', 'Email'])

df['Name'] = df.Name.apply(str.upper)
print(df)
#df["Lowercase Name"] = df.Name.apply(str.lower)
#print(df)

         Name                 Email
0  JOHN SMITH  john.smith@gmail.com
1    JANE DOE        jdoe@yahoo.com
2   JOE SCHMO  joeschmo@hotmail.com


### 5. Aplicando um Lambda a uma coluna

Funções lambda para realizar operações complexas em colunas.

In [87]:
df = pd.read_csv('data/employees.csv')

df["last_name"] = df.name.apply(
  lambda x: x.split()[-1]
)

print(df)

       id               name  hourly_wage  hours_worked  last_name
0   10310      Lauren Durham           19            43     Durham
1   18656      Grace Sellers           17            40    Sellers
2   61254  Shirley Rasmussen           16            30  Rasmussen
3   16886        Brian Rojas           18            47      Rojas
4   89010    Samantha Mosley           11            38     Mosley
5   87246       Louis Guzman           14            39     Guzman
6   20578     Denise Mcclure           15            40    Mcclure
7   12869      James Raymond           15            32    Raymond
8   53461       Noah Collier           18            35    Collier
9   14746    Donna Frederick           20            41  Frederick
10  71127       Shirley Beck           14            32       Beck
11  92522    Christina Kelly            8            44      Kelly
12  22447        Brian Noble           11            39      Noble
13  61654          Randy Key           16            38       

### 6. Aplicando um Lambda a uma linha

Se usarmos **apply** sem especificar uma única coluna e adicionarmos o argumento **axis=1**, a entrada para nossa função lambda será uma linha inteira, não uma coluna. Para acessar valores específicos da linha, usamos a sintaxe **row.column_name** ou **row[‘column_name’]**

In [88]:
df = pd.read_csv('data/employees.csv')

total_earned = lambda row: (row.hourly_wage * 40) + ((row.hourly_wage * 1.5) * (row.hours_worked - 40)) \
    if row.hours_worked > 40 \
    else row.hourly_wage * row.hours_worked
  
df['total_earned'] = df.apply(total_earned, axis = 1)

print(df)

       id               name  hourly_wage  hours_worked  total_earned
0   10310      Lauren Durham           19            43         845.5
1   18656      Grace Sellers           17            40         680.0
2   61254  Shirley Rasmussen           16            30         480.0
3   16886        Brian Rojas           18            47         909.0
4   89010    Samantha Mosley           11            38         418.0
5   87246       Louis Guzman           14            39         546.0
6   20578     Denise Mcclure           15            40         600.0
7   12869      James Raymond           15            32         480.0
8   53461       Noah Collier           18            35         630.0
9   14746    Donna Frederick           20            41         830.0
10  71127       Shirley Beck           14            32         448.0
11  92522    Christina Kelly            8            44         368.0
12  22447        Brian Noble           11            39         429.0
13  61654          R

### 7. Renomeando Colunas
Alterar todos os nomes de colunas de uma vez, definindo a .columnspropriedade para uma lista diferente.

In [89]:
df = pd.read_csv('data/imdb.csv')

df.columns = ['ID', 'Title', 'Category', 'Year Released', 'Rating']
print(df)

      ID                                      Title Category  Year Released  \
0      1                                     Avatar   action           2009   
1      2                             Jurassic World   action           2015   
2      3                               The Avengers   action           2012   
3      4                            The Dark Knight   action           2008   
4      5  Star Wars: Episode I - The Phantom Menace   action           1999   
..   ...                                        ...      ...            ...   
215  216                                   Hannibal    drama           2001   
216  217                        Catch Me If You Can    drama           2002   
217  218                                  Big Daddy    drama           1999   
218  219                                      Se7en    drama           1995   
219  220                                      Seven    drama           1979   

     Rating  
0       7.9  
1       7.3  
2       8

### 8. Renomendo colunas II

Colunas individuais usando o **.rename** método
**inplace=True** nos permite editar o DataFrame original

In [90]:
df = pd.read_csv('data/imdb.csv')

# Rename columns here
df.rename(columns={
    "name" : "movie_title"
  },
  inplace=True)

print(df)

      id                                movie_title   genre  year  imdb_rating
0      1                                     Avatar  action  2009          7.9
1      2                             Jurassic World  action  2015          7.3
2      3                               The Avengers  action  2012          8.1
3      4                            The Dark Knight  action  2008          9.0
4      5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
..   ...                                        ...     ...   ...          ...
215  216                                   Hannibal   drama  2001          6.7
216  217                        Catch Me If You Can   drama  2002          8.0
217  218                                  Big Daddy   drama  1999          6.4
218  219                                      Se7en   drama  1995          8.6
219  220                                      Seven   drama  1979          6.1

[220 rows x 5 columns]


### 9. Exemplo

In [91]:
orders = pd.read_csv('data/shoefly.csv')

print(f"{orders.head(5)}\n\n")

orders['shoe_source'] = orders.shoe_material.apply(lambda x: 'animal' if x == 'leather' else 'vegan')
                        
orders['salutation'] = orders.apply(lambda row: 
                                    'Dear Mr. ' + row['last_name']
                                    if row['gender'] == 'male'
                                    else 'Dear Ms. ' + row['last_name'],
                                    axis=1)

print(orders)

      id first_name last_name  gender                         email  \
0  54791    Rebecca   Lindsay  female  RebeccaLindsay57@hotmail.com   
1  53450      Emily     Joyce  female        EmilyJoyce25@gmail.com   
2  91987      Joyce    Waller  female        Joyce.Waller@gmail.com   
3  14437     Justin  Erickson    male   Justin.Erickson@outlook.com   
4  79357     Andrew     Banks    male              AB4318@gmail.com   

      shoe_type shoe_material shoe_color  
0         clogs  faux-leather      black  
1  ballet flats  faux-leather       navy  
2       sandles        fabric      black  
3         clogs  faux-leather        red  
4         boots       leather      brown  


       id  first_name   last_name  gender                         email  \
0   54791     Rebecca     Lindsay  female  RebeccaLindsay57@hotmail.com   
1   53450       Emily       Joyce  female        EmilyJoyce25@gmail.com   
2   91987       Joyce      Waller  female        Joyce.Waller@gmail.com   
3   14437    

# 🐼 Pandas - Agregados

### 1. Calculando estatísticas de coluna
`df.column_name.command()`

A tabela a seguir resume alguns comandos comuns:

| Comando  | Descrição                                      |
|----------|------------------------------------------------|
| mean     | Média de todos os valores na coluna            |
| std      | Desvio padrão                                  |
| median   | Mediana                                        |
| max      | Valor máximo na coluna                         |
| min      | Valor mínimo na coluna                         |
| count    | Número de valores na coluna                    |
| nunique  | Número de valores exclusivos na coluna         |
| unique   | Lista de valores exclusivos na coluna          |


In [92]:
orders = pd.read_csv('data/orders.csv')
print(orders.head(10))

most_expensive = orders.price.max()
print(most_expensive)

num_colors = orders.shoe_color.nunique()
print(num_colors)

      id first_name    last_name                         email     shoe_type  \
0  41874       Kyle         Peck          KylePeck71@gmail.com  ballet flats   
1  31349  Elizabeth    Velazquez      EVelazquez1971@gmail.com         boots   
2  43416      Keith     Saunders              KS4047@gmail.com       sandals   
3  56054       Ryan      Sweeney     RyanSweeney14@outlook.com       sandals   
4  77402      Donna  Blankenship              DB3807@gmail.com     stilettos   
5  97148     Albert       Dillon       Albert.Dillon@gmail.com        wedges   
6  19998     Judith       Hewitt      JudithHewitt98@gmail.com     stilettos   
7  83290      Kayla       Hardin        Kayla.Hardin@gmail.com     stilettos   
8  77867     Steven  Blankenship  Steven.Blankenship@gmail.com        wedges   
9  54885      Carol   Mclaughlin              CM3415@gmail.com  ballet flats   

  shoe_material shoe_color  price  
0  faux-leather      black  385.0  
1        fabric      brown  388.0  
2       lea

### 2. Calculando Funções Agregadas I
Quando temos muitos dados, muitas vezes queremos calcular estatísticas agregadas (média, desvio padrão, mediana, 
percentis, etc.) sobre determinados subconjuntos de dados

`df.groupby('column1').column2.measurement()`

- `column1` é a coluna pela qual queremos agrupar 
- `column2` é a coluna na qual queremos realizar uma medição
- `measurement` é a função de medição que queremos aplicar 

In [93]:
orders = pd.read_csv('data/orders.csv')

pricey_shoes = orders.groupby("shoe_type").price.max()

print(pricey_shoes)
print(type(pricey_shoes)) # cria uma nova serie

shoe_type
ballet flats    481.0
boots           478.0
clogs           493.0
sandals         456.0
stilettos       487.0
wedges          461.0
Name: price, dtype: float64
<class 'pandas.core.series.Series'>


### 3. Calculando Funções Agregadas II
Depois de usar groupby, muitas vezes precisamos limpar nossos dados resultantes.

Normalmente, preferiríamos que esses índices fossem na verdade uma coluna. Para conseguir isso, podemos usar 
`reset_index()`. Isso transformará nossa série em um DataFrame e moverá os índices para suas próprias colunas.

`df.groupby('column1').column2.measurement()
    .reset_index()`


In [94]:
orders = pd.read_csv('data/orders.csv')

pricey_shoes = orders.groupby('shoe_type').price.max() \
.reset_index()

print(pricey_shoes)
print(type(pricey_shoes))

# nota: podemos renomear nome da coluna
# orders_price = orders.rename(columns={"price": "R$"})

      shoe_type  price
0  ballet flats  481.0
1         boots  478.0
2         clogs  493.0
3       sandals  456.0
4     stilettos  487.0
5        wedges  461.0
<class 'pandas.core.frame.DataFrame'>


### 4. Calculando Funções Agregadas III
Às vezes, a operação que você deseja realizar é mais complicada que meanou count. Nesses casos, você pode usar o `apply`
método e as funções lambda, assim como fizemos para operações de colunas individuais.

In [95]:
import numpy as np

orders = pd.read_csv('data/orders.csv')

cheap_shoes = orders.groupby("shoe_color").price \
.apply(lambda x: np.percentile(x, 25)) \
.reset_index()

print(cheap_shoes)

  shoe_color  price
0      black    NaN
1      brown  193.5
2       navy  205.5
3        red  250.0
4      white  196.0


### 5. Calculando Funções Agregadas IV
Agrupar por mais de uma coluna, passando uma lista de nomes de colunas para o `groupby` método.

In [96]:
orders = pd.read_csv('data/orders.csv')

shoe_counts = orders.groupby(['shoe_type', 'shoe_color']).id.count() \
.reset_index()

# nota: orders.rename(colums=("id" : "quantidade"))
print(shoe_counts)

       shoe_type shoe_color  id
0   ballet flats      black   2
1   ballet flats      brown   5
2   ballet flats        red   3
3   ballet flats      white   5
4          boots      black   3
5          boots      brown   5
6          boots       navy   6
7          boots        red   2
8          boots      white   3
9          clogs      black   4
10         clogs      brown   6
11         clogs       navy   1
12         clogs        red   4
13         clogs      white   1
14       sandals      black   1
15       sandals      brown   4
16       sandals       navy   5
17       sandals        red   3
18       sandals      white   4
19     stilettos      black   5
20     stilettos      brown   3
21     stilettos       navy   2
22     stilettos        red   2
23     stilettos      white   2
24        wedges      black   3
25        wedges      brown   4
26        wedges       navy   4
27        wedges        red   5
28        wedges      white   2


### 6. Tabelas dinamicas
Reorganizar uma tabela para processamento ou resumo de dados é chamado de pivotamento. A nova tabela é chamada de tabela
dinâmica.

- `pivot()` e `pivot_table()`: Agrupar valores únicos dentro de uma ou mais categorias discretas.

`df.pivot(columns='ColumnToPivot',
         index='ColumnToBeRows',
         values='ColumnToBeValues')`

In [97]:
orders = pd.read_csv('data/orders.csv')

shoe_counts = orders.groupby(['shoe_type', 'shoe_color']).id.count().reset_index()

shoe_counts_pivot = shoe_counts.pivot(
  columns = 'shoe_color',
  index = 'shoe_type',
  values = 'id').reset_index()

print(shoe_counts_pivot)

shoe_color     shoe_type  black  brown  navy  red  white
0           ballet flats    2.0    5.0   NaN  3.0    5.0
1                  boots    3.0    5.0   6.0  2.0    3.0
2                  clogs    4.0    6.0   1.0  4.0    1.0
3                sandals    1.0    4.0   5.0  3.0    4.0
4              stilettos    5.0    3.0   2.0  2.0    2.0
5                 wedges    3.0    4.0   4.0  5.0    2.0


# 🐼 Pandas - Multiplas Tabelas

### 1. Mesclagem Interna I

Vamos examinar a ordem com um `order_id` em 1. Foi adquirido pelo Cliente 2. Para saber o nome do cliente, olhamos a 
`customers` tabela e procuramos o item com `customer_id` valor de 2. Podemos ver que o nome do Cliente 2 é Jane Doe 
e que ela mora em 456 Park Ave.

Fazer esse tipo de correspondência é chamado de **mesclar** dois DataFrames

In [98]:
orders = pd.read_csv('data/orders2.csv')
products = pd.read_csv('data/products.csv')
customers = pd.read_csv('data/customers.csv')

print(orders)
print(products)
print(customers)

"""
order_3_description = "thing-a-ma-jig"
order_5_phone_number = "112-358-1321"
"""

   order_id  customer_id  product_id  quantity   timestamp
0         1            2           3         1  2017-01-01
1         2            2           2         3  2017-01-01
2         3            3           1         1  2017-01-01
3         4            3           2         2  2017-02-01
4         5            3           3         3  2017-02-01
5         6            1           4         2  2017-03-01
6         7            1           1         1  2017-02-02
7         8            1           4         1  2017-02-02
   product_id         description  price
0           1      thing-a-ma-jig      5
1           2  whatcha-ma-call-it     10
2           3          doo-hickey      7
3           4               gizmo      3
   customer_id customer_name        address  phone_number
0            1    John Smith   123 Main St.  212-123-4567
1            2      Jane Doe  456 Park Ave.  949-867-5309
2            3     Joe Schmo   798 Broadway  112-358-1321


'\norder_3_description = "thing-a-ma-jig"\norder_5_phone_number = "112-358-1321"\n'

### 2. Mescalgem Interna II

O `.merge()` método procura colunas que são comuns entre dois DataFrames e, em seguida, procura linhas onde os valores 
dessas colunas são iguais. Em seguida, combina as linhas correspondentes em uma única linha em uma nova tabela.

In [99]:
sales = pd.read_csv('data/sales.csv')
print(sales)
targets = pd.read_csv('data/targets.csv')
print(targets)

sales_vs_targets = pd.merge(sales, targets)

print(sales_vs_targets)

crushing_it = sales_vs_targets[sales_vs_targets.revenue > sales_vs_targets.target]

      month  revenue
0   January      300
1  February      290
2     March      310
3     April      325
4       May      475
5      June      495
      month  target
0   January     310
1  February     270
2     March     300
3     April     350
4       May     475
5      June     500
      month  revenue  target
0   January      300     310
1  February      290     270
2     March      310     300
3     April      325     350
4       May      475     475
5      June      495     500


### 3. Mesclagem Interna III

Além de usar `pd.merge()`, cada DataFrame possui seu próprio `.merge()` método. Por exemplo, se você quiser mesclar `orders` com `customers`, você pode usar:

```python 
new_df = orders.merge(customers)

```

Isso produz o mesmo DataFrame como se tivéssemos chamado `pd.merge(orders, customers)`.

Geralmente usamos isso quando juntamos mais de dois DataFrames porque podemos “encadear” os comandos. O comando a seguir seria mesclado` order` se `customers`, em seguida, o DataFrame resultante para `products`:

```python 
big_df = orders.merge(customers)\
    .merge(products)
```

In [100]:
sales = pd.read_csv('data/sales.csv')
targets = pd.read_csv('data/targets.csv')
men_women = pd.read_csv('data/men_women_sales.csv')

all_data = sales.merge(targets)\
	.merge(men_women)
print(all_data)

results = all_data[(all_data.revenue > all_data.target) & (all_data.women > all_data.men)]
print(results)


      month  revenue  target  men  women
0   January      300     310   30     35
1  February      290     270   29     35
2     March      310     300   31     29
3     April      325     350   32     28
4       May      475     475   47     50
5      June      495     500   49     45
      month  revenue  target  men  women
1  February      290     270   29     35


### 4. Mesclar em colunas específicas
![image-2.png](attachment:image-2.png)

Como as `id` colunas significariam algo diferente em cada tabela, nossas mesclagens padrão estariam erradas.

Uma maneira de resolver esse problema é `.rename()` renomear as colunas para nossas mesclagens. No exemplo abaixo, vamos renomear a coluna `id` para `customer_id`, para que `orders` tenhamos `customers` uma coluna comum para a mesclagem.

```python
pd.merge(
    orders,
    customers.rename(columns={'id': 'customer_id'}))
```


In [101]:
orders = pd.read_csv('data/orders.csv')
print(orders)
products = pd.read_csv('data/products.csv')
print(products)

orders_products = pd.merge(
    orders,
    products.rename(columns={'id': 'product_id'})
)

print(orders_products)

       id first_name    last_name                      email     shoe_type  \
0   41874       Kyle         Peck       KylePeck71@gmail.com  ballet flats   
1   31349  Elizabeth    Velazquez   EVelazquez1971@gmail.com         boots   
2   43416      Keith     Saunders           KS4047@gmail.com       sandals   
3   56054       Ryan      Sweeney  RyanSweeney14@outlook.com       sandals   
4   77402      Donna  Blankenship           DB3807@gmail.com     stilettos   
..    ...        ...          ...                        ...           ...   
94  21506      Scott       Deleon     Scott.Deleon@gmail.com     stilettos   
95  77266    Zachary      Gregory  Zachary.Gregory@gmail.com       sandals   
96  67264   Danielle      Merrill     DMerrill1998@gmail.com        wedges   
97  19100   Danielle       Barron      DBarron1982@gmail.com       sandals   
98  26210    Marilyn        Finch   MarilynFinch92@gmail.com       sandals   

   shoe_material shoe_color  price  
0   faux-leather      blac

### 5. Mesclar em colunas específicas II

As palavras-chave `left_one` e `right_on` para especificar em quais colunas queremos realizar a mesclagem

In [102]:
orders = pd.read_csv('data/orders.csv')
products = pd.read_csv('data/products.csv')

orders_products = pd.merge(
	orders,
	products,
	left_on = 'product_id',
	right_on = 'id',
	suffixes = ['_orders', '_products']
)

print(orders_products)

KeyError: 'id'

### 6. Mesclagem externa
Quando fundimos dois DataFrames cujas linhas não correspondem perfeitamente, perdemos as linhas sem correspondência.

Este tipo de mesclagem (onde incluímos apenas linhas correspondentes) é chamado de mesclagem interna . Existem outros tipos de mesclagens que podemos usar quando queremos manter as informações das linhas sem correspondência.

`Outer Join` - uma junção externa incluiria todas as linhas de ambas as tabelas, mesmo que não correspondessem. Quaisquer valores ausentes são preenchidos com Noneou nan(que significa “Não é um número”).

In [None]:
store_a = pd.read_csv('data/store_a.csv')
print(store_a)
store_b = pd.read_csv('data/store_b.csv')
print(store_b)

store_a_b_outer = pd.merge(store_a, store_b, how='outer')
print(store_a_b_outer)

### 7. Mesclar esquerda e direita
`Right merge`:  Uma mesclagem à esquerda inclui todas as linhas da primeira tabela (esquerda), mas apenas as linhas da segunda tabela (direita) que correspondem à primeira tabela.

`Left merge`: A mesclagem à direita é exatamente o oposto da mesclagem à esquerda. Aqui, a tabela mesclada incluirá todas as linhas da segunda tabela (direita), mas apenas as linhas da primeira tabela (esquerda) que correspondam à segunda tabela.

In [None]:

store_a = pd.read_csv('data/store_a.csv')
print(store_a)
store_b = pd.read_csv('data/store_b.csv')
print(store_b)

store_a_b_left = pd.merge(store_a, store_b, how='left')
store_b_a_right = pd.merge(store_a, store_b, how='right')

print(store_a_b_left)
print(store_b_a_right)

### 8. Concatenar DataFrames
Quando precisarmos reconstruir um único DataFrame a partir de vários DataFrames menores, podemos usar o método `pd.concat([df1, df2, df3, ...])`. Este método só funciona se todas as colunas forem iguais em todos os DataFrames.

In [None]:
bakery = pd.read_csv('data/bakery.csv')
print(bakery)
ice_cream = pd.read_csv('data/ice_cream.csv')
print(ice_cream)

menu = pd.concat([bakery, ice_cream])
print(menu)