<a href="https://colab.research.google.com/github/fredericokrohling/1-Python-MBA/blob/main/Semana2%2018%20a%2020.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Pandas: parte 2</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material dos Profs. Moacir Antonelli Ponti e Luis Gustavo Nonato)*

__Conteúdo:__

- Series
- Estatísticas
- Filtragem Agrupada
- Limpeza de Dados
- Preparação de Dados

__Referências__ <br>
- McKinney, W. and PyData Development Team [Pandas: powerful Python data analysis toolkit](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- Documentação Pandas [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)
- Wickham, H. Tidy data: https://vita.had.co.nz/papers/tidy-data.pdf

In [None]:
import pandas as pd
import numpy as np

# Series

> Array unidimensional com um determinado tipo de dado

É similar a um dicionário, possuindo índice (que pode funcionar como chave) e valores.

Uma série pode ser obtida a partir de uma *coluna* de um dataframe

Pode ser criada por meio de um array numpy, um dicionário ou até um único escalar

In [None]:
serie_aleat = pd.Series(np.random.rand(8))
print(serie_aleat)

0    0.360171
1    0.774329
2    0.128181
3    0.074965
4    0.453658
5    0.683874
6    0.732500
7    0.793070
dtype: float64


Note que o índice dessa série, como não foi especificado, é numérico iniciando em 0

In [None]:
veic = {
    'AAA0A00': 1980,
    'BBB1B11': 2001,
    'CCC2C22': 1984,
    'DDD3D33': 2010,
    'EEE13E4': 2011}

In [None]:
s_veic = pd.Series(veic)
print(s_veic)

AAA0A00    1980
BBB1B11    2001
CCC2C22    1984
DDD3D33    2010
EEE13E4    2011
dtype: int64


Séries se comportam de forma muito similar à `ndarrays`

In [None]:
s_veic.mean()

1997.2

In [None]:
s_veic > s_veic.mean()

AAA0A00    False
BBB1B11     True
CCC2C22    False
DDD3D33     True
EEE13E4     True
dtype: bool

In [None]:
s_veic[s_veic > s_veic.mean()]

BBB1B11    2001
DDD3D33    2010
EEE13E4    2011
dtype: int64

In [None]:
s_veic.dtype

dtype('int64')

É possível obter um array de fato pelo atributo `array`

In [None]:
s_veic.array

<PandasArray>
[1980, 2001, 1984, 2010, 2011]
Length: 5, dtype: int64

Ou um numpy array com `to_numpy()`:

In [None]:
s_veic.to_numpy()

array([1980, 2001, 1984, 2010, 2011])

---



In [None]:
import pandas as pd
df = pd.read_csv('countries_data.tsv', sep='\t')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


In [None]:
df.sample(6)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
307,Colombia,Americas,1987,67.768,30964245,4903.2191
1490,Syria,Asia,1962,50.305,4834621,2193.037133
1483,Switzerland,Europe,1987,77.41,6649942,30281.70459
533,France,Europe,1977,73.83,53165019,18292.63514
1120,Niger,Africa,1972,40.546,5060262,954.209236
609,Guatemala,Americas,1997,66.322,9803875,4684.313807


### Relembrando

Vamos recuperar os dados: ano, população e expectativa de vida
* em Porto Rico
* a partir de 1990

In [None]:
# recuperando as colunas
df[['year','pop','lifeExp']]

Unnamed: 0,year,pop,lifeExp
0,1952,8425333,28.801
1,1957,9240934,30.332
2,1962,10267083,31.997
3,1967,11537966,34.020
4,1972,13079460,36.088
...,...,...,...
1699,1987,9216418,62.351
1700,1992,10704340,60.377
1701,1997,11404948,46.809
1702,2002,11926563,39.989


In [None]:
df.loc[ (df['country']=='Puerto Rico') & (df['year']>=1990) , ['year','pop','lifeExp']]

Unnamed: 0,year,pop,lifeExp
1256,1992,3585176,73.911
1257,1997,3759430,74.917
1258,2002,3859606,77.778
1259,2007,3942491,78.746


Em numpy e pandas os operadores lógicos E, OU e NÃO : `&`, `|`, `~`

In [None]:
yearonly = df['year']
type(yearonly)
yearonly

0       1952
1       1957
2       1962
3       1967
4       1972
        ... 
1699    1987
1700    1992
1701    1997
1702    2002
1703    2007
Name: year, Length: 1704, dtype: int64

# Estatísticas

Há várias funções para análise dos dados.

Consultar a documentação oficial é importante (há muito ruído na internet/vídeos)

Básicas, que retornam um escalar como: `mean`, `std`, `quantile`, `min`, `max`

E mais complexas como: `cov` (covariance), `corr` (correlation)

`describe` gera estatística descritiva para todas as colunas numéricas (ou série)

In [None]:
df['pop'].mean()

29601212.324530516

In [None]:
df.describe()

Unnamed: 0,year,lifeExp,pop,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,59.474439,29601210.0,7215.327081
std,17.26533,12.917107,106157900.0,9857.454543
min,1952.0,23.599,60011.0,241.165876
25%,1965.75,48.198,2793664.0,1202.060309
50%,1979.5,60.7125,7023596.0,3531.846988
75%,1993.25,70.8455,19585220.0,9325.462346
max,2007.0,82.603,1318683000.0,113523.1329


In [None]:
df[['lifeExp', 'pop', 'gdpPercap']].corr()

Unnamed: 0,lifeExp,pop,gdpPercap
lifeExp,1.0,0.064955,0.583706
pop,0.064955,1.0,-0.0256
gdpPercap,0.583706,-0.0256,1.0


---

# `groupby()` e `agg()`

Alguns cálculos são interessantes de se fazer agrupando por certos valores

Nesse dataset, uma pergunta possível seria:
* Qual a expectativa de vida média, por ano, considerando todos os países?

In [None]:
df.groupby(['year'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f4ad0add760>

In [None]:
df.groupby(['year'])['lifeExp'].mean()

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

Pandas tem várias funções embutidas, mas pode ser que queiramos aplicar nossas próprias funções ou de biblioteca externa, como do `numpy`

Nesse caso, usamos `agg()` para aplicar a função desejada, agregada aos grupos

In [None]:
import numpy as np

df.groupby(['year'])['lifeExp'].agg(np.max)

year
1952    72.670
1957    73.470
1962    73.680
1967    74.160
1972    74.720
1977    76.110
1982    77.110
1987    78.670
1992    79.360
1997    80.690
2002    82.000
2007    82.603
Name: lifeExp, dtype: float64

E até mesmo gerar um novo dataframe, agregando múltiplas funções
* lista de tuplas contendo (nome,funcao)

In [None]:
df.groupby(['year'])['pop'].agg( [
                        ('media', np.mean),
                        ('log10_somapop', lambda val: np.log2(val.sum())) ])

Unnamed: 0_level_0,media,log10_somapop
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1952,16950400.0,31.164563
1957,18763410.0,31.311166
1962,20421010.0,31.433298
1967,22658300.0,31.583283
1972,25189980.0,31.736094
1977,27676380.0,31.871899
1982,30207300.0,31.998141
1987,33038570.0,32.127395
1992,35990920.0,32.250877
1997,38839470.0,32.360767


É possível agrupar com múltiplas colunas

In [None]:
yearcont = df.groupby(['year','continent'])[['pop','gdpPercap']].agg([np.mean, np.std])
yearcont

Unnamed: 0_level_0,Unnamed: 1_level_0,pop,pop,gdpPercap,gdpPercap
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std
year,continent,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1952,Africa,4570010.0,6317450.0,1252.572466,982.952116
1952,Americas,13806100.0,32341630.0,4079.062552,3001.727522
1952,Asia,42283560.0,113226700.0,5195.484004,18634.890865
1952,Europe,13937360.0,17247450.0,5661.057435,3114.060493
1952,Oceania,5343003.0,4735083.0,10298.08565,365.560078
1957,Africa,5093033.0,7076042.0,1385.236062,1134.508918
1957,Americas,15478160.0,35537060.0,4616.043733,3312.381083
1957,Asia,47356990.0,128096100.0,5787.73294,19506.515959
1957,Europe,14596350.0,17832350.0,6963.012816,3677.950146
1957,Oceania,5970988.0,5291395.0,11598.522455,917.644806


Nesse caso o índice será composto, tornando mais difícil acesso

Tente mostrar o `yearcont.index` para ver

In [None]:
yearcont.index

MultiIndex([(1952,   'Africa'),
            (1952, 'Americas'),
            (1952,     'Asia'),
            (1952,   'Europe'),
            (1952,  'Oceania'),
            (1957,   'Africa'),
            (1957, 'Americas'),
            (1957,     'Asia'),
            (1957,   'Europe'),
            (1957,  'Oceania'),
            (1962,   'Africa'),
            (1962, 'Americas'),
            (1962,     'Asia'),
            (1962,   'Europe'),
            (1962,  'Oceania'),
            (1967,   'Africa'),
            (1967, 'Americas'),
            (1967,     'Asia'),
            (1967,   'Europe'),
            (1967,  'Oceania'),
            (1972,   'Africa'),
            (1972, 'Americas'),
            (1972,     'Asia'),
            (1972,   'Europe'),
            (1972,  'Oceania'),
            (1977,   'Africa'),
            (1977, 'Americas'),
            (1977,     'Asia'),
            (1977,   'Europe'),
            (1977,  'Oceania'),
            (1982,   'Africa'),
        

Para facilitar, é útil "achatar" os índices, resetando-os

In [None]:
yearcont = yearcont.reset_index()
yearcont.head(10)

Unnamed: 0_level_0,year,continent,pop,pop,gdpPercap,gdpPercap
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,std,mean,std
0,1952,Africa,4570010.0,6317450.0,1252.572466,982.952116
1,1952,Americas,13806100.0,32341630.0,4079.062552,3001.727522
2,1952,Asia,42283560.0,113226700.0,5195.484004,18634.890865
3,1952,Europe,13937360.0,17247450.0,5661.057435,3114.060493
4,1952,Oceania,5343003.0,4735083.0,10298.08565,365.560078
5,1957,Africa,5093033.0,7076042.0,1385.236062,1134.508918
6,1957,Americas,15478160.0,35537060.0,4616.043733,3312.381083
7,1957,Asia,47356990.0,128096100.0,5787.73294,19506.515959
8,1957,Europe,14596350.0,17832350.0,6963.012816,3677.950146
9,1957,Oceania,5970988.0,5291395.0,11598.522455,917.644806


---

#### <font color="blue">Exercício 2.9</font>

Carregue o arquivo `tips.csv`:
1. Filtre as linhas selecionando apenas jantares (time = 'Dinner') e cuja conta foi superior a 40 (total_bill > 40), mostrando o total da conta, número de pessoas na mesa e gorjeta (total_bill, size, tip);
2. Obtenha um novo dataframe em que seja mostrada a gorjeta (tip) média e máxima para cada valor de dia da semana (day) e horário (time)

In [None]:
dtips = pd.read_csv('tips.csv')

---
# Transformações com `apply`, `map` e `applymap`

* `apply` aplica uma função ao longo de linhas (axis=0) ou colunas (axis=1) de um DataFrame
* `map` aplica uma função em cada elemento de uma Serie
* `applymap` aplica uma função em cada elemento de um DataFrame

In [None]:
dtips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
240,29.03,5.92,Male,No,Sat,Dinner,3
241,27.18,,Female,Yes,Sat,Dinner,2
242,22.67,,Male,Yes,Sat,Dinner,2
243,17.82,1.75,Male,No,Sat,Dinner,2


In [None]:
# soma das contas e gorjetas ao longo das linhas
dtips[['total_bill','tip']].apply(np.sum)

total_bill    4817.15
tip            727.43
dtype: float64

In [None]:
# soma da conta e gorjeta ao longo das colunas (total do dia)
dtips[['total_bill','tip']].apply(np.sum, axis=1)

0      18.00
1      12.00
2      24.51
3      26.99
4      28.20
       ...  
240    34.95
241    27.18
242    22.67
243    19.57
244     3.00
Length: 245, dtype: float64

In [None]:
# criando coluna com gorjeta média por pessoa na mesa
dtips['tip_perperson'] = dtips.apply(lambda x: np.round(x['tip']/x['size'],2), axis=1)
dtips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_perperson
0,16.99,1.01,Female,No,Sun,Dinner,2,0.50
1,10.34,1.66,Male,No,Sun,Dinner,3,0.55
2,21.01,3.50,Male,No,Sun,Dinner,3,1.17
3,23.68,3.31,Male,No,Sun,Dinner,2,1.66
4,24.59,3.61,Female,No,Sun,Dinner,4,0.90
...,...,...,...,...,...,...,...,...
240,29.03,5.92,Male,No,Sat,Dinner,3,1.97
241,27.18,,Female,Yes,Sat,Dinner,2,
242,22.67,,Male,Yes,Sat,Dinner,2,
243,17.82,1.75,Male,No,Sat,Dinner,2,0.88


In [None]:
dtips[['total_bill','tip']].applymap(np.round)

Unnamed: 0,total_bill,tip
0,17.0,1.0
1,10.0,2.0
2,21.0,4.0
3,24.0,3.0
4,25.0,4.0
...,...,...
240,29.0,6.0
241,27.0,
242,23.0,
243,18.0,2.0


In [None]:
dtips['total_bill'].map(np.round)

0      17.0
1      10.0
2      21.0
3      24.0
4      25.0
       ... 
240    29.0
241    27.0
242    23.0
243    18.0
244     NaN
Name: total_bill, Length: 245, dtype: float64

---
# Limpeza de dados

## Tratando dados faltantes e duplicados

Esse dataset traz valores **faltantes**

Por padrão, esses serão carregados como sendo valores `NaN` do `numpy`

É preciso investigá-los pois eles são apenas ignorados pela maioria das funções

In [None]:
dtips = pd.read_csv('tips.csv')

pd.isna(dtips)

np.any(pd.isna(dtips))

True

### Percorrendo colunas

Por padrão a iteração é por linhas, vamos iterar pelas colunas procurando onde há dados faltantes

In [None]:
print('Dados faltantes em:')
for (colName, colData) in dtips.iteritems():
    if (np.any(pd.isna(colData))):
        print(colName)

Dados faltantes em:
total_bill
tip


Para filtrar especificamente os valores `NaN` há algumas opções, em particular `isna()`  combinado com `any(axis=1)` para verificar todas as colunas

In [None]:
np.any(dtips.isna(),axis=1)

0      False
1      False
2      False
3      False
4      False
       ...  
240    False
241     True
242     True
243    False
244     True
Length: 245, dtype: bool

In [None]:
dtips.loc[np.any(dtips.isna(),axis=1)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
238,32.83,,Male,Yes,Sat,Dinner,2
241,27.18,,Female,Yes,Sat,Dinner,2
242,22.67,,Male,Yes,Sat,Dinner,2
244,,3.0,Female,No,Thur,Dinner,2


### `dropna`

Remove todas as linhas ou colunas onde dados faltantes aparecem.

* `axis` define se linhas (padrão, 0) ou colunas (1)

In [None]:
print(dtips.shape)

(245, 7)


In [None]:
dtips_na_rows = dtips.dropna()
print(dtips_na_rows.shape)

(241, 7)


In [None]:
dtips_na_cols = dtips.dropna(axis=1)
print(dtips_na_cols.shape)

(245, 5)


### `fillna`

Substituir dados faltantes por algum valor

In [None]:
dtips.loc[np.any(dtips.isna(),axis=1)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
238,32.83,,Male,Yes,Sat,Dinner,2
241,27.18,,Female,Yes,Sat,Dinner,2
242,22.67,,Male,Yes,Sat,Dinner,2
244,,3.0,Female,No,Thur,Dinner,2


In [None]:
dtips_fill1 = dtips.fillna(0)

# mostrando dados preenchidos, filtrando pelos do dataframe com nans
dtips_fill1.loc[np.any(dtips.isna(),axis=1)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
238,32.83,0.0,Male,Yes,Sat,Dinner,2
241,27.18,0.0,Female,Yes,Sat,Dinner,2
242,22.67,0.0,Male,Yes,Sat,Dinner,2
244,0.0,3.0,Female,No,Thur,Dinner,2


Preenchimento diferenciado por colunas pode ser feito com dicionário

In [None]:
filldic = {'total_bill':-1, 'tip': 0}

dtips_fill2 = dtips.fillna(filldic)
dtips_fill2.loc[np.any(dtips.isna(),axis=1)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
238,32.83,0.0,Male,Yes,Sat,Dinner,2
241,27.18,0.0,Female,Yes,Sat,Dinner,2
242,22.67,0.0,Male,Yes,Sat,Dinner,2
244,-1.0,3.0,Female,No,Thur,Dinner,2


### `duplicated`, `drop_duplicates()`

Lida com linhas duplicados retorando `True` se detectada duplicação.

In [None]:
print(dtips.duplicated())
print('\n',dtips.duplicated().any())

0      False
1      False
2      False
3      False
4      False
       ...  
240    False
241    False
242    False
243    False
244    False
Length: 245, dtype: bool

 True


- parâmetro `keep`:
    - False: retorna `True` para todas as duplicatas
    - first: a primeira não é detectada
    - last: a última não é detectada    

In [None]:
dtips[dtips.duplicated(keep=False)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
217,7.74,1.44,Male,Yes,Sat,Dinner,2
218,7.74,1.44,Male,Yes,Sat,Dinner,2
224,13.42,1.58,Male,Yes,Fri,Lunch,2
225,13.42,1.58,Male,Yes,Fri,Lunch,2


In [None]:
dtips[dtips.duplicated(keep='first')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
218,7.74,1.44,Male,Yes,Sat,Dinner,2
225,13.42,1.58,Male,Yes,Fri,Lunch,2


In [None]:
dtips[dtips.duplicated(keep='last')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
217,7.74,1.44,Male,Yes,Sat,Dinner,2
224,13.42,1.58,Male,Yes,Fri,Lunch,2


Para remover usamos `drop_duplicates()` valendo o mesmo parâmetro `keep`

In [None]:
dtips_first = dtips.drop_duplicates(keep='first')
dtips_last = dtips.drop_duplicates(keep='last')

# notar que foram removidos índices diferentes!
print(dtips_first.iloc[217:225])
print(dtips_last.iloc[217:225])

     total_bill   tip     sex smoker  day    time  size
217        7.74  1.44    Male    Yes  Sat  Dinner     2
219       30.14  3.09  Female    Yes  Sat  Dinner     4
220       12.16  2.20    Male    Yes  Fri   Lunch     2
221       13.42  3.48  Female    Yes  Fri   Lunch     2
222        8.58  1.92    Male    Yes  Fri   Lunch     1
223       15.98  3.00  Female     No  Fri   Lunch     3
224       13.42  1.58    Male    Yes  Fri   Lunch     2
226       16.27  2.50  Female    Yes  Fri   Lunch     2
     total_bill   tip     sex smoker  day    time  size
218        7.74  1.44    Male    Yes  Sat  Dinner     2
219       30.14  3.09  Female    Yes  Sat  Dinner     4
220       12.16  2.20    Male    Yes  Fri   Lunch     2
221       13.42  3.48  Female    Yes  Fri   Lunch     2
222        8.58  1.92    Male    Yes  Fri   Lunch     1
223       15.98  3.00  Female     No  Fri   Lunch     3
225       13.42  1.58    Male    Yes  Fri   Lunch     2
226       16.27  2.50  Female    Yes  Fri   Lunc

In [None]:
# nesses casos pode ser útil resetar os índices novamente!
dtips_first = dtips_first.reset_index()

In [None]:
print(dtips_first.iloc[217:225])

     index  total_bill   tip     sex smoker  day    time  size
217    217        7.74  1.44    Male    Yes  Sat  Dinner     2
218    219       30.14  3.09  Female    Yes  Sat  Dinner     4
219    220       12.16  2.20    Male    Yes  Fri   Lunch     2
220    221       13.42  3.48  Female    Yes  Fri   Lunch     2
221    222        8.58  1.92    Male    Yes  Fri   Lunch     1
222    223       15.98  3.00  Female     No  Fri   Lunch     3
223    224       13.42  1.58    Male    Yes  Fri   Lunch     2
224    226       16.27  2.50  Female    Yes  Fri   Lunch     2


---

# Preparação de dados

1. Cada variável forma uma coluna
2. Cada observação forma uma linha
3. Cada tipo de unidade observacional forma uma tabela

* 3.a forma normal de Codd!

**Exemplo**:

Recebemos duas tabelas, cada uma com temperaturas coletadas em cidades. A primeira é referente aos primeiros dias de coleta, a segunda aos dias seguintes, organizadas por outra pessoa e enviada.

Precisamos preparar os dados de forma que uma observação seja:
* uma cidade, um dia e uma temperatura naquele dia.

In [None]:
# criando os dataframes para o exemplo
temps = np.array([[23, 21, 20],[30, 29, 28],[18, 21, 20],[9, 10, 13]])
dtemp1 = pd.DataFrame(temps, index=['São Paulo','Fortaleza','Montevideo','London'])

dtemp2 = pd.DataFrame({
    'São Paulo': [25, 27, 23, 25],
    'Fortaleza': [35, 32, 31, 29],
    'Montevideo': [20, 18, 21, 23],
    'London': [14, 15, 12, 13]
})

In [None]:
dtemp1

Unnamed: 0,0,1,2
São Paulo,23,21,20
Fortaleza,30,29,28
Montevideo,18,21,20
London,9,10,13


In [None]:
dtemp2

Unnamed: 0,São Paulo,Fortaleza,Montevideo,London
0,25,35,20,14
1,27,32,18,15
2,23,31,21,12
3,25,29,23,13


### `melt()` para reconfigurar tabelas

Permite criar formato largo ou longo.

Auxilia muito para colocar o DataFrame de maneira que cada linha seja uma observação

* `id_vars` são as variáveis que não serão modificadas e continuarão como colunas
* `value_vars` são as variáveis que passarão a ser "valor" (linhas)

In [None]:
print(dtemp1)

print(dtemp1.melt())

             0   1   2
São Paulo   23  21  20
Fortaleza   30  29  28
Montevideo  18  21  20
London       9  10  13
    variable  value
0          0     23
1          0     30
2          0     18
3          0      9
4          1     21
5          1     29
6          1     21
7          1     10
8          2     20
9          2     28
10         2     20
11         2     13


In [None]:
print(dtemp2)
print(dtemp2.melt())

   São Paulo  Fortaleza  Montevideo  London
0         25         35          20      14
1         27         32          18      15
2         23         31          21      12
3         25         29          23      13
      variable  value
0    São Paulo     25
1    São Paulo     27
2    São Paulo     23
3    São Paulo     25
4    Fortaleza     35
5    Fortaleza     32
6    Fortaleza     31
7    Fortaleza     29
8   Montevideo     20
9   Montevideo     18
10  Montevideo     21
11  Montevideo     23
12      London     14
13      London     15
14      London     12
15      London     13


Gostaríamos de uma tabela no seguinte formato:

|city|day|temp|
|---|---|---|
|São Paulo|0|23|
|São Paulo|1|21|
|...|...|...|
|Londres|0|9|
|...|...|...|

Vamos começar pela primeira tabela e ver o que podemos fazer.

In [None]:
dtemp1.melt().head()

Unnamed: 0,variable,value
0,0,23
1,0,30
2,0,18
3,0,9
4,1,21


As cidades somem pois essa informação está no índice.

In [None]:
dtemp1.index

Index(['São Paulo', 'Fortaleza', 'Montevideo', 'London'], dtype='object')

Solução: resetar o índice e criar uma nova coluna com os nomes das cidades

In [None]:
dtemp1 = dtemp1.rename_axis('city').reset_index()
dtemp1

Unnamed: 0,city,0,1,2
0,São Paulo,23,21,20
1,Fortaleza,30,29,28
2,Montevideo,18,21,20
3,London,9,10,13


O uso automático 'derrete' toda a tabela, gostaríamos de **fixar a cidade** como uma variável identificadora

In [None]:
dtemp1_melt = dtemp1.melt(id_vars=['city'])
dtemp1_melt

Unnamed: 0,city,variable,value
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


Outro ponto que seria interessante é nomear as variáveis no formato longo

In [None]:
tabela1 = dtemp1.melt(id_vars=['city'], value_name='temperature', var_name='day')
tabela1

Unnamed: 0,city,day,temperature
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


Agora na tabela 2.

O `melt` aqui já está mais próximo, veja que nesse caso as colunas informam o nome das cidades, então perdemos o valor dos dias

In [None]:
print(dtemp2)
print(dtemp2.melt())

   São Paulo  Fortaleza  Montevideo  London
0         25         35          20      14
1         27         32          18      15
2         23         31          21      12
3         25         29          23      13
      variable  value
0    São Paulo     25
1    São Paulo     27
2    São Paulo     23
3    São Paulo     25
4    Fortaleza     35
5    Fortaleza     32
6    Fortaleza     31
7    Fortaleza     29
8   Montevideo     20
9   Montevideo     18
10  Montevideo     21
11  Montevideo     23
12      London     14
13      London     15
14      London     12
15      London     13


Assim, podemos seguir o que foi feito na primeira tabela "transpondo" o DataFrame

In [None]:
dtemp2.transpose()

Unnamed: 0,0,1,2,3
São Paulo,25,27,23,25
Fortaleza,35,32,31,29
Montevideo,20,18,21,23
London,14,15,12,13


In [None]:
dtemp2_tran = dtemp2.transpose().rename_axis('city').reset_index()
dtemp2_tran

Unnamed: 0,city,0,1,2,3
0,São Paulo,25,27,23,25
1,Fortaleza,35,32,31,29
2,Montevideo,20,18,21,23
3,London,14,15,12,13


In [None]:
tabela2 = dtemp2_tran.melt(id_vars=['city'],  value_name='temperature', var_name='day')
tabela2

Unnamed: 0,city,day,temperature
0,São Paulo,0,25
1,Fortaleza,0,35
2,Montevideo,0,20
3,London,0,14
4,São Paulo,1,27
5,Fortaleza,1,32
6,Montevideo,1,18
7,London,1,15
8,São Paulo,2,23
9,Fortaleza,2,31


No entanto, veja que os dias da tabela 2 começam em 0

Sabendo que os dias da tabela 2 vem logo após os dias da tabela 1, podemos:
1. pegar o último dia na tabela 1
2. adicionar esse valor ao cada dia da tabela 2 usando `map` ou `apply`

In [None]:
last_day = tabela1['day'].max()

tabela2['day'] = tabela2['day'].apply(lambda x: x+last_day+1)
tabela2

Unnamed: 0,city,day,temperature
0,São Paulo,3,25
1,Fortaleza,3,35
2,Montevideo,3,20
3,London,3,14
4,São Paulo,4,27
5,Fortaleza,4,32
6,Montevideo,4,18
7,London,4,15
8,São Paulo,5,23
9,Fortaleza,5,31


## Combinando

No caso anterior temos 2 DataFrames, mas desejamos combiná-los

- `merge`: combina dados vinculando linhas por uma ou mais chave
- `concatenate`: combina dados a partir de um eixo específico

### `merge`

Realiza a fusão de dois: DataFrames, Series, ou Serie com DataFrame.

Fusão com base em:
- valores de colunas, uma em cada DataFrame
- valores de uma coluna em um dos DataFrame e índices no outro
- valores dos índices em ambos os DataFrames (ou série)

#### Merge baseado nos valores de colunas

In [None]:
# construindo dois DataFrames que serão fundidos com o método 'merge'
df1 = pd.DataFrame({'key': ['a','a','b','b','c','a'],
                   'data1': range(10,70,10)})

df2 = pd.DataFrame({'key': ['b','a','a','b'],
                   'data2': range(4)})

print(df1)
print(df2)

  key  data1
0   a     10
1   a     20
2   b     30
3   b     40
4   c     50
5   a     60
  key  data2
0   b      0
1   a      1
2   a      2
3   b      3


In [None]:
# fusão com base nos valores de 'key'
pd.merge(df1, df2, on='key')
# Apenas os valores que aparencem em ambos são utilizados no 'merge'

Unnamed: 0,key,data1,data2
0,a,10,1
1,a,10,2
2,a,20,1
3,a,20,2
4,a,60,1
5,a,60,2
6,b,30,0
7,b,30,3
8,b,40,0
9,b,40,3


Parâmetro `how` força que todos os valores sejam utilizados
* `outer`: realiza união entre os dados
* `inner`: realiza intersecção entre os dados

In [None]:
pd.merge(df1,df2,on='key',how='outer')  # o valor 'c' aparece na coluna 'key'
                                        # apenas em df1, enquanto o valor 'd'
                                        # aparece apenas em df2

Unnamed: 0,key,data1,data2
0,a,10,1.0
1,a,10,2.0
2,a,20,1.0
3,a,20,2.0
4,a,60,1.0
5,a,60,2.0
6,b,30,0.0
7,b,30,3.0
8,b,40,0.0
9,b,40,3.0


#### Merge baseado nos valores de coluna em DataFrame e rótulos no outro DataFrame
Para ser realizar o merging com base em colunas e rótulos, deve-se especificar os parâmetros
`left_on`, `right_on`, `left_index` e `right_index` de forma apropriada.
- __left\_on__ = nome da coluna do DataFrame da esquerda (primeiro parâmetro)
- __left\_index__ = True indica que o índice no DataFrame da esquerda (primeiro parâmetro) serão utilizados
- __right\_on__ = nome da coluna do DataFrame da direita (segundo parâmetro)
- __right\_index__ = True indica que o índice no DataFrame da direita (segundo parâmetro) serão utilizados

In [None]:
dcity = pd.DataFrame({'country':['BR','BR','UR']}, index=['São Paulo','Fortaleza','Montevideo'])
dcity

Unnamed: 0,country
São Paulo,BR
Fortaleza,BR
Montevideo,UR


In [None]:
tabela1

Unnamed: 0,city,day,temperature
0,São Paulo,0,23
1,Fortaleza,0,30
2,Montevideo,0,18
3,London,0,9
4,São Paulo,1,21
5,Fortaleza,1,29
6,Montevideo,1,21
7,London,1,10
8,São Paulo,2,20
9,Fortaleza,2,28


In [None]:
# Merge utilizando a coluna "city" da tabela 1 (de temperaturas) e os índices em dcity
pd.merge(tabela1, dcity, left_on='city', right_index=True, how='outer')

Unnamed: 0,city,day,temperature,country
0,São Paulo,0,23,BR
4,São Paulo,1,21,BR
8,São Paulo,2,20,BR
1,Fortaleza,0,30,BR
5,Fortaleza,1,29,BR
9,Fortaleza,2,28,BR
2,Montevideo,0,18,UR
6,Montevideo,1,21,UR
10,Montevideo,2,20,UR
3,London,0,9,


Se não especificarmos união (`outer`), apenas ocorrências de valores em ambos será considerada

In [None]:
pd.merge(tabela1, dcity, left_on='city', right_index=True)

Unnamed: 0,city,day,temperature,country
0,São Paulo,0,23,BR
4,São Paulo,1,21,BR
8,São Paulo,2,20,BR
1,Fortaleza,0,30,BR
5,Fortaleza,1,29,BR
9,Fortaleza,2,28,BR
2,Montevideo,0,18,UR
6,Montevideo,1,21,UR
10,Montevideo,2,20,UR


### `concat`

Concatena DataFrames e/ou Series nas direções:
- __axis = 0__ concatena por linhas
- __axis = 1__ concatena por colunas. Quando empregado em um conjunto de séries resulta em um DataFrame

O método assume como parâmetro uma lista de DataFrames ou séries.

In [None]:
# Construindo 3 séries especificando os rótulos das linhas
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['a', 'c', 'd'])
s3 = pd.Series([1, 5, 6], index=['a','b', 'e'])
print(s1)
print(s2)
print(s3)

# Contatenando as 3 séries na vertical
# o resultado é uma nova série (rótulos podem estar repetidos)
serie1 = pd.concat([s1,s2,s3])

a    0
b    1
dtype: int64
a    2
c    3
d    4
dtype: int64
a    1
b    5
e    6
dtype: int64


In [None]:
serie1

a    0
b    1
a    2
c    3
d    4
a    1
b    5
e    6
dtype: int64

In [None]:
# concatenando as 3 séries por colunas especificando o parâmetro 'axis=1'
# o resutado é um DataFrame
print(pd.concat([s1,s2,s3],axis=1))

     0    1    2
a  0.0  2.0  1.0
b  1.0  NaN  5.0
c  NaN  3.0  NaN
d  NaN  4.0  NaN
e  NaN  NaN  6.0


In [None]:
print(pd.concat([tabela1,tabela2], axis=1))

          city  day  temperature        city  day  temperature
0    São Paulo    0         23.0   São Paulo    3           25
1    Fortaleza    0         30.0   Fortaleza    3           35
2   Montevideo    0         18.0  Montevideo    3           20
3       London    0          9.0      London    3           14
4    São Paulo    1         21.0   São Paulo    4           27
5    Fortaleza    1         29.0   Fortaleza    4           32
6   Montevideo    1         21.0  Montevideo    4           18
7       London    1         10.0      London    4           15
8    São Paulo    2         20.0   São Paulo    5           23
9    Fortaleza    2         28.0   Fortaleza    5           31
10  Montevideo    2         20.0  Montevideo    5           21
11      London    2         13.0      London    5           12
12         NaN  NaN          NaN   São Paulo    6           25
13         NaN  NaN          NaN   Fortaleza    6           29
14         NaN  NaN          NaN  Montevideo    6      

In [None]:
tabela_temperturas = pd.concat([tabela1,tabela2],axis=0)
print(tabela_temperturas)

          city day  temperature
0    São Paulo   0           23
1    Fortaleza   0           30
2   Montevideo   0           18
3       London   0            9
4    São Paulo   1           21
5    Fortaleza   1           29
6   Montevideo   1           21
7       London   1           10
8    São Paulo   2           20
9    Fortaleza   2           28
10  Montevideo   2           20
11      London   2           13
0    São Paulo   3           25
1    Fortaleza   3           35
2   Montevideo   3           20
3       London   3           14
4    São Paulo   4           27
5    Fortaleza   4           32
6   Montevideo   4           18
7       London   4           15
8    São Paulo   5           23
9    Fortaleza   5           31
10  Montevideo   5           21
11      London   5           12
12   São Paulo   6           25
13   Fortaleza   6           29
14  Montevideo   6           23
15      London   6           13


---

#### <font color="blue">Exercício 2.10</font>

Carregue os arquivos `sales1.csv`, `sales1_shipdate.csv`  e `sales2.csv`, os quais possuem informações de vendas realizadas. Devemos juntar as bases de dados e tratá-las.

O arquivo `sales1_shipdate.csv` contém as datas de envio das ordens na `sales1.csv`. Já `sales2.csv` contém essa coluna no próprio arquivo

Para isso:

1. Combine as bases de dados, consolidando-as em um único DataFrame
2. Exiba na tela quais atributos possuem dados faltantes após a concatenação
    * Sabendo que `Total Revenue` é a multiplicação do preço unitário pela quantidade de unidades, preencha os valores faltantes dessa coluna
3. Detecte linhas duplicadas. Remova duplicatas, mantendo a primeira ocorrência, e imprima na tela quantas linhas foram removidas