## Pandas

### Instalação do Pandas

In [None]:
# Alternativa 1
!pip install pandas # alternative: conda install pandas

### Introduzindo Séries de Dados do Pandas

1 - Importe as bibliotecas pandas e numpy com os aliases 'pd' e 'np', respectivamente.

In [1]:
import pandas as pd
import numpy as np

2 - Utilize o numpy para criar um array com 10 elementos de números inteiros aleatórios entre 50 e 100. Em seguida, transforme-o em uma série do pandas e a exiba.

In [None]:
# Insira a resposta abaixo.

a = np.random.randint(50,100,10)
a = pd.Series(a)
display(a)


0    54
1    78
2    95
3    75
4    56
5    60
6    89
7    57
8    54
9    96
dtype: int64

3 - Utilize a função range do Python para criar uma série do Pandas contendo 10 elementos cujos índices sejam uma sequência ascendente de números ímpares  e os valores sejam uma sequência descendente de números inteiros de 10 a 1. Em seguida, converta o tipo numérico da série criada para 'int32' e exiba a série.

In [None]:
# Insira a resposta abaixo.
a = pd.Series(data = range(10,0,-1), index = range(1,21,2))
a = a.astype('int32')
display(a)

1     10
3      9
5      8
7      7
9      6
11     5
13     4
15     3
17     2
19     1
dtype: int32

4 - Abaixo são definidos dois dicionários contendo capitais brasileiras com a população estimada para os anos de 2000 e 2018. Utilize ambos os dicionários definidos abaixos para criar dois objetos do tipo Series.

In [None]:
populacao2000 = {'São Paulo': 10405867, 'Rio de Janeiro': 5851914, 'Salvador': 2440828, 'Belo Horizonte':2232747, 'Fortaleza':2138234	}
populacao2018 = {'São Paulo': 12176866, 'Rio de Janeiro': 6688927, 'Brasília': 2974703, 'Salvador': 2857329, 'Fortaleza': 2643247}

# Insira a resposta abaixo.

pop2000 = pd.Series(populacao2000)
pop2018 = pd.Series(populacao2018)

#### Operações Aritméticas com Séries

5 - Crie uma nova série contendo a diferença entre as populações de 2018 e 2010.

In [None]:
# Insira a resposta abaixo.
difpop = pop2018.subtract(pop2000)
difpop

Belo Horizonte          NaN
Brasília                NaN
Fortaleza          505013.0
Rio de Janeiro     837013.0
Salvador           416501.0
São Paulo         1770999.0
dtype: float64

6 - Crie uma nova série contendo a média entre as duas séries iniciais.

In [None]:
# Insira a resposta abaixo.

popmean = pd.concat([pop2018, pop2000], keys=['2018','2000'], names=['Ano', 'Cidade'])
popmean = popmean.groupby(level='Cidade').mean()
display(popmean)

Cidade
Belo Horizonte     2232747.0
Brasília           2974703.0
Fortaleza          2390740.5
Rio de Janeiro     6270420.5
Salvador           2649078.5
São Paulo         11291366.5
dtype: float64

### Introduzindo Dataframes

7 - Crie um dicionário cujas chaves sejam: 2000, 2018, 'diferenca', 'media'. Utilize como valores as séries correspondentes criadas nas questões anteriores. Utilize esse dicionário para criar um dataframe.

In [None]:
# Insira a resposta abaixo.
dic = {2000:pop2000, 2018: pop2018, 'diferença':difpop , 'media':popmean}
df = pd.DataFrame(dic)
df

Unnamed: 0,2000,2018,diferença,media
Belo Horizonte,2232747.0,,,2232747.0
Brasília,,2974703.0,,2974703.0
Fortaleza,2138234.0,2643247.0,505013.0,2390740.5
Rio de Janeiro,5851914.0,6688927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,416501.0,2649078.5
São Paulo,10405867.0,12176866.0,1770999.0,11291366.5


8 - Desta vez, crie um dataframe equivalente ao criado na questão anterior concatenando as quatro séries (referentes a 2000, 2018, diferença e média). Lembre-se de inserir os mesmos títulos para as colunas.

In [None]:
# Inserir a resposta abaixo.
df = pd.DataFrame(data=[pop2000, pop2018, difpop, popmean]).T
df.columns = ['2000','2018', 'diferença','media']
df.sort_index()

Unnamed: 0,2000,2018,diferença,media
Belo Horizonte,2232747.0,,,2232747.0
Brasília,,2974703.0,,2974703.0
Fortaleza,2138234.0,2643247.0,505013.0,2390740.5
Rio de Janeiro,5851914.0,6688927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,416501.0,2649078.5
São Paulo,10405867.0,12176866.0,1770999.0,11291366.5


9 - Adicione uma nova coluna ao dataframe anterior chamada 2019, esta deve conter um acréscimo de 50000 sobre os valores da coluna 2018.

In [None]:
# Insira a resposta abaixo.
df['2019'] = df['2018']+50000
df = df[['2000','2018','2019','diferença','media']]
df

Unnamed: 0,2000,2018,2019,diferença,media
São Paulo,10405867.0,12176866.0,12226866.0,1770999.0,11291366.5
Rio de Janeiro,5851914.0,6688927.0,6738927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,2907329.0,416501.0,2649078.5
Belo Horizonte,2232747.0,,,,2232747.0
Fortaleza,2138234.0,2643247.0,2693247.0,505013.0,2390740.5
Brasília,,2974703.0,3024703.0,,2974703.0


10 - Exiba somente os dados referentes a Salvador.

In [None]:
# Insira a resposta abaixo.
df.loc['Salvador']

2000         2440828.0
2018         2857329.0
2019         2907329.0
diferença     416501.0
media        2649078.5
Name: Salvador, dtype: float64

11 - Exiba ** a terceira linha** do dataframe utilizando o seu posicionamento no dataframe.

In [None]:
# Insira a resposta abaixo.
df.iloc[2]

2000         2440828.0
2018         2857329.0
2019         2907329.0
diferença     416501.0
media        2649078.5
Name: Salvador, dtype: float64

12 - Exiba as **três primeiras linhas** do dataframe a partir da posição.

In [None]:
# Insira a resposta abaixo.
df.iloc[:3]

Unnamed: 0,2000,2018,2019,diferença,media
São Paulo,10405867.0,12176866.0,12226866.0,1770999.0,11291366.5
Rio de Janeiro,5851914.0,6688927.0,6738927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,2907329.0,416501.0,2649078.5


13 - Remova a coluna 2019 criada anteriormente.

In [None]:
# Insira a resposta abaixo.
df = df.drop(['2019'],axis=1)
df

Unnamed: 0,2000,2018,diferença,media
São Paulo,10405867.0,12176866.0,1770999.0,11291366.5
Rio de Janeiro,5851914.0,6688927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,416501.0,2649078.5
Belo Horizonte,2232747.0,,,2232747.0
Fortaleza,2138234.0,2643247.0,505013.0,2390740.5
Brasília,,2974703.0,,2974703.0


14 - Remova os registros que apresentam valores nulos.

In [None]:
# Insira a resposta abaixo.
df = df.dropna()
df

Unnamed: 0,2000,2018,diferença,media
São Paulo,10405867.0,12176866.0,1770999.0,11291366.5
Rio de Janeiro,5851914.0,6688927.0,837013.0,6270420.5
Salvador,2440828.0,2857329.0,416501.0,2649078.5
Fortaleza,2138234.0,2643247.0,505013.0,2390740.5


### Exercícios com base de dados fictícia (toy dataset)

Execute o bloco de código abaixo para realizar o download de uma pequena base de dados que será utilizada para os próximos experimentos. A base de dados poderá ser acessada através do arquivo toy_dataset.csv. Caso a sessão se encerre, re-execute essa célula de código.

In [3]:
!pip install -q kaggle
import os
os.environ['KAGGLE_USERNAME'] = "victorlundgren"
os.environ['KAGGLE_KEY'] = "851b67a8b7e626eb6336620bf1cb0d31"

!kaggle datasets download -d carlolepelaars/toy-dataset
!unzip toy-dataset.zip # OU tar -xy no Windows10

Downloading toy-dataset.zip to /content
  0% 0.00/1.13M [00:00<?, ?B/s]
100% 1.13M/1.13M [00:00<00:00, 35.1MB/s]
Archive:  toy-dataset.zip
  inflating: toy_dataset.csv         


15 - Execute a leitura do Toy Dataset diretamente em um dataframe.

In [4]:
# Insira a resposta abaixo.
df = pd.read_csv('./toy_dataset.csv')
df.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


16 - Exiba o tipo de dados de cada coluna do dataframe.

In [None]:
# Insira a resposta abaixo.
df.dtypes

Number       int64
City        object
Gender      object
Age          int64
Income     float64
Illness     object
dtype: object

17 - Utilize a função .head() para exibir o cabeçalho do dataframe e assim conhecer as colunas, o índice e as linhas iniciais da base de dados.

In [None]:
# Insira a resposta abaixo.
df.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


18 - Realize as seguintes operações:

- Adicione uma nova coluna chamada NumberAge e que apresente a soma entre os valores da coluna Number com os valores da coluna Age.
- Exiba o cabeçalho do dataframe resultante.
- Remova a coluna NumberAge.
- Exiba o cabeçalho do dataframe resultante.

In [None]:
# Insira a resposta abaixo.
df['NumberAge'] = df['Number']+df.Age
display(df.head())
df = df.drop(['NumberAge'], axis=1)
display(df.head())

Unnamed: 0,Number,City,Gender,Age,Income,Illness,NumberAge
0,1,Dallas,Male,41,40367.0,No,42
1,2,Dallas,Male,54,45084.0,No,56
2,3,Dallas,Male,42,52483.0,No,45
3,4,Dallas,Male,40,40941.0,No,44
4,5,Dallas,Male,46,50289.0,No,51


Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


19 - Realize as seguintes operações a partir do dataframe definido anteriormente:

- Exiba as cinco primeiras linhas do dataframe, todos os atributos devem ser apresentados com exceção do primeiro e último.

- Exiba as cinco últimas linhas do dataframe, exiba somente o atributo City.

In [None]:
# Insira a resposta abaixo.
display(df.iloc[:,1:-1].head())

display(df.loc[:,'City'].tail())

Unnamed: 0,City,Gender,Age,Income
0,Dallas,Male,41,40367.0
1,Dallas,Male,54,45084.0
2,Dallas,Male,42,52483.0
3,Dallas,Male,40,40941.0
4,Dallas,Male,46,50289.0


149995    Austin
149996    Austin
149997    Austin
149998    Austin
149999    Austin
Name: City, dtype: object

20 - Ordene de forma ascendente as amostras utilizando como critério o salário anual. Em seguida, resete os índices dos registros.

In [None]:
# Insira a resposta abaixo.
df = df.sort_values(['Income'])
df = df.reset_index().drop(['index'],axis=1)
df.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,246,Dallas,Female,40,-654.0,Yes
1,7897,Dallas,Female,34,584.0,No
2,18485,Dallas,Female,43,2474.0,No
3,9299,Dallas,Female,31,2667.0,Yes
4,17136,Dallas,Female,39,3842.0,No


**21 - Defina a coluna 'Number' como o índice do dataframe. Em seguida, exiba do segundo até o quinto registro a partir do posicionamento.**

In [6]:
# Insira a resposta abaixo.
df = df.set_index(['Number'])
df.iloc[1:5,:]

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,Dallas,Male,54,45084.0,No
3,Dallas,Male,42,52483.0,No
4,Dallas,Male,40,40941.0,No
5,Dallas,Male,46,50289.0,No


22 - Desta vez, exiba os registros com Number variando de 2 até 5 a partir do próprio rótulo Number.

In [7]:
# Insira a resposta abaixo.
df.loc[2:5,:]

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,Dallas,Male,54,45084.0,No
3,Dallas,Male,42,52483.0,No
4,Dallas,Male,40,40941.0,No
5,Dallas,Male,46,50289.0,No


23 - Qual a cidade e o gênero da pessoa com a maior renda (Income)?

In [None]:
# Insira a resposta abaixo.
df.iloc[-1,0:2]

City      Mountain View
Gender             Male
Name: 109351, dtype: object

24 - Quantas pessoas moram na cidade de Dallas? 

In [13]:
# Insira a resposta abaixo.
df.City.value_counts()['Dallas']

19707

25 - Qual a idade média das pessoas que estão doentes? Utilize o atributo Illness para obter essa informação.

In [None]:
# Insira a resposta abaixo.
df[(df['Illness']=='Yes')].Age.mean()

45.02084191449048

26 - Quantas pessoas tem um salário anual maior que R$ 30000?

In [None]:
# Insira a resposta abaixo.
df[(df.Income>30000)].Income.count()

148218

27 - Quantas pessoas estão doentes?

In [None]:
# Insira a resposta abaixo.
df[(df.Illness=='Yes')].Illness.count()

12139

28 - Quantas pessoas estão doente e apresentam renda (Income) menor que 35000 ou maior que 50000?

In [None]:
# Insira a resposta abaixo.
df[(df.Illness=='Yes')&((df.Income<35000)|(df.Income>50000))].Illness.count()

11386

29 - Mostre os registros que apresentam a menor idade encontrada e uma renda entre 40000 e 42000.

In [None]:
# Insira a resposta abaixo.
df[((df.Age == df.Age.min()) & (df.Income>40000) & (df.Income<42000))]

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2682,Dallas,Female,25,40075.0,No
13564,Dallas,Female,25,40076.0,No
5640,Dallas,Male,25,40313.0,No
14607,Dallas,Female,25,40363.0,No
16403,Dallas,Female,25,40389.0,No
10740,Dallas,Male,25,40467.0,No
128932,Washington D.C.,Female,25,40476.0,No
10181,Dallas,Female,25,40761.0,No
18191,Dallas,Female,25,40795.0,No
2709,Dallas,Female,25,40899.0,No


30 - Mostre os registros referentes a cidade de Dallas que apresentam a maior idade e que estão doentes.

In [None]:
# Insira a resposta abaixo.
df[(df.City == 'Dallas')&(df.Age == df.Age.max())&(df.Illness=='Yes')]

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
14437,Dallas,Female,65,20732.0,Yes
17728,Dallas,Female,65,30468.0,Yes
10518,Dallas,Male,65,32516.0,Yes
4359,Dallas,Female,65,34712.0,Yes
14711,Dallas,Female,65,34991.0,Yes
15663,Dallas,Female,65,35688.0,Yes
15866,Dallas,Male,65,36590.0,Yes
1564,Dallas,Female,65,38193.0,Yes
17788,Dallas,Male,65,40675.0,Yes
13877,Dallas,Male,65,42107.0,Yes


31 - Obtenha os registros das pessoas que moram na cidade de Austin e que apresentam idade menor que 26 anos. Exiba cinco amostras.

In [None]:
# Insira a resposta abaixo.
df[(df.City == 'Austin')&(df.Age < 26)].head()

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
149888,Austin,Female,25,66847.0,No
144554,Austin,Male,25,67468.0,No
147407,Austin,Female,25,68183.0,No
146850,Austin,Female,25,68323.0,No
149187,Austin,Female,25,69530.0,No


32 - Exiba as informações estatísticas básicas referentes as colunas do dataframe (média, desvio padrão, valor mínimo, valor máximo, primeiro quartil, segundo quartil, terceiro quartil). Dica: o pandas possui uma função para gerar uma estatística descritiva dos dados.

In [None]:
# Insira a resposta abaixo.
df.describe()

Unnamed: 0,Age,Income
count,150000.0,150000.0
mean,44.9502,91252.798273
std,11.572486,24989.500948
min,25.0,-654.0
25%,35.0,80867.75
50%,45.0,93655.0
75%,55.0,104519.0
max,65.0,177157.0


33 - Apresenta a quantidade de pessoas doentes por cidade.


In [None]:
# Insira a resposta abaixo.
df.groupby('Illness').City.value_counts().to_frame().query("Illness == 'Yes'")

Unnamed: 0_level_0,Unnamed: 1_level_0,City
Illness,City,Unnamed: 2_level_1
Yes,New York City,4021
Yes,Los Angeles,2568
Yes,Dallas,1613
Yes,Mountain View,1178
Yes,Austin,1011
Yes,Boston,686
Yes,Washington D.C.,668
Yes,San Diego,394


34 - Armazene em uma nova variável o agrupamento dos dados do dataframe usado anteriormente tomando como critério o gênero e a cidade, nessa exata ordem. Utilize a média como função de agregação e exiba somente a idade e salário anual.

In [None]:
# Insira a resposta abaixo.
df1 = df.groupby(['Gender','City']).mean()
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Income
Gender,City,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,Austin,44.505478,84958.760631
Female,Boston,45.219112,85978.44253
Female,Dallas,45.141987,39602.533142
Female,Los Angeles,44.963668,89732.511306
Female,Mountain View,45.011791,129476.667463
Female,New York City,45.037976,91171.135035
Female,San Diego,45.093422,95313.831745
Female,Washington D.C.,44.964085,65449.164141
Male,Austin,44.764876,94424.246272
Male,Boston,45.180549,96071.649368


35 - Exiba o index do dataframe oriundo do agrupamento realizado na questão anterior.

In [None]:
# Insira a resposta abaixo.
df1.index

MultiIndex([('Female',          'Austin'),
            ('Female',          'Boston'),
            ('Female',          'Dallas'),
            ('Female',     'Los Angeles'),
            ('Female',   'Mountain View'),
            ('Female',   'New York City'),
            ('Female',       'San Diego'),
            ('Female', 'Washington D.C.'),
            (  'Male',          'Austin'),
            (  'Male',          'Boston'),
            (  'Male',          'Dallas'),
            (  'Male',     'Los Angeles'),
            (  'Male',   'Mountain View'),
            (  'Male',   'New York City'),
            (  'Male',       'San Diego'),
            (  'Male', 'Washington D.C.')],
           names=['Gender', 'City'])

36 - Como visto na questão anterior, o agrupamento gerou um dataframe com índice multinível. Acesse os dados referentes ao gênero feminino.

In [None]:
# Insira a resposta abaixo.
df.groupby(['Gender','City']).mean().loc['Female',:]


Unnamed: 0_level_0,Age,Income
City,Unnamed: 1_level_1,Unnamed: 2_level_1
Austin,44.505478,84958.760631
Boston,45.219112,85978.44253
Dallas,45.141987,39602.533142
Los Angeles,44.963668,89732.511306
Mountain View,45.011791,129476.667463
New York City,45.037976,91171.135035
San Diego,45.093422,95313.831745
Washington D.C.,44.964085,65449.164141


37 - Desta vez, liste os dados indexando diretamente pela cidade de Boston. Assim, deve ser exibida a idade média e o salário anual médio para ambos os gêneros.

In [None]:
# Insira a resposta abaixo.
df.groupby(['City','Gender']).mean().loc['Boston',:]

Unnamed: 0_level_0,Age,Income
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,45.219112,85978.44253
Male,45.180549,96071.649368


38 - Crie duas novas séries compostas de números aleatórios oriundos de uma distribuição normal. As séries devem ter o mesmo número de elementos que o dataframe, utilize como base os índices do dataframe criado anteriormente para construir as séries. Em seguida, concatene as duas séries horizontalmente e defina os títulos das colunas como 'Random 1' e 'Random 2'. Finalmente, concatene horizontalmente o resultado anterior com o dataframe imediatamente anterior aos agrupamentos realizados nas questões anteriores. Dica: lembre-se que o índice Number inicia em 1 quando for criar as séries de números aleatórios.

In [None]:
# Insira a resposta abaixo.
rand1 = pd.Series(data = np.random.randn(len(df)), name='Random1')
rand1.index +=1
rand2 = pd.Series(data = np.random.randn(len(df)), name='Random2')
rand2.index +=1

dfr = pd.concat([rand1, rand2],axis=1)

df2 = df.join(dfr)
df2

Unnamed: 0_level_0,City,Gender,Age,Income,Illness,Random1,Random2
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Dallas,Male,41,40367.0,No,-1.057720,-0.138124
2,Dallas,Male,54,45084.0,No,-0.606215,0.047433
3,Dallas,Male,42,52483.0,No,-0.842708,-0.183531
4,Dallas,Male,40,40941.0,No,-0.458416,1.125373
5,Dallas,Male,46,50289.0,No,1.114688,-0.034956
...,...,...,...,...,...,...,...
149996,Austin,Male,48,93669.0,No,-1.246838,0.063590
149997,Austin,Male,25,96748.0,No,-0.139579,-0.945837
149998,Austin,Male,26,111885.0,No,-0.483918,0.772218
149999,Austin,Male,25,111878.0,No,0.570747,0.775496


39 - Adicione uma nova linha com valores do tipo NaN (utilize o numpy.nan) no dataframe atual. Em seguida, preencha-a com a mediana dos valores de cada coluna na qual o valor nulo se encontra. Os atributos categóricos como Gender permanecerão como NaN, substitua-os com o valor não-nulo anterior ao registro. 

Dica: utilize uma nova variável para armazenar o dataframe para evitar modificações desnecessárias enquanto constrói os procedimentos. Para acompanhar o estado do dataframe durante as alterações utilize o método .tail() para exibir as últimas linhas do dataframe. 

In [None]:
# Insira a resposta abaixo.
df3 = df2.append(pd.Series(name='Mediana'))

for col in df3.columns:
  try:
    df3.loc['Mediana',col] = np.median(df3[col].iloc[:-1]) 
  except:
    print('Coluna {} não tem valores numéricos'.format(col))
    pass
    
df3.tail(1)


  


Coluna City não tem valores numéricos
Coluna Gender não tem valores numéricos
Coluna Illness não tem valores numéricos


Unnamed: 0_level_0,City,Gender,Age,Income,Illness,Random1,Random2
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mediana,,,45.0,93655.0,,-0.005037,-0.001515


40 - Liste sem repetição as cidades que estão presentes no dataframe.

In [None]:
# Insira a resposta abaixo.
df.City.unique()

array(['Dallas', 'New York City', 'Los Angeles', 'Mountain View',
       'Boston', 'Washington D.C.', 'San Diego', 'Austin'], dtype=object)

41 - Crie uma função anônima *lambda* que receba cada idade e a incremente com +1. Aplique essa função na coluna Age do dataframe.

In [None]:
# Insira a resposta abaixo.
ap1 = lambda x: x+1

df3 = df.copy()
df3.Age = df.Age.apply(ap1)

display(df.head(3))
display(df3.head(3))

Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Dallas,Male,41,40367.0,No
2,Dallas,Male,54,45084.0,No
3,Dallas,Male,42,52483.0,No


Unnamed: 0_level_0,City,Gender,Age,Income,Illness
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Dallas,Male,42,40367.0,No
2,Dallas,Male,55,45084.0,No
3,Dallas,Male,43,52483.0,No


42 - Crie um novo dataframe a partir do "toy" dataframe. **Este deve utilizar as diferentes cidades como índices e ambos os gêneros como colunas, informando para cada cidade a idade média**. Dica: considere criar uma pivot table.

In [None]:
# Insira a resposta abaixo.

df.pivot_table(index='City', columns = 'Gender')


Unnamed: 0_level_0,Age,Age,Income,Income
Gender,Female,Male,Female,Male
City,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Austin,44.505478,44.764876,84958.760631,94424.246272
Boston,45.219112,45.180549,85978.44253,96071.649368
Dallas,45.141987,44.99291,39602.533142,49722.384021
Los Angeles,44.963668,45.018392,89732.511306,99681.616055
Mountain View,45.011791,44.977716,129476.667463,139504.523354
New York City,45.037976,44.830816,91171.135035,101338.02392
San Diego,45.093422,44.868487,95313.831745,104859.014732
Washington D.C.,44.964085,44.676471,65449.164141,75327.277217


### Introduzindo as Funções Merge e Join

43 - Abaixo pode-se conferir dois dicionários referentes à registros de desempenho escolar de estudantes em duas disciplinas diferentes. No dicionário referente a disciplina de Matemática, a lista de CPFs dos alunos pode ser acessada através da chave 'CPF', enquanto para o dicionário de Química a chave referente aos CPFs é denominada 'Matricula'. Dado que alguns estudantes que fazem parte da disciplina de matemática, também estão presentes na turma de química, realize as seguintes operações:
1. Crie um dataframe para cada disciplina.
2. Utilize as colunas que contêm os dados de CPF para criar um dataframe final contendo somente os registros dos alunos que contemplaram ambas as disciplinas. O dataframe deve conter somente as colunas 'CPF', 'Nome', 'Nota_Matemática', 'Matricula' e 'Nota_Química'.

In [None]:
matematica = {'CPF': [34160272215, 63862254062, 88415367805, 88134932070], 'Nome':['Álex', 'Noah', 'Sam', 'Kim'], 'Nota': [8.95, 9.1, 7.9, 9.2]}
quimica = {'Matricula': [63862254062, 24208455012, 27440174003, 88415367805], 'Nome':['Noah', 'Dirceu', 'Dominique', 'Sam'], 'Nota': [7.79, 8.2, 7.5, 8.2]}

# Insira a resposta abaixo.
# Passo 1
mat = pd.DataFrame(matematica)
qui = pd.DataFrame(quimica)

# Passo 2
df = pd.merge(mat,qui, how='inner', on='Nome', suffixes=('_Matemática','_Química'))
df


Unnamed: 0,CPF,Nome,Nota_Matemática,Matricula,Nota_Química
0,63862254062,Noah,9.1,63862254062,7.79
1,88415367805,Sam,7.9,88415367805,8.2


44 - A partir da questão anterior, utilize os dois dataframes criados para cada disciplina e defina o CPF como o índice de ambos os objetos. Em seguida, utilize os índices do dataframe para criar uma nova base contendo somente os registros dos alunos que contemplaram ambas as disciplinas. O dataframe deve conter as colunas 'CPF', 'Nome', 'Nota_Matemática', 'Matricula' e 'Nota_Química'.

In [None]:
# Insira a resposta abaixo.
qui = pd.merge(mat[['CPF','Nome']],qui, how='inner', on='Nome', suffixes=('_Matemática','_Química'))

qui.set_index('CPF', inplace=True)
mat.set_index('CPF', inplace=True)


df = mat.join(qui.drop('Nome', axis=1), lsuffix='_Matemática', rsuffix='_Química',how='inner') 
df

Unnamed: 0_level_0,Nome,Nota_Matemática,Matricula,Nota_Química
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
63862254062,Noah,9.1,63862254062,7.79
88415367805,Sam,7.9,88415367805,8.2


45 - Ainda utilizando o dataframe da questão anterior, apresente desta vez a união entre ambos, de forma a apresentar todos os alunos que contenplaram alguma das disciplinas

In [None]:
# Insira a resposta abaixo.

df = pd.merge(mat, qui, how ='outer', on='Nome', suffixes= ('_Matemática', '_Química'))
df

Unnamed: 0,CPF,Nome,Nota_Matemática,Matricula,Nota_Química
0,34160270000.0,Álex,8.95,,
1,63862250000.0,Noah,9.1,63862250000.0,7.79
2,88415370000.0,Sam,7.9,88415370000.0,8.2
3,88134930000.0,Kim,9.2,,
4,,Dirceu,,24208460000.0,8.2
5,,Dominique,,27440170000.0,7.5


46 - Salve o dataframe resultante da questão anterior em um csv. 

In [None]:
# Insira a resposta abaixo.

In [None]:
df.to_csv('df.csv')