Módulo: Bibliotecas e APIs (Python)<br>
Lista: Pandas - DataFrames<br>
Data: 08/2021<br>

In [1]:
import pandas as pd

**Q1:** O arquivo avocado.csv consiste em um dataset que contém dados sobre vendas de abacates (avocado, em inglês) em diversas regiões dos Estados Unidos. Essa dataset contém as seguintes colunas:

    Date - a data da observação
    AveragePrice - o preço médio de um único abacate
    year - o ano
    region - a cidade ou região da observação
    Total Volume - volume total de abacates vendidos

Além das informações acima, contidas no arquivo avocado.csv, o tipo do abacate (convencional ou orgânico) também seria uma informação importante para a sua análise. Suponhamos que você conseguiu essas informações para cada uma das observações do arquivo avocado.csv, na mesma ordem, e salvou-as no arquivo avocado_type.csv. Portanto, tudo o que você precisa é juntar esses dois arquivos em um mesmo DataFrame. E, em seguida, salve-o em um arquivo csv.

PS. Caso queira criar uma Series com os dados aleatórios para o tipo de abacate, utilize o código abaixo:

tipos = pd.Series(np.random.randint(0, 2, df_avocado.shape[0]))
tipos = tipos.map({0: 'convencional', 1:'orgânico'})

In [2]:
# Carregando o DF
df_avocado = pd.read_csv('avocado.csv')
df_avocado.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region
0,2015-12-27,1.33,64236.62,2015,Albany
1,2015-12-20,1.35,54876.98,2015,Albany
2,2015-12-13,0.93,118220.22,2015,Albany
3,2015-12-06,1.08,78992.15,2015,Albany
4,2015-11-29,1.28,51039.6,2015,Albany


In [3]:
# Leitura do tipo de avocado está em DF separado
df_avocadoType = pd.read_csv('avocado_type.csv')
df_avocadoType.head()

Unnamed: 0,type
0,conventional
1,conventional
2,conventional
3,conventional
4,conventional


In [4]:
# Conferindo shape - possuem mesmo número de linhas
df_avocado.shape, df_avocadoType.shape

((18249, 5), (18249, 1))

In [5]:
# Concatena os DFs no eixo vertical
df_avocados = pd.concat([df_avocado, df_avocadoType], axis=1)
df_avocados.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional
1,2015-12-20,1.35,54876.98,2015,Albany,conventional
2,2015-12-13,0.93,118220.22,2015,Albany,conventional
3,2015-12-06,1.08,78992.15,2015,Albany,conventional
4,2015-11-29,1.28,51039.6,2015,Albany,conventional


In [6]:
# Salvando o DF em um único arquivo
df_avocados.to_csv('avocadoComplete.csv', index=None)

**Inspeção geral do DF**

In [7]:
df_avocados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18249 entries, 0 to 18248
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Date          18249 non-null  object 
 1   AveragePrice  18249 non-null  float64
 2   Total Volume  18249 non-null  float64
 3   year          18249 non-null  int64  
 4   region        18249 non-null  object 
 5   type          18249 non-null  object 
dtypes: float64(2), int64(1), object(3)
memory usage: 855.5+ KB


In [8]:
# Verificando a presença de dados faltantes
df_avocados.isna().sum()

Date            0
AveragePrice    0
Total Volume    0
year            0
region          0
type            0
dtype: int64

In [9]:
# Verificando a presença de casos duplicados
df_avocados.shape, df_avocados[df_avocados.duplicated()].shape

((18249, 6), (0, 6))

In [10]:
# Contagem de itens únicos por coluna
df_avocados.nunique()

Date              169
AveragePrice      259
Total Volume    18237
year                4
region             54
type                2
dtype: int64

In [11]:
# Verificando os anos
df_avocados['year'].unique()

array([2015, 2016, 2017, 2018], dtype=int64)

In [12]:
# Verificando as regiões
df_avocados['region'].unique()

array(['Albany', 'Atlanta', 'BaltimoreWashington', 'Boise', 'Boston',
       'BuffaloRochester', 'California', 'Charlotte', 'Chicago',
       'CincinnatiDayton', 'Columbus', 'DallasFtWorth', 'Denver',
       'Detroit', 'GrandRapids', 'GreatLakes', 'HarrisburgScranton',
       'HartfordSpringfield', 'Houston', 'Indianapolis', 'Jacksonville',
       'LasVegas', 'LosAngeles', 'Louisville', 'MiamiFtLauderdale',
       'Midsouth', 'Nashville', 'NewOrleansMobile', 'NewYork',
       'Northeast', 'NorthernNewEngland', 'Orlando', 'Philadelphia',
       'PhoenixTucson', 'Pittsburgh', 'Plains', 'Portland',
       'RaleighGreensboro', 'RichmondNorfolk', 'Roanoke', 'Sacramento',
       'SanDiego', 'SanFrancisco', 'Seattle', 'SouthCarolina',
       'SouthCentral', 'Southeast', 'Spokane', 'StLouis', 'Syracuse',
       'Tampa', 'TotalUS', 'West', 'WestTexNewMexico'], dtype=object)

**Q2:** Carregue o arquivo csv que você salvou na questão anterior e, em seguida, obtenha o que é solicitado nos itens elencados abaixo:

(a) A quantidade de abacates do tipo convecional e do tipo orgânico.<br>
(b) A quantidade de registros (linhas) de abacates vendidos para cada região.<br>
(c) Para que todos os labels das colunas fiquem padronizados, renomeie aqueles que estão iniciando em letra minúscula para que iniciem em letra maiúscula.<br>
(d) Uma vez que você já possui uma coluna com a data, remova a coluna que apresenta o ano.

In [13]:
# Carregando o DF
df = pd.read_csv('avocadoComplete.csv')
df.head()

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional
1,2015-12-20,1.35,54876.98,2015,Albany,conventional
2,2015-12-13,0.93,118220.22,2015,Albany,conventional
3,2015-12-06,1.08,78992.15,2015,Albany,conventional
4,2015-11-29,1.28,51039.6,2015,Albany,conventional


In [14]:
# a) A quantidade de abacates do tipo convecional e do tipo orgânico.
df['type'].value_counts()

conventional    9126
organic         9123
Name: type, dtype: int64

In [15]:
# b) A quantidade de registros (linhas) de abacates vendidos para cada região.
df['region'].value_counts()

SanFrancisco           338
Louisville             338
Albany                 338
NorthernNewEngland     338
LosAngeles             338
Seattle                338
SouthCentral           338
West                   338
Columbus               338
GrandRapids            338
Pittsburgh             338
Sacramento             338
MiamiFtLauderdale      338
Nashville              338
California             338
Spokane                338
Midsouth               338
Northeast              338
DallasFtWorth          338
LasVegas               338
Houston                338
HarrisburgScranton     338
Roanoke                338
Denver                 338
Orlando                338
Chicago                338
RichmondNorfolk        338
StLouis                338
Atlanta                338
Indianapolis           338
Charlotte              338
NewYork                338
Plains                 338
Detroit                338
Southeast              338
BuffaloRochester       338
CincinnatiDayton       338
T

In [16]:
# c) Renomeie labels iniciando em minúscula para maiúscula
print('Antes:',df.columns)
df.columns = [item.capitalize() for item in df_avocados.columns]
print('Depois:',df.columns)
df.head(1)

Antes: Index(['Date', 'AveragePrice', 'Total Volume', 'year', 'region', 'type'], dtype='object')
Depois: Index(['Date', 'Averageprice', 'Total volume', 'Year', 'Region', 'Type'], dtype='object')


Unnamed: 0,Date,Averageprice,Total volume,Year,Region,Type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional


In [17]:
# d) Uma vez que você já possui uma coluna com a data, remova a coluna que apresenta o ano.
del df['Year']
df.head(1)

Unnamed: 0,Date,Averageprice,Total volume,Region,Type
0,2015-12-27,1.33,64236.62,Albany,conventional


**Q3:** Carregue, em um objeto DataFrame, o mesmo dataset que você salvou na questão Q1, agrupe os dados do DF pelo tipo do abacate e, em seguida, obtenha:

(a) A volume total de abacates vendidos para cada tipo.<br>
(b) O preço médio dos abacates vendidos para cada tipo.

In [18]:
# Carregando o DF
df = pd.read_csv('avocadoComplete.csv')
df.head(2)

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,conventional
1,2015-12-20,1.35,54876.98,2015,Albany,conventional


In [19]:
# a) Total Volume por tipo
df.groupby('type')['Total Volume'].sum()

type
conventional    1.508722e+10
organic         4.361817e+08
Name: Total Volume, dtype: float64

In [20]:
# b) AveragePrice médio por tipo
df.groupby('type')['AveragePrice'].mean()

type
conventional    1.158040
organic         1.653999
Name: AveragePrice, dtype: float64

**Q4:** O arquivo googleplaystore.csv é um dataset que contém diversas informações sobre aplicativos disponíveis para download na Google Play Store. Você deve utilizar esse dataset para fazer o mesmo que foi solicitado na questão anterior. Ou seja, carregue-o em um objeto DataFrame e verifique os dados contidos nas colunas desse DF. Logo após, verifique se existem dados duplicados e/ou ausentes nesse dataset.

Caso existam dados duplicados, remova-os. Caso existam dados ausentes, você pode removê-los ou pensar em alguma maneira de preenchê-los.

In [21]:
# Carregando o DF
df_gps = pd.read_csv('googleplaystore.csv')
df_gps.head(3)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up


In [22]:
df_gps.shape,df_gps[df_gps.duplicated()].shape # Existem dados duplicados

((10841, 13), (483, 13))

In [23]:
# exclusão dos dados duplicados
df_gps.drop_duplicates(inplace=True)
df_gps.shape

(10358, 13)

**Verificação e tratamento de dados faltantes:**

In [24]:
# Retorna a soma de valores nulos por coluna
df_gps.isnull().sum()

App                  0
Category             0
Rating            1465
Reviews              0
Size                 0
Installs             0
Type                 1
Price                0
Content Rating       1
Genres               0
Last Updated         0
Current Ver          8
Android Ver          3
dtype: int64

**Tratamento da coluna 'Rating':**

In [25]:
# Proporção de dados faltantes em 'Rating': 14%
df_gps['Rating'].isnull().sum()/df_gps['Rating'].size

0.14143657076655725

In [26]:
# Podemos substituir pela média
df_gps['Rating'].fillna(df_gps['Rating'].mean(), inplace=True)

**Tratamento da coluna 'Type':**

In [27]:
# Tratamento da coluna 'Type'
df_gps['Type'].nunique(),df_gps['Type'].unique() 

(3, array(['Free', 'Paid', nan, '0'], dtype=object))

In [28]:
# Contagem de itens na coluna 'Type'
df_gps['Type'].value_counts()

Free    9591
Paid     765
0          1
Name: Type, dtype: int64

Note que temos que tratar dois casos para 'Type': dado faltante (NaN) e dado nulo ('0'). Veja abaixo que podemos considerar ambos os casos como do tipo 'Free', ou seja, não são pagos (veja coluna 'Price').

In [29]:
df_gps[df_gps['Type']=='0']

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10472,Life Made WI-Fi Touchscreen Photo Frame,1.9,19.0,3.0M,"1,000+",Free,0,Everyone,,"February 11, 2018",1.0.19,4.0 and up,


In [30]:
df_gps[df_gps['Type'].isna()]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
9148,Command & Conquer: Rivals,FAMILY,4.189542,0,Varies with device,0,,0,Everyone 10+,Strategy,"June 28, 2018",Varies with device,Varies with device


In [31]:
# Contagem de itens na coluna type antes de modificar
df_gps['Type'].value_counts()

Free    9591
Paid     765
0          1
Name: Type, dtype: int64

In [32]:
# Tratando dados ausentes e nulos:
df_gps['Type'].fillna('Free', inplace=True)
df_gps['Type'].replace(to_replace='0', value='Free',inplace=True)

In [33]:
# Contagem de itens na coluna type após tratamento
df_gps['Type'].value_counts()

Free    9593
Paid     765
Name: Type, dtype: int64

In [34]:
# Confirmando os itens da coluna 'Type'
df_gps['Type'].nunique(),df_gps['Type'].unique() 

(2, array(['Free', 'Paid'], dtype=object))

**Tratamento da coluna 'Content Rating':**

In [35]:
df_gps[df_gps['Content Rating'].isna()]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10472,Life Made WI-Fi Touchscreen Photo Frame,1.9,19.0,3.0M,"1,000+",Free,Free,Everyone,,"February 11, 2018",1.0.19,4.0 and up,


In [36]:
# Verificando os casos na coluna 'Content Rating'
df_gps['Content Rating'].value_counts()

Everyone           8382
Teen               1146
Mature 17+          447
Everyone 10+        377
Adults only 18+       3
Unrated               2
Name: Content Rating, dtype: int64

In [37]:
# Podemos classificar na categoria 'Unrated'
df_gps['Content Rating'].fillna('Unrated', inplace=True)

In [38]:
df_gps['Content Rating'].value_counts()

Everyone           8382
Teen               1146
Mature 17+          447
Everyone 10+        377
Unrated               3
Adults only 18+       3
Name: Content Rating, dtype: int64

**Tratamento da coluna 'Current Ver':**

In [39]:
df_gps[df_gps['Current Ver'].isna()]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
15,Learn To Draw Kawaii Characters,ART_AND_DESIGN,3.2,55,2.7M,"5,000+",Free,0,Everyone,Art & Design,"June 6, 2018",,4.2 and up
1553,Market Update Helper,LIBRARIES_AND_DEMO,4.1,20145,11k,"1,000,000+",Free,0,Everyone,Libraries & Demo,"February 12, 2013",,1.5 and up
6322,Virtual DJ Sound Mixer,TOOLS,4.2,4010,8.7M,"500,000+",Free,0,Everyone,Tools,"May 10, 2017",,4.0 and up
6803,BT Master,FAMILY,4.189542,0,222k,100+,Free,0,Everyone,Education,"November 6, 2016",,1.6 and up
7333,Dots puzzle,FAMILY,4.0,179,14M,"50,000+",Paid,$0.99,Everyone,Puzzle,"April 18, 2018",,4.0 and up
7407,Calculate My IQ,FAMILY,4.189542,44,7.2M,"10,000+",Free,0,Everyone,Entertainment,"April 3, 2017",,2.3 and up
7730,UFO-CQ,TOOLS,4.189542,1,237k,10+,Paid,$0.99,Everyone,Tools,"July 4, 2016",,2.0 and up
10342,La Fe de Jesus,BOOKS_AND_REFERENCE,4.189542,8,658k,"1,000+",Free,0,Everyone,Books & Reference,"January 31, 2017",,3.0 and up


In [40]:
df_gps['Current Ver'].value_counts()

Varies with device    1302
1.0                    802
1.1                    260
1.2                    177
2.0                    149
                      ... 
0.0.10                   1
1.3.35.0                 1
2.0.7.4                  1
1805.0618.1637           1
6.10.1                   1
Name: Current Ver, Length: 2832, dtype: int64

In [41]:
# EStratégia: substituir pelo mais frequente
df_gps['Current Ver'].value_counts().idxmax()

'Varies with device'

In [42]:
versao = df_gps['Current Ver'].value_counts().idxmax()
df_gps['Current Ver'].fillna(versao,inplace=True)

**Tratamento da coluna 'Android Ver':**

In [43]:
df_gps['Android Ver'].value_counts()

4.1 and up            2379
4.0.3 and up          1451
4.0 and up            1337
Varies with device    1221
4.4 and up             894
2.3 and up             643
5.0 and up             546
4.2 and up             387
2.3.3 and up           279
2.2 and up             239
3.0 and up             237
4.3 and up             235
2.1 and up             133
1.6 and up             116
6.0 and up              58
7.0 and up              42
3.2 and up              36
2.0 and up              32
5.1 and up              22
1.5 and up              20
4.4W and up             11
3.1 and up              10
2.0.1 and up             7
8.0 and up               6
7.1 and up               3
1.0 and up               2
4.0.3 - 7.1.1            2
5.0 - 8.0                2
5.0 - 6.0                1
5.0 - 7.1.1              1
7.0 - 7.1.1              1
4.1 - 7.1.1              1
2.2 - 7.1.1              1
Name: Android Ver, dtype: int64

In [44]:
df_gps[df_gps['Android Ver'].isna()]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
4453,[substratum] Vacuum: P,PERSONALIZATION,4.4,230,11M,"1,000+",Paid,$1.49,Everyone,Personalization,"July 20, 2018",4.4,
4490,Pi Dark [substratum],PERSONALIZATION,4.5,189,2.1M,"10,000+",Free,0,Everyone,Personalization,"March 27, 2018",1.1,
10472,Life Made WI-Fi Touchscreen Photo Frame,1.9,19.0,3.0M,"1,000+",Free,Free,Everyone,Unrated,"February 11, 2018",1.0.19,4.0 and up,


In [45]:
# Novamente podemos substituir pelo mais frequente
versao = df_gps['Android Ver'].value_counts().idxmax()
df_gps['Android Ver'].fillna(versao,inplace=True)

**Resultado do tratamento: sem dados faltantes**

In [46]:
# Retorna a soma de valores nulos por coluna
df_gps.isnull().sum()

App               0
Category          0
Rating            0
Reviews           0
Size              0
Installs          0
Type              0
Price             0
Content Rating    0
Genres            0
Last Updated      0
Current Ver       0
Android Ver       0
dtype: int64

**Q5:** O arquivo houses_to_rent.csv consiste em um dataset que contém dados sobre casas para alugar no Brasil. Carregue-o em um objeto DataFrame e verifique os dados contidos nas colunas desse DF (você pode utilizar os métodos head, tail e info). Logo após, verifique se existem dados duplicados e/ou ausentes nesse dataset.

Caso existam dados duplicados, remova-os. Caso existam dados ausentes, você pode removê-los ou pensar em alguma maneira de preenchê-los.

In [47]:
df_houses = pd.read_csv('houses_to_rent.csv')
df_houses.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836


In [48]:
# Informações gerais sobre o df: linhas, colunas e tipos de dados
df_houses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10692 entries, 0 to 10691
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   city                 10692 non-null  object
 1   area                 10692 non-null  int64 
 2   rooms                10692 non-null  int64 
 3   bathroom             10692 non-null  int64 
 4   parking spaces       10692 non-null  int64 
 5   floor                10692 non-null  object
 6   animal               10692 non-null  object
 7   furniture            10692 non-null  object
 8   hoa (R$)             10692 non-null  int64 
 9   rent amount (R$)     10692 non-null  int64 
 10  property tax (R$)    10692 non-null  int64 
 11  fire insurance (R$)  10692 non-null  int64 
 12  total (R$)           10692 non-null  int64 
dtypes: int64(9), object(4)
memory usage: 1.1+ MB


In [49]:
# Note que não há dados faltantes
df_houses.isna().sum() 

city                   0
area                   0
rooms                  0
bathroom               0
parking spaces         0
floor                  0
animal                 0
furniture              0
hoa (R$)               0
rent amount (R$)       0
property tax (R$)      0
fire insurance (R$)    0
total (R$)             0
dtype: int64

In [50]:
# Verificando a existência de dados duplicados:
df_houses.shape, df_houses[df_houses.duplicated()].shape

((10692, 13), (358, 13))

In [51]:
# Remoção dos casos duplicados
df_houses.drop_duplicates(inplace=True)
df_houses.shape

(10334, 13)

In [52]:
# Verificando o resumo dos dados
df_houses.describe().T 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
area,10334.0,152.439423,545.875595,11.0,59.0,95.0,190.0,46335.0
rooms,10334.0,2.539965,1.168185,1.0,2.0,3.0,3.0,13.0
bathroom,10334.0,2.268725,1.41465,1.0,1.0,2.0,3.0,10.0
parking spaces,10334.0,1.644475,1.598527,0.0,1.0,1.0,2.0,12.0
hoa (R$),10334.0,1091.243952,11446.092263,0.0,180.0,571.0,1286.75,1117000.0
rent amount (R$),10334.0,3966.296013,3436.190007,450.0,1598.25,2750.0,5000.0,45000.0
property tax (R$),10334.0,376.929263,3160.602165,0.0,41.0,130.0,389.75,313700.0
fire insurance (R$),10334.0,54.264273,48.16438,3.0,21.0,37.0,70.0,677.0
total (R$),10334.0,5488.943488,12669.110756,499.0,2116.0,3685.5,6912.0,1120000.0
