# **Python para análise de dados** - Fernanda Santos

In [5]:
# Primeiro passo após abrir o notebook e conectá-lo é mapear o nosso Google Drive
# para conseguir ler os nossos datasets. Clicar em files no Menu Vertical esquerdo:
# 1) Selecionar a pasta do Google Drive (ver simbolo) e montá-la.
# 2) Uma pasta 'drive' será montada e nela deverão estar os datasets previamente copiados

# O proximo passo é importar a biblioteca pandas

import pandas as pd

In [6]:
# Agora vamos criar uma variavel df (dataframe) que irá receber o dados do 
# conjunto de dados que vamos ler:

df = pd.read_csv("/content/drive/MyDrive/DioDataBases-Pandas/Gapminder.csv")

# Ao ler esse arquivo deverá ocorrer um erro pois a configuração default do método
# é para registrar linhas de dados com problema:



ParserError: ignored

In [None]:
# Colocando-se o curso no comando  e digitando-se uma virgula pd.read_csv("/content/drive/MyDrive/DioDataBases-Pandas/Gapminder.csv", )
# será mostrados os parâmetros passados no comando. Devemos selecionar o on_bad_lines = 'skip'.
# Mudamos o parâmero de True para False e rodamos  novamente:

df = pd.read_csv("/content/drive/MyDrive/DioDataBases-Pandas/Gapminder.csv", on_bad_lines='skip')

In [9]:
# Visualizando o cabeçalho (5 primeiras linhas)
df.head()


Unnamed: 0,country;continent;year;lifeExp;pop;gdpPercap
0,Afghanistan;Asia;1952;28.801;8425333;779.4453145
1,Afghanistan;Asia;1957;30.332;9240934;820.8530296
2,Afghanistan;Asia;1962;31.997;10267083;853.1007...
3,Afghanistan;Asia;1967;34.02;11537966;836.1971382
4,Afghanistan;Asia;1972;36.088;13079460;739.9811...


In [None]:
# Para descobrir o parâmetro 'on_bad_lines='skip' consultei: 
# https://stackoverflow.com/questions/18039057/python-pandas-error-tokenizing-data

In [10]:
# O conjunto de dados ainda não veio formatado porque nesse arquivo o separador usado é o ';'
# e normalmente usa-se a virgula ','. Vamos rodar novamente e passar o parâmetro sep = ';' que será o novo separador

df = pd.read_csv("/content/drive/MyDrive/DioDataBases-Pandas/Gapminder.csv", on_bad_lines='skip', sep = ';')
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [14]:
# Bingo! Agora a base de dados foi lida corretamente.

# Para alterar o nome das colunas usaremos o método rename()
# Este método recebe como parâmetro o dicionário no formato {"coluna_atual":"coluna_nova", ...}

df = df.rename(columns={"country":"País", "continent":"Continente", "year":"Ano", "lifeExp":"Expec.Vida", "pop":"Populacao", "gdpPercap":"PIB"})


In [15]:
df.head()

Unnamed: 0,País,Continente,Ano,Expec.Vida,Populacao,PIB
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [16]:
# Para saber o total de linhas e colunas do dataframe usamos: df.shape

df.shape

(3312, 6)

In [17]:
# Para saber apenas as colunas ou linhas do dataframe
df.columns

Index(['País', 'Continente', 'Ano', 'Expec.Vida', 'Populacao', 'PIB'], dtype='object')

In [18]:
# Tipo de dados de cada coluna
df.dtypes

País           object
Continente     object
Ano             int64
Expec.Vida    float64
Populacao       int64
PIB           float64
dtype: object

In [19]:
# Para retornar as ultimas linhas do conjunto de dados usamos o tail(). Como o head() 
# é possível especificar o numero de linhas como parâmetro nos parenteses. Por default
# cinco linhas são retornadas.
df.tail()

Unnamed: 0,País,Continente,Ano,Expec.Vida,Populacao,PIB
3307,Zimbabwe,Africa,1987,62.351,9216418,706.157306
3308,Zimbabwe,Africa,1992,60.377,10704340,693.420786
3309,Zimbabwe,Africa,1997,46.809,11404948,792.44996
3310,Zimbabwe,Africa,2002,39.989,11926563,672.038623
3311,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [20]:
# Para retornar inforaçoes estatisticas do dataframe usamos o describe
df.describe()

Unnamed: 0,Ano,Expec.Vida,Populacao,PIB
count,3312.0,3312.0,3312.0,3312.0
mean,1980.30163,65.246871,31614890.0,11317.115805
std,16.927294,11.768412,104119300.0,11369.142739
min,1950.0,23.599,59412.0,241.165876
25%,1967.0,58.3375,2678572.0,2514.625266
50%,1982.0,69.61,7557218.0,7838.505123
75%,1996.0,73.65775,19585220.0,17357.87917
max,2007.0,82.67,1318683000.0,113523.1329


In [21]:
# Para saber quais os valores de uma determinad coluna usamos: def.["nome_da_coluna"].unique()
# Exemplo: Quais os continentes da df
df["Continente"].unique()

array(['Asia', 'Europe', 'Africa', 'Americas', nan, 'FSU', 'Oceania'],
      dtype=object)

In [23]:
# Para recuperar os valores do Continente Oceania usaremos: df.loc(df["Continente"] == "Oceania")
# Vamos criar antes a variável Oceania para receber este result set
Oceania = df.loc[df["Continente"] == "Oceania"]


In [24]:
# Visualizando as cinco primeiras linhas:
Oceania.head()

# Assim, é possível usar o loc para realizar filtragem de dados

Unnamed: 0,País,Continente,Ano,Expec.Vida,Populacao,PIB
975,Fiji,Oceania,1962,56.494,421869,2039.393277
976,Fiji,Oceania,1967,58.607,485000,2170.073285
977,Fiji,Oceania,1972,60.642,544000,2797.759484
978,Fiji,Oceania,1977,62.669,599339,3182.5696
979,Fiji,Oceania,1982,64.683,658906,3209.257468


In [25]:
# Agrupamento de dados com groupby
# Vamos selecionar quantos países em cada continente. Para isso usaremos:
df.groupby("Continente")["País"].nunique()

Continente
Africa      51
Americas    25
Asia        41
Europe      35
FSU          6
Oceania      3
Name: País, dtype: int64

In [26]:
# Pesquisar: Para cada ano qual é a expectativa de vida média.
df.groupby("Ano")["Expec.Vida"].mean()

Ano
1950    62.002568
1951    65.904167
1952    49.206867
1953    66.674563
1954    67.459817
1955    67.806757
1956    67.950637
1957    51.614590
1958    68.815936
1959    68.226579
1960    68.470837
1961    68.862480
1962    54.035234
1963    69.595735
1964    70.063105
1965    70.259881
1966    70.447526
1967    56.263629
1968    70.689081
1969    70.653896
1970    70.961141
1971    71.103976
1972    58.474481
1973    71.500338
1974    71.778504
1975    71.939218
1976    72.158050
1977    60.429090
1978    72.717567
1979    73.018717
1980    73.064524
1981    73.337399
1982    62.365871
1983    73.787778
1984    74.100741
1985    74.112222
1986    74.452222
1987    63.984860
1988    74.760000
1989    74.924444
1990    74.283438
1991    74.374848
1992    65.008443
1993    74.324545
1994    74.456667
1995    74.552727
1996    75.029394
1997    65.873799
1998    75.569697
1999    75.703636
2000    76.026364
2001    76.257879
2002    66.835695
2003    76.586667
2004    76.921562
2005  

In [28]:
# A mesma pesquisa, agora para cada continente:
df.groupby("Continente")["Expec.Vida"].mean()

Continente
Africa      48.518682
Americas    65.789711
Asia        62.242752
Europe      72.721644
FSU         68.800279
Oceania     70.396622
Name: Expec.Vida, dtype: float64