## DataFrames

DataFrames são a estrutura de dados mais amplamente utilizada. Eles são uma tabela, onde cada linha representa uma "coisa" e cada coluna representa uma característica dessa coisa. Em Python, para trabalharmos com dataframes, precisamos importar um pacote chamado `pandas`:

In [2]:
import pandas as pd

### Criando um dataframe a partir de um dicionário

In [3]:
df = pd.DataFrame({'nome': ['Batman','Super Homem','Peter Pan'],
                   'identidade': ['Bruce Wayne', 'Clark Kent','Peter Pan'],
                   'idade': [34, 35, 9],
                   'origem': ['Terra','Kripton','Terra'],
                   'cidade': ['Gotham','Metropolis','Terra do Nunca']})

df

Unnamed: 0,nome,identidade,idade,origem,cidade
0,Batman,Bruce Wayne,34,Terra,Gotham
1,Super Homem,Clark Kent,35,Kripton,Metropolis
2,Peter Pan,Peter Pan,9,Terra,Terra do Nunca


### Criando um dataframe a partir de um arquivo ou link

* `read_csv`
* `read_excel`

In [4]:
mundo = pd.read_csv('https://raw.githubusercontent.com/nickeubank/practicaldatascience/master/Example_Data/world-small.csv')
mundo

Unnamed: 0,country,region,gdppcap08,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0
...,...,...,...,...
140,Venezuela,S. America,12804,16.0
141,Vietnam,Asia-Pacific,2785,3.0
142,Yemen,Middle East,2400,8.0
143,Zambia,Africa,1356,15.0


Às vezes, as colunas não vêm separadas por vírgulas. Neste caso, por exemplo, o separador é um ponto-e-vírgula:

In [5]:
banco = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/bank-full.csv')
banco

Unnamed: 0,"age;""job"";""marital"";""education"";""default"";""housing"";""loan"";""contact"";""month"";""day_of_week"";""duration"";""campaign"";""pdays"";""previous"";""poutcome"";""emp.var.rate"";""cons.price.idx"";""cons.conf.idx"";""euribor3m"";""nr.employed"";""y"""
0,"56;""housemaid"";""married"";""basic.4y"";""no"";""no"";..."
1,"57;""services"";""married"";""high.school"";""unknown..."
2,"37;""services"";""married"";""high.school"";""no"";""ye..."
3,"40;""admin."";""married"";""basic.6y"";""no"";""no"";""no..."
4,"56;""services"";""married"";""high.school"";""no"";""no..."
...,...
41183,"73;""retired"";""married"";""professional.course"";""..."
41184,"46;""blue-collar"";""married"";""professional.cours..."
41185,"56;""retired"";""married"";""university.degree"";""no..."
41186,"44;""technician"";""married"";""professional.course..."


Nesses casos, devemos especificar o separador usando o parâmetro `sep`:

In [6]:
banco = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/bank-full.csv',
                   sep = ';')
banco

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41183,73,retired,married,professional.course,no,yes,no,cellular,nov,fri,...,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes
41184,46,blue-collar,married,professional.course,no,no,no,cellular,nov,fri,...,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41185,56,retired,married,university.degree,no,yes,no,cellular,nov,fri,...,2,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,no
41186,44,technician,married,professional.course,no,no,no,cellular,nov,fri,...,1,999,0,nonexistent,-1.1,94.767,-50.8,1.028,4963.6,yes


### Conhecendo o seu DataFrame
 
* `.head` : ver as primeiras linhas
* `.tail` : ver as últimas linhas
* `.sample` : ver linhas aleatórias
* `.describe` : ver estatísticas descritivas
* `len()` : ver número de linhas
* `.shape` ver número de linhas e colunas
* `.dtypes` : ver os tipos de cada coluna
* `.value_counts` : ver quantas vezes cada valor acontece
* `.info` : ver informações sobre como o dataframe está representado em Python

In [7]:
mundo.head()

Unnamed: 0,country,region,gdppcap08,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0


In [8]:
mundo.tail()

Unnamed: 0,country,region,gdppcap08,polityIV
140,Venezuela,S. America,12804,16.0
141,Vietnam,Asia-Pacific,2785,3.0
142,Yemen,Middle East,2400,8.0
143,Zambia,Africa,1356,15.0
144,Zimbabwe,Africa,188,6.0


In [9]:
mundo.sample(5)

Unnamed: 0,country,region,gdppcap08,polityIV
96,Niger,Africa,684,15.333333
20,Cameroon,Africa,2215,6.0
79,Macedonia,C&E Europe,10041,19.0
40,Eritrea,Africa,632,3.0
122,Swaziland,Africa,4928,1.0


In [10]:
mundo.describe()

Unnamed: 0,gdppcap08,polityIV
count,145.0,145.0
mean,13251.993103,13.407816
std,14802.581676,6.587626
min,188.0,0.0
25%,2153.0,7.666667
50%,7271.0,16.0
75%,19330.0,19.0
max,85868.0,20.0


In [11]:
len(mundo)

145

In [12]:
mundo.shape

(145, 4)

In [13]:
mundo.dtypes

country       object
region        object
gdppcap08      int64
polityIV     float64
dtype: object

In [14]:
mundo.region.value_counts()

Africa          42
C&E Europe      25
Asia-Pacific    24
S. America      19
Middle East     16
W. Europe       12
Scandinavia      4
N. America       3
Name: region, dtype: int64

In [15]:
mundo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 145 entries, 0 to 144
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    145 non-null    object 
 1   region     145 non-null    object 
 2   gdppcap08  145 non-null    int64  
 3   polityIV   145 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.7+ KB


### Selecionando uma coluna

In [16]:
mundo['country']

0        Albania
1        Algeria
2         Angola
3      Argentina
4        Armenia
         ...    
140    Venezuela
141      Vietnam
142        Yemen
143       Zambia
144     Zimbabwe
Name: country, Length: 145, dtype: object

In [17]:
mundo.country

0        Albania
1        Algeria
2         Angola
3      Argentina
4        Armenia
         ...    
140    Venezuela
141      Vietnam
142        Yemen
143       Zambia
144     Zimbabwe
Name: country, Length: 145, dtype: object

### Filtrando um DataFrame

#### Usando número da linha

Usamos o método `.iloc`.

Podemos especificar uma linha e uma coluna...

In [18]:
mundo.iloc[3,0]

'Argentina'

ou várias linhas e várias colunas:

In [19]:
mundo.iloc[0:2, 0:3]

Unnamed: 0,country,region,gdppcap08
0,Albania,C&E Europe,7715
1,Algeria,Africa,8033


Omitir um número significa "desde o início" ou "até o final".  
Omitir os dois significa "desde o início, até o final", ou seja, "tudo":

In [20]:
mundo.iloc[:2, :]

Unnamed: 0,country,region,gdppcap08,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0


Se passamos apenas um par de números, o Python entende que queremos filtrar linhas, e não colunas:

In [21]:
mundo.iloc[:2]

Unnamed: 0,country,region,gdppcap08,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0


#### Usando condições

Usamos o método `.loc`

In [22]:
#Quais países do mundo tinham um pib per capita acima de 40.000 USD/ano em 2008?
mundo.loc[mundo['gdppcap08'] > 40000]

Unnamed: 0,country,region,gdppcap08,polityIV
62,Ireland,W. Europe,44200,20.0
93,Netherlands,W. Europe,40849,20.0
98,Norway,Scandinavia,58138,20.0
107,Qatar,Middle East,85868,0.0
114,Singapore,Asia-Pacific,49284,8.0
124,Switzerland,W. Europe,42536,20.0
137,United States,N. America,46716,20.0


In [None]:
#ou
mundo.loc[mundo.gdppcap08 > 40000]

Observação:

A seleção de uma coluna com colchetes funciona sempre. 
A seleção de uma coluna com pontos nem sempre funciona. Se o nome de uma coluna tem um ponto, um espaço ou um caractere especial, por exemplo, selecionar uma coluna usando um ponto pode dar ruim.

Por isso, _pedagogicamente_, vamos usar a notação anterior.
Mas a seleção com ponto é mais curta e muito utilizada, então pode usar, se quiser. Só saiba que, se der ruim, é para usar a outra notação.

In [37]:
#Quais países do mundo tinham um pib per capita acima de 40.000 USD/ano em 2008 e não eram democracias?
mundo.loc[(mundo['gdppcap08'] > 40000) & (mundo['polityIV'] < 10)]

Unnamed: 0,country,region,gdppcap08,polityIV
107,Qatar,Middle East,85868,0.0
114,Singapore,Asia-Pacific,49284,8.0


In [38]:
#Selecionando colunas
mundo.loc[mundo['country'] == 'Brazil', ['country','gdppcap08']]

Unnamed: 0,country,gdppcap08
16,Brazil,10296


In [39]:
#Quando as colunas são contíguas, dá para abreviar:
mundo.loc[mundo['country'] == 'Brazil', 'country':'gdppcap08']

Unnamed: 0,country,region,gdppcap08
16,Brazil,S. America,10296


### Filtros avançados

In [33]:
flores = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
flores.sample(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
107,7.3,2.9,6.3,1.8,virginica
148,6.2,3.4,5.4,2.3,virginica
141,6.9,3.1,5.1,2.3,virginica
123,6.3,2.7,4.9,1.8,virginica
40,5.0,3.5,1.3,0.3,setosa


In [34]:
flores.loc[:, flores.columns.str.startswith('petal')].head()

Unnamed: 0,petal_length,petal_width
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2


In [35]:
flores.loc[:, flores.columns.str.endswith('length')].head()

Unnamed: 0,sepal_length,petal_length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4


In [36]:
flores.select_dtypes(include=['int','float'])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
