# DataFrame

Um DataFrame é uma estrutura de dados tabular composta de linhas e colunas, similar a uma planilha excel, tabela de conjunto de dados, ou objeto data.frame do R. Podemos também olhar para o DataFrame como um grupo de Series que compartilham um indice.

## Criando DataFrames

Uma forma de criar DataFrame a partir de estruturas de dados python é através de um dicionário de listas (outros modos ver [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)).

In [1]:
# importando pandas
import pandas as pd

data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data)
football

Unnamed: 0,losses,team,wins,year
0,5,Bears,11,2010
1,8,Bears,8,2011
2,6,Bears,10,2012
3,1,Packers,15,2011
4,5,Packers,11,2012
5,10,Lions,6,2010
6,6,Lions,10,2011
7,12,Lions,4,2012


In [2]:
import numpy as np
pd.DataFrame(np.random.randint(low=0, high=10, size=(5, 6)),
             columns=['a', 'b', 'c', 'd', 'e', 'f'])

Unnamed: 0,a,b,c,d,e,f
0,4,4,5,1,2,8
1,9,8,8,2,8,0
2,0,8,1,5,7,7
3,1,2,8,0,1,3
4,3,2,9,2,9,4


In [3]:
pd.DataFrame?

[1;31mInit signature:[0m [0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m([0m[0mdata[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mindex[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mcolumns[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mdtype[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mcopy[0m[1;33m=[0m[1;32mFalse[0m[1;33m)[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Two-dimensional size-mutable, potentially heterogeneous tabular data
structure with labeled axes (rows and columns). Arithmetic operations
align on both row and column labels. Can be thought of as a dict-like
container for Series objects. The primary pandas data structure

Parameters
----------
data : numpy ndarray (structured or homogeneous), dict, or DataFrame
    Dict can contain Series, arrays, constants, or list-like objects
index : Index or array-like
    Index to use for resulting frame. Will default to np.arange(n) if
    no indexing information part of input data and no index provided
columns : Ind

# Lendo Arquivos CSV

Uma forma muito mais comum é de ler um conjunto de dados persistido no disco em algum formato de panilha. Por exemplo, .csv e .xlsx. Felizmente, pandas provê meios de fazer isso de forma muito fácil e intuitiva.

In [4]:
file_path = "../dados/iris-dataset.csv"

df = pd.read_csv(file_path, 
                 header=None,
                 names=['sepal_length', 
                        'sepal_width', 
                        'petal_length', 
                        'petal_width', 
                        'species'])

O arquivo acima contém um conjunto de dados clássico na literatura de aprendizado de máquinas. O conjunto de dados de flores iris.

![iris](img/iris_petal_sepal.png)

O arquivo acima não tem cabeçalho, por causa disso nós passamos None para o argumento header. Por padrão, a primeira linha do csv é considerado o cabeçalho, todavia, é possível alterar esse comportamento através do argumento header.

Por causa da falta de header no arquivo tivemos de adicionar os nomes das colunas manualmente com o argumento names.

Vamos dar uma olhada nos dados, com a função head do `pandas.DataFrame`.

In [5]:
df.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [6]:
df.tail(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## Estatísticas Básicas

Nós conseguimos obter facilmente estatísticas básicas com `pandas.DataFrame` utilizando a função describe.

In [7]:
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Por padrão, a função describe só mostra as estatísticas de colunas numéricas, como pode ser observado no exemplo anterior. Vamos então forçá-la a mostrar as estatísticas da coluna categórica (species).

In [8]:
df.describe(include="all")

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,Iris-setosa
freq,,,,,50
mean,5.843333,3.054,3.758667,1.198667,
std,0.828066,0.433594,1.76442,0.763161,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


### Número de instancias no DataFrame

Pandas DataFrame e Series ambos possuem a atributo shape, igual aos ndarray do numpy, com os quais conseguimos saber quantas linhas e colunas uma tabela tem.

In [9]:
df.shape

(150, 5)

In [10]:
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

## Acessando as colunas

Por padrão, a indexação por colchetes é sobre as colunas em pandas. Por exemplo:

In [11]:
df.sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
5      5.4
6      4.6
7      5.0
8      4.4
9      4.9
10     5.4
11     4.8
12     4.8
13     4.3
14     5.8
15     5.7
16     5.4
17     5.1
18     5.7
19     5.1
20     5.4
21     5.1
22     4.6
23     5.1
24     4.8
25     5.0
26     5.0
27     5.2
28     5.2
29     4.7
      ... 
120    6.9
121    5.6
122    7.7
123    6.3
124    6.7
125    7.2
126    6.2
127    6.1
128    6.4
129    7.2
130    7.4
131    7.9
132    6.4
133    6.3
134    6.1
135    7.7
136    6.3
137    6.4
138    6.0
139    6.9
140    6.7
141    6.9
142    5.8
143    6.8
144    6.7
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

In [12]:
type(df['sepal_length'])

pandas.core.series.Series

## Transformando pd.DataFrame em np.ndarray

In [13]:
df.as_matrix()

array([[5.1, 3.5, 1.4, 0.2, 'Iris-setosa'],
       [4.9, 3.0, 1.4, 0.2, 'Iris-setosa'],
       [4.7, 3.2, 1.3, 0.2, 'Iris-setosa'],
       [4.6, 3.1, 1.5, 0.2, 'Iris-setosa'],
       [5.0, 3.6, 1.4, 0.2, 'Iris-setosa'],
       [5.4, 3.9, 1.7, 0.4, 'Iris-setosa'],
       [4.6, 3.4, 1.4, 0.3, 'Iris-setosa'],
       [5.0, 3.4, 1.5, 0.2, 'Iris-setosa'],
       [4.4, 2.9, 1.4, 0.2, 'Iris-setosa'],
       [4.9, 3.1, 1.5, 0.1, 'Iris-setosa'],
       [5.4, 3.7, 1.5, 0.2, 'Iris-setosa'],
       [4.8, 3.4, 1.6, 0.2, 'Iris-setosa'],
       [4.8, 3.0, 1.4, 0.1, 'Iris-setosa'],
       [4.3, 3.0, 1.1, 0.1, 'Iris-setosa'],
       [5.8, 4.0, 1.2, 0.2, 'Iris-setosa'],
       [5.7, 4.4, 1.5, 0.4, 'Iris-setosa'],
       [5.4, 3.9, 1.3, 0.4, 'Iris-setosa'],
       [5.1, 3.5, 1.4, 0.3, 'Iris-setosa'],
       [5.7, 3.8, 1.7, 0.3, 'Iris-setosa'],
       [5.1, 3.8, 1.5, 0.3, 'Iris-setosa'],
       [5.4, 3.4, 1.7, 0.2, 'Iris-setosa'],
       [5.1, 3.7, 1.5, 0.4, 'Iris-setosa'],
       [4.6, 3.6, 1.0, 0.2, 'Iri

In [14]:
df['species'].as_matrix()

array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versic