<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : Pandas - Dataframes.

## DataFrame

<a id="section_intro"></a> 
###  Intro

Os [`DataFrames`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) do Pandas são compostos de linhas e colunas que podem ter nomes de cabeçalho. As colunas nos dataframes do Pandas podem ser de diferentes tipos, por exemplo, a primeira coluna contendo inteiros e a segunda coluna contendo strings de texto. Cada valor em um [`dataFrame`](https://medium.com/@Cambridge_Spark/data-processing-with-pandas-dataframe-420e7963600e) do pandas é referido como uma célula, que possui um índice de linha e um índice de coluna específicos dentro da estrutura tabular.

Um [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html) é um objeto python que abrica dados tabulares bidimensionais, com tamanho mutável e potencialmente heterogêneos.

Ele Representa uma estrutura de dados **tabular** que contém uma coleção de colunas, cada uma com um tipo de dados específico (número, string, booleano etc.). Podemos pensar em um objeto [`DataFrame`](https://realpython.com/pandas-dataframe/) como um dicionário de` Series` "alinhado" (compartilhando o mesmo índice).

Uma instância de [`DataFrame`](https://www.earthdatascience.org/courses/intro-to-earth-data-science/scientific-data-structures-python/pandas-dataframes/) tem **índices de coluna e linha**.


<img src='img/Matriz2.png' align='center' width=30%/>

### `DataFrame` como um dicionário de `Series` "alineadas"

Um `DataFrame` é um tipo de dados análogo a` Series` em duas dimensões.

Como exemplo, vamos gerar um DataFrame com dados de área e população para diferentes estados combinando duas séries.

1) Geramos um objeto `Series` com a área de alguns estados de um dicionário:

In [1]:
import pandas as pd
import numpy as np

In [2]:
area_dict = {'California' : 423967, 
             'Texas' : 695662, 
             'New York' : 141297,
             'Florida' : 170312, 
             'Illinois' : 149995
            }

area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

2) Vamos gerar um objeto `Series` com a população de alguns estados das listas:

In [3]:
states_list = ['Illinois', 
               'Texas', 
               'New York', 
               'Florida', 
               'California'
              ]

states_pop = [12882135,
              26448193, 
              19651127, 
              19552860, 
              38332521
             ]

population = pd.Series(states_pop, 
                       index = states_list
                      )

population

Illinois      12882135
Texas         26448193
New York      19651127
Florida       19552860
California    38332521
dtype: int64

Geramos um objeto `DataFrame` a partir dos dois objetos` Series` gerados nos pontos anteriores:

In [4]:
states = pd.DataFrame({'population': population,
                       'area': area
                      }
                     )
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


Como com as `Series`, um `DataFrame` tem um atributo de índice:

In [5]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

Além disso, possui um atributo de colunas, que é um objeto do tipo Índice contendo os rótulos das colunas:

In [6]:
states.columns

Index(['population', 'area'], dtype='object')

Você pode ver que os nomes de linha e de coluna são objetos do tipo `Índice`.

### DataFrame como un dicionário especializado

Da mesma forma, podemos pensar em uma instância de `DataFrame` como um dicionário:
    
- Um dicionário mapeia uma chave para um valor.
- Um `DataFrame` mapeia um nome de coluna para uma` Série` de dados.
    
Por exemplo, se solicitarmos o atributo `area` do` DataFrame` `states` retorna uma instância de `Series`.

In [7]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [8]:
states.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [9]:
print(type(states['area']))
print(type(states.area))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [10]:
states['area'] is states.area

True

In [11]:
states['area'] == states.area

California    True
Florida       True
Illinois      True
New York      True
Texas         True
Name: area, dtype: bool

- Qual é a diferença entre == e is?

## Construtor

### Construir um [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) a partir de uma instancia de `Series`:

In [12]:
pd.DataFrame(
    population,
    columns = ['population'],
    )

Unnamed: 0,population
Illinois,12882135
Texas,26448193
New York,19651127
Florida,19552860
California,38332521


<a id="section_constructor_from_dicts"></a> 
### A partir de uma lista de `dicts`

In [13]:
dict_0 = {'a' : 0, 'b' : 0}
dict_1 = {'a' : 1, 'b' : 2}
dict_2 = {'a' : 2, 'b' : 4}

data = [dict_0, dict_1, dict_2]

pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Outra maneira de construir o mesmo, usando [listas de compreensão](https://realpython.com/list-comprehension-python/):

In [14]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]

print(data)

pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Mesmo que alguma chave não tenha um valor associado a ela no dicionário, o Pandas preenche o valor com `NaN`:

In [15]:
pd.DataFrame([{'a' : 1, 'b' : 2}, 
              {'b' : 3, 'c' : 4}]
            )

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


### A partir de um arranjo `Numpy` de duas dimensões:

In [16]:
array_2d = np.random.rand(3, 2)

print(array_2d)

columns_names = ['foo', 'bar']
rows_names = ['a', 'b', 'c']

pd.DataFrame(array_2d, 
             columns = columns_names, 
             index = rows_names
            )

[[0.98130382 0.46829414]
 [0.79760652 0.06061208]
 [0.28777203 0.99786515]]


Unnamed: 0,foo,bar
a,0.981304,0.468294
b,0.797607,0.060612
c,0.287772,0.997865


## Seleção de dados em um `DataFrame`

Vamos agora ver diferentes maneiras de selecionar elementos em instâncias de `DataFrame`. Vamos começar criando o objeto `data`:

In [17]:
area = pd.Series({'California' : 423967, 
                  'Texas' : 695662,
                  'New York' : 141297, 
                  'Florida' : 170312,
                  'Illinois' : 149995
                 }
                )

pop = pd.Series({'California' : 38332521, 
                 'Texas' : 26448193,
                 'New York' : 19651127, 
                 'Florida' : 19552860,
                 'Illinois' : 12882135
                }
               )

data = pd.DataFrame({'area' : area, 'pop' : pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


### Os primeiros $n$ elementos e os últimos $n$ elementos

Os primeiros $n$ elementos de um `DataFrame` podem ser acessados com o método [`df.head(n)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html). Da mesma forma, o método [`df.tail(n)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) pode ser aplicado para acessar os últimos elementos do `DataFrame`:

In [18]:
data.head(2)

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [19]:
data.tail(3)

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


### Amostra aleatória de $n$ elementos

Com o método [`df.sample(n)`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.sample.html), obtemos uma amostra aleatória de $n$ elementos:

In [20]:
data.sample(2)

Unnamed: 0,area,pop
New York,141297,19651127
Illinois,149995,12882135


### Columas
    
Podemos acessar as séries individuais que compõem as colunas do `DataFrame` análogas a um dicionário de várias maneiras:

- Por meio do nome da coluna:

In [21]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Como atributo:

In [22]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Ambas as formas são equivalentes:

In [23]:
data['area'] is data.area

True

O atributo `values` retorna os valores de todos os elementos que compõem o objeto` DataFrame` como um objeto `numpy.ndarray`:

In [24]:
data.values

array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]])

### Indexação

Vamos indexar um objeto `DataFrame` com dois índices, um para as linhas e outro para as colunas. As formas de indexação que vimos em arranjos e em séries também funcionam para dataframes.

Vamos lembrar quais são:

####  loc iloc

In [25]:
data.iloc[ : 3, : 2 ]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [26]:
data.loc[ : 'Illinois', : 'pop' ]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


####  Boolean masking

In [27]:
data.loc[data.area > 423000, :]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


####  Fancy indexing

In [28]:
data.loc[ : , [ 'pop', 'area' ] ]

Unnamed: 0,pop,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


####  Combinando boolean masking e fancy indexing

In [29]:
data.loc[ data.area > 423000, [ 'pop', 'area' ] ]

Unnamed: 0,pop,area
California,38332521,423967
Texas,26448193,695662


#### Algunas convenciones adicionales para indexar

Até agora vimos como indexar um objeto `DataFrame` com um índice em linhas e outro em colunas. Também podemos indexá-los usando apenas um índice que é interpretado de acordo com o detalhe que vemos abaixo.

Em geral, "fancy indexing" se refere a colunas, enquanto "fatiamento" (slicing) se refere a linhas:

In [30]:
data[['area', 'area']]

Unnamed: 0,area,area.1
California,423967,423967
Texas,695662,695662
New York,141297,141297
Florida,170312,170312
Illinois,149995,149995


In [31]:
data['Florida' : 'Illinois']

Unnamed: 0,area,pop
Florida,170312,19552860
Illinois,149995,12882135


O fatiamento (slicing) pode referir-se a linhas por posição, em vez de índices:

In [32]:
data[1 : 3]

Unnamed: 0,area,pop
Texas,695662,26448193
New York,141297,19651127


O mascaramento booleano (Boolean masking) é interpretado por padrão nas linhas:

In [33]:
data[data.area > 423000]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


### Modificação de valores

Podemos criar uma nova coluna em um objeto `DataFrame` como o resultado de uma operação em outros elementos do objeto:

In [34]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Qualquer uma das formas de indexação que vimos pode ser usada para atribuir ou modificar valores:

In [35]:
data.iloc[0 , 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
