In [1]:
from pandas import DataFrame

In [2]:
data = {
    'nome': ['José', 'Maria', 'José Maria', 'Maria José', 'Zwinglio, sempre o último da chamada'],
    'idade': [55, 27, 175, None, 45],
    'email': ['jose@email.com.br', 'maria@email.com.br', None, None, "zwing@email.net.br"]
}

In [3]:
df = DataFrame(data)

df

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


 ------------------
 
 A documentação para o método construtor `DataFrame` é bem extensa (vale dar uma olhada, fica a dica). Por uma questão de foco desse momento, selecionei aqui só o trecho que explica os parâmetros do construtor...
 
 ------------------
 ```python
 DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
  
"""Two-dimensional, size-mutable, potentially heterogeneous tabular data.
  
  Data structure also contains labeled axes (rows and columns).
  Arithmetic operations align on both row and column labels. Can be
  thought of as a dict-like container for Series objects. The primary
  pandas data structure.
  
  Parameters
  ----------
  data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame
      Dict can contain Series, arrays, constants, dataclass or list-like objects. If
      data is a dict, column order follows insertion-order.
  
      .. versionchanged:: 0.25.0
         If data is a list of dicts, column order follows insertion-order.
  
  index : Index or array-like
      Index to use for resulting frame. Will default to RangeIndex if
      no indexing information part of input data and no index provided.
  columns : Index or array-like
      Column labels to use for resulting frame. Will default to
      RangeIndex (0, 1, 2, ..., n) if no column labels are provided.
  dtype : dtype, default None
      Data type to force. Only a single dtype is allowed. If None, infer.
  copy : bool, default False
      Copy data from inputs. Only affects DataFrame / 2d ndarray input.
      
  See Also
  --------
  DataFrame.from_records : Constructor from tuples, also record arrays.
  DataFrame.from_dict : From dicts of Series, arrays, or dicts.
  read_csv : Read a comma-separated values (csv) file into DataFrame.
  read_table : Read general delimited file into DataFrame.
  read_clipboard : Read text from clipboard into DataFrame."""

```

In [4]:
df.copy

<bound method NDFrame.copy of                                    nome  idade               email
0                                  José   55.0   jose@email.com.br
1                                 Maria   27.0  maria@email.com.br
2                            José Maria  175.0                None
3                            Maria José    NaN                None
4  Zwinglio, sempre o último da chamada   45.0  zwing@email.net.br>

-------
Observem como começa a primeira linha do output

`<bound method...`, lembrando que *método* é o nome que damos para funções quando essas estão restritas a uma classe específica

Daí, juntando com a explicação dada na *docstring* do construtor, vemos que `DataFrame.copy()` é um método que pode já ser aplicado na construção do DataFrame

In [5]:
df.dtypes

nome      object
idade    float64
email     object
dtype: object

In [6]:
type(df.dtypes)

pandas.core.series.Series

In [7]:
df

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [8]:
df_dtype_int = DataFrame(data, dtype=int)

df_dtype_int

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [9]:
df_dtype_int.dtypes

nome     object
idade    object
email    object
dtype: object

In [10]:
df_dtype_float = DataFrame(data, dtype=float)

df_dtype_float

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [11]:
df.columns

Index(['nome', 'idade', 'email'], dtype='object')

----
Aqui voltamos à ideia de que DataFrames são como Series de outras Series.

Pensando dessa forma, é como se o DataFrame tivesse um `Series.index` com o nome `columns`, onde cada entrada desse índice fosse uma `Series` onde o atributo `.name` dessa `Series` é o nome da respectiva coluna do `DataFrame`.

Pensando assim, o que esperamos que deveria acontecer se executarmos
```python
df['idade']
```
```python
type(df['idade'])
```
?

In [12]:
df['idade']

0     55.0
1     27.0
2    175.0
3      NaN
4     45.0
Name: idade, dtype: float64

In [13]:
type(df['idade'])

pandas.core.series.Series

---
O construtor `DataFrame()` possui um parâmetro columns. Da *docstring*...
```
columns : Index or array-like
     Column labels to use for resulting frame. Will default to
     RangeIndex (0, 1, 2, ..., n) if no column labels are provided.
```

Ainda mantendo em mente essa relação entre `DataFrame`e `Series`, o que esperamos ao executar

```python
DataFrame(data, columns=['x', 'x', 'y'])
```
?

In [15]:
DataFrame(data, columns=['x', 'x', 'y'])

Unnamed: 0,x,x.1,y


In [18]:
DataFrame(data, columns=['idade', 'nome', 'email', 'nome'])

Unnamed: 0,idade,nome,email,nome.1
0,55.0,José,jose@email.com.br,José
1,27.0,Maria,maria@email.com.br,Maria
2,175.0,José Maria,,José Maria
3,,Maria José,,Maria José
4,45.0,"Zwinglio, sempre o último da chamada",zwing@email.net.br,"Zwinglio, sempre o último da chamada"


In [19]:
DataFrame(df, columns=['x', 'x', 'nome'])

Unnamed: 0,x,x.1,nome
0,,,José
1,,,Maria
2,,,José Maria
3,,,Maria José
4,,,"Zwinglio, sempre o último da chamada"


In [20]:
DataFrame(df, columns=['x', 'x', 'nome']).dtypes

x       float64
x       float64
nome     object
dtype: object

In [21]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [22]:
df['nome'].index

RangeIndex(start=0, stop=5, step=1)

In [28]:
DataFrame(data, index=data['nome'], columns=['idade', 'email'])

Unnamed: 0,idade,email
José,55.0,jose@email.com.br
Maria,27.0,maria@email.com.br
José Maria,175.0,
Maria José,,
"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [29]:
df

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [31]:
df['nome'][2]

'José Maria'

In [32]:
df['nome'][2] = 'José Maria Eça de Queiroz'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['nome'][2] = 'José Maria Eça de Queiroz'


Pergunta:

Se tentarmos acessar df agora, qual o valor que aparecerá no índice 2 da coluna nome? José Maria ou José Maria Eça de Queiroz?

In [33]:
df

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
1,Maria,27.0,maria@email.com.br
2,José Maria Eça de Queiroz,175.0,
3,Maria José,,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


Infelizmente, só acessando o valor e olhando pra ele pra saber qual das 2 opções.

A questão aqui é falta de consistência no método que atribui valores. Vai depender da versão da lib, de views que eventualmente foram geradas ao longo do processo python atual. Enfim, o ponto é que a analogia com a lista de listas ainda pode ser útil para acessar e avaliar valores, mas não para atribuições ou alterações em valores.

Para esses casos teremos outras opções. Em particular, o recomendado é acessar elementos sempre utilizando os métodos `.loc`e `.iloc`

In [34]:
type(df.loc)

pandas.core.indexing._LocIndexer

In [35]:
dir(df.loc)

['__annotations__',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_convert_to_indexer',
 '_convert_tuple',
 '_docstring_components',
 '_ensure_listlike_indexer',
 '_get_label',
 '_get_listlike_indexer',
 '_get_setitem_indexer',
 '_get_slice_axis',
 '_getbool_axis',
 '_getitem_axis',
 '_getitem_iterable',
 '_getitem_lowerdim',
 '_getitem_nested_tuple',
 '_getitem_tuple',
 '_getitem_tuple_same_dim',
 '_handle_lowerdim_multi_index_axis0',
 '_has_valid_setitem_indexer',
 '_has_valid_tuple',
 '_is_nested_tuple_indexer',
 '_is_scalar_access',
 '_multi_take',
 '_multi_take_opportunity',
 '_ndim',
 '_takeable',
 

In [36]:
df.loc[4]

nome     Zwinglio, sempre o último da chamada
idade                                    45.0
email                      zwing@email.net.br
Name: 4, dtype: object

`DataFrame.loc[]` acessa índices por labels, não por índices numéricos.

O exemplo acima funcionou pois, nesse caso, os labels **são** numéricos

In [37]:
df_str_index = DataFrame(data, columns=['idade', 'email'], index=df['nome'])

df_str_index

Unnamed: 0_level_0,idade,email
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
José,55.0,jose@email.com.br
Maria,27.0,maria@email.com.br
José Maria Eça de Queiroz,175.0,
Maria José,,
"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [38]:
df_str_index.loc['Zwinglio, sempre o último da chamada']

idade                  45.0
email    zwing@email.net.br
Name: Zwinglio, sempre o último da chamada, dtype: object

In [39]:
df_str_index.loc[4]

KeyError: 4

In [40]:
df.loc[ [True, False, True, False, True] ]

Unnamed: 0,nome,idade,email
0,José,55.0,jose@email.com.br
2,José Maria Eça de Queiroz,175.0,
4,"Zwinglio, sempre o último da chamada",45.0,zwing@email.net.br


In [41]:
indices_to_keep = [1,3]
df.loc[ indices_to_keep ]

Unnamed: 0,nome,idade,email
1,Maria,27.0,maria@email.com.br
3,Maria José,,


In [42]:
df.loc[ 1:3 ]

Unnamed: 0,nome,idade,email
1,Maria,27.0,maria@email.com.br
2,José Maria Eça de Queiroz,175.0,
3,Maria José,,


**ATENÇÃO**

Diferente de slices de listas, slices de `Series` e `DataFrames` são inclusivos!

Além disso...

In [44]:
df_str_index.loc['Maria':'Maria José']

Unnamed: 0_level_0,idade,email
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Maria,27.0,maria@email.com.br
Maria José,,


In [46]:
df_str_index.loc[ ['Maria', 'Maria José'] ]

nome
Maria         27.0
Maria José     NaN
Name: idade, dtype: float64

In [47]:
indices_to_keep = [2,4]
columns_to_keep = ['nome', 'idade']

df.loc[indices_to_keep, columns_to_keep] # df.loc[[2,4], ['nome', 'idade']]

Unnamed: 0,nome,idade
2,José Maria Eça de Queiroz,175.0
4,"Zwinglio, sempre o último da chamada",45.0


In [None]:
df.loc[ df.isna()['email'], ['nome', 'idade'] ]

In [None]:
df.isna()['email']

# Exercício

Vou passar um arquivo contendo dados tabelados. Tentem descobrir como produzir um DataFrame a partir dos arquivos dados.

Algumas orientações e dicas:
 - Vou passar mais de um arquivo. Vai tudo estar compactado junto. Um dos arquivos será um README.md, esse é o arquivo que explica o que está onde.
 - O construtor `DataFrame()` é uma péssima ideia pra realizar a tarefa.
 - Você vai querer ter o notebook e o arquivo com os dados na mesma pasta.
 - Esse notebook tem algum tipo de dica de método ou função que pode ser usado.
 - Lembrem-se de usar o `help()`.
 - Documentação online pode facilitar a leitura (https://pandas.pydata.org/docs/).
 - Outros recursos online também podem ajudar.
 - Algumas das dificuldades podem ser ignoradas em vez de resolvidas.
 - Não sofram! Se tiver dificuldade e não estiver conseguindo resolver nem ignorar, me procure. Pode trazer a dificuldade na próxima aula também.
 