**Aula de Pandas**

 - Documentação e laboratório no github: [link text](https://github.com/torneseumprogramador/desafio_21_dias_data_science)
---


In [1]:
!python3 --version

Python 3.9.16


In [2]:
!python3 -m pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [4]:
# verifica o servidor corrente
!uname -a

Linux 9a1e3debd7aa 5.10.147+ #1 SMP Sat Dec 10 16:00:40 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux


**Data Frame:** é uma tabela em memória

In [10]:
import pandas as pd

data = [
    {
        'nome': "Narciso",
        'idade': 33,
        'cidade': 'SP'
    },
    {
        'nome': "Iza",
        'idade': 28,
        'cidade': 'MG'
    }
]

df = pd.DataFrame(data)

# print(df)
display(df)

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG


In [13]:
import pandas as pd

data = {
    'nome': ['Narciso', 'Iza', 'Liah', 'Lana'],
    'idade': [33, 28, 0, 9],
    'cidade': ['SP', 'MG', 'ABC', 'ABC'],
}

df = pd.DataFrame(data)

# print(df)
display(df)

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG
2,Liah,0,ABC
3,Lana,9,ABC


In [12]:
print(type(df)) # o tipo da variavel df

<class 'pandas.core.frame.DataFrame'>




Diferença entre .loc e .iloc no pandas

No pandas, .loc e .iloc são utilizados para indexação e seleção de dados em um DataFrame. A principal diferença entre eles é que o .loc utiliza o índice/label das linhas e colunas para fazer a seleção, enquanto o .iloc utiliza os índices numéricos das linhas e colunas.

Mais especificamente:

.loc seleciona dados baseados em labels, permitindo que você selecione linhas e colunas pelo nome. Por exemplo, df.loc[1:3, 'coluna_a'] selecionaria as linhas 1 a 3 da coluna "coluna_a".
.iloc seleciona dados baseados em índices numéricos, permitindo que você selecione linhas e colunas pelos seus números. Por exemplo, df.iloc[1:3, 0] selecionaria as linhas 1 a 3 da primeira coluna.
Em resumo, .loc é usado para selecionar dados com base em rótulos (labels), enquanto .iloc é usado para selecionar dados com base em índices (inteiros).

In [14]:
display( df.loc[0] ) # retorna o primeiro índice da lista

nome      Narciso
idade          33
cidade         SP
Name: 0, dtype: object

In [16]:
item = df.loc[0]
print(type(item)) # tipo do objeto de dentro de um dataframe

<class 'pandas.core.series.Series'>


In [17]:
df.loc[:, ['nome', 'cidade']] # seleciona todas as linhas das colunas listadas

Unnamed: 0,nome,cidade
0,Narciso,SP
1,Iza,MG
2,Liah,ABC
3,Lana,ABC


In [20]:
df.loc[0:2, ['nome', 'idade']] # retorna da linha 0 até a linha 2 de um dataframe, lembrando que linha 0 representa o registro 1

Unnamed: 0,nome,idade
0,Narciso,33
1,Iza,28
2,Liah,0


In [24]:
df.loc[0:2, 'nome']


0    Narciso
1        Iza
2       Liah
Name: nome, dtype: object

In [25]:
print(type(df.loc[0:2, 'nome']))

<class 'pandas.core.series.Series'>




```
<class 'pandas.core.series.Series'> - Representa uma linha ou uma coluna no dataframe
```



In [31]:
df.loc[[0, 2]] # retorna linhas pelo indice da linha no caso 0 = linha 1, 2 = linha 3

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
2,Liah,0,ABC


In [32]:
df.loc[df['idade'] >= 30] # buscando por coluna com valor inteiro

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP


In [35]:
df.loc[(df['idade'] >= 20) & (df['idade'] <= 40)] # buscando por coluna com entre valores inteiros

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG


In [36]:
df.loc[(df['idade'] == 28) | (df['idade'] == 33)] # buscando por coluna com um valor OU outro

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG


In [37]:
df.loc[0:2] # retorns da linha 0 até a linha 2 com todas as colunas

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG
2,Liah,0,ABC


In [38]:
display(df)

# busca valor pela linha e coluna
linha = 0
coluna = "nome"

display("localizei: " + df.loc[linha, coluna])

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
1,Iza,28,MG
2,Liah,0,ABC
3,Lana,9,ABC


'localizei: Narciso'

In [39]:
df.iloc[0, 1] # seleciona a primeira linha e segunda coluna

33

In [40]:
df.iloc[:, [1, 2]] # seleciona as colunas do índice 1 e 2 com todas as linhas

Unnamed: 0,idade,cidade
0,33,SP
1,28,MG
2,0,ABC
3,9,ABC


In [41]:
df.iloc[[0, 2], :] # seleciona as linhas 0,2 com todas as colunas

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
2,Liah,0,ABC


In [42]:
df.iloc[[0, 2]] # seleciona as linhas 0,2 com todas as colunas

Unnamed: 0,nome,idade,cidade
0,Narciso,33,SP
2,Liah,0,ABC


In [50]:
df.iloc[[0, 2], [0,2]] # seleciona as linhas 0,2 com todas as colunas

Unnamed: 0,nome,cidade
0,Narciso,SP
2,Liah,ABC


In [46]:
df.iloc[[0, 2], 0:2] # seleciona as linhas 0,2 com todas as colunas

Unnamed: 0,nome,idade
0,Narciso,33
2,Liah,0


In [51]:
df.iloc[0] # retorno somente da linha 0

nome      Narciso
idade          33
cidade         SP
Name: 0, dtype: object

In [53]:
display( type(df.iloc[0]) )  # mostra o tipo de um registro pandas.core.series.Series

pandas.core.series.Series

In [52]:
display( df.iloc[0]["nome"] )  # mostra o valor por uma coluna de um pandas.core.series.Series

'Narciso'

In [54]:
display( df["nome"] )  # mostra somente uma coluna do meu dataframe

0    Narciso
1        Iza
2       Liah
3       Lana
Name: nome, dtype: object

In [55]:
display( df[["nome", "cidade"]] )  # mostra somente uma coluna do meu dataframe

Unnamed: 0,nome,cidade
0,Narciso,SP
1,Iza,MG
2,Liah,ABC
3,Lana,ABC
