# **Aula 01 - Criando Objetos com Pandas (DataFrame e Series)**

# Importação da Biblioteca

In [2]:
import pandas as pd

Series é um array rotulado unidimensional capaz de conter qualquer tipo de dados (inteiros, strings, números de ponto flutuante, objetos Python, etc.). Os rótulos dos eixos são chamados coletivamente de índice.

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

In [3]:
series = pd.Series([1,2,3,4,5,6,7,8,9])
series

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

In [4]:
series_2 = pd.Series({'a': 1, 'b': 2, 'c': 3})
series_2

a    1
b    2
c    3
dtype: int64

DataFrame é uma estrutura de dados tabulares bidimensionais, mutáveis ​​em tamanho e potencialmente heterogêneos.

A estrutura de dados também contém eixos rotulados (linhas e colunas).

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

In [5]:
dicionario_um = {'Nome': ['Pedro', 'Ana', 'Karina', 'Patricia', 'Carlos', 'Felipe', 'José', 'Gustavo', 'Fernando'],
                 'Idade': [20, 21, 19, 18, 23, 21, 27, 30, 22]
                 }

In [6]:
dataframe = pd.DataFrame(dicionario_um)
dataframe.head(3)

Unnamed: 0,Nome,Idade
0,Pedro,20
1,Ana,21
2,Karina,19


In [7]:
lista = [['Pedro', 20], 
         ['Ana', 21],
         ['Karina', 19],
         ['Patricia', 18],
         ['Carlos', 23],
         ['Felipe', 21],
         ['José', 27],
         ['Gustavo', 30],
         ['Fernando', 22]
        ]

dataframe_lista = pd.DataFrame(lista)
dataframe_lista.head()

Unnamed: 0,0,1
0,Pedro,20
1,Ana,21
2,Karina,19
3,Patricia,18
4,Carlos,23



# **Aula 02 - Funções do Pandas - Parte I**

**Funções**
* **head**: Retorna as 5 primeiras linhas.
* **columns**: Os rótulos de coluna do DataFrame.
* **rename**: Altere os rótulos dos eixos.
* **index**: Obtém os índices (rótulos de linha) do DataFrame.
* **dtypes**: Retorna os tipos de dados presentes no DataFrame.
* **shape**: Retorna uma tupla representando a dimensionalidade do DataFrame.
* **info**: Imprime um resumo conciso de um DataFrame.
* **values**: Retorne uma representação Numpy do DataFrame.

In [8]:
dicionario = {'Nome': ['Pedro', 'Ana', 'Karina', 'Patricia', 'Carlos', 'Felipe', 'José', 'Gustavo', 'Fernando'],
              'Idade': [20, 21, 19, 18, 23, 21, 27, 30, 22]
                 }
df = pd.DataFrame(dicionario)

In [9]:
df.head()

Unnamed: 0,Nome,Idade
0,Pedro,20
1,Ana,21
2,Karina,19
3,Patricia,18
4,Carlos,23


In [10]:
df.columns

Index(['Nome', 'Idade'], dtype='object')

In [11]:
df.rename(columns={'Nome': 'Nome Completo'}, inplace=True)

In [12]:
df.head()

Unnamed: 0,Nome Completo,Idade
0,Pedro,20
1,Ana,21
2,Karina,19
3,Patricia,18
4,Carlos,23


In [13]:
df.rename(index={0: 'x', 1: 'y', 2: 'z'}, inplace=True)
df.head()

Unnamed: 0,Nome Completo,Idade
x,Pedro,20
y,Ana,21
z,Karina,19
3,Patricia,18
4,Carlos,23


In [14]:
df.rename(str.lower, axis='columns', inplace=True)
df.head()

Unnamed: 0,nome completo,idade
x,Pedro,20
y,Ana,21
z,Karina,19
3,Patricia,18
4,Carlos,23


In [15]:
df.index

Index(['x', 'y', 'z', 3, 4, 5, 6, 7, 8], dtype='object')

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, x to 8
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   nome completo  9 non-null      object
 1   idade          9 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 216.0+ bytes


In [17]:
df.values

array([['Pedro', 20],
       ['Ana', 21],
       ['Karina', 19],
       ['Patricia', 18],
       ['Carlos', 23],
       ['Felipe', 21],
       ['José', 27],
       ['Gustavo', 30],
       ['Fernando', 22]], dtype=object)

# **Aula 03 - Funções do Pandas - Parte II**

**Funções**
* **reset_index**: Redefina os índices.
* **select_dtypes**: Retorna um subconjunto das colunas do DataFrame com base nos tipos de coluna.
* **drop**: Remove linhas ou colunas.
* **assign**: Atribue novas colunas a um DataFrame.
* **astype**: Converta um objeto pandas para um tipo especificado.
* **value_counts**: Retorna uma série contendo contagens de linhas exclusivas no DataFrame.

In [18]:
dicionario = {'Nome': ['Pedro', 'Ana', 'Karina', 'Patricia', 'Carlos', 'Felipe', 'José', 'Gustavo', 'Fernando'],
              'Idade': [20, 21, 19, 18, 23, 21, 27, 30, 22]
                 }
df = pd.DataFrame(dicionario)

In [20]:
df.rename(index={0: 'x', 1: 'y', 2: 'z'}, inplace=True)
df

Unnamed: 0,Nome,Idade
x,Pedro,20
y,Ana,21
z,Karina,19
3,Patricia,18
4,Carlos,23
5,Felipe,21
6,José,27
7,Gustavo,30
8,Fernando,22


In [21]:
df.reset_index(inplace=True, drop=True)
df.head()

Unnamed: 0,Nome,Idade
0,Pedro,20
1,Ana,21
2,Karina,19
3,Patricia,18
4,Carlos,23


In [22]:
df.dtypes

Nome     object
Idade     int64
dtype: object

In [23]:
df['Idade'] = df['Idade'].astype(float)
df

Unnamed: 0,Nome,Idade
0,Pedro,20.0
1,Ana,21.0
2,Karina,19.0
3,Patricia,18.0
4,Carlos,23.0
5,Felipe,21.0
6,José,27.0
7,Gustavo,30.0
8,Fernando,22.0


In [24]:
df['Idade'].value_counts()

21.0    2
20.0    1
19.0    1
18.0    1
23.0    1
27.0    1
30.0    1
22.0    1
Name: Idade, dtype: int64

In [28]:
df = df.assign(Nova_Idade=df['Idade'] * 2)
df

Unnamed: 0,Nome,Idade,Nova_Idade
0,Pedro,20.0,40.0
1,Ana,21.0,42.0
2,Karina,19.0,38.0
3,Patricia,18.0,36.0
4,Carlos,23.0,46.0
5,Felipe,21.0,42.0
6,José,27.0,54.0
7,Gustavo,30.0,60.0
8,Fernando,22.0,44.0


In [29]:
df['x'] = df['Nova_Idade'] - 20
df

Unnamed: 0,Nome,Idade,Nova_Idade,x
0,Pedro,20.0,40.0,20.0
1,Ana,21.0,42.0,22.0
2,Karina,19.0,38.0,18.0
3,Patricia,18.0,36.0,16.0
4,Carlos,23.0,46.0,26.0
5,Felipe,21.0,42.0,22.0
6,José,27.0,54.0,34.0
7,Gustavo,30.0,60.0,40.0
8,Fernando,22.0,44.0,24.0


In [30]:
df.select_dtypes(include='number')

Unnamed: 0,Idade,Nova_Idade,x
0,20.0,40.0,20.0
1,21.0,42.0,22.0
2,19.0,38.0,18.0
3,18.0,36.0,16.0
4,23.0,46.0,26.0
5,21.0,42.0,22.0
6,27.0,54.0,34.0
7,30.0,60.0,40.0
8,22.0,44.0,24.0


In [32]:
df.select_dtypes(include='object').columns

Index(['Nome'], dtype='object')

In [33]:
df.drop(['Nova_Idade', 'x'], inplace=True, axis=1 ) ## excluir coluna

In [34]:
df

Unnamed: 0,Nome,Idade
0,Pedro,20.0
1,Ana,21.0
2,Karina,19.0
3,Patricia,18.0
4,Carlos,23.0
5,Felipe,21.0
6,José,27.0
7,Gustavo,30.0
8,Fernando,22.0


In [35]:
df.drop([2, 3], inplace=True, axis=0) ## excluir linha

In [36]:
df

Unnamed: 0,Nome,Idade
0,Pedro,20.0
1,Ana,21.0
4,Carlos,23.0
5,Felipe,21.0
6,José,27.0
7,Gustavo,30.0
8,Fernando,22.0


In [37]:
df.reset_index(inplace=True, drop=True)

In [38]:
df

Unnamed: 0,Nome,Idade
0,Pedro,20.0
1,Ana,21.0
2,Carlos,23.0
3,Felipe,21.0
4,José,27.0
5,Gustavo,30.0
6,Fernando,22.0


# **Aula 04 - Importar e Exportar Arquivos com Pandas**

from google.colab import drive
drive.mount('/content/drive)

# **Aula 05 - Indexação e Seleção de Dados**

In [None]:
### Acessando dados de um df
# df[['Colunas']][linha ou linhas]

**loc[linhas, colunas]**: é o método de seleção de dados baseado em rótulo, o que significa que temos que passar o nome da coluna ou o número da linha que queremos selecionar.

df.loc[:, :]<br>
df.loc[5, ['ano', 'rede']]<br>
df.loc[2:5]<br>
df.loc[df['ano'] == 2011]<br>
df.loc[(df['ano'] == 2011) & (df['rede'] == 'publica')]<br>
df.loc[(df['ano'] == 2011) | (df['rede'] == 'publica')]

**iloc[linhas, colunas]**: é um método de seleção baseado em indexação, o que significa que temos que passar um índice inteiro no método para selecionar uma linha ou coluna específica. 

df.iloc[:, :]<br>
df.iloc[0:5, 0]

**groupby**

Uma operação groupby envolve alguma combinação de dividir o objeto, aplicar uma função e combinar os resultados. Isso pode ser usado para agrupar grandes quantidades de dados e computar operações em grupos.

df.groupby(['rede'])[['ideb']].mean()<br>
df.groupby(['rede', 'ensino'])[['ideb']].sum()

**sort_values**

Classifique pelos valores ao longo de qualquer eixo.

df_new.sort_values(['ideb'], ascending=True, inplace=True)

A função **concat()** faz todo o trabalho pesado de realizar operações de concatenação ao longo de um eixo enquanto executa a lógica de conjunto opcional (união ou interseção) dos índices (se houver) nos outros eixos.


<img  align="left" src="https://pandas.pydata.org/docs/_images/merging_concat_basic.png">

In [39]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)


df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)

In [40]:
df1.head()

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [41]:
df2.head()

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [42]:
df1.shape

(4, 4)

In [44]:
result = pd.concat([df1, df2])

result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


**Definir lógica dos eixos**

Ao combinar vários DataFrames, você tem a opção de como lidar com outros eixos (além do que está sendo concatenado). Isso pode ser feito das duas maneiras a seguir:

Leve a união de todos eles, join='outer'. Esta é a opção padrão, pois resulta em perda zero de informações.

<div>
<img  align="left" src="https://pandas.pydata.org/docs/_images/merging_concat_axis1.png">
</div>



Pegue o cruzamento, join='inner'.

<div>
<img  align="left" src="https://pandas.pydata.org/docs/_images/merging_concat_axis1_inner.png">
</div>

In [45]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)

df4 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

In [46]:
result = pd.concat([df1, df4], axis=1, join='outer')

result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [47]:
result = pd.concat([df1, df4], axis=1, join="inner")

result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


# **Aula 08 - Substituindo Dados**

A função **replace()** substitui os valores fornecidos.

In [48]:
dicionario = {'Nome': ['Pedro', 'Ana', 'Karina', 'Patricia', 'Carlos', 'Felipe', 'José', 'Gustavo', 'Fernando'],
                 'Idade': [20, 21, 19, 18, 23, 21, 27, 30, 22]
                 }

In [49]:
df = pd.DataFrame(dicionario)

In [50]:
df.head()

Unnamed: 0,Nome,Idade
0,Pedro,20
1,Ana,21
2,Karina,19
3,Patricia,18
4,Carlos,23


In [51]:
df.replace(21, 100, inplace=True)
df.head()

Unnamed: 0,Nome,Idade
0,Pedro,20
1,Ana,100
2,Karina,19
3,Patricia,18
4,Carlos,23


In [52]:
df['Nome'] = df['Nome'].replace('Pedro', 'Larissa')
df.head()

Unnamed: 0,Nome,Idade
0,Larissa,20
1,Ana,100
2,Karina,19
3,Patricia,18
4,Carlos,23


In [53]:
df['Nome'].replace({'Patricia': 'Ana', 'Carlos': 'Felipe'}, inplace=True)
df.head()

Unnamed: 0,Nome,Idade
0,Larissa,20
1,Ana,100
2,Karina,19
3,Ana,18
4,Felipe,23


# **Aula 09 - Gráficos com Pandas**

**Gráfico de dispersão**

Especifique que você deseja um gráfico de dispersão com o argumento kind:
```
kind = 'scatter'
```
df.plot(kind = 'scatter', x = 'ideb', y='taxa_aprovacao');



**Histograma**

Use o argumento kind para especificar que você deseja um histograma:

```
kind = 'hist'
```
df["ideb"].plot(kind = 'hist');


**Gráfico de Barras**

Use o argumento kind para especificar que você deseja um histograma:

```
kind = 'bar' ou 'barh'
```
df.groupby(['rede'])[['ideb']].count().plot(kind='bar');

df.groupby(['rede'])[['ideb']].count().plot(kind='barh');


**Linha**

Use o argumento kind para especificar que você deseja um histograma:



```
kind = 'line'
```

df[['ideb']].plot(kind = 'line');

**BoxPlot**

Use o argumento kind para especificar que você deseja um histograma:


```
kind = 'box'
```

df[['ideb']].plot(kind = 'box');

df[['nota_saeb_matematica', 'nota_saeb_lingua_portuguesa']].plot(kind = 'box');