## Instalação de Dependências

O código abaixo instala as bibliotecas [pandas](https://pandas.pydata.org/) e [gdown](https://pypi.org/project/gdown/) na sua máquina. O `gdown` é opcional e serve somente para baixar o dataset do google drive para seu diretório local. 

In [24]:
!pip install pandas gdown

Defaulting to user installation because normal site-packages is not writeable


## Importações

Nesse exemplo, usaremos apenas a biblioteca **pandas**. No código, é muito comum que precisemos digitar repetidamente a palavra `pandas` para acessar alguma função. Por exemplo:

```python
    pandas.read_csv('my_dataset.csv')
    pandas.pd.DataFrame(data)
    pd.to_csv('processed_data.csv')
```

Então, costuma-se abreviar `pandas` por `pd` no ato da importação

In [22]:
import pandas as pd

## Baixando Dataset

O dataset desse notebook está guardado num diretório do Google Drive. Para baixá-lo, execute a célula abaixo

In [27]:
import gdown
url = 'https://drive.google.com/uc?id=1ZfQJJTPNv2cY_cWKTnNbYW511l0oStJy'
save_path = 'SISU_USP_2022.csv'

# baixa o dataset em seu diretório local
try:
    print('Baixando dataset do Google Drive...')
    gdown.download(url, save_path, quiet=False)
    print('sucesso!')
except Exception as error:
    print(f'Erro ao baixar dataset\n{error}')

Baixando dataset do Google Drive...


Downloading...
From: https://drive.google.com/uc?id=1ZfQJJTPNv2cY_cWKTnNbYW511l0oStJy
To: /home/henrique/Projetos/Python/thm-ai-crash-course/content/pandas_basics/SISU_USP_2022.csv
100%|██████████| 10.1M/10.1M [00:02<00:00, 3.45MB/s]

sucesso!





## Carregamento do Dataset

Nesse exemplo, trabalhamos com o dataset do [Relatório SISU - Chamada Regular 1/2022](https://dadosabertos.mec.gov.br/sisu), especificamente para a Universidade de São Paulo (USP).

Inicialmente, precisamos carregar o dataset no notebook. Para isso, usamos a função `read_csv()` do pandas. Você deve passar como argumento o caminho do dataset. No nosso caso, ele está no mesmo diretório que o notebook. Então, basta apenas informar o nome do arquivo `'SISU_USP_2022.csv'`. Por exemplo:

```python
    dataframe = pd.read_csv('SISU_USP_2022.csv')
```

In [41]:
dataframe = pd.read_csv('SISU_USP_2022.csv')

O resultado dessa operação nada mais é que um dataframe do pandas, um objeto da biblioteca que representa um dataset. Tradicionalmente, abrevia-se dataframe por df. Então, a forma mais comum de se encontrar uma leitura de dataset é no formato:
```python
    df = pd.read_csv('dataframe.csv')
```

### Informações básicas do dataset

Inicialmente, podemos usar a função ```info()``` do pandas, para verificar um resumo informativo do dataset.

In [42]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19716 entries, 0 to 19715
Data columns (total 50 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   ETAPA                  19716 non-null  int64  
 1   DS_ETAPA               19716 non-null  object 
 2   CODIGO_CAMPUS          19716 non-null  int64  
 3   NOME_CAMPUS            19716 non-null  object 
 4   UF_CAMPUS              19716 non-null  object 
 5   MUNICIPIO_CAMPUS       19716 non-null  object 
 6   CODIGO_CURSO           19716 non-null  int64  
 7   NOME_CURSO             19716 non-null  object 
 8   GRAU                   19716 non-null  object 
 9   TURNO                  19716 non-null  object 
 10  DS_PERIODICIDADE       19716 non-null  object 
 11  TP_COTA                0 non-null      float64
 12  TIPO_MOD_CONCORRENCIA  19716 non-null  object 
 13  MOD_CONCORRENCIA       19716 non-null  object 
 14  QT_VAGAS_CONCORRENCIA  19716 non-null  int64  
 15  PE

Como podemos observar, o dataset é gigantesco. Ele possui 50 colunas e 19716 linhas, sendo cada coluna representante de uma propriedade ou atributo do dataset, nesse caso ano da edição, nome da faculdade, nota do aluno etc., e cada linha um aluno. podemos verificar o formato do dataset, ou seja linhas x colunas, pela propriedade `shape`

In [5]:
dataframe.shape

(19716, 48)

### resumo estatístico

No dataset, existem algumas colunas numéricas, como as colunas de notas do aluno. Podemos estudar dados estatísticos básicos do **dataframe** por meio da função `describe()` do **pandas**. Ela retorna um dataframe com propriedades tais quais contagem, média, mínimo, máximo, desvio padrão, quartis etc.

In [30]:
dataframe.describe()

Unnamed: 0,ETAPA,CODIGO_CAMPUS,CODIGO_CURSO,TP_COTA,QT_VAGAS_CONCORRENCIA,PERCENTUAL_BONUS,PESO_CN,NOTA_MINIMA_L,NOTA_MINIMA_CH,NOTA_MINIMA_CN,NOTA_MINIMA_M,MEDIA_MINIMA,OPCAO,NOTA_R,NOTA_R_COM_PESO,CLASSIFICACAO
count,19716.0,19716.0,19716.0,0.0,19716.0,0.0,19716.0,19716.0,19716.0,19716.0,19716.0,19716.0,19716.0,19716.0,19716.0,19716.0
mean,7.0,806544.8,374439.5,,10.836529,,1.702399,387.815987,384.455772,384.86407,394.561777,390.26618,1.267752,706.281193,1599.572428,181.421434
std,0.0,466422.4,1084086.0,,12.415828,,0.890849,157.588915,157.064283,157.31025,162.83008,158.59366,0.442799,138.500307,711.219999,232.419831
min,7.0,1298.0,2859.0,,1.0,,1.0,0.0,0.0,0.0,0.0,0.0,1.0,260.0,260.0,1.0
25%,7.0,8066.0,2916.0,,4.0,,1.0,350.0,350.0,350.0,350.0,360.0,1.0,600.0,1120.0,34.0
50%,7.0,1075933.0,46608.0,,7.0,,1.0,450.0,400.0,400.0,450.0,430.0,1.0,700.0,1560.0,92.0
75%,7.0,1079570.0,91625.0,,13.0,,2.0,500.0,500.0,500.0,500.0,500.0,2.0,820.0,1980.0,236.0
max,7.0,1079833.0,5001352.0,,73.0,,5.0,600.0,600.0,600.0,750.0,630.0,2.0,980.0,4900.0,1286.0


## Explorando o Dataset

### Explorando colunas

Podemos verificar quais as colunas do dataset por meio da propriedade `columns` do dataframe.

In [31]:
dataframe.columns

Index(['ETAPA', 'DS_ETAPA', 'CODIGO_CAMPUS', 'NOME_CAMPUS', 'UF_CAMPUS',
       'MUNICIPIO_CAMPUS', 'CODIGO_CURSO', 'NOME_CURSO', 'GRAU', 'TURNO',
       'DS_PERIODICIDADE', 'TP_COTA', 'TIPO_MOD_CONCORRENCIA',
       'MOD_CONCORRENCIA', 'QT_VAGAS_CONCORRENCIA', 'PERCENTUAL_BONUS',
       'PESO_L', 'PESO_CH', 'PESO_CN', 'PESO_M', 'PESO_R', 'NOTA_MINIMA_L',
       'NOTA_MINIMA_CH', 'NOTA_MINIMA_CN', 'NOTA_MINIMA_M', 'NOTA_MINIMA_R',
       'MEDIA_MINIMA', 'CPF', 'INSCRICAO_ENEM', 'INSCRITO', 'SEXO',
       'DATA_NASCIMENTO', 'UF_CANDIDATO', 'MUNICIPIO_CANDIDATO', 'OPCAO',
       'NOTA_L', 'NOTA_CH', 'NOTA_CN', 'NOTA_M', 'NOTA_R', 'NOTA_L_COM_PESO',
       'NOTA_CH_COM_PESO', 'NOTA_CN_COM_PESO', 'NOTA_M_COM_PESO',
       'NOTA_R_COM_PESO', 'NOTA_CANDIDATO', 'NOTA_CORTE', 'CLASSIFICACAO',
       'APROVADO', 'MATRICULA'],
      dtype='object')

Para acessar uma coluna em especial, você pode selecioná-la a partir de seu nome, pela sintaxe 
```python
    dataframe['column_name']
```
sendo dataframe o dataset do **pandas** e ```'column_name'``` o nome da coluna, conforme os exemplos abaixo:

Como primeiro exemplo, vejamos a coluna ```SEXO``` do dataframe

In [32]:
dataframe['SEXO']

0        M
1        F
2        F
3        M
4        M
        ..
19711    F
19712    F
19713    F
19714    F
19715    M
Name: SEXO, Length: 19716, dtype: object

Aparentemente, só existem dois valores possíveis nessa coluna:

- **M**: representando sexo masculino
- **F**: representando sexo feminino

Mas, como podemos ter certeza? Uma forma de descobrir é por meio da função ```unique()```

In [33]:
dataframe['SEXO'].unique()

array(['M', 'F'], dtype=object)

Conforme podemos observar, de fato, a coluna sexo possui somente **M** e **F** como valores.

Um outro exemplo mais interessante é verificar a coluna ```UF_CANDIDATO```, que contém a unidade federativa do aluno.

In [34]:
dataframe['UF_CANDIDATO'].unique()

array(['MG', 'SP', 'RO', 'MA', 'BA', 'AL', 'SC', 'MS', 'PE', 'PA', 'MT',
       'DF', 'CE', 'GO', 'TO', 'PB', 'RJ', 'PI', 'AM', 'RS', 'RN', 'PR',
       'ES', 'SE', 'AP', 'AC', 'RR'], dtype=object)

Conforme podemos observar, a coluna possui todas as siglas das unidades federativas do Brasil. Ou seja, o SISU recebeu inscrições de candidatos de todos os estados brasileiros.

Outra função interessante é que podemos selecionar mais de uma coluna por vez. Por exemplo, as colunas 'NOTA_L', 'NOTA_CH', 'NOTA_CN', 'NOTA_M' e 'NOTA_R' correspondem às notas dos alunos nos eixos de conhecimentos, isto é,  linguagens, ciências humanas, ciências da natureza, matemática e redação. Para selecionar essas colunas, podemos passar uma lista de nomes de colunas:

```python
    dataframe[['column_name_1', 'column_name_2', 'column_name_3', ... ,'column_name_n']]
```

Note que temos dois colchetes ao invés de um só. Isso ocorre porque estamos passando uma lista ao invés de um valor único. A sintaxe acima, por exemplo, é idêntica a:


```python
    column_names = ['column_name_1', 'column_name_2', 'column_name_3', ... ,'column_name_n']
    dataframe[column_names]
```

In [35]:
dataframe[['NOTA_L', 'NOTA_CH', 'NOTA_CN', 'NOTA_M', 'NOTA_R']]

Unnamed: 0,NOTA_L,NOTA_CH,NOTA_CN,NOTA_M,NOTA_R
0,5659,6632,6185,7028,780
1,4592,5035,4597,5338,460
2,5029,529,5199,6174,600
3,5272,5623,4814,4619,560
4,5827,6295,5223,6672,860
...,...,...,...,...,...
19711,6364,6543,621,7295,800
19712,6074,6089,5921,6348,680
19713,5973,6285,5644,594,640
19714,5687,5591,5321,6217,840


### Dividindo o dataset

Por enquanto, temos um conjunto gigantesco de dados que está todo unido. No entanto, podemos separá-lo em diversos pedaços, segundo algum critério específico, para conduzir uma série de análises estatísticas e investigações. Por exemplo, que tal separar o dataset por unidade federativa?

Vamos começar separando um estado em específico. Por exemplo, vamos criar um dataset somente de alunos paulistas. Para isso, o pandas oferece uma sintaxe interessante de seleção:

```python
    dataframe[dataframe['column_name'] <condition> ]
```

Sendo `column_name` o nome da coluna e <condition> uma condição que ela deve satisfazer. Para separar São Paulo do resto do Brasil, poderíamos colocar a condição de que a propriedade `UF_IES` seja igual a `'SP'`.

In [36]:
sp_dataframe = dataframe[dataframe['UF_CANDIDATO'] == 'SP']

sp_dataframe

Unnamed: 0,ETAPA,DS_ETAPA,CODIGO_CAMPUS,NOME_CAMPUS,UF_CAMPUS,MUNICIPIO_CAMPUS,CODIGO_CURSO,NOME_CURSO,GRAU,TURNO,...,NOTA_L_COM_PESO,NOTA_CH_COM_PESO,NOTA_CN_COM_PESO,NOTA_M_COM_PESO,NOTA_R_COM_PESO,NOTA_CANDIDATO,NOTA_CORTE,CLASSIFICACAO,APROVADO,MATRICULA
1,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,1404700,BIOTECNOLOGIA,Bacharelado,Matutino,...,4592,5035,9194,10676,460,4871,64059,155,S,NÃO CONVOCADO
2,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,1404700,BIOTECNOLOGIA,Bacharelado,Matutino,...,5029,529,10398,12348,600,55807,64059,93,S,NÃO CONVOCADO
3,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,1404700,BIOTECNOLOGIA,Bacharelado,Matutino,...,5272,5623,9628,9238,560,50516,64059,148,S,NÃO CONVOCADO
4,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,1404700,BIOTECNOLOGIA,Bacharelado,Matutino,...,5827,6295,10446,13344,860,63589,64059,22,S,EFETIVADA
5,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,1404700,BIOTECNOLOGIA,Bacharelado,Matutino,...,5787,5541,9794,10404,600,53609,64059,119,S,NÃO CONVOCADO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19711,7,LISTA DE ESPERA,1075932,Instituto OceanogrÃ¡fico - IO,SP,SÃ£o Paulo,51975,OCEANOGRAFIA,Bacharelado,Integral,...,12728,6543,1863,21885,2400,69822,6576,4,S,EFETIVADA
19712,7,LISTA DE ESPERA,1075932,Instituto OceanogrÃ¡fico - IO,SP,SÃ£o Paulo,51975,OCEANOGRAFIA,Bacharelado,Integral,...,12148,6089,17763,19044,2040,6287,6576,21,S,NÃO CONVOCADO
19713,7,LISTA DE ESPERA,1075932,Instituto OceanogrÃ¡fico - IO,SP,SÃ£o Paulo,51975,OCEANOGRAFIA,Bacharelado,Integral,...,11946,6285,16932,1782,1920,60153,6576,36,S,NÃO CONVOCADO
19714,7,LISTA DE ESPERA,1075932,Instituto OceanogrÃ¡fico - IO,SP,SÃ£o Paulo,51975,OCEANOGRAFIA,Bacharelado,Integral,...,11374,5591,15963,18651,2520,63983,6576,17,S,NÃO CONVOCADO


Da mesma forma, podemos separar o Rio de Janeiro

In [37]:
rj_dataframe = dataframe[dataframe['UF_CANDIDATO'] == 'RJ']

rj_dataframe

Unnamed: 0,ETAPA,DS_ETAPA,CODIGO_CAMPUS,NOME_CAMPUS,UF_CAMPUS,MUNICIPIO_CAMPUS,CODIGO_CURSO,NOME_CURSO,GRAU,TURNO,...,NOTA_L_COM_PESO,NOTA_CH_COM_PESO,NOTA_CN_COM_PESO,NOTA_M_COM_PESO,NOTA_R_COM_PESO,NOTA_CANDIDATO,NOTA_CORTE,CLASSIFICACAO,APROVADO,MATRICULA
459,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,91605,EDUCAÃÃO FÃSICA E SAÃDE,Bacharelado,Matutino,...,5924,7129,1243,6829,1600,69017,66531,11,S,NÃO COMPARECEU
495,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,91605,EDUCAÃÃO FÃSICA E SAÃDE,Bacharelado,Matutino,...,5208,6972,12164,6734,1800,70111,66531,8,S,NÃO COMPARECEU
973,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,91607,GESTÃO AMBIENTAL,Bacharelado,Noturno,...,5368,6422,12964,7046,1640,68857,63581,4,S,EFETIVADA
1304,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,91625,GESTÃO DE POLÃTICAS PÃBLICAS,Bacharelado,Noturno,...,12306,13818,5821,12914,2700,71859,69702,9,S,EFETIVADA
1595,7,LISTA DE ESPERA,4255,"Escola de Artes, CiÃªncias e Humanidades - EACH",SP,SÃ£o Paulo,91609,LAZER E TURISMO,Bacharelado,Noturno,...,9718,15327,5025,1157,1800,54218,60983,46,S,NÃO CONVOCADO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19509,7,LISTA DE ESPERA,1075953,Instituto de RelaÃ§Ãµes Internacionais - IRI,SP,SÃ£o Paulo,60200,RELAÃÃES INTERNACIONAIS,Bacharelado,Matutino,...,12822,1403,5673,13704,1560,68699,73211,28,S,NÃO CONVOCADO
19576,7,LISTA DE ESPERA,1075953,Instituto de RelaÃ§Ãµes Internacionais - IRI,SP,SÃ£o Paulo,60200,RELAÃÃES INTERNACIONAIS,Bacharelado,Matutino,...,11238,12796,5705,1260,1680,6571,73211,44,S,NÃO CONVOCADO
19593,7,LISTA DE ESPERA,1075953,Instituto de RelaÃ§Ãµes Internacionais - IRI,SP,SÃ£o Paulo,60200,RELAÃÃES INTERNACIONAIS,Bacharelado,Noturno,...,11788,12998,6159,1382,1760,69294,72233,21,S,NÃO CONVOCADO
19685,7,LISTA DE ESPERA,1075932,Instituto OceanogrÃ¡fico - IO,SP,SÃ£o Paulo,51975,OCEANOGRAFIA,Bacharelado,Integral,...,12018,7005,1848,22575,2700,72565,6576,2,S,EFETIVADA


Agora, vamos por exemplo verificar as médias de notas de cada um desses dois estados e compará-las

In [47]:
sp_NOTA_R = sp_dataframe['NOTA_R'].dropna().mean()
rj_NOTA_R = rj_dataframe['NOTA_R'].dropna().mean()

print(f'Média da nota de Redação em São Paulo: {sp_NOTA_R}')
print(f'Média da nota de Redação em Rio de Janeiro: {rj_NOTA_R}')

Média da nota de Redação em São Paulo: 698.3117759532112
Média da nota de Redação em Rio de Janeiro: 783.9455782312925


### Criando novas colunas

No nosso dataset, existem duas colunas importantes: `'NOTA_CANDIDATO'` e `'NOTA_CORTE'`. Se um candidato tiver nota maior que a nota de corte, ele tem chances de ser aprovado. Então, que tal criar uma coluna nova no dataset que indique isso? Para criar uma nova coluna no dataset, utilize a seguinte sintaxe:

```python
    dataframe['new_column_name'] = <new_column>
```

Em que `'new_column_name'` é o nome da nova coluna e `new_column` é a nova coluna, uma `Series` do **pandas**

Vamos primeira criar uma nova coluna denominada `'SUP_CORTE'` (superou nota de corte) que é do tipo `bool` e é verdadeira se a nota do candidato é maior que a nota de corte.

In [17]:
sup_corte = dataframe['NOTA_CANDIDATO'] > dataframe['NOTA_CORTE']
sup_corte

0         True
1        False
2        False
3        False
4        False
         ...  
19711     True
19712    False
19713    False
19714    False
19715    False
Length: 19716, dtype: bool

Agora, vamos inserir essa nova coluna no dataset

In [19]:
dataframe['SUP_CORTE'] = sup_corte

Para verificar que a nova coluna está de fato no dataset, podemos tentar acessá-la

In [20]:
dataframe['SUP_CORTE']

0         True
1        False
2        False
3        False
4        False
         ...  
19711     True
19712    False
19713    False
19714    False
19715    False
Name: SUP_CORTE, Length: 19716, dtype: bool

Como podemos ver, a nova coluna está no dataset