# Experimentando o NumPy com conjuntos de dados

Aqui temos um conjunto de dados muito popular sobre a qualidade do vinho.

#### Conjunto 1: Vinhos

In [141]:
import numpy as np

In [142]:
# Para carregar um conjunto de dados no numpy podemos usar a função genfromtxt(). 
# Podemos especificar o nome do arquivo de dados, o delimitador, na qual é opcional, e o número de linhas a serem ignoradas (normalmente o cabeçalho). 

# A função genfromtxt() tem um parâmetro chamado data types(opcional) para especificar os tipos de dados para cada coluna. Caso não especifiquemos o tipo, será o tipo mais geral.

vinhos = np.genfromtxt('datasets/winequality-red.csv', delimiter = ';', skip_header = 1)

vinhos

array([[ 7.4  ,  0.7  ,  0.   , ...,  0.56 ,  9.4  ,  5.   ],
       [ 7.8  ,  0.88 ,  0.   , ...,  0.68 ,  9.8  ,  5.   ],
       [ 7.8  ,  0.76 ,  0.04 , ...,  0.65 ,  9.8  ,  5.   ],
       ...,
       [ 6.3  ,  0.51 ,  0.13 , ...,  0.75 , 11.   ,  6.   ],
       [ 5.9  ,  0.645,  0.12 , ...,  0.71 , 10.2  ,  5.   ],
       [ 6.   ,  0.31 ,  0.47 , ...,  0.66 , 11.   ,  6.   ]],
      shape=(1599, 12))

In [143]:
# Vamos pegar apenas os dados da primeira coluna:
print(f'Dados da coluna 0: {vinhos[:, 0]}')

Dados da coluna 0: [7.4 7.8 7.8 ... 6.3 5.9 6. ]


In [144]:
# Mas vamos supor que eu gostaria que eles ainda ficassem no formato de coluna, então fazemos um fatiamento na coluna:
print(f'Dados da coluna 0 na forma de coluna:\n {vinhos[:, 0:1]}')

# Nesse caso, preservamos a forma geral de que se trata de uma única coluna

Dados da coluna 0 na forma de coluna:
 [[7.4]
 [7.8]
 [7.8]
 ...
 [6.3]
 [5.9]
 [6. ]]


Isso é um exemplo de como a forma dos dados é, na verdade, apenas uma abstração, que podemos sobrepor intencionalmente aos dados com os quais estamos trabalhando. 

In [145]:
# Se quisermos um intervalo de colunas em ordem, podemos fazer:
print(f'Dados das colunas 0 à 2: \n{vinhos[:, 0:3]}')

Dados das colunas 0 à 2: 
[[7.4   0.7   0.   ]
 [7.8   0.88  0.   ]
 [7.8   0.76  0.04 ]
 ...
 [6.3   0.51  0.13 ]
 [5.9   0.645 0.12 ]
 [6.    0.31  0.47 ]]


In [146]:
# Mas e se quisermos colunas específicas, isto é, não consecutivas? 
# Então passamos elas como listas para dentro do índice da matriz:
print(f'Dados das colunas 0, 2 e 4: \n{vinhos[:, [0, 2, 4]]}')

Dados das colunas 0, 2 e 4: 
[[7.4   0.    0.076]
 [7.8   0.    0.098]
 [7.8   0.04  0.092]
 ...
 [6.3   0.13  0.076]
 [5.9   0.12  0.075]
 [6.    0.47  0.067]]


In [147]:
# Também podemos fazer um resumo básico desse conjunto de dados.

# Por exemplo, se quisermos descobrir a qualidade média do vinho tinto, podemos selecionar a coluna de qualidade. 
# Podemos fazer isso de duas maneiras, porém a mais apropriada é usar o valor de '-1' para o índice, pois números negativos significam cortar do final de uma lista. Em seguida, basta chamar as funções de agregação nesses dados. 

# Pegando a última coluna e calculando a média
media1 = vinhos[:, -1].mean() # Melhor forma
print(media1, '\n')

# Outra forma: 
media2 = sum(vinhos[:, -1]) / len(vinhos[:, -1])
print(media2, '\n')

# Ainda mais um jeito:
media3 = sum(m[len(vinhos[0]) - 1] for m in vinhos) / len(vinhos[:, 0])
print(media3)


5.6360225140712945 

5.6360225140712945 

5.6360225140712945


#### Conjunto 2: Admissões

Vamos olhar outro conjunto de dados, agora sobre admissões em escolas de pós-graduação.

Aqui são pontos como GRE, pontuação TOEFL, classificação universitária... Tem uma chance de admissão no final. <br>
Com esse conjunto de dados, podemos fazer manipulação de dados e análise básica para inferir quais condições estão associadas a maiores chances de admissão. 

In [148]:
# Podemos especificar nomes de campos de dados usando genfromtxt() enquanto ele carrega os dados CSV. Além disso, podemos fazer com que o numpy tente inferir esse tipo de coluna definindo o parâmetro do dtype (tipo do dado) como nenhum

admissao_graduacao = np.genfromtxt('datasets/Admission_Predict.csv', delimiter = ',', skip_header = 1, names = ("Número_de_Série", "Pontuação_GRE", "Pontuação_TOEFL", "Classificação_da_Universidade", "SOP", "LOR", "CGPA", "Pesquisa", "Chance_de_Admissao"))

# ATENÇÃO: Os nomes não podem possuir espaços, por isso use "_"

admissao_graduacao

array([(  1., 337., 118., 4., 4.5, 4.5, 9.65, 1., 0.92),
       (  2., 324., 107., 4., 4. , 4.5, 8.87, 1., 0.76),
       (  3., 316., 104., 3., 3. , 3.5, 8.  , 1., 0.72),
       (  4., 322., 110., 3., 3.5, 2.5, 8.67, 1., 0.8 ),
       (  5., 314., 103., 2., 2. , 3. , 8.21, 0., 0.65),
       (  6., 330., 115., 5., 4.5, 3. , 9.34, 1., 0.9 ),
       (  7., 321., 109., 3., 3. , 4. , 8.2 , 1., 0.75),
       (  8., 308., 101., 2., 3. , 4. , 7.9 , 0., 0.68),
       (  9., 302., 102., 1., 2. , 1.5, 8.  , 0., 0.5 ),
       ( 10., 323., 108., 3., 3.5, 3. , 8.6 , 0., 0.45),
       ( 11., 325., 106., 3., 3.5, 4. , 8.4 , 1., 0.52),
       ( 12., 327., 111., 4., 4. , 4.5, 9.  , 1., 0.84),
       ( 13., 328., 112., 4., 4. , 4.5, 9.1 , 1., 0.78),
       ( 14., 307., 109., 3., 4. , 3. , 8.  , 1., 0.62),
       ( 15., 311., 104., 3., 3.5, 2. , 8.2 , 1., 0.61),
       ( 16., 314., 105., 3., 3.5, 2.5, 8.3 , 0., 0.54),
       ( 17., 317., 107., 3., 4. , 3. , 8.7 , 0., 0.66),
       ( 18., 319., 106., 3., 4

In [149]:
# Perceba que a matriz possui uma dimensão, com tuplas de tantas colunas
admissao_graduacao.shape

(400,)

In [150]:
# Podemos recuperar uma coluna da matriz usando o nome da coluna. Por exemplo, vamos pegar a coluna CGPA e somente os primeiros cinco valores. 

# Vamos pegar apenas a coluna CGPA e mostrar as primeiras 5 linhas (5 valores)
admissao_graduacao['CGPA'][:5]

array([9.65, 8.87, 8.  , 8.67, 8.21])

In [151]:
# Como o GPA no conjunto de dados varia de 1 a 10, e nos EUA é mais comum usar uma escala de quatro. Uma tarefa comum pode ser converter o GPA dividindo por 10 e depois multiplicando por quatro

admissao_graduacao['CGPA'] = (admissao_graduacao['CGPA'] / 10) * 4

# Vamos analisar 20 valores: 
admissao_graduacao['CGPA'][:20]

array([3.86 , 3.548, 3.2  , 3.468, 3.284, 3.736, 3.28 , 3.16 , 3.2  ,
       3.44 , 3.36 , 3.6  , 3.64 , 3.2  , 3.28 , 3.32 , 3.48 , 3.2  ,
       3.52 , 3.4  ])

Acabamos de realizar uma normalização para valores até 4

In [152]:
# Lembrando da máscara booleana, podemos usar isso para descobrir quantos estudante tiveram experiência em pesquisa.

# Vamos criar a máscara booleana e passar para o operador de indexação de matriz. 
# Perceba no CSV que Reaserch é um valor de 1 e 0. 
qnts_estudantes = len(admissao_graduacao[admissao_graduacao['Pesquisa'] == 1])
print(qnts_estudantes)


219


In [153]:
# Como temos a chance de admissão no campo de dados, que varia de 0 a 1, podemos tentar ver se os alunos com alta chance de admissão (> 0.8) tem pontuação GRE mais altas do que aqueles com menor chance de admissão (< 0.4). 

# Vamos usar o mascaramento booleano para retirar apenas os alunos nos quais estamos interessados com base em suas chances de admissão. 
print(admissao_graduacao[admissao_graduacao['Chance_de_Admissao'] > 0.8]['Pontuação_GRE'].mean())
print(admissao_graduacao[admissao_graduacao['Chance_de_Admissao'] < 0.4]['Pontuação_GRE'].mean())

328.7350427350427
302.2857142857143


Quando fazemos o mascaramento booleano, ainda temos uma matriz com tuplas, e o numpy mantém abaixo dela uma lista das colunas que especificamos e seus nomes e índices.

In [154]:
# Vamos olhar isso: 
admissao_graduacao[admissao_graduacao['Chance_de_Admissao'] > 0.8]

array([(  1., 337., 118., 4., 4.5, 4.5, 3.86 , 1., 0.92),
       (  6., 330., 115., 5., 4.5, 3. , 3.736, 1., 0.9 ),
       ( 12., 327., 111., 4., 4. , 4.5, 3.6  , 1., 0.84),
       ( 23., 328., 116., 5., 5. , 5. , 3.8  , 1., 0.94),
       ( 24., 334., 119., 5., 5. , 4.5, 3.88 , 1., 0.95),
       ( 25., 336., 119., 5., 4. , 3.5, 3.92 , 1., 0.97),
       ( 26., 340., 120., 5., 4.5, 4.5, 3.84 , 1., 0.94),
       ( 33., 338., 118., 4., 3. , 4.5, 3.76 , 1., 0.91),
       ( 34., 340., 114., 5., 4. , 4. , 3.84 , 1., 0.9 ),
       ( 35., 331., 112., 5., 4. , 5. , 3.92 , 1., 0.94),
       ( 36., 320., 110., 5., 5. , 5. , 3.68 , 1., 0.88),
       ( 44., 332., 117., 4., 4.5, 4. , 3.64 , 0., 0.87),
       ( 45., 326., 113., 5., 4.5, 4. , 3.76 , 1., 0.91),
       ( 46., 322., 110., 5., 5. , 4. , 3.64 , 1., 0.88),
       ( 47., 329., 114., 5., 4. , 5. , 3.72 , 1., 0.86),
       ( 48., 339., 119., 5., 4.5, 4. , 3.88 , 0., 0.89),
       ( 49., 321., 110., 3., 3.5, 5. , 3.54 , 1., 0.82),
       ( 71., 

Isso mostra 117 alunos com chance de admissão maior que 0.8, porém, vem com todas as informações, porque na realidade estamos pegando todas as linhas que a condição é satisfeita. Quando colocamos o ['Pontuação_GRE'], estamos filtrando, dessas linhas, apenas a coluna 'Pontuação_GRE'.

In [155]:
# Vamos fazer isso com CGPA também
print(admissao_graduacao[admissao_graduacao['Chance_de_Admissao'] > 0.8]['CGPA'].mean())
print(admissao_graduacao[admissao_graduacao['Chance_de_Admissao'] < 0.4]['CGPA'].mean())

3.7106666666666666
3.0222857142857142


Era de se esperar isso, o GPA e o GRE para alunos com maior chance de serem admitidos, pela análise superficial, parecem ser maiores.