# Explorando matrizes de dados com NumPy

Uma parte significativa do papel de um cientista de dados é explorar, analisar e visualizar dados. Há uma grande variedade de ferramentas e linguagens de programação que eles podem usar para fazer isso; e das abordagens mais populares é usar notebooks Jupyter (como este) e Python.

Python é uma linguagem de programação flexível que é usada em uma ampla variedade de cenários; de aplicativos da web à programação de dispositivos. É extremamente popular na comunidade de ciência de dados e aprendizado de máquina devido aos muitos pacotes que oferece suporte para análise e visualização de dados.

Vamos começar examinando alguns dados simples.

Suponha que uma faculdade tire uma amostra das notas dos alunos para uma aula de ciência de dados.

Execute o código na célula abaixo clicando no botão ► Executar para ver os dados.

In [3]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Os dados foram carregados em uma estrutura de lista do Python , que é um bom tipo de dados para manipulação geral de dados, mas não otimizado para análise numérica. Para isso, vamos usar o pacote NumPy , que inclui tipos de dados e funções específicas para trabalhar com Numbers em Python .

Execute a célula abaixo para carregar os dados em uma matriz NumPy .

In [4]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


Caso você esteja se perguntando sobre as diferenças entre uma lista e um array NumPy , vamos comparar como esses tipos de dados se comportam quando os usamos em uma expressão que os multiplica por 2.

In [5]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Observe que multiplicar uma lista por 2 cria uma nova lista com o dobro do comprimento com a sequência original de elementos da lista repetida. A multiplicação de um array NumPy, por outro lado, executa um cálculo elementar no qual o array se comporta como um vetor , então acabamos com um array do mesmo tamanho em que cada elemento foi multiplicado por 2.

A principal vantagem disso é que os arrays NumPy são projetados especificamente para suportar operações matemáticas em dados numéricos - o que os torna mais úteis para análise de dados do que uma lista genérica.

Você deve ter notado que o tipo de classe para o array numpy acima é um numpy.ndarray . O nd indica que esta é uma estrutura que pode consistir em múltiplas dimensões (pode ter n dimensões). Nossa instância específica tem uma única dimensão de notas dos alunos.

Execute a célula abaixo para visualizar a forma da matriz.

In [6]:
grades.shape

(22,)

A forma confirma que esta matriz tem apenas uma dimensão, que contém 22 elementos (existem 22 graus na lista original). Você pode acessar os elementos individuais na matriz por sua posição ordinal baseada em zero. Vamos pegar o primeiro elemento (o que está na posição 0).

In [7]:
grades[0]

50

Tudo bem, agora que você conhece um array NumPy, é hora de realizar algumas análises dos dados de notas.

Você pode aplicar agregações nos elementos da matriz, então vamos encontrar a nota média simples (em outras palavras, o valor da nota média ).

In [8]:
grades.mean()

49.18181818181818

Portanto, a nota média é apenas cerca de 50 - mais ou menos no meio do intervalo possível de 0 a 100.

Vamos adicionar um segundo conjunto de dados para os mesmos alunos, desta vez registrando o número típico de horas por semana que eles dedicaram ao estudo.

In [9]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Agora os dados consistem em uma matriz bidimensional - uma matriz de matrizes. Vejamos sua forma.

In [10]:
# Show shape of 2D array
student_data.shape

(2, 22)

O array student_data contém dois elementos, cada um dos quais é um array contendo 22 elementos.

Para navegar nessa estrutura, você precisa especificar a posição de cada elemento na hierarquia. Portanto, para encontrar o primeiro valor na primeira matriz (que contém os dados de horas de estudo), você pode usar o código a seguir.

In [11]:
# Show the first element of the first element
student_data[0][0]

10.0

Agora você tem uma matriz multidimensional contendo as informações de tempo de estudo e notas do aluno, que pode ser usada para comparar dados. Por exemplo, como o tempo médio de estudo se compara à nota média?

In [12]:
# Get the mean value of each sub-array
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18


## Explorando dados tabulares com Pandas

Embora o NumPy forneça muitas das funcionalidades necessárias para trabalhar com números e, especificamente, com matrizes de valores numéricos; quando você começa a lidar com tabelas de dados bidimensionais, o pacote Pandas oferece uma estrutura mais conveniente para trabalhar - o DataFrame .

Execute a seguinte célula para importar a biblioteca Pandas e crie um DataFrame com três colunas. A primeira coluna é uma lista de nomes de alunos, e a segunda e terceira colunas são as matrizes NumPy contendo os dados de tempo de estudo e notas.

In [13]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Observe que, além das colunas especificadas, o DataFrame inclui um índice para identificar exclusivamente cada linha. Poderíamos ter especificado o índice explicitamente e atribuído qualquer tipo de valor apropriado (por exemplo, um endereço de e-mail); mas como não especificamos um índice, um foi criado com um valor inteiro exclusivo para cada linha.

## Localizando e filtrando dados em um DataFrame

Você pode usar o método loc do DataFrame para recuperar dados para um valor de índice específico, como este.

In [14]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

Você também pode obter os dados em um intervalo de valores de índice, como este:

In [15]:
# Get the rows with index values from 0 to 5
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


Além de poder usar o método loc para localizar linhas com base no índice, você pode usar o método iloc para localizar linhas com base em sua posição ordinal no DataFrame (independentemente do índice):

In [16]:
# Get data in the first five rows
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Observe atentamente os iloc[0:5]resultados e compare-os com os loc[0:5]resultados obtidos anteriormente. Você pode ver a diferença?

O método loc retornou linhas com rótulo de índice na lista de valores de 0 a 5 - que inclui 0 , 1 , 2 , 3 , 4 e 5 (seis linhas). No entanto, o método iloc retorna as linhas nas posições incluídas no intervalo de 0 a 5 e, como os intervalos de inteiros não incluem o valor do limite superior, isso inclui as posições 0 , 1 , 2 , 3 e 4 (cinco linhas) .

iloc identifica valores de dados em um DataFrame por position , que se estende além de linhas para colunas. Por exemplo, você pode usá-lo para encontrar os valores das colunas nas posições 1 e 2 na linha 0, assim:

In [19]:
df_students.iloc[0, [1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

Vamos retornar ao método loc e ver como ele funciona com colunas. Lembre-se de que loc é usado para localizar itens de dados com base em valores de índice em vez de posições. Na ausência de uma coluna de índice explícita, as linhas em nosso dataframe são indexadas como valores inteiros, mas as colunas são identificadas pelo nome:

In [20]:
df_students.loc[0,'Grade']

50.0

Aqui está outro truque útil. Você pode usar o método loc para encontrar linhas indexadas com base em uma expressão de filtragem que faz referência a colunas nomeadas diferentes do índice, assim:

In [21]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Na verdade, você não precisa usar explicitamente o método loc para fazer isso - você pode simplesmente aplicar uma expressão de filtragem DataFrame, assim:

In [22]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


E para uma boa medida, você pode obter os mesmos resultados usando o método de consulta do DataFrame , assim:



In [23]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Os três exemplos anteriores sublinham uma verdade ocasionalmente confusa sobre como trabalhar com Pandas. Muitas vezes, existem várias maneiras de alcançar os mesmos resultados. Outro exemplo disso é a maneira como você se refere a um nome de coluna DataFrame. Você pode especificar o nome da coluna como um valor de índice nomeado (como nos df_students['Name']exemplos que vimos até agora), ou você pode usar a coluna como uma propriedade do DataFrame, assim:

In [24]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


## Carregando um DataFrame de um arquivo

Construímos o DataFrame a partir de alguns arrays existentes. No entanto, em muitos cenários do mundo real, os dados são carregados de fontes como arquivos. Vamos substituir o DataFrame das notas dos alunos pelo conteúdo de um arquivo de texto.

In [26]:
!python -m wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()


Saved under grades.csv


Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


O método read_csv do DataFrame é usado para carregar dados de arquivos de texto. Como você pode ver no código de exemplo, você pode especificar opções como o delimitador de coluna e qual linha (se houver) contém cabeçalhos de coluna (neste caso, o delimitador é uma vírgula e a primeira linha contém os nomes das colunas - estes são os configurações padrão, então os parâmetros podem ter sido omitidos).

## Manipulando valores ausentes

Um dos problemas mais comuns com os quais os cientistas de dados precisam lidar são dados incompletos ou ausentes. Então, como saberíamos que o DataFrame contém valores ausentes? Você pode usar o método isnull para identificar quais valores individuais são nulos, assim:

In [27]:
df_students.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Obviamente, com um DataFrame maior, seria ineficiente revisar todas as linhas e colunas individualmente; para que possamos obter a soma dos valores ausentes para cada coluna, assim:

In [28]:
df_students.isnull().sum()

Name          0
StudyHours    1
Grade         2
dtype: int64

Portanto, agora sabemos que há um valor StudyHours ausente e dois valores Grade ausentes .

Para vê-los no contexto, podemos filtrar o dataframe para incluir apenas linhas em que qualquer uma das colunas (eixo 1 do DataFrame) seja nula.

In [29]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,StudyHours,Grade
22,Bill,8.0,
23,Ted,,


Quando o DataFrame é recuperado, os valores numéricos ausentes aparecem como NaN ( não como um número ).

Agora que encontramos os valores nulos, o que podemos fazer com eles?

Uma abordagem comum é imputar valores de reposição. Por exemplo, se o número de horas de estudo estiver faltando, podemos apenas supor que o aluno estudou por um período médio de tempo e substituir o valor ausente pela média de horas de estudo. Para fazer isso, podemos usar o método fillna , assim:

In [30]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Como alternativa, pode ser importante garantir que você use apenas os dados que sabe serem absolutamente corretos; para que você possa descartar linhas ou colunas que contenham valores nulos usando o método dropna . Nesse caso, removeremos as linhas (eixo 0 do DataFrame) onde qualquer uma das colunas contém valores nulos.

In [31]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


## Explorar dados no DataFrame

Agora que limpamos os valores ausentes, estamos prontos para explorar os dados no DataFrame. Vamos começar comparando a média de horas de estudo e notas.

In [32]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

Average weekly study hours: 10.52
Average grade: 49.18


OK, vamos filtrar o DataFrame para encontrar apenas os alunos que estudaram por mais tempo do que a média.

In [33]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Observe que o resultado filtrado é um DataFrame, portanto, você pode trabalhar com suas colunas como qualquer outro DataFrame.

Por exemplo, vamos encontrar a nota média dos alunos que realizaram mais do que a quantidade média de tempo de estudo.

In [34]:
# What was their mean grade?
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7

Vamos supor que a nota de aprovação para o curso seja 60.

Podemos usar essas informações para adicionar uma nova coluna ao DataFrame, indicando se cada aluno passou ou não.

Primeiro, criaremos uma Série Pandas contendo o indicador de aprovação/reprovação (True ou False) e, em seguida, concatenaremos essa série como uma nova coluna (eixo 1) no DataFrame.

In [35]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


Os DataFrames são projetados para dados tabulares e você pode usá-los para executar muitos dos tipos de operação de análise de dados que você pode fazer em um banco de dados relacional; como agrupar e agregar tabelas de dados.

Por exemplo, você pode usar o método groupby para agrupar os dados dos alunos em grupos com base na coluna Aprovado que você adicionou anteriormente e contar o número de nomes em cada grupo - em outras palavras, você pode determinar quantos alunos foram aprovados e reprovados.

In [36]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64


Você pode agregar vários campos em um grupo usando qualquer função de agregação disponível. Por exemplo, você pode encontrar o tempo médio de estudo e a nota para os grupos de alunos que foram aprovados e reprovados no curso.

In [38]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857


  print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())


Os DataFrames são incrivelmente versáteis e facilitam a manipulação de dados. Muitas operações do DataFrame retornam uma nova cópia do DataFrame; portanto, se você quiser modificar um DataFrame, mas manter a variável existente, será necessário atribuir o resultado da operação à variável existente. Por exemplo, o código a seguir classifica os dados do aluno em ordem decrescente de Grade e atribui o DataFrame classificado resultante à variável df_students original .

In [39]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False


# Resumo

Por enquanto é isso!

Numpy e DataFrames são os cavalos de batalha da ciência de dados em Python. Eles nos fornecem maneiras de carregar, explorar e analisar dados tabulares. Como veremos nos módulos subsequentes, mesmo os métodos de análise avançados normalmente dependem do Numpy e do Pandas para essas funções importantes.

Em nossa próxima pasta de trabalho, veremos como criar gráficos e explorar seus dados de maneiras mais interessantes.