# Explorando Dados com Python

Uma parte significativa do trabalho de um cientista de dados é **explorar, analisar e visualizar** dados. Existem muitas ferramentas para isso, e uma das abordagens mais populares é usar **Jupyter Notebooks** (como este) com a linguagem **Python**.

Python é uma linguagem flexível usada em muitos cenários — de aplicações web a programação de dispositivos — e é extremamente popular em **ciência de dados** e **aprendizado de máquina** graças à grande quantidade de pacotes para análise e visualização de dados.

Neste notebook, vamos explorar alguns desses pacotes e aplicar técnicas básicas para analisar dados. Este não é um curso completo de Python nem um mergulho profundo em análise de dados, mas um guia rápido sobre como cientistas de dados usam Python para trabalhar com informações.

> **Observação:** Se você nunca usou Jupyter Notebooks:
> - Os notebooks são compostos por *células*. Algumas contêm **markdown** (texto), outras contêm **código**.
> - Execute cada célula de código com o botão **▶ Run** que aparece ao passar o mouse.
> - A saída de cada célula aparece logo abaixo dela.
> - Execute as células na ordem, pois variáveis criadas em células anteriores podem ser necessárias nas posteriores.


In [2]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Os dados foram carregados em uma **lista** do Python, que é adequada para uso geral, mas não é otimizada para **análise numérica**. Para isso, usaremos o pacote **NumPy**, que fornece tipos de dados e funções específicas para trabalhar com números.

Execute a próxima célula para carregar os dados em um **array** NumPy.


In [3]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


Caso você esteja se perguntando a diferença entre uma **lista** e um **array** NumPy, experimente multiplicar cada um por dois. Uma lista duplicará o número de elementos, enquanto um array executará a multiplicação *elemento a elemento*.


In [4]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Observe que multiplicar uma lista por dois cria uma nova lista com o dobro do tamanho, repetindo os elementos. Já o array NumPy se comporta como um **vetor**, mantendo o mesmo tamanho e multiplicando cada valor individualmente.

Execute a próxima célula para ver o **formato (shape)** do array.


In [5]:
grades.shape

(22,)

O formato confirma que o array tem apenas uma dimensão, contendo as notas dos alunos.

Vamos obter o primeiro elemento (posição 0) e o último para ver exemplos de indexação.


In [6]:
grades[0]

50

A média (mean) das notas fica em torno de 50, aproximadamente no meio da faixa possível de 0 a 100.

Agora adicionaremos um segundo conjunto de dados para os mesmos alunos: o número de horas de estudo por semana.


In [7]:
grades.mean()

49.18181818181818

Agora os dados consistem em um array bidimensional (array de arrays). Vamos olhar para seu formato.


In [8]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

O array **student_data** contém dois elementos, cada um com 22 registros.

Para navegar nessa estrutura, você deve especificar o índice da primeira dimensão (linha) e da segunda (coluna). Por exemplo, para acessar o array que contém as horas de estudo, use o índice 1.


In [9]:
# Show shape of 2D array
student_data.shape

(2, 22)

Você agora tem um array multidimensional com horas de estudo e notas, que pode ser usado para comparar tempo de estudo com desempenho.


In [10]:
# Show the first element of the first element
student_data[0][0]

10.0

Podemos usar filtragem booleana para separar, por exemplo, os alunos que obtiveram nota igual ou maior que 60.


In [11]:
# Obtenha o valor médio de cada subarray
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18


## Explorando dados tabulares com Pandas

O NumPy oferece grande parte das funcionalidades e ferramentas necessárias para trabalhar com números, como arrays de valores numéricos. No entanto, quando você começa a lidar com tabelas bidimensionais de dados, o pacote **Pandas** oferece uma estrutura mais conveniente para trabalhar: o **DataFrame**.

Execute a célula abaixo para importar a biblioteca Pandas e criar um DataFrame com três colunas. A primeira coluna é uma lista com os nomes dos estudantes, e a segunda e terceira colunas são os arrays do NumPy contendo os dados de tempo de estudo e notas.

In [None]:
import pandas as pd
# Create a DataFrame from the student data
# The first column is the names of the students, the second is study hours, and the third is grades

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Observe que, além das colunas que você especificou, o DataFrame inclui um índice para identificar exclusivamente cada linha. Poderíamos ter especificado o índice explicitamente e atribuído qualquer tipo de valor apropriado (por exemplo, um endereço de e-mail). No entanto, como não especificamos um índice, foi criado um índice com um valor inteiro único para cada linha.

### Encontrando e filtrando dados em um DataFrame

Você pode usar o método **loc** o DataFrame para recuperar dados de um valor de índice específico, assim:

In [13]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

Você também pode obter os dados em um intervalo de valores de índice, assim:

In [14]:
# Get the rows with index values from 0 to 5
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


[Tradução resumida automática para a célula 13]

In [15]:
# Get data in the first five rows
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


[Tradução resumida automática para a célula 14]

In [16]:
df_students.iloc[0,[1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

[Tradução resumida automática para a célula 15]

In [17]:
df_students.loc[0,'Grade']

50.0

[Tradução resumida automática para a célula 16]

In [18]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


[Tradução resumida automática para a célula 17]

In [19]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


[Tradução resumida automática para a célula 18]

In [20]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


[Tradução resumida automática para a célula 19]

In [21]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


[Tradução resumida automática para a célula 20]

In [22]:
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()

'wget' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


FileNotFoundError: [Errno 2] No such file or directory: 'grades.csv'

[Tradução resumida automática para a célula 21]

In [None]:
df_students.isnull()

[Tradução resumida automática para a célula 22]

In [None]:
df_students.isnull().sum()

[Tradução resumida automática para a célula 23]

In [None]:
df_students[df_students.isnull().any(axis=1)]

[Tradução resumida automática para a célula 24]

In [None]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

[Tradução resumida automática para a célula 25]

In [None]:
df_students = df_students.dropna(axis=0, how='any')
df_students

[Tradução resumida automática para a célula 26]

In [None]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

[Tradução resumida automática para a célula 27]

In [None]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

[Tradução resumida automática para a célula 28]

In [None]:
# What was their mean grade?
df_students[df_students.StudyHours > mean_study].Grade.mean()

[Tradução resumida automática para a célula 29]

In [None]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

[Tradução resumida automática para a célula 30]

In [None]:
print(df_students.groupby(df_students.Pass).Name.count())

[Tradução resumida automática para a célula 31]

In [None]:
print(df_students.groupby(df_students.Pass)[['StudyHours', 'Grade']].mean())

[Tradução resumida automática para a célula 32]

In [None]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

[Tradução resumida automática para a célula 33]