# Instruções iniciais

1 - Siga as instruções de configuração do ambiente disponibilizadas no README da aula para preparar o seu sistema.

2 - Baixar este arquivo no seu computador.

3 - Utilize o ambiente virtual (venv) configurado como o kernel para este arquivo.

obs.: Notebook da aula no Colab: https://drive.google.com/file/d/1BQjpb56UV2WDknXiocWdE1bmTtqeTkbr/view?usp=sharing

### Carregando o conjunto de dados:

In [10]:
import pandas as pd
import requests
from io import StringIO
from pandas import read_csv

# Criação do dataFrame dos alunos
# ID do arquivo no Google Drive
file_id = '15aOJIGAyLMSY1gecjiCgu2ko_riIcKQy'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)  
    estudantes = read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")


In [11]:
#Criação do dataFrame das escolas

# ID do arquivo no Google Drive
file_id = '1Jgto7psHaMRTAVzcFt7D6SgJiHMB7uGT'

# URL modificada para forçar o download do arquivo
url = f"https://drive.google.com/uc?id={file_id}"

# Tentando obter o arquivo com requests
try:
    response = requests.get(url)
    response.raise_for_status()  # Lança um erro para respostas não-sucedidas
    # Usando StringIO para converter o texto em um arquivo em memória e, então, lendo com o Pandas
    csv_raw = StringIO(response.text)
    escolas = read_csv(csv_raw)
except requests.RequestException as e:
    print(f"Erro ao acessar o arquivo: {e}")

Analisando os dataframes

1 - Escolas

In [17]:
escolas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ID_Escola        15 non-null     int64 
 1   Nome_Escola      15 non-null     object
 2   Tipo_Escola      15 non-null     object
 3   Numero_Alunos    15 non-null     int64 
 4   Orcamento_Anual  15 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 728.0+ bytes


2 - Estudantes

In [18]:
estudantes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39160 entries, 0 to 39159
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ID_Estudante     39160 non-null  int64 
 1   Nome_Estudante   39160 non-null  object
 2   Genero           39160 non-null  object
 3   Serie            39160 non-null  int64 
 4   Nome_Escola      39160 non-null  object
 5   Nota_Redacao     39160 non-null  int64 
 6   Nota_Matematica  39160 non-null  int64 
dtypes: int64(4), object(3)
memory usage: 2.1+ MB


In [19]:
# nulos e faltantes
escolas.isnull().sum()

ID_Escola          0
Nome_Escola        0
Tipo_Escola        0
Numero_Alunos      0
Orcamento_Anual    0
dtype: int64

In [20]:
# nulos e faltantes
escolas.isna().sum()

ID_Escola          0
Nome_Escola        0
Tipo_Escola        0
Numero_Alunos      0
Orcamento_Anual    0
dtype: int64

In [24]:
# verificar se toda a tabela esta correta. Porque sabemos que tem relacao entre as escolas e os estudantes e as escolas e mais facil de ver porque vai ate o O.  
estudantes['Nome_Escola'].unique()

array(['Escola A', 'Escola B', 'Escola C', 'Escola D', 'Escola E',
       'Escola F', 'Escola G', 'Escola H', 'Escola I', 'Escola J',
       'Escola K', 'Escola L', 'Escola M', 'Escola N', 'Escola O'],
      dtype=object)

Perguntas:

Existem dados faltantes nas tabelas? 

R: Não.

Existe algo em comum nas duas tabelas? 

R: Sim, o nome de escolas.

### Combinando os datasets

In [26]:
# Puxa nome de escola relacionado a estudantes e escolas (left join)
data=pd.merge(estudantes,
              escolas,
              how='left',
              on=["Nome_Escola","Nome_Escola"])

In [29]:
data

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
39155,39155,John Brooks,M,7,Escola O,92,98,14,Particular,1635,1043130
39156,39156,Stephanie Contreras,F,8,Escola O,79,95,14,Particular,1635,1043130
39157,39157,Kristen Gonzalez,F,6,Escola O,79,94,14,Particular,1635,1043130
39158,39158,Kari Holloway,F,7,Escola O,87,90,14,Particular,1635,1043130


In [31]:
# mostrando apenas os 5 primeiros
data.head()

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
0,0,Kevin Bradley,M,6,Escola A,66,79,0,Publica,2917,1910635
1,1,Paul Smith,M,9,Escola A,94,61,0,Publica,2917,1910635
2,2,John Rodriguez,M,9,Escola A,90,60,0,Publica,2917,1910635
3,3,Oliver Scott,M,9,Escola A,67,58,0,Publica,2917,1910635
4,4,William Ray,F,6,Escola A,97,84,0,Publica,2917,1910635


As colunas Genero, Serie e Tipo Escola representam dados categóricos. Como podemos verificar a quantidade de valores distintos que existem em cada categoria? 

In [32]:
data["Genero"].unique()

array(['M', 'F'], dtype=object)

In [33]:
data["Serie"].unique()

array([6, 9, 8, 7], dtype=int64)

In [34]:
data["Tipo_Escola"].unique()

array(['Publica', 'Particular'], dtype=object)

In [36]:
# Ordenando as series. O retorno e vazio entao nao da para salvar em uma nova variavel
series=data["Serie"].unique()
series.sort()
series


array([6, 7, 8, 9], dtype=int64)

### Algumas perguntas:

Qual o orçamento total das escolas?

In [37]:
# Nao usa data porque ele vai duplicar os valores
# data['Orcamento_Anual]
escolas['Orcamento_Anual'].sum()


24649428

Qual a nota média dos alunos nas disciplinas analisadas?

In [38]:
mediaRedacao=data["Nota_Redacao"].mean()
mediaMatematica=data["Nota_Matematica"].mean()

In [39]:
mediaRedacao

81.87574055158325

In [40]:
mediaMatematica

78.98493360572012

Organizando os resultados

In [41]:
#Criando um novo dataframe com o resultado
resultados = pd.DataFrame({ 
    "Medias":["mediaRedacao","mediaMatematica"],
    "Resultados":[mediaRedacao,mediaMatematica]
})


In [42]:
resultados

Unnamed: 0,Medias,Resultados
0,mediaRedacao,81.875741
1,mediaMatematica,78.984934


Quantos alunos ficaram com nota superior a 90 em redação?

In [59]:
hightRed=data[data["Nota_Redacao"]>90]
# Tamanho do conjunto
len(hightRed)


len(hightRed) 


9973

E qual o percentual?

In [60]:
round(len(hightRed)/len(estudantes)*100,4)

25.4673

Quantos alunos ficaram com nota superior a 90 em matemática? 

In [61]:
hightMat=data[data["Nota_Matematica"]>90]
# Tamanho do conjunto
len(hightMat)


len(hightMat) 

8834

Qual o percentual?

In [62]:
round(len(hightMat)/len(estudantes)*100,4)

22.5587

Quantos Alunos tiraram nota maior do que 90 nas duas disciplinas? 

In [63]:
highBoth=data[(data["Nota_Redacao"]>90) & (data["Nota_Matematica"]>90)]

Qual o percentual? 

In [64]:
round(len(highBoth)/len(estudantes)*100,4)

5.9321

Quantos alunos que obtiveram alto desempenho em ambas as disciplinas são de escolas públicas?

In [66]:
# busca as escolas 
highBoth["Tipo_Escola"]=='Publica'

5         True
30        True
91        True
133       True
181       True
         ...  
39091    False
39121    False
39127    False
39138    False
39155    False
Name: Tipo_Escola, Length: 2323, dtype: bool

In [67]:
# merge nos dados
highBoth[highBoth["Tipo_Escola"]=='Publica']

Unnamed: 0,ID_Estudante,Nome_Estudante,Genero,Serie,Nome_Escola,Nota_Redacao,Nota_Matematica,ID_Escola,Tipo_Escola,Numero_Alunos,Orcamento_Anual
5,5,James Miranda,M,6,Escola A,94,94,0,Publica,2917,1910635
30,30,Bobby Harris,M,6,Escola A,94,99,0,Publica,2917,1910635
91,91,Mark Cherry,M,7,Escola A,96,98,0,Publica,2917,1910635
133,133,Marisa Lowe,F,6,Escola A,95,95,0,Publica,2917,1910635
181,181,Matthew Anderson,M,8,Escola A,92,99,0,Publica,2917,1910635
...,...,...,...,...,...,...,...,...,...,...,...
37402,37402,Richard Campbell,M,6,Escola N,94,99,13,Publica,2739,1763916
37434,37434,Cassandra Kim,F,7,Escola N,91,98,13,Publica,2739,1763916
37447,37447,Autumn Williams,F,6,Escola N,99,97,13,Publica,2739,1763916
37455,37455,Pamela Douglas,F,8,Escola N,91,99,13,Publica,2739,1763916


In [69]:
# verificando se ha apenas publicos (metodo presente no pandas)
highBoth["Tipo_Escola"].value_counts()

Tipo_Escola
Publica       1321
Particular    1002
Name: count, dtype: int64

Quantas alunas obtiveram alto desempenho em ambas as disciplinas?

Como ficou a distribuição dos alunos de alto desempenho pelas série?

Qual o total por escolas? 

Qual o orçamento per capita de cada escola?

Quais foram as escolas mais eficientes? 

Para tentar responder essa pergunta vamos adicionar o percentual de alunos de alto desempenho ao nosso dataset.