## Analysis of socioeconomic data of students from Grupo-PróEstudar 2019 (In progress)

###### This is a real project in progress in order to study the correlation between the students' performance of the test for enrolling in a preparatory course offered by a  volunteer organization and their socioeconomic data. That course has the goal of preparing students for the college entrance exam in Brazil.

In [1]:
%matplotlib notebook
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import os
os.listdir()

['.git',
 '.ipynb_checkpoints',
 'Data GPE2019 Analysis .ipynb',
 'Desempenho X Cultura (final).xlsx',
 'README.md']

In [2]:
survey = pd.ExcelFile("Desempenho X Cultura (final).xlsx").parse("DesempenhoXFatores")
survey.head()


Unnamed: 0,Nome,Categoria,Acertos,Acertos ( %),Escola_Ensino_Médio,Cor_Raça,Qual_renda_média _mensal_família,Quantos_livros_média_le_ano,frequência_teatro_cinema,Você_costuma _visitar _museus,"Você possui um espaço próprio e exclusivo (por exemplo, seu quarto) para se dedicar aos estudos?",Leitura Anual
0,Adinan Augusto Peres Canossa,P2,17,0.226667,José Inocêncio da Costa,Branca,"Entre R$ 2000,00 e R$ 3000,00",1 a 2,3 a 4 vezes por mês,Não tenho esse costume,Sim,Menos de 2
1,ADRIELI ALEIXO RIBEIRO,P1,26,0.346667,Henrique Morato,Parda,"Entre R$ 1000,00 e R$ 2000,00",3 a 4,Menos que 1 vez por mês,Não tenho esse costume,Sim,Mais de 2
2,Adrielly Fernanda Buzeti,P1,21,0.28,Jardim Buscardi,Parda,"Entre R$ 2000,00 e R$ 3000,00",3 a 4,Menos que 1 vez por mês,Vou 1 vez por ano,Sim,Mais de 2
3,Alan Neves de Melo,P1,48,0.64,Adelino Bordignon,Branca,"Entre R$ 3000,00 e R$ 4000,00",3 a 4,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Mais de 2
4,Aline Haints Pastreli,P1,35,0.466667,Adelino Bordignon,Branca,"Entre R$ 2000,00 e R$ 3000,00",Mais do que 4,1 a 2 vezes por mês,Não tenho esse costume,Sim,Mais de 2


### Cleaning and Transforming Data

In [3]:
Nullvalues = survey.isnull()
True in Nullvalues
# We can conclude we don't have Nan(not a number) and None values in the dataset

False

In [4]:
survey.columns

Index(['Nome', 'Categoria', 'Acertos', 'Acertos ( %)', 'Escola_Ensino_Médio',
       'Cor_Raça', 'Qual_renda_média _mensal_família',
       'Quantos_livros_média_le_ano', 'frequência_teatro_cinema',
       'Você_costuma _visitar _museus',
       'Você possui um espaço próprio e exclusivo (por exemplo, seu quarto) para se dedicar aos estudos?',
       'Leitura Anual'],
      dtype='object')

In [5]:
survey.rename(columns = {'Acertos ( %)': "Acertos (%)", 'Escola_Ensino_Médio': "Escola", 'Qual_renda_média _mensal_família': "Renda Média(Mês)",
                        'Quantos_livros_média_le_ano': 'Leitura Anual (1 a 2)', 'Você_costuma _visitar _museus': "Visita em Museus",
                        'Você possui um espaço próprio e exclusivo (por exemplo, seu quarto) para se dedicar aos estudos?': "Espaço ind. estudo"},
                         inplace = True)
survey["Acertos (%)"] *= 100
survey.head()

Unnamed: 0,Nome,Categoria,Acertos,Acertos (%),Escola,Cor_Raça,Renda Média(Mês),Leitura Anual (1 a 2),frequência_teatro_cinema,Visita em Museus,Espaço ind. estudo,Leitura Anual
0,Adinan Augusto Peres Canossa,P2,17,22.666667,José Inocêncio da Costa,Branca,"Entre R$ 2000,00 e R$ 3000,00",1 a 2,3 a 4 vezes por mês,Não tenho esse costume,Sim,Menos de 2
1,ADRIELI ALEIXO RIBEIRO,P1,26,34.666667,Henrique Morato,Parda,"Entre R$ 1000,00 e R$ 2000,00",3 a 4,Menos que 1 vez por mês,Não tenho esse costume,Sim,Mais de 2
2,Adrielly Fernanda Buzeti,P1,21,28.0,Jardim Buscardi,Parda,"Entre R$ 2000,00 e R$ 3000,00",3 a 4,Menos que 1 vez por mês,Vou 1 vez por ano,Sim,Mais de 2
3,Alan Neves de Melo,P1,48,64.0,Adelino Bordignon,Branca,"Entre R$ 3000,00 e R$ 4000,00",3 a 4,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Mais de 2
4,Aline Haints Pastreli,P1,35,46.666667,Adelino Bordignon,Branca,"Entre R$ 2000,00 e R$ 3000,00",Mais do que 4,1 a 2 vezes por mês,Não tenho esse costume,Sim,Mais de 2


### Sorting and Indexing Data Frames Properly

In [6]:
survey = survey.sort_values("Escola", ascending = True).set_index(["Escola", "Nome"]).sort_index(ascending = True)
survey.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Categoria,Acertos,Acertos (%),Cor_Raça,Renda Média(Mês),Leitura Anual (1 a 2),frequência_teatro_cinema,Visita em Museus,Espaço ind. estudo,Leitura Anual
Escola,Nome,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Adelino Bordignon,Alan Neves de Melo,P1,48,64.0,Branca,"Entre R$ 3000,00 e R$ 4000,00",3 a 4,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Mais de 2
Adelino Bordignon,Aline Haints Pastreli,P1,35,46.666667,Branca,"Entre R$ 2000,00 e R$ 3000,00",Mais do que 4,1 a 2 vezes por mês,Não tenho esse costume,Sim,Mais de 2
Adelino Bordignon,Ana Clara Custódio da Cunha,P1,34,45.333333,Branca,"Entre R$ 4000,00 e R$ 5000,00",1 a 2,Menos que 1 vez por mês,Não tenho esse costume,Não,Menos de 2
Adelino Bordignon,Beatriz Bombonato da Silva,P1,50,66.666667,Branca,"Entre R$ 3000,00 e R$ 4000,00",Mais do que 4,Menos que 1 vez por mês,Não tenho esse costume,Sim,Mais de 2
Adelino Bordignon,Beatriz Santana de Oliveira,P1,39,52.0,Branca,"Entre R$ 4000,00 e R$ 5000,00",Menos de 1,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Menos de 2


## Statistical Analysis

### Correlation between Schooll and Performance

#### Figuring Out  Descriptive Statistic Values

In [7]:
destat = survey.groupby("Escola")["Acertos (%)"].agg({"Size (N)": np.count_nonzero, "Min": np.min,
                                                     "Max": np.max, "Average": np.mean, "St. Dev.": np.std})
destat.head()

is deprecated and will be removed in a future version
  


Unnamed: 0_level_0,Size (N),Min,Max,Average,St. Dev.
Escola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelino Bordignon,55.0,28.0,80.0,53.163636,13.028755
Chlorita de Oliveira Penteado Martins,13.0,17.333333,50.666667,31.384615,8.736732
Dorival de Carvalho,1.0,24.0,24.0,24.0,
Henrique Morato,6.0,24.0,40.0,33.333333,7.495184
IFSP,31.0,14.666667,57.333333,37.11828,9.218961


##### Normality Test

In [25]:

import matplotlib.pyplot as plt
#Ploting normal distribution
#Assuming my data is normally distributed
mu = np.mean(survey["Acertos (%)"])
std= np.std(survey["Acertos (%)"])
N = np.count_nonzero(survey["Acertos (%)"])
distribution = np.random.normal(mu,std,N)
plt.figure()
count, bins, ignored = plt.hist(distribution, 12, density=True, facecolor = "lightslategrey", alpha = 1)
plt.plot(bins, 1/(std * np.sqrt(2 * np.pi)) * np.exp( - (bins - mu)**2 / (2 * std**2) ),linewidth=2, color='r')
plt.xlabel("Scores (%)")
plt.ylabel("Frequency")
plt.title('Normal Distribution From Descreptive Informations')
plt.text(53,0.0296, r'$\mu=43.3,\ \sigma=13.63$')
plt.gcf().set_size_inches(8.3,4.7)
plt.gcf().set_dpi(100)
plt.subplots_adjust(bottom = 0.10)
plt.show();

<IPython.core.display.Javascript object>

In [9]:
print(mu)
print(std)

40.59523809523813
13.386211755196118


In [10]:
#Using Shapiro-Wilk test to evaluate my data population in order to figure out whether or not my sample data proceeds
#a Gaussian distribution
stat,p = stats.shapiro(survey["Acertos (%)"]) 
alpha = 0.05
if  p < alpha:
    print("p-value {} and test statistic {}. The data dont'n follow a Gaussian distribution".format(p, stat))
if p > alpha:
    print("p-value {} and test statistic {}. I can't conclude the data do not follow a Gaussian shape".format(p,stat))

p-value 6.0642223616014235e-06 and test statistic 0.9468953013420105. The data dont'n follow a Gaussian distribution


If my dataset don't follow a normal distribution, them I've less tools suitable to evaluate the correlation between 'Acertos (%)' and 'Escola'. I must probabily use nonparametric tests but before discuss about that let's visualize the distribution of our data related to Schools.

In [11]:
survey = survey.reset_index()
dataset = survey.loc[:,["Escola", "Acertos (%)"]]
dataset.head()

Unnamed: 0,Escola,Acertos (%)
0,Adelino Bordignon,64.0
1,Adelino Bordignon,46.666667
2,Adelino Bordignon,45.333333
3,Adelino Bordignon,66.666667
4,Adelino Bordignon,52.0


In [40]:
import seaborn as sns
plt.figure()
sns.set(style = "ticks", color_codes = True)
sns.set(rc={'figure.figsize':(9.7,7.0)})
chart = sns.swarmplot(x = "Escola", y = "Acertos (%)", data = dataset)
plt.title("Acertos (%) X Escola")
chart.set_xticklabels(chart.get_xticklabels(), rotation = 45, horizontalalignment = "right")
plt.subplots_adjust(bottom = 0.4);

<IPython.core.display.Javascript object>

#### One-Way Anova Analysis

When it comes to dataset requirements to use the ANOVA analysis, the support website of  Minitab says that even though the sample is not from a normal population, we can use the one-way ANOVA in case that each sample group is greater than 15 or 20. The test performs very well with skewed and nonnormal distribution, on the other hand, it's not all group that has a sample greater than 15 or 20 but,  even so, the ANOVA test allows using different group sizes.
Let's pick up randomly 16  N from the six largest groups in which two will have 13 N owing to they don't have data enough. Keep in mind groups less than 20 or 15 can result in misleading conclusions with nonnormal distribution, so let's use One way-ANOVA carefully just for studying.
Resourses: https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/anova/how-to/one-way-anova/before-you-start/data-considerations/

In [13]:
# 6 best school 
sixlargest = []
for label,value in destat["Size (N)"].nlargest(6).iteritems():
    sixlargest.append(label)
print(sixlargest)

['Adelino Bordignon', 'IFSP', 'Jardim Buscardi', 'José Inocêncio da Costa', 'Chlorita de Oliveira Penteado Martins', 'Sylvio de Mattos Carvalho - ETEC']


In [14]:
#reindexing and queriyng our data frame
survey = survey.sort_values( "Escola", ascending =True).set_index(["Escola", "Nome"]).sort_index(ascending = True)
survey = survey.loc[sixlargest]
survey.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Categoria,Acertos,Acertos (%),Cor_Raça,Renda Média(Mês),Leitura Anual (1 a 2),frequência_teatro_cinema,Visita em Museus,Espaço ind. estudo,Leitura Anual
Escola,Nome,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Adelino Bordignon,Alan Neves de Melo,P1,48,64.0,Branca,"Entre R$ 3000,00 e R$ 4000,00",3 a 4,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Mais de 2
Adelino Bordignon,Aline Haints Pastreli,P1,35,46.666667,Branca,"Entre R$ 2000,00 e R$ 3000,00",Mais do que 4,1 a 2 vezes por mês,Não tenho esse costume,Sim,Mais de 2
Adelino Bordignon,Ana Clara Custódio da Cunha,P1,34,45.333333,Branca,"Entre R$ 4000,00 e R$ 5000,00",1 a 2,Menos que 1 vez por mês,Não tenho esse costume,Não,Menos de 2
Adelino Bordignon,Beatriz Bombonato da Silva,P1,50,66.666667,Branca,"Entre R$ 3000,00 e R$ 4000,00",Mais do que 4,Menos que 1 vez por mês,Não tenho esse costume,Sim,Mais de 2
Adelino Bordignon,Beatriz Santana de Oliveira,P1,39,52.0,Branca,"Entre R$ 4000,00 e R$ 5000,00",Menos de 1,Menos que 1 vez por mês,Conheço ou visitei museus apenas por excursões...,Sim,Menos de 2


In [15]:
#confirming the len of my data fram
np.sum(destat["Size (N)"].loc[sixlargest]) == len(survey)

True

In [16]:
#Picking ramdomly samples of size 16 from each school
school = list(survey.index.get_level_values("Escola").unique())
dic = {}
for index in school:
    if index == 'Sylvio de Mattos Carvalho - ETEC':
        dic.setdefault(index,list(survey.loc[index]["Acertos (%)"].sample(n = 13)) +list(np.repeat((np.nan),3)))
    if index == "Chlorita de Oliveira Penteado Martins":
        dic.setdefault(index,list(survey.loc[index]["Acertos (%)"].sample(n = 13)) +list(np.repeat((np.nan),3)))
school.remove('Sylvio de Mattos Carvalho - ETEC')
school.remove("Chlorita de Oliveira Penteado Martins")
for index in school:
        dic.setdefault(index,list(survey.loc[index]["Acertos (%)"].sample(n = 16)))
Samples = pd.DataFrame(dic)
Samples

        


Unnamed: 0,Chlorita de Oliveira Penteado Martins,Sylvio de Mattos Carvalho - ETEC,Adelino Bordignon,IFSP,Jardim Buscardi,José Inocêncio da Costa
0,32.0,38.666667,52.0,24.0,38.666667,34.666667
1,24.0,38.666667,61.333333,26.666667,30.666667,42.666667
2,26.666667,46.666667,42.666667,44.0,26.666667,42.666667
3,25.333333,45.333333,76.0,36.0,26.666667,24.0
4,30.666667,29.333333,78.666667,45.333333,34.666667,33.333333
5,32.0,24.0,70.666667,41.333333,20.0,25.333333
6,32.0,36.0,46.666667,33.333333,44.0,30.666667
7,26.666667,40.0,53.333333,42.666667,34.666667,34.666667
8,28.0,50.666667,56.0,40.0,41.333333,34.666667
9,17.333333,50.666667,49.333333,33.333333,22.666667,21.333333


In [42]:
#ploting a box-splot chart
box = sns.catplot(kind = "box", data = Samples, palette = "Set3", orient = "h", width = 0.6, height = 6.5)
box.set(xlabel = "Performance (%)", ylabel = "School")
plt.title("Score(%) X School(Sample")
plt.subplots_adjust(bottom = 0.1);



<IPython.core.display.Javascript object>

In [18]:
Samples.columns

Index(['Chlorita de Oliveira Penteado Martins',
       'Sylvio de Mattos Carvalho - ETEC', 'Adelino Bordignon', 'IFSP',
       'Jardim Buscardi', 'José Inocêncio da Costa'],
      dtype='object')

In [19]:
#One-Way ANOVA
F,p = stats.f_oneway(Samples.iloc[0:13]['Chlorita de Oliveira Penteado Martins'],
               Samples.iloc[0:13]['Sylvio de Mattos Carvalho - ETEC'],
              Samples['Adelino Bordignon'], Samples['Jardim Buscardi'], Samples["José Inocêncio da Costa"], Samples["IFSP"])
alpha = 0.05
if p < alpha:
    print("F = {}, p-value = {}. I reject null hypothesis Ho. At least one popullation mean is different from others".format(F,p))
if p > alpha:
     print("F = {}, p-value = {}. I don't have enough evidence to reject  null hypothesisHo. All population means are statistically equal".format(F,p))
    

F = 17.39054756559594, p-value = 8.778474270555243e-12. I reject null hypothesis Ho. At least one popullation mean is different from others


#### Kruskal Test

It's important to use Kruskal Test to analyze different group means when data considerations for One-way ANOVA were not met even if the power test is lower 

In [20]:
F,p = stats.kruskal(Samples.iloc[0:13]['Chlorita de Oliveira Penteado Martins'],
               Samples.iloc[0:13]['Sylvio de Mattos Carvalho - ETEC'],
              Samples['Adelino Bordignon'], Samples['Jardim Buscardi'], Samples["José Inocêncio da Costa"], Samples["IFSP"])
alpha = 0.05
if p < alpha:
    print("F = {}, p-value = {}. I reject null hypothesis Ho. At least one popullation mean is different of others".format(F,p))
if p > alpha:
     print("F = {}, p-value = {}. I don't have enough evidence to reject  null hypothesisHo. All population means are statistically equal".format(F,p))
    

F = 37.781546304843665, p-value = 4.1743400957590806e-07. I reject null hypothesis Ho. At least one popullation mean is different of others


#### Tukey pairwise comparison