# ANÁLISIS DE DATOS

In [3]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA

%matplotlib inline

In [4]:
datos = pd.read_csv("Datos/datos")
print datos.shape
datos.head()

(494856, 16)


Unnamed: 0,ESTU_GENERO,ESTU_DEPTO_RESIDE,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_TIENESERVICIOTV,FAMI_TIENECOMPUTADOR,FAMI_SITUACIONECONOMICA,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET,COLE_AREA_UBICACION,PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS,PUNT_C_NATURALES,PUNT_SOCIALES_CIUDADANAS,PUNT_INGLES,PUNT_GLOBAL
0,1,4,2,1,1,0,1,15,180,0,63,69,54,57,65.0,305
1,1,13,1,1,1,0,2,45,45,0,54,50,50,40,48.0,242
2,1,31,2,0,0,0,2,15,45,1,59,43,46,45,47.0,241
3,1,6,3,1,1,1,1,15,180,0,61,60,60,67,63.0,310
4,1,15,2,1,1,0,1,15,120,0,56,51,48,49,56.0,257


## Cantidad total de hombres y mujeres que presentaron la prueba

In [5]:
for i in np.unique(datos['ESTU_GENERO']):
    print i, np.sum(datos['ESTU_GENERO']==i)

0 267840
1 227016


## Cantidad total de estudiantes por departamento

In [6]:
lista = {i: np.sum(datos['ESTU_DEPTO_RESIDE']==i) for i in np.unique(datos['ESTU_DEPTO_RESIDE'])}
dt = pd.DataFrame.from_dict(lista, orient='Index')
dt.head()

Unnamed: 0,0
1,815
2,66527
3,3008
4,27891
5,22070


## Cuantificando si tiene servicio de internet

In [7]:
for i in np.unique(datos['FAMI_TIENEINTERNET']):
    print i, np.sum(datos['FAMI_TIENEINTERNET']==i)

0 203976
1 290880


## Cuantificando si tienen computador

In [8]:
for i in np.unique(datos['FAMI_TIENECOMPUTADOR']):
    print i, np.sum(datos['FAMI_TIENECOMPUTADOR']==i)

0 205840
1 289016


## Cuantificando la dedicación media a navegar por internet (en minutos)

In [9]:
for i in np.unique(datos['ESTU_DEDICACIONINTERNET']):
    print i, np.sum(datos['ESTU_DEDICACIONINTERNET']==i)

0 31263
15 93078
45 129677
120 144809
180 96029


## Cuantificando la dedicación media dedicación lectura diaria (en minutos)

In [10]:
for i in np.unique(datos['ESTU_DEDICACIONLECTURADIARIA']):
    print i, np.sum(datos['ESTU_DEDICACIONLECTURADIARIA']==i)

0 88708
15 193195
45 137200
90 55526
120 20227


## Cuantificando la cantidad de estudiantes que viven en zonas rurales o urbanas

In [11]:
for i in np.unique(datos['COLE_AREA_UBICACION']):
    print i, np.sum(datos['COLE_AREA_UBICACION']==i)

0 420189
1 74667


## Cuantificando la cantidad de estudiantes que viven en los diferentes estratos sociales

In [12]:
for i in np.unique(datos['FAMI_ESTRATOVIVIENDA']):
    print i, np.sum(datos['FAMI_ESTRATOVIVIENDA']==i)

0 13820
1 164238
2 182769
3 100969
4 22718
5 7092
6 3250


## Calculando el Factor Social para cada estudiante

In [13]:
media = np.mean(datos.values[:, 2:9], axis=1)
media = np.reshape(media, (494856,1))
datos = np.concatenate((datos,media), axis=1)

In [14]:
datos = pd.DataFrame(data=datos)
datos.columns = ['ESTU_GENERO','ESTU_DEPTO_RESIDE','FAMI_ESTRATOVIVIENDA','FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV' ,'FAMI_TIENECOMPUTADOR','FAMI_SITUACIONECONOMICA','ESTU_DEDICACIONLECTURADIARIA','ESTU_DEDICACIONINTERNET', 'COLE_AREA_UBICACION', 'PUNT_LECTURA_CRITICA','PUNT_MATEMATICAS','PUNT_C_NATURALES','PUNT_SOCIALES_CIUDADANAS','PUNT_INGLES','PUNT_GLOBAL', 'FACTOR_SOCIAL']

## El rango del puntaje del factor social (media entre los diferentes valores sociales)  $[0 - 44.4285]$ 

In [15]:
np.amax(datos)

ESTU_GENERO                       1.000000
ESTU_DEPTO_RESIDE                33.000000
FAMI_ESTRATOVIVIENDA              6.000000
FAMI_TIENEINTERNET                1.000000
FAMI_TIENESERVICIOTV              1.000000
FAMI_TIENECOMPUTADOR              1.000000
FAMI_SITUACIONECONOMICA           2.000000
ESTU_DEDICACIONLECTURADIARIA    120.000000
ESTU_DEDICACIONINTERNET         180.000000
COLE_AREA_UBICACION               1.000000
PUNT_LECTURA_CRITICA            100.000000
PUNT_MATEMATICAS                100.000000
PUNT_C_NATURALES                100.000000
PUNT_SOCIALES_CIUDADANAS        100.000000
PUNT_INGLES                     100.000000
PUNT_GLOBAL                     478.000000
FACTOR_SOCIAL                    44.428571
dtype: float64

## ¿Qué hay de los estudiantes con el factor social más alto?

In [16]:
alto = datos.loc[datos['FACTOR_SOCIAL']>40] 
print (alto.shape)
print "Media Punt Global de estudiantes con factor social alto :", np.mean(alto['PUNT_GLOBAL']) , "Desv Est", np.std(alto['PUNT_GLOBAL'])
relacion = (6167.00/494856.0)*100
print relacion , " % de la muestra total"

(6167, 17)
Media Punt Global de estudiantes con factor social alto : 278.50251337765525 Desv Est 49.907785422057884
1.24622112291  % de la muestra total


## ¿Qué hay de los estudiantes con el factor social más bajos?

In [17]:
bajo = datos.loc[datos['FACTOR_SOCIAL']<10]
print bajo.shape
print ("Media de punt global de los estudiantes con factor social bajo: ", np.mean(bajo['PUNT_GLOBAL']), np.std(bajo['PUNT_GLOBAL']))
relacion2 = (187580.0/494856)*100
print relacion2 , " % de la muestra total "

(187580, 17)
('Media de punt global de los estudiantes con factor social bajo: ', 238.09107047659666, 45.18737035163135)
37.9059766882  % de la muestra total 


## ¿El impacto del Internet es de relevancia para el puntaje global?

In [18]:
# -------------------- La misma cantidad para no alterar la medición -----------------

internet = datos.loc[datos['FAMI_TIENEINTERNET']==1][:203976]
nInternet = datos.loc[datos['FAMI_TIENEINTERNET']==0][:203976]

print "Media Punt Global Si",np.mean(internet['PUNT_GLOBAL']), "Desv Est: ",np.std(internet['PUNT_GLOBAL'])
print "Media Punt Global No",np.mean(nInternet['PUNT_GLOBAL']),"Desv Est: " ,np.std(nInternet['PUNT_GLOBAL'])


Media Punt Global Si 264.98508648076245 Desv Est:  50.03219982472944
Media Punt Global No 236.04294132643057 Desv Est:  43.66681008681343


## ¿La situación económica puede influir positiva o negativamente?

In [19]:
# -------------------- La misma cantidad para no alterar la medición -----------------

mejor = datos.loc[datos['FAMI_SITUACIONECONOMICA']==2][:68678]
regular = datos.loc[datos['FAMI_SITUACIONECONOMICA']==1][:68678]
peor = datos.loc[datos['FAMI_SITUACIONECONOMICA']==0][:68678]

print "Media Punt Global Mejor",np.mean(mejor['PUNT_GLOBAL']), "Desv Est: ",np.std(mejor['PUNT_GLOBAL'])
print "Media Punt Global Regular",np.mean(regular['PUNT_GLOBAL']), "Desv Est: ",np.std(regular['PUNT_GLOBAL'])
print "Media Punt Global Peor",np.mean(peor['PUNT_GLOBAL']), "Desv Est: ",np.std(peor['PUNT_GLOBAL'])


Media Punt Global Mejor 245.98916683654153 Desv Est:  50.28111138307171
Media Punt Global Regular 255.7744547016512 Desv Est:  48.90702107862969
Media Punt Global Peor 261.94603803255774 Desv Est:  50.01625875274798


## Los departamentos y sus puntajes medios globales

In [40]:
dic = {i : np.mean(datos.loc[datos['ESTU_DEPTO_RESIDE']==i]['PUNT_GLOBAL']) for i in np.unique(datos['ESTU_DEPTO_RESIDE'])}

mDepar = pd.DataFrame.from_dict(dic, orient='Index')

mDepar.head()

Unnamed: 0,0
1.0,218.871166
2.0,249.295218
3.0,248.485705
4.0,248.755871
5.0,235.780834


## Los departamentos y sus puntajes medios de factor social

In [45]:
fac = {i : np.mean(datos.loc[datos['ESTU_DEPTO_RESIDE']==i]['FACTOR_SOCIAL']) for i in np.unique(datos['ESTU_DEPTO_RESIDE'])}

dicFac = pd.DataFrame.from_dict(fac, orient='Index')

dicFac.columns = ['FACTOR_SOCIAL']
dicFac.head()


Unnamed: 0,FACTOR_SOCIAL
1.0,13.288519
2.0,18.687555
3.0,13.681991
4.0,19.191311
5.0,17.278691


In [47]:
dicFac.loc[dicFac['FACTOR_SOCIAL']<=13]

Unnamed: 0,FACTOR_SOCIAL
1.0,13.288519
3.0,13.681991
10.0,13.499767
16.0,12.686397
24.0,12.75198
32.0,11.335404
33.0,13.058271


In [50]:
dicFac.loc[dicFac['FACTOR_SOCIAL']>=18]

Unnamed: 0,FACTOR_SOCIAL
2.0,18.687555
4.0,19.191311
15.0,20.111998
25.0,18.427961
26.0,18.8076
27.0,18.009257
31.0,18.577128
