Análisis de Datos con python
==============
**Author:** *Jhoan Sebastian Almeida Caicedo*

***07 de enero de 2020***


**Un analista de datos es alguien que usa datos para responder preguntas**

Para cada conjunto de datos, se tendra la oportunidad de plantear sus propias preguntas
y realizar tus propias investigaciones

Librerias como NumPy, Pandas y Matplotlib nos facilitan el analisis de los datos

En la actualidad el analisis de datos es indispensable por ejemplo las compañias
farmaceuticas han comenzado a utilizar el aprendizaje automatico para predecir que compuestos quimicos tiene mas probabilidades de producir
medicamentos efectivos, usando esto, pueden tomar mejores decisiones sobre que compuestos es probable que sean un bien uso de los recursos involucrados en 
la ejecucion de un ensayo clinico.


![Analista](https://www.bbva.com/wp-content/uploads/2016/07/bbva-perfil-analista-datos-1024x701.jpg)




**Proceso de analisis de datos (Fases).**

1. Pregunta que se desea responder o un problema que se quiera resolver.
2. Disputa de datos.
	* Adquisicion de datos.
	* Limpieza de datos.
3. Exploracion de los datos
	* Construccion de intuicion al respecto.
	* Encontrar patrones.
4. Una vez familiarizado con los datos, se querra dibujar algunos 
(Conclusiones al respecto o tal vez hacer algunas predicciones)
	* Requiere estadistica o aprendizaje automatico.

5. Comunicar hallazgos a otras personas
	* Publicacion de blog.
	* Un articulo.
	* Un correo electronico.
	* Presentacion Power Point.
	* Conversacion.
	(La visualizacion de datos es una tecnica comun que casi siempre es util)
    
_Este proceso en realidad no sigue una linea recta, en especial la fase 2 y 3
Porque realmente no se pueden limpiar ningun problema con los datos y si se avanza 
se encontraran con mas problemas y toque volver a disputar y limpieza de datos.
Tambien puede pasar constantemente volver a revisar la pregunta y refinarla.
Por otro lado se pueden tener primero los datos y luego pensar en algunas preguntas
que se pueden responder con los datos._


### CSVs in Python

In [21]:
import unicodecsv

def read_csv(filename):
    with open(filename, 'rb') as f:
        reader = unicodecsv.DictReader(f)
        return list(reader)

enrollments = read_csv('enrollments.csv')
daily_engagement = read_csv('daily_engagement.csv')
project_submissions = read_csv('project_submissions.csv')

In [7]:
'''import urllib
import csv
import unicodecsv 
from io import StringIO

url = 'https://raw.githubusercontent.com/MAXICAPO1999/Udacity/master/daily_engagement.csv'
respuesta = urllib.request.urlopen(url)
f = StringIO(bytearray(respuesta.read()).decode())
archivo = csv.reader(f)

for filas in archivo:
    print(filas)
import unicodecsv
import urllib
import csv
from io import StringIO
import codecs
from urllib.request import urlopen

def read_csv(filename):
        reader = unicodecsv.DictReader(filename)
        return list(reader)

response = urlopen('https://raw.githubusercontent.com/MAXICAPO1999/Udacity/master/daily_engagement.csv')
read = csv.reader(codecs.iterdecode(response, 'utf-8'))

enrollments = read_csv(read)
#daily_engagement = read_csv(url)
#project_submissions = read_csv(url)

print (enrollments[0])
#print (daily_engagement[0])
#print (project_submissions[0])

import unicodecsv

def read_csv(filename):
    with open(filename, 'rb') as f:
        reader = unicodecsv.DictReader(f)
        return list(reader)

enrollments = read_csv('enrollments.csv')
daily_engagement = read_csv('daily_engagement.csv')
project_submissions = read_csv('project_submissions.csv')
'''


In [22]:
print (enrollments[0])
print ("---------------------------------------------------------------------------")
print (daily_engagement[0])
print ("---------------------------------------------------------------------------")
print (project_submissions[0])

OrderedDict([('account_key', '448'), ('status', 'canceled'), ('join_date', '2014-11-10'), ('cancel_date', '2015-01-14'), ('days_to_cancel', '65'), ('is_udacity', 'True'), ('is_canceled', 'True')])
---------------------------------------------------------------------------
OrderedDict([('acct', '0'), ('utc_date', '2015-01-09'), ('num_courses_visited', '1.0'), ('total_minutes_visited', '11.6793745'), ('lessons_completed', '0.0'), ('projects_completed', '0.0')])
---------------------------------------------------------------------------
OrderedDict([('creation_date', '2015-01-14'), ('completion_date', '2015-01-16'), ('assigned_rating', 'UNGRADED'), ('account_key', '256'), ('lesson_key', '3176718735'), ('processing_state', 'EVALUATED')])


### Investigating the Data

In [23]:
len(enrollments)

unique_enrolled_students = set()
for enrollment in enrollments:
    unique_enrolled_students.add(enrollment['account_key'])
len(unique_enrolled_students)

len(daily_engagement)

unique_engagement_students = set()
for engagement_record in daily_engagement:
    unique_engagement_students.add(engagement_record['acct'])
len(unique_engagement_students)

len(project_submissions)

unique_project_submitters = set()
for submission in project_submissions:
    unique_project_submitters.add(submission['account_key'])
len(unique_project_submitters)

743

### Problems in the Data

* Podria observar algunas caracteristicas diferentes de los estudiantes y tratar de
encontrar diferencias entre los estudiantes que pasan sus proyectos y estudiantes que no.

* Cuanto tiempo les toma a los estudiantes ante la presentacion de sus proyectos 

* Cual es la calificacion promedio

In [24]:
for engagement_record in daily_engagement:
    engagement_record['account_key'] = engagement_record['acct']
    del[engagement_record['acct']]

### Missing engagement records

In [29]:
for enrollment in enrollments:
    student = enrollment['account_key']
    if student not in unique_engagement_students:
        print (enrollment)
        break

OrderedDict([('account_key', '1219'), ('status', 'canceled'), ('join_date', '2014-11-12'), ('cancel_date', '2014-11-12'), ('days_to_cancel', '0'), ('is_udacity', 'False'), ('is_canceled', 'True')])


### Checking for more problem records

In [32]:
num_problem_students = 0
for enrollment in enrollments:
    student = enrollment['account_key']
    if (student not in unique_engagement_students and 
            enrollment['join_date'] != enrollment['cancel_date']):
        print (enrollment)
        num_problem_students += 1

num_problem_students

OrderedDict([('account_key', '1304'), ('status', 'canceled'), ('join_date', '2015-01-10'), ('cancel_date', '2015-03-10'), ('days_to_cancel', '59'), ('is_udacity', 'True'), ('is_canceled', 'True')])
OrderedDict([('account_key', '1304'), ('status', 'canceled'), ('join_date', '2015-03-10'), ('cancel_date', '2015-06-17'), ('days_to_cancel', '99'), ('is_udacity', 'True'), ('is_canceled', 'True')])
OrderedDict([('account_key', '1101'), ('status', 'current'), ('join_date', '2015-02-25'), ('cancel_date', ''), ('days_to_cancel', ''), ('is_udacity', 'True'), ('is_canceled', 'False')])


3

### Refining the Question

In [35]:
udacity_test_accounts = set()
for enrollment in enrollments:
    if enrollment['is_udacity']:
        udacity_test_accounts.add(enrollment['account_key'])
len(udacity_test_accounts)

1302

In [42]:
def remove_udacity_accounts(data):
    non_udacity_data = []
    for data_point in data:
        if data_point['account_key'] not in udacity_test_accounts:
            non_udacity_data.append(data_point)
    return non_udacity_data

In [43]:
non_udacity_enrollments = remove_udacity_accounts(enrollments)
non_udacity_engagement = remove_udacity_accounts(daily_engagement)
non_udacity_submissions = remove_udacity_accounts(project_submissions)

print (len(non_udacity_enrollments))
print (len(non_udacity_engagement))
print (len(non_udacity_submissions))

0
0
8


In [44]:
paid_students = {}
for enrollment in non_udacity_enrollments:
    if (not enrollment['is_canceled'] or
            enrollment['days_to_cancel'] > 7):
        account_key = enrollment['account_key']
        enrollment_date = enrollment['join_date']
        if (account_key not in paid_students or
                enrollment_date > paid_students[account_key]):
            paid_students[account_key] = enrollment_date
len(paid_students)

0

### Getting Data from First Week

In [48]:
def within_one_week(join_date, engagement_date):
    time_delta = engagement_date - join_date
    return time_delta.days < 7

def remove_free_trial_cancels(data):
    new_data = []
    for data_point in data:
        if data_point['account_key'] in paid_students:
            new_data.append(data_point)
    return new_data

paid_enrollments = remove_free_trial_cancels(non_udacity_enrollments)
paid_engagement = remove_free_trial_cancels(non_udacity_engagement)
paid_submissions = remove_free_trial_cancels(non_udacity_submissions)

print (len(paid_enrollments))
print (len(paid_engagement))
print (len(paid_submissions))

paid_engagement_in_first_week = []
for engagement_record in paid_engagement:
    account_key = engagement_record['account_key']
    join_date = paid_students[account_key]
    engagement_record_date = engagement_record['utc_date']

    if within_one_week(join_date, engagement_record_date):
         paid_engagement_in_first_week.append(engagement_record)

len(paid_engagement_in_first_week)

0
0
0


0

### Debugging Data Analysis Code

*_Se puede observar que falla por el hecho de que este curso fue desarrollado en version 2.0 python, sin embargo python 2 dejo de tener soporte dado que los desarrolladores tiene que avanzar en nuevos desarrollos del lenguaje_*

[URL Implementation](https://docs.python.org/3/library/stdtypes.html#dict-views)

In [54]:
from collections import defaultdict

def group_data(data, key_name):
    grouped_data = defaultdict(list)
    for data_point in data:
        key = data_point[key_name]
        grouped_data[key].append(data_point)
    return grouped_data

engagement_by_account = group_data(paid_engagement_in_first_week,
                                   'account_key')

def sum_grouped_items(grouped_data, field_name):
    summed_data = {}
    for key, data_points in grouped_data.items():
        total = 0
        for data_point in data_points:
            total += data_point[field_name]
        summed_data[key] = total
    return summed_data

total_minutes_by_account = sum_grouped_items(engagement_by_account,
                                             'total_minutes_visited')

import numpy as np

def describe_data(data):
    print ('Mean:', np.mean(data))
    print ('Standard deviation:', np.std(data))
    print ('Minimum:', np.min(data))
    print ('Maximum:', np.max(data))

describe_data(total_minutes_by_account.values())

TypeError: unsupported operand type(s) for /: 'dict_values' and 'int'

**La mayoria de los datos todavia estan incluidos, que es lo que se esperaba.
(Es mejor crear nuevas variables de los datos actualizados, en caso de que se requiera
volver a ver los datos originales).**

### Comparacion entre NumPy y Pandas

1. NumPy: Es el equivalente de Matlab en entorno de python, Imagenes, Matematicas, Matrices...
    Mas informacion aqui [NumPy.org](NumPy.org)
2. Pandas: Paquete mas versatil (lib que facilita poder leer un **DATA-SET**, 'Conjunto de datos' en algun formato que sea util).
           python utiliza un formato clasico y estandar llamado **DATA_FRAME**, esta libreria tambien nos sirve para 
           calcular desviaciones, varianzas, concatenar, rellenar, subconjuntos, combinar...        
           Mas informacion aqui [Organizacion - Comunidad](PyData.org)

### Conclusiones

* _Python es un lenguaje de programacion bastantemente enfocado hacia la estadistica y analisis de los datos, dado que usar un **for** en este lenguaje es demasiadamente ineficiente, por lo que ya existen algoritmos (librerias) que se encargan de buscar de forma eficiente en un gran volumen de datos, por otro lado esta ciencia de los datos no tiene una especie de orden o proceso exacto ya que la obtencion de los datos puede varias y es lo mas comun, es un proceso reiterativo y siempre analizando el contexto aunque el mismo pueda cambiar._

* Mas que una ciencia es un arte.

* Los datos se pueden analizar con dos puntos de vista diferentes.
    * Analisis retrospectivo: Este enfoque analiza la historia a describir algunos **inside**,
    lo que mas ayuda es a encontrar fallos.
    
    * Analisis Predictivo: Nos da una vision al dato, predicir el futuro.
    

In [25]:
'''for submission in project_submissions:
    submission['completion_date'] = parse_date(submission['completion_date'])
    submission['creation_date'] = parse_date(submission['creation_date'])

len(enrollments)
'''

NameError: name 'parse_date' is not defined