# Analítica Avanzada de Datos.
---

## Explorando datos con Python

En este cuaderno, exploraremos algunos de estos paquetes y aplicaremos técnicas básicas para analizar datos. Es un curso intesivo sobre algunas de las formas más comunes que los científicos de datos pueden usar Python para trabajar con datos.


## Explorando arreglos de datos con NumPy

Comencemos mirando algunos datos simples.

Supongamos que un profesor toma una muestra de las calificaciones de los estudiantes de su clase para analizarlas.

In [2]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Los datos se cargaron en una estructura de **lista**, que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para eso, vamos a utilizar la biblioteca **NumPy**, que incluye funciones y tipos de datos especificos para trabajar con *Núm*eros en *Py*thon.

A continuación cargaremos los datos en una **array** NumPy.

In [3]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


Para observar la diferencia entre una lista y un array, comparemos cómo se comportan estos dos tipos de datos cuando los usamos en una expresión que los multiplica por 2.

In [4]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Hay que tener en cuenta que multiplicar una lista por 2 crea una nueva lista del doble de longitud con la secuencia original de elementos de la lista repetida. Por otro lado, multiplicar un array Numpy, realiza el cálculo por elementos en el que el array se comporta como vector por lo que el resultado es un array del mismo tamaño en la que cada elemento se ha multiplicado por 2.

La conclusión clave de esto es que las matrices NumPy están diseñadas específicamente para admitir operaciones matemáticas en datos numéricos, lo que las hace más útiles para el análisis de datos que una lista genérica.

Es posible que hayas notado que el tipo de clase para el array en Numpy es **numpy.ndarray**. El **nd** indica que se trata de una estructura que puede constar de múltiples *dimensiones*. (Puede tener *n* dimensiones.) Nuestra instancia específica tiene una sola dimensión de calificaciones de los estudiantes.

Ejecuta la celda de abajo para ver el **shape** del array.

In [5]:
grades.shape

(22,)

La forma confirma que este array sólo tiene una dimensión, que contiene 22 elementos. (Hay 22 grados en la lista original.) Puedes acceder a los elementos individuales del array por su posición ordinal basada en cero. Obtengamos el primer elemento (el que está en la posición 0).

In [6]:
grades[0]

50

Ahora que ya sabes cómo funciona un array NumPy, es hora de realizar algún análisis de los datos de las calificaciones.

Puedes aplicar agregaciones a través de los elementos del array, así que vamos a encontrar la nota media simple (en otras palabras, el valor *medio* de la calificación).

In [7]:
grades.mean()

49.18181818181818

Por tanto, la calificación media se sitúa en torno a 50, más o menos en el centro del intervalo posible de 0 a 100.

Añadamos una segunda serie de datos de los mismos estudiantes. Esta vez, registraremos el número típico de horas semanales que dedican al estudio.

In [8]:
# Definimos el array con horas de estudio
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Creamos un array de dos dimensiones ( array de arrays)
student_data = np.array([study_hours, grades])

# Mostramos el array
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en un array bidimensional, una array de arrays. Veamos su forma.

In [9]:
# Mostramos la forma del array en 2D
student_data.shape

(2, 22)

El array **student_data** contiene dos elementos, cada uno de los cuales es un array que contiene 22 elementos.

Para navegar por esta estructura, es necesario especificar la posición de cada elemento en la jerarquía. Así, para encontrar el primer valor en el primer array (que contiene los datos de horas de estudio), puede utilizar el siguiente código.

In [10]:
#Muestra el primer elemento del primer elemento
student_data[0][0]

10.0

Ahora tiene un array multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de la calificación, que puede utilizar para comparar el tiempo de estudio con la calificación de un estudiante.

In [11]:
# Obtener el valor medio de cada subarreglo
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Promedio de horas de estudio: {:.2f}\nCalificación media: {:.2f}'.format(avg_study, avg_grade))

Promedio de horas de estudio: 10.52
Calificación media: 49.18


## Explorar datos tabulares con Pandas

NumPy proporciona muchas de las funcionalidades y herramientas que necesitas para trabajar con números, como **arrays** de valores numéricos. Sin embargo, cuando empiezas a tratar con tablas bidimensionales de datos, el paquete Pandas ofrece una estructura más conveniente para trabajar: **DataFrame**.


Ejecute la siguiente celda para importar la biblioteca Pandas y crear un DataFrame con tres columnas. La primera columna es una lista de nombres de estudiantes, y la segunda y tercera columnas son los arrays que contienen los datos de tiempo de estudio y calificación.

In [13]:
import pandas as pd

df_students = pd.DataFrame({'Nombre': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'Horas de estudio':student_data[0],
                            'Calificación':student_data[1]})

df_students 

Unnamed: 0,Nombre,Horas de estudio,Calificación
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Ten en cuenta que, además de las columnas especificadas, el DataFrame incluye un índice para identificar de forma exclusiva cada fila. Podríamos haber especificado el índice explícitamente y haber asignado cualquier tipo de valor apropiado (por ejemplo, una dirección de correo electrónico). Sin embargo, como no hemos especificado un índice, se ha creado uno con un valor entero único para cada fila.

### Búsqueda y filtrado de datos en un DataFrame

Puedes utilizar el método **loc** del DataFrame para recuperar los datos de un valor de índice específico, de la siguiente manera.

In [14]:
# Obtener los datos del valor de índice 5
df_students.loc[5]

Nombre              Vicky
Horas de estudio        1
Calificación            3
Name: 5, dtype: object

También puedes obtener los datos en un rango de valores de índice, de esta forma:

In [15]:
# Obtener las filas con valores de índice de 0 a 5
df_students.loc[0:5]

Unnamed: 0,Nombre,Horas de estudio,Calificación
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


Además de poder utilizar el método **loc** para encontrar filas basándose en el índice, puede utilizar el método **iloc** para encontrar filas basándose en su posición ordinal en el DataFrame (independientemente del índice):

In [16]:
# Obtener los datos de las cinco primeras filas
df_students.iloc[0:5]

Unnamed: 0,Nombre,Horas de estudio,Calificación
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Obseva detenidamente los resultados de `iloc[0:5]`, y compáralos con los de `loc[0:5]` que obtuvimos previamente. ¿Puedes detectar la diferencia?

El método **loc** devolvía las filas con *etiqueta* de índice en la lista de valores de *0* a *5*, que incluye *0*, *1*, *2*, *3*, *4*, and *5* (seis filas). Sin embargo, el método **iloc** devuelve las filas en las*posiciones* icluidas en el rango de *0* a *5*. Dado que los rangos de enteros no incluyen en el valor del límite superior, esto incluye las posiciones *0*, *1*, *2*, *3*, and *4* (cinco filas).

**iloc** identifica valores de datos en un DataFrame por *posición*, que se extiende más allá de las filas a las columnas. Así, por ejemplo, puede utilizarlo para encontrar los valores de las columnas en las posiciones *1* y *2* de la fila *0*, de esta forma:

In [17]:
df_students.iloc[0,[1,2]]

Horas de estudio    10
Calificación        50
Name: 0, dtype: object

Volvamos al método **loc** y veamos cómo funciona con columnas. Recuerda que **loc** se utiliza para localizar elementos de datos basados en valores de índice en lugar de posiciones. En ausencia de una columna índice explícita, las filas de nuestro DataFrame se indexan como valores enteros, pero las columnas se identifican por su nombre:

In [18]:
df_students.loc[0,'Calificación']

50.0

He aquí otro truco útil. Puede utilizar el método **loc** para encontrar filas indexadas basándose en una expresión de filtrado que haga referencia a columnas con nombre que no sean el índice, de la siguiente manera:

In [19]:
df_students.loc[df_students['Nombre']=='Aisha']

Unnamed: 0,Nombre,Horas de estudio,Calificación
21,Aisha,12.0,64.0


En realidad, no es necesario utilizar explícitamente el método **loc** para hacer esto. Puede simplemente aplicar una expresión de filtrado DataFrame, como esta:

In [20]:
df_students[df_students['Nombre']=='Aisha']

Unnamed: 0,Nombre,Horas de estudio,Calificación
21,Aisha,12.0,64.0


Y por si fuera poco, puedes conseguir los mismos resultados utilizando el método de **consulta** del DataFrame, de la siguiente manera:

In [21]:
df_students.query('Nombre=="Aisha"')

Unnamed: 0,Nombre,Horas de estudio,Calificación
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad confusa sobre el trabajo con Pandas. A menudo, hay múltiples formas de conseguir los mismos resultados. Otro ejemplo de esto es la forma de referirse al nombre de columna de un DataFrame. Puede especificar el nombre de la columna como un valor de índice con nombre (como en los ejemplos `df_students['Nombre']`que hemos visto hasta ahora), o puede utilizar la columna como una propiedad del DataFrame, como en este caso:

In [22]:
df_students[df_students.Nombre == 'Aisha']

Unnamed: 0,Nombre,Horas de estudio,Calificación
21,Aisha,12.0,64.0


### Cargar un DataFrame desde un archivo

Hemos construido el DataFrame a partir de algunas matrices existentes. Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos. Sustituyamos el DataFrame de las notas de los alumnos por el contenido de un archivo de texto.

In [28]:
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()

Unnamed: 0,Name,HorasEstudio,Calificacion
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


El método **read_csv** del DataFrame se utiliza para cargar datos desde un archivo de texto. Como puede ver en el código de ejemplo, puede especificar opciones como el delimitador de columna y qué fila (si la hay) contiene cabeceras de columna. (En este caso, el delimitador es una coma y la primera fila contiene los nombres de las columnas. Estos son los ajustes por defecto, por lo que los parámetros podrían haberse omitido).


### Tratamiento de valores perdidos

Uno de los problemas más comunes a los que se enfrentan los científicos de datos son los datos incompletos o ausentes. ¿Cómo podemos saber que el DataFrame contiene valores perdidos? Puede utilizar el método **isnull** para identificar qué valores individuales son nulos, de la siguiente manera:

In [29]:
df_students.isnull()

Unnamed: 0,Name,HorasEstudio,Calificacion
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Por supuesto, con un DataFrame más grande, sería ineficiente revisar todas las filas y columnas individualmente, por lo que podemos obtener la suma de valores perdidos para cada columna de esta manera:

In [30]:
df_students.isnull().sum()

Name            0
HorasEstudio    1
Calificacion    2
dtype: int64

Ahora sabemos que falta un valor de **HorasEstudio** y dos valores de **Calificacion**.

Para verlos en contexto, podemos filtrar el DataFrame para incluir sólo las filas en las que alguna de las columnas (eje 1 del DataFrame) sea nula.

In [33]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,HorasEstudio,Calificacion
22,Bill,8.0,
23,Ted,,


Cuando se recupera el DataFrame, los valores numéricos que faltan aparecen como **NaN** (*no es un número*).

Ahora que hemos encontrado los valores nulos, ¿qué podemos hacer con ellos?

Un método habitual es imputar valores de sustitución. Por ejemplo, si falta el número de horas de estudio, podemos suponer que el alumno estudió una media de tiempo y sustituir el valor que falta por la media de horas de estudio. Para ello, podemos utilizar el método **fillna** de la siguiente manera:

In [35]:
df_students.HorasEstudio = df_students.HorasEstudio.fillna(df_students.HorasEstudio.mean())
df_students

Unnamed: 0,Name,HorasEstudio,Calificacion
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Alternativamente, puede ser importante asegurarse de que sólo utiliza datos que sabe que son absolutamente correctos. En este caso, puede eliminar filas o columnas que contengan valores nulos utilizando el método **dropna**. Por ejemplo, eliminaremos las filas (eje 0 del DataFrame) en las que alguna de las columnas contenga valores nulos:

In [36]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,HorasEstudio,Calificacion
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


### Explorar los datos en el DataFrame

Ahora que hemos limpiado los valores que faltaban, estamos listos para explorar los datos en el DataFrame. Empecemos comparando la media de horas de estudio y las calificaciones.

In [39]:
# Obtener el promedio de horas de estudio usando el nombre de la columna como índice
mean_study = df_students['HorasEstudio'].mean()

# Obtener la calificación promedio utilizando el nombre de la columna como propiedad
mean_grade = df_students.Calificacion.mean()

# Imprimir el promedio de horas de estudio y la calificacion promedio
print('Promedio de horas de estudio semanales: {:.2f}\nCalificación primedio: {:.2f}'.format(mean_study, mean_grade))

Promedio de horas de estudio semanales: 10.52
Calificación primedio: 49.18


Filtremos el DataFrame para encontrar sólo los estudiantes que estudiaron durante más tiempo que el promedio .

In [40]:
# Obtener los estudiantes que estudiaron el promedio o más horas
df_students[df_students.HorasEstudio > mean_study]

Unnamed: 0,Name,HorasEstudio,Calificacion
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Tenga en cuenta que el resultado filtrado es en sí mismo un DataFrame, por lo que puede trabajar con sus columnas como con cualquier otro DataFrame.

Por ejemplo, busquemos la nota media de los estudiantes que dedicaron más tiempo al estudio que la media.

In [42]:
# Cuál es su promedio?
df_students[df_students.HorasEstudio > mean_study].Calificacion.mean()

66.7

Supongamos que la calificacion aprobatoria del curso es 60.

Podemos utilizar esa información para añadir una nueva columna al DataFrame que indique si cada alumno ha aprobado o no.

Primero, crearemos una **Serie** en Pandas que contenga el indicador de aprobado/no aprobado (Verdadero o Falso), y luego concatenaremos esa serie como una nueva columna (eje 1) en el DataFrame.

In [43]:
passes  = pd.Series(df_students['Calificacion'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pasa")], axis=1)

df_students

Unnamed: 0,Name,HorasEstudio,Calificacion,Pasa
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


Los DataFrames están diseñados para datos tabulares, y puedes utilizarlos para realizar muchos de los mismos tipos de operaciones de análisis de datos que puedes hacer en una base de datos relacional, como agrupar y agregar tablas de datos.

Por ejemplo, puede utilizar el método **groupby** para agrupar los datos de los alumnos en grupos basados en la columna **Pasa** que se añadió anteriormente y contar el número de nombres de cada grupo. En otras palabras, puede determinar cuántos alumnos aprobaron y cuántos no.

In [45]:
print(df_students.groupby(df_students.Pasa).Name.count())

Pasa
False    15
True      7
Name: Name, dtype: int64


Puede agregar múltiples campos en un grupo utilizando cualquier función de agregación disponible. Por ejemplo, puedes encontrar el tiempo medio de estudio y la calificación de los grupos de alumnos que aprobaron y reprobaron el curso.

In [46]:
print(df_students.groupby(df_students.Pasa)['HorasEstudio', 'Calificacion'].mean())

       HorasEstudio  Calificacion
Pasa                             
False      8.783333     38.000000
True      14.250000     73.142857


  print(df_students.groupby(df_students.Pasa)['HorasEstudio', 'Calificacion'].mean())


Los DataFrames son increíblemente versátiles y facilitan la manipulación de datos. Muchas operaciones con DataFrame devuelven una nueva copia del DataFrame. Así que si quieres modificar un DataFrame pero mantener la variable existente, necesitas asignar el resultado de la operación a la variable existente. Por ejemplo, el siguiente código ordena los datos de los estudiantes en orden descendente por Calificación y asigna el DataFrame ordenado resultante a la variable original **df_students**.

In [48]:
# Crear un DataFrame con los datos ordenados por Calificación (descendente)
df_students = df_students.sort_values('Calificacion', ascending=False)

# Muestra el DataFrame
df_students

Unnamed: 0,Name,HorasEstudio,Calificacion,Pasa
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False
