# Análisis de datos con Python y GitHub Codespaces

Python es un lenguaje de alto nivel interpretado ampliamente utilizado en las aplicaciones web, el desarrollo de software, la ciencia de datos y el machine learning. Es muy sencillo de comprender aún si no se tiene experiencia por su alta similitud con el idioma inglés.

En este taller aprenderemos como manejar los siguients paquetes de Python para realizar tareas comunes de exploración y análisis de datos:

*   NumPy. Con ésta podemos utilizar vectores, matrices y funciones matemáticas. Especializada en el cálculo numérico. Es comparable a MATLAB y R.
*   Pandas. Especializada en el manejo de estructuras de datos. Podríamos decir que es como el Excel de Python, es fácil usar tablas de datos
*   Matplotlib. Libería para crear visualizaciones estáticas, animadas e interactivas. Nos es útil para graficar.


## Ejercicio

Para hacer más interesante el conetido, desarrollaremos un ejemplo práctico a lo largo del taller. Supongamos que un profesor quiere analizar el desempeño de sus estudiantes y para esto te brinda sus calificaciones.

Podemos escribir la calificaciones utilizando una *lista*, esto es

```lista = []```

Los corchetes vacíos indican una lista vacía. Si quieres iniciarlizar la lista con sus elementos éstos deben ir separados por comas. 
Las listas son útiles para manipular y análizar datos en general.

In [2]:
datos = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(datos)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Listo, los datos fueron cargados en una lista.

### NumPy: Datos en arreglos
En este ejercicio utilizaremos el paquete de **NumPy** que incluye tipos de datos y funciones más específicos.

In [3]:
import numpy as np

notas = np.array(datos)
print(notas)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


Probablemente te preguntes cuál es la diferencia entre una **lista** y el **arreglo** (array) de NumPy. Un ejemplo claro es lo que sucede cuando multiplicamos ambos por 2.

In [4]:
print(type(datos), 'x_2 : ', datos * 2)
print('----')
print(type(notas), 'x_2 : ', notas * 2)

<class 'list'> x_2 :  [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
----
<class 'numpy.ndarray'> x_2 :  [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Cuando multiplicas una **lista** por 2 (o cualquier constante) creas una nueva lista con el doble del tamaño y rellena con la secuencia original.
Por otro lado, si multiplicas el **array**, éste se comporta como un *vector* y cada uno de los elementos es multiplicado por el factor, en este ejemplo 2. 

De esto podemos rescatar que en NumPy, los arreglos están diseñados para soportar operaciones matemáticas.

Tal vez te fijaste que al imprimir el tipo de clase del arreglo menciona **numpy.ndarray**. El **nd** indica que es una estructura de multiples dimensiones (puede tener *n* dimensiones), por lo que podemos construir matrices.

#### Acciones útiles
*   ```notas.shape```     Devuelve la forma del arreglo
*   ```notas[0]```        Accede al elemento cero del arreglo
*   ```notas.mean()```    Calcula y devuelve el promedio de los valores del arreglo


Continuando con el ejercicio, vamos a añadir un segundo set de datos para los mismos estudiantes. Esta vez, el número típico de horas que le dedican a estudiar a la semana.

In [5]:
#Arreglo de numero de horas de estudio semanal
horas_estudio = [10.0, 11.5, 9.0, 16.0,9.25,1.0,11.2,9.0, 8.5, 14.5, 15.5, 
                 13.75, 9.0, 8.0, 15.5, 8.0, 9.0, 6.0, 10.0, 12.0, 12.5, 12.0]

#Crear el arreglo de 2 dimensiones con numpy
estudiantes_datos = np.array([horas_estudio, notas])

#Mostrar el arreglo
print(estudiantes_datos)

#Calcular el promedio de las calificaciones y horas de estudio
media_horas = estudiantes_datos[0].mean()
media_promedio = estudiantes_datos[1].mean()

print('\nPromedio horas de estudio: {:.2f}\nPromedio calificaciones: {:.2f}'.format(media_horas, media_promedio))

[[10.   11.5   9.   16.    9.25  1.   11.2   9.    8.5  14.5  15.5  13.75
   9.    8.   15.5   8.    9.    6.   10.   12.   12.5  12.  ]
 [50.   50.   47.   97.   49.    3.   53.   42.   26.   74.   82.   62.
  37.   15.   70.   27.   36.   35.   48.   52.   63.   64.  ]]

Promedio horas de estudio: 10.51
Promedio calificaciones: 49.18


### Pandas: datos en tablas

Para manejar tablas de dos dimensiones de datos, Pandas ofrece una estructura más conveniente: **DataFrame**.

La primera columna es la lista del nombre de los estudiantes, la segunda y la tercera columnas correspondente al contenido del arreglo de NumPy (horas de estudio y calificaciones).


In [6]:
import pandas as pd

nombres = ['Daniel', 'Jorge', 'Pedro', 'Rosa','Elias','Victoria','Francisco', 'Maria',
            'Romina','Giovanni','Federico','Raul','Nelson','Karla', 'Miranda',
            'Jimena','Humberto','Isabela','Aaron','Sara','Dariza','Alfonso']

df_estudiantes = pd.DataFrame({'Nombre' : nombres,
                                'HorasEstudio' : estudiantes_datos[0],
                                'Calificaciones' : estudiantes_datos[1]})

df_estudiantes

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0
5,Victoria,1.0,3.0
6,Francisco,11.2,53.0
7,Maria,9.0,42.0
8,Romina,8.5,26.0
9,Giovanni,14.5,74.0


Además de las columnas que especificamos, DataFrame también incluye una columna de *index* o *índice* que identifica cada columna. Este *index* puede ser explícitamente asignado pero como no lo especificamos al crear la tabla, se creó un entero único.

#### Encontrar y filtrar datos en DataFrame

Podemos utilizar el método ```loc``` para obtener datos con un índice específico o en un rango específico de valores.

In [7]:
#Obtener el elemento con el índice 5
df_estudiantes.loc[5]

Nombre            Victoria
HorasEstudio           1.0
Calificaciones         3.0
Name: 5, dtype: object

In [8]:
#Obtener las filas con los indices entre 0 y 5
df_estudiantes.loc[0:5]

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0
5,Victoria,1.0,3.0


``loc`` puede utilizarse para obtener datos con cierto índice y además podemos identificar las columnas por su nombre: 

In [9]:
df_estudiantes.loc[0,'Calificaciones']

50.0

O si queremos filtrar una expresión que utiliza algun dato de una columna:

In [10]:
df_estudiantes.loc[df_estudiantes['Nombre']=='Pedro']

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
2,Pedro,9.0,47.0


También podemos utilizar el método ```iloc``` para encontrar las filas basado en la posición dentro del DataFrame (sin importar el índice):

In [11]:
#Obtener datos en la primera 5 filas
df_estudiantes.iloc[0:5]

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0


¿Puedes ver la diferencia?
Levanta tu mano y dinos cuál es :)


``iloc`` identifica valores en la tabla por *posición*, lo que puede extenderse a columnas. Por ejemplo, puedes encontrar la fila en la posición 0 y obtener los datos de las columnas 1 y 2.

In [12]:
df_estudiantes.iloc[0,[1,2]]

HorasEstudio      10.0
Calificaciones    50.0
Name: 0, dtype: object

Para filtrar, incluso podemos escribir la expresión de filtrado dentro de la DataFrame:

In [13]:
df_estudiantes[df_estudiantes['Nombre']=='Victoria']

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
5,Victoria,1.0,3.0


Otra forma de filtrar datos es utilizar el método ``query``, en el que únicamente tenemos que escrbiir la condición:

In [14]:
df_estudiantes.query('Calificaciones >= 80 and HorasEstudio >= 16')

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
3,Rosa,16.0,97.0


Al trabajar con Pandas, es común que encuentres más de una forma de llegar al mismo resultado. Por ejemplo, si queremos acceder a una columna del DataFrame, podemos especificar el nombre de la columna como índice:

In [15]:
df_estudiantes[df_estudiantes.HorasEstudio > 10]

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
1,Jorge,11.5,50.0
3,Rosa,16.0,97.0
6,Francisco,11.2,53.0
9,Giovanni,14.5,74.0
10,Federico,15.5,82.0
11,Raul,13.75,62.0
14,Miranda,15.5,70.0
19,Sara,12.0,52.0
20,Dariza,12.5,63.0
21,Alfonso,12.0,64.0


#### Cargar información de un archivo

En escenarios de la vida real, muchas veces obtendremos datos de un archivo. Podemos cargar la información de un archivo y cargarlo en una tabla con Pandas:
``pd.read_csv('nombreArchivo', delimiter=',', header='infer')``

In [16]:
df_estudiantes = pd.read_csv('calificaciones.csv', delimiter=',', header='infer')
df_estudiantes.head()

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0


Uno de los problemas más comunes es tener que manejar datos incompletos o datos faltantes. ¿Nuestra tabla contiene datos faltantes? Podemos utilizar el método ``isnull`` para identificar valores nulos individuales:

In [17]:
df_estudiantes.isnull()

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Claro que si manejamos tablas muy grandes, sería ineficiente tener que revisar cada uno de los valores de cada fila y columna. Podemos sumar la cantidad de resultados perdidos con el método ``sum``

In [18]:
df_estudiantes.isnull().sum()

Nombre            0
HorasEstudio      1
Calificaciones    2
dtype: int64

Incluso podemos utilizar lo que aprendimos en la sección anterior y filtrar únicamente las filas que contienen datos perdidos en las columnas (axis 1 de la tabla):

In [19]:
df_estudiantes[df_estudiantes.isnull().any(axis=1)]

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
22,Bryan,8.0,
23,Tadeo,,


¿Qué podemos hacer al respecto?
*   **Asignar valores de reemplazo.** Por ejemplo rellenar el valor de ``HorasEstudio`` faltante con el promedio de las horas de estudio utilizando el método ``fillna``:
*   **Eliminar las filas**. Utilizando el método ``dropna`` eliminamos las filas (axis 0) que contengan valores faltantes.

In [20]:
df_estudiantes.HorasEstudio = df_estudiantes.HorasEstudio.fillna(df_estudiantes.HorasEstudio.mean())
df_estudiantes

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0
5,Victoria,1.0,3.0
6,Francisco,11.2,53.0
7,Maria,9.0,42.0
8,Romina,8.5,26.0
9,Giovanni,14.5,74.0


In [21]:
df_estudiantes = df_estudiantes.dropna(axis=0, how='any')
df_estudiantes

Unnamed: 0,Nombre,HorasEstudio,Calificaciones
0,Daniel,10.0,50.0
1,Jorge,11.5,50.0
2,Pedro,9.0,47.0
3,Rosa,16.0,97.0
4,Elias,9.25,49.0
5,Victoria,1.0,3.0
6,Francisco,11.2,53.0
7,Maria,9.0,42.0
8,Romina,8.5,26.0
9,Giovanni,14.5,74.0


#### Algunas acciones

Otras de las acciones que tenemos disponibles al utilizar Pandas para obtener información:

*   ``mean()``   Para obtener el promedio 
*   ``concat()``   Para añadir una columna o Serie de datos
*   ``count()``   Cuenta cuantos elementos hay
*   ``sort()``   Ordenar los elementos de la tabla
*   ``groupby()``   Agrupa elementos con datos en común

In [22]:
#Obtiene la serie con información si el almno está o no aprobado
aprobados = pd.Series(df_estudiantes.Calificaciones >= 70)
df_estudiantes = pd.concat([df_estudiantes, aprobados.rename("Aprobado")], axis=1)

df_estudiantes

Unnamed: 0,Nombre,HorasEstudio,Calificaciones,Aprobado
0,Daniel,10.0,50.0,False
1,Jorge,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosa,16.0,97.0,True
4,Elias,9.25,49.0,False
5,Victoria,1.0,3.0,False
6,Francisco,11.2,53.0,False
7,Maria,9.0,42.0,False
8,Romina,8.5,26.0,False
9,Giovanni,14.5,74.0,True


In [23]:
print(df_estudiantes.groupby(df_estudiantes.Aprobado).Nombre.count())

Aprobado
False    18
True      4
Name: Nombre, dtype: int64


### Matplotlib: Visualización de datos