# **Exploración de datos con Python**
## **Ejercicio: Exploración de datos con NumPy y Pandas**
### **Explorando arreglos de datos con NumPy**


Supongamos que un profesor universitario toma una muestra de las calificaciones de los estudiantes de una clase para analizarlas.

In [None]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Los datos se cargaron en una estructura de lista de Python, que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico.
Para eso, vamos a utilizar el paquete NumPy, que incluye funciones y tipos de datos específicos para trabajar con Numeros en Python.


Ejecute la celda a continuación para cargar los datos en una matriz NumPy.

In [None]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


En caso de que se esté preguntando acerca de las diferencias entre una lista y una matriz NumPy, comparemos cómo se comportan estos tipos de datos cuando los usamos en una expresión que los multiplica por 2.

In [None]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Tenga en cuenta que multiplicar una lista por 2 crea una nueva lista del doble de longitud con la secuencia original de elementos de la lista repetida. Multiplicar una matriz NumPy, por otro lado, realiza un cálculo por elementos en el que la matriz se comporta como un vector, por lo que terminamos con una matriz del mismo tamaño en la que cada elemento se ha multiplicado por 2.

La conclusión clave de esto es que las matrices NumPy están diseñadas específicamente para admitir operaciones matemáticas en datos numéricos, lo que las hace más útiles para el análisis de datos que una lista genérica.

Es posible que haya notado que el tipo de clase para la matriz NumPy anterior es numpy.ndarray. El nd indica que se trata de una estructura que puede constar de múltiples dimensiones. (Puede tener n dimensiones).

Nuestra instancia específica tiene una sola dimensión de calificaciones de los estudiantes.



Ejecute la celda de abajo para ver la forma de la matriz.

In [None]:
grades.shape

(22,)

La forma confirma que esta matriz tiene solo una dimensión, que contiene 22 elementos. (Hay 22 grados en la lista original).

Puede acceder a los elementos individuales de la matriz por su posición ordinal de base cero.

Obtengamos el primer elemento (el que está en la posición 0).

In [None]:
grades[0]

50

Ahora que conoce la matriz NumPy, es hora de realizar un análisis de los datos de las calificaciones.

Puede aplicar agregaciones a los elementos de la matriz, así que encontremos la calificación promedio simple (en otras palabras, el valor de la calificación media).

In [None]:
grades.mean()

49.18181818181818

Entonces, la calificación media es de alrededor de 50, más o menos en el medio del rango posible de 0 a 100.

Agreguemos un segundo conjunto de datos para los mismos estudiantes.

Esta vez, registraremos la cantidad típica de horas por semana que dedicaron a estudiar.

In [None]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en una matriz bidimensional: una matriz de matrices.

Veamos su forma.

In [None]:
# Show shape of 2D array
student_data.shape

(2, 22)

La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, debe especificar la posición de cada elemento en la jerarquía.

Entonces, para encontrar el primer valor en la primera matriz (que contiene los datos de las horas de estudio), puede usar el siguiente código.

In [None]:
# Show the first element of the first element
student_data[0][0]

10.0

Ahora tiene una matriz multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de calificaciones, que puede usar para comparar el tiempo de estudio con la calificación de un estudiante.

In [None]:
# Get the mean value of each sub-array
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18


## **Ejercicio: Explorando datos tabulares con Pandas**
NumPy proporciona muchas de las funciones y herramientas que necesita para trabajar con números, como matrices de valores numéricos.

Sin embargo, cuando comienza a manejar tablas de datos bidimensionales, el paquete Pandas ofrece una estructura más conveniente para trabajar: el DataFrame.

**Ejecute la siguiente celda para importar la biblioteca de Pandas y cree un DataFrame con tres columnas.**

La primera columna es una lista de nombres de estudiantes, la segunda y tercera columnas son las matrices NumPy que contienen el tiempo de estudio y los datos de calificaciones.

In [None]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie',
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Tenga en cuenta que, además de las columnas que especificó, el DataFrame incluye un índice para identificar de forma única cada fila. Podríamos haber especificado el índice explícitamente y asignado cualquier tipo de valor apropiado (por ejemplo, una dirección de correo electrónico). Sin embargo, debido a que no especificamos un índice, se creó uno con un valor entero único para cada fila.

**Encontrar y filtrar datos en un DataFrame**

Puede usar el método loc de DataFrame para recuperar datos para un valor de índice específico, como este.

In [None]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

También puede obtener los datos en un rango de valores de índice, como este:

In [None]:
# Get the rows with index values from 0 to 5
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


Además de poder usar el método loc para buscar filas según el índice, puede usar el método iloc para buscar filas según su posición ordinal en el DataFrame (independientemente del índice):

In [None]:
# Get data in the first five rows
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Mire cuidadosamente los resultados de **iloc[0:5]** y compárelos con los resultados de **loc[0:5]** que obtuvo anteriormente.

¿Puedes ver la diferencia?

El método loc devolvió filas con etiqueta de índice en la lista de valores de 0 a 5, que incluye 0, 1, 2, 3, 4 y 5 (seis filas).

Sin embargo, el método iloc devuelve las filas en las posiciones incluidas en el rango de 0 a 5. Dado que los rangos de enteros no incluyen el valor del límite superior, esto incluye las posiciones 0, 1, 2, 3 y 4 (cinco filas).

iloc identifica valores de datos en un DataFrame por posición, que se extiende más allá de las filas a las columnas.

Entonces, por ejemplo, puede usarlo para encontrar los valores de las columnas en las posiciones 1 y 2 en la fila 0, así:

In [None]:
df_students.iloc[0,[1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

Volvamos al método loc y veamos cómo funciona con las columnas. Recuerde que loc se usa para ubicar elementos de datos en función de valores de índice en lugar de posiciones. En ausencia de una columna de índice explícita, las filas en nuestro DataFrame se indexan como valores enteros, pero las columnas se identifican por nombre:

In [None]:
df_students.loc[0,'Grade']

50.0

Aquí hay otro truco útil. Puede usar el método loc para encontrar filas indexadas en función de una expresión de filtrado que hace referencia a columnas nombradas distintas del índice, como esta:

In [None]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


En realidad, no necesita usar explícitamente el método loc para hacer esto. Simplemente puede aplicar una expresión de filtrado de DataFrame, como esta:

In [None]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Y en buena medida, puede lograr los mismos resultados utilizando el método de consulta de DataFrame, como este:

In [None]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad confusa sobre trabajar con Pandas. A menudo, hay varias formas de lograr los mismos resultados. Otro ejemplo de esto es la forma en que se refiere a un nombre de columna de DataFrame.

Puede especificar el nombre de la columna como un valor de índice con nombre (como en los ejemplos de df_students['Name'] que hemos visto hasta ahora), o puede usar la columna como una propiedad del DataFrame, así:

In [None]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


## **Cargando un DataFrame desde un archivo**
Construimos el DataFrame a partir de algunos arreglos existentes.

Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos.

Reemplacemos el DataFrame de calificaciones de los estudiantes con el contenido de un archivo de texto.

In [None]:
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()

--2023-03-28 04:19:40--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 322 [text/plain]
Saving to: ‘grades.csv’


2023-03-28 04:19:40 (23.4 MB/s) - ‘grades.csv’ saved [322/322]



Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
