<a href="https://colab.research.google.com/github/JuanCamilo18/Exploracion_AD/blob/main/S01_Exploracion_AD_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Explorando datos con Python

Python es un lenguaje de programación flexible que se usa en una amplia gama de escenarios , desde aplicaciones web hasta programación de dispositivos. Es extremadamente popular en la comunidad de ciencia de datos y aprendizaje automático debido a los muchos paquetes que admite para el análisis y la visualización de datos.

En este cuaderno, exploraremos algunos de estos paquetes y aplicaremos técnicas básicas para analizar datos. 

### Explorando arreglos de datos con NumPy


Supongamos que un profesor universitario toma una muestra de las calificaciones de los estudiantes de una clase para analizarlas.

In [1]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Los datos se cargaron en una estructura de lista de Python , que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para eso, vamos a utilizar el paquete NumPy , que incluye funciones y tipos de datos específicos para trabajar con Números en Python .

Ejecute la celda a continuación para cargar los datos en una matriz NumPy .

In [3]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]



En caso de que se esté preguntando acerca de las diferencias entre una lista y una matriz NumPy , comparemos cómo se comportan estos tipos de datos cuando los usamos en una expresión que los multiplica por 2.

In [4]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Tenga en cuenta que multiplicar una lista por 2 crea una nueva lista del doble de longitud con la secuencia original de elementos de la lista repetida. Multiplicar una matriz NumPy, por otro lado, realiza un cálculo por elementos en el que la matriz se comporta como un vector , por lo que terminamos con una matriz del mismo tamaño en la que cada elemento se ha multiplicado por 2.

La conclusión clave de esto es que las matrices NumPy están diseñadas específicamente para admitir operaciones matemáticas en datos numéricos , lo que las hace más útiles para el análisis de datos que una lista genérica.

Run the cell below to view the shape of the array.

In [5]:
grades.shape

(22,)

La forma confirma que esta matriz tiene solo una dimensión, que contiene 22 elementos. (Hay 22 grados en la lista original). Puede acceder a los elementos individuales de la matriz por su posición ordinal de base cero. Obtengamos el primer elemento (el que está en la posición 0).

In [6]:
grades[0]

50

Ahora que conoce la matriz NumPy, es hora de realizar un análisis de los datos de las calificaciones.

Puede aplicar agregaciones a los elementos de la matriz, así que encontremos la calificación promedio simple (en otras palabras, el valor de la calificación media ).

In [7]:
grades.mean()

49.18181818181818

Entonces, la calificación media es de alrededor de 50 , más o menos en el medio del rango posible de 0 a 100.

Agreguemos un segundo conjunto de datos para los mismos estudiantes. Esta vez, registraremos la cantidad típica de horas por semana que dedicaron a estudiar

In [8]:
# Define an array of study hours
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Create a 2D array (an array of arrays)
student_data = np.array([study_hours, grades])

# display the array
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en una matriz bidimensional : una matriz de matrices. Veamos su forma.

In [9]:
# Show shape of 2D array
student_data.shape

(2, 22)

La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, debe especificar la posición de cada elemento en la jerarquía. Entonces, para encontrar el primer valor en la primera matriz (que contiene los datos de las horas de estudio), puede usar el siguiente código.

In [10]:
# Show the first element of the first element
student_data[0][0]

10.0

Ahora tiene una matriz multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de calificaciones, que puede usar para comparar el tiempo de estudio con la calificación de un estudiante.

In [11]:
# Get the mean value of each sub-array
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18


### Explorando datos tabulares con Pandas

NumPy proporciona muchas de las funciones y herramientas que necesita para trabajar con números, como matrices de valores numéricos. Sin embargo, cuando comienza a manejar tablas de datos bidimensionales, el paquete Pandas ofrece una estructura más conveniente para trabajar: el DataFrame .

Ejecute la siguiente celda para importar la biblioteca de Pandas y cree un DataFrame con tres columnas. La primera columna es una lista de nombres de estudiantes, y la segunda y tercera columnas son las matrices NumPy que contienen el tiempo de estudio y los datos de calificaciones.

In [12]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


#### Encontrar y filtrar datos en un DataFrame

Puede usar el método loc de DataFrame para recuperar datos para un valor de índice específico, como este.

In [13]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

También puede obtener los datos en un rango de valores de índice, como este:

In [14]:
# Get the rows with index values from 0 to 5
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0



Además de poder usar el método **loc** para buscar filas según el índice, puede usar el método **iloc** para buscar filas según su posición ordinal en el DataFrame (independientemente del índice):

In [15]:
# Get data in the first five rows
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Mire cuidadosamente los iloc[0:5]resultados y compárelos con los loc[0:5]resultados que obtuvo anteriormente. ¿Puedes ver la diferencia?

El método loc devolvió filas con etiqueta de índice en la lista de valores de 0 a 5 , que incluye 0 , 1 , 2 , 3 , 4 y 5 (seis filas). Sin embargo, el método iloc devuelve las filas en las posiciones incluidas en el rango de 0 a 5. Dado que los rangos de enteros no incluyen el valor del límite superior, esto incluye las posiciones 0 , 1 , 2 , 3 y 4 (cinco filas).

iloc identifica valores de datos en un DataFrame por posición , que se extiende más allá de las filas a las columnas. Entonces, por ejemplo, puede usarlo para encontrar los valores de las columnas en las posiciones 1 y 2 en la fila 0, así:

In [16]:
df_students.iloc[0,[1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

Volvamos al método loc y veamos cómo funciona con las columnas. Recuerde que loc se usa para ubicar elementos de datos en función de valores de índice en lugar de posiciones. En ausencia de una columna de índice explícita, las filas en nuestro DataFrame se indexan como valores enteros, pero las columnas se identifican por nombre:



In [17]:
df_students.loc[0,'Grade']

50.0

Aquí hay otro truco útil. Puede usar el método loc para encontrar filas indexadas en función de una expresión de filtrado que hace referencia a columnas nombradas distintas del índice, como esta:

In [18]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


En realidad, no necesita usar explícitamente el método loc para hacer esto. Simplemente puede aplicar una expresión de filtrado de DataFrame, como esta:

In [19]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Y en buena medida, puede lograr los mismos resultados utilizando el método de consulta de DataFrame , como este:

In [20]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad confusa sobre trabajar con Pandas. A menudo, hay varias formas de lograr los mismos resultados. Otro ejemplo de esto es la forma en que se refiere a un nombre de columna de DataFrame. Puede especificar el nombre de la columna como un valor de índice con nombre (como en los df_students['Name']ejemplos que hemos visto hasta ahora), o puede usar la columna como una propiedad del DataFrame, así:

In [21]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


#### Cargando un DataFrame desde un archivo

Construimos el DataFrame a partir de algunos arreglos existentes. Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos. Reemplacemos el DataFrame de calificaciones de los estudiantes con el contenido de un archivo de texto.

In [37]:
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()

--2023-03-12 16:28:02--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 322 [text/plain]
Saving to: ‘grades.csv.1’


2023-03-12 16:28:02 (22.3 MB/s) - ‘grades.csv.1’ saved [322/322]



Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


El método read_csv de DataFrame se usa para cargar datos de archivos de texto. Como puede ver en el código de ejemplo, puede especificar opciones como el delimitador de columna y qué fila (si la hay) contiene encabezados de columna. (En este caso, el delimitador es una coma y la primera fila contiene los nombres de las columnas. Estas son las configuraciones predeterminadas, por lo que los parámetros podrían haberse omitido).

#### Manejo de valores faltantes

Uno de los problemas más comunes con los que deben lidiar los científicos de datos son los datos incompletos o faltantes. Entonces, ¿cómo sabríamos que el DataFrame contiene valores faltantes? Puede usar el método isnull para identificar qué valores individuales son nulos, así:

In [38]:
df_students.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False



Por supuesto, con un DataFrame más grande, sería ineficiente revisar todas las filas y columnas de forma individual, por lo que podemos obtener la suma de los valores faltantes para cada columna de esta manera:

In [39]:
df_students.isnull().sum()

Name          0
StudyHours    1
Grade         2
dtype: int64


Así que ahora sabemos que falta un valor de StudyHours y dos valores de Grade faltantes .

Para verlos en contexto, podemos filtrar el DataFrame para incluir solo filas donde cualquiera de las columnas (eje 1 del DataFrame) es nula.

In [40]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,StudyHours,Grade
22,Bill,8.0,
23,Ted,,



Cuando se recupera el marco de datos, los valores numéricos que faltan se muestran como **NaN ( no un número )**.

Entonces, ahora que hemos encontrado los valores nulos, ¿qué podemos hacer al respecto?

Un enfoque común es imputar valores de reemplazo. Por ejemplo, si falta el número de horas de estudio, podríamos suponer que el estudiante estudió durante una cantidad de tiempo promedio y reemplazar el valor que falta con el promedio de horas de estudio. Para hacer esto, podemos usar el método **fillna** así:

In [43]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Alternativamente, puede ser importante asegurarse de que solo usa datos que sabe que son absolutamente correctos. En este caso, puede eliminar filas o columnas que contengan valores nulos mediante el método **dropna** . Por ejemplo, eliminaremos filas (eje 0 del DataFrame) donde cualquiera de las columnas contenga valores nulos:

In [44]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0



#### Explorar datos en el DataFrame

Ahora que hemos limpiado los valores faltantes, estamos listos para explorar los datos en el DataFrame. Empecemos por comparar las horas medias de estudio y las notas.

In [45]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

Average weekly study hours: 10.52
Average grade: 49.18


Bien, filtremos el DataFrame para encontrar solo a los estudiantes que estudiaron por más tiempo que el promedio.



In [46]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0



Tenga en cuenta que el resultado filtrado es en sí mismo un DataFrame, por lo que puede trabajar con sus columnas como cualquier otro DataFrame.

Por ejemplo, busquemos la calificación promedio de los estudiantes que dedicaron más tiempo de estudio que el promedio.

In [47]:
# What was their mean grade?
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7

Supongamos que la calificación aprobatoria para el curso es 60.

Podemos usar esa información para agregar una nueva columna al DataFrame que indique si cada estudiante aprobó o no.

Primero, crearemos una Serie Pandas que contenga el indicador de aprobación/rechazo (Verdadero o Falso), y luego concatenaremos esa serie como una nueva columna (eje 1) en el DataFrame.

In [48]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True



Los marcos de datos están diseñados para datos tabulares y puede usarlos para realizar muchos de los mismos tipos de operaciones de análisis de datos que puede realizar en una base de datos relacional, como agrupar y agregar tablas de datos.

Por ejemplo, puede usar el método groupby para agrupar los datos de los estudiantes en grupos según la columna Aprobado que agregó anteriormente y para contar la cantidad de nombres en cada grupo. En otras palabras, puede determinar cuántos estudiantes aprobaron y reprobaron.

In [49]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64



Puede agregar varios campos en un grupo utilizando cualquier función de agregación disponible. Por ejemplo, puede encontrar el tiempo medio de estudio y la calificación de los grupos de estudiantes que aprobaron y reprobaron el curso.

In [50]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857


  print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())


Los DataFrames son increíblemente versátiles y facilitan la manipulación de datos. Muchas operaciones de DataFrame devuelven una nueva copia de DataFrame. Entonces, si desea modificar un DataFrame pero mantener la variable existente, debe asignar el resultado de la operación a la variable existente. Por ejemplo, el siguiente código ordena los datos de los estudiantes en orden descendente por Grado y asigna el DataFrame ordenado resultante a la variable original df_students .

In [51]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False



Resumen
NumPy y DataFrames son los caballos de batalla de la ciencia de datos en Python. Nos proporcionan formas de cargar, explorar y analizar datos tabulares. Como veremos en módulos posteriores, incluso los métodos de análisis avanzados suelen depender de NumPy y Pandas para estas importantes funciones.

En nuestro próximo libro de trabajo, veremos cómo crear gráficos y explorar sus datos de maneras más interesantes.