# 7.- Arreglos con NUMPY

En este capítulo aprenderás a utilizar algunas cualidades básicas de NumPy (Numerical Python).
NumPy es una de las librerías más populares de Python, ya que puede procesar listas de múltiples
dimensiones

## 7.2.- Arreglo de Datos

Como en la sección anterior, invocaremos a la librería NumPy como np

In [1]:
import numpy as np


Armemos un arreglo de todos los factoriales del 1 al 6

In [2]:
import numpy as np

factoriales = np.array([np.math.factorial(i) for i in range(1, 7)])
print(factoriales)


[  1   2   6  24 120 720]


  factoriales = np.array([np.math.factorial(i) for i in range(1, 7)])


Verifica el tipo de objeto que generamos

In [3]:
print(type(factoriales))


<class 'numpy.ndarray'>


La función array copia automáticamente las dimensiones del argumento. Por ejemplo, el siguiente arreglo (array) está formado por tres filas y dos columnas.

In [8]:
import numpy as np

arreglo = np.array([[1, 2],
                    [3, 4],
                    [5, 6]])

print(arreglo)
print("Forma del arreglo:", arreglo.shape)  # Verifica las dimensiones


[[1 2]
 [3 4]
 [5 6]]
Forma del arreglo: (3, 2)


#### Por tu cuenta

Arma un arreglo de una dimensión desde una compresnidón de lista que produce todos los números nones del 1 al 30

In [4]:
import numpy as np

nones = np.array([i for i in range(1, 31) if i % 2 != 0])
print(nones)


[ 1  3  5  7  9 11 13 15 17 19 21 23 25 27 29]


### 7.2.2 - Atributos de Arreglos

En esta sección usaremos los siguientes 2 arreglos

enteros = np.array([[9,10,11,12],[8,7,6,5]])

flotantes=np.array([[9**(1/2),10**(1/2),3.33,],[10/3,3.4,3.03]])

In [10]:
enteros = np.array([[9, 10, 11, 12], [8, 7, 6, 5]])
print("Arreglo de enteros:\n", enteros)

Arreglo de enteros:
 [[ 9 10 11 12]
 [ 8  7  6  5]]


In [9]:
flotantes = np.array([[9/2, 10/2, 3.33], [10/3, 3.4, 3.03]])
print("Arreglo de flotantes:\n", flotantes)

Arreglo de flotantes:
 [[4.5        5.         3.33      ]
 [3.33333333 3.4        3.03      ]]


Checa el tipo de elemento con dtype

In [7]:
print("Tipo de datos en 'enteros':", enteros.dtype)

Tipo de datos en 'enteros': int64


In [6]:
print("Tipo de datos en 'flotantes':", flotantes.dtype)

Tipo de datos en 'flotantes': float64


Revisa que puedes ver dimensione con ndim y forma con shape del arreglo

In [11]:
import numpy as np

arreglo = np.array([[1, 2],
                    [3, 4],
                    [5, 6]])

print("Arreglo:")
print(arreglo)

print("\nNúmero de dimensiones (ndim):", arreglo.ndim)
print("Forma del arreglo (shape):", arreglo.shape)

Arreglo:
[[1 2]
 [3 4]
 [5 6]]

Número de dimensiones (ndim): 2
Forma del arreglo (shape): (3, 2)


Size y itemsize te permite conocer el numero de elemntos y de bytes para almacenar

In [13]:
import numpy as np

arreglo = np.array([[1, 2],
                    [3, 4],
                    [5, 6]])

print("Arreglo:")
print(arreglo)

print("\nNúmero total de elementos (size):", arreglo.size)

print("Tamaño en bytes por elemento (itemsize):", arreglo.itemsize)
print("Tamaño total en memoria (nbytes):", arreglo.nbytes)


Arreglo:
[[1 2]
 [3 4]
 [5 6]]

Número total de elementos (size): 6
Tamaño en bytes por elemento (itemsize): 8
Tamaño total en memoria (nbytes): 48


Se puede iterar facilmente a través de un arreglo

In [14]:
import numpy as np

arreglo = np.array([[1, 2],
                    [3, 4],
                    [5, 6]])

for fila in arreglo:
    for elemento in fila:
        print(elemento, end=" ")


1 2 3 4 5 6 

#### Por tu cuenta

Para el arreglo que armaste en el "Por tu cuenta" previo, checa el numero de dmiensiones y forma del arreglo

In [15]:
import numpy as np

nones = np.array([i for i in range(1, 31) if i % 2 != 0])

print("Número de dimensiones (ndim):", nones.ndim)
print("Forma del arreglo (shape):", nones.shape)


Número de dimensiones (ndim): 1
Forma del arreglo (shape): (15,)


### 7.2.3 - Creando Arreglos desde Rangos

La función arange (una sola R!!!!) nos permite crear rangos de enteros. Crea:

- Un arreglo del 0 al 7
- Un arreglo del 3 al 7
- Un arreglo del 12 al 2 en pasos de 3 en 3 (si, en orden inverso)

In [16]:
import numpy as np

arr1 = np.arange(0, 8)
arr2 = np.arange(3, 8)
arr3 = np.arange(12, 1, -3)

print("Arreglo del 0 al 7:", arr1)
print("Arreglo del 3 al 7:", arr2)
print("Arreglo del 12 al 2 en pasos de -3:", arr3)


Arreglo del 0 al 7: [0 1 2 3 4 5 6 7]
Arreglo del 3 al 7: [3 4 5 6 7]
Arreglo del 12 al 2 en pasos de -3: [12  9  6  3]


Tambien se pueden usar tamaños de paso no enteros. Crea un arreglo con linspace de 0 al 1 que vaya de .25 en .25

In [17]:
import numpy as np

arr = np.linspace(0, 1, num=5)

print("Arreglo con linspace de 0 a 1 con paso de 0.25:", arr)

Arreglo con linspace de 0 a 1 con paso de 0.25: [0.   0.25 0.5  0.75 1.  ]


Y se puede cambiar la forma del arreglo con reshape. Crea un arreglo con arange que vaya del 21 al 1 en orden inverso, y luego dale forma de matriz de 4x5

In [23]:
import numpy as np

arr1 = np.arange(20, 0, -1).reshape(4, 5)
print(arr1)



[[20 19 18 17 16]
 [15 14 13 12 11]
 [10  9  8  7  6]
 [ 5  4  3  2  1]]


Checate que si el arreglo tiene 1000 o más elementos, numpy no muestra la totalidad de los datos. Generaun arreglo de 0 a 9999 y dale forma de 5 x 2000

In [24]:
arr2 = np.arange(10000).reshape(5, 2000)
print(arr2)

[[   0    1    2 ... 1997 1998 1999]
 [2000 2001 2002 ... 3997 3998 3999]
 [4000 4001 4002 ... 5997 5998 5999]
 [6000 6001 6002 ... 7997 7998 7999]
 [8000 8001 8002 ... 9997 9998 9999]]


#### Por tu cuenta

Usa la función arange para crear una rreglo de 20 enteros pares del 42 al 80, y luego rearmalo en una matriz de 4x5

In [25]:
import numpy as np

arr3 = np.arange(42, 82, 2).reshape(4, 5)
print(arr3)

[[42 44 46 48 50]
 [52 54 56 58 60]
 [62 64 66 68 70]
 [72 74 76 78 80]]


### 7.2.4 - ¿Que tan más rapido es un arreglo?

Usa la magia %timeit y la librería random para crear una comprensión de lista que simule un tiro de dao 6000000 de veces y medir su tiempo

In [26]:
import numpy as np
import random

%timeit [random.randint(1, 6) for _ in range(6000000)]

2.94 s ± 257 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [27]:
import numpy as np
import random

%timeit np.random.randint(1, 7, size=6000000)

75.7 ms ± 3.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Ahora usa %timeit para medir el tiempo de un tiro de dado 6000000 de veces pero hecho con arreglo

In [28]:
import numpy as np
import random

lista = list(range(10000))
%timeit sum(lista)

67.5 µs ± 876 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


#### Por tu cuenta

Usa %timeit para ver que es mas rapido - una lista que sume todos los enteros del 0 al 9 999 999 o un arreglo que haga lo mismo con el metodo sum

In [29]:
import numpy as np
import random

arr = np.arange(10000)
%timeit arr.sum()

4.06 µs ± 125 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 7.3.- Operaciones con Arreglos

Arma un arreglo de todos los pares del 2 al 15.

- Sumale 1 al arreglo
- Multiplicalo por 3
- Sacale raiz cuadrada

In [31]:
import numpy as np

arr = np.arange(2, 16, 2)

In [32]:
arr = (arr + 1)
print(arr)

[ 3  5  7  9 11 13 15]


In [33]:
arr = (arr + 1) * 3
print(arr)

[12 18 24 30 36 42 48]


In [34]:
arr = np.sqrt(arr)
print(arr)

[3.46410162 4.24264069 4.89897949 5.47722558 6.         6.4807407
 6.92820323]


Al mismo arreglo, aplicale un +=10

In [35]:
arr += 10


In [36]:
print(arr)

[13.46410162 14.24264069 14.89897949 15.47722558 16.         16.4807407
 16.92820323]


Arma un arreglo (lista1) que vaya del 2 al 18 de 3 en 3, y otro arreglo (lista2) usando linspace que vaya del -2 al 20 dividido en 6 numeros

- Resta lista1 de lista2
- divide lista2 entre lista1

In [37]:
lista1 = np.arange(2, 19, 3)

In [38]:
lista2 = np.linspace(-2, 20, 6)

In [39]:
resta = lista2 - lista1
print("Resta:", resta)

Resta: [-4.  -2.6 -1.2  0.2  1.6  3. ]


In [40]:
division = lista2 / lista1
print("División:", division)

División: [-1.          0.48        0.85        1.01818182  1.11428571  1.17647059]


También puedes comparar los arreglos

In [41]:
print("lista1 == lista2:", lista1 == lista2)

lista1 == lista2: [False False False False False False]


#### Por tu cuenta

Crea un arreglo de los valores que vayan del 1 al 5, y luego elvealo al cuadrado usando **

In [42]:
arr = np.arange(1, 6)

In [43]:
arr_cuadrado = arr ** 2

In [44]:
print(arr_cuadrado)

[ 1  4  9 16 25]


### 7.3.2.- Métodos de Cálculo

Considera el siguiente arreglo

ventas=np.array( [[554,606,710,851],[1244,898,416,1763],
 [841,655,1105,1067]])


In [45]:
ventas=np.array( [[554,606,710,851],[1244,898,416,1763], [841,655,1105,1067]])

Podemos usar métodos para calcular la sum, min, max, mean, std, var.

In [46]:
print("Suma total:", ventas.sum())

Suma total: 10710


In [47]:
print("Mínimo:", ventas.min())

Mínimo: 416


In [48]:
print("Máximo:", ventas.max())

Máximo: 1763


In [49]:
print("Media:", ventas.mean())

Media: 892.5


In [50]:
print("Desviación estándar:", ventas.std())

Desviación estándar: 350.56656524355924


In [51]:
print("Varianza:", ventas.var())

Varianza: 122896.91666666667


También es posible hacerlo por filas y columnas. Checa como se hace con axis = 1 y 0

In [52]:
print("Suma por filas:", ventas.sum(axis=1))
print("Suma por columnas:", ventas.sum(axis=0))

Suma por filas: [2721 4321 3668]
Suma por columnas: [2639 2159 2231 3681]


In [53]:
print("Mínimo por filas:", ventas.min(axis=1))
print("Mínimo por columnas:", ventas.min(axis=0))

Mínimo por filas: [554 416 655]
Mínimo por columnas: [554 606 416 851]


In [54]:
print("Media por filas:", ventas.mean(axis=1))
print("Media por columnas:", ventas.mean(axis=0))

Media por filas: [ 680.25 1080.25  917.  ]
Media por columnas: [ 879.66666667  719.66666667  743.66666667 1227.        ]


#### Por tu cuenta

Usa el generador de numeros aleatoreos de numpy (np.random.randint) para crear una rreglo de 12 calificaciones aleatorias del 60 al 100, y luego dale forma en una matriz de 3x4. Calcula el promedio de todas las calificaciones, el promedio de cada columna y de cada fila.

In [55]:
calificaciones = np.random.randint(60, 101, size=12)

In [59]:
matriz_calificaciones = calificaciones.reshape(3, 4)
print("Matriz de calificaciones:")
print(matriz_calificaciones)

Matriz de calificaciones:
[[65 94 85 71]
 [62 92 85 80]
 [76 69 92 92]]


In [58]:
promedio_total = np.mean(matriz_calificaciones)
print("\nPromedio total de todas las calificaciones:", promedio_total)


Promedio total de todas las calificaciones: 80.25


In [60]:
promedio_columnas = np.mean(matriz_calificaciones, axis=0)
print("\nPromedio de cada columna:", promedio_columnas)


Promedio de cada columna: [67.66666667 85.         87.33333333 81.        ]


In [61]:
promedio_filas = np.mean(matriz_calificaciones, axis=1)
print("\nPromedio de cada fila:", promedio_filas)


Promedio de cada fila: [78.75 79.75 82.25]


## 7.4.- Indexando y Cortando arreglos

Crea el arreglo

ventas=np.array ([[ 554, 606, 710, 851],
 [1244, 898, 416, 1763],
 [ 841, 655, 1105, 1067]])

 - Selecciona el item 2,1
 - Selecciona el item 1,3
 - Selecciona la fila 1

In [62]:
ventas=np.array ([[ 554, 606, 710, 851], [1244, 898, 416, 1763], [ 841, 655, 1105, 1067]])

In [63]:
item_2_1 = ventas[2, 1]
item_1_3 = ventas[1, 3]
fila_1 = ventas[1, :]
print("Item en la posición (2,1):", item_2_1)
print("Item en la posición (1,3):", item_1_3)
print("Fila 1:", fila_1)

Item en la posición (2,1): 655
Item en la posición (1,3): 1763
Fila 1: [1244  898  416 1763]


Solicita las filas con índices 0 y 1

In [65]:
filas_0_1 = ventas[0:2, :]
print("Filas con índices 0 y 1:")
print(filas_0_1)

Filas con índices 0 y 1:
[[ 554  606  710  851]
 [1244  898  416 1763]]


Ahora para solicitar las filas con indices 1 y 2

In [66]:
filas_1_2 = ventas[1:3, :]
print("\nFilas con índices 1 y 2:")
print(filas_1_2)


Filas con índices 1 y 2:
[[1244  898  416 1763]
 [ 841  655 1105 1067]]


Quieres solo los elementos de la primera columna?

In [68]:
columna_1 = ventas[:, 0]
print("\nSolo los elementos de la primera columna:")
print(columna_1)


Solo los elementos de la primera columna:
[ 554 1244  841]


Que la las columnas con indices 0 y 2?

In [69]:
columnas_0_2 = ventas[:, [0, 2]]
print("\nColumnas con índices 0 y 2:")
print(columnas_0_2)


Columnas con índices 0 y 2:
[[ 554  710]
 [1244  416]
 [ 841 1105]]


#### Por tu cuenta

Dado el siguiente arreglo

array([[1,2,3,4,5],
     [6,7,8,9,10],
     [11,12,13,14,15]])

- Selecciona la segunda fila
- Selecciona la primera y tercera fila
- Selecciona las tres columnas de enmedio

In [71]:
arreglo = np.array([[1,2,3,4,5], [6,7,8,9,10], [11,12,13,14,15]])

In [72]:
segunda_fila = arreglo[1, :]
print("Segunda fila:")
print(segunda_fila)

Segunda fila:
[ 6  7  8  9 10]


In [73]:
primer_tercer_fila = arreglo[[0, 2], :]
print("\nPrimera y tercera fila:")
print(primer_tercer_fila)


Primera y tercera fila:
[[ 1  2  3  4  5]
 [11 12 13 14 15]]


In [74]:
columnas_del_medio = arreglo[:, 1:4]
print("\nTres columnas del medio:")
print(columnas_del_medio)


Tres columnas del medio:
[[ 2  3  4]
 [ 7  8  9]
 [12 13 14]]


### 7.4.2.- Transponer

Con **reshape** puedes producir una copia superficial del arreglo con una nueva dimension.

ventas = np.array([[ 500, 600, 550, 800],
 [1200, 800, 400,1000]])

Usa el arreglo anterior para darle dimension de 1x8

In [75]:
ventas = np.array([[ 500, 600, 550, 800], [1200, 800, 400,1000]])

In [76]:
ventas_1x8 = ventas.reshape(1, 8)

In [77]:
print("Arreglo con dimensión 1x8:")
print(ventas_1x8)

Arreglo con dimensión 1x8:
[[ 500  600  550  800 1200  800  400 1000]]


El metodo **resize** modifica la forma del original (no crea copia)

In [78]:
ventas = np.array([[500, 600, 550, 800], [1200, 800, 400, 1000]])

In [79]:
ventas.resize(1, 8)

print("Arreglo con dimensión 1x8 después de usar resize:")
print(ventas)

Arreglo con dimensión 1x8 después de usar resize:
[[ 500  600  550  800 1200  800  400 1000]]


Y **transpose** rapidamente le da la vuelta a filas y columnas, este se hace aplicando el atributo T, que no modifica el original, solo una vista.

In [80]:
ventas_transpuestas = ventas.T

print("Arreglo transpuesto:")
print(ventas_transpuestas)

Arreglo transpuesto:
[[ 500]
 [ 600]
 [ 550]
 [ 800]
 [1200]
 [ 800]
 [ 400]
 [1000]]


## 7.5.- Pandas - Series

Vamos a usar estos datos para Series - tiempo_web = pd.Series([160,256,98,108])

Este es el tiempo que invierten en videojuegos 4 estudiantes

In [88]:
import pandas as pd


In [87]:
tiempo_web = pd.Series([160,256,98,108])

In [86]:
print("Serie de tiempo invertido en videojuegos:")
print(tiempo_web)

Serie de tiempo invertido en videojuegos:
0    160
1    256
2     98
3    108
dtype: int64


Para crear una serie con el mismo elemento

In [92]:
serie_mismo_elemento = pd.Series([160] * 4)
print("\nSerie con el mismo elemento:")
print(serie_mismo_elemento)


Serie con el mismo elemento:
0    160
1    160
2    160
3    160
dtype: int64


Acceder a un elemento es facil

In [93]:
primer_estudiante = tiempo_web[0]
print("\nTiempo invertido por el primer estudiante:", primer_estudiante)


Tiempo invertido por el primer estudiante: 160


## Tambien, todo esto se puede resumir con **describe**

Series tiene acceso a los mismos metodos que arreglos para estadistica descriptiva

In [94]:
estadisticas = tiempo_web.describe()
print("\nEstadísticas descriptivas:")
print(estadisticas)


Estadísticas descriptivas:
count      4.000000
mean     155.500000
std       72.302605
min       98.000000
25%      105.500000
50%      134.000000
75%      184.000000
max      256.000000
dtype: float64


In [96]:
estadisticas_resumidas = tiempo_web.describe()

print("Resumen estadístico")
print(estadisticas_resumidas)

Resumen estadístico
count      4.000000
mean     155.500000
std       72.302605
min       98.000000
25%      105.500000
50%      134.000000
75%      184.000000
max      256.000000
dtype: float64


También podemos personalizar los indices de series a traves de index

['Laura','Daniel','Alberto','Eva']

Asigna esos nombres

In [97]:
tiempo_web = pd.Series([160, 256, 98, 108], index=['Laura', 'Daniel', 'Alberto', 'Eva'])


In [98]:
print("Serie con índices personalizados:")
print(tiempo_web)

Serie con índices personalizados:
Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64


O puedes usar un diccionario para eso:

In [101]:
tiempo_dict = {'Laura': 160, 'Daniel': 256, 'Alberto': 98, 'Eva': 108}
tiempo_web = pd.Series(tiempo_dict)


In [102]:
print("Serie creada con un diccionario:")
print(tiempo_web)


Serie creada con un diccionario:
Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64


Puedes llamar a los elementos personalizados

In [103]:
tiempo_laura = tiempo_web['Laura']
print("Tiempo de Laura:", tiempo_laura)


Tiempo de Laura: 160


Tambien se pueden llamar como atributos

In [105]:
tiempo_laura = tiempo_web.Laura
print("Tiempo de Laura:", tiempo_laura)

Tiempo de Laura: 160


#### Por tu cuenta

Usa el generador aleatorio de NumPy (np.random.randint) para generar 6 calificaciones del 60 al 100 y guardarlos en una serie.

A continuación arma las siguientes tareas:

- Convierte el arreglo en una serie llamada calificacion
- Determina la min, max y promedio
- Produce TODAS las estadisticas descriptivas

In [109]:
calificaciones = np.random.randint(60, 101, size=6)


In [108]:
calificacion = pd.Series(calificaciones)
print("Calificaciones generadas:")
print(calificacion)

Calificaciones generadas:
0     81
1     71
2     82
3    100
4     60
5     69
dtype: int64


In [110]:
min_calificacion = calificacion.min()
print("Mínima:", min_calificacion)


Mínima: 60


In [111]:
max_calificacion = calificacion.max()
print("Máxima:", max_calificacion)

Máxima: 100


In [112]:
promedio_calificacion = calificacion.mean()
print("Promedio:", promedio_calificacion)

Promedio: 77.16666666666667


In [113]:
estadisticas_descriptivas = calificacion.describe()
print(estadisticas_descriptivas)

count      6.000000
mean      77.166667
std       13.847984
min       60.000000
25%       69.500000
50%       76.000000
75%       81.750000
max      100.000000
dtype: float64


## 7.6.- Pandas - DataFrames

##### Crear un Dataframe de un diccionario

Agarra este diccionario y conviertelo en un dataframe

 reg_peso = {'Vanesa':[68,67,66,65],'Kevin':[89,89,90,88],
 'Fernanda':[59,60,60,62],'Patricia':[70,68,67,65]}

In [114]:
import pandas as pd

In [115]:
reg_peso = {'Vanesa': [68, 67, 66, 65],
            'Kevin': [89, 89, 90, 88],
            'Fernanda': [59, 60, 60, 62],
            'Patricia': [70, 68, 67, 65]}


In [116]:
df_peso = pd.DataFrame(reg_peso)

In [117]:
print("DataFrame creado a partir del diccionario:")
print(df_peso)

DataFrame creado a partir del diccionario:
   Vanesa  Kevin  Fernanda  Patricia
0      68     89        59        70
1      67     89        60        68
2      66     90        60        67
3      65     88        62        65


##### El atributo Index

Añade los siguientes indices personalizados

peso.index = ['Mes 1','Mes 2','Mes 3','Mes 4']

In [118]:
df_peso.index = ['Mes 1', 'Mes 2', 'Mes 3', 'Mes 4']

In [119]:
print("DataFrame con índices personalizados:")
print(df_peso)

DataFrame con índices personalizados:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1      68     89        59        70
Mes 2      67     89        60        68
Mes 3      66     90        60        67
Mes 4      65     88        62        65


##### Accesar Columnas

Selecciona la información de Fernanda

In [120]:
informacion_fernanda = df_peso['Fernanda']

print("Información de Fernanda:")
print(informacion_fernanda)

Información de Fernanda:
Mes 1    59
Mes 2    60
Mes 3    60
Mes 4    62
Name: Fernanda, dtype: int64


Selecciona la de Patricia pero como atributo

In [121]:
informacion_patricia = df_peso.Patricia

print("Información de Patricia:")
print(informacion_patricia)

Información de Patricia:
Mes 1    70
Mes 2    68
Mes 3    67
Mes 4    65
Name: Patricia, dtype: int64


##### Loc y iloc

Selecciona la información del Mes1 usando Loc

In [122]:
informacion_mes1 = df_peso.loc['Mes 1']

print("Información del Mes 1:")
print(informacion_mes1)

Información del Mes 1:
Vanesa      68
Kevin       89
Fernanda    59
Patricia    70
Name: Mes 1, dtype: int64


Ahora solo la fila 1 usando iloc

In [123]:
informacion_fila_1 = df_peso.iloc[1]

print("Información de la fila 1 (Mes 2):")
print(informacion_fila_1)


Información de la fila 1 (Mes 2):
Vanesa      67
Kevin       89
Fernanda    60
Patricia    68
Name: Mes 2, dtype: int64


Ahora del Mes 1 al Mes 3 usando loc

In [125]:
informacion_meses_1_a_3 = df_peso.loc['Mes 1':'Mes 3']

print("Información del Mes 1 al Mes 3:")
print(informacion_meses_1_a_3)

Información del Mes 1 al Mes 3:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1      68     89        59        70
Mes 2      67     89        60        68
Mes 3      66     90        60        67


Saca filas especificas (mes 1 y 3) usando loc

In [126]:
informacion_meses_1_y_3 = df_peso.loc[['Mes 1', 'Mes 3']]

print("Información de los Meses 1 y 3:")
print(informacion_meses_1_y_3)

Información de los Meses 1 y 3:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1      68     89        59        70
Mes 3      66     90        60        67


Y ahora los Meses 2 y 3 de Vanesa y Patricia solamente con loc

In [127]:
informacion_vanesa_patricia_meses_2_3 = df_peso.loc[['Mes 2', 'Mes 3'], ['Vanesa', 'Patricia']]


print("Información de Vanesa y Patricia en los Meses 2 y 3:")
print(informacion_vanesa_patricia_meses_2_3)

Información de Vanesa y Patricia en los Meses 2 y 3:
       Vanesa  Patricia
Mes 2      67        68
Mes 3      66        67


##### Indices Booleanos

Dime los pesos mayores a 70kg en la tabla

In [128]:
pesos_mayores_a_70 = df_peso[df_peso > 70]

print("Pesos mayores a 70kg:")
print(pesos_mayores_a_70)

Pesos mayores a 70kg:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1     NaN     89       NaN       NaN
Mes 2     NaN     89       NaN       NaN
Mes 3     NaN     90       NaN       NaN
Mes 4     NaN     88       NaN       NaN


Y ahora los pesos mayores a 65kg y menores a 80kg

In [129]:
pesos_entre_65_y_80 = df_peso[(df_peso > 65) & (df_peso < 80)]


print("Pesos mayores a 65kg y menores a 80kg:")
print(pesos_entre_65_y_80)


Pesos mayores a 65kg y menores a 80kg:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1    68.0    NaN       NaN      70.0
Mes 2    67.0    NaN       NaN      68.0
Mes 3    66.0    NaN       NaN      67.0
Mes 4     NaN    NaN       NaN       NaN


##### Accesar una celda especifica de un Dataframe

Que pasa si solo queremos cuanto pesaba Patricia en el mes 3? Usa at

In [130]:
peso_patricia_mes3 = df_peso.at['Mes 3', 'Patricia']

print("Peso de Patricia en el Mes 3:")
print(peso_patricia_mes3)


Peso de Patricia en el Mes 3:
67


Resulta que Kevin en realidad pesaba 85kg en el mes 4, cambia su valor usando at

In [131]:
df_peso.at['Mes 4', 'Kevin'] = 85

In [132]:
print("Dataframe actualizado:")
print(df_peso)

Dataframe actualizado:
       Vanesa  Kevin  Fernanda  Patricia
Mes 1      68     89        59        70
Mes 2      67     89        60        68
Mes 3      66     90        60        67
Mes 4      65     85        62        65


##### Estádistica descriptiva

Puedes usar el metodo **Describe** para sacar todas las estadisticas del dataframe

In [133]:
estadisticas = df_peso.describe()

print("Estadísticas descriptivas del dataframe:")
print(estadisticas)


Estadísticas descriptivas del dataframe:
          Vanesa      Kevin   Fernanda   Patricia
count   4.000000   4.000000   4.000000   4.000000
mean   66.500000  88.250000  60.250000  67.500000
std     1.290994   2.217356   1.258306   2.081666
min    65.000000  85.000000  59.000000  65.000000
25%    65.750000  88.000000  59.750000  66.500000
50%    66.500000  89.000000  60.000000  67.500000
75%    67.250000  89.250000  60.500000  68.500000
max    68.000000  90.000000  62.000000  70.000000


También puedes cambiar la cantidad de decimales usando **Precision**

In [138]:
estadisticas = df_peso.describe()

estadisticas_redondeadas = estadisticas.round(2)

print("Estadísticas descriptivas con 2 decimales:")
print(estadisticas_redondeadas)


Estadísticas descriptivas con 2 decimales:
       Vanesa  Kevin  Fernanda  Patricia
count    4.00   4.00      4.00      4.00
mean    66.50  88.25     60.25     67.50
std      1.29   2.22      1.26      2.08
min     65.00  85.00     59.00     65.00
25%     65.75  88.00     59.75     66.50
50%     66.50  89.00     60.00     67.50
75%     67.25  89.25     60.50     68.50
max     68.00  90.00     62.00     70.00


Y también se pueden aplicar los metodos de estadistica descriptiva individuales como mean

In [139]:
maximo = df_peso.max()
print("\nMáximo de cada columna:")
print(maximo)


Máximo de cada columna:
Vanesa      68
Kevin       90
Fernanda    62
Patricia    70
dtype: int64


##### Transponer

Si quisieramos voltear el dataframe, tendríamos que hacer el método T

In [140]:
df_transpuesto = df_peso.T

print("Dataframe transpuesto:")
print(df_transpuesto)


Dataframe transpuesto:
          Mes 1  Mes 2  Mes 3  Mes 4
Vanesa       68     67     66     65
Kevin        89     89     90     85
Fernanda     59     60     60     62
Patricia     70     68     67     65


Y ahora eso nos ayudaría a sacar los estadísticos para los meses en vez de para las personas

In [141]:
df_transpuesto = df_peso.T

estadisticas_meses = df_transpuesto.describe()

print("Estadísticas descriptivas para los meses:")
print(estadisticas_meses)


Estadísticas descriptivas para los meses:
          Mes 1      Mes 2      Mes 3     Mes 4
count   4.00000   4.000000   4.000000   4.00000
mean   71.50000  71.000000  70.750000  69.25000
std    12.60952  12.516656  13.200379  10.59481
min    59.00000  60.000000  60.000000  62.00000
25%    65.75000  65.250000  64.500000  64.25000
50%    69.00000  67.500000  66.500000  65.00000
75%    74.75000  73.250000  72.750000  70.00000
max    89.00000  89.000000  90.000000  85.00000


Y el peso promedio por mes de nuestra gente

In [142]:
promedio_pesos_por_mes = df_transpuesto.mean()


print("Peso promedio por mes:")
print(promedio_pesos_por_mes)


Peso promedio por mes:
Mes 1    71.50
Mes 2    71.00
Mes 3    70.75
Mes 4    69.25
dtype: float64


##### Ordenar el Dataframe

Ahora vamos a arreglar el dataframe por fila, con los indices en orden descendente

In [143]:
df_peso_ordenado = df_peso.sort_index(ascending=False)


print("Dataframe ordenado por índices en orden descendente:")
print(df_peso_ordenado)


Dataframe ordenado por índices en orden descendente:
       Vanesa  Kevin  Fernanda  Patricia
Mes 4      65     85        62        65
Mes 3      66     90        60        67
Mes 2      67     89        60        68
Mes 1      68     89        59        70


Las columnas en orden ascendente

In [144]:
df_peso_ordenado_columnas = df_peso.sort_index(axis=1, ascending=True)

print(df_peso_ordenado_columnas)


       Fernanda  Kevin  Patricia  Vanesa
Mes 1        59     89        70      68
Mes 2        60     89        68      67
Mes 3        60     90        67      66
Mes 4        62     85        65      65


Y también se vale ordenar los valores según una fila o columna especifica.  El siguiente código ordena de forma descendente los datos del DataFrame con respecto
a los valores del Mes 1.

In [147]:
df_peso_transpuesto = df_peso.T
df_peso_ordenado_mes1 = df_peso_transpuesto.sort_values(by="Mes 1", ascending=False)
print(df_peso_ordenado_mes1)


          Mes 1  Mes 2  Mes 3  Mes 4
Kevin        89     89     90     85
Patricia     70     68     67     65
Vanesa       68     67     66     65
Fernanda     59     60     60     62
