**<center><h1>NumPy y Pandas</h1></center>**

En el mundo de la ciencia de datos y el análisis de datos en Python, NumPy y pandas son dos de las bibliotecas más importantes y ampliamente utilizadas. NumPy proporciona una base sólida para la manipulación de arreglos y matrices numéricas, mientras que pandas se utiliza para la manipulación y análisis de datos estructurados, como hojas de cálculo y bases de datos.

En este notebook, exploraremos cómo utilizar NumPy y pandas para llevar a cabo una variedad de tareas comunes en el análisis de datos, como la carga de datos desde diferentes fuentes, la manipulación de matrices y arreglos, entre otras.

**<center><h2>¿Qué es Pandas?</h2></center>**
Pandas es una biblioteca Python de código abierto que proporciona una rica colección de herramientas de análisis de datos para trabajar con conjuntos de datos. Toma prestada la mayor parte de su funcionalidad de la biblioteca NumPy.

**<h3>Lectura de archivos</h3>**
Para leer archivos existen diferentes formas de hacerlo dependiendo su origen. A continuación veremos algunos. <br>

Desde archivos de excel o csv. 
```
# Leer el archivo de Excel
df = pd.read_excel('nombre_del_archivo.xlsx', sheet_name='nombre_de_la_hoja')
```

```
# Leer el archivo CSV
df = pd.read_csv('nombre_del_archivo.csv')
```
Desde archivos JSON. 
```
# Leer el archivo JSON
with open('nombre_del_archivo.json', 'r') as f:
    data = json.load(f)
```
Desde una base de datos
```
# Conexión a la base de datos Sqlite3
conn = sqlite3.connect('nombre_de_la_base_de_datos.db')

# Leer los datos de la base de datos
query = 'SELECT * FROM nombre_de_la_tabla'
df = pd.read_sql(query, conn)
```
Desde una URL
```
# Leer los datos desde una URL
url = 'https://ejemplo.com/archivo.csv'
df = pd.read_csv(url)
```



**Actividad:** Leer el archivo de excel llamado dogs.xlsx

In [2]:

#Importar la librería Pandas
import pandas as pd

In [3]:

#Leer el archivo
df = pd.read_excel('dogs.xlsx')

Antes de continuar es importante definir el concepto de dataframe.
<p>Los DataFrames son paneles o tablas bidimensionales compuestos por filas y columnas, que permiten destacar las relaciones entre las distintas variables de la serie de datos.<p>
<center><img width="30%" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png"></center>



In [4]:
#Mostrar los datos del df
print(df[['Nombre', 'Edad', 'Tamaño']])


       Nombre  Edad   Tamaño
0         Max     2  Pequeño
1        Lola     4  Mediano
2       Rocky     1  Pequeño
3        Zeus     3   Grande
4       Bella     5  Mediano
5        Duke     2   Grande
6        Luna     6  Mediano
7     Charlie     7   Grande
8      Peanut     2  Pequeño
9        Roxy     4  Mediano
10     Shadow     3   Grande
11      Daisy     1  Pequeño
12     Cooper     4  Mediano
13       Bear     5   Grande
14      Sadie     2  Pequeño
15     Bailey     3  Mediano
16      Riley     6   Grande
17      Gizmo     4  Pequeño
18       Thor     2  Mediano
19   Hercules     7   Grande
20       Jack     3  Pequeño
21       Abby     6  Mediano
22      Bruno     2   Grande
23      Sadie     4  Pequeño
24      Rufus     5  Mediano
25      Bella     2  Pequeño
26       Zeus     4   Grande
27     Cooper     7  Mediano
28     Sophie     3  Pequeño
29      Rocky     2   Grande
30       Bear     6  Mediano
31      Gizmo     1  Pequeño
32       Duke     5   Grande
33    Charlie 

La edad de los perros no es la misma de los humanos, por lo tanto, vamos a crear una nueva columna llamada "Edad_Humana" y su valor está determinado de la siguiente manera: <br>
Si la edad del perro es 1 o 2 se debe multiplicar por:
*   12.5 para perros pequeños,
*   10.5 para perros medianos y
*   9 para perros grandes.

Si la edad es superior a los dos años entonces se debe multiplicar así:
*   4.3 para perros pequeños 
*   13.4 para perros medianos y
*   8.90 para perros grandes.

In [5]:
# Definir función para calcular Edad_Humana
def calcular_edad_humana(row):
    if row['Edad'] <= 2:
        if row['Tamaño'] == 'Pequeño':
            return row['Edad'] * 12.5
        elif row['Tamaño'] == 'Mediano':
            return row['Edad'] * 10.5
        else:
            return row['Edad'] * 9
    else:
        if row['Tamaño'] == 'Pequeño':
            return row['Edad'] * 4.3
        elif row['Tamaño'] == 'Mediano':
            return row['Edad'] * 13.4
        else:
            return row['Edad'] * 8.9

**<h3>Añadiendo nuevas columnas</h3>**

In [6]:
# Agregar la nueva columna Edad_Humana
df['edad_humana'] = df.apply(calcular_edad_humana, axis=1)


**<h3>Generando un nuevo archivo</h3>**

In [7]:
# Guardar DataFrame con la nueva columna en un nuevo archivo Excel
df.to_excel('dogs_con_edad_humana.xlsx', index=False)

**<center><h2>¿Qué es NumPy?</h2></center>**
NumPy (abreviatura de "Numerical Python") es una biblioteca de Python que proporciona un soporte eficiente para la creación, manipulación y cálculo de arreglos y matrices numéricas de gran tamaño.

NumPy se utiliza comúnmente en el análisis de datos, la ciencia de datos y la informática científica debido a sus capacidades para realizar operaciones matemáticas y estadísticas rápidas en grandes conjuntos de datos. NumPy proporciona una serie de funciones matemáticas avanzadas, como operaciones de álgebra lineal, transformadas de Fourier, generación de números aleatorios, entre otras.

**Matrices NumPy**

In [8]:
# importar la librería NumPy
import numpy as np

In [9]:
#Definamos una lista de numeros
lista = [1, 2 , 3, 4, 5, 6, 7, 8, 9]

In [10]:
#Convertir la lista en un array
arr = np.array(lista)

In [11]:
#Definamos una matriz
matriz = np.array([[1,2,3], [4,5,6],[7,8,9]])
matriz = np.array(matriz)
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Ejercicio: Usando NumPy define un arreglo llamado "edades", que contenga los valores de la columna "Edad" del df.

In [12]:
#Definiendo el arreglo edades
edades = np.array(df['Edad'])


In [13]:
#Sumar las edades
edad_total = df['Edad'].sum()
print(edad_total)


216


In [14]:
import numpy as np
#Obtener la mediana
media_arr = np.mean(arr)
print(media_arr)


5.0


In [15]:
#Obtener el mínimo y el máximo

# Obtener el valor mínimo y máximo
minimo = np.min(arr)
maximo = np.max(arr)

print("El valor mínimo es:", minimo)
print("El valor máximo es:", maximo)


El valor mínimo es: 1
El valor máximo es: 9


In [16]:
# agregar una nueva columna 'Grupo_Edad' usando np.where()
df['Grupo_Edad'] = np.where(df['Edad'] <= 2, 'Cachorro', 'Adulto')


**Indexación NumPy** <br>
Podemos acceder a un elemento en una matriz 1D, matriz 2D o matriz 3D. También podemos hacer indexación negativa.

Veamos cómo podemos hacer indexación para las distintas dimensiones.

In [17]:
#Accediendo por posición
arr[4]


5

**Slicing NumPy** <br>
Cuando dividimos una matriz, extraemos sus elementos de un determinado índice a un índice especificado.

In [18]:
#Dividiendo arreglos por indices
arr[2:6]




array([3, 4, 5, 6])

In [19]:
#Dividiendo matrices por indices

porcion_matriz = matriz[1:, 1:]

# Imprimir la porción de la matriz
print(porcion_matriz)




[[5 6]
 [8 9]]


**Ejercicio:** Toma el arreglo edades y usado Slicing trae los datos en el rango 20-40

In [20]:
#Solución ejercicio
edades_filtradas = edades[(df['edad_humana'] >= 20) & (df['edad_humana'] <= 40)]
print(edades_filtradas)


[2 3 2 3 2 2 2 4 2 2 5 4 2 4 3 2 4]


**Tipos de datos NumPy** <br>
NumPy tiene una variedad de tipos de datos escalares. Cada uno de sus tipos de datos integrados tiene un código de caracteres que lo identifica. Los códigos de caracteres son:


*   i – El código de carácter es para enteros (int8, int16, int32, int64, intp).
*   f – código de caracteres para floats(float16, float32, float32).
*   S – código de carácter para la cadena.
*   M – código de carácter para datetime.
*   B - Código de carácter para booleano.


In [21]:
#Definamos algunos arreglos
arr_i = np.array([1,2,3,4,5])
arr_f = np.array([1.5,2.3,3.5,4.4,5.1])
arr_b = np.array([0, 1, 1, 0], dtype='bool')

In [22]:
#Obtener los tipos de datos
print(arr_i.dtype)
print(arr_f.dtype)
print(arr_b.dtype)

int32
float64
bool


In [23]:
#Convertir tipo de datos
arr_i = arr_i.astype(np.float64)
arr_i

array([1., 2., 3., 4., 5.])

**Ejercicio:** Obten el tipo de datos de la columna" "Edad_Humana

In [24]:
#Solución ejercicio
tipo_datos_edad_humana = df['edad_humana'].dtypes
print(tipo_datos_edad_humana)


float64


**Dimensiones de los datos** <br>
<img width="60%" src="https://i.ibb.co/SvWTh1p/dimensiones-de-los-datos.jpg">

In [25]:
#Scalar
scalar = np.array(42)
print(scalar) 
scalar.ndim 

42


0

In [26]:
#Vector
vector = np.array([1, 2, 3])
print(vector) 
vector.ndim 

[1 2 3]


1

In [27]:
#Matriz
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)
matriz.ndim

[[1 2 3]
 [4 5 6]]


2

In [28]:
#Tensor
tensor = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]],[[13, 13, 15], [16, 17, 18], [19, 20, 21], [22, 23, 24]]])
print(tensor)
tensor.ndim

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]
  [10 11 12]]

 [[13 13 15]
  [16 17 18]
  [19 20 21]
  [22 23 24]]]


3

**Creando arrays NumPy**

In [29]:
#Crear un arreglo con del 0 al 10
arreglo = np.arange(11)
print(arreglo)


[ 0  1  2  3  4  5  6  7  8  9 10]


In [30]:
#Usando intervalos
arreglo = np.linspace(1, 10, 5)
print(arreglo)


[ 1.    3.25  5.5   7.75 10.  ]


In [31]:
#Arrays de 0
array_0 = np.zeros(5)
print(array_0)

[0. 0. 0. 0. 0.]


In [32]:
#Arrays de 1
array2 = np.array([1, 2, 3, 4, 5])
print(array2)


[1 2 3 4 5]


In [33]:
#Arrays con numeros aleatorios
array_aleatorio = np.random.rand(5)
print(array_aleatorio)

[0.22683216 0.61353624 0.1462134  0.53350039 0.97902207]


**Ejercicio**: Crear dos columnas en el dataset. La primera será "Puntaje", la cual se genera con numeros aleatorios, la segunda será "Id" que se llenará usando arange.

Debes terner presente que el dataset cuenta con 60 registros.

In [34]:
#Solución ejercicio
# Generar la columna "Puntaje" con números aleatorios entre 0 y 100
df['Puntaje'] = np.random.randint(0, 101, size=len(df))

# Generar la columna "Id" usando arange
df['Id'] = np.arange(1, len(df)+1)

# Mostrar el dataset con las nuevas columnas
print(df)


       Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0         Max     2  Pequeño         25.0   Cachorro       81   1
1        Lola     4  Mediano         53.6     Adulto       19   2
2       Rocky     1  Pequeño         12.5   Cachorro       56   3
3        Zeus     3   Grande         26.7     Adulto       41   4
4       Bella     5  Mediano         67.0     Adulto       29   5
5        Duke     2   Grande         18.0   Cachorro       27   6
6        Luna     6  Mediano         80.4     Adulto       38   7
7     Charlie     7   Grande         62.3     Adulto       85   8
8      Peanut     2  Pequeño         25.0   Cachorro       12   9
9        Roxy     4  Mediano         53.6     Adulto       22  10
10     Shadow     3   Grande         26.7     Adulto        5  11
11      Daisy     1  Pequeño         12.5   Cachorro       76  12
12     Cooper     4  Mediano         53.6     Adulto       90  13
13       Bear     5   Grande         44.5     Adulto       97  14
14      Sa

**Shape y Reshape** <br>
Hay 2 funciones muy importantes de los arreglos (Shape y Reshape). La forma de un arreglo nos va a decir con que estructura se está trabajando

La forma de una matriz es el número de elementos en cada dimensión. Para conocer la forma de una matriz, usamos el atributo shape, que devuelve una tupla.

In [35]:
#Veamos la formas arr y matriz
print('Arr shape: '+ str(arr.shape) )
print('Matriz shape: '+ str(matriz.shape) )

Arr shape: (9,)
Matriz shape: (2, 3)


Reshape significa cambiar la forma de la matriz. Podemos remodelar una matriz a cualquier dimensión que queramos.

In [36]:
#Cambiemos la forma a 3 x 3
arr.reshape(3,3)


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [76]:
#Tomemos la matriz y vamos a convertirla a vector
matriz.reshape(-1)

array([1, 2, 3, 4, 5, 6])

**Ejercicio:** Crea un arreglo con 20 posiciones y cambia su forma

In [38]:
#Solución ejercicio
# Crear un arreglo con 20 posiciones
arr = np.arange(20)

# Cambiar la forma del arreglo a una matriz de 4 filas y 5 columnas
arr_reshape = arr.reshape(4, 5)

# Imprimir el arreglo con la nueva forma
print(arr_reshape)


**Ejercicio:** Toma la columna 'Edad' del df y transformala para que sea una matriz con 3 columnas

In [39]:
#Solución ejercicio
edad_matrix = df['Edad'].values.reshape(-1, 3)



**Funciones NumPy**

In [77]:
#Devolver el valor máximo
arr.max()

9

In [41]:
#Devolver el valor máximo por filas y columnas

# Encontrar el valor máximo por filas
max_por_filas = np.max(arr, axis=1)
print("Valor máximo por filas:", max_por_filas)

# Encontrar el valor máximo por columnas
max_por_columnas = np.max(arr, axis=0)
print("Valor máximo por columnas:", max_por_columnas)


In [78]:
#Devolver el indice del máximo
indice_maximo = np.argmax(arr)
print("El índice del valor máximo es:", indice_maximo)


El índice del valor máximo es: 8


In [79]:
#Hacer lo anterior para obtener valores mínimos en arr y matriz
# Valor mínimo en el arreglo arr
valor_minimo_arr = np.min(arr)
print("El valor mínimo en arr es:", valor_minimo_arr)

# Valor mínimo en la matriz matriz
valor_minimo_matriz = np.min(matriz)
print("El valor mínimo en matriz es:", valor_minimo_matriz)


El valor mínimo en arr es: 1
El valor mínimo en matriz es: 1


In [81]:
#Conocer la distancia entre el valor más bajo con el más alto.
distancia = arr.max() - arr.min()

# Imprimir la distancia
print("La distancia entre el valor más bajo y el más alto es:", distancia)


La distancia entre el valor más bajo y el más alto es: 8


In [82]:
#Ordenar elementos
sorted_arr = np.sort(arr)
print(sorted_arr)


[1 2 3 4 5 6 7 8 9]


In [83]:
#Concatenación
arreglo_concatenado = np.concatenate((arr, arr_b, arr_f, arr_i, array2, array_0, array_aleatorio, arreglo), axis=None)

# Imprimir el arreglo concatenado
print(arreglo_concatenado)


[ 1.          2.          3.          4.          5.          6.
  7.          8.          9.          0.          1.          1.
  0.          1.5         2.3         3.5         4.4         5.1
  1.          2.          3.          4.          5.          1.
  2.          3.          4.          5.          0.          0.
  0.          0.          0.          0.22683216  0.61353624  0.1462134
  0.53350039  0.97902207  1.          3.25        5.5         7.75
 10.        ]


In [84]:
#Crear un arreglo a patir de una fracción de otro arreglo
fraccion_arreglo = arr[2:6]
print(fraccion_arreglo)


[3 4 5 6]


In [48]:
#Hacer una copia de un arreglo
copia_arr = np.copy(arr)

# Imprimir la copia del arreglo
print(copia_arr)



In [85]:
#Cambiar los valores de un arreglo
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

# Cambiar los valores del arreglo
arr[0] = 10
arr[1] = 20
arr[2] = 30
arr[3] = 40
arr[4] = 50
arr[5] = 60
arr[6] = 70
arr[7] = 80
arr[8] = 90

# Imprimir el arreglo actualizado
print(arr)



[10 20 30 40 50 60 70 80 90]


**Condiciones**

In [86]:
#Valores mayores a 3
valores_mayores_a_3 = arr[arr > 3]
print(valores_mayores_a_3)


[10 20 30 40 50 60 70 80 90]


**Ejercicio:** Toma la columna "Edad_Humana" y realiza la condición para mayores de 20

In [88]:
#Solución ejercicio
mayores_a_20 = df[df['edad_humana'] > 20]
print(mayores_a_20)

       Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0         Max     2  Pequeño         25.0   Cachorro       81   1
1        Lola     4  Mediano         53.6     Adulto       19   2
3        Zeus     3   Grande         26.7     Adulto       41   4
4       Bella     5  Mediano         67.0     Adulto       29   5
6        Luna     6  Mediano         80.4     Adulto       38   7
7     Charlie     7   Grande         62.3     Adulto       85   8
8      Peanut     2  Pequeño         25.0   Cachorro       12   9
9        Roxy     4  Mediano         53.6     Adulto       22  10
10     Shadow     3   Grande         26.7     Adulto        5  11
12     Cooper     4  Mediano         53.6     Adulto       90  13
13       Bear     5   Grande         44.5     Adulto       97  14
14      Sadie     2  Pequeño         25.0   Cachorro       83  15
15     Bailey     3  Mediano         40.2     Adulto       20  16
16      Riley     6   Grande         53.4     Adulto       41  17
18       T

In [89]:
#Devuelve los valores dónde la condición es True.
valores_verdaderos = np.where(df['Tamaño'] == 'Pequeño' )

# Imprimir los valores verdaderos
print(valores_verdaderos)



(array([ 0,  2,  8, 11, 14, 17, 20, 23, 25, 28, 31, 33, 36, 39, 40, 43, 46,
       48, 50, 53, 56, 59], dtype=int64),)


In [91]:
#Multiples condiciones
valores_verdaderos = np.where((df['Tamaño'] == 'Pequeño') & (df['Edad'] < 5))
print(valores_verdaderos)


(array([ 0,  2,  8, 11, 14, 17, 20, 23, 25, 28, 31, 33, 36, 39, 40, 46, 48,
       50, 53, 56, 59], dtype=int64),)


In [94]:
#Modificar los valores que cumplan una condición
# Modificar los valores mayores a 0 en el arreglo arr
arr = np.array([1, -2, 3, -4, 5])
arr_modificado = np.where(arr > 0, arr * 2, arr)

print(arr_modificado)



[ 2 -2  6 -4 10]


**<h2>Manipulación de DataFrames con Pandas</h2>** <br>

Pandas tiene varios atributos útiles que proporcionan información sobre las estructuras de datos que estamos trabajando. Algunos de los atributos más comunes de Pandas son:

* **`shape`**: devuelve una tupla que representa la forma (número de filas y columnas) del DataFrame.
* **` index`**: devuelve la etiqueta de índice de las filas del DataFrame.
* **`columns`**: devuelve la etiqueta de las columnas del DataFrame.
* **`dtypes`**: devuelve los tipos de datos de las columnas del DataFrame.
* **`values`**: devuelve los valores del DataFrame como un ndarray.
* **`empty`**: devuelve True si el DataFrame está vacío, False en caso contrario.
* **`size`**: devuelve el número total de elementos en el DataFrame.
* **`ndim`**: devuelve la cantidad de dimensiones del DataFrame (1 para Series, 2 para DataFrame).

Utilizando el dataframe de este notebook vamos a aplicar los atributos de pandas

In [95]:
# Imprimir la forma del DataFrame
print(df.shape)



(60, 7)


In [96]:
# Imprimir las etiquetas de índice
print(df.index)


RangeIndex(start=0, stop=60, step=1)


In [97]:
# Imprimir las etiquetas de columnas
print(df.columns)


Index(['Nombre', 'Edad', 'Tamaño', 'edad_humana', 'Grupo_Edad', 'Puntaje',
       'Id'],
      dtype='object')


In [98]:
# Imprimir los tipos de datos de las columnas
print(df.dtypes)


Nombre          object
Edad             int64
Tamaño          object
edad_humana    float64
Grupo_Edad      object
Puntaje          int32
Id               int32
dtype: object


In [99]:
# Imprimir los valores del DataFrame
print(df.values)

[['Max' 2 'Pequeño' 25.0 'Cachorro' 81 1]
 ['Lola' 4 'Mediano' 53.6 'Adulto' 19 2]
 ['Rocky' 1 'Pequeño' 12.5 'Cachorro' 56 3]
 ['Zeus' 3 'Grande' 26.700000000000003 'Adulto' 41 4]
 ['Bella' 5 'Mediano' 67.0 'Adulto' 29 5]
 ['Duke' 2 'Grande' 18.0 'Cachorro' 27 6]
 ['Luna' 6 'Mediano' 80.4 'Adulto' 38 7]
 ['Charlie' 7 'Grande' 62.300000000000004 'Adulto' 85 8]
 ['Peanut' 2 'Pequeño' 25.0 'Cachorro' 12 9]
 ['Roxy' 4 'Mediano' 53.6 'Adulto' 22 10]
 ['Shadow' 3 'Grande' 26.700000000000003 'Adulto' 5 11]
 ['Daisy' 1 'Pequeño' 12.5 'Cachorro' 76 12]
 ['Cooper' 4 'Mediano' 53.6 'Adulto' 90 13]
 ['Bear' 5 'Grande' 44.5 'Adulto' 97 14]
 ['Sadie' 2 'Pequeño' 25.0 'Cachorro' 83 15]
 ['Bailey' 3 'Mediano' 40.2 'Adulto' 20 16]
 ['Riley' 6 'Grande' 53.400000000000006 'Adulto' 41 17]
 ['Gizmo' 4 'Pequeño' 17.2 'Adulto' 28 18]
 ['Thor' 2 'Mediano' 21.0 'Cachorro' 88 19]
 ['Hercules' 7 'Grande' 62.300000000000004 'Adulto' 45 20]
 ['Jack' 3 'Pequeño' 12.899999999999999 'Adulto' 99 21]
 ['Abby' 6 'Media

In [100]:
# Imprimir si el DataFrame está vacío
print(df.empty)

False


In [101]:
# Imprimir el número total de elementos en el DataFrame
print(df.size)

420


In [102]:
# Imprimir la cantidad de dimensiones del DataFrame
print(df.ndim)

2


A continuación revisaremos otros métodos para obtener más información de un dataframe.

In [103]:
#Mostrar información del dataframe
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Nombre       60 non-null     object 
 1   Edad         60 non-null     int64  
 2   Tamaño       60 non-null     object 
 3   edad_humana  60 non-null     float64
 4   Grupo_Edad   60 non-null     object 
 5   Puntaje      60 non-null     int32  
 6   Id           60 non-null     int32  
dtypes: float64(1), int32(2), int64(1), object(3)
memory usage: 2.9+ KB
None


In [104]:
#Mostrar información de cantidad y valores nulos
print(df.isnull().sum())

Nombre         0
Edad           0
Tamaño         0
edad_humana    0
Grupo_Edad     0
Puntaje        0
Id             0
dtype: int64


In [105]:
#Muestra los primeros registros del dataframe
print(df.head())

  Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0    Max     2  Pequeño         25.0   Cachorro       81   1
1   Lola     4  Mediano         53.6     Adulto       19   2
2  Rocky     1  Pequeño         12.5   Cachorro       56   3
3   Zeus     3   Grande         26.7     Adulto       41   4
4  Bella     5  Mediano         67.0     Adulto       29   5


**Filtrado con loc y iloc**

In [106]:
#Muestra todos los datos del dataFrame
print(df)

       Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0         Max     2  Pequeño         25.0   Cachorro       81   1
1        Lola     4  Mediano         53.6     Adulto       19   2
2       Rocky     1  Pequeño         12.5   Cachorro       56   3
3        Zeus     3   Grande         26.7     Adulto       41   4
4       Bella     5  Mediano         67.0     Adulto       29   5
5        Duke     2   Grande         18.0   Cachorro       27   6
6        Luna     6  Mediano         80.4     Adulto       38   7
7     Charlie     7   Grande         62.3     Adulto       85   8
8      Peanut     2  Pequeño         25.0   Cachorro       12   9
9        Roxy     4  Mediano         53.6     Adulto       22  10
10     Shadow     3   Grande         26.7     Adulto        5  11
11      Daisy     1  Pequeño         12.5   Cachorro       76  12
12     Cooper     4  Mediano         53.6     Adulto       90  13
13       Bear     5   Grande         44.5     Adulto       97  14
14      Sa

In [107]:
#Filtra los datos de la fila que va de 0 a 10 y de las columnas Nombre y Edad_Humana
print(df.loc[0:10, ['Nombre', 'edad_humana']])

     Nombre  edad_humana
0       Max         25.0
1      Lola         53.6
2     Rocky         12.5
3      Zeus         26.7
4     Bella         67.0
5      Duke         18.0
6      Luna         80.4
7   Charlie         62.3
8    Peanut         25.0
9      Roxy         53.6
10   Shadow         26.7


In [108]:
#Operaciones aritméticas
print(df['Edad'] + 1)

0     3
1     5
2     2
3     4
4     6
5     3
6     7
7     8
8     3
9     5
10    4
11    2
12    5
13    6
14    3
15    4
16    7
17    5
18    3
19    8
20    4
21    7
22    3
23    5
24    6
25    3
26    5
27    8
28    4
29    3
30    7
31    2
32    6
33    3
34    5
35    7
36    4
37    5
38    2
39    3
40    4
41    7
42    3
43    6
44    4
45    5
46    2
47    8
48    3
49    5
50    2
51    7
52    4
53    3
54    6
55    5
56    2
57    8
58    3
59    4
Name: Edad, dtype: int64


In [109]:
#Filtrado por valores
print(df[df['Edad'] > 5])

      Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
6       Luna     6  Mediano         80.4     Adulto       38   7
7    Charlie     7   Grande         62.3     Adulto       85   8
16     Riley     6   Grande         53.4     Adulto       41  17
19  Hercules     7   Grande         62.3     Adulto       45  20
21      Abby     6  Mediano         80.4     Adulto        0  22
27    Cooper     7  Mediano         93.8     Adulto       28  28
30      Bear     6  Mediano         80.4     Adulto       39  31
35   Maximus     6   Grande         53.4     Adulto       87  36
41   Charlie     6  Mediano         80.4     Adulto       72  42
47      Luna     7  Mediano         93.8     Adulto       23  48
51    Bailey     6  Mediano         80.4     Adulto       41  52
57     Bella     7  Mediano         93.8     Adulto       97  58


In [110]:
#Filtrado por indices
print(df.iloc[0:10, 0:2])

    Nombre  Edad
0      Max     2
1     Lola     4
2    Rocky     1
3     Zeus     3
4    Bella     5
5     Duke     2
6     Luna     6
7  Charlie     7
8   Peanut     2
9     Roxy     4


In [111]:
#Filtro por indices en filas y columnas
print(df.iloc[[0, 2, 4], [0, 2]])

  Nombre   Tamaño
0    Max  Pequeño
2  Rocky  Pequeño
4  Bella  Mediano


**Filtro por condiciones**

In [112]:
#Filtrar los menores de 3 años
print(df[df['Edad'] < 3])


       Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0         Max     2  Pequeño         25.0   Cachorro       81   1
2       Rocky     1  Pequeño         12.5   Cachorro       56   3
5        Duke     2   Grande         18.0   Cachorro       27   6
8      Peanut     2  Pequeño         25.0   Cachorro       12   9
11      Daisy     1  Pequeño         12.5   Cachorro       76  12
14      Sadie     2  Pequeño         25.0   Cachorro       83  15
18       Thor     2  Mediano         21.0   Cachorro       88  19
22      Bruno     2   Grande         18.0   Cachorro       21  23
25      Bella     2  Pequeño         25.0   Cachorro       14  26
29      Rocky     2   Grande         18.0   Cachorro       57  30
31      Gizmo     1  Pequeño         12.5   Cachorro       66  32
33    Charlie     2  Pequeño         25.0   Cachorro       85  34
38   Hercules     1   Grande          9.0   Cachorro       37  39
39  Buttercup     2  Pequeño         25.0   Cachorro       59  40
42       Z

In [113]:
#Filtrar los que se llaman Max
print(df[df['Nombre'] == 'Max'])

  Nombre  Edad   Tamaño  edad_humana Grupo_Edad  Puntaje  Id
0    Max     2  Pequeño         25.0   Cachorro       81   1


**Group By**

In [114]:
#Agrupar por tamaño
print(df.groupby('Tamaño').size())

Tamaño
Grande     19
Mediano    19
Pequeño    22
dtype: int64


In [115]:
#Suma agrupando por tamaño
print(df.groupby('Tamaño').sum())

                                                    Nombre  Edad  edad_humana  \
Tamaño                                                                          
Grande   ZeusDukeCharlieShadowBearRileyHerculesBrunoZeu...    72        641.9   
Mediano  LolaBellaLunaRoxyCooperBaileyThorAbbyRufusCoop...    94       1253.8   
Pequeño  MaxRockyPeanutDaisySadieGizmoJackSadieBellaSop...    50        395.4   

                                                Grupo_Edad  Puntaje   Id  
Tamaño                                                                    
Grande   AdultoCachorroAdultoAdultoAdultoAdultoAdultoCa...     1077  575  
Mediano  AdultoAdultoAdultoAdultoAdultoAdultoCachorroAd...      930  551  
Pequeño  CachorroCachorroCachorroCachorroCachorroAdulto...     1329  704  
