## Introducción a Pandas

Pandas es una biblioteca de Python que nos sirve para la manipulación, el análisis y la limpieza de datos. Se basa en la estructura de programación de NumPy.

In [2]:
# Importamos NumPy y Pandas
import numpy as np
import pandas as pd

### Estructuras de Datos



1.   **Serie**


*   Es una estructura unidimensional, similar a una lista o un arreglo, pero con etiquetas (índices) para cada elemento.
*   Puede contener datos de cualquier tipo, como números enteros, cadenas de texto, objetos de Python, entre otros.
*   Se usa para representar una columna de datos o una lista de valores con una referencia (índice) para cada elemento.

2.   **DataFrame**


*   Es una estructura bidimensional, similar a una tabla de una base de datos o una hoja de cálculo de Excel.
*   Está formada por filas y columnas, donde cada columna es una Serie.
*   Cada fila y columna tiene etiquetas (índices) que permiten localizar y manipular los datos.





In [3]:
# Crear una Serie a partir de una lista
lista = [1, 2, 3, 4, 5, np.nan]
serie_1 = pd.Series(lista)
print(serie_1)


0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    NaN
dtype: float64


In [4]:
# Crear una serie a partir de un diccionario
diccionario = {'Manzanas': 10, 'Naranjas': 15, 'Uvas': 20, 'Peras': 25}
serie_2 = pd.Series(diccionario)
print(serie_2)

Manzanas    10
Naranjas    15
Uvas        20
Peras       25
dtype: int64


In [5]:
# Crear un DataFrame a partir de un diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Maria', 'Jorge', 'Sofia', 'Diego', 'Camila', 'Pedro', 'Valeria'],
    'Edad': [25, 30, 22, 28, 35, 19, 40, 33, 26, 27],
    'Altura': [1.65, 1.75, 1.80, 1.60, 1.85, 1.68, 1.78, 1.62, 1.70, 1.75],
    'Peso': [60, 75, 85, 55, 90, 58, 80, 62, 68, 72],
    'Nacionalidad': ['Mexicana', 'Argentina', 'Chilena', 'Mexicana', 'Peruana', 'Colombiana', 'Mexicana', 'Argentina', 'Chilena', 'Peruana']
}
df1 = pd.DataFrame(datos)
df1

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
0,Ana,25,1.65,60,Mexicana
1,Luis,30,1.75,75,Argentina
2,Carlos,22,1.8,85,Chilena
3,Maria,28,1.6,55,Mexicana
4,Jorge,35,1.85,90,Peruana
5,Sofia,19,1.68,58,Colombiana
6,Diego,40,1.78,80,Mexicana
7,Camila,33,1.62,62,Argentina
8,Pedro,26,1.7,68,Chilena
9,Valeria,27,1.75,72,Peruana


In [6]:
# Crear un DataFrame a partir de un array
datos = np.array([
    [1001, 25, 500],
    [1002, 30, 750],
    [1003, 20, 300],
    [1004, 15, 150],
    [1005, 45, 900],
    [1006, 50, 1000],
    [1007, 60, 1200],
    [1008, 35, 700],
    [1009, 40, 800],
    [1010, 22, 440],
    [1011, 18, 360],
    [1012, 55, 1100],
    [1013, 32, 640],
    [1014, 48, 960],
    [1015, 27, 540]])


df2 = pd.DataFrame(datos, columns=['ID_Transaccion', 'Cantidad de Depositos', 'Monto Total'])
df2

Unnamed: 0,ID_Transaccion,Cantidad de Depositos,Monto Total
0,1001,25,500
1,1002,30,750
2,1003,20,300
3,1004,15,150
4,1005,45,900
5,1006,50,1000
6,1007,60,1200
7,1008,35,700
8,1009,40,800
9,1010,22,440


In [7]:
# Consultar el tipo de dato que contiene las columnas
df1.dtypes


Unnamed: 0,0
Nombre,object
Edad,int64
Altura,float64
Peso,int64
Nacionalidad,object


In [8]:
df2.dtypes

Unnamed: 0,0
ID_Transaccion,int64
Cantidad de Depositos,int64
Monto Total,int64


## Visualización de datos

In [9]:
# Para visualizar las primeras filas de un DataFrame, utilizamos el método head().
# Por defecto, este muestra las primeras 5 filas, pero podemos especificar una cantidad diferente pasando un número como argumento dentro de los paréntesis.

df1.head()

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
0,Ana,25,1.65,60,Mexicana
1,Luis,30,1.75,75,Argentina
2,Carlos,22,1.8,85,Chilena
3,Maria,28,1.6,55,Mexicana
4,Jorge,35,1.85,90,Peruana


In [10]:
# Para visualizar las ultimas filas de un DataFrame, utilizamos el método tail().
# De igual forma podemos indicar los registros que necesitemos dentro del parentesis
df2.tail()

Unnamed: 0,ID_Transaccion,Cantidad de Depositos,Monto Total
10,1011,18,360
11,1012,55,1100
12,1013,32,640
13,1014,48,960
14,1015,27,540


In [11]:
# Para mostrar el indice
df1.index

RangeIndex(start=0, stop=10, step=1)

In [12]:
# Para mostrar las columnas
df2.columns

Index(['ID_Transaccion', 'Cantidad de Depositos', 'Monto Total'], dtype='object')

In [13]:
# Podemos obtener un resumen estadístico de los datos del DataFrame, usando la función describe()
df1.describe()

Unnamed: 0,Edad,Altura,Peso
count,10.0,10.0,10.0
mean,28.5,1.718,70.5
std,6.240548,0.081622,11.965227
min,19.0,1.6,55.0
25%,25.25,1.6575,60.5
50%,27.5,1.725,70.0
75%,32.25,1.7725,78.75
max,40.0,1.85,90.0


In [14]:
# Podemos ordenar los datos por alguna columna
df1.sort_values(by='Edad', ascending=True)

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
5,Sofia,19,1.68,58,Colombiana
2,Carlos,22,1.8,85,Chilena
0,Ana,25,1.65,60,Mexicana
8,Pedro,26,1.7,68,Chilena
9,Valeria,27,1.75,72,Peruana
3,Maria,28,1.6,55,Mexicana
1,Luis,30,1.75,75,Argentina
7,Camila,33,1.62,62,Argentina
4,Jorge,35,1.85,90,Peruana
6,Diego,40,1.78,80,Mexicana


In [15]:
# Para visualizar una columna en especifico
df2['Cantidad de Depositos']

Unnamed: 0,Cantidad de Depositos
0,25
1,30
2,20
3,15
4,45
5,50
6,60
7,35
8,40
9,22


In [16]:
# Podemos consultar los registros desde la fila i a i-1
df1[0:4]

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
0,Ana,25,1.65,60,Mexicana
1,Luis,30,1.75,75,Argentina
2,Carlos,22,1.8,85,Chilena
3,Maria,28,1.6,55,Mexicana


In [17]:
# Seleccionar por etiqueta usando loc

df2.loc[1:3, ['ID_Transaccion', 'Monto Total']]

Unnamed: 0,ID_Transaccion,Monto Total
1,1002,750
2,1003,300
3,1004,150


In [18]:
# Seleccionar por posición usando el iloc

df2.iloc[1:4, [0,2]]

Unnamed: 0,ID_Transaccion,Monto Total
1,1002,750
2,1003,300
3,1004,150


In [19]:
# Generar algún filtro

df2[df2['Monto Total'] > 1000 ]

Unnamed: 0,ID_Transaccion,Cantidad de Depositos,Monto Total
6,1007,60,1200
11,1012,55,1100


In [20]:
# Consultar la existencia de algun valor

df1[df1['Nombre'].isin(['Luis','Maria'])]

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
1,Luis,30,1.75,75,Argentina
3,Maria,28,1.6,55,Mexicana


## Datos Faltantes

In [21]:
df3 = pd.DataFrame({
    'ID_Producto': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'Nombre_Producto': ['Laptop', 'Teléfono', 'Tablet', 'Monitor', 'Teclado', 'Ratón', 'Impresora', 'Auriculares', np.nan, 'Cámara'],
    'Precio': [750.50, 599.99, 329.00, 199.99, np.nan, 25.75, 120.00, np.nan, 149.99, 499.99],
    'Stock': [10, 5, np.nan, 20, 15, 50, np.nan, 25, 30, np.nan],
    'Proveedor': ['Proveedor A', 'Proveedor B', np.nan, 'Proveedor C', 'Proveedor D', 'Proveedor E', 'Proveedor F', 'Proveedor G', 'Proveedor H', np.nan]})

df3

Unnamed: 0,ID_Producto,Nombre_Producto,Precio,Stock,Proveedor
0,101,Laptop,750.5,10.0,Proveedor A
1,102,Teléfono,599.99,5.0,Proveedor B
2,103,Tablet,329.0,,
3,104,Monitor,199.99,20.0,Proveedor C
4,105,Teclado,,15.0,Proveedor D
5,106,Ratón,25.75,50.0,Proveedor E
6,107,Impresora,120.0,,Proveedor F
7,108,Auriculares,,25.0,Proveedor G
8,109,,149.99,30.0,Proveedor H
9,110,Cámara,499.99,,


In [22]:
# Para identificar los valores NaN, con formato booleano

pd.isna(df3)

Unnamed: 0,ID_Producto,Nombre_Producto,Precio,Stock,Proveedor
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,True,True
3,False,False,False,False,False
4,False,False,True,False,False
5,False,False,False,False,False
6,False,False,False,True,False
7,False,False,True,False,False
8,False,True,False,False,False
9,False,False,False,True,True


In [23]:
# Para eliminar cualquier fila que tenga datos faltantes

df3.dropna(how='any')

Unnamed: 0,ID_Producto,Nombre_Producto,Precio,Stock,Proveedor
0,101,Laptop,750.5,10.0,Proveedor A
1,102,Teléfono,599.99,5.0,Proveedor B
3,104,Monitor,199.99,20.0,Proveedor C
5,106,Ratón,25.75,50.0,Proveedor E


In [24]:
# Para rellenar los datos faltantes

df3.fillna(1)

Unnamed: 0,ID_Producto,Nombre_Producto,Precio,Stock,Proveedor
0,101,Laptop,750.5,10.0,Proveedor A
1,102,Teléfono,599.99,5.0,Proveedor B
2,103,Tablet,329.0,1.0,1
3,104,Monitor,199.99,20.0,Proveedor C
4,105,Teclado,1.0,15.0,Proveedor D
5,106,Ratón,25.75,50.0,Proveedor E
6,107,Impresora,120.0,1.0,Proveedor F
7,108,Auriculares,1.0,25.0,Proveedor G
8,109,1,149.99,30.0,Proveedor H
9,110,Cámara,499.99,1.0,1


### Operaciones Estadisticas

In [25]:
# Como vimos podemos usar el Describe() pero si también podemos usar las funciones individuales

In [26]:
df1['Altura'].mean()

1.718

In [27]:
df1['Peso'].std()

11.965227397198378

In [28]:
df1['Edad'].median()

27.5

### Funciones definidas por el usuario

In [29]:
df1['Altura'].apply(np.sqrt)

Unnamed: 0,Altura
0,1.284523
1,1.322876
2,1.341641
3,1.264911
4,1.360147
5,1.296148
6,1.334166
7,1.272792
8,1.30384
9,1.322876


In [30]:
df1['Altura'].agg(lambda x: x**2)

  df1['Altura'].agg(lambda x: x**2)


Unnamed: 0,Altura
0,2.7225
1,3.0625
2,3.24
3,2.56
4,3.4225
5,2.8224
6,3.1684
7,2.6244
8,2.89
9,3.0625


In [31]:
df1['Peso'].transform(lambda x: x**2)

Unnamed: 0,Peso
0,3600
1,5625
2,7225
3,3025
4,8100
5,3364
6,6400
7,3844
8,4624
9,5184


# Combinar DataFrame's

Existen tres forma de combinar dataframe's que son

```
merge(), concat() y join()
```



In [32]:
df4 = pd.DataFrame({
    'ID_Producto': [101, 102, 103, 104, 105],
    'Nombre_Producto': ['Laptop', 'Teléfono', 'Tablet', 'Monitor', 'Teclado'],
    'Precio': [750.50, 599.99, 329.00, 199.99, 49.99]
})

df4



Unnamed: 0,ID_Producto,Nombre_Producto,Precio
0,101,Laptop,750.5
1,102,Teléfono,599.99
2,103,Tablet,329.0
3,104,Monitor,199.99
4,105,Teclado,49.99


In [33]:
df5 = pd.DataFrame({
    'ID_Producto': [104, 105, 106, 107, 108],
    'Nombre_Producto': ['Monitor', 'Teclado', 'Ratón', 'Impresora', 'Auriculares'],
    'Stock': [20, 15, 50, 10, 25]
})

df5

Unnamed: 0,ID_Producto,Nombre_Producto,Stock
0,104,Monitor,20
1,105,Teclado,15
2,106,Ratón,50
3,107,Impresora,10
4,108,Auriculares,25


**pd.Concat()**

Concatena (une) dos o más DataFrames uno debajo de otro (por filas) o uno al lado del otro (por columnas).


In [34]:
 # Apilar por filas
pd.concat([df4, df5], axis=0)



Unnamed: 0,ID_Producto,Nombre_Producto,Precio,Stock
0,101,Laptop,750.5,
1,102,Teléfono,599.99,
2,103,Tablet,329.0,
3,104,Monitor,199.99,
4,105,Teclado,49.99,
0,104,Monitor,,20.0
1,105,Teclado,,15.0
2,106,Ratón,,50.0
3,107,Impresora,,10.0
4,108,Auriculares,,25.0


In [35]:
# Apilar por columnas

pd.concat([df4, df5], axis=1)

Unnamed: 0,ID_Producto,Nombre_Producto,Precio,ID_Producto.1,Nombre_Producto.1,Stock
0,101,Laptop,750.5,104,Monitor,20
1,102,Teléfono,599.99,105,Teclado,15
2,103,Tablet,329.0,106,Ratón,50
3,104,Monitor,199.99,107,Impresora,10
4,105,Teclado,49.99,108,Auriculares,25


**pd.merge()**

Realiza una combinación estilo SQL entre dos DataFrames.

<img src="https://www.hostingplus.mx/wp-content/uploads/2021/06/JOIN.jpg" width="600" height="400">

hostingplus. (2024). Tipos de JOIN en SQL. Recuperado de https://www.hostingplus.mx/blog/tipos-de-join-en-sql-cuales-son-los-principales/

In [36]:
# Realiza el cruce por el método de inner join
pd.merge(df4, df5, on='ID_Producto', how='inner')

Unnamed: 0,ID_Producto,Nombre_Producto_x,Precio,Nombre_Producto_y,Stock
0,104,Monitor,199.99,Monitor,20
1,105,Teclado,49.99,Teclado,15


In [37]:
# Realiza el cruce por el método de left join
pd.merge(df4, df5, on='ID_Producto', how='left')

Unnamed: 0,ID_Producto,Nombre_Producto_x,Precio,Nombre_Producto_y,Stock
0,101,Laptop,750.5,,
1,102,Teléfono,599.99,,
2,103,Tablet,329.0,,
3,104,Monitor,199.99,Monitor,20.0
4,105,Teclado,49.99,Teclado,15.0


In [38]:
# Realiza el cruce por el método de right join
pd.merge(df4, df5, on='ID_Producto', how='right')

Unnamed: 0,ID_Producto,Nombre_Producto_x,Precio,Nombre_Producto_y,Stock
0,104,Monitor,199.99,Monitor,20
1,105,Teclado,49.99,Teclado,15
2,106,,,Ratón,50
3,107,,,Impresora,10
4,108,,,Auriculares,25


In [49]:
# Realiza el cruce por el método de outer join
pd.merge(df4, df5, on='ID_Producto', how='outer')

Unnamed: 0,ID_Producto,Nombre_Producto_x,Precio,Nombre_Producto_y,Stock
0,101,Laptop,750.5,,
1,102,Teléfono,599.99,,
2,103,Tablet,329.0,,
3,104,Monitor,199.99,Monitor,20.0
4,105,Teclado,49.99,Teclado,15.0
5,106,,,Ratón,50.0
6,107,,,Impresora,10.0
7,108,,,Auriculares,25.0


**pd.join()**

Une DataFrames utilizando sus índices (a diferencia de merge que usa una columna clave).

In [40]:
df4.join(df5, how='left', lsuffix='_izq', rsuffix='_der')

Unnamed: 0,ID_Producto_izq,Nombre_Producto_izq,Precio,ID_Producto_der,Nombre_Producto_der,Stock
0,101,Laptop,750.5,104,Monitor,20
1,102,Teléfono,599.99,105,Teclado,15
2,103,Tablet,329.0,106,Ratón,50
3,104,Monitor,199.99,107,Impresora,10
4,105,Teclado,49.99,108,Auriculares,25


In [41]:
df4.join(df5, how='right', lsuffix='_izq', rsuffix='_der')

Unnamed: 0,ID_Producto_izq,Nombre_Producto_izq,Precio,ID_Producto_der,Nombre_Producto_der,Stock
0,101,Laptop,750.5,104,Monitor,20
1,102,Teléfono,599.99,105,Teclado,15
2,103,Tablet,329.0,106,Ratón,50
3,104,Monitor,199.99,107,Impresora,10
4,105,Teclado,49.99,108,Auriculares,25


In [42]:
df4.join(df5, how='inner', lsuffix='_izq', rsuffix='_der')

Unnamed: 0,ID_Producto_izq,Nombre_Producto_izq,Precio,ID_Producto_der,Nombre_Producto_der,Stock
0,101,Laptop,750.5,104,Monitor,20
1,102,Teléfono,599.99,105,Teclado,15
2,103,Tablet,329.0,106,Ratón,50
3,104,Monitor,199.99,107,Impresora,10
4,105,Teclado,49.99,108,Auriculares,25


### Agrupaciones

In [43]:
# Generamos una agrupación del promedio del peso de las personas por nacionalidad
df1.groupby('Nacionalidad')['Peso'].mean()

Unnamed: 0_level_0,Peso
Nacionalidad,Unnamed: 1_level_1
Argentina,68.5
Chilena,76.5
Colombiana,58.0
Mexicana,65.0
Peruana,81.0


### Tablas Dinámicas

In [48]:
#Generamos una tabla dinámica silimar a como funcionaria en Excel donde nos muestre el promedio del peso de las personas por nacionalidad
pd.pivot_table(df1, values='Peso', index='Nacionalidad', aggfunc='mean')

Unnamed: 0_level_0,Peso
Nacionalidad,Unnamed: 1_level_1
Argentina,68.5
Chilena,76.5
Colombiana,58.0
Mexicana,65.0
Peruana,81.0


### Importar y exportación de datos

In [46]:
# Para exportar un archivo CSV
df1.to_csv('datos.csv', index=False)

In [47]:
# Para importar un archivo CSV
pd.read_csv('datos.csv')

Unnamed: 0,Nombre,Edad,Altura,Peso,Nacionalidad
0,Ana,25,1.65,60,Mexicana
1,Luis,30,1.75,75,Argentina
2,Carlos,22,1.8,85,Chilena
3,Maria,28,1.6,55,Mexicana
4,Jorge,35,1.85,90,Peruana
5,Sofia,19,1.68,58,Colombiana
6,Diego,40,1.78,80,Mexicana
7,Camila,33,1.62,62,Argentina
8,Pedro,26,1.7,68,Chilena
9,Valeria,27,1.75,72,Peruana


In [50]:
# NOTA: Podemos importar y exportar diferentes tipos de archivos como lo son el Excel, JSON, Parquet, etc.

Para más información sobre la biblioteca revisar la documentación de pandas https://pandas.pydata.org/docs/