# Introducción a Pandas en Python 🐼📋📊

[![Python](https://img.shields.io/badge/Python-yellow?style=for-the-badge&logo=python&logoColor=white&labelColor=101010)]()

### ¿Qué es Pandas?

Pandas es una librería de Python diseñada para facilitar la manipulación y el analísis de datos. Sus estructuras nos recuerdan a las de una hoja de cálculo con las cuales podremos realizar múltiples operaciones como el filtrado de datos, operaciones, o búsqueda de patrones que nos permitirán trabajar con los datos de forma más rápida, eficiente en tiempo/recursos y sencilla.

In [217]:
#--- Importación de librerías ---#
import pandas as pd #<--- Asignación de un alias para llamar a la librería en el código más fácilmente
import numpy as np #<--- Asignación de un alias para llamar a la librería en el código más fácilmente

# Tipos de datos en Pandas 📈

## Pandas Series 📋 

Una Serie es una secuencia de datos que puede contener cualquier tipo de valor, como números, texto, booleanos, entre otros. Cada elemento en una Serie tiene un índice, que es como una etiqueta que puedes usar para encontrar ese dato específico. Recuerda mucho a las listas de Python pero con más funciones y optimizada para trabajar con datos más eficientemente, así como estar diseñada para poder interactuar más directamente con las demás estructuras de datos de Pandas.


In [218]:
# <--- Un Pandas Series es un array unidimensional que puede contener cualquier tipo de datos

# --- Creación de un Pandas Series a partir de una lista ---#
# <--- En este caso se crea un Pandas Series con una lista de letras
fruta = pd.Series(["manzana", "banana", "cereza", "dátil", "uva"]) # <--- Creación de un Pandas Series
print(fruta) # <--- Imprime el Pandas Series


0    manzana
1     banana
2     cereza
3      dátil
4        uva
dtype: object


In [219]:

# --- Creación de un Pandas Series a partir de un diccionario ---#
# <--- En este caso se crea un Pandas Series con un diccionario
fruta_dic = pd.Series({"a": "manzana", "b": "banana", "c": "cereza", "d": "dátil", "e": "uva"}) # <--- Creación de un Pandas Series
print(fruta_dic) # <--- Imprime el Pandas Series


a    manzana
b     banana
c     cereza
d      dátil
e        uva
dtype: object


In [220]:
# Llamar a un elemento del Pandas Series a través de su índice
print("Llamada a través de índice, caso más común: " + fruta.iloc[0]) # <--- Imprime el valor asociado al índice 0 del Pandas Series creado a partir
                                                                      # de una lista


print("\n\nLlamada a través de índice, caso particular: " + fruta_dic["a"]) # <--- Imprime el valor asociado al índice "a" del Pandas Series
                                                                            # creado a partir de un diccionario

Llamada a través de índice, caso más común: manzana


Llamada a través de índice, caso particular: manzana


In [221]:
#--- Atributo size ---#
print(fruta.size) # <--- Imprime el número de elementos del Pandas Series

5


In [222]:
#--- Atributo index ---#
print("Indice caso común: ", fruta.index) # <--- Imprime los índices del Pandas Series


print("\n\nIndice caso particular:", fruta_dic.index) # <--- Imprime los índices del Pandas Series

Indice caso común:  RangeIndex(start=0, stop=5, step=1)


Indice caso particular: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [223]:
#--- Atributo dtype ---#
print("Tipos de datos en fruta: ", fruta.dtype) # <--- Imprime el tipo de datos del Pandas Series



Tipos de datos en fruta:  object


In [224]:
# Creación de un Pandas Series con solo datos numéricos	
numeros = pd.Series([1, 2, 3, 4, 5]) # <--- Creación de un Pandas Series con una lista de números

# Imprimir su tipo de datos
print("Tipos de datos en numeros: ", numeros.dtype) # <--- Imprime el tipo de datos del Pandas Series

Tipos de datos en numeros:  int64


In [225]:
fruta = pd.Series(["manzana", "banana", "cereza", "dátil", "uva"]) # <--- Creación de un Pandas Series

# Selección de elementos de un Pandas Series
print(fruta.iloc[0], "\n\n") # <--- Imprime el valor asociado al índice 0 del Pandas Series

print(fruta.iloc[0:3]) # <--- Imprime los valores asociados a los índices 0, 1 y 2 del Pandas Series como un rango
# NOTESE QUE EL ÚLTIMO ÍNDICE NO SE INCLUYE

manzana 


0    manzana
1     banana
2     cereza
dtype: object


### Operaciones con Series 📋

In [226]:
# Operaciones de un Pandas Series con escalares
numeros = pd.Series([1, 2, 3, 4, 5]) # <--- Creación de un Pandas Series con una lista de números

# Serie original
print("Serie original: ")
print(numeros)
# Multiplicar todos los elementos del Pandas Series por 2
print("\n\nMultiplicación por 2:")
print(numeros * 2) # <--- Multiplica todos los elementos del Pandas Series por 2

# Sumar 10 a todos los elementos del Pandas Series
print("\n\nSuma 10:")
print(numeros + 10) # <--- Suma 10 a todos los elementos del Pandas Series


Serie original: 
0    1
1    2
2    3
3    4
4    5
dtype: int64


Multiplicación por 2:
0     2
1     4
2     6
3     8
4    10
dtype: int64


Suma 10:
0    11
1    12
2    13
3    14
4    15
dtype: int64


### Funciones con Series 📋 

In [227]:
# Definir un Pandas Series de numeros
numeros = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9]) # <--- Creación de un Pandas Series con una lista de números


In [228]:
# Suma manual de los elementos del Pandas Series
suma = 0
for i in numeros:
    suma += i
print("Suma manual: ", suma) # <--- Imprime la sumatoria de todos los elementos del Pandas Series

# Funcion Sumatoria
print("Sumatoria: ", numeros.sum()) # <--- Imprime la sumatoria de todos los elementos del Pandas Series


Suma manual:  45
Sumatoria:  45


In [229]:
# Maximo y minimo
print("Maximo: ", numeros.max()) # <--- Imprime el valor máximo del Pandas Series
print("\n\nMinimo: ", numeros.min()) # <--- Imprime el valor mínimo del Pandas Series

Maximo:  9


Minimo:  1


In [230]:
# Funcion describe
print(numeros.describe()) # <--- Imprime un resumen de los estadísticos básicos del Pandas Series

"""
Donde:
- count: número de elementos
- mean: media
- std: desviación estándar
- min: valor mínimo
- 25%: primer cuartil
- 50%: mediana
- 75%: tercer cuartil
- max: valor máximo
"""


count    9.000000
mean     5.000000
std      2.738613
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64


'\nDonde:\n- count: número de elementos\n- mean: media\n- std: desviación estándar\n- min: valor mínimo\n- 25%: primer cuartil\n- 50%: mediana\n- 75%: tercer cuartil\n- max: valor máximo\n'

### Filtrado de datos en una Serie 📋

In [231]:
# Definimos una serie con 5 materias y su calificación 
serie = pd.Series({"Matemáticas": 10, "Física": 5, "Química": 8, "Historia": 3, "Programación": 10})

# Imprimimos la serie
print("Materias y calificaciones:")
print(serie)

# Imprimimos solo las materias con calificación mayor a 5
print("\n\nMaterias aprobadas:")

aprobadas = serie[serie >= 6]
print(aprobadas)

Materias y calificaciones:
Matemáticas     10
Física           5
Química          8
Historia         3
Programación    10
dtype: int64


Materias aprobadas:
Matemáticas     10
Química          8
Programación    10
dtype: int64


In [232]:
# Ordenar de forma ascendente
print("Orden ascendente:")
print(serie.sort_values())

# Ordenar de forma descendente
print("\n\nOrden descendente:")
print(serie.sort_values(ascending=False))

# Ordenar por índice
print("\n\nOrden por índice:")
print(serie.sort_index())


Orden ascendente:
Historia         3
Física           5
Química          8
Matemáticas     10
Programación    10
dtype: int64


Orden descendente:
Matemáticas     10
Programación    10
Química          8
Física           5
Historia         3
dtype: int64


Orden por índice:
Física           5
Historia         3
Matemáticas     10
Programación    10
Química          8
dtype: int64


### Otras formas de crear Series 📋

In [233]:
# Creación de un Pandas Series con un solo valor y un índice personalizado
data = 5 # <--- Asignación de un valor a una variable

serie = pd.Series(data, index=[0,1,2,3,4,5]) # <--- Creación de un Pandas Series con un solo valor y un índice personalizado
print(serie) # <--- Imprime el Pandas Series

0    5
1    5
2    5
3    5
4    5
5    5
dtype: int64


In [234]:
# Creación de un Pandas Series con una lista de valores y un índice personalizado
data_list = ["manzana", "banana", "cereza", "dátil", "uva"] # <--- Asignación de una lista de valores a una variable
indices = [0,1,2,3,4] # <--- Asignación de un rango de índices a una variable

serie = pd.Series(data=data_list, index=indices) # <--- Creación de un Pandas Series con una lista de valores y un índice personalizado
print(serie) # <--- Imprime el Pandas Series


0    manzana
1     banana
2     cereza
3      dátil
4        uva
dtype: object


## Pandas Dataframe 📊

Los dataframes en Pandas son como tablas en las que puedes organizar y manipular datos de manera eficiente. Imagina una hoja de cálculo o una tabla en una base de datos. Se utilizan para limpiar, explorar, modelar y visualizar datos. Son esenciales para trabajar con grandes conjuntos de datos. Otra forma de ver un dataframe es como una unión de varias Series.

El Dataframe toma en cuenta dos dimensiones las cuales son las columnas y las filas.

### Creación de un Dataframe 📊

In [235]:
# Partes de un Pandas DataFrame

# Columns = Columnas
# Index = Índices
# Data = Datos

# Creación de un Pandas DataFrame a partir de un diccionario
data = {"Nombre": ["Juan", "Ana", "Luis", "María", "Pedro"],
        "Edad": [25, 30, 35, 40, 45]} # <--- Creación de un diccionario

df = pd.DataFrame(data) # <--- Creación de un Pandas DataFrame


print(df) # <--- Imprime el Pandas DataFrame


  Nombre  Edad
0   Juan    25
1    Ana    30
2   Luis    35
3  María    40
4  Pedro    45


In [236]:
# Creación de un Pandas DataFrame a partir de una lista de listas
data = [["Juan", 25],
        ["Ana", 30],
        ["Luis", 35],
        ["María", 40],
        ["Pedro", 45]] # <--- Creación de una lista de listas

df = pd.DataFrame(data, columns=["Nombre", "Edad"]) # <--- Creación de un Pandas DataFrame

print(df) # <--- Imprime el Pandas DataFrame


  Nombre  Edad
0   Juan    25
1    Ana    30
2   Luis    35
3  María    40
4  Pedro    45


In [237]:
# Creación de un Pandas DataFrame a partir de un numpy array
data = np.array([["Juan", 25],
                 ["Ana", 30],
                 ["Luis", 35],
                 ["María", 40],
                 ["Pedro", 45]]) # <--- Creación de un numpy array


df = pd.DataFrame(data, columns=["Nombre", "Edad"]) # <--- Creación de un Pandas DataFrame

print(df) # <--- Imprime el Pandas DataFrame

# Dataframe con valores aleatorios de numpy
data = np.random.randn(5, 4) # <--- Creación de un numpy array con valores aleatorios de dimensiones 5x4
df = pd.DataFrame(data, columns=["A", "B", "C", "D"]) # <--- Creación de un Pandas DataFrame

print("\n\nDataframe con valores aleatorios de numpy:")
print(df) # <--- Imprime el Pandas DataFrame



  Nombre Edad
0   Juan   25
1    Ana   30
2   Luis   35
3  María   40
4  Pedro   45


Dataframe con valores aleatorios de numpy:
          A         B         C         D
0 -0.058447 -1.612362 -0.701787 -1.545438
1  1.608794  0.878238  1.717341  1.969584
2  1.879044  0.697944 -0.135919  0.000583
3 -0.035305  1.625759  0.193123 -1.599310
4  1.852574  0.895717 -0.906883  1.154015


### Extracción de Información de Excel / CSV (Datasets) 📊

Dataset: Un dataset es una colección organizada de datos que puede venir en varios formatos, como archivos de texto, hojas de cálculo, bases de datos, etc. Un dataframe, en cambio, es una estructura de datos específica utilizada en lenguajes de programación como R y Python (con pandas), que organiza los datos en una tabla con filas y columnas, facilitando su manipulación y análisis.

In [238]:
# Leer un archivo CSV
df = pd.read_csv("dataset.csv") # <--- Lectura de un archivo CSV

df # <--- Imprime el Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
0,M,65,1,1,1,2,2,1,2,2,2,2,2,2,1,NO
1,F,55,1,2,2,1,1,2,2,2,1,1,1,2,2,NO
2,F,78,2,2,1,1,1,2,1,2,1,1,2,1,1,YES
3,M,60,2,1,1,1,2,1,2,1,1,2,1,2,2,YES
4,F,80,1,1,2,1,1,2,1,2,1,1,1,1,2,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,F,71,2,1,1,2,2,1,1,1,1,2,1,1,2,NO
2996,F,75,1,2,1,1,1,2,2,2,2,1,1,2,1,NO
2997,F,62,2,2,2,1,2,2,2,2,1,1,2,2,2,YES
2998,M,30,1,1,2,2,2,2,2,2,2,1,2,1,2,YES


In [239]:
# Leer un archivo Excel
df = pd.read_excel("dataset.xlsx") # <--- Lectura de un archivo Excel

df # <--- Imprime el Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
0,M,65,1,1,1,2,2,1,2,2,2,2,2,2,1,NO
1,F,55,1,2,2,1,1,2,2,2,1,1,1,2,2,NO
2,F,78,2,2,1,1,1,2,1,2,1,1,2,1,1,YES
3,M,60,2,1,1,1,2,1,2,1,1,2,1,2,2,YES
4,F,80,1,1,2,1,1,2,1,2,1,1,1,1,2,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,F,71,2,1,1,2,2,1,1,1,1,2,1,1,2,NO
2996,F,75,1,2,1,1,1,2,2,2,2,1,1,2,1,NO
2997,F,62,2,2,2,1,2,2,2,2,1,1,2,2,2,YES
2998,M,30,1,1,2,2,2,2,2,2,2,1,2,1,2,YES


### Funciones y Atributos básicos de un DataFrame 📊

In [240]:
# df.info() # <--- Imprime un resumen de la información del Pandas DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   GENDER                 3000 non-null   object
 1   AGE                    3000 non-null   int64 
 2   SMOKING                3000 non-null   int64 
 3   YELLOW_FINGERS         3000 non-null   int64 
 4   ANXIETY                3000 non-null   int64 
 5   PEER_PRESSURE          3000 non-null   int64 
 6   CHRONIC_DISEASE        3000 non-null   int64 
 7   FATIGUE                3000 non-null   int64 
 8   ALLERGY                3000 non-null   int64 
 9   WHEEZING               3000 non-null   int64 
 10  ALCOHOL_CONSUMING      3000 non-null   int64 
 11  COUGHING               3000 non-null   int64 
 12  SHORTNESS_OF_BREATH    3000 non-null   int64 
 13  SWALLOWING_DIFFICULTY  3000 non-null   int64 
 14  CHEST_PAIN             3000 non-null   int64 
 15  LUNG_CANCER          

In [241]:
# df.shape # <--- Imprime las dimensiones del Pandas DataFrame
print("df.shape: ", df.shape)

# df.size # <--- Imprime el número de elementos del Pandas DataFrame
print("df.size: ", df.size)

# df.columns # <--- Imprime las columnas del Pandas DataFrame
print("df.columns: ", df.columns, "\n")

# df.index # <--- Imprime los índices del Pandas DataFrame
print("df.index: ", df.index, "\n")

# df.dtypes # <--- Imprime los tipos de datos del Pandas DataFrame
# print("df.dtypes: ", df.dtypes, "\n")






df.shape:  (3000, 16)
df.size:  48000
df.columns:  Index(['GENDER', 'AGE', 'SMOKING', 'YELLOW_FINGERS', 'ANXIETY',
       'PEER_PRESSURE', 'CHRONIC_DISEASE', 'FATIGUE', 'ALLERGY', 'WHEEZING',
       'ALCOHOL_CONSUMING', 'COUGHING', 'SHORTNESS_OF_BREATH',
       'SWALLOWING_DIFFICULTY', 'CHEST_PAIN', 'LUNG_CANCER'],
      dtype='object') 

df.index:  RangeIndex(start=0, stop=3000, step=1) 



In [242]:
# Impresión de las primeras filas del Pandas DataFrame
n = 3 # <--- Número de filas a imprimir

df.head(n) # <--- Imprime las primeras n filas del Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
0,M,65,1,1,1,2,2,1,2,2,2,2,2,2,1,NO
1,F,55,1,2,2,1,1,2,2,2,1,1,1,2,2,NO
2,F,78,2,2,1,1,1,2,1,2,1,1,2,1,1,YES


In [243]:
# Impresión de las últimas filas del Pandas DataFrame
n = 3 # <--- Número de filas a imprimir

df.tail(n) # <--- Imprime las últimas n filas del Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
2997,F,62,2,2,2,1,2,2,2,2,1,1,2,2,2,YES
2998,M,30,1,1,2,2,2,2,2,2,2,1,2,1,2,YES
2999,M,40,1,2,2,1,1,1,2,2,2,1,1,1,1,YES


### Filtrando con Dataframes 📊

In [244]:
# Simplificaremos el dataframe para que sean más simples los ejercicios tomando solo
# las primeras 10 filas y las primeras 5 columnas

df = df.iloc[:10, :5]
df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY
0,M,65,1,1,1
1,F,55,1,2,2
2,F,78,2,2,1
3,M,60,2,1,1
4,F,80,1,1,2
5,F,58,1,1,1
6,F,70,1,1,1
7,F,74,2,2,1
8,M,77,1,2,1
9,F,67,2,2,2


In [245]:
# consultar un dato en un dataframe mediante el uso de coordenadas
fila = 2
columna = 1

print(df.iloc[fila, columna]) # <--- df.iloc[2, 1]

78


In [246]:
# Consultar un conjunto de columnas en un dataframe
columnas = [0, 2, 4]
fila = 3

print(df.iloc[fila, columnas]) # <--- df.iloc[3, [0, 2, 4]]



GENDER     M
SMOKING    2
ANXIETY    1
Name: 3, dtype: object


In [247]:
# Buscar un valor específico en un Pandas DataFrame por fila y nombre de columna
print(df.loc[2, "AGE"]) # <--- Imprime el valor en la fila 2 y columna AGE del Pandas DataFrame

78


In [248]:
# Consultar un conjunto de columnas en un dataframe por fila y nombres de columnas
fila = (3,)
columnas = ('AGE', 'SMOKING')

print(df.loc[fila, columnas]) # <--- df.loc[3, ('AGE', 'SMOKING')]

   AGE  SMOKING
3   60        2


In [249]:
# Condiciones en un Pandas DataFrame
filtro = df["AGE"] < 60 # <--- Condiciones en un Pandas DataFrame

filtro

0    False
1     True
2    False
3    False
4    False
5     True
6    False
7    False
8    False
9    False
Name: AGE, dtype: bool

In [250]:
# Buscar aquellos valores que cumplan con una condición específica, en este ejemplo se buscan aquellos valores en la columna AGE que sean menores a 40
df[filtro] # <--- Imprime los valores en la columna AGE que sean mayores a 40 del Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY
1,F,55,1,2,2
5,F,58,1,1,1


### Operaciones en Dataframes 📊

In [251]:
# Añadir una nueva columna a un Pandas DataFrame

df["NEW_COLUMN"] = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9]) # <--- Añadir una nueva columna a un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,NEW_COLUMN
0,M,65,1,1,1,1.0
1,F,55,1,2,2,2.0
2,F,78,2,2,1,3.0
3,M,60,2,1,1,4.0
4,F,80,1,1,2,5.0
5,F,58,1,1,1,6.0
6,F,70,1,1,1,7.0
7,F,74,2,2,1,8.0
8,M,77,1,2,1,9.0
9,F,67,2,2,2,


In [252]:
# Eliminar una columna de un Pandas DataFrame
columna_eliminada = df.pop("ANXIETY") # <--- Eliminar una columna de un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
0,M,65,1,1,1.0
1,F,55,1,2,2.0
2,F,78,2,2,3.0
3,M,60,2,1,4.0
4,F,80,1,1,5.0
5,F,58,1,1,6.0
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
9,F,67,2,2,


In [253]:
# Añadir una nueva fila a un Pandas DataFrame con concat
nueva_fila = pd.DataFrame({"GENDER": "M", "AGE": 22, "SMOKING": 2, "YELLOW_FINGERS": 1, "NEW_COLUMN": 1}, index=[10]) # <--- Creación de un Pandas DataFrame con una nueva fila

df = pd.concat([df, nueva_fila]) # <--- Añadir una nueva fila a un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
0,M,65,1,1,1.0
1,F,55,1,2,2.0
2,F,78,2,2,3.0
3,M,60,2,1,4.0
4,F,80,1,1,5.0
5,F,58,1,1,6.0
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
9,F,67,2,2,


In [254]:
# Eliminar una fila de un Pandas DataFrame
df = df.drop(10) # <--- Eliminar una fila de un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
0,M,65,1,1,1.0
1,F,55,1,2,2.0
2,F,78,2,2,3.0
3,M,60,2,1,4.0
4,F,80,1,1,5.0
5,F,58,1,1,6.0
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
9,F,67,2,2,


In [255]:
# Eliminar varias filas de un Pandas DataFrame
df = df.drop([0, 1, 2]) # <--- Eliminar varias filas de un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
3,M,60,2,1,4.0
4,F,80,1,1,5.0
5,F,58,1,1,6.0
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
9,F,67,2,2,


In [256]:
# Ordenar elementos de un Pandas DataFrame basados en la información de una columna
df = df.sort_values(by="AGE") # <--- Ordenar elementos de un Pandas DataFrame basados en la información de la columna AGE

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
5,F,58,1,1,6.0
3,M,60,2,1,4.0
9,F,67,2,2,
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
4,F,80,1,1,5.0


In [257]:
# Eliminar valores nulos de un Pandas DataFrame
df = df.dropna() # <--- Eliminar valores nulos de un Pandas DataFrame

df

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,NEW_COLUMN
5,F,58,1,1,6.0
3,M,60,2,1,4.0
6,F,70,1,1,7.0
7,F,74,2,2,8.0
8,M,77,1,2,9.0
4,F,80,1,1,5.0


### Combinar Dataframes 📊

In [264]:
# Concatenar dos Pandas DataFrames por filas
df1 = pd.DataFrame({"columna 1": ["manzana", "pera", "naranja"], "columna 2": ["a", "b", "c"]}) # <--- Creación de un Pandas DataFrame
df2 = pd.DataFrame({"columna 1": ["guayaba", "sandia", "banana"], "columna 2": ["d", "e", "f"]}) # <--- Creación de un Pandas DataFrame

df = pd.concat([df1, df2]) # <--- Concatenar dos Pandas DataFrames por filas

print("Primer DataFrame:")
print(df1)

print("\n\nSegundo DataFrame:")
print(df2)

print("\n\nDataFrame concatenado:")
df

Primer DataFrame:
  columna 1 columna 2
0   manzana         a
1      pera         b
2   naranja         c


Segundo DataFrame:
  columna 1 columna 2
0   guayaba         d
1    sandia         e
2    banana         f


DataFrame concatenado:


Unnamed: 0,columna 1,columna 2
0,manzana,a
1,pera,b
2,naranja,c
0,guayaba,d
1,sandia,e
2,banana,f


In [259]:
# Resetear los índices de un Pandas DataFrame
df = df.reset_index(drop=True) # <--- Resetear los índices de un Pandas DataFrame
df

Unnamed: 0,columna 1,columna 2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f


In [269]:
# Concatenar dos Pandas DataFrames por columnas
df1 = pd.DataFrame({"Alumno": ["Juan", "Ana", "Luis"], "Numero de cuenta": [123, 456, 789]}) # <--- Creación de un Pandas DataFrame
df2 = pd.DataFrame({"Numero de cuenta": [123, 456, 789], "Calificación": [10, 9, 8]}) # <--- Creación de un Pandas DataFrame

df = pd.concat([df1, df2], axis=1) # <--- Concatenar dos Pandas DataFrames por columnas

print("Primer DataFrame:")
print(df1)

print("\n\nSegundo DataFrame:")
print(df2)

print("\n\nDataFrame concatenado:")
df   

Primer DataFrame:
  Alumno  Numero de cuenta
0   Juan               123
1    Ana               456
2   Luis               789


Segundo DataFrame:
   Numero de cuenta  Calificación
0               123            10
1               456             9
2               789             8


DataFrame concatenado:


Unnamed: 0,Alumno,Numero de cuenta,Numero de cuenta.1,Calificación
0,Juan,123,123,10
1,Ana,456,456,9
2,Luis,789,789,8


### Mezclando DataFrames 📊

In [271]:
# Con mezclar dataframes nos referimos a integrar filas de dos dataframe que tengan información en común en una o más columnas mediante el uso de
# una clave
# tomamos los dataframes df1 y df2
df1 = pd.DataFrame({"Alumno": ["Juan", "Ana", "Luis"], "Numero de cuenta": [123, 456, 789]}) # <--- Creación de un Pandas DataFrame

df2 = pd.DataFrame({"Numero de cuenta": [123, 456, 789], "Calificación": [10, 9, 8]}) # <--- Creación de un Pandas DataFrame

# Aplicamos la función merge para mezclar los dataframes
df = pd.merge(df1, df2, on="Numero de cuenta", how="inner") # <--- Mezclar dos Pandas DataFrames

df


Unnamed: 0,Alumno,Numero de cuenta,Calificación
0,Juan,123,10
1,Ana,456,9
2,Luis,789,8
