# Introducción a Pandas en Python 🐼📋📊

[![Python](https://img.shields.io/badge/Python-yellow?style=for-the-badge&logo=python&logoColor=white&labelColor=101010)]()

### ¿Qué es Pandas?

Pandas es una librería de Python diseñada para facilitar la manipulación y el analísis de datos. Sus estructuras nos recuerdan a las de una hoja de cálculo con las cuales podremos realizar múltiples operaciones como el filtrado de datos, operaciones, o búsqueda de patrones que nos permitirán trabajar con los datos de forma más rápida, eficiente en tiempo/recursos y sencilla.

In [108]:
#--- Importación de librerías ---#
import pandas as pd #<--- Asignación de un alias para llamar a la librería en el código más fácilmente
import numpy as np #<--- Asignación de un alias para llamar a la librería en el código más fácilmente

# Tipos de datos en Pandas 📈

## Pandas Series 📋 

Una Serie es una secuencia de datos que puede contener cualquier tipo de valor, como números, texto, booleanos, entre otros. Cada elemento en una Serie tiene un índice, que es como una etiqueta que puedes usar para encontrar ese dato específico. Recuerda mucho a las listas de Python pero con más funciones y optimizada para trabajar con datos más eficientemente, así como estar diseñada para poder interactuar más directamente con las demás estructuras de datos de Pandas.


In [109]:
# <--- Un Pandas Series es un array unidimensional que puede contener cualquier tipo de datos

# --- Creación de un Pandas Series a partir de una lista ---#
# <--- En este caso se crea un Pandas Series con una lista de letras
fruta = pd.Series(["manzana", "banana", "cereza", "dátil", "uva"]) # <--- Creación de un Pandas Series
print(fruta) # <--- Imprime el Pandas Series


0    manzana
1     banana
2     cereza
3      dátil
4        uva
dtype: object


In [110]:

# --- Creación de un Pandas Series a partir de un diccionario ---#
# <--- En este caso se crea un Pandas Series con un diccionario
fruta_dic = pd.Series({"a": "manzana", "b": "banana", "c": "cereza", "d": "dátil", "e": "uva"}) # <--- Creación de un Pandas Series
print(fruta_dic) # <--- Imprime el Pandas Series


a    manzana
b     banana
c     cereza
d      dátil
e        uva
dtype: object


In [111]:
# Llamar a un elemento del Pandas Series a través de su índice
print("Llamada a través de índice, caso más común: " + fruta.iloc[0]) # <--- Imprime el valor asociado al índice 0 del Pandas Series creado a partir
                                                                      # de una lista


print("\n\nLlamada a través de índice, caso particular: " + fruta_dic["a"]) # <--- Imprime el valor asociado al índice "a" del Pandas Series
                                                                            # creado a partir de un diccionario

Llamada a través de índice, caso más común: manzana


Llamada a través de índice, caso particular: manzana


In [112]:
#--- Atributo size ---#
print(fruta.size) # <--- Imprime el número de elementos del Pandas Series

5


In [113]:
#--- Atributo index ---#
print("Indice caso común: ", fruta.index) # <--- Imprime los índices del Pandas Series


print("\n\nIndice caso particular:", fruta_dic.index) # <--- Imprime los índices del Pandas Series

Indice caso común:  RangeIndex(start=0, stop=5, step=1)


Indice caso particular: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [114]:
#--- Atributo dtype ---#
print("Tipos de datos en fruta: ", fruta.dtype) # <--- Imprime el tipo de datos del Pandas Series



Tipos de datos en fruta:  object


In [115]:
# Creación de un Pandas Series con solo datos numéricos	
numeros = pd.Series([1, 2, 3, 4, 5]) # <--- Creación de un Pandas Series con una lista de números

# Imprimir su tipo de datos
print("Tipos de datos en numeros: ", numeros.dtype) # <--- Imprime el tipo de datos del Pandas Series

Tipos de datos en numeros:  int64


In [116]:
fruta = pd.Series(["manzana", "banana", "cereza", "dátil", "uva"]) # <--- Creación de un Pandas Series

# Selección de elementos de un Pandas Series
print(fruta.iloc[0], "\n\n") # <--- Imprime el valor asociado al índice 0 del Pandas Series

print(fruta.iloc[0:3]) # <--- Imprime los valores asociados a los índices 0, 1 y 2 del Pandas Series como un rango
# NOTESE QUE EL ÚLTIMO ÍNDICE NO SE INCLUYE

manzana 


0    manzana
1     banana
2     cereza
dtype: object


### Operaciones con Series 📋

In [117]:
# Operaciones de un Pandas Series con escalares
numeros = pd.Series([1, 2, 3, 4, 5]) # <--- Creación de un Pandas Series con una lista de números

# Serie original
print("Serie original: ")
print(numeros)
# Multiplicar todos los elementos del Pandas Series por 2
print("\n\nMultiplicación por 2:")
print(numeros * 2) # <--- Multiplica todos los elementos del Pandas Series por 2

# Sumar 10 a todos los elementos del Pandas Series
print("\n\nSuma 10:")
print(numeros + 10) # <--- Suma 10 a todos los elementos del Pandas Series


Serie original: 
0    1
1    2
2    3
3    4
4    5
dtype: int64


Multiplicación por 2:
0     2
1     4
2     6
3     8
4    10
dtype: int64


Suma 10:
0    11
1    12
2    13
3    14
4    15
dtype: int64


### Funciones con Series 📋 

In [118]:
# Definir un Pandas Series de numeros
numeros = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9]) # <--- Creación de un Pandas Series con una lista de números


In [119]:
# Suma manual de los elementos del Pandas Series
suma = 0
for i in numeros:
    suma += i
print("Suma manual: ", suma) # <--- Imprime la sumatoria de todos los elementos del Pandas Series

# Funcion Sumatoria
print("Sumatoria: ", numeros.sum()) # <--- Imprime la sumatoria de todos los elementos del Pandas Series


Suma manual:  45
Sumatoria:  45


In [120]:
# Maximo y minimo
print("Maximo: ", numeros.max()) # <--- Imprime el valor máximo del Pandas Series
print("\n\nMinimo: ", numeros.min()) # <--- Imprime el valor mínimo del Pandas Series

Maximo:  9


Minimo:  1


In [121]:
# Funcion describe
print(numeros.describe()) # <--- Imprime un resumen de los estadísticos básicos del Pandas Series

"""
Donde:
- count: número de elementos
- mean: media
- std: desviación estándar
- min: valor mínimo
- 25%: primer cuartil
- 50%: mediana
- 75%: tercer cuartil
- max: valor máximo
"""


count    9.000000
mean     5.000000
std      2.738613
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64


'\nDonde:\n- count: número de elementos\n- mean: media\n- std: desviación estándar\n- min: valor mínimo\n- 25%: primer cuartil\n- 50%: mediana\n- 75%: tercer cuartil\n- max: valor máximo\n'

### Filtrado de datos en una Serie 📋

In [122]:
# Definimos una serie con 5 materias y su calificación 
serie = pd.Series({"Matemáticas": 10, "Física": 5, "Química": 8, "Historia": 3, "Programación": 10})

# Imprimimos la serie
print("Materias y calificaciones:")
print(serie)

# Imprimimos solo las materias con calificación mayor a 5
print("\n\nMaterias aprobadas:")

aprobadas = serie[serie >= 6]
print(aprobadas)

Materias y calificaciones:
Matemáticas     10
Física           5
Química          8
Historia         3
Programación    10
dtype: int64


Materias aprobadas:
Matemáticas     10
Química          8
Programación    10
dtype: int64


In [123]:
# Ordenar de forma ascendente
print("Orden ascendente:")
print(serie.sort_values())

# Ordenar de forma descendente
print("\n\nOrden descendente:")
print(serie.sort_values(ascending=False))

# Ordenar por índice
print("\n\nOrden por índice:")
print(serie.sort_index())


Orden ascendente:
Historia         3
Física           5
Química          8
Matemáticas     10
Programación    10
dtype: int64


Orden descendente:
Matemáticas     10
Programación    10
Química          8
Física           5
Historia         3
dtype: int64


Orden por índice:
Física           5
Historia         3
Matemáticas     10
Programación    10
Química          8
dtype: int64


### Otras formas de crear Series 📋

In [124]:
# Creación de un Pandas Series con un solo valor y un índice personalizado
data = 5 # <--- Asignación de un valor a una variable

serie = pd.Series(data, index=[0,1,2,3,4,5]) # <--- Creación de un Pandas Series con un solo valor y un índice personalizado
print(serie) # <--- Imprime el Pandas Series

0    5
1    5
2    5
3    5
4    5
5    5
dtype: int64


In [125]:
# Creación de un Pandas Series con una lista de valores y un índice personalizado
data_list = ["manzana", "banana", "cereza", "dátil", "uva"] # <--- Asignación de una lista de valores a una variable
indices = [0,1,2,3,4] # <--- Asignación de un rango de índices a una variable

serie = pd.Series(data=data_list, index=indices) # <--- Creación de un Pandas Series con una lista de valores y un índice personalizado
print(serie) # <--- Imprime el Pandas Series


0    manzana
1     banana
2     cereza
3      dátil
4        uva
dtype: object


## Pandas Dataframe 📊

Los dataframes en Pandas son como tablas en las que puedes organizar y manipular datos de manera eficiente. Imagina una hoja de cálculo o una tabla en una base de datos. Se utilizan para limpiar, explorar, modelar y visualizar datos. Son esenciales para trabajar con grandes conjuntos de datos. Otra forma de ver un dataframe es como una unión de varias Series.

El Dataframe toma en cuenta dos dimensiones las cuales son las columnas y las filas.

### Creación de un Dataframe 📊

In [126]:
# Partes de un Pandas DataFrame

# Columns = Columnas
# Index = Índices
# Data = Datos

# Creación de un Pandas DataFrame a partir de un diccionario
data = {"Nombre": ["Juan", "Ana", "Luis", "María", "Pedro"],
        "Edad": [25, 30, 35, 40, 45]} # <--- Creación de un diccionario

df = pd.DataFrame(data) # <--- Creación de un Pandas DataFrame


print(df) # <--- Imprime el Pandas DataFrame


  Nombre  Edad
0   Juan    25
1    Ana    30
2   Luis    35
3  María    40
4  Pedro    45


In [127]:
# Creación de un Pandas DataFrame a partir de una lista de listas
data = [["Juan", 25],
        ["Ana", 30],
        ["Luis", 35],
        ["María", 40],
        ["Pedro", 45]] # <--- Creación de una lista de listas

df = pd.DataFrame(data, columns=["Nombre", "Edad"]) # <--- Creación de un Pandas DataFrame

print(df) # <--- Imprime el Pandas DataFrame


  Nombre  Edad
0   Juan    25
1    Ana    30
2   Luis    35
3  María    40
4  Pedro    45


In [128]:
# Creación de un Pandas DataFrame a partir de un numpy array
data = np.array([["Juan", 25],
                 ["Ana", 30],
                 ["Luis", 35],
                 ["María", 40],
                 ["Pedro", 45]]) # <--- Creación de un numpy array


df = pd.DataFrame(data, columns=["Nombre", "Edad"]) # <--- Creación de un Pandas DataFrame

print(df) # <--- Imprime el Pandas DataFrame

# Dataframe con valores aleatorios de numpy
data = np.random.randn(5, 4) # <--- Creación de un numpy array con valores aleatorios de dimensiones 5x4
df = pd.DataFrame(data, columns=["A", "B", "C", "D"]) # <--- Creación de un Pandas DataFrame

print("\n\nDataframe con valores aleatorios de numpy:")
print(df) # <--- Imprime el Pandas DataFrame



  Nombre Edad
0   Juan   25
1    Ana   30
2   Luis   35
3  María   40
4  Pedro   45


Dataframe con valores aleatorios de numpy:
          A         B         C         D
0  1.206304 -1.350783  0.477069 -2.084795
1 -0.622276  0.955462  0.765993  1.047893
2  0.783739  0.138849  0.178830 -2.478025
3 -1.072514 -0.757756  2.446926  1.572924
4 -1.459153 -0.328600  0.593999  0.287733


### Extracción de Información de Excel / CSV (Datasets) 📊

Dataset: Un dataset es una colección organizada de datos que puede venir en varios formatos, como archivos de texto, hojas de cálculo, bases de datos, etc. Un dataframe, en cambio, es una estructura de datos específica utilizada en lenguajes de programación como R y Python (con pandas), que organiza los datos en una tabla con filas y columnas, facilitando su manipulación y análisis.

In [129]:
# Leer un archivo CSV
df = pd.read_csv("dataset.csv") # <--- Lectura de un archivo CSV

df # <--- Imprime el Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
0,M,65,1,1,1,2,2,1,2,2,2,2,2,2,1,NO
1,F,55,1,2,2,1,1,2,2,2,1,1,1,2,2,NO
2,F,78,2,2,1,1,1,2,1,2,1,1,2,1,1,YES
3,M,60,2,1,1,1,2,1,2,1,1,2,1,2,2,YES
4,F,80,1,1,2,1,1,2,1,2,1,1,1,1,2,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,F,71,2,1,1,2,2,1,1,1,1,2,1,1,2,NO
2996,F,75,1,2,1,1,1,2,2,2,2,1,1,2,1,NO
2997,F,62,2,2,2,1,2,2,2,2,1,1,2,2,2,YES
2998,M,30,1,1,2,2,2,2,2,2,2,1,2,1,2,YES


In [130]:
# Leer un archivo Excel
df = pd.read_excel("dataset.xlsx") # <--- Lectura de un archivo Excel

df # <--- Imprime el Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
0,M,65,1,1,1,2,2,1,2,2,2,2,2,2,1,NO
1,F,55,1,2,2,1,1,2,2,2,1,1,1,2,2,NO
2,F,78,2,2,1,1,1,2,1,2,1,1,2,1,1,YES
3,M,60,2,1,1,1,2,1,2,1,1,2,1,2,2,YES
4,F,80,1,1,2,1,1,2,1,2,1,1,1,1,2,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,F,71,2,1,1,2,2,1,1,1,1,2,1,1,2,NO
2996,F,75,1,2,1,1,1,2,2,2,2,1,1,2,1,NO
2997,F,62,2,2,2,1,2,2,2,2,1,1,2,2,2,YES
2998,M,30,1,1,2,2,2,2,2,2,2,1,2,1,2,YES


### Filtrando con Dataframes 📊

In [134]:
# Buscar un valor específico en un Pandas DataFrame, en este ejemplo se busca el valor en la fila 2 y columna AGE
print(df.loc[2, "AGE"]) # <--- Imprime el valor en la fila 2 y columna AGE del Pandas DataFrame

78


In [138]:
# Condiciones en un Pandas DataFrame
filtro = df["AGE"] < 40 # <--- Condiciones en un Pandas DataFrame

filtro

0       False
1       False
2       False
3       False
4       False
        ...  
2995    False
2996    False
2997    False
2998     True
2999    False
Name: AGE, Length: 3000, dtype: bool

In [139]:
# Buscar aquellos valores que cumplan con una condición específica, en este ejemplo se buscan aquellos valores en la columna AGE que sean menores a 40
df[filtro] # <--- Imprime los valores en la columna AGE que sean mayores a 40 del Pandas DataFrame

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC_DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL_CONSUMING,COUGHING,SHORTNESS_OF_BREATH,SWALLOWING_DIFFICULTY,CHEST_PAIN,LUNG_CANCER
10,F,35,1,1,1,1,2,1,1,2,1,2,2,2,2,NO
15,F,39,2,2,1,1,1,2,2,2,1,2,2,2,1,NO
23,M,33,1,1,2,2,2,2,1,1,1,2,2,2,2,NO
26,M,36,2,1,1,2,2,2,1,1,2,1,1,1,2,YES
27,M,37,2,2,1,2,1,2,1,2,1,1,2,2,2,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2967,F,32,2,1,1,1,1,2,2,2,1,2,2,2,2,NO
2968,M,33,2,2,1,2,2,1,1,2,2,1,2,2,2,YES
2979,F,33,2,1,1,2,1,1,2,2,1,2,2,1,2,YES
2983,F,30,1,1,2,2,2,1,1,1,2,2,2,2,2,YES
