Introducción a Pandas

¿Qué es Pandas?
Pandas es una biblioteca de código abierto de Python que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar. Su nombre es una combinación de «panel data» y «Python data analysis library». Pandas es ideal para trabajar con datos tabulares y series temporales.

 

Instalación y Configuración

Si no tienes Pandas instalado, puedes instalarlo utilizando pip:

pip install pandas


import pandas as pd
Asegúrate de importar Pandas en tu entorno de trabajo para empezar a usar sus funcionalidades.

 


Estructuras de Datos en Pandas

Pandas introduce dos estructuras de datos principales: Series y DataFrames.

Series: Una Serie es una estructura de datos unidimensional que puede contener cualquier tipo de datos. Es similar a un array de NumPy, pero con etiquetas de índice que permiten un acceso más conveniente a los datos.

Creación de una Serie: Puedes crear una Serie a partir de una lista, un array de NumPy, un diccionario o un valor escalar.

In [None]:
import pandas as pd

# Creando una Serie a partir de una lista
lista = [1, 2, 3, 4, 5]
serie = pd.Series(lista)
print(serie)

# Creando una Serie a partir de un diccionario
diccionario = {'a': 10, 'b': 20, 'c': 30}
serie_dicc = pd.Series(diccionario)
print(serie_dicc)

# Creando una Serie a partir de un valor escalar
valor_escalar = 5
serie_escalar = pd.Series(valor_escalar, index=['x', 'y', 'z'])

print(serie_escalar)

Acceso a los Elementos de una Serie: 

Puedes acceder a los elementos de una Serie utilizando índices.

In [None]:
# Acceso por índice
print(serie[0])  # Primer elemento

# Acceso por etiqueta
print(serie_dicc['a'])  # Elemento con etiqueta 'a'

Métodos y Operaciones en Series: 

Las Series tienen una variedad de métodos útiles para realizar operaciones como suma, resta, multiplicación y división.

In [None]:
import pandas as pd

# Creando una Serie a partir de una lista
lista = [1, 2, 3, 4, 5]
serie = pd.Series(lista)

# Realizando operaciones con la serie creada
print("Serie original:")
print(serie)

# Suma de 10 a cada valor
print("\nSuma de 10 a cada valor:")
print(serie + 10)

# Multiplicación por 2
print("\nMultiplicación por 2:")
print(serie * 2)

# Resta de 1 a cada valor
print("\nResta de 1 a cada valor:")
print(serie - 1)

# División por 2
print("\nDivisión por 2:")
print(serie / 2)


DataFrame: 

Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos o una hoja de cálculo. Un DataFrame tiene ejes etiquetados (filas y columnas) y puede contener diferentes tipos de datos (numéricos, cadenas, etc.).

Creación de un DataFrame: 

Puedes crear un DataFrame a partir de un diccionario de listas, un array de NumPy, una lista de diccionarios o una Serie de Pandas.

In [None]:
import pandas as pd

# Creando un DataFrame a partir de un diccionario de listas
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20]
}
df = pd.DataFrame(data)
print(df)

# Creando un DataFrame a partir de un array de NumPy
import numpy as np

array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df_array = pd.DataFrame(array, columns=['A', 'B', 'C'])
print(df_array)

# Creando un DataFrame a partir de una lista de diccionarios
lista_dicc = [
    {'Producto': 'Manzanas', 'Ventas': 50},
    {'Producto': 'Naranjas', 'Ventas': 30},
    {'Producto': 'Bananas', 'Ventas': 20}
]
df_lista_dicc = pd.DataFrame(lista_dicc)
print(df_lista_dicc)

Acceso a los Elementos de un DataFrame: 

Puedes acceder a los datos de un DataFrame de varias maneras, incluyendo la notación de corchetes, el método .loc y el método .iloc.

In [None]:
# Acceso a columnas
print(df['Producto'])  # Acceder a una columna
print(df[['Producto', 'Ventas']])  # Acceder a múltiples columnas

# Acceso a filas por índice
print(df.loc[0])  # Primera fila
print(df.iloc[1])  # Segunda fila

# Acceso a un elemento específico
print(df.loc[0, 'Producto'])  # Primera fila, columna 'Producto'
print(df.iloc[1, 1])  # Segunda fila, segunda columna

Métodos y Operaciones en DataFrames: 

Los DataFrames tienen muchos métodos útiles para realizar operaciones como agregar filas, eliminar columnas, filtrar datos y más.

In [None]:
# Agregar una nueva columna
df['Precio'] = [0.5, 0.75, 0.3]
print(df)

# Eliminar una columna
df = df.drop('Precio', axis=1)
print(df)

# Filtrar datos
filtro = df['Ventas'] > 20
df_filtrado = df[filtro]
print(df_filtrado)

Operaciones Básicas con Pandas

Cargar Datos: 

Pandas ofrece funciones fáciles de usar para cargar datos desde diferentes fuentes, como archivos CSV, Excel, SQL, entre otros.

Cargar Datos desde un Archivo CSV

In [None]:
import pandas as pd

# Cargar datos desde un archivo CSV
df = pd.read_csv(r'C:\varios\datosbootcamp\empleados.csv')
print(df.head())

Cargar Datos desde un Archivo Excel

In [None]:
import pandas as pd

# Cargar datos desde un archivo Excel
df_excel = pd.read_excel(r'C:\varios\datosbootcamp\empleados.xlsx')
print(df_excel.head())

Cargar Datos desde una Base de Datos SQL

In [42]:
import mysql.connector

# Establece la conexión con la base de datos
conexion = mysql.connector.connect(
    host="192.168.24.229",
    user="monitoreo",
    password="MEC9621nst1tuc10n3s.",
    database="MEC_UEPP"
)

# Crear un cursor para ejecutar las consultas
cursor = conexion.cursor()

# Ejecutar una consulta
cursor.execute("SELECT * FROM MEC_UEPP.prcm_tipo_curso")

# Obtener los resultados
resultados = cursor.fetchall()
df = pd.read_sql_query("SELECT * FROM MEC_UEPP.prcm_tipo_curso", conexion)
print(df.head())
# Imprimir los resultados
for fila in resultados:
    print(fila)

# Cerrar el cursor y la conexión
cursor.close()
conexion.close()


   codigo_tipo_curso          tipo_curso
0                  1     ESPECIALIZACIÓN
1                  2     TÉCNICO DOCENTE
2                  3        HABILITACIÓN
3                  4  PROFESIONALIZACIÓN
4                  5       ACTUALIZACIÓN
(1, 'ESPECIALIZACIÓN')
(2, 'TÉCNICO DOCENTE')
(3, 'HABILITACIÓN')
(4, 'PROFESIONALIZACIÓN')
(5, 'ACTUALIZACIÓN')
(6, 'CAPACITACIÓN')
(7, 'MAESTRIA')


  df = pd.read_sql_query("SELECT * FROM MEC_UEPP.prcm_tipo_curso", conexion)


In [None]:
import sqlite3
import pandas as pd

# Conectar a la base de datos
conexion = sqlite3.connect('ruta/al/archivo.db')

# Leer datos desde una tabla SQL
df_sql = pd.read_sql_query("SELECT * FROM nombre_tabla", conexion)
print(df_sql.head())

# Cerrar la conexión
conexion.close()

In [26]:
# Ver las primeras 5 filas del DataFrame
print(df.head())
# Ver las primeras 10 filas del DataFrame
print(df.head(10))
# Ver las últimas 5 filas del DataFrame
print(df.tail())
# Ver las últimas 10 filas del DataFrame
print(df.tail(10))

       nro;nombre;edad;ciudad
0  1;Alejandro;56;Villa Elisa
1       2;Roberto;25;Asuncion
2      3;Luisa;46;Encarnacion
3        4;Luz;19;Encarnacion
4  5;Ezequiel;17;Cnel. Bogado
       nro;nombre;edad;ciudad
0  1;Alejandro;56;Villa Elisa
1       2;Roberto;25;Asuncion
2      3;Luisa;46;Encarnacion
3        4;Luz;19;Encarnacion
4  5;Ezequiel;17;Cnel. Bogado
5         6;Diana;24;Asuncion
       nro;nombre;edad;ciudad
1       2;Roberto;25;Asuncion
2      3;Luisa;46;Encarnacion
3        4;Luz;19;Encarnacion
4  5;Ezequiel;17;Cnel. Bogado
5         6;Diana;24;Asuncion
       nro;nombre;edad;ciudad
0  1;Alejandro;56;Villa Elisa
1       2;Roberto;25;Asuncion
2      3;Luisa;46;Encarnacion
3        4;Luz;19;Encarnacion
4  5;Ezequiel;17;Cnel. Bogado
5         6;Diana;24;Asuncion


Obtener Información General sobre el DataFrame: El método info() proporciona un resumen conciso del DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos, y el uso de memoria.

In [38]:
# Información general del DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, (1, 'ESPECIALIZACIÓN') to (7, 'MAESTRIA')
Empty DataFrame
None


Estadísticas Descriptivas: 

El método describe() genera estadísticas descriptivas que resumen la tendencia central, dispersión y forma de la distribución de un conjunto de datos.

In [37]:
# Estadísticas descriptivas del DataFrame
print(df.describe())

ValueError: Cannot describe a DataFrame without columns

Inspeccionar los Tipos de Datos de las Columnas: 

El atributo dtypes permite inspeccionar los tipos de datos de cada columna en el DataFrame.

In [36]:
# Tipos de datos de las columnas
print(df.dtypes)

Series([], dtype: object)


Conteo de Valores Únicos: 

El método value_counts() es útil para contar las ocurrencias de cada valor único en una columna.

In [29]:
# Conteo de valores únicos en una columna específica
print(df['codigo_tipo_curso'].value_counts())
print(df.columns)

codigo_tipo_curso
1    1
2    1
3    1
4    1
5    1
6    1
7    1
Name: count, dtype: int64
Index(['codigo_tipo_curso', 'tipo_curso'], dtype='object')


Resumen de Datos Categóricos: 

El método unique() devuelve una lista de todos los valores únicos en una columna, y el método nunique() devuelve el número de valores únicos.

In [32]:
# Valores únicos en una columna específica
print(df['codigo_tipo_curso'].unique())
# Número de valores únicos en una columna específica
print(df['codigo_tipo_curso'].nunique())

[1 2 3 4 5 6 7]
7


Operaciones Adicionales

Renombrar Columnas: 
El método rename() permite renombrar las columnas del DataFrame.

In [33]:
# Renombrar columnas
df.rename(columns={'codigo_tipo_curso': 'tipo_curso'}, inplace=True)
print(df.head())

  tipo_curso          tipo_curso
0          1     ESPECIALIZACIÓN
1          2     TÉCNICO DOCENTE
2          3        HABILITACIÓN
3          4  PROFESIONALIZACIÓN
4          5       ACTUALIZACIÓN


Cambiar el Índice del DataFrame: 

El método set_index() permite establecer una columna como el índice del DataFrame.

In [34]:
# Cambiar el índice del DataFrame
df.set_index('tipo_curso', inplace=True)
print(df.head())

Empty DataFrame
Columns: []
Index: [(1, ESPECIALIZACIÓN), (2, TÉCNICO DOCENTE), (3, HABILITACIÓN), (4, PROFESIONALIZACIÓN), (5, ACTUALIZACIÓN)]


Ordenar Datos:  

El método sort_values() permite ordenar el DataFrame por una o más columnas.

In [35]:
# Ordenar el DataFrame por una columna
df_ordenado = df.sort_values(by='tipo_curso')
print(df_ordenado.head())

Empty DataFrame
Columns: []
Index: [(1, ESPECIALIZACIÓN), (2, TÉCNICO DOCENTE), (3, HABILITACIÓN), (4, PROFESIONALIZACIÓN), (5, ACTUALIZACIÓN)]


In [44]:
# Ordenar el DataFrame por múltiples columnas
print(df.columns)
df_ordenado = df.sort_values(by=['tipo_curso', 'codigo_tipo_curso'], ascending=[True, False])
print(df_ordenado.head())

Index(['codigo_tipo_curso', 'tipo_curso'], dtype='object')
   codigo_tipo_curso       tipo_curso
4                  5    ACTUALIZACIÓN
5                  6     CAPACITACIÓN
0                  1  ESPECIALIZACIÓN
2                  3     HABILITACIÓN
6                  7         MAESTRIA
