# **Introducción a Pandas**
Pandas es una biblioteca de Python diseñada para la manipulación y análisis de datos de manera eficiente y flexible. Construida sobre NumPy, Pandas proporciona estructuras de datos avanzadas, como Series y DataFrames, que facilitan la gestión de información en distintos formatos y volúmenes.

A diferencia de las matrices tradicionales de NumPy, los DataFrames de Pandas incluyen etiquetas en filas y columnas, lo que permite un acceso más intuitivo a los datos y una manipulación más sencilla. Su sintaxis y funcionalidad la hacen una herramienta esencial en el ecosistema de ciencia de datos, análisis estadístico y machine learning.

[Documentación pandas](https://pandas.pydata.org/)

**¿Por qué usar Pandas?**

Pandas se ha convertido en un estándar dentro del análisis de datos gracias a sus múltiples ventajas:

- Facilidad de uso: Proporciona una sintaxis clara y funciones optimizadas para la manipulación de datos.
- Flexibilidad: Soporta datos de múltiples fuentes como archivos CSV, Excel, JSON, bases de datos SQL, entre otros.
- Potencia: Permite realizar operaciones complejas como filtrado, agrupación, transformación y combinación de datos con un rendimiento eficiente.
- Integración con otras herramientas: Funciona de manera nativa con bibliotecas populares como NumPy, Matplotlib, Scikit-learn y TensorFlow.

**Instalación de Pandas**

Para instalar Pandas en tu entorno de Python, usa el siguiente comando en la terminal o línea de comandos:

In [None]:
# pip install pandas

### **Importar y comprobar la versión**
Una vez instalado, puedes importarlo en tu código de la siguiente manera:

In [None]:
import pandas as pd

print(pd.__version__)

2.2.2


## **Tipos de Datos en Pandas**
Al igual que Python tiene sus propios tipos de datos incorporados (enteros, cadenas de texto, listas, etc.), Pandas introduce dos estructuras fundamentales para el análisis de datos: **Series y DataFrames.**

Estas estructuras permiten organizar, manipular y analizar datos de manera eficiente, proporcionando una interfaz intuitiva similar a las hojas de cálculo o bases de datos relacionales.

### **Series: Estructura Unidimensional**

Una Serie es un array unidimensional que puede almacenar cualquier tipo de dato (números, cadenas de texto, valores booleanos, fechas, etc.). Cada elemento en la Serie está asociado a un índice, lo que permite acceder a los datos de manera eficiente.

**Características de una Serie:**

- Unidimensional (1D).
- Similar a una lista o un array de NumPy, pero con índice etiquetado.
- Útil para representar una única columna de datos.

### Argumentos de pd.Series

In [None]:
# pd.Series(data=None, index=None, dtype=None, name=None, copy=False)

| **Argumento** | **Descripción** | **Valor por defecto** |
|--------------|----------------|------------------|
| `data`  | Datos que formarán la Serie. Puede ser una lista, tupla, array de NumPy, diccionario o escalar. | `None` |
| `index` | Etiquetas (índices) para los valores de la Serie. Si no se proporciona, se asigna automáticamente. | `None` |
| `dtype` | Tipo de datos de la Serie (`int`, `float`, `str`, etc.). | `None` (se infiere automáticamente) |
| `name` | Nombre de la Serie. Útil cuando se trabaja con DataFrames. | `None` |
| `copy` | Si es `True`, se crea una copia de los datos en lugar de usar la referencia original. | `False` |



In [None]:
import pandas as pd

# Crear una Serie con nombres de estudiantes
estudiantes = pd.Series(data=["Ana", "Carlos", "María", "Javier"], index=[1, 2, 3, 4])

print(estudiantes)

0       Ana
1    Carlos
2     María
3    Javier
dtype: object


In [None]:
diccionario = {'Suba': 63967, 'Engativa': 69662,'Bosa': 154297, 'Usme': 87312,'Usaquen': 99995}
usuarios = pd.Series(diccionario)
usuarios

Unnamed: 0,0
Suba,63967
Engativa,69662
Bosa,154297
Usme,87312
Usaquen,99995


### **DataFrames: Estructura Bidimensional**

Un DataFrame es una estructura de datos de dos dimensiones, organizada en filas y columnas, similar a una tabla en una base de datos o una hoja de cálculo de Excel. Está compuesto por múltiples Series organizadas en columnas.

Características de un DataFrame:
- Bidimensional (2D).
- Similar a una tabla con filas y columnas.
- Puede contener datos de diferentes tipos (números, texto, fechas, etc.).
- Permite manipulación avanzada como filtrado, agrupación y transformación de datos.

### Argumentos de pd.DataFrames

| **Argumento** | **Descripción** | **Valor por defecto** |
|--------------|----------------|------------------|
| `data`  | Datos que formarán el DataFrame. Puede ser un diccionario, lista de listas, array de NumPy, Series, DataFrame, etc. | `None` |
| `index` | Etiquetas (índices) para las filas. Si no se proporciona, se asignan automáticamente. | `None` |
| `columns` | Etiquetas para las columnas. Si no se especifica, Pandas asigna nombres numéricos. | `None` |
| `dtype` | Tipo de datos de las columnas (`int`, `float`, `str`, etc.). Se infiere automáticamente si no se define. | `None` |
| `copy` | Si es `True`, se crea una copia de los datos en lugar de usar una referencia. | `False` |


Antes de utilizar Pandas, primero vamos a crear un diccionario en Python. En este caso, el diccionario tendrá dos pares clave-valor, donde los valores serán listas con los datos.

In [None]:
datos = {
    "Nombres": ["Ana", "Carlos", "María", "Javier"],
    "Edades": [22, 25, 20, 23]
}
print(datos)


{'Nombres': ['Ana', 'Carlos', 'María', 'Javier'], 'Edades': [22, 25, 20, 23]}


In [None]:
import pandas as pd

df = pd.DataFrame(datos)
print(df)


  Nombres  Edades
0     Ana      22
1  Carlos      25
2   María      20
3  Javier      23


In [None]:
type(df)

In [None]:
usuarios = pd.Series({ 'Usme': 87312,
                  'Usaquen': 99995,"Ciudad Bolivar": 789876,'Suba': 63967, 'Engativa': 69662,
                  'Bosa': 154297})
ingresos = pd.Series({'Suba': 383325154, 'Engativa': 264489345,
                 'Bosa': 196512754, 'Usme': 195528621,
                 'Usaquen': 128821554})
data = pd.DataFrame({'Usuarios':usuarios, 'Ingresos':ingresos})
data

Unnamed: 0,Usuarios,Ingresos
Bosa,154297,196512754.0
Ciudad Bolivar,789876,
Engativa,69662,264489345.0
Suba,63967,383325154.0
Usaquen,99995,128821554.0
Usme,87312,195528621.0


## **Navegación y Manipulación de Archivos en Python**

Cuando trabajamos con archivos y directorios en Python, es importante conocer cómo explorarlos, verificarlos y manipularlos. Python nos proporciona el **módulo os**, que permite realizar estas operaciones tanto en un entorno local (PC) como en Google Colab.

**¿Dónde se puede usar este código?**

- En Google Colab  
    
    Para gestionar archivos dentro del entorno de ejecución temporal.
    
    
- En una computadora local
    
    Para organizar directorios, procesar archivos y automatizar tareas.

**Objetivos de este código:**
- Obtener el directorio de trabajo actual. Nos permite saber en qué carpeta estamos trabajando.
- Listar archivos y carpetas. Muestra el contenido del directorio actual.
- Crear un nuevo directorio. Permite organizar archivos en carpetas personalizadas.
- Verificar si un archivo existe. Útil para comprobar si un archivo está disponible antes de procesarlo.

**¿Por qué es importante?** Organizar archivos de manera eficiente es clave en tareas de análisis de datos, machine learning y automatización de procesos. Con Python y os, podemos gestionar archivos fácilmente sin necesidad de hacerlo manualmente en el explorador de archivos.

Este conocimiento es útil para trabajar con CSV, Excel, imágenes o cualquier tipo de archivo en análisis de datos y desarrollo de software.

In [None]:
import os
os.getcwd()  # Devuelve el directorio de trabajo actual

'/content'

In [None]:
os.listdir()  # Lista todos los archivos y carpetas en el directorio especificado

['.config', 'sample_data']

In [None]:
os.makedirs('Prueba Clase', exist_ok=True)  # Crea un nuevo directorio

In [None]:
os.path.exists('/content/Prueba Clase/Lectura CSV Prueba 3.csv')  # Devuelve True si el archivo o directorio existe

True

In [None]:
os.remove('/content/Prueba Clase/Lectura TXT prueba 2.txt' )  # Elimina un archivo

**Exploración y Gestión de Archivos con pathlib en Python**
El manejo de archivos y directorios es una tarea esencial en la mayoría de los proyectos de programación. En Python, tradicionalmente se ha utilizado el módulo os para estas operaciones, pero pathlib ofrece una forma más moderna, flexible y legible para trabajar con rutas de archivos y carpetas.

En este código, usamos pathlib para:
- Definir y manipular rutas de archivos y carpetas de manera eficiente.
- Verificar si una ruta existe antes de trabajar con ella.
- Comprobar si una ruta es un directorio o un archivo.
- Listar el contenido de una carpeta, obteniendo todas las rutas de los archivos almacenados en ella.

Esta funcionalidad es útil en aplicaciones que requieren lectura, escritura y organización de archivos, tanto en entornos locales como en plataformas en la nube como Google Colab.

**¿Por qué usar pathlib en lugar de os?**

- Código más limpio y legible. pathlib trata las rutas como objetos, en lugar de trabajar con cadenas de texto.
- Compatibilidad con diferentes sistemas operativos. Funciona en Windows, Linux y macOS sin necesidad de modificar las rutas manualmente.
- Mayor funcionalidad integrada
Métodos como .exists(), .is_dir(), y .iterdir() simplifican tareas comunes.

In [None]:
from pathlib import Path

ruta = Path('/content/Prueba Clase/')
ruta.exists()  # Verifica si la ruta existe
#ruta.is_dir()  # Verifica si la ruta es un directorio
#list(ruta.iterdir())  # Lista todos los archivos y carpetas en el directorio


True

## **Uso de Pandas para la carga de archivos**

**pd.read_csv() - Leer archivos CSV**

Se usa para cargar archivos CSV (valores separados por comas) en un DataFrame de pandas.

**pd.read_excel() - Leer archivos Excel**

Se usa para cargar datos desde archivos de Excel (.xls o .xlsx) en un DataFrame.

In [None]:
import pandas as pd

In [None]:
df1 = pd.read_csv('/content/Prueba Clase/Lectura CSV Prueba 3.csv')  # Lee un archivo CSV en un DataFrame


In [None]:
df1.head(10)

Unnamed: 0,levelType,code,catalogType,name,description,sourceLink
0,CATEGORY,Street Lighting,PRODUCT,Street Lighting,Category code for Street Lighting,http://lighttree.com/Street Lighting
1,CATEGORY,Pedestrian Lighting,PRODUCT,Pedestrian Lighting,Category code for Pedestrian Lighting,http://lighttree.com/Pedestrian Lighting
2,CATEGORY,Traffic Signal Poles,PRODUCT,Traffic Signal Poles,Category code for Traffic Signal Poles,http://lighttree.com/Traffic Signal Poles
3,CATEGORY,Controls,PRODUCT,Controls,Category code for Controls,http://lighttree.com/Controls
4,CATEGORY,Downlights,PRODUCT,Downlights,Category code for Downlights,http://lighttree.com/Downlights
5,CATEGORY,Retrofit Downlights,PRODUCT,Retrofit Downlights,Category code for Retrofit Downlights,http://lighttree.com/Retrofit Downlights
6,CATEGORY,Ambient,PRODUCT,Ambient,Category code for Ambient,http://lighttree.com/Ambient
7,CATEGORY,Bulbs,PRODUCT,Bulbs,Category code for Bulbs,http://lighttree.com/Bulbs
8,CATEGORY,Controllers,PRODUCT,Controllers,Category code for Controllers,http://lighttree.com/Controllers
9,CATEGORY,Enclosures,PRODUCT,Enclosures,Category code for Enclosures,http://lighttree.com/Enclosures


In [None]:
df2 = pd.read_csv('/content/Prueba Clase /Lectura TXT prueba 2.txt')

FileNotFoundError: [Errno 2] No such file or directory: '/content/Prueba Clase /Lectura TXT prueba 2.txt'

In [None]:
df2.head(2)

Unnamed: 0,Nombre,Edad,País
0,María,62,Bolivia
1,Marta,33,Paraguay


In [None]:
df3 = pd.read_csv('/content/Prueba Clase /Lectura Excel prueba 1.xlsx')

FileNotFoundError: [Errno 2] No such file or directory: '/content/Prueba Clase /Lectura Excel prueba 1.xlsx'

In [None]:
df3 = pd.read_excel('/content/Prueba Clase/Lectura Excel prueba 1.xlsx')

In [None]:
df3.head()

Unnamed: 0,Estudiante,Pregrado
0,Pepito 1,psicologia
1,Pepito 2,Ingenieria industria
2,Pepito 3,Matematicas
3,Pepito 4,fisica
4,Pepito 5,Biologia


In [None]:
df3.tail()

Unnamed: 0,Estudiante,Pregrado
6,Pepito 7,Quimica
7,Pepito 8,Quimica
8,Pepito 9,Ingenieria de software
9,Pepito 10,Medicina
10,Pepito 11,Medicina


In [None]:
df3.shape

(11, 2)

## **Trabajemos con Pandas**



### **Acceso y Selección de Datos en Pandas**

Una de las tareas más importantes al trabajar con datos es seleccionar información específica dentro de un DataFrame. Pandas ofrece múltiples formas de acceder a filas y columnas, lo que permite una manipulación eficiente de los datos.

Las dos formas principales de selección en Pandas son:
- Acceder a columnas. Podemos seleccionar una o varias columnas por su nombre.
- Acceder a filas. Usando loc[ ] (por etiqueta) o iloc[ ] (por posición).

Saber cómo seleccionar correctamente los datos es fundamental para cualquier análisis, ya que nos permite extraer, modificar y trabajar con subconjuntos de información de manera precisa.

Cuando trabajamos con Pandas, podemos acceder a las columnas de un DataFrame desde distintas estructuras de datos, principalmente como:

- Series
- DataFrame

Esta flexibilidad es clave para aplicar operaciones específicas sobre una o varias columnas de datos y es fundamental en tareas de análisis y manipulación de datos.




In [None]:
import pandas as pd

data = {
    "Nombre": ["Ana", "Carlos", "María"],
    "Edad": [22, 25, 20],
    "Ciudad": ["Bogotá", "Medellín", "Cali"]
}

df = pd.DataFrame(data)

# Acceder a la columna "Edad" como Serie
columna_edad = df["Edad"]
print(columna_edad)


0    22
1    25
2    20
Name: Edad, dtype: int64


In [None]:
# Acceder a múltiples columnas
#sub_df = df[["Nombre", "Edad"]]
#print(sub_df)

sub_df = df[["Edad","Nombre"]]
print(sub_df)

   Edad  Nombre
0    22     Ana
1    25  Carlos
2    20   María


### **Filtrado de Datos en Pandas**

Cuando trabajamos con grandes volúmenes de información en Pandas, una de las tareas más importantes es filtrar datos, es decir, extraer solo aquellas filas o columnas que cumplen ciertas condiciones. Pandas nos ofrece múltiples formas de hacerlo, permitiéndonos seleccionar datos de manera eficiente y flexible.

El filtrado en Pandas se puede realizar de tres formas principales:
- Usando indexación directa [ ]
- Usando .loc[ ] y .iloc[ ]
- Usando el método .query()

Cada uno de estos métodos tiene ventajas y se usan en distintos escenarios. En esta introducción exploraremos cómo y cuándo utilizar cada uno.

**Filtrar datos con indexación directa [ ]**

La forma más sencilla de filtrar un DataFrame en Pandas es usando corchetes [ ], aplicando condiciones sobre las columnas.

In [None]:
import pandas as pd
import numpy as np

data = {
    'ID': [101, 102, 103, 104, 105, 106],
    'Nombre': ['Ana', 'Carlos', 'Beatriz', 'David', 'Elena',np.nan],
    'Edad': [23, 34, 29, 41, 36,25],
    'Ciudad': ['Bogotá', 'Medellín', 'Cali', 'Barranquilla', 'Cartagena',  'Cali'],
    'Salario': [30000, 45000, 35000, 52000, 41000, np.nan ]
}

df = pd.DataFrame(data)
df

#df[df['Salario'] > 40000]  # Filtra empleados con salario mayor a 40000
#df[df['Edad'] < 30]  # Filtra empleados menores de 30 años
#df[df['Ciudad'] == 'Bogotá']  # Filtra empleados que viven en Bogotá




Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0
2,103,Beatriz,29,Cali,35000.0
3,104,David,41,Barranquilla,52000.0
4,105,Elena,36,Cartagena,41000.0
5,106,,25,Cali,


In [None]:
#df[(df['Salario'] > 40000) & (df['Edad'] > 30)]  # Empleados con salario >40000 y edad >30
#df[(df['Ciudad'] == 'Bogotá') | (df['Ciudad'] == 'Medellín')]  # Empleados de Bogotá o Medellín
df[(df['Salario'] >= 30000) & (df['Ciudad'].isin(['Bogotá', 'Medellín']))]  # Bogotá o Medellín con salario alto

Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0


La función **isin( )** en pandas se usa para filtrar filas basándose en si los valores de una columna están dentro de una lista dada.


In [None]:
#df[df['Ciudad'].isin(['Bogotá', 'Medellín', 'Cali'])]  # Filtra empleados de estas ciudades
df[df['ID'].isin([101,102])]  # Filtra empleados con IDs específicos


Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0


**¿qué pasa si queremos hacer lo contrario?** Es decir, obtener todos los registros excepto aquellos que cumplen con la condición. Para esto, usamos el operador ~ (negación):

In [None]:
df[~df['ID'].isin([101])]

Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
1,102,Carlos,34,Medellín,45000.0
2,103,Beatriz,29,Cali,35000.0
3,104,David,41,Barranquilla,52000.0
4,105,Elena,36,Cartagena,41000.0
5,106,,25,Cali,


La función i**sna( )** verifica si hay valores NaN en la columna, devolviendo una Serie Booleana (True donde el valor es NaN y False en el resto).

In [None]:
#df[df['Edad'].isna()]  # Filtra empleados con salario nulo
#df[df['Salario'].notna()]  # Filtra empleados con salario NO nulo
df[df['Nombre'].isna()]  # Filtra empleados sin nombre


Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
5,106,,25,Cali,


La función **between( )** en pandas se usa para filtrar valores dentro de un rango en una columna de un DataFrame.

In [None]:
#df[df['Edad'].between(30, 40)]  # Filtra empleados entre 30 y 40 años
df[df['Salario'].between(30000, 50000)]  # Filtra empleados con salario entre 30,000 y 50,000


Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0
2,103,Beatriz,29,Cali,35000.0
4,105,Elena,36,Cartagena,41000.0


**Metodo LOC e ILOC**

Cuando trabajamos con DataFrames en Pandas, es fundamental saber cómo seleccionar y extraer datos de manera eficiente. Dos de los métodos más importantes para esta tarea son .loc[ ] y .iloc[ ], los cuales permiten acceder a filas y columnas, pero de formas diferentes.

- .iloc[] (Índices Numéricos)
Este método selecciona datos por posición, similar a cómo accedemos a elementos en una lista. Por ejemplo, df.iloc[2, 4] selecciona el dato que se encuentra en la tercera fila y quinta columna (recordando que en Python se empieza a contar desde 0). Es ideal cuando queremos acceder a datos sin preocuparnos por los nombres de las columnas o etiquetas de las filas.

- .loc[] (Etiquetas y Condiciones)
Este método selecciona datos por nombre de fila o columna y permite usar condiciones lógicas para filtrar información. Por ejemplo, df.loc[df['Edad'] > 30] devuelve todas las filas donde la edad sea mayor a 30, mientras que df.loc[:, 'Nombre'] selecciona solo la columna "Nombre" de todas las filas.

**¿Cuándo usar cada uno?**

* Usa .iloc[ ] cuando necesites seleccionar datos según su posición numérica en el DataFrame.

* Usa .loc[ ] cuando prefieras seleccionar datos por nombres de columnas o aplicar filtros condicionales.

### **df.loc[fila, columna] y df.iloc[fila, columna]**


In [None]:
df

Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0
2,103,Beatriz,29,Cali,35000.0
3,104,David,41,Barranquilla,52000.0
4,105,Elena,36,Cartagena,41000.0
5,106,,25,Cali,


In [None]:
# Seleccionar la primera fila (índice 0)
df.iloc[0]

Unnamed: 0,0
ID,101
Nombre,Ana
Edad,23
Ciudad,Bogotá
Salario,30000.0


In [None]:
# Seleccionar las primeras tres filas
df.iloc[0:3]

Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0
2,103,Beatriz,29,Cali,35000.0


In [None]:
# Seleccionar la tercera fila y la columna 'Salario' (índice 2 y 4)
df.iloc[2, 4]

35000.0

In [None]:
# Seleccionar las filas 1 a 3 y columnas 1 y 3 (Nombre y Ciudad)
df.iloc[1:4, [1, 3]]

Unnamed: 0,Nombre,Ciudad
1,Carlos,Medellín
2,Beatriz,Cali
3,David,Barranquilla


In [None]:
# Seleccionar la fila donde el ID es 103
df.loc[df['ID'] == 103]


Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario


**df.loc[:, 'Nombre']**

: Significa "seleccionar todas las filas". \\
'Nombre' Significa "seleccionar la columna 'Nombre'"

**df.loc[1:, 'Nombre']**

Seleccionar todas las filas desde la segunda en adelante

**df.loc[1:3, 'Nombre']**

Seleccionar filas de índice 1 a 3 con

In [None]:
# Seleccionar la columna 'Nombre' de todas las filas
#df.loc[:, 'Nombre']
#df.loc[1:, 'Nombre']
df.loc[1:3, 'Nombre']

Unnamed: 0,Nombre
1,Carlos
2,Beatriz
3,David


In [None]:
# Seleccionar las filas donde la Ciudad es 'Bogotá' o 'Medellín'
df.loc[df['Ciudad'].isin(['Bogotá', 'Medellín'])]

Unnamed: 0,ID,Nombre,Edad,Ciudad,Salario
0,101,Ana,23,Bogotá,30000.0
1,102,Carlos,34,Medellín,45000.0


In [None]:
# Filtrar empleados con salario mayor a 40000
df_filtrado1 = df.loc[df['Salario'] > 40000]
print(df_filtrado1)

    ID  Nombre  Edad        Ciudad  Salario
1  102  Carlos    34      Medellín  45000.0
3  104   David    41  Barranquilla  52000.0
4  105   Elena    36     Cartagena  41000.0


In [None]:
# Seleccionar empleados mayores de 30 años y con salario mayor a 40000
df_filtrado2 = df.loc[(df['Edad'] > 30) & (df['Salario'] > 40000)]
print(df_filtrado2)

In [None]:
#  Seleccionar empleados que viven en 'Bogotá' o 'Medellín'
df_filtrado3 = df.loc[df['Ciudad'].isin(['Bogotá', 'Medellín'])]
print(df_filtrado3)

In [None]:
# Seleccionar empleados menores de 30 años o con salario menor a 35000
df_filtrado4 = df.loc[(df['Edad'] < 30) | (df['Salario'] < 35000)]
print(df_filtrado4)

In [None]:
# Seleccionar nombres y ciudades de empleados con salario mayor a 40000
df_filtrado5 = df.loc[df['Salario'] > 40000, ['Nombre', 'Ciudad']]
print(df_filtrado5)

   Nombre        Ciudad
1  Carlos      Medellín
3   David  Barranquilla
4   Elena     Cartagena


In [None]:
# Seleccionar nombres y edades de empleados que NO son de Cali
df_filtrado6 = df.loc[df['Ciudad'] != 'Cali', ['Nombre', 'Edad']]
print(df_filtrado6)

   Nombre  Edad
0     Ana    23
1  Carlos    34
3   David    41
4   Elena    36


In [None]:
# Seleccionar las primeras 3 filas de empleados con salario mayor a 40000

df_filtrado7 = df.loc[df['Salario'] > 40000].iloc[:3]
print(df_filtrado7)

    ID  Nombre  Edad        Ciudad  Salario
1  102  Carlos    34      Medellín  45000.0
3  104   David    41  Barranquilla  52000.0
4  105   Elena    36     Cartagena  41000.0


***Si solo quieres seleccionar filas y no especificar columnas, no es necesario poner nada después de la coma.***

**Métodos de Strings en Series**

Muchas veces queremos trabajar con texto en Pandas. Sin embargo, una Serie no es un str, sino una estructura que contiene múltiples strings. Para poder usar métodos de strings, como contains(), upper(), lower(), debemos usar .str.

In [None]:
import pandas as pd

serie = pd.Series(["kiwi", "banana", "pera", "fresa", "manzana"])
serie

Unnamed: 0,0
0,kiwi
1,banana
2,pera
3,fresa
4,manzana


In [None]:
# Filtrar palabras que comienzan con "m"

filtro_inicio = serie.str.startswith(("ba","pe"))
serie_filtrada = serie[filtro_inicio]

print(serie_filtrada)

1    banana
2      pera
dtype: object


In [None]:
# Filtrar palabras que terminan con "a"

filtro_final = serie.str.endswith("a")
serie_filtrada_final = serie[filtro_final]

print(serie_filtrada_final)


1     banana
2       pera
3      fresa
4    manzana
dtype: object


In [None]:
filtro_combinado = serie.str.startswith("m") & serie.str.endswith("a")
serie_filtrada_combinada = serie[filtro_combinado]

print(serie_filtrada_combinada)


4    manzana
dtype: object


### **Transformación y Manipulación de Datos en Pandas**

Utilizaremos pandas para llevar a cabo diversas transformaciones en nuestros datos, asegurando que estén en el formato adecuado para su posterior análisis. Exploraremos herramientas clave que nos permitirán modificar la estructura de un DataFrame, limpiar y enriquecer la información, y optimizar su uso en tareas analíticas.

Las operaciones que aplicaremos incluyen:

- Renombrar columnas, facilitando la organización y comprensión de los datos (df.rename()).
- Agregar nuevas columnas para complementar la información disponible (df["nueva"] = valores).
- Modificar valores existentes dentro del conjunto de datos (df["columna"].replace()).
- Aplicar funciones personalizadas a columnas para realizar transformaciones específicas (df["columna"].apply()).
- Convertir tipos de datos, garantizando la coherencia en cálculos y visualizaciones (df["columna"].astype()).

Estas técnicas nos permitirán estructurar los datos de manera eficiente y prepararlos adecuadamente para los siguientes pasos en el proceso de análisis y modelado. A lo largo de los ejemplos prácticos, aplicaremos estas herramientas en distintos escenarios para comprender su utilidad y versatilidad.

In [None]:
import pandas as pd

data = {
    'ID': [101, 102, 103],
    'Nombre_Empleado': ['Ana', 'Carlos', 'Beatriz'],
    'Edad': [23, 34, 29],
    'Ciudad_Residencia': ['Bogotá', 'Medellín', 'Cali']
}

df = pd.DataFrame(data)
print(df)

    ID Nombre_Empleado  Edad Ciudad_Residencia
0  101             Ana    23            Bogotá
1  102          Carlos    34          Medellín
2  103         Beatriz    29              Cali


In [None]:
# Renombrar columnas
df = df.rename(columns={'Nombre_Empleado': 'Nombre', 'Ciudad_Residencia': 'Ciudad'})
#df.columns = ['ID', 'Nombre', 'Edad', 'Ciudad']

print(df)

    ID   Nombre  Edad    Ciudad  Salario
0  101      Ana    23    Bogotá    30000
1  102   Carlos    34  Medellín    45000
2  103  Beatriz    29      Cali    35000


In [None]:
# Agregar una nueva columna "Salario"
df["Salario"] = [30000, 45000, 35000]

print(df)

    ID   Nombre  Edad Ciudad_Residencia  Salario
0  101      Ana    23            Bogotá    30000
1  102   Carlos    34          Medellín    45000
2  103  Beatriz    29              Cali    35000


In [None]:
# Reemplazar "Bogotá" por "BOG"
df["Ciudad"] = df["Ciudad"].replace({"Bogotá": "BOG"})
# df.loc[df["Ciudad"] == "Bogotá", "Ciudad"] = "BOG"

print(df)

    ID   Nombre  Edad    Ciudad  Salario
0  101      Ana    23       BOG    30000
1  102   Carlos    34  Medellín    45000
2  103  Beatriz    29      Cali    35000


**df["columna"].apply(función)**

Aplica función a cada valor de "columna".

Devuelve una Serie con los valores transformados.

In [None]:
# Convertir todos los nombres a mayúsculas
df["Nombre"] = df["Nombre"].apply(lambda x: x.upper())

print(df)

    ID   Nombre  Edad    Ciudad  Salario
0  101      ANA    23       BOG    30000
1  102   CARLOS    34  Medellín    45000
2  103  BEATRIZ    29      Cali    35000


In [None]:
df["Edad"] = df["Edad"].astype(float)

print(df.dtypes)

ID           int64
Nombre      object
Edad       float64
Ciudad      object
Salario      int64
dtype: object


Alternativa con applymap() para convertir todo el DataFrame

**df = df.applymap(pd.to_numeric)**

### **Limpieza de Datos**

Antes de realizar cualquier análisis o aplicar técnicas de ciencia de datos, es fundamental llevar a cabo un proceso de limpieza de datos. Si los datos no se depuran correctamente, pueden introducir errores y sesgos que comprometan la validez de los resultados.

Dado que los datos suelen provenir de múltiples fuentes externas, no siempre se generan bajo estándares rigurosos de calidad. Por ello, es esencial aplicar una serie de procedimientos para garantizar su fiabilidad y precisión. Entre las principales tareas de limpieza de datos se encuentran:

- Identificación y manejo de valores nulos o faltantes, evitando la pérdida de información clave.
- Conversión y ajuste de tipos de datos, asegurando coherencia en cálculos y análisis.
- Detección y eliminación de registros duplicados, previniendo sesgos en los resultados.

Para llevar a cabo este proceso de manera eficiente, utilizaremos Pandas, una de las bibliotecas más poderosas y ampliamente utilizadas en Python para la manipulación y análisis de datos. Pandas nos proporciona herramientas clave para limpiar y estructurar los datos antes de analizarlos. Entre las principales funciones que emplearemos se encuentran:

* isnull() Identifica valores nulos dentro de un DataFrame.
* dropna() Elimina filas o columnas que contienen valores nulos.
* fillna() Sustituye valores nulos con un valor específico o estrategia de imputación.
* astype() Convierte el tipo de datos de una columna para garantizar coherencia en los cálculos.
* value_counts() Cuenta la frecuencia de valores únicos en una columna.

Estas herramientas nos permitirán explorar, limpiar y estructurar los datos de manera eficiente, asegurando su calidad antes de cualquier análisis o modelado.


In [None]:
import pandas as pd
import numpy as np

data = {
    "edad": [25, 34, 40, np.nan, 22, 29, 50, np.nan, 37, 41, 60, np.nan, 27, 45, np.nan, 38, 48, np.nan, 52, 30],
    "trabajo": ["Gerente", "Técnico", "Emprendedor", "Obrero", "Servicios", np.nan, "Técnico", "Obrero",
                np.nan, "Gerente", "Emprendedor", "Servicios", "Obrero", np.nan, "Técnico", "Gerente",
                np.nan, "Servicios", "Obrero", "Emprendedor"],
    "estado_civil": ["Casado", "Soltero", "Divorciado", np.nan, "Casado", "Soltero", np.nan, "Casado",
                     "Divorciado", "Soltero", np.nan, "Casado", "Soltero", "Divorciado", "Casado", np.nan,
                     "Soltero", "Casado", "Divorciado", np.nan],
    "educacion": ["Primaria", "Secundaria", np.nan, "Terciaria", "Primaria", "Secundaria", np.nan, "Terciaria",
                  "Secundaria", "Primaria", "Secundaria", np.nan, "Terciaria", "Primaria", "Secundaria",
                  np.nan, "Terciaria", "Primaria", "Secundaria", "Terciaria"],
    "tiene_deuda": ["Sí", "No", "Sí", "No", np.nan, "Sí", "No", "Sí", "No", np.nan,
                    "Sí", "No", "Sí", "No", "Sí", "No", np.nan, "Sí", "No", "Sí"],
    "saldo": [1200, 3400, np.nan, 150, 2300, 4000, np.nan, -500, 1700, 2600,
              np.nan, 3300, 1200, np.nan, 2400, 3600, -250, np.nan, 4200, 3100]
}

df = pd.DataFrame(data)
df


Unnamed: 0,edad,trabajo,estado_civil,educacion,tiene_deuda,saldo
0,25.0,Gerente,Casado,Primaria,Sí,1200.0
1,34.0,Técnico,Soltero,Secundaria,No,3400.0
2,40.0,Emprendedor,Divorciado,,Sí,
3,,Obrero,,Terciaria,No,150.0
4,22.0,Servicios,Casado,Primaria,,2300.0
5,29.0,,Soltero,Secundaria,Sí,4000.0
6,50.0,Técnico,,,No,
7,,Obrero,Casado,Terciaria,Sí,-500.0
8,37.0,,Divorciado,Secundaria,No,1700.0
9,41.0,Gerente,Soltero,Primaria,,2600.0


In [None]:
df.shape

(20, 6)

In [None]:
# ==============================
#  Identificar valores faltantes
# ==============================
print(" Valores faltantes en cada columna:")
print(df.isnull().sum())

 Valores faltantes en cada columna:
edad            5
trabajo         4
estado_civil    5
educacion       4
tiene_deuda     3
saldo           5
dtype: int64


In [None]:
#=====================================
#Filtrar filas con valores faltantes
#=====================================

df[df.isnull().any(axis=1)]

Unnamed: 0,edad,trabajo,estado_civil,educacion,tiene_deuda,saldo
2,40.0,Emprendedor,Divorciado,,Sí,
3,,Obrero,,Terciaria,No,150.0
4,22.0,Servicios,Casado,Primaria,,2300.0
5,29.0,,Soltero,Secundaria,Sí,4000.0
6,50.0,Técnico,,,No,
7,,Obrero,Casado,Terciaria,Sí,-500.0
8,37.0,,Divorciado,Secundaria,No,1700.0
9,41.0,Gerente,Soltero,Primaria,,2600.0
10,60.0,Emprendedor,,Secundaria,Sí,
11,,Servicios,Casado,,No,3300.0


**Si no existieran las funciones isnull() y any(), podríamos crear nuestra propia función desde cero para identificar y contar valores faltantes en un DataFrame.**


In [None]:
# ==============================
# ESTRATEGIAS DE IMPUTACIÓN PARA 'trabajo'
# ==============================

# Imputación con la moda (valor más frecuente)
df_moda = df.copy()
df_moda['trabajo'].fillna(df_moda['trabajo'].mode()[0], inplace=True)
print(df_moda)
df_moda['trabajo'].value_counts(dropna=False)

# Imputación con la categoría 'Desconocido'
#df_desconocido = df.copy()
#df_desconocido['trabajo'].fillna('Desconocido', inplace=True)
#print(df_desconocido)

# Eliminación de filas con valores nulos en 'trabajo'
#df_eliminado = df.copy()
#df_eliminado.dropna(subset=['trabajo'], inplace=True)
#print(df_eliminado)

    edad      trabajo estado_civil   educacion tiene_deuda   saldo
0   25.0      Gerente       Casado    Primaria          Sí  1200.0
1   34.0      Técnico      Soltero  Secundaria          No  3400.0
2   40.0  Emprendedor   Divorciado         NaN          Sí     NaN
3    NaN       Obrero          NaN   Terciaria          No   150.0
4   22.0    Servicios       Casado    Primaria         NaN  2300.0
5   29.0       Obrero      Soltero  Secundaria          Sí  4000.0
6   50.0      Técnico          NaN         NaN          No     NaN
7    NaN       Obrero       Casado   Terciaria          Sí  -500.0
8   37.0       Obrero   Divorciado  Secundaria          No  1700.0
9   41.0      Gerente      Soltero    Primaria         NaN  2600.0
10  60.0  Emprendedor          NaN  Secundaria          Sí     NaN
11   NaN    Servicios       Casado         NaN          No  3300.0
12  27.0       Obrero      Soltero   Terciaria          Sí  1200.0
13  45.0       Obrero   Divorciado    Primaria          No    

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_moda['trabajo'].fillna(df_moda['trabajo'].mode()[0], inplace=True)


Unnamed: 0_level_0,count
trabajo,Unnamed: 1_level_1
Obrero,8
Gerente,3
Técnico,3
Emprendedor,3
Servicios,3


In [None]:
# ==============================
#  COMPARACIÓN DE LAS ESTRATEGIAS DE IMPUTACIÓN
# ==============================
print("Valores originales de 'trabajo':")
print(df['trabajo'].value_counts(dropna=False))

print("Imputación con la moda:")
print(df_moda['trabajo'].value_counts(dropna=False))

print("Imputación con 'Desconocido':")
print(df_desconocido['trabajo'].value_counts(dropna=False))

print("Eliminación de filas con valores nulos en 'trabajo':")
print(df_eliminado['trabajo'].value_counts(dropna=False))


Valores originales de 'trabajo':
trabajo
Obrero         4
NaN            4
Gerente        3
Técnico        3
Emprendedor    3
Servicios      3
Name: count, dtype: int64
Imputación con la moda:
trabajo
Obrero         8
Gerente        3
Técnico        3
Emprendedor    3
Servicios      3
Name: count, dtype: int64
Imputación con 'Desconocido':


NameError: name 'df_desconocido' is not defined

In [None]:
# ==============================
#  ESTRATEGIAS DE IMPUTACIÓN PARA "saldo"
# ==============================

# Imputación con la media (promedio)
df_saldo_media = df.copy()
df_saldo_media['saldo'].fillna(df_saldo_media['saldo'].mean(), inplace=True)

# Imputación con la mediana
df_saldo_mediana = df.copy()
df_saldo_mediana['saldo'].fillna(df_saldo_mediana['saldo'].median(), inplace=True)

# Imputación con la moda (valor más frecuente)
df_saldo_moda = df.copy()
df_saldo_moda['saldo'].fillna(df_saldo_moda['saldo'].mode()[0], inplace=True)

# Imputación con un valor constante (-999)
df_saldo_constante = df.copy()
df_saldo_constante['saldo'].fillna(-999, inplace=True)

# Eliminación de las filas con valores nulos en "saldo"
df_saldo_sin_nulos = df.copy()
df_saldo_sin_nulos.dropna(subset=['saldo'], inplace=True)



 Imputación con la media en 'saldo':
    edad      trabajo estado_civil   educacion tiene_deuda   saldo
0   25.0      Gerente       Casado    Primaria          Sí  1200.0
1   34.0      Técnico      Soltero  Secundaria          No  3400.0
2   40.0  Emprendedor   Divorciado         NaN          Sí  2160.0
3    NaN       Obrero          NaN   Terciaria          No   150.0
4   22.0    Servicios       Casado    Primaria         NaN  2300.0
5   29.0          NaN      Soltero  Secundaria          Sí  4000.0
6   50.0      Técnico          NaN         NaN          No  2160.0
7    NaN       Obrero       Casado   Terciaria          Sí  -500.0
8   37.0          NaN   Divorciado  Secundaria          No  1700.0
9   41.0      Gerente      Soltero    Primaria         NaN  2600.0
10  60.0  Emprendedor          NaN  Secundaria          Sí  2160.0
11   NaN    Servicios       Casado         NaN          No  3300.0
12  27.0       Obrero      Soltero   Terciaria          Sí  1200.0
13  45.0          NaN   

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_saldo_media['saldo'].fillna(df_saldo_media['saldo'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_saldo_mediana['saldo'].fillna(df_saldo_mediana['saldo'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never w

In [None]:
print("\n Imputación con la media en 'saldo':")
print(df_saldo_media)

print("\ Imputación con la mediana en 'saldo':")
print(df_saldo_mediana)

print("\n Imputación con la moda en 'saldo':")
print(df_saldo_moda)

print("\n Imputación con un valor constante en 'saldo' (-999):")
print(df_saldo_constante)

print("\n Eliminación de valores nulos en 'saldo':")
print(df_saldo_sin_nulos)



 Imputación con la media en 'saldo':
    edad      trabajo estado_civil   educacion tiene_deuda   saldo
0   25.0      Gerente       Casado    Primaria          Sí  1200.0
1   34.0      Técnico      Soltero  Secundaria          No  3400.0
2   40.0  Emprendedor   Divorciado         NaN          Sí  2160.0
3    NaN       Obrero          NaN   Terciaria          No   150.0
4   22.0    Servicios       Casado    Primaria         NaN  2300.0
5   29.0          NaN      Soltero  Secundaria          Sí  4000.0
6   50.0      Técnico          NaN         NaN          No  2160.0
7    NaN       Obrero       Casado   Terciaria          Sí  -500.0
8   37.0          NaN   Divorciado  Secundaria          No  1700.0
9   41.0      Gerente      Soltero    Primaria         NaN  2600.0
10  60.0  Emprendedor          NaN  Secundaria          Sí  2160.0
11   NaN    Servicios       Casado         NaN          No  3300.0
12  27.0       Obrero      Soltero   Terciaria          Sí  1200.0
13  45.0          NaN   

**Corrección de Tipos de Datos en Pandas y Creación de Fechas**

Uno de los pasos más importantes en la limpieza de datos es corregir los tipos de datos. En muchas ocasiones, los datos pueden estar almacenados como cadenas de texto (string) cuando deberían ser numéricos (int, float) o fechas (datetime). Esto afecta el análisis y los cálculos que se pueden hacer con ellos.




In [None]:
import pandas as pd

data = pd.DataFrame({
    "ID": ["101", "102", "103", "104"],  # Debería ser int, pero está como string
    "Saldo": ["1200.5", "2300", "3400.75", "1500"],  # Debería ser float
    "Fecha": ["01-01-2023", "15-02-2023", "23-03-2023", "10-04-2023"]  # Debería ser datetime
})

print(" Tipos de datos antes de la conversión:")
print(data.dtypes)


 Tipos de datos antes de la conversión:
ID       object
Saldo    object
Fecha    object
dtype: object


In [None]:
# Convertir ID a entero (int)
data["ID"] = data["ID"].astype(int)

# Convertir Saldo a flotante (float)
data["Saldo"] = data["Saldo"].astype(float)

# Convertir Fecha a tipo datetime
data["Fecha"] = pd.to_datetime(data["Fecha"], format="%d-%m-%Y")

# Ver tipos de datos después de la conversión
print("\n Tipos de datos después de la conversión:")
print(data.dtypes)



 Tipos de datos después de la conversión:
ID                int64
Saldo           float64
Fecha    datetime64[ns]
dtype: object


Cuando trabajamos con datos temporales, es importante que las fechas estén en el formato correcto **(datetime).**

Muchas veces, las fechas se almacenan como texto **(str)** en un formato como:

- "2023-01-01"
- "01/02/2023"
- "5-marzo-2023"

Pandas nos permite convertir texto en fechas usando **pd.to_datetime( )**.

### Formatos de Fechas en `pd.to_datetime()`

| **Formato de Fecha** | **Código en Pandas** |
|----------------------|---------------------|
| Día-Mes-Año (`DD-MM-YYYY`) | `pd.to_datetime(df["Fecha"], format="%d-%m-%Y")` |
| Año-Mes-Día (`YYYY-MM-DD`) | `pd.to_datetime(df["Fecha"], format="%Y-%m-%d")` |
| Día/Mes/Año (`DD/MM/YYYY`) | `pd.to_datetime(df["Fecha"], format="%d/%m/%Y")` |
| Mes-Día-Año (`MM-DD-YYYY`) | `pd.to_datetime(df["Fecha"], format="%m-%d-%Y")` |
| Nombre del Mes Día, Año (`Month DD, YYYY`) | `pd.to_datetime(df["Fecha"], format="%B %d, %Y")` |


In [None]:
data_fechas = pd.DataFrame({
    "FechaTexto": ["01/01/2023", "15/02/2023", "23/03/2023", "10/04/2023"]
})

# Convertir a formato de fecha
data_fechas["Fecha"] = pd.to_datetime(data_fechas["FechaTexto"], format="%d/%m/%Y")
#data_fechas["Fecha"]  = data_fechas["Fecha"] .dt.strftime("%d-%m-%Y")
# Mostrar resultado
print(data_fechas)


   FechaTexto       Fecha
0  01/01/2023  01-01-2023
1  15/02/2023  15-02-2023
2  23/03/2023  23-03-2023
3  10/04/2023  10-04-2023


A veces tenemos columnas separadas con el día (day), el mes (month) y el año (year) y necesitamos unirlas en una sola fecha.

In [None]:
data = pd.DataFrame({
    "day_of_month": ["5", "10", "15", "20"],  # Día como string
    "month": ["may", "jun", "jul", "aug"],  # Mes en texto
})

# Convertir day_of_month a string para concatenar
data["day_of_month"] = data["day_of_month"].astype(str)

# Crear columna de fecha combinada
data["day_month"] = data["day_of_month"] + "-" + data["month"] + "-2023"

# Convertir a formato datetime
data["day_month"] = pd.to_datetime(data["day_month"], format="%d-%b-%Y")

print(data)

  day_of_month month  day_month
0            5   may 2023-05-05
1           10   jun 2023-06-10
2           15   jul 2023-07-15
3           20   aug 2023-08-20


In [None]:
data["day_month_str"] = data["day_month"].dt.strftime("%d-%m-%Y")
print(data)

  day_of_month month  day_month day_month_str
0            5   may 2023-05-05    05-05-2023
1           10   jun 2023-06-10    10-06-2023
2           15   jul 2023-07-15    15-07-2023
3           20   aug 2023-08-20    20-08-2023


In [None]:
# Crear la columna de fecha combinada y convertir a datetime en una sola línea
data["day_month"] = pd.to_datetime(data.agg("{0}-{1}-2023".format, axis=1), format="%d-%b-%Y")

print(data)

### **Operaciones Básicas**

En el análisis de datos, la manipulación eficiente de tablas de datos es crucial. Pandas proporciona herramientas poderosas para organizar, resumir y analizar conjuntos de datos mediante DataFrames. Algunas de las operaciones avanzadas más utilizadas en la manipulación de DataFrames, como:

- Ordenar datos (sort_values()) para organizar registros de acuerdo con valores específicos.
- Agrupar datos (groupby()) para resumir información en categorías.
- Realizar agregaciones estadísticas (mean(), sum(), max(), min()) para obtener métricas clave.
- Construir tablas dinámicas (pivot_table()) para realizar análisis detallados de datos.

In [None]:
import pandas as pd

data = {
    "Producto": ["A", "B", "C", "D", "E"],
    "Ventas": [100, 250, 150, 200, 150],
    "Fecha": ["2024-02-01", "2024-02-02", "2024-01-15", "2024-01-30", "2024-01-10"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Ventas,Fecha
0,A,100,2024-02-01
1,B,250,2024-02-02
2,C,150,2024-01-15
3,D,200,2024-01-30
4,E,150,2024-01-10


In [None]:
# Ordenar el DataFrame por ventas en orden descendente
df_sorted = df.sort_values(by='Ventas', ascending=False)
print("DataFrame Ordenado por Ventas:")
print(df_sorted)

DataFrame Ordenado por Ventas:
  Producto  Ventas      Fecha
1        B     250 2024-02-02
3        D     200 2024-01-30
2        C     150 2024-01-15
4        E     150 2024-01-10
0        A     100 2024-02-01


In [None]:
df["Fecha"] = pd.to_datetime(df["Fecha"])

# Ordenar por Ventas (descendente) y luego por Fecha (ascendente)
df_sorted = df.sort_values(by=["Ventas", "Fecha"], ascending=[False, True])

print(df_sorted)

  Producto  Ventas      Fecha
1        B     250 2024-02-02
3        D     200 2024-01-30
4        E     150 2024-01-10
2        C     150 2024-01-15
0        A     100 2024-02-01


In [None]:
# Calcular estadísticas básicas

Ventas_promedio = df['Ventas'].mean()
Ventas_maximo = df['Ventas'].max()
Ventas_minimo = df['Ventas'].min()
Ventas_mediana = df['Ventas'].median()
Ventas_rango = Ventas_maximo - Ventas_minimo
Ventas_varianza = df['Ventas'].var()
Ventas_desviacion = df['Ventas'].std()
Ventas_cv = Ventas_desviacion / Ventas_promedio
Ventas_percentil_25 = df['Ventas'].quantile(0.25)
Ventas_percentil_50 = df['Ventas'].quantile(0.50)  # Mediana
Ventas_percentil_75 = df['Ventas'].quantile(0.75)
Ventas_asimetria = df['Ventas'].skew()
Ventas_curtosis = df['Ventas'].kurtosis()
Ventas_conteo = df['Ventas'].count()

# Mostrar resultados
print("Estadísticas Básicas:")
print("Estadísticas Adicionales:")
print(f"Ventas promedio: {Ventas_promedio}")
print(f"Ventas mediana: {Ventas_mediana}")
print(f"Ventas máximo: {Ventas_maximo}")
print(f"Ventas mínimo: {Ventas_minimo}")
print(f"Rango de ventas: {Ventas_rango}")
print(f"Varianza de ventas: {Ventas_varianza}")
print(f"Desviación estándar de ventas: {Ventas_desviacion}")
print(f"Coeficiente de variación: {Ventas_cv:.2%}")  # Convertido a porcentaje
print(f"Percentil 25%: {Ventas_percentil_25}")
print(f"Percentil 50% (Mediana): {Ventas_percentil_50}")
print(f"Percentil 75%: {Ventas_percentil_75}")
print(f"Asimetría: {Ventas_asimetria}")
print(f"Curtosis: {Ventas_curtosis}")
print(f"Conteo de valores no nulos: {Ventas_conteo}")

Estadísticas Básicas:
Estadísticas Adicionales:
Ventas promedio: 170.0
Ventas mediana: 150.0
Ventas máximo: 250
Ventas mínimo: 100
Rango de ventas: 150
Varianza de ventas: 3250.0
Desviación estándar de ventas: 57.0087712549569
Coeficiente de variación: 33.53%
Percentil 25%: 150.0
Percentil 50% (Mediana): 150.0
Percentil 75%: 200.0
Asimetría: 0.40479600891093653
Curtosis: -0.17751479289940786
Conteo de valores no nulos: 5


El método groupby() en Pandas se usa para agrupar datos en un DataFrame según los valores de una columna y luego aplicar una función agregada a otra columna.

**df.groupby('columna')['otra_columna'].funcion()**

columna: La columna por la cual se agrupan los datos.

otra_columna: La columna sobre la que se aplica la función.

funcion(): Puede ser sum(), mean(), count(), max(), min(), etc.

In [None]:
import pandas as pd
import numpy as np

np.random.seed(42)
data = {
    "Producto": np.random.choice(["Laptop", "Celular", "Tablet", "Smartwatch", "Monitor"], size=100),
    "Ciudad": np.random.choice(["Bogotá", "Medellín", "Cali", "Barranquilla", "Cartagena"], size=100),
    "Ventas": np.random.randint(100, 1000, size=100),
    "Precio_Unitario": np.random.randint(200, 2000, size=100),
    "Fecha": pd.date_range(start="2023-01-01", periods=100, freq='D')
}
df = pd.DataFrame(data)
print(df.head())

     Producto        Ciudad  Ventas  Precio_Unitario      Fecha
0  Smartwatch  Barranquilla     709              659 2023-01-01
1     Monitor        Bogotá     297             1154 2023-01-02
2      Tablet  Barranquilla     610              669 2023-01-03
3     Monitor      Medellín     851             1598 2023-01-04
4     Monitor        Bogotá     243             1245 2023-01-05


In [None]:
df.shape

(100, 5)

In [None]:
ventas_por_producto = df.groupby("Producto")["Ventas"].sum()
print(ventas_por_producto)

Producto
Celular       11616
Laptop        10505
Monitor       10152
Smartwatch    13779
Tablet         9085
Name: Ventas, dtype: int64


In [None]:
stats_ventas = df.groupby("Producto")["Ventas"].agg(["sum", "mean", "max", "min", "count"])
print(stats_ventas)

              sum        mean  max  min  count
Producto                                      
Celular     11616  553.142857  996  132     21
Laptop      10505  583.611111  980  234     18
Monitor     10152  534.315789  870  198     19
Smartwatch  13779  529.961538  995  101     26
Tablet       9085  567.812500  995  223     16


In [None]:
agrupado = df.groupby(["Producto", "Ciudad"]).agg(
    Total_Ventas=("Ventas", "sum"),
    Promedio_Ventas=("Ventas", "mean"))
print(agrupado)

                         Total_Ventas  Promedio_Ventas
Producto   Ciudad                                     
Celular    Barranquilla          4214       702.333333
           Bogotá                1425       712.500000
           Cali                  2058       411.600000
           Cartagena             2568       513.600000
           Medellín              1351       450.333333
Laptop     Barranquilla          1634       408.500000
           Bogotá                2518       503.600000
           Cali                  2469       823.000000
           Cartagena             2659       664.750000
           Medellín              1225       612.500000
Monitor    Barranquilla          1008       504.000000
           Bogotá                2576       429.333333
           Cali                  2449       489.800000
           Cartagena             1597       798.500000
           Medellín              2522       630.500000
Smartwatch Barranquilla          2166       361.000000
          

In [None]:
agrupado = df.groupby(["Producto", "Ciudad"]).agg(
    Total_Ventas=("Ventas", "sum"),
    Promedio_Ventas=("Ventas", "mean")).round(2)
print(agrupado)


                         Total_Ventas  Promedio_Ventas
Producto   Ciudad                                     
Celular    Barranquilla          4214           702.33
           Bogotá                1425           712.50
           Cali                  2058           411.60
           Cartagena             2568           513.60
           Medellín              1351           450.33
Laptop     Barranquilla          1634           408.50
           Bogotá                2518           503.60
           Cali                  2469           823.00
           Cartagena             2659           664.75
           Medellín              1225           612.50
Monitor    Barranquilla          1008           504.00
           Bogotá                2576           429.33
           Cali                  2449           489.80
           Cartagena             1597           798.50
           Medellín              2522           630.50
Smartwatch Barranquilla          2166           361.00
          

**df.pivot_table(values='columna_valor', index='columna_index', columns='columna_columnas', aggfunc='funcion_agregacion')**

values='columna_valor'  La columna cuyos valores se desean agregar (por ejemplo, ventas, ingresos).

index='columna_index'  La columna que define las filas de la tabla pivote.

columns='columna_columnas' (opcional)  Define las columnas en la tabla pivote.

aggfunc='funcion_agregacion'  La función que se aplicará para agregar los datos (sum, mean, count, etc.).

fill_value (opcional)  Rellena los valores faltantes con un valor específico.

margins=True (opcional)  Agrega una fila/columna de totales.


In [None]:
import pandas as pd
data = {
    'Categoria': ['A', 'B', 'A', 'B', 'A', 'C', 'C', 'B', 'A', 'C'],
    'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero', 'Marzo', 'Febrero', 'Enero', 'Marzo', 'Marzo', 'Marzo'],
    'Ventas': [100, 200, 150, 50, 300, 400, 250, 500, 350, 450]
}

df = pd.DataFrame(data)

# Mostrar DataFrame original
print("Datos originales (Formato Largo):")
print(df)


Datos originales (Formato Largo):
  Categoria      Mes  Ventas
0         A    Enero     100
1         B    Enero     200
2         A  Febrero     150
3         B  Febrero      50
4         A    Marzo     300
5         C  Febrero     400
6         C    Enero     250
7         B    Marzo     500
8         A    Marzo     350
9         C    Marzo     450


In [None]:
df_pivot = df.pivot_table(values='Ventas', index='Categoria', columns='Mes', aggfunc='sum', fill_value=0)

print("Tabla Pivote (Formato Ancho):")
print(df_pivot)


Tabla Pivote (Formato Ancho):
Mes        Enero  Febrero  Marzo
Categoria                       
A            100      150    650
B            200       50    500
C            250      400    450


### **Concatenación y Combinación de DataFrames en Pandas**

En el análisis de datos, a menudo necesitamos unir múltiples DataFrames para consolidar información y realizar análisis más detallados. En pandas, esto se puede hacer mediante concatenación (pd.concat()), combinación (pd.merge()) y join().

- pd.concat() se usa para apilar DataFrames, ya sea agregando filas (axis=0) o columnas (axis=1). No requiere una columna clave en común, solo la misma estructura en las columnas o los índices. Es útil cuando se tienen DataFrames con el mismo tipo de información y se desea unirlos sin establecer relaciones entre los datos.

- pd.merge() permite fusionar DataFrames basándose en una o más columnas en común, similar a un JOIN en SQL. Puede realizar diferentes tipos de combinaciones:

"inner" (intersección, solo los registros coincidentes en ambas tablas)

"outer" (unión total, incluyendo todos los registros de ambos DataFrames)

"left" (se conservan todos los registros del primer DataFrame y se combinan con los coincidentes del segundo)

"right" (prioriza el segundo DataFrame, incluyendo todos sus registros y agregando solo los coincidentes del primero).

Es ideal para combinar información de distintas fuentes que tienen una relación clara en una columna clave.

.join() es similar a pd.merge(), pero en lugar de basarse en una columna clave, combina los DataFrames usando el índice. Es útil cuando los DataFrames ya están alineados por sus índices y se necesita agregar información de uno al otro sin necesidad de reordenarlos manualmente.

Admite los mismos tipos de combinaciones que merge() ("left", "right", "inner", "outer"), pero es más eficiente cuando los datos ya están indexados correctamente.

In [None]:
import pandas as pd

df1 = pd.DataFrame({'ID': [1, 2], 'Nombre': ['Ana', 'Luis'], 'Edad': [25, 30]})
df2 = pd.DataFrame({'ID': [3, 4], 'Nombre': ['Carlos', 'Marta'], 'Edad': [22, 27]})
print(df1)
print(df2)

   ID Nombre  Edad
0   1    Ana    25
1   2   Luis    30
   ID  Nombre  Edad
0   3  Carlos    22
1   4   Marta    27


In [None]:
# Concatenar los DataFrames por filas (agregando filas) axis=0 por defecto
df_concat = pd.concat([df1, df2], axis=0, ignore_index = True)
print(df_concat)

   ID  Nombre  Edad
0   1     Ana    25
1   2    Luis    30
2   3  Carlos    22
3   4   Marta    27


In [None]:
df_concat = pd.concat([df1, df2], axis=0, ignore_index = False)
print(df_concat)

   ID  Nombre  Edad
0   1     Ana    25
1   2    Luis    30
0   3  Carlos    22
1   4   Marta    27


In [None]:
# Concatenar con keys
df_concat1 = pd.concat([df1, df2], keys=["df1", "df2"])
print(df_concat1)

       ID  Nombre  Edad
df1 0   1     Ana    25
    1   2    Luis    30
df2 0   3  Carlos    22
    1   4   Marta    27


In [None]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Carlos']})
df2 = pd.DataFrame({'Edad': [25, 30, 22], 'Ciudad': ['Bogotá', 'Medellín', 'Cali']})
print(df1)
print(df2)

   ID  Nombre
0   1     Ana
1   2    Luis
2   3  Carlos
   Edad    Ciudad
0    25    Bogotá
1    30  Medellín
2    22      Cali


In [None]:
# Concatenar los DataFrames por columnas (agregando columnas)
df_concat_col = pd.concat([df1, df2], axis=1)
print(df_concat_col)

   ID  Nombre  Edad    Ciudad
0   1     Ana    25    Bogotá
1   2    Luis    30  Medellín
2   3  Carlos    22      Cali


**Combinación de DataFrames con pd.merge()**

El método pd.merge() permite unir DataFrames basados en una columna en común, similar a las operaciones de JOIN en SQL.

In [None]:
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Carlos']})
df2 = pd.DataFrame({'ID': [2, 3, 4], 'Ciudad': ['Medellín', 'Cali', 'Barranquilla']})
print(df1)
print(df2)

   ID  Nombre
0   1     Ana
1   2    Luis
2   3  Carlos
   ID        Ciudad
0   2      Medellín
1   3          Cali
2   4  Barranquilla


In [None]:
# Unir DataFrames por la columna 'ID' usando inner (por defecto)
df_merge = pd.merge(df1, df2, on='ID', how='inner')
print(df_merge)

   ID  Nombre    Ciudad
0   2    Luis  Medellín
1   3  Carlos      Cali


In [None]:
df_merge_outer = pd.merge(df1, df2, on='ID', how='outer')
print(df_merge_outer)

   ID  Nombre        Ciudad
0   1     Ana           NaN
1   2    Luis      Medellín
2   3  Carlos          Cali
3   4     NaN  Barranquilla


In [None]:
df_merge_left = pd.merge(df1, df2, on='ID', how='left')
print(df_merge_left)

   ID  Nombre    Ciudad
0   1     Ana       NaN
1   2    Luis  Medellín
2   3  Carlos      Cali


In [None]:
df_merge_right = pd.merge(df1, df2, on='ID', how='right')
print(df_merge_right)

   ID  Nombre        Ciudad
0   2    Luis      Medellín
1   3  Carlos          Cali
2   4     NaN  Barranquilla


**Uso de join() para combinar DataFrames por índice**

El método .join() permite unir DataFrames basándose en el índice en lugar de una columna.

In [None]:
df1 = pd.DataFrame({'Nombre': ['Ana', 'Luis', 'Carlos']}, index=[1, 2, 3])
df2 = pd.DataFrame({'Ciudad': ['Bogotá', 'Medellín', 'Cali']}, index=[1, 2, 4])
print(df1)
print(df2)

   Nombre
1     Ana
2    Luis
3  Carlos
     Ciudad
1    Bogotá
2  Medellín
4      Cali


In [None]:
df_join = df1.join(df2)
print(df_join)

   Nombre    Ciudad
1     Ana    Bogotá
2    Luis  Medellín
3  Carlos       NaN


In [None]:
df_join2 = df2.join(df1)
print(df_join2)

     Ciudad Nombre
1    Bogotá    Ana
2  Medellín   Luis
4      Cali    NaN


### **Análisis de Datos con Pandas**

En el análisis de datos, una de las primeras tareas es explorar y describir la información contenida en un conjunto de datos. Pandas nos ofrece herramientas para obtener resúmenes estadísticos, distribución de valores y medidas de tendencia central y dispersión. Estos análisis nos ayudan a entender la estructura de los datos y a tomar decisiones informadas para su manipulación.

In [None]:
import pandas as pd

df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Jorge', 'Sofia', 'Pedro', 'Laura', 'Andrés', 'Elena'],
    'Edad': [23, 45, 31, 35, 42, 29, 50, 38, 27, 40],
    'Salario': [3000, 4500, 5000, 4200, 6000, 3500, 7000, 4800, 3200, 5200],
    'Genero': ['F', 'M', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F']
})

df_describe = df.describe()
print("Resumen Estadístico:")
print(df_describe)

Resumen Estadístico:
            Edad   Salario
count  10.000000    10.000
mean   36.000000  4640.000
std     8.550504  1254.503
min    23.000000  3000.000
25%    29.500000  3675.000
50%    36.500000  4650.000
75%    41.500000  5150.000
max    50.000000  7000.000


In [None]:
df_value_counts = df['Genero'].value_counts()
print("Distribución de la Variable 'Genero':")
print(df_value_counts)

Distribución de la Variable 'Genero':
Genero
F    5
M    5
Name: count, dtype: int64


In [None]:
df_porcentaje = df['Genero'].value_counts(normalize=True) * 100
df_porcentaje.name = 'Porcentaje'
print("Distribución de la Variable 'Genero' en Porcentaje:")
print(df_porcentaje)

Distribución de la Variable 'Genero' en Porcentaje:
Genero
F    50.0
M    50.0
Name: Porcentaje, dtype: float64


# **Numpy**

NumPy es una biblioteca de Python diseñada para trabajar con datos numéricos de manera rápida y eficiente. Su principal característica es el uso de arrays multidimensionales, que permiten realizar operaciones matemáticas, estadísticas y de álgebra lineal de forma optimizada. Además, NumPy incluye funciones para ordenar, filtrar y transformar datos, así como para generar números aleatorios y trabajar con transformadas de Fourier. Gracias a su velocidad y versatilidad, es una herramienta esencial en ciencia de datos, aprendizaje automático y computación científica

[Documentación Numpy](https://numpy.org/)

**¿Por qué utilizar NumPy?**

Las listas de Python son excelentes contenedores de uso general. Pueden ser “heterogéneas”, es decir, pueden contener elementos de distintos tipos, y son bastante rápidas cuando se utilizan para realizar operaciones individuales en un puñado de elementos.

Dependiendo de las características de los datos y los tipos de operaciones que se necesiten realizar, otros contenedores pueden ser más apropiados; al explotar estas características, podemos mejorar la velocidad, reducir el consumo de memoria y ofrecer una sintaxis de alto nivel para realizar una variedad de tareas de procesamiento comunes. NumPy brilla cuando hay grandes cantidades de datos “homogéneos” (del mismo tipo) para procesar en la CPU.

*Para importar numpy al cuaderno usamos la siguiente comando:*

In [2]:
import numpy as np

Las listas de Python son estructuras generales y flexibles, pero no están optimizadas para cálculos numéricos. En cambio, NumPy usa arrays (ndarray), que son más eficientes porque: Almacenan datos en memoria contigua (como en C).

In [None]:
import time

lista = list(range(1000000))
array = np.arange(1000000)

# Suma con listas de Python
start = time.time()
suma_lista = [x + 1 for x in lista]
print("Tiempo con listas:", time.time() - start)

# Suma con NumPy
start = time.time()
suma_array = array + 1
print("Tiempo con NumPy:", time.time() - start)


Tiempo con listas: 0.05067324638366699
Tiempo con NumPy: 0.003609180450439453


A continuación, encontrarás un listado de las funciones universales más comunes, organizadas por categorías. Este resumen está enfocado en las más utilizadas en Ciencia de Datos y Computación Numérica, dejando fuera aquellas que son demasiado específicas para mantenerlo práctico y útil.

Si deseas explorar la lista completa de ufuncs, puedes consultar la documentación oficial de NumPy (disponible en inglés).

| Categoría                | Función       | Descripción Breve                                               |
|--------------------------|---------------|-----------------------------------------------------------------|
| **Aritméticas**          | `add`         | Suma elemento a elemento de dos arrays.                         |
|                          | `subtract`    | Resta elemento a elemento de dos arrays.                        |
|                          | `multiply`    | Multiplica elemento a elemento de dos arrays.                   |
|                          | `divide`      | Divide elemento a elemento de dos arrays.                       |
|                          | `negative`    | Cambia el signo a los elementos de un array.                    |
|                          | `power`       | Eleva los elementos de un array a las potencias de otro array.  |
|                          | `mod`         | Calcula el módulo elemento a elemento entre dos arrays.         |
| **Trigonométricas**      | `sin`         | Seno de los elementos del array.                                |
|                          | `cos`         | Coseno de los elementos del array.                              |
|                          | `tan`         | Tangente de los elementos del array.                            |
|                          | `arcsin`      | Arcoseno de los elementos del array.                            |
|                          | `arccos`      | Arcocoseno de los elementos del array.                          |
|                          | `arctan`      | Arcotangente de los elementos del array.                        |
| **Hiperbólicas**         | `sinh`        | Seno hiperbólico de los elementos del array.                    |
|                          | `cosh`        | Coseno hiperbólico de los elementos del array.                  |
|                          | `tanh`        | Tangente hiperbólica de los elementos del array.                |
|                          | `arcsinh`     | Arcoseno hiperbólico de los elementos del array.                |
|                          | `arccosh`     | Arcocoseno hiperbólico de los elementos del array.              |
|                          | `arctanh`     | Arcotangente hiperbólica de los elementos del array.            |
| **Exponencial y Logaritmo** | `exp`      | Exponencial de los elementos del array.                         |
|                          | `log`         | Logaritmo natural de los elementos del array.                   |
|                          | `log2`        | Logaritmo base 2 de los elementos del array.                    |
|                          | `log10`       | Logaritmo base 10 de los elementos del array.                   |
|                          | `expm1`       | `exp(x) - 1` para todos los elementos del array.                |
|                          | `log1p`       | `log(1 + x)` para todos los elementos del array.                |
| **Estadísticas**         | `sum`         | Suma de elementos en el array.                                  |
|                          | `prod`        | Producto de elementos en el array.                              |
|                          | `mean`        | Media de elementos en el array.                                 |
|                          | `std`         | Desviación estándar de los elementos del array.                 |
|                          | `var`         | Varianza de los elementos en el array.                          |
|                          | `min`         | Mínimo de los elementos del array.                              |
|                          | `max`         | Máximo de los elementos del array.                              |
| **Comparación**          | `greater`     | Comparación elemento a elemento (mayor que) entre dos arrays.   |
|                          | `less`        | Comparación elemento a elemento (menor que) entre dos arrays.   |
|                          | `equal`       | Comparación elemento a elemento (igual) entre dos arrays.       |
|                          | `not_equal`   | Comparación elemento a elemento (no igual) entre dos arrays.    |
|                          | `greater_equal` | Comparación elemento a elemento (mayor o igual) entre dos arrays. |
|                          | `less_equal`  | Comparación elemento a elemento (menor o igual) entre dos arrays. |


Un arreglo es una estructura de datos que almacena múltiples valores del mismo tipo en una forma ordenada. En NumPy, los arreglos (ndarray) son equivalentes a las listas en Python, pero con una diferencia clave: son más rápidos, eficientes en memoria y permiten realizar operaciones matemáticas de manera optimizada.

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
print(arr)

[1 2 3 4 5 6 7 8 9]


In [None]:
len(arr)

9

In [None]:
arr.shape

(9,)

In [None]:
array_mod = arr.reshape(3, 3)
array_mod

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)

[[1 2 3]
 [4 5 6]]


In [None]:
matriz.shape

(2, 3)

In [None]:
np.zeros((3, 3))  # Matriz de ceros de 3x3

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [3]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

NumPy incluye una gran cantidad de funciones matemáticas y estadísticas optimizadas.

In [None]:
arr = np.array([1, 4, 9, 16])

print("Raíz cuadrada:", np.sqrt(arr))
print("Logaritmo natural:", np.log(arr).round(2))
print("Exponencial:", np.exp(arr).round(2))
print("Suma acumulada:", np.cumsum(arr))

Raíz cuadrada: [1. 2. 3. 4.]
Logaritmo natural: [0.   1.39 2.2  2.77]
Exponencial: [2.72000000e+00 5.46000000e+01 8.10308000e+03 8.88611052e+06]
Suma acumulada: [ 1  5 14 30]


NumPy permite trabajar con matrices, productos matriciales, determinantes y valores propios, fundamentales en Machine Learning y Álgebra Lineal.

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(A)
print(B)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]


In [None]:
print("Suma de matrices:")
print(A+B)


Suma de matrices:
[[ 6  8]
 [10 12]]


In [None]:
print("Suma de matrices:")
print(np.add(A, B))

Suma de matrices:
[[ 6  8]
 [10 12]]


In [None]:
print("Producto de matrices:")
print(np.dot(A, B))

Producto de matrices:
[[19 22]
 [43 50]]


## Ejemplo. DataFrame Top Peliculas

In [1]:
import pandas as pd

df= pd.read_csv('/content/sample_data/Top-Películas.csv')
df.head()

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
3,3,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Acción,9.0,84.0,534.86
4,4,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Crimen,9.0,84.0,534.86


In [56]:
df.shape

(2532, 10)

In [28]:
df.columns

Index(['indice_global', 'indice_estricto', 'título', 'director', 'año',
       'duración', 'género', 'rating', 'metascore', 'recaudación(M)'],
      dtype='object')

In [29]:
df.dtypes

Unnamed: 0,0
indice_global,object
indice_estricto,float64
título,object
director,object
año,float64
duración,float64
género,object
rating,float64
metascore,float64
recaudación(M),float64


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2532 entries, 0 to 2531
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   indice_global    2532 non-null   object 
 1   indice_estricto  2489 non-null   float64
 2   título           2489 non-null   object 
 3   director         2489 non-null   object 
 4   año              2489 non-null   float64
 5   duración         2489 non-null   float64
 6   género           2489 non-null   object 
 7   rating           2489 non-null   float64
 8   metascore        2489 non-null   float64
 9   recaudación(M)   2489 non-null   float64
dtypes: float64(6), object(4)
memory usage: 197.9+ KB


In [75]:
print("\nValores nulos en cada columna:")
print(df.isnull().sum())


Valores nulos en cada columna:
indice_global      0
indice_estricto    0
título             0
director           0
año                0
duración           0
género             0
rating             0
metascore          0
recaudación(M)     0
dtype: int64


In [31]:
df[df.isnull().any(axis=1)]

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
30,"30,13,""The Good, the Bad and the Ugly"",Sergio ...",,,,,,,,,
31,"31,13,""The Good, the Bad and the Ugly"",Sergio ...",,,,,,,,,
595,"595,234,""Three Billboards Outside Ebbing, Miss...",,,,,,,,,
596,"596,234,""Three Billboards Outside Ebbing, Miss...",,,,,,,,,
597,"597,234,""Three Billboards Outside Ebbing, Miss...",,,,,,,,,
605,"605,238,""Monsters, Inc."",Pete Docter,2001,92,A...",,,,,,,,,
606,"606,238,""Monsters, Inc."",Pete Docter,2001,92,A...",,,,,,,,,
607,"607,238,""Monsters, Inc."",Pete Docter,2001,92,C...",,,,,,,,,
632,"632,248,""Lock, Stock and Two Smoking Barrels"",...",,,,,,,,,
633,"633,248,""Lock, Stock and Two Smoking Barrels"",...",,,,,,,,,


In [32]:
df_corregido = df.iloc[:, 0].str.split(',(?=(?:[^"]*"[^"]*")*[^"]*$)', expand=True, regex=True)

df_corregido.columns = df.columns[:df_corregido.shape[1]]
df.update(df_corregido)
print(df.head())

  indice_global indice_estricto                    título  \
0             0             0.0  The Shawshank Redemption   
1             1             1.0             The Godfather   
2             2             1.0             The Godfather   
3             3             2.0           The Dark Knight   
4             4             2.0           The Dark Knight   

               director     año duración  género rating metascore  \
0        Frank Darabont  1994.0    142.0   Drama    9.3      82.0   
1  Francis Ford Coppola  1972.0    175.0  Crimen    9.2     100.0   
2  Francis Ford Coppola  1972.0    175.0   Drama    9.2     100.0   
3     Christopher Nolan  2008.0    152.0  Acción    9.0      84.0   
4     Christopher Nolan  2008.0    152.0  Crimen    9.0      84.0   

  recaudación(M)  
0          28.34  
1         134.97  
2         134.97  
3         534.86  
4         534.86  


  df.update(df_corregido)
  df.update(df_corregido)
  df.update(df_corregido)
  df.update(df_corregido)
  df.update(df_corregido)
  df.update(df_corregido)


In [33]:
df[df.isnull().any(axis=1)]

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)


In [34]:
print("\nCantidad de valores duplicados:")
print(df.duplicated())


Cantidad de valores duplicados:
0       False
1       False
2       False
3       False
4       False
        ...  
2527    False
2528    False
2529    False
2530    False
2531    False
Length: 2532, dtype: bool


In [35]:
df.describe()

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
count,2532,2532.0,2532,2532,2532.0,2532.0,2532,2532.0,2532.0,2532.0
unique,2532,1000.0,994,560,118.0,158.0,21,23.0,73.0,714.0
top,0,500.0,Drishyam,Alfred Hitchcock,2004.0,130.0,Drama,7.7,0.0,0.0
freq,1,3.0,6,32,83.0,62.0,732,415.0,383.0,472.0


In [36]:
print(df.dtypes)

indice_global      object
indice_estricto    object
título             object
director           object
año                object
duración           object
género             object
rating             object
metascore          object
recaudación(M)     object
dtype: object


In [37]:
columnas_numericas = ["indice_global", "indice_estricto", "año", "duración", "rating", "metascore", "recaudación(M)"]

for col in columnas_numericas:
    df[col] = pd.to_numeric(df[col], errors="coerce")

print(df.dtypes)

indice_global        int64
indice_estricto    float64
título              object
director            object
año                float64
duración           float64
género              object
rating             float64
metascore          float64
recaudación(M)     float64
dtype: object


In [38]:
df.describe()

Unnamed: 0,indice_global,indice_estricto,año,duración,rating,metascore,recaudación(M)
count,2532.0,2532.0,2532.0,2532.0,2532.0,2532.0,2532.0
mean,1265.5,501.339258,1992.21564,124.213665,7.966035,66.487362,61.656303
std,731.069764,289.372567,24.244151,28.910941,0.274246,30.519333,113.390273
min,0.0,0.0,1920.0,45.0,7.6,0.0,0.0
25%,632.75,248.0,1976.0,103.0,7.8,64.0,0.28
50%,1265.5,503.0,2000.0,120.0,7.9,76.0,10.73
75%,1898.25,749.0,2011.0,139.0,8.1,86.0,68.105
max,2531.0,999.0,2023.0,321.0,9.3,100.0,936.66


In [39]:
df.groupby("género")[["rating", "duración", "recaudación(M)"]].mean()

Unnamed: 0_level_0,rating,duración,recaudación(M)
género,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Acción,7.986473,130.545894,119.063865
Animación,7.942857,99.880952,100.601786
Aventura,7.98254,125.687831,146.117778
Biografía,7.970093,137.401869,46.679159
Ciencia Ficción,7.986567,120.597015,132.793582
Comedia,7.911354,112.925764,55.214105
Crimen,7.993137,126.240196,34.660637
Deportes,7.98,140.133333,49.810667
Drama,7.980191,127.491803,38.428675
Familiar,7.932692,118.461538,80.295192


In [43]:
df.groupby("director")["rating"].max().head()

Unnamed: 0_level_0,rating
director,Unnamed: 1_level_1
Aamir Khan,8.3
Aaron Sorkin,7.7
Abbas Kiarostami,7.7
Abdellatif Kechiche,7.7
Abhishek Pathak,8.2


In [44]:
df.groupby("género")["recaudación(M)"].sum()

Unnamed: 0_level_0,recaudación(M)
género,Unnamed: 1_level_1
Acción,24646.22
Animación,8450.55
Aventura,27616.26
Biografía,4994.67
Ciencia Ficción,8897.17
Comedia,12644.03
Crimen,7070.77
Deportes,747.16
Drama,28129.79
Familiar,4175.35


In [45]:
df[df["rating"] > 8.5].groupby("género")["título"].count()

Unnamed: 0_level_0,título
género,Unnamed: 1_level_1
Acción,14
Animación,2
Aventura,11
Biografía,3
Ciencia Ficción,4
Comedia,2
Crimen,11
Drama,29
Familiar,2
Fantasía,4


In [46]:
ranking_recaudacion = df[["título", "recaudación(M)"]].sort_values(by="recaudación(M)", ascending=False).head(10)
ranking_recaudacion

Unnamed: 0,título,recaudación(M)
1591,Star Wars: Episode VII - The Force Awakens,936.66
1590,Star Wars: Episode VII - The Force Awakens,936.66
1589,Star Wars: Episode VII - The Force Awakens,936.66
154,Avengers: Endgame,858.37
155,Avengers: Endgame,858.37
156,Avengers: Endgame,858.37
359,Spider-Man: No Way Home,804.75
360,Spider-Man: No Way Home,804.75
358,Spider-Man: No Way Home,804.75
1180,Avatar,760.51


In [65]:
ranking_rating = df[["título", "rating", "género"]].sort_values(by="rating", ascending=False).head(10)
ranking_rating


Unnamed: 0,título,rating,género
0,The Shawshank Redemption,9.3,Drama
2,The Godfather,9.2,Drama
1,The Godfather,9.2,Crimen
9,12 Angry Men,9.0,Crimen
14,The Godfather Part II,9.0,Crimen
13,The Lord of the Rings: The Return of the King,9.0,Drama
12,The Lord of the Rings: The Return of the King,9.0,Aventura
11,The Lord of the Rings: The Return of the King,9.0,Acción
10,12 Angry Men,9.0,Drama
15,The Godfather Part II,9.0,Drama


In [57]:
duplicados_totales = df.duplicated()
print(f"\nTotal de filas duplicadas en todas las columnas: {duplicados_totales.sum()}")


Total de filas duplicadas en todas las columnas: 0


In [58]:
duplicados= df.duplicated(subset=["título", "director"])
print(f"\nTotal de duplicados considerando título y director: {duplicados.sum()}")


Total de duplicados considerando título y director: 1532


## **Ejemplo medallas**

In [3]:
import pandas as pd

dfm= pd.read_csv("/content/sample_data/medallas.csv")
dfm.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [4]:
dfm.shape

(93, 5)

In [5]:
dfm.columns

Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')

In [6]:
dfm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [8]:
dfm.describe().round(2)

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.77,4.93,10.55
std,7.63,7.28,6.26,18.9
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


In [10]:
dfm.isnull().sum()

Unnamed: 0,0
Oro,28
Plata,24
Bronce,17
Total,0
Pais,0


In [12]:
dfm.fillna(0, inplace=True)
dfm

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [15]:
dfm[["Oro", "Plata", "Bronce"]] = dfm[["Oro", "Plata", "Bronce"]].astype(int)

In [13]:
top_oro = dfm.sort_values('Oro', ascending=False).head(3)
top_oro

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
46,27.0,14.0,17.0,58,Japon


In [14]:
filtro = dfm['Total'] > 20
mas_de_20_medallas = dfm[filtro]
mas_de_20_medallas.sort_values('Total', ascending=False)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
2,17.0,7.0,22.0,46,Australia
32,1.0,11.0,16.0,37,Germany
60,1.0,12.0,14.0,36,Netherlands
30,1.0,12.0,11.0,33,France
14,7.0,6.0,11.0,24,Canada
