# Introducción a Pandas
Pandas es una biblioteca de Python para el análisis y manipulación de datos. Nos ayuda a manejar grandes cantidades de datos de manera eficiente, permitiéndonos hacer tareas como filtrar, transformar, limpiar y analizar datos.

A lo largo de este cuaderno, aprenderemos a usar Pandas para realizar un análisis exploratorio de datos (EDA).

## 1. ¿Qué es un DataFrame?
Un DataFrame es una estructura de datos bidimensional (con filas y columnas) que nos permite almacenar y manipular datos de diferentes tipos (como números, texto, etc.).

In [1]:
# Importamos la librería pandas
import pandas as pd

# Creamos un pequeño DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Juan', 'Luis', 'Sofía'],
    'Edad': [23, 45, 31, 22],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Madrid'],
    'Salario': [3000, 4000, 3500, 2800]
}

# Creación del DataFrame
df = pd.DataFrame(data)

# Mostramos el DataFrame
df


Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Madrid,3000
1,Juan,45,Barcelona,4000
2,Luis,31,Sevilla,3500
3,Sofía,22,Madrid,2800


## 2. Cargar un archivo CSV
Pandas nos permite cargar datos de diferentes fuentes, como archivos CSV, Excel, y bases de datos. Aquí cargaremos un archivo CSV que contiene información de empleados.

In [None]:
# Cargamos el archivo CSV en un DataFrame
df = pd.read_csv('empleados.csv')

# Mostramos las primeras filas del DataFrame
df.head()


## 3. Descripción de los datos
Podemos obtener una descripción estadística de los datos con el método describe(), que nos proporciona información como la media, desviación estándar, valores mínimos y máximos, entre otros.

In [None]:
# Descripción estadística de los datos
df.describe()


## 4. Filtrar datos
Pandas facilita la filtración de datos. Por ejemplo, si queremos ver solo los empleados que viven en Madrid, podemos hacerlo de esta manera:

In [2]:
# Filtramos los empleados que viven en Madrid
df_madrid = df[df['Ciudad'] == 'Madrid']

# Mostramos el resultado
df_madrid


Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Madrid,3000
3,Sofía,22,Madrid,2800


## Análisis de datos faltantes
Es importante verificar si hay datos faltantes en nuestro conjunto de datos antes de realizar un análisis completo. Para esto, usamos isnull().

In [None]:
# Comprobamos si hay valores nulos
df.isnull().sum()


## 6. Análisis estadístico básico
Podemos realizar un análisis más detallado calculando la media, mediana o moda de las columnas numéricas, como el salario.

In [None]:
# Media de los salarios
df['Salario'].mean()

# Mediana de los salarios
df['Salario'].median()

# Moda de los salarios
df['Salario'].mode()[0]


## 7. Visualización básica con gráficos
Pandas se integra con Matplotlib para crear visualizaciones simples. A continuación, creamos un gráfico de barras para visualizar los salarios de los empleados.

In [None]:
# Importamos la librería para visualización
import matplotlib.pyplot as plt

# Creamos un gráfico de barras para mostrar los salarios
df.plot(kind='bar', x='Nombre', y='Salario', color='green', title='Salarios de empleados')

# Mostramos el gráfico
plt.show()
