# Módulo `pandas` en Python

## 1. Introducción

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas para la manipulación y análisis de datos. Las dos estructuras de datos principales en Pandas son:

- **Series**: Estructura de datos unidimensional, similar a un array o una lista.

- **DataFrame**: Estructura de datos bidimensional, similar a una tabla o una hoja de cálculo

## 2. Instalación

Para instalar Pandas, ejecuta el siguiente comando en una celda de Jupyter Notebook:

In [None]:
!pip install pandas

## 3. Importación del módulo

In [2]:
import pandas as pd

## 4. Estructuras de datos

- Series: Una `Series` es una estructura de datos unidimensional que puede contener datos de cualquier tipo.

In [38]:
# Crear una Serie
data = pd.Series([10, 20, 30, 40, 50], name='Valores')
display(data)

# Crear una Serie con índices personalizados
data_custom_index = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
display(data_custom_index)

# Acceder a elementos
element = data_custom_index['c']
display(element)


0    10
1    20
2    30
3    40
4    50
Name: Valores, dtype: int64

a    10
b    20
c    30
d    40
e    50
dtype: int64

np.int64(30)

- DataFrame: Un `DataFrame` es una estructura de datos bidimensional, con etiquetas en las filas y columnas.

In [39]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': ['h', 'o', 'l', 'a'],
    'C': [True, False, True, False]
}, index=['a','b','c','d'])

# Mostrar el DataFrame
display(df)


Unnamed: 0,A,B,C
a,1,h,True
b,2,o,False
c,3,l,True
d,4,a,False


## 5. Operaciones Básicas

- Acceso a datos: Puedes acceder a los datos en un `DataFrame` utilizando varias técnicas.

In [40]:
# Acceder a una columna
col_a = df['A']
display(col_a)

# Acceder a varias columnas
cols_ab = df[['A', 'B']]
display(cols_ab)

# Acceder a una fila por índice
row_0 = df.iloc[0]
display(row_0)

# Acceder a una celda específica
cell = df.at['a', 'A']
display(cell)


a    1
b    2
c    3
d    4
Name: A, dtype: int64

Unnamed: 0,A,B
a,1,h
b,2,o
c,3,l
d,4,a


A       1
B       h
C    True
Name: a, dtype: object

np.int64(1)

- Filtrado de datos:

In [41]:
# Filtrar filas donde la columna 'A' es mayor que 2
filtered_df = df[df['A'] > 2]
display(filtered_df)


Unnamed: 0,A,B,C
c,3,l,True
d,4,a,False


- Estadísticas Descriptivas:

In [42]:
# Estadísticas descriptivas de columnas numéricas
stats = df.describe()
display(stats)


Unnamed: 0,A
count,4.0
mean,2.5
std,1.290994
min,1.0
25%,1.75
50%,2.5
75%,3.25
max,4.0


## 6. Manipulación de datos

- Agregar y Eliminar Columnas:

In [43]:
# Agregar una columna
df['D'] = [10.5, 20.5, 30.5, 40.5]
display(df)

# Eliminar una columna
df = df.drop(columns=['D'])
display(df)


Unnamed: 0,A,B,C,D
a,1,h,True,10.5
b,2,o,False,20.5
c,3,l,True,30.5
d,4,a,False,40.5


Unnamed: 0,A,B,C
a,1,h,True
b,2,o,False
c,3,l,True
d,4,a,False


- Manipulación de Índices: 

In [44]:
# Cambiar el índice del DataFrame
df.index = ['row1', 'row2', 'row3', 'row4']
display(df)

# Restablecer el índice
df = df.reset_index(drop=True)
display(df)


Unnamed: 0,A,B,C
row1,1,h,True
row2,2,o,False
row3,3,l,True
row4,4,a,False


Unnamed: 0,A,B,C
0,1,h,True
1,2,o,False
2,3,l,True
3,4,a,False


## 7. Carga y Guardado de Datos

- Cargar Datos desde un Archivo CSV:

    ```python 
    df = pd.read_csv('ruta/a/tu/archivo.csv')
    display(df)
    ```

In [45]:
otro_df = pd.read_csv('~/ejemplo_pandas.csv')
otro_df

Unnamed: 0,id,nombre,primerAp,segundoAp,edad,sexo
0,1,joe,so,so,20,M


- Guardar Datos en un Archivo CSV:

In [46]:
df.to_csv('~/csv_export.csv', index=True)

## 8. Manipulación Avanzada de Datos

- Operaciones de Agrupamiento:

In [47]:
# Crear un DataFrame de ejemplo
agrupar = pd.DataFrame({
    'Grupo': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Valor': [10, 20, 15, 25, 10, 30]
})

# Agrupar por columna 'Grupo' y calcular la suma de 'Valor'
agrupado = agrupar.groupby('Grupo').sum()
display(agrupado)


Unnamed: 0_level_0,Valor
Grupo,Unnamed: 1_level_1
A,30
B,40
C,40


- Aplicar Funciones:

In [48]:
# Crear una función personalizada
def duplicar(x):
    return x * 2

# Aplicar la función a una columna
agrupar['Doble'] = agrupar['Valor'].apply(duplicar)
display(agrupar)


Unnamed: 0,Grupo,Valor,Doble
0,A,10,20
1,A,20,40
2,B,15,30
3,B,25,50
4,C,10,20
5,C,30,60


- Manipulación de fechas:

In [49]:
# Crear un DataFrame con fechas
df_dates = pd.DataFrame({
    'Fecha': pd.to_datetime(['2024-01-01', '2024-02-01', '2024-03-01']),
    'Valor': [100, 200, 300]
})

# Mostrar el DataFrame
display(df_dates)

# Filtrar por fecha
filtered_dates = df_dates[df_dates['Fecha'] > '2024-01-31']
display(filtered_dates)


Unnamed: 0,Fecha,Valor
0,2024-01-01,100
1,2024-02-01,200
2,2024-03-01,300


Unnamed: 0,Fecha,Valor
1,2024-02-01,200
2,2024-03-01,300
