# Estructuras de Datos

## Series
Una Serie es una estructura unidimensional similar a un array de NumPy, con etiquetas (índices) que le dan un significado a los valores.

## DataFrames
Un DataFrame es una estructura bidimensional (tabla) con columnas de diferentes tipos de datos. Es la estructura principal de pandas y se usa para almacenar datos tabulares.

In [1]:
import pandas as pd
# Crear una Serie
serie = pd.Series([10, 20, 30, 40])
print("Serie:")
print(serie)

# Crear un DataFrame
df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro"],
    "Edad": [25, 30, 35],
    "Ciudad": ["Madrid", "Barcelona", "Valencia"]
})
print("\nDataFrame:")
print(df)


Serie:
0    10
1    20
2    30
3    40
dtype: int64

DataFrame:
  Nombre  Edad     Ciudad
0    Ana    25     Madrid
1   Luis    30  Barcelona
2  Pedro    35   Valencia


# Métodos más Usados para Manipular Datos en Pandas

## 1. `head()`
Muestra las primeras **n** filas del DataFrame (por defecto, 5 filas).

In [2]:
f = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", "María", "Juan"],
    "Edad": [25, 30, 35, 28, 22],
})

ej1 = pd.DataFrame([(1,2,3),(3,2,1),(1,2,3)], columns=("A","B","C"), index=("x","y","z"))
# Mostrar las primeras 3 filas
print(ej1.head(3))
print(f.head(2))


   A  B  C
x  1  2  3
y  3  2  1
z  1  2  3
  Nombre  Edad
0    Ana    25
1   Luis    30


## 2. `info()`
Proporciona un resumen conciso del DataFrame, incluyendo el número de entradas, tipo de datos, y valores no nulos.


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


## 3. `describe()`
Muestra estadísticas descriptivas como la media, desviación estándar, y valores máximos y mínimos.

In [4]:
df.describe()

Unnamed: 0,Edad
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


## 4. `iloc[]` y `loc[]`
`iloc[]`: Accede a filas y columnas por índice (numérico).
`loc[]`: Accede a filas y columnas por etiquetas.

In [5]:
# Usando iloc para seleccionar filas por índice
print("Usando iloc para seleccionar filas por índice")
print(f.iloc[1:3])  # Filas 1 y 2
# Usando loc para seleccionar filas por etiquetas
print("Usando loc para seleccionar filas por etiquetas")
print(f.loc[1:3])  # Filas 1 a 3

Usando iloc para seleccionar filas por índice
  Nombre  Edad
1   Luis    30
2  Pedro    35
Usando loc para seleccionar filas por etiquetas
  Nombre  Edad
1   Luis    30
2  Pedro    35
3  María    28


## 5. `drop()`
Elimina filas o columnas del DataFrame.

In [6]:
# Eliminar la columna 'Edad'
f_dropped = f.drop(columns=["Edad"])
print(f_dropped)

# Eliminar la fila en el índice 0
f_dropped_row = f.drop(index=0)
print(f_dropped_row)


  Nombre
0    Ana
1   Luis
2  Pedro
3  María
4   Juan
  Nombre  Edad
1   Luis    30
2  Pedro    35
3  María    28
4   Juan    22


## 6. `fillna()`
Rellena los valores nulos con un valor específico.


In [7]:
# Crear un DataFrame con valores nulos
df_with_nan = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", None],
    "Edad": [25, None, 35, 28],
    "Ciudad": ["Madrid", "Barcelona", None, "Valencia"]
})
print("DataFrame con valores nulos:")
print(df_with_nan)

# Rellenar los valores nulos con un valor específico
df_filled = df_with_nan.fillna({
    "Nombre": "Desconocido",
    "Edad": df_with_nan["Edad"].mean(),  # Rellenar con la media de la columna 'Edad'
    "Ciudad": "Desconocida"
})
print("\nDataFrame después de usar fillna():")
print(df_filled)

DataFrame con valores nulos:
  Nombre  Edad     Ciudad
0    Ana  25.0     Madrid
1   Luis   NaN  Barcelona
2  Pedro  35.0       None
3   None  28.0   Valencia

DataFrame después de usar fillna():
        Nombre       Edad       Ciudad
0          Ana  25.000000       Madrid
1         Luis  29.333333    Barcelona
2        Pedro  35.000000  Desconocida
3  Desconocido  28.000000     Valencia


## 7. `tail()`
El método `tail()` se utiliza para mostrar las últimas **n** filas de un DataFrame. Por defecto, muestra las últimas 5 filas.

### Ejemplo de uso:

In [8]:
df.tail(1)

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,35,Valencia


## 8. `shape`
El atributo `shape` se utiliza para obtener las dimensiones de un DataFrame o Serie. Devuelve una tupla que representa el número de filas y columnas.

### Ejemplo de uso:

In [9]:
# Obtener las dimensiones del DataFrame 'df'
print("Dimensiones de df:", df.shape)

# Obtener las dimensiones del DataFrame 'df_filled'
print("Dimensiones de df_filled:", df_filled.shape)

# Obtener las dimensiones del DataFrame 'df_with_nan'
print("Dimensiones de df_with_nan:", df_with_nan.shape)

# Obtener las dimensiones del DataFrame 'ej1'
print("Dimensiones de ej1:", ej1.shape)

# Obtener las dimensiones del DataFrame 'f'
print("Dimensiones de f:", f.shape)

# Obtener las dimensiones del DataFrame 'f_dropped'
print("Dimensiones de f_dropped:", f_dropped.shape)

# Obtener las dimensiones del DataFrame 'f_dropped_row'
print("Dimensiones de f_dropped_row:", f_dropped_row.shape)

# Obtener las dimensiones de la Serie 'serie'
print("Dimensiones de serie:", serie.shape)

Dimensiones de df: (3, 3)
Dimensiones de df_filled: (4, 3)
Dimensiones de df_with_nan: (4, 3)
Dimensiones de ej1: (3, 3)
Dimensiones de f: (5, 2)
Dimensiones de f_dropped: (5, 1)
Dimensiones de f_dropped_row: (4, 2)
Dimensiones de serie: (4,)


## 8. `shape`
El atributo `shape` se utiliza para obtener las dimensiones de un DataFrame o Serie. Devuelve una tupla que representa el número de filas y columnas.

### Ejemplo de uso:


In [1]:
import pandas as pd

# Crear una Serie
serie_ejemplo = pd.Series([1, 2, 3, 4, 5])
print("Dimensiones de serie_ejemplo:", serie_ejemplo.shape)

# Crear un DataFrame vacío
df_vacio = pd.DataFrame()
print("Dimensiones de df_vacio:", df_vacio.shape)

# Crear un DataFrame con una sola columna
df_una_columna = pd.DataFrame({"A": [1, 2, 3, 4, 5]})
print("Dimensiones de df_una_columna:", df_una_columna.shape)

# Crear un DataFrame con múltiples columnas
df_multiples_columnas = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6],
    "C": [7, 8, 9]
})
print("Dimensiones de df_multiples_columnas:", df_multiples_columnas.shape)
# Crear un DataFrame con índices personalizados
df_indices_personalizados = pd.DataFrame({
    "A": [1, 2],
    "B": [3, 4]
}, index=["fila1", "fila2"])
print("Dimensiones de df_indices_personalizados:", df_indices_personalizados.shape)

Dimensiones de serie_ejemplo: (5,)
Dimensiones de df_vacio: (0, 0)
Dimensiones de df_una_columna: (5, 1)
Dimensiones de df_multiples_columnas: (3, 3)
Dimensiones de df_indices_personalizados: (2, 2)


## 9. `sort_values()`
El método `sort_values()` se utiliza para ordenar un DataFrame según una o más columnas.

### Ejemplo de uso:


In [2]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'A': [5, 2, 8, 1, 0], 'B': [50, 20, 30, 10, 40]}
df = pd.DataFrame(data)

# Ordenar por la columna 'A'
df_sorted_by_A = df.sort_values(by='A')
print("Ordenado por la columna 'A':")
print(df_sorted_by_A)

# Ordenar por la columna 'B'
df_sorted_by_B = df.sort_values(by='B')
print("\nOrdenado por la columna 'B':")
print(df_sorted_by_B)

# Ordenar por la columna 'A' en orden descendente
df_sorted_by_A_desc = df.sort_values(by='A', ascending=False)
print("\nOrdenado por la columna 'A' en orden descendente:")
print(df_sorted_by_A_desc)

# Ordenar por múltiples columnas, primero por 'A' y luego por 'B'
df_sorted_by_A_and_B = df.sort_values(by=['A', 'B'])
print("\nOrdenado por las columnas 'A' y 'B':")
print(df_sorted_by_A_and_B)

Ordenado por la columna 'A':
   A   B
4  0  40
3  1  10
1  2  20
0  5  50
2  8  30

Ordenado por la columna 'B':
   A   B
3  1  10
1  2  20
2  8  30
4  0  40
0  5  50

Ordenado por la columna 'A' en orden descendente:
   A   B
2  8  30
0  5  50
1  2  20
3  1  10
4  0  40

Ordenado por las columnas 'A' y 'B':
   A   B
4  0  40
3  1  10
1  2  20
0  5  50
2  8  30


## 10. `groupby()`
El método `groupby()` se usa para agrupar datos según una o más columnas y aplicar funciones de agregación.

In [5]:
# Crear un DataFrame
df = pd.DataFrame({
    "Categoría": ["A", "B", "A", "B", "A"],
    "Valor": [10, 20, 30, 40, 50]
})

# Agrupar por la columna 'Categoría' y calcular la suma
df_grouped = df.groupby("Categoría")["Valor"].sum()
print(df_grouped)

Categoría
A    90
B    60
Name: Valor, dtype: int64
