# Clase de Introducción a pandas

Este notebook presentará los conceptos fundamentales de pandas:
- Estructuras de datos: **Series** y **DataFrames**.
- Técnicas de indexación y selección de datos.

¡Recuerda ejecutar cada celda y observar los resultados!

---

## 1. Introducción a Pandas <a name="introduccion"></a>

Pandas es una biblioteca de Python especializada en la manipulación y el análisis de datos. Proporciona dos estructuras de datos principales:
- **Series**: parecidas a un array unidimensional con etiquetas en cada valor.
- **DataFrames**: tablas etiquetadas con filas y columnas, muy similares a una hoja de cálculo.

Antes de empezar, necesitamos importar la biblioteca **pandas** (generalmente se importa como `pd`).



In [187]:
import pandas as pd
import numpy as np  # También será útil para generar datos aleatorios o arrays


In [188]:
np.random.randint(1,100)

81

---

## 2. Series <a name="series"></a>

Las Series son la estructura de datos más simple en pandas. Piensa en ellas como un vector unidimensional de datos con un índice que identifica a cada elemento.

### 2.1 Creación de Series

Podemos crear una `Series` a partir de:
- Una lista de Python.
- Un array de NumPy.
- Un diccionario.


In [189]:
# 1) A partir de una lista
lista = [10, 20, 30, 40]
serie_desde_lista = pd.Series(lista)
print("Serie desde lista:")
print(serie_desde_lista)
print(type(serie_desde_lista))
print("\n")

serie_desde_lista[0::2]

# 2) A partir de un array de NumPy
array = np.array([5, 6, 7, 8])
serie_desde_array = pd.Series(array)
print("Serie desde array:")
print(serie_desde_array)
print("\n")


Serie desde lista:
0    10
1    20
2    30
3    40
dtype: int64
<class 'pandas.core.series.Series'>


Serie desde array:
0    5
1    6
2    7
3    8
dtype: int64




In [190]:
# 2.1 - Ejemplos de creación de Series
# 3) A partir de un diccionario
diccionario = {'a': 1, 'b': 2, 'c': 3}
serie_desde_diccionario = pd.Series(diccionario)
print("Serie desde diccionario:")
print(serie_desde_diccionario)

serie_desde_diccionario


Serie desde diccionario:
a    1
b    2
c    3
dtype: int64


a    1
b    2
c    3
dtype: int64

### 2.2 Accediendo a datos en Series

Para acceder a los datos en una `Series` podemos usar:
- El índice numérico (similar a listas/arrays).
- El índice personalizado (si está disponible).
- Slice (rebanadas).


In [191]:
# 2.2 - Ejemplos de acceso a datos en Series

serie_ejemplo = pd.Series([10, 20, 30, 40], index=["x", "y", "z", "w"])

print("Serie ejemplo:")
print(serie_ejemplo)

print("\nAcceder a un valor por etiqueta ('y'):")
print(serie_ejemplo["y"])

print("\nAcceder a un valor por índice (2):")
print(serie_ejemplo[2])

print("\nRebanado de elementos (dos primeros):")
print(serie_ejemplo[:2])


Serie ejemplo:
x    10
y    20
z    30
w    40
dtype: int64

Acceder a un valor por etiqueta ('y'):
20

Acceder a un valor por índice (2):
30

Rebanado de elementos (dos primeros):
x    10
y    20
dtype: int64


  print(serie_ejemplo[2])


---

## 3. DataFrames <a name="dataframes"></a>

Un `DataFrame` es como una tabla con filas y columnas, cada columna es internamente una Serie independiente. Podemos crear un DataFrame de varias maneras:

### 3.1 Creación de DataFrames

- A partir de diccionarios de listas o de Series.
- A partir de archivos CSV, Excel, etc. (en esta clase, haremos un ejemplo sencillo con diccionarios).


In [192]:
# 3.1 - Ejemplos de creación de DataFrame

# 1) A partir de un diccionario de listas
datos = {
    "Comprador": ["Ana", "Bob", "Cecilia"],
    "Edad": [23, 35, 29],
    "Ciudad": ["Madrid", "Barcelona", "Valencia"]
}

df = pd.DataFrame(datos)

In [193]:
datos['ID'] = 2

In [194]:
datos

{'Comprador': ['Ana', 'Bob', 'Cecilia'],
 'Edad': [23, 35, 29],
 'Ciudad': ['Madrid', 'Barcelona', 'Valencia'],
 'ID': 2}

In [195]:
df

Unnamed: 0,Comprador,Edad,Ciudad
0,Ana,23,Madrid
1,Bob,35,Barcelona
2,Cecilia,29,Valencia


In [196]:
lista_nombres_mayus=[]

for i in df['Comprador']:
    lista_nombres_mayus.append(i.upper())

In [197]:
lista_nombres_mayus

['ANA', 'BOB', 'CECILIA']

In [198]:
df['Nombres_MAYUS']=lista_nombres_mayus

In [199]:
df['Nombres_MAYUS'] = [i.upper() for i in df['Comprador']]

In [200]:
df['textos'] = ['Hola me llamo Aaron','Hola me llamo Alex', 'Cuéntame otra historia']

In [201]:
def partir_strings(x):
    return x.split()

partir_strings('Hola me llamo')

['Hola', 'me', 'llamo']

In [202]:
df['Nueva_columna'] = df['textos'].apply(partir_strings)

In [203]:
df['Columna_numeros'] = [1,2,None]

In [204]:
df['Precios'] = ['1,357 €','2,456€','3,788.50 €']

In [205]:
df

Unnamed: 0,Comprador,Edad,Ciudad,Nombres_MAYUS,textos,Nueva_columna,Columna_numeros,Precios
0,Ana,23,Madrid,ANA,Hola me llamo Aaron,"[Hola, me, llamo, Aaron]",1.0,"1,357 €"
1,Bob,35,Barcelona,BOB,Hola me llamo Alex,"[Hola, me, llamo, Alex]",2.0,"2,456€"
2,Cecilia,29,Valencia,CECILIA,Cuéntame otra historia,"[Cuéntame, otra, historia]",,"3,788.50 €"


In [206]:
float(df['Precios'][0].replace('€','').replace(',','').strip()) >1000

True

In [207]:
df['Precios'][2].replace('€','').replace(',','')

'3788.50 '

In [208]:
texto = 'Hola me llamo Aaron'

texto[0:texto.find(' A')]

'Hola me llamo'

In [209]:
texto.find('Aaron')

14

In [210]:
lista_precios_limpios = []

for i in df['Precios']:
    lista_precios_limpios.append(float(i.replace('€','').replace(',','').strip()))

df['Precios_limpios']=lista_precios_limpios

In [211]:
lista_precios_limpios

[1357.0, 2456.0, 3788.5]

In [212]:
df['Precios_limpios'] = [float(i.replace('€','').replace(',','').strip())for i in df['Precios']]

In [213]:
df_mask = df[['Comprador','Edad','Precios_limpios']]

In [214]:

print("DataFrame a partir de diccionario de listas:")
print(df)
print("\n")

# 2) También se puede personalizar el índice
df_indexado = pd.DataFrame(datos, index=["ID1", "ID2", "ID3"])
print("DataFrame con índice personalizado:")
print(df_indexado)


DataFrame a partir de diccionario de listas:
  Comprador  Edad     Ciudad Nombres_MAYUS                  textos  \
0       Ana    23     Madrid           ANA     Hola me llamo Aaron   
1       Bob    35  Barcelona           BOB      Hola me llamo Alex   
2   Cecilia    29   Valencia       CECILIA  Cuéntame otra historia   

                Nueva_columna  Columna_numeros     Precios  Precios_limpios  
0    [Hola, me, llamo, Aaron]              1.0     1,357 €           1357.0  
1     [Hola, me, llamo, Alex]              2.0      2,456€           2456.0  
2  [Cuéntame, otra, historia]              NaN  3,788.50 €           3788.5  


DataFrame con índice personalizado:
    Comprador  Edad     Ciudad  ID
ID1       Ana    23     Madrid   2
ID2       Bob    35  Barcelona   2
ID3   Cecilia    29   Valencia   2


In [215]:
df[['Comprador','Precios_limpios']].to_csv('miprimercsv.csv',index=False)

In [216]:
pd.read_csv('miprimercsv.csv')

Unnamed: 0,Comprador,Precios_limpios
0,Ana,1357.0
1,Bob,2456.0
2,Cecilia,3788.5


### 3.2 Operaciones básicas con DataFrames

Algunas operaciones comunes en DataFrames:
- Ver las primeras filas: `.head()`
- Ver las últimas filas: `.tail()`
- Resumen de datos: `.info()`
- Descripción estadística: `.describe()`


In [217]:
df.sample(2, random_state=41) #Te muestra 2 random

Unnamed: 0,Comprador,Edad,Ciudad,Nombres_MAYUS,textos,Nueva_columna,Columna_numeros,Precios,Precios_limpios
2,Cecilia,29,Valencia,CECILIA,Cuéntame otra historia,"[Cuéntame, otra, historia]",,"3,788.50 €",3788.5
1,Bob,35,Barcelona,BOB,Hola me llamo Alex,"[Hola, me, llamo, Alex]",2.0,"2,456€",2456.0


In [218]:
df.tail(2)

Unnamed: 0,Comprador,Edad,Ciudad,Nombres_MAYUS,textos,Nueva_columna,Columna_numeros,Precios,Precios_limpios
1,Bob,35,Barcelona,BOB,Hola me llamo Alex,"[Hola, me, llamo, Alex]",2.0,"2,456€",2456.0
2,Cecilia,29,Valencia,CECILIA,Cuéntame otra historia,"[Cuéntame, otra, historia]",,"3,788.50 €",3788.5


In [219]:
# 3.2 - Operaciones básicas

print("Primeras filas del DataFrame:")
print(df.head(5))

print("\nInformación del DataFrame (columnas, tipos de datos, etc.):")
print(df.info())

print("\nDescripción estadística (solo columnas numéricas):")
print(df.describe())


Primeras filas del DataFrame:
  Comprador  Edad     Ciudad Nombres_MAYUS                  textos  \
0       Ana    23     Madrid           ANA     Hola me llamo Aaron   
1       Bob    35  Barcelona           BOB      Hola me llamo Alex   
2   Cecilia    29   Valencia       CECILIA  Cuéntame otra historia   

                Nueva_columna  Columna_numeros     Precios  Precios_limpios  
0    [Hola, me, llamo, Aaron]              1.0     1,357 €           1357.0  
1     [Hola, me, llamo, Alex]              2.0      2,456€           2456.0  
2  [Cuéntame, otra, historia]              NaN  3,788.50 €           3788.5  

Información del DataFrame (columnas, tipos de datos, etc.):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Comprador        3 non-null      object 
 1   Edad             3 non-null      int64  
 2   Ciudad           3 non-null

In [220]:
df

Unnamed: 0,Comprador,Edad,Ciudad,Nombres_MAYUS,textos,Nueva_columna,Columna_numeros,Precios,Precios_limpios
0,Ana,23,Madrid,ANA,Hola me llamo Aaron,"[Hola, me, llamo, Aaron]",1.0,"1,357 €",1357.0
1,Bob,35,Barcelona,BOB,Hola me llamo Alex,"[Hola, me, llamo, Alex]",2.0,"2,456€",2456.0
2,Cecilia,29,Valencia,CECILIA,Cuéntame otra historia,"[Cuéntame, otra, historia]",,"3,788.50 €",3788.5


In [221]:
df.describe()

Unnamed: 0,Edad,Columna_numeros,Precios_limpios
count,3.0,2.0,3.0
mean,29.0,1.5,2533.833333
std,6.0,0.707107,1217.617174
min,23.0,1.0,1357.0
25%,26.0,1.25,1906.5
50%,29.0,1.5,2456.0
75%,32.0,1.75,3122.25
max,35.0,2.0,3788.5


In [222]:
np.std(df['Precios_limpios'])

np.float64(994.1802597561917)

In [223]:
df['Precios_limpios'].std()

np.float64(1217.6171743751536)

In [224]:
df.describe()

Unnamed: 0,Edad,Columna_numeros,Precios_limpios
count,3.0,2.0,3.0
mean,29.0,1.5,2533.833333
std,6.0,0.707107,1217.617174
min,23.0,1.0,1357.0
25%,26.0,1.25,1906.5
50%,29.0,1.5,2456.0
75%,32.0,1.75,3122.25
max,35.0,2.0,3788.5


---

## 4. Indexación y Selección de datos <a name="indexacion"></a>

En pandas, seleccionar filas y columnas puede hacerse de distintas maneras. Veremos las más usadas.

### 4.1 Selección con `[]`

- `df["columna"]` permite seleccionar una única columna, devolviendo una Serie.
- `df[["columna1", "columna2"]]` permite seleccionar varias columnas, devolviendo otro DataFrame.
- `df[condicion]` permite filtrar filas según una condición booleana.


In [225]:
array_2d = np.array([[2,5],
                     [3,4]])

array_2d[0,0]

np.int64(2)

In [226]:
# 4.1 - Ejemplos de selección con []
df = pd.DataFrame({
    "A": [1, 2, 3, 4],
    "B": [10, 20, 30, 40],
    "C": ["rojo", "azul", "verde", "amarillo"]
})

df['A'].std()

np.float64(1.2909944487358056)

In [227]:


print("DataFrame de ejemplo:")
print(df)

print("\nSeleccionar la columna 'A':")
print(df["A"])

print("\nSeleccionar columnas 'A' y 'B':")
print(df[["A", "B"]])




DataFrame de ejemplo:
   A   B         C
0  1  10      rojo
1  2  20      azul
2  3  30     verde
3  4  40  amarillo

Seleccionar la columna 'A':
0    1
1    2
2    3
3    4
Name: A, dtype: int64

Seleccionar columnas 'A' y 'B':
   A   B
0  1  10
1  2  20
2  3  30
3  4  40


In [228]:
print("\nFiltrar filas donde 'A' sea mayor que 2:")
filtro = df["A"] > 2
df


Filtrar filas donde 'A' sea mayor que 2:


Unnamed: 0,A,B,C
0,1,10,rojo
1,2,20,azul
2,3,30,verde
3,4,40,amarillo


In [229]:
df['C'].str.split('o').str[0]

0          r
1       azul
2      verde
3    amarill
Name: C, dtype: object

In [230]:
df

Unnamed: 0,A,B,C
0,1,10,rojo
1,2,20,azul
2,3,30,verde
3,4,40,amarillo


In [231]:
df[(df['C'].str.contains('roj'))&(df['B'] == 10)]

Unnamed: 0,A,B,C
0,1,10,rojo


In [248]:
df[(df['C'].str.contains('ama'))]

df['C'].str.split('o').str[0]

df['D']=[i.split('o')[0] for i in df['C']]

In [252]:
df['C'][0]

'rojo'

In [None]:
df['C'].str.split('o').str

'r'

In [249]:
df

Unnamed: 0,A,B,C,D
0,1,10,rojo,r
1,2,20,azul,azul
2,3,30,verde,verde
3,4,40,amarillo,amarill


In [None]:
df[(df['C'].str.contains('ama'))|((df['B'] == 10)&(df['A']==1))]

Unnamed: 0,A,B,C
0,1,10,rojo
3,4,40,amarillo


In [None]:


df[df['C'].isin(['amarillo','verde'])]

In [None]:
df[(df['C'].isin(['amarillo','verde']))|((df['B'] == 10)&(df['A']==1))]

Unnamed: 0,A,B,C
0,1,10,rojo
2,3,30,verde
3,4,40,amarillo


In [None]:
df = pd.read_csv('supermarket_sales - Sheet1.csv')
df['Unit price']

0      74.69
1      15.28
2      46.33
3      58.22
4      86.31
       ...  
995    40.35
996    97.38
997    31.84
998    65.82
999    88.34
Name: Unit price, Length: 1000, dtype: float64

In [None]:
df['Precio_total']=df['Quantity']*df['Unit price']

0      522.83
1       76.40
2      324.31
3      465.76
4      604.17
        ...  
995     40.35
996    973.80
997     31.84
998     65.82
999    618.38
Length: 1000, dtype: float64

In [1]:
df

NameError: name 'df' is not defined

### 4.2 Selección con `.loc[]` y `.iloc[]`

- `df.loc[fila, columna]`: selección basada en **etiquetas** (nombres de índice y columnas).
- `df.iloc[fila, columna]`: selección basada en **posiciones** (índices enteros).

**Nota**: el primer parámetro selecciona las filas y el segundo las columnas. Puedes usar rebanadas (slices) y listas/arrays para seleccionar múltiples filas o columnas.


In [153]:
import datetime

df.to_csv(f'misegundocsv_{datetime.datetime.now().strftime('%d_%m_%Y')}.csv', index=False)

In [None]:
# 4.2 - Ejemplos con .loc[] e .iloc[]

df2 = pd.DataFrame(
    data=np.arange(1, 17).reshape((4, 4)),
    index=["fila1", "fila2", "fila3", "fila4"],
    columns=["col1", "col2", "col3", "col4"]
)
df2

# loc usa las ETIQUETAS de filas y columnas

df2.loc[['fila4','fila1','fila1'],['col2','col3','col2']]

np.array([1,2,3,4,5])[::2]

df2.loc['fila2':'fila4','col1':'col3']

Unnamed: 0,col1,col2,col3
fila2,5,6,7
fila3,9,10,11
fila4,13,14,15


In [169]:
df2['col1+col2'] = df2['col1']+df2['col2']

In [172]:
df2

Unnamed: 0,col1,col2,col3,col4,col1+col2
fila1,1,2,3,4,3
fila2,5,6,7,8,11
fila3,9,10,11,12,19
fila4,13,14,15,16,27


In [173]:

df2.iloc[1:3,1:3]

Unnamed: 0,col2,col3
fila2,6,7
fila3,10,11


In [177]:
df2 = pd.DataFrame(
    data=np.arange(1, 17).reshape((4, 4)),
    columns=["col1", "col2", "col3", "col4"]
)
df2

Unnamed: 0,col1,col2,col3,col4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [179]:
df2.loc[0:2,['col1','col4']]

Unnamed: 0,col1,col4
0,1,4
1,5,8
2,9,12


### 4.3 Filtrado de datos

Cuando combinamos lo aprendido, podemos realizar filtrados condicionales más complejos:
- Combinación de condiciones con `&` (AND) y `|` (OR).
- Uso de paréntesis para agrupar expresiones.


In [184]:
# 4.3 - Ejemplo de filtrado de datos con múltiples condiciones
df_filtrado = pd.DataFrame({
    "Producto": ["Manzana", "Naranja", "Pera", "Manzana", "Naranja"],
    "Precio": [3, 2, 4, 5, 1],
    "Cantidad": [10, 12, 7, 5, 20]
})
df_filtrado

Unnamed: 0,Producto,Precio,Cantidad
0,Manzana,3,10
1,Naranja,2,12
2,Pera,4,7
3,Manzana,5,5
4,Naranja,1,20


In [185]:
# Filtrar filas donde el producto sea "Manzana" y el precio sea mayor que 4

df_filtrado[(df_filtrado["Producto"] == "Manzana") & (df_filtrado["Precio"] >4)]

df_filtrado[(df_filtrado["Producto"] == "Manzana") | (df_filtrado["Precio"] >4)]

Unnamed: 0,Producto,Precio,Cantidad
0,Manzana,3,10
3,Manzana,5,5


In [None]:


print("DataFrame (df_filtrado):")
print(df_filtrado)

# Filtrar filas donde el producto sea "Manzana" y el precio sea mayor que 4
condicion = (df_filtrado["Producto"] == "Manzana") & (df_filtrado["Precio"] > 4)
print("\nFilas con Manzana y precio > 4:")
print(df_filtrado[condicion])

# Filtrar filas donde la cantidad sea > 10 o el precio sea <= 2
condicion_or = (df_filtrado["Cantidad"] > 10) | (df_filtrado["Precio"] <= 2)
print("\nFilas con cantidad > 10 o precio <= 2:")
print(df_filtrado[condicion_or])


DataFrame (df_filtrado):
  Producto  Precio  Cantidad
0  Manzana       3        10
1  Naranja       2        12
2     Pera       4         7
3  Manzana       5         5
4  Naranja       1        20

Filas con Manzana y precio > 4:
  Producto  Precio  Cantidad
3  Manzana       5         5

Filas con cantidad > 10 o precio <= 2:
  Producto  Precio  Cantidad
1  Naranja       2        12
4  Naranja       1        20


---

## 5. Conclusión <a name="conclusion"></a>

En esta clase aprendiste:
- A crear y manipular `Series` y `DataFrames`.
- A indexar y seleccionar datos de diferentes maneras.
- A realizar filtros condicionales sobre los datos.
