# Pandas desde cero

Aprenderemos la teoría básica de Pandas, cómo crear y manipular Series y DataFrames, funciones útiles y técnicas de indexación y filtrado.

---

## 1. Introducción y Configuración

### 1.1 ¿Qué es Pandas?

Pandas es la librería de Python para el análisis y manipulación de datos.  
Ofrece estructuras de datos de alto rendimiento como **Series** (1D) y **DataFrame** (2D) con etiquetas en filas y columnas.

### 1.2 Instalación e Importación

```bash
pip install pandas


# 🧮 Diferencias entre NumPy y pandas

En el ecosistema de Python para ciencia de datos, **NumPy** y **pandas** son dos bibliotecas fundamentales. Aunque se complementan, tienen enfoques distintos:

---

## 🔢 NumPy: Computación Numérica

- **Estructura principal:** `ndarray` (matriz multidimensional).
- **Datos homogéneos:** Todos los elementos deben ser del mismo tipo (por ejemplo, todos `float64`).
- **Ideal para:** Álgebra lineal, estadísticas, simulaciones, procesamiento de imágenes y señales.
- **Ventaja clave:** Muy rápido y eficiente en memoria para cálculos numéricos masivos.

```python
import numpy as np

a = np.array([1, 2, 3, 4])
print(a.mean())  # Media de los elementos

# 📊 Introducción a pandas

**pandas** es una biblioteca de Python diseñada para facilitar el análisis y manipulación de datos estructurados. Es especialmente útil cuando trabajamos con datos tabulares, como hojas de cálculo, archivos CSV o bases de datos.

---

## 🧱 Estructuras principales

- **Series:** Una columna con etiquetas. Similar a un array de NumPy, pero con índice.
- **DataFrame:** Una tabla bidimensional con filas y columnas etiquetadas. Es la estructura más usada.

```python
import pandas as pd

# Crear una Series
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

# Crear un DataFrame
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 34, 45]
})


In [1]:
!pip install pandas



In [3]:
import pandas as pd


## 2. Teoría Básica de Series y DataFrames

### 2.1 Estructuras Principales

- **Series**: arreglo unidimensional con etiquetas (índice).  
- **DataFrame**: tabla bidimensional con filas y columnas etiquetadas.

### 2.2 Creación de Series y DataFrames


In [9]:
# Series a partir de lista y diccionario
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series({'x': 1, 'y': 2, 'z': 3})

# DataFrame a partir de diccionario de listas
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Eva'],
    'Edad': [23, 19, 31],
    'Puntaje': [88.5, 92.3, 79.4]
})

# DataFrame a partir de lista de diccionarios
data = [
    {'A': 1, 'B': 2, 'C':5},
    {'A': 3, 'B': 4}
]
df2 = pd.DataFrame(data)

In [7]:
print(s)
print(s2)
print(df)
print(df2)

a    10
b    20
c    30
dtype: int64
x    1
y    2
z    3
dtype: int64
  Nombre  Edad  Puntaje
0    Ana    23     88.5
1   Luis    19     92.3
2    Eva    31     79.4
   A  B    C
0  1  2  NaN
1  3  4  5.0


In [10]:
df.columns

Index(['Nombre', 'Edad', 'Puntaje'], dtype='object')

## 3. Atributos Clave de un DataFrame

| Atributo     | Descripción                                 |
|--------------|---------------------------------------------|
| `df.shape`   | Tupla (filas, columnas)                     |
| `df.size`    | Número total de elementos                   |
| `df.ndim`    | Número de dimensiones (siempre 2 para DF)   |
| `df.columns` | Etiquetas de columnas                       |
| `df.index`   | Etiquetas de filas                          |
| `df.dtypes`  | Tipo de dato de cada columna                |

```python

In [6]:
print(df.shape)
print(df.columns)
print(df.dtypes)


(3, 3)
Index(['Nombre', 'Edad', 'Puntaje'], dtype='object')
Nombre      object
Edad         int64
Puntaje    float64
dtype: object


## 4. Operaciones Básicas

- `df.head(n)`         : primeras *n* filas  
- `df.tail(n)`         : últimas *n* filas  
- `df.info()`          : resumen de índice, columnas y tipos  
- `df.describe()`      : estadísticas descriptivas de columnas numéricas  
- `df['col']` o `df.col`: acceso a columna  
- `df[['col1','col2']]`: acceso a múltiples columnas  
- `df['col'] = ...`    : crear o modificar columna  


In [12]:
# Mostrar las primeras 3 filas
print(df.head(3))

# Crear y acceder a una columna
print(df['Edad'])
df['Mayor'] = df['Edad'] >= 20
print(df.head(3))

  Nombre  Edad  Puntaje  Mayor
0    Ana    23     88.5   True
1   Luis    19     92.3   True
2    Eva    31     79.4   True
0    23
1    19
2    31
Name: Edad, dtype: int64
  Nombre  Edad  Puntaje  Mayor
0    Ana    23     88.5   True
1   Luis    19     92.3  False
2    Eva    31     79.4   True


## 5. Funciones Útiles

| Función                      | Descripción                                         |
|------------------------------|-----------------------------------------------------|
| `df.dropna()`                | Elimina filas con valores NA                        |
| `df.fillna(valor)`           | Rellena NA con un valor                             |
| `df.sort_values(by)`         | Ordena por una o más columnas                       |
| `df.groupby(col)`            | Agrupa por columna y permite agregaciones           |
| `df.merge(otro, on)`         | Combina dos DataFrames por columna clave            |
| `df.apply(func, axis)`       | Aplica función a filas (`axis=1`) o columnas (`axis=0`) |
| `pd.concat([df1, df2])`      | Concatena DataFrames                                |


In [None]:
# Ejemplo de groupby y agregación
df_group = df.groupby('Mayor')['Puntaje'].mean()
print(df_group)

# Merge de df y df2 por índice
df_merged = df.merge(df2, left_index=True, right_index=True, how='left')
print(df_merged)


## 6. Indexación y Filtrado

### 6.1 `.loc` por etiqueta
- Selección basada en etiquetas de filas y columnas.

In [17]:
# Asignamos un índice a df2 para el ejemplo
df2.index = ['a', 'b']
# Filas 'a' y 'b', columnas 'A' y 'B'
print(df2.loc[['a','b'], ['A','B']])

### [:,] : = todas


   A  B
a  1  2
b  3  4


### 6.2 `.iloc` por posición
- Selección basada en posiciones numéricas.

In [23]:
# Filas 0-1, columnas 0-1
print(df.iloc[0:2, 0:2])
df

  Nombre  Edad
0    Ana    23
1   Luis    34


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,34,Barcelona
2,Carlos,45,Sevilla
3,María,29,Bilbao


In [20]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df)

MessageError: Error: credential propagation was unsuccessful

### 6.3 Filtrado booleano
- Usar condiciones para filtrar filas.

In [21]:
# Filtrar mayores de 25 años
print(df[df['Edad'] > 25])

# Varias condiciones combinadas
print(df[(df['Edad'] > 20) & (df['Puntaje'] > 80)])


  Nombre  Edad  Puntaje  Mayor
2    Eva    31     79.4   True
  Nombre  Edad  Puntaje  Mayor
0    Ana    23     88.5   True


## Ejercicios


In [30]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 34, 45, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Bilbao']
}

df = pd.DataFrame(data)

print(df)

   Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    34  Barcelona
2  Carlos    45    Sevilla
3   María    29     Bilbao


- Selecciona solo las filas donde la edad sea mayor de 30.

- Extrae la segunda fila usando .iloc.

- Muestra solo las columnas "Nombre" y "Edad".

In [34]:
print(df[df['Edad'] > 30])

print(df.loc[1])

print(df.loc[:,['Nombre','Edad']])




   Nombre  Edad     Ciudad
1    Luis    34  Barcelona
2  Carlos    45    Sevilla
Nombre         Luis
Edad             34
Ciudad    Barcelona
Name: 1, dtype: object
   Nombre  Edad
0     Ana    23
1    Luis    34
2  Carlos    45
3   María    29


- Calcula la edad media.

- Muestra un resumen estadístico del DataFrame.

- Cuenta cuántas personas hay por ciudad.

In [47]:
import numpy as np


edad = df['Edad']
print(edad.mean())

print(df.describe())

print(df['Ciudad'].value_counts())

print(df.groupby('Ciudad')['Nombre'].count())



32.75
            Edad
count   4.000000
mean   32.750000
std     9.322911
min    23.000000
25%    27.500000
50%    31.500000
75%    36.750000
max    45.000000
Ciudad
Madrid       1
Barcelona    1
Sevilla      1
Bilbao       1
Name: count, dtype: int64
Ciudad
Barcelona    1
Bilbao       1
Madrid       1
Sevilla      1
Name: Nombre, dtype: int64


Usaremos el dataset de iris desde la biblioteca seaborn, que lo carga como DataFrame

- Muestra cuántas especies distintas hay.

- Calcula la media del largo del pétalo por especie.

- Guarda el DataFrame en un CSV con iris.to_csv('iris.csv', index=False)

In [60]:
import seaborn as sns

iris = sns.load_dataset('iris')
print(iris.head())
print(type(iris))

print(iris['species'].nunique())
print(iris['species'].unique())

longitud = iris['petal_length']
print(longitud.mean())

print(iris.groupby('species')['petal_length'].mean())

print(iris.iloc[:,:-1].std())




   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
<class 'pandas.core.frame.DataFrame'>
3
['setosa' 'versicolor' 'virginica']
3.7580000000000005
species
setosa        1.462
versicolor    4.260
virginica     5.552
Name: petal_length, dtype: float64
sepal_length    0.828066
sepal_width     0.435866
petal_length    1.765298
petal_width     0.762238
dtype: float64


In [62]:
iris.to_csv('iris.csv', index=False)


In [63]:
iris_desde_csv =pd.read_csv('iris.csv')

## Práctica

1. Crea un DataFrame con las ventas diarias (columna `Ventas`) de 7 días y calcula la suma, media, mínima y máxima.  
2. Añade una columna `Descuento` con valor 5% y calcula `Venta_Neta`.  
3. Carga un CSV de ejemplo con `pd.read_csv()`, muestra sus 5 primeros registros y tipos de datos.  
4. Agrupa un DataFrame de transacciones por `Cliente` y calcula el total de compra por cliente.


In [78]:
import pandas as pd
import numpy as np


ventas = pd.DataFrame({
    'Ventas': [30,50,20,30,100,120,80]
})

#print(ventas)

#print(ventas.describe())

#suma=ventas.sum()
#print(suma)

#ventas['Descuento']=0.05*ventas

#print(ventas)

days=np.arange(1,8)
#ventas= pd.DataFrame(np.random.randint(10,800,7),index=days)
#ventas.rename(columns={0: 'Ventas'})

np.random.seed(2)

fechas = pd.date_range(start='2025-9-16',periods=7, freq='D')
ventas = np.random.randint(10,800,7)
df_ventas=pd.DataFrame({'Ventas': ventas},index=fechas) #o days
print(df_ventas)

print("Media:", df_ventas['Ventas'].mean())
print("Minimo:", df_ventas['Ventas'].min())
print("Maximo:", df_ventas['Ventas'].max())
print("Suma:", df_ventas['Ventas'].sum())

            Ventas
2025-09-16     178
2025-09-17     537
2025-09-18     503
2025-09-19     594
2025-09-20     544
2025-09-21     309
2025-09-22     476
Media: 448.7142857142857
Minimo: 178
Maximo: 594
Suma: 3141


In [83]:
df_ventas['Descuento'] = df_ventas['Ventas'] * 0.05
df_ventas['Venta neta']=df_ventas['Ventas'] -df_ventas['Descuento']
df_ventas

url = "https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv"
df_csv = pd.read_csv(url)