# Pandas I

Libreria de Python para análisis y manipulacion de datosm construidas sobre NumPy
Maneja dos estructuras principales:
- Series: Vector unidimensional
- Dataframe: Tabla bidimensional

Permite:
- Leer datos (CSV, Excel, SQL, JSON)
- Manipular, filtrar y transformar
- Resumir y analizar (estadisicas y agrupaciones)
- Limpiar datos con valores faltantes (NaN)

Inslatacion: Pip install pandas


## Estructuras Principales:

In [7]:
import pandas as pd

# Serie (columna)
s = pd.Series([10, 20, 30, 40], index=["a", "b","c","d"])
print('Serie en columna:\n',s)

# DataFrame (tabla)
data = {
    "Nombre": ["David", "Ana", "Luis"],
    "Edad": [24,22,30],
    "Ciudad": ["Iquitos", "Lima", "Huancayo"]
}
df = pd.DataFrame(data)
print('\nDataFrame\n',df)

Serie en columna:
 a    10
b    20
c    30
d    40
dtype: int64

DataFrame
   Nombre  Edad    Ciudad
0  David    24   Iquitos
1    Ana    22      Lima
2   Luis    30  Huancayo


## Cargar Datos

```python
df = pd.read_csv("archivo.csv") #CSV
df = pd.read_excel("archivo.csv") # Excel
df = pd.read_json("archivo.json") # JSON
```
Tambien se puede guardar:
```python
df.to_csv("nuevo.csv", index=False)

## Inspección rápida

In [20]:
print(df.head())        # primeras 5 filas
print('==========================')
print(df.tail(3))       # ultimas 3 filas
print('==========================')
print(df.info())        # info general (tiposm nulos)
print('==========================')
print(df.describe())    # estadisticas básicas

  Nombre  Edad    Ciudad
0  David    24   Iquitos
1    Ana    22      Lima
2   Luis    30  Huancayo
  Nombre  Edad    Ciudad
0  David    24   Iquitos
1    Ana    22      Lima
2   Luis    30  Huancayo
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None
            Edad
count   3.000000
mean   25.333333
std     4.163332
min    22.000000
25%    23.000000
50%    24.000000
75%    27.000000
max    30.000000


## Seleccionar datos

In [21]:
print(df["Nombre"]) # una columna
print('==========================')
print(df[["Nombre", "Edad"]]) # varias columnas
print('==========================')
print(df.iloc[0])  # primera fila (por indice numerico)
print('==========================')
print(df.loc[0])   # primera fila (por etiqueta)
print('==========================')
print(df.loc[0, "Nombre"])  # Valor especifico

0    David
1      Ana
2     Luis
Name: Nombre, dtype: object
  Nombre  Edad
0  David    24
1    Ana    22
2   Luis    30
Nombre      David
Edad           24
Ciudad    Iquitos
Name: 0, dtype: object
Nombre      David
Edad           24
Ciudad    Iquitos
Name: 0, dtype: object
David


## Filtrado

In [23]:
print(df[df["Edad"]> 23])   # filas con Edad > 23
print('==========================')
print(df[df["Ciudad"] == "Lima"])

  Nombre  Edad    Ciudad
0  David    24   Iquitos
2   Luis    30  Huancayo
  Nombre  Edad Ciudad
1    Ana    22   Lima


## Operaciones comunes

In [24]:
df["Nueva"] = df["Edad"] * 2        # nueva columna
df = df.drop("Ciudad", axis=1)      # elimina columna
df = df.drop(0,axis=0)              # elimina fila
print(df.sort_values("Edad"))       # ordenar por edad
print(df["Edad"].mean())            # promedio de edad

  Nombre  Edad  Nueva
1    Ana    22     44
2   Luis    30     60
26.0


## Valores faltantes

In [25]:
df = pd.DataFrame({"A": [1,2,None], "B":[4,None,6]})
print(df.isnull())      # detecta NaN
print(df.dropna())      # elimina filas con NaN
print(df.fillna(0))     # reemplaza NaN con 0

       A      B
0  False  False
1  False   True
2   True  False
     A    B
0  1.0  4.0
     A    B
0  1.0  4.0
1  2.0  0.0
2  0.0  6.0


## Agrupación y estadísticas

In [27]:
df = pd.DataFrame({
    "Ciudad":["Lima", "lima", "Cusco"],
    "Ventas":[100,200,300],
    "Mes":["Ene","Feb","Ene"]
})
print(df.groupby("Ciudad")["Ventas"].mean())        # Promedio por ciudad
print(df.groupby("Mes").sum())                      # Suma por mes

Ciudad
Cusco    300.0
Lima     100.0
lima     200.0
Name: Ventas, dtype: float64
        Ciudad  Ventas
Mes                   
Ene  LimaCusco     400
Feb       lima     200


## Mini proyecto

Análisis de notas de alumnos

In [31]:
data = {
    "Alumno": ["David", "Ana","Luis","Carla","Juan"],
    "Curso":  ["Matematicas","Matematicas", "Historia","Historia","Matematicas"],
    "Nota":   [18,15,12,14,18]
}

df = pd.DataFrame(data)

print("Promedio general: ", df["Nota"].mean())
print("Promedio por curso")
print(df.groupby("Curso")["Nota"].mean())
print("Alumnos aprobados: ")
print(df[df["Nota"]>= 11])

Promedio general:  15.4
Promedio por curso
Curso
Historia       13.0
Matematicas    17.0
Name: Nota, dtype: float64
Alumnos aprobados: 
  Alumno        Curso  Nota
0  David  Matematicas    18
1    Ana  Matematicas    15
2   Luis     Historia    12
3  Carla     Historia    14
4   Juan  Matematicas    18


## Tarea

1. Crea un Dataframe con columnas: Producto, Precio, Cantidad.
- Calcula el total del producto (Precio * Cantidad)

In [48]:
# 1. 

import pandas as pd

df = pd.DataFrame({
    "Producto": ["Arroz", "Azucar", "Papa"],
    "Precio": [10., 20., 30.],
    "Cantidad": [4,14,16]
})

total = df["Precio"] * df["Cantidad"]
print('El total del producto es:')
print(total)


El total del producto es:
0     40.0
1    280.0
2    480.0
dtype: float64


2. Agrega una nueva fila con un producto extra

In [49]:
# 2.
new = pd.DataFrame([{
    "Producto": "Cebolla",
    "Precio": 15,
    "Cantidad": 10 
}])
df = pd.concat([df, new], ignore_index=True)
print(df)

  Producto  Precio  Cantidad
0    Arroz    10.0         4
1   Azucar    20.0        14
2     Papa    30.0        16
3  Cebolla    15.0        10


3. Ordena el DataFrame por Precio de mayor a menor.

In [54]:
# 3. 
print(df.sort_values(by="Precio", ascending=False))

  Producto  Precio  Cantidad
2     Papa    30.0        16
1   Azucar    20.0        14
3  Cebolla    15.0        10
0    Arroz    10.0         4


4. Calcula el promedio de los precios

In [55]:
# 4. 
print('Promedio de los precios: ', df["Precio"].mean())

Promedio de los precios:  18.75


5. Filtra los productos con Cantidad > 10

In [None]:
# 5.
print(df)

print('Productos con mas de 10:')
print(df[df["Cantidad"]>10])

  Producto  Precio  Cantidad
0    Arroz    10.0         4
1   Azucar    20.0        14
2     Papa    30.0        16
3  Cebolla    15.0        10
Productos con mas de 10:
  Producto  Precio  Cantidad
1   Azucar    20.0        14
2     Papa    30.0        16
