<a href="https://colab.research.google.com/github/naomiiwasa/tripleten/blob/main/S3_W1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importar la librería
import pandas as pd
import numpy as np

# 📚 ¿Qué es pandas?
Pandas es una librería de Python diseñada específicamente para trabajar con datos de manera eficiente y sencilla. Su principal objetivo es proporcionar herramientas para:

- Organizar datos en estructuras como tablas, muy similares a las hojas de cálculo de Excel.
- Manipular y analizar datos de forma flexible.
- Cargar y guardar datos desde archivos como CSV, Excel, bases de datos, entre otros.

# 🌟 Características clave de pandas:
Estructuras principales:
- Series: Una columna de datos (como una lista con etiquetas).
- DataFrame: Una tabla de datos con filas y columnas (similar a una hoja de cálculo).
- Fácil manejo de datos faltantes.
- Potentes herramientas para filtrar, agrupar y transformar datos.
- Compatibilidad con otras librerías de Python para ciencia de datos, como NumPy y Matplotlib.

# 🧠 ¿Por qué es importante?

Pandas es fundamental para cualquier análisis de datos porque te permite transformar datos desordenados en información clara y procesable, sin necesidad de conocimientos avanzados en programación.

In [None]:
# Crear un DataFrame simple (una tabla)
data = {
    "Nombre": ["Ana", "Luis", "Carlos"],
    "Edad": [23, 30, 25],
    "Ciudad": ["Lima", "Bogotá", "México"],
    "Ciudad": ["Lima", "Bogotá", "México"]
}

df_1 = pd.DataFrame(data)

# Mostrar la tabla
df_1

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Lima
1,Luis,30,Bogotá
2,Carlos,25,México


-----------------------------------------------------

# 📚 ¿Qué es un DataFrame?
Un DataFrame es la estructura principal de datos que ofrece la librería pandas. Es como una tabla de datos, similar a las hojas de cálculo de Excel o tablas en bases de datos.

🧠 Características clave:
- Forma tabular: Los datos están organizados en filas y columnas.
- Etiquetas:
  - Filas: Cada fila tiene un índice (por defecto, un número entero).
  - Columnas: Cada columna tiene un nombre o etiqueta.
- Versatilidad: Puede contener diferentes tipos de datos en columnas (números, texto, fechas, etc.).
- Operaciones avanzadas: Puedes filtrar, agregar, transformar, y analizar datos de forma rápida y eficiente.


🛠️ ¿De dónde vienen los datos en un DataFrame?
Un DataFrame se puede crear a partir de:
- Diccionarios.
- Listas de listas.
- Archivos (CSV, Excel, JSON).
- Bases de datos.

In [None]:
# Crear un diccionario con los datos
data = {
    'columna_int': [1, 2, 3, 4, 5],
    'columna_float': [1.1, 2.2, 3.3,np.nan, 5.5],
    'columna_str': ['a', 'b', 'c', 'd', 'e'],
    'columna_bool': [True, False, True, False, True],
    'columna_datetime': pd.date_range('2023-01-01', periods=5)
}

# Crear el DataFrame
df_2 = pd.DataFrame(data)
df_2

Unnamed: 0,columna_int,columna_float,columna_str,columna_bool,columna_datetime
0,1,1.1,a,True,2023-01-01
1,2,2.2,b,False,2023-01-02
2,3,3.3,c,True,2023-01-03
3,4,,d,False,2023-01-04
4,5,5.5,e,True,2023-01-05


In [None]:
type(df_2['columna_datetime'])

![Pandas dataframe](https://media.geeksforgeeks.org/wp-content/uploads/finallpandas.png)


https://www.geeksforgeeks.org/python-pandas-dataframe/


Unnamed: 0,columna_int,columna_float,columna_str,columna_bool,columna_datetime
0,1,1.1,a,True,2023-01-01
1,2,2.2,b,False,2023-01-02
2,3,3.3,c,True,2023-01-03
3,4,4.4,d,False,2023-01-04
4,5,5.5,e,True,2023-01-05


In [None]:
print("\nColumnas del DataFrame:")
display(df_2.index)
print("---------------------")



Columnas del DataFrame:


RangeIndex(start=0, stop=5, step=1)

---------------------


In [None]:
print("\nColumnas del DataFrame:")
display(df_2.columns)
print("---------------------")



Columnas del DataFrame:


Index(['columna_int', 'columna_float', 'columna_str', 'columna_bool',
       'columna_datetime'],
      dtype='object')

---------------------


In [None]:
# Acceder a una columna específica
print("\nColumna 'columna_str':")
type(df_2["columna_str"])
# print("---------------------")


Columna 'columna_str':


In [None]:
# Mostrar las primeras filas del DataFrame
print("\nPrimeras 2 filas del DataFrame:")
display(df_2.head(2))
print("---------------------")



Primeras 2 filas del DataFrame:


Unnamed: 0,columna_int,columna_float,columna_str,columna_bool,columna_datetime
0,1,1.1,a,True,2023-01-01
1,2,2.2,b,False,2023-01-02


---------------------


In [None]:
# Mostrar las primeras filas del DataFrame
print("\nPrimeras 2 filas del DataFrame:")
display(df_2.tail(2))
print("---------------------")



Primeras 2 filas del DataFrame:


Unnamed: 0,columna_int,columna_float,columna_str,columna_bool,columna_datetime
3,4,4.4,d,False,2023-01-04
4,5,5.5,e,True,2023-01-05


---------------------


In [None]:
# Mostrar la estructura del dataframe
print("\n\n2 filas aleatorias:")
display(df_2.sample(1))
print("---------------------")



2 filas aleatorias:


Unnamed: 0,columna_int,columna_float,columna_str,columna_bool,columna_datetime
2,3,3.3,c,True,2023-01-03


---------------------


In [None]:
# # Mostrar la estructura del dataframe
print("\nEl dataframe tiene x filas y y columnas:")
display(df_2.shape)
print("---------------------")


El dataframe tiene x filas y y columnas:


(5, 5)

---------------------


In [None]:
df_2.describe()


Unnamed: 0,columna_int,columna_float,columna_datetime
count,5.0,5.0,5
mean,3.0,3.3,2023-01-03 00:00:00
min,1.0,1.1,2023-01-01 00:00:00
25%,2.0,2.2,2023-01-02 00:00:00
50%,3.0,3.3,2023-01-03 00:00:00
75%,4.0,4.4,2023-01-04 00:00:00
max,5.0,5.5,2023-01-05 00:00:00
std,1.581139,1.739253,


--------------------------------------

# 📚 ¿Qué es una Serie?
Una Serie en pandas es una estructura de datos que se asemeja a una columna en una hoja de cálculo o en una tabla. Es un arreglo unidimensional que puede contener datos de cualquier tipo, como números, texto, fechas, entre otros.

🧠 Características clave:

- Unidimensional: Es como una lista o un array, pero con funcionalidades adicionales.
- Índice asociado: Cada elemento de la Serie tiene una etiqueta única (llamada índice) que permite identificar los valores de manera flexible.
Versatilidad: Soporta operaciones avanzadas como filtrado, agregación, y más.

🌟 Diferencia entre una Serie y un DataFrame:
- Una Serie es una sola columna.
- Un DataFrame es una tabla completa (varias columnas y filas).

![Series](https://www.tomasbeuzen.com/python-programming-for-data-science/_images/series.png)


https://www.tomasbeuzen.com/python-programming-for-data-science/chapters/chapter7-pandas.html


In [None]:
# Crear una Serie a partir de una lista
edades = pd.Series(
    [23, 30, 25],
    index=["Ana", "Luis", "Carlos"]
  )
edades

Unnamed: 0,0
Ana,23
Luis,30
Carlos,25


In [None]:
edades == 30

Unnamed: 0,0
Ana,False
Luis,True
Carlos,False


In [None]:
edades.columns

AttributeError: 'Series' object has no attribute 'columns'

In [None]:

# Mostrar la Serie
print("Serie creada:")
display(edades)
print("---------------------")

# Acceder a un elemento por su índice
print("\nEdad de Luis:")
display(edades["Luis"])
print("---------------------")

# Operaciones con Series
print("\nEdades mayores de 25:")
display(edades[edades > 25])
print("---------------------")

# Convertir una Serie en una lista
edades_lista = edades.tolist()
print("\nSerie convertida en lista:")
display(edades_lista)
print("---------------------")

# Convertir una Serie en un diccionario
edades_diccionario = edades.to_dict()
print("\nSerie convertida en diccionario:")
display(edades_diccionario)
print("---------------------")

# Mostrar los primeros registros
print("\nAcceder a los primeros 2 registros:")
display(edades.head(2))
print("---------------------")

# Mostrar los ultimos registros
print("\nAcceder a los ultimos 2 registros:")
display(edades.tail(2))
print("---------------------")

# Acceder al indice
print("\nMostrar los indices:")
display(edades.index)
print("---------------------")

# Acceder a los valores
print("\nMostrar los valores:")
display(edades.values)
print("---------------------")


Serie creada:


Unnamed: 0,0
Ana,23
Luis,30
Carlos,25


---------------------

Edad de Luis:


np.int64(30)

---------------------

Edades mayores de 25:


Unnamed: 0,0
Luis,30


---------------------

Serie convertida en lista:


[23, 30, 25]

---------------------

Serie convertida en diccionario:


{'Ana': 23, 'Luis': 30, 'Carlos': 25}

---------------------

Acceder a los primeros 2 registros:


Unnamed: 0,0
Ana,23
Luis,30


---------------------

Acceder a los ultimos 2 registros:


Unnamed: 0,0
Luis,30
Carlos,25


---------------------

Mostrar los indices:


Index(['Ana', 'Luis', 'Carlos'], dtype='object')

---------------------

Mostrar los valores:


array([23, 30, 25])

---------------------


----------------------------------------------------------

# 📚 Cargar archivos CSV y Excel con pandas
La librería pandas incluye funciones fáciles de usar para cargar datos desde archivos comunes como CSV y Excel directamente a un DataFrame.

## 🧠 Funciones principales:
- Cargar archivos CSV: Usamos pd.read_csv().
- Cargar archivos Excel: Usamos pd.read_excel().

  Ambas funciones transforman los datos del archivo en un DataFrame, que es la estructura principal de pandas para trabajar con datos tabulares.

🛠️ Cargar un archivo CSV
  Un archivo CSV (Comma-Separated Values) contiene datos separados por comas. Pandas puede leerlo fácilmente.

```python
import pandas as pd

# Cargar un archivo CSV
df_csv = pd.read_csv("ruta/del/archivo.csv")

# Mostrar las primeras filas del DataFrame
print("Primeras filas del archivo CSV:")
print(df_csv.head())
```

## 🔧 Opciones comunes para pd.read_csv():
- sep: Cambia el delimitador si no es una coma (e.g., sep=";" para archivos separados por punto y coma).
- header: Especifica qué fila es la cabecera (por defecto es la primera).
- encoding: Define la codificación del archivo (e.g., encoding="utf-8" o encoding="latin-1").
- usecols: Carga columnas específicas (e.g., usecols=["Columna1", "Columna2"]).

## 🛠️ Cargar un archivo Excel
Los archivos Excel pueden tener varias hojas. Pandas usa pd.read_excel() para cargar datos.

```python
Copiar código
# Cargar un archivo Excel
df_excel = pd.read_excel("ruta/del/archivo.xlsx")

# Mostrar las primeras filas del DataFrame
print("Primeras filas del archivo Excel:")
print(df_excel.head())
```

## 🔧 Opciones comunes para pd.read_excel():
- sheet_name: Selecciona la hoja específica (por defecto carga la primera).
Ejemplo: sheet_name="Hoja1", o usa sheet_name=None para cargar todas las hojas.
- usecols: Carga columnas específicas (como en pd.read_csv).
- header: Cambia la fila que será el encabezado.


In [None]:
ejemplo_1 = pd.read_csv('sample_data/california_housing_train.csv')

ejemplo_1.to_excel('sample_data/ejemplo_excel.xlsx')

ejemplo_1.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [None]:
ejemplo_3 = pd.read_excel('sample_data/ejemplo_excel.xlsx')
ejemplo_3

Unnamed: 0.1,Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,nueva_columna
0,0,-114.31,34.19,15,5612,1283,1015,472,1.4936,66900,python
1,1,-114.47,34.40,19,7650,1901,1129,463,1.8200,80100,python
2,2,-114.56,33.69,17,720,174,333,117,1.6509,85700,python
3,3,-114.57,33.64,14,1501,337,515,226,3.1917,73400,python
4,4,-114.57,33.57,20,1454,326,624,262,1.9250,65500,python
...,...,...,...,...,...,...,...,...,...,...,...
16995,16995,-124.26,40.58,52,2217,394,907,369,2.3571,111400,python
16996,16996,-124.27,40.69,36,2349,528,1194,465,2.5179,79000,python
16997,16997,-124.30,41.84,17,2677,531,1244,456,3.0313,103600,python
16998,16998,-124.30,41.80,19,2672,552,1298,478,1.9797,85800,python


In [None]:
california_housing = pd.read_csv('sample_data/california_housing_train.csv')
california_housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


## 📌 Eliminación de duplicados en Pandas con `drop_duplicates()`

Cuando trabajamos con datos en **Pandas**, a veces encontramos filas duplicadas que pueden afectar nuestros análisis. La función `drop_duplicates()` nos ayuda a eliminar esas filas repetidas de manera rápida y sencilla.

### 🧐 ¿Cuándo usar `drop_duplicates()`?
- Cuando tienes datos con filas repetidas y solo necesitas valores únicos.
- Para limpiar un DataFrame antes de un análisis o visualización.
- Para asegurarte de que no haya registros duplicados en bases de datos.

### 🔧 Parámetros principales:
- `subset`: Especifica las columnas en las que queremos buscar duplicados.
- `keep`: Controla qué duplicados se eliminan:
  - `"first"` (predeterminado): Mantiene la primera aparición y elimina las siguientes.
  - `"last"`: Mantiene la última aparición y elimina las anteriores.
  - `False`: Elimina todas las filas duplicadas.
- `inplace`: Si es `True`, modifica el DataFrame original en lugar de devolver uno nuevo.

### 🎯 Ejemplo de uso:
Imagina que tenemos una lista de clientes con registros duplicados y queremos limpiarla.


In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame inicial
df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Ana", "Carlos", "Luis", None,'Ana'],
    "Edad": [25, np.nan, 25, 40, np.nan, 30,25],
    "Ciudad": ["Bogotá", "Medellín", "Bogotá", None, "Medellín", "Cali","Bogotá"]
})

df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25.0,Bogotá
1,Luis,,Medellín
2,Ana,25.0,Bogotá
3,Carlos,40.0,
4,Luis,,Medellín
5,,30.0,Cali
6,Ana,25.0,Bogotá


In [None]:
df.duplicated(subset=['Ciudad','Nombre']).sum()

np.int64(3)

In [None]:
df.drop_duplicates()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25.0,Bogotá
1,Luis,,Medellín
3,Carlos,40.0,
5,,30.0,Cali


In [None]:
df.drop_duplicates().reset_index(drop=True)

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25.0,Bogotá
1,Luis,,Medellín
2,Carlos,40.0,
3,,30.0,Cali


In [None]:
df = df.drop_duplicates(['Nombre'])
# df.drop_duplicates(inplace=True)

In [None]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25.0,Bogotá
1,Luis,,Medellín
3,Carlos,40.0,
5,,30.0,Cali


In [None]:
df.drop_duplicates(subset = ['Nombre'], keep = 'last')

Unnamed: 0,Nombre,Edad,Ciudad
2,Ana,25,Medellin
3,Carlos,40,Cali
4,Luis,30,Medellín
5,Pedro,35,Cartagena
6,Ana,50,Cali


In [None]:
df = df.drop_duplicates()

df.drop_duplicates(inplace = True)


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Medellin
1,Luis,30,Medellín
3,Carlos,40,Cali
5,Pedro,35,Cartagena
6,Ana,50,Cali


In [None]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Medellin
1,Luis,30,Medellín
2,Ana,25,Medellin
3,Carlos,40,Cali
4,Luis,30,Medellín
5,Pedro,35,Cartagena
6,Ana,50,Cali


In [None]:


print("📌 DataFrame original:")
print(df)

# Eliminar duplicados basados en todas las columnas
df_sin_duplicados = df.drop_duplicates()

print("\n✅ DataFrame sin duplicados:")
print(df_sin_duplicados)

# Eliminar duplicados basados solo en la columna 'Nombre'
df_sin_duplicados_nombre = df.drop_duplicates(subset=['Nombre'])

print("\n🎯 DataFrame sin duplicados en 'Nombre':")
print(df_sin_duplicados_nombre)


📌 DataFrame original:
   Nombre  Edad     Ciudad
0     Ana    25     Bogotá
1    Luis    30   Medellín
2     Ana    25     Bogotá
3  Carlos    40       Cali
4    Luis    30   Medellín
5   Pedro    35  Cartagena

✅ DataFrame sin duplicados:
   Nombre  Edad     Ciudad
0     Ana    25     Bogotá
1    Luis    30   Medellín
3  Carlos    40       Cali
5   Pedro    35  Cartagena

🎯 DataFrame sin duplicados en 'Nombre':
   Nombre  Edad     Ciudad
0     Ana    25     Bogotá
1    Luis    30   Medellín
3  Carlos    40       Cali
5   Pedro    35  Cartagena


# 📚 ¿Qué es .loc en pandas?
.loc es un método en pandas que se utiliza para acceder, seleccionar y modificar datos en un DataFrame o Serie basado en etiquetas (índices) y nombres de columnas.

🧠 Características clave de .loc:
Selección basada en etiquetas:
- Permite acceder a filas y columnas utilizando sus nombres o índices etiquetados.
- Soporta múltiples formas de acceso:
- Seleccionar una fila o columna específica.
- Filtrar filas con condiciones.
- Seleccionar un rango de filas y columnas.
- Permite modificar datos directamente.

![TExplicacion de loc](https://www.sharpsightlabs.com/wp-content/uploads/2019/02/pandas-loc-syntax-explanation.png)


https://www.google.com/imgres?q=LOC%20PANDAS&imgurl=https%3A%2F%2Fwww.sharpsightlabs.com%2Fwp-content%2Fuploads%2F2019%2F02%2Fpandas-loc-syntax-explanation.png&imgrefurl=https%3A%2F%2Fwww.sharpsightlabs.com%2Fblog%2Fpandas-loc%2F&docid=VYNW7zUizlH5HM&tbnid=rKkIoE0CbEyERM&vet=12ahUKEwiu4MHeoeeJAxUSr4QIHTzGM_EQM3oECGsQAA..i&w=1338&h=670&hcb=2&ved=2ahUKEwiu4MHeoeeJAxUSr4QIHTzGM_EQM3oECGsQAA



In [None]:
# Crear un DataFrame con información de estudiantes
data = {
    "Estudiante": ["Ana", "Luis", "Carlos", "Marta", "Sofía"],
    "Edad": [22, 23, 21, 24, 22],
    "Promedio": [4.5, 3.8, 4.0, 4.7, 3.9],
    "Ciudad": ["Lima", "Bogotá", "México", "Santiago", "Quito"]
}

df_3 = pd.DataFrame(data, index=["a", "b", "c", "d", "e"])

print("DataFrame inicial:")
df_3

DataFrame inicial:


Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago
e,Sofía,22,3.9,Quito


In [None]:
df_3.loc[ 'b' , 'Promedio']

np.float64(3.8)

Indexacion logica.

```
df [ df['columna'] == 'valor'  ]

df [ (df['columna'] == 'valor')  &  (df['columna2'] == 'valor')]

and -> &
or -> |
```

.Query

In [None]:
df_3[ df_3['Ciudad'] == 'Quito' ]

df_3[ (df_3['Edad'] <= 22) & (df_3['Promedio'] >= 4) ]

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
c,Carlos,21,4.0,México


In [None]:
# df_3.query('Ciudad == "Quito"')

edad = 22
df_3.query(f"Edad <= {edad} and Promedio >= 4")

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
c,Carlos,21,4.0,México


In [None]:
df_3.loc[ 'c' , 'Ciudad' ] = 'Medellin'
df_3

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,Medellin
d,Marta,24,4.7,Santiago
e,Sofía,22,3.9,Quito


## Obtener datos subconjuntos del dataframe

In [None]:
# Seleccionar la fila con índice 'c'
print("\nFila con índice 'c':")
df_3.loc["c",:]


Fila con índice 'c':


Unnamed: 0,c
Estudiante,Carlos
Edad,21
Promedio,4.0
Ciudad,México


In [None]:
# df_3.loc[ : , 'Ciudad']

df_3['Ciudad']

Unnamed: 0,Ciudad
a,Lima
b,Bogotá
c,México
d,Santiago
e,Quito


In [None]:
# Seleccionar el promedio de Luis (fila 'b' y columna 'Promedio')
print("\nPromedio de Luis:")
print(df_3.loc["b", "Promedio"])


Promedio de Luis:
3.8


In [None]:
# Seleccionar las filas 'a' y 'd', y las columnas 'Estudiante' y 'Promedio'
print("\nSubconjunto de filas y columnas:")
df_3.loc[ ["a", "d"] , ["Estudiante", "Promedio"]]


Subconjunto de filas y columnas:


Unnamed: 0,Estudiante,Promedio
a,Ana,4.5
d,Marta,4.7


In [None]:
df_3

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago
e,Sofía,22,3.9,Quito


In [None]:
# Seleccionar desde la fila con índice 'b' hasta 'd' (incluidos)
print("\nRango de filas desde 'b' hasta 'd':")
df_3.loc["b":"d" , :]
df_3.loc[["b","c","d"] , :]


Rango de filas desde 'b' hasta 'd':


Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago


## Filtrar elementos

In [None]:
df.loc[ df ['nombre_columna'] condicion logica] # Indexacion logica

In [None]:
df_3 [  (df_3["Promedio"] >= 4) & (df_3["Edad"] <= 22) & (df_3["Ciudad"] == 'Lima') ] # indexacion logica

df_3.query('Promedio >= 4 and Edad <=22 and Ciudad == "Lima" ')

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima


In [None]:
df_3.query('Promedio >=4 and Edad <=22')

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
c,Carlos,21,4.0,México


In [None]:
df_3

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago
e,Sofía,22,3.9,Quito


In [None]:
# df_3.query("Promedio >= 4 and Edad <=22 and Ciudad == 'Lima'")


df_3.query('Promedio >= 4 and Edad <=22 and Ciudad == "Lima" ')

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima


In [None]:
df_3 [  df_3["Promedio"] >= 4 ] # indexacion logica

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago


In [None]:
df_3.query('Promedio >= 4')

Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago


In [None]:
df_3.loc[df_3["Promedio"] >= 4 , ['Ciudad','Edad']]

Unnamed: 0,Ciudad,Edad
a,Lima,22
c,México,21
d,Santiago,24


In [None]:
# Seleccionar estudiantes con promedio mayor o igual a 4.0
print("\nEstudiantes con promedio mayor o igual a 4.0:")
df_3.loc[ df_3["Estudiante"] == 'Marta',:]
# df_3.loc[ (df_3["Promedio"] >= 4.0) & (df_3["Edad"] <= 22) ,:]

# [] -> Extraer información -> [0], ['llave'],['columna'] | definir listas
# () -> Funciones, metodos | agrupar operaciones - > (2*5) + (6*8) | definir tuplas
# {} -> diccionarios | sets | formatear un string


Estudiantes con promedio mayor o igual a 4.0:


Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
d,Marta,24,4.7,Santiago


## Modificar valores existentes

In [None]:
# Cambiar la ciudad de Sofía a "Guayaquil"
df_3.loc["e", "Ciudad"] = "Guayaquil"
print("\nDataFrame después de modificaciones:")
df_3


DataFrame después de modificaciones:


Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,3.8,Bogotá
c,Carlos,21,4.0,México
d,Marta,24,4.7,Santiago
e,Sofía,22,3.9,Guayaquil


In [None]:
# Incrementar en 0.2 el promedio de todos los estudiantes mayores de 22 años
df_3.loc[df_3["Edad"] > 22, "Promedio"] = 0.2

print("\nDataFrame después de modificaciones:")
df_3


DataFrame después de modificaciones:


Unnamed: 0,Estudiante,Edad,Promedio,Ciudad
a,Ana,22,4.5,Lima
b,Luis,23,0.2,Bogotá
c,Carlos,21,4.0,Medellin
d,Marta,24,0.2,Santiago
e,Sofía,22,3.9,Quito


# 📚 ¿Qué es groupby?
groupby se utiliza para:

- Agrupar datos según los valores de una o más columnas.
- Aplicar funciones de agregación a los grupos (como sum, mean, count, etc.).

## 🧠 Proceso de groupby:
1. Dividir los datos en grupos según los valores de una o más columnas.
2. Aplicar una operación (como sumar o promediar) a cada grupo.
3. Combinar los resultados en un nuevo DataFrame o Serie.

In [None]:
import pandas as pd

# Crear un DataFrame con datos de ventas
data = {
    "Vendedor": ["Ana", "Luis", "Ana", "Carlos", "Luis", "Carlos", "Ana"],
    "Producto": ["A", "B", "A", "C", "B", "C", "C"],
    "Ventas": [100, 200, 150, 300, 250, 400, 120]
}

df = pd.DataFrame(data)

print("DataFrame inicial:")
df

DataFrame inicial:


Unnamed: 0,Vendedor,Producto,Ventas
0,Ana,A,100
1,Luis,B,200
2,Ana,A,150
3,Carlos,C,300
4,Luis,B,250
5,Carlos,C,400
6,Ana,C,120


In [None]:
df.groupby('Producto')['Ventas'].mean().reset_index()
df.groupby(['Producto','Vendedor'], as_index = False)['Ventas'].count()

Unnamed: 0,Producto,Vendedor,Ventas
0,A,Ana,2
1,B,Luis,2
2,C,Ana,1
3,C,Carlos,2


## 🛠️ Usos comunes de groupby
1. Suma de ventas por vendedor

In [None]:
# Agrupar por "Vendedor" y sumar las ventas
# ventas_por_vendedor = df.groupby(["Vendedor",'Producto'], as_index = False)["Ventas"].mean()

ventas_por_vendedor = df.groupby(["Vendedor",'Producto'])["Ventas"].mean().reset_index()

print("\nVentas totales por vendedor:")
ventas_por_vendedor


Ventas totales por vendedor:


Unnamed: 0,Vendedor,Producto,Ventas
0,Ana,A,125.0
1,Ana,C,120.0
2,Carlos,C,350.0
3,Luis,B,225.0


In [None]:
# Agrupar por "Vendedor" y sumar las ventas
ventas_por_vendedor = df.groupby(["Vendedor",'Producto'])["Ventas"].sum()

print("\nVentas totales por vendedor:")
ventas_por_vendedor


Ventas totales por vendedor:


Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Vendedor,Producto,Unnamed: 2_level_1
Ana,A,250
Ana,C,120
Carlos,C,700
Luis,B,450
