<a href="https://colab.research.google.com/github/sebachoparra/Resumen-semana-1-4/blob/main/DaraFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Notebook para aprender sobre DataFrames en Google Colab
## 1. Introducción a DataFrames en Python

### **Pandas** es una biblioteca esencial para el manejo y análisis de datos en Python. Su estructura principal es el `DataFrame`, una tabla bidimensional con etiquetas en las filas y columnas.

## 2. Creación de DataFrames

## **Desde un diccionario:**


In [1]:
import pandas as pd

datos = {
    "Nombre": ["Ana", "Luis", "Carlos"],
    "Edad": [23, 25, 22],
    "Ciudad": ["Bogotá", "Medellín", "Cali"]
}

## Crear un DataFrame desde un diccionario

In [16]:
df2 = pd.DataFrame([
    ["Ana", 23, "Bogotá"],
    ["Luis", 25, "Medellín"],
    ["Carlos", 22, "Cali"]
], columns=["Nombre", "Edad", "Ciudad"])
print(df2)

   Nombre  Edad    Ciudad
0     Ana    23    Bogotá
1    Luis    25  Medellín
2  Carlos    22      Cali


## 3. Operaciones Básicas con DataFrames

## **Acceder a columnas:**

In [4]:
print(df2["Nombre"])

0       Ana
1      Luis
2    Carlos
Name: Nombre, dtype: object


# **Acceder a filas (loc e iloc):**
#
## - `loc[]` permite acceder a las filas usando etiquetas o nombres de índice.
## - `iloc[]` permite acceder a las filas usando la posición numérica (índices enteros).

## **Ejemplo:**

In [9]:
print(df2.loc[1])  # Acceder a la fila con etiqueta 1 (nombre del índice)
print(df2.iloc[1])  # Acceder a la segunda fila (posición 1 en la numeración interna de Pandas)

Nombre        Luis
Edad            25
Ciudad    Medellín
Name: 1, dtype: object
Nombre        Luis
Edad            25
Ciudad    Medellín
Name: 1, dtype: object


## **Diferencias clave:**
## - `loc[]` funciona con etiquetas, por lo que si el índice no es numérico (por ejemplo, nombres en lugar de números), se debe acceder con el nombre del índice.
## - `iloc[]` siempre usa números enteros, sin importar el nombre del índice.
## - `df.loc[1]` puede devolver error si el índice no es numérico y no existe una etiqueta `1`.

## Cambiando el índice a la columna "Nombre"

In [10]:
df2.set_index("Nombre", inplace=True)
print(df2.loc["Ana"])  # Ahora se accede usando el nombre
print(df2.iloc[0])  # Sigue funcionando con posición numérica

Edad          23
Ciudad    Bogotá
Name: Ana, dtype: object
Edad          23
Ciudad    Bogotá
Name: Ana, dtype: object


In [11]:
print(df2)

        Edad    Ciudad
Nombre                
Ana       23    Bogotá
Luis      25  Medellín
Carlos    22      Cali


## 4. Filtrado de Datos y Modificación de DataFrames

## **Filtrar por condición:**

In [12]:
filtro = df2[df2["Edad"] > 23]
print(filtro)

        Edad    Ciudad
Nombre                
Luis      25  Medellín


 **Filtrar múltiples condiciones:**

In [13]:
filtro2 = df2[(df2["Edad"] > 22) & (df2["Ciudad"] == "Medellín")]
print(filtro2)

        Edad    Ciudad
Nombre                
Luis      25  Medellín


## **Agregar nuevas filas al DataFrame:**

In [None]:
nueva_fila = {"Nombre": "María", "Edad": 27, "Ciudad": "Cartagena"}
df2 = df2.append(nueva_fila, ignore_index=True)
print(df2)

## **Modificar valores de una fila específica:**

In [None]:
df2.loc[2, "Edad"] = 30  # Cambiar la edad de la persona en la fila con índice 2
print(df2)

## **Eliminar una fila:**

In [None]:
df = df.drop(index=1)  # Eliminar la fila con índice 1
print(df)

## **Eliminar una columna:**

In [None]:
df = df.drop(columns=["Ciudad"])  # Eliminar la columna "Ciudad"
print(df)

## 5. Agrupación y Agregación de Datos

## **Agrupar por columna y calcular estadísticas:**

In [14]:
df_grupo = df2.groupby("Ciudad")["Edad"].mean()
print(df_grupo)

Ciudad
Bogotá      23.0
Cali        22.0
Medellín    25.0
Name: Edad, dtype: float64


## 6. Combinar DataFrames

## **Concatenación:**

In [17]:
df_extra = pd.DataFrame({"Nombre": ["Paula"], "Edad": [24], "Ciudad": ["Cartagena"]})
df_concat = pd.concat([df2, df_extra], ignore_index=True)
print(df_concat)

   Nombre  Edad     Ciudad
0     Ana    23     Bogotá
1    Luis    25   Medellín
2  Carlos    22       Cali
3   Paula    24  Cartagena


**Unión por claves (merge):**

In [18]:
notas = pd.DataFrame({"Nombre": ["Ana", "Luis", "Carlos"], "Nota": [4.5, 4.0, 3.8]})
df_merged = df2.merge(notas, on="Nombre")
print(df_merged)

   Nombre  Edad    Ciudad  Nota
0     Ana    23    Bogotá   4.5
1    Luis    25  Medellín   4.0
2  Carlos    22      Cali   3.8


## 7. Funciones Aplicadas a DataFrames

# **Aplicar una función a una columna:**

In [20]:
def categorizar_edad(edad):
    return "Adulto" if edad >= 23 else "Joven"

df2["Categoría"] = df2["Edad"].apply(categorizar_edad)
print(df2)

   Nombre  Edad    Ciudad Categoría
0     Ana    23    Bogotá    Adulto
1    Luis    25  Medellín    Adulto
2  Carlos    22      Cali     Joven


## 8. Ejercicios Propuestos

# **Ejercicio 1:** Crear un DataFrame con 5 estudiantes, incluyendo nombre, edad, ciudad y nota final.

# **Ejercicio 2:** Filtrar los estudiantes con nota mayor a 4.0 y que tengan más de 20 años.

# **Ejercicio 3:** Agregar una columna que indique si el estudiante aprobó o no (nota ≥ 3.0).

# **Ejercicio 4:** Agrupar los datos por ciudad y calcular la edad promedio de los estudiantes de cada ciudad.

# **Ejercicio 5:** Crear dos DataFrames de estudiantes y unirlos usando `concat` y `merge`.
