# Clase M3 AE1-1 – Explorando matrices y operaciones básicas

## Contexto
El propósito de esta actividad es poner en práctica la creación y manipulación de matrices en NumPy, así como la aplicación de operaciones básicas y la comprensión del comportamiento de la indexación.

## Consigna
Crea una matriz 3x3 utilizando `np.array()` a partir de listas de listas. Luego, aplica operaciones matemáticas básicas (suma, resta y multiplicación por un escalar), y realiza una selección condicional de elementos mayores a 5. Finalmente, analiza si el resultado de una asignación es una copia o una referencia.

## Paso a paso

1. Importa la librería NumPy como `np`.
2. Crea una matriz A de 3x3 con números enteros del 1 al 9.
3. Realiza las siguientes operaciones:
   - Suma 10 a cada elemento de la matriz.
   - Multiplica la matriz por 2.
   - Extrae los elementos mayores a 5 utilizando selección condicional.
4. Asigna la matriz A a una nueva variable `B = A` y modifica un valor de B.  
   ¿Cambió también A?
5. Ahora usa `B = A.copy()` y repite la modificación.  
   ¿Qué ocurrió con A esta vez?


In [1]:
import numpy as np

# 1. Crear la matriz A de 3x3 con números del 1 al 9
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
print("Matriz original A:")
print(A)

# 2. Sumar 10 a cada elemento
A_sum10 = A + 10
print("\nA + 10:")
print(A_sum10)

# 3. Multiplicar la matriz por 2
A_mul2 = A * 2
print("\nA * 2:")
print(A_mul2)

# 4. Extraer elementos mayores a 5 usando selección condicional
mayores_5 = A[A > 5]
print("\nElementos de A mayores a 5:")
print(mayores_5)

# 5. Asignación por referencia
B = A
B[0, 0] = 100
print("\nA después de modificar B (asignación por referencia):")
print(A)

# Restaurar A para continuar con prueba por copia
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# 6. Asignación con copia
B = A.copy()
B[0, 0] = 999
print("\nA después de modificar B (con .copy()):")
print(A)
print("\nB modificado:")
print(B)


Matriz original A:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

A + 10:
[[11 12 13]
 [14 15 16]
 [17 18 19]]

A * 2:
[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]

Elementos de A mayores a 5:
[6 7 8 9]

A después de modificar B (asignación por referencia):
[[100   2   3]
 [  4   5   6]
 [  7   8   9]]

A después de modificar B (con .copy()):
[[1 2 3]
 [4 5 6]
 [7 8 9]]

B modificado:
[[999   2   3]
 [  4   5   6]
 [  7   8   9]]


# Clase M3 AE1-2 – Generación de datos y redimensionado

## Contexto
Esta actividad busca fortalecer el dominio sobre las funciones predefinidas de NumPy para crear arreglos, generar datos de prueba y reestructurar la forma de los mismos utilizando `reshape()`.

## Consigna
Utiliza funciones de NumPy como `np.arange()`, `np.linspace()` y `np.random.randint()` para generar distintos tipos de arreglos. Luego, redimensionalos con `reshape()` y aplica funciones matemáticas a los mismos.

## Paso a paso

1. Crea un arreglo `x` con `np.arange(1, 17)` y redimensionalo en una matriz de 4x4.
2. Genera un arreglo de 10 elementos equidistantes entre 0 y 100 usando `np.linspace()`.
3. Crea una matriz aleatoria de 3x3 con enteros entre 1 y 20 usando `np.random.randint()`.
4. Aplica `np.sqrt()` y `np.log()` sobre las matrices creadas (cuando sea posible).
5. Reflexiona: ¿Qué diferencias notas en la forma de aplicar funciones sobre arreglos enteros vs flotantes?


In [3]:
import numpy as np

# 1. Crear un arreglo del 1 al 16 y redimensionarlo en una matriz de 4x4
x = np.arange(1, 17)
matriz_4x4 = x.reshape(4, 4)
print("Matriz 4x4 generada con arange:")
print(matriz_4x4)

# 2. Generar un arreglo de 10 elementos equidistantes entre 0 y 100
lineal = np.linspace(0, 100, 10)
print("\nArreglo con 10 valores equidistantes entre 0 y 100:")
print(lineal)

# 3. Crear una matriz aleatoria 3x3 con enteros entre 1 y 20
aleatoria = np.random.randint(1, 21, size=(3, 3))
print("\nMatriz aleatoria 3x3 con enteros entre 1 y 20:")
print(aleatoria)

# 4. Aplicar funciones sqrt y log
print("\nRaíz cuadrada de la matriz aleatoria:")
print(np.sqrt(aleatoria))

print("\nLogaritmo natural de la matriz aleatoria:")
print(np.log(aleatoria))

# 5. Reflexión:
print("\nReflexión:")
print("Las funciones matemáticas como sqrt() y log() se aplican directamente sobre arreglos flotantes.")
print("Si los arreglos contienen enteros, NumPy los convierte a float automáticamente para estas operaciones.")


Matriz 4x4 generada con arange:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]

Arreglo con 10 valores equidistantes entre 0 y 100:
[  0.          11.11111111  22.22222222  33.33333333  44.44444444
  55.55555556  66.66666667  77.77777778  88.88888889 100.        ]

Matriz aleatoria 3x3 con enteros entre 1 y 20:
[[ 2 19  4]
 [ 7 17  2]
 [ 8 19  7]]

Raíz cuadrada de la matriz aleatoria:
[[1.41421356 4.35889894 2.        ]
 [2.64575131 4.12310563 1.41421356]
 [2.82842712 4.35889894 2.64575131]]

Logaritmo natural de la matriz aleatoria:
[[0.69314718 2.94443898 1.38629436]
 [1.94591015 2.83321334 0.69314718]
 [2.07944154 2.94443898 1.94591015]]

Reflexión:
Las funciones matemáticas como sqrt() y log() se aplican directamente sobre arreglos flotantes.
Si los arreglos contienen enteros, NumPy los convierte a float automáticamente para estas operaciones.


# Clase M3 AE2-1 – Primer acercamiento al análisis exploratorio con Pandas

## Contexto
El objetivo es familiarizarse con la estructura de un `DataFrame` y aplicar los métodos básicos de exploración y resumen de datos para obtener una primera comprensión de su contenido.

## Consigna
Carga un archivo CSV con Pandas y explora su contenido utilizando métodos como `head()`, `info()` y `describe()`. Luego, extrae estadísticas clave de las columnas numéricas y verifica si hay valores nulos.

## Paso a paso

1. Importa la librería Pandas como `pd`.
2. Lee el archivo `data.csv` con `pd.read_csv('data.csv')` y asígnalo a una variable llamada `df`.
3. Usa los métodos:
   - `df.head()` para ver los primeros registros.
   - `df.info()` para revisar estructura y tipos de datos.
   - `df.describe()` para ver estadísticas básicas.
4. Aplica `df.isnull().sum()` para detectar valores nulos.
5. Usa `df.mean()`, `df.median()` y `df.std()` para obtener medidas adicionales.
6. Comparte una breve interpretación de lo que observaste.


In [4]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('data.csv')

# Mostrar los primeros registros
print("Primeros registros:")
print(df.head())

# Información general del DataFrame
print("\nInformación del DataFrame:")
print(df.info())

# Estadísticas descriptivas básicas
print("\nEstadísticas descriptivas:")
print(df.describe())

# Detección de valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Medidas adicionales
print("\nPromedios:")
print(df.mean(numeric_only=True))

print("\nMedianas:")
print(df.median(numeric_only=True))

print("\nDesviaciones estándar:")
print(df.std(numeric_only=True))


Primeros registros:
   Nombre  Edad  Altura  Peso
0     Ana  23.0    1.65    55
1    Luis  35.0    1.80    78
2  Carlos  45.0    1.75    85
3   Marta   NaN    1.60    60
4   Elena  29.0     NaN    65

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nombre  5 non-null      object 
 1   Edad    4 non-null      float64
 2   Altura  4 non-null      float64
 3   Peso    5 non-null      int64  
dtypes: float64(2), int64(1), object(1)
memory usage: 292.0+ bytes
None

Estadísticas descriptivas:
            Edad    Altura      Peso
count   4.000000  4.000000   5.00000
mean   33.000000  1.700000  68.60000
std     9.380832  0.091287  12.54193
min    23.000000  1.600000  55.00000
25%    27.500000  1.637500  60.00000
50%    32.000000  1.700000  65.00000
75%    37.500000  1.762500  78.00000
max    45.000000  1.800000  85.00000

Valores nulos po

# Clase M3 AE2-2 – Práctica con Python

## Objetivo
Practicar la entrada de datos, estructuras condicionales y funciones básicas en Python mediante un ejercicio cotidiano.

## Consigna
Desarrolla un programa que interactúe con el usuario solicitando su nombre y edad. Luego, determina si la persona es mayor o menor de edad, e imprime un mensaje correspondiente.

## Paso a paso

1. Abre tu entorno de trabajo preferido (VS Code, Jupyter, Colab, etc.).
2. Crea un nuevo archivo o celda de código.
3. Escribe un programa que:
   - Solicite al usuario su **nombre** y **edad**.
   - Utilice una estructura condicional (`if`) para verificar si es **mayor** o **menor de edad**.
   - Imprima un mensaje de saludo que incluya el nombre y la condición (mayor o menor).
4. Prueba el programa con distintas edades para verificar su correcto funcionamiento.
5. *(Opcional)* Agrega una función llamada `es_mayor()` que reciba la edad como argumento y retorne `True` si es mayor de edad, o `False` si no lo es.


In [5]:
# Ejercicio AE2-1 - Práctica con Python

# Solicita el nombre y edad del usuario
nombre = input("Ingrese su nombre: ")
edad = int(input("Ingrese su edad: "))

# Verifica si es mayor o menor de edad
if edad >= 18:
    print(f"Hola {nombre}, eres mayor de edad.")
else:
    print(f"Hola {nombre}, eres menor de edad.")

# Probar con distintas edades asegura que el código funciona correctamente

# Función opcional: determinar si alguien es mayor de edad
def es_mayor(edad):
    return edad >= 18

# Prueba de la función
resultado = es_mayor(edad)
print(f"¿Es mayor de edad según la función? {resultado}")


Ingrese su nombre: Fabian
Ingrese su edad: 33
Hola Fabian, eres mayor de edad.
¿Es mayor de edad según la función? True


# Clase M3 AE3-1 – Exploración de archivos CSV

## Contexto
Aprenderemos a importar datos desde archivos `.csv`, comprender su estructura y aplicar buenas prácticas para la carga de datos tabulares en Python con Pandas.

## Consigna
Usa Pandas para cargar un archivo `.csv`, inspecciona su contenido y exporta una versión modificada del archivo, aplicando algunas transformaciones básicas.

## Paso a paso

1. Importa la librería `pandas` (import pandas as pd).  
   Cargá un archivo CSV con `pd.read_csv('archivo.csv')`.

2. Visualiza las primeras filas con `df.head()` y revisá la estructura general con `df.info()`.

3. Renombra las columnas manualmente si no hay encabezado (`header=None`, `names=[]`).

4. Detecta valores nulos con `df.isnull().sum()` y reemplázalos si es necesario.

5. Exporta el `DataFrame` modificado a un nuevo archivo CSV:  
   `df.to_csv('nuevo_archivo.csv', index=False)`


In [7]:
# 1. Importar la librería
import pandas as pd

# 2. Cargar el archivo CSV desde URL pública
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# 3. Visualizar las primeras filas y estructura general
print("Primeras filas del dataset:")
print(df.head())

print("\nInformación general del DataFrame:")
print(df.info())

# 4. Verificar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# 5. Reemplazar valores nulos en la columna 'Age' con la media
df['Age'] = df['Age'].fillna(df['Age'].mean())

# 6. Exportar el DataFrame modificado a un nuevo archivo CSV
df.to_csv('titanic_modificado.csv', index=False)
print("\nArchivo exportado exitosamente como 'titanic_modificado.csv'")


Primeras filas del dataset:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450 

# Clase M3 AE3-2 – Lectura desde Excel y extracción de tablas web

## Contexto
Experimentaremos con la importación de datos desde diferentes fuentes: un archivo de Excel y una tabla HTML, usando Pandas como herramienta central.

## Consigna
Lee un archivo de Excel desde tu equipo y extrae una tabla HTML desde una página web utilizando Pandas. Explora ambos conjuntos de datos y guarda una copia en archivos locales.

## Paso a paso

1. Asegúrate de tener instalada la librería `openpyxl` para poder leer archivos `.xlsx`.

2. Lee un archivo Excel con:

   ```python
   df_excel = pd.read_excel('archivo.xlsx')
   ```

   - Si hay múltiples hojas, puedes cargarlas así:

   ```python
   df_hoja = pd.read_excel('archivo.xlsx', sheet_name='NombreDeHoja')
   ```

3. Busca una URL que contenga una tabla HTML simple (o usa una proporcionada por el docente).

4. Utiliza `pd.read_html('url')` para importar la tabla.  
   Esto devuelve una **lista de DataFrames**, por ejemplo:

   ```python
   tablas = pd.read_html('https://url-de-ejemplo.com')
   df_html = tablas[0]  # selecciona la primera tabla
   ```

5. Explora los datos con los métodos `head()` y `describe()`:

   ```python
   print(df_excel.head())
   print(df_excel.describe())

   print(df_html.head())
   print(df_html.describe())
   ```

6. Exporta ambos conjuntos de datos como nuevos archivos:

   ```python
   df_excel.to_excel('archivo_nuevo.xlsx', index=False)
   df_html.to_csv('archivo_nuevo.csv', index=False)
   ```


In [10]:
import pandas as pd

# Leer archivo Excel
df_excel = pd.read_excel('archivo_ejemplo.xlsx')

# Leer tabla HTML desde Wikipedia
url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_PIB_(nominal)'
tablas = pd.read_html(url)

# Seleccionamos la primera tabla útil
df_html = tablas[1]

# Exploramos ambos datasets
print("Datos desde Excel:")
print(df_excel.head())
print(df_excel.describe())

print("\nDatos desde HTML:")
print(df_html.head())
print(df_html.describe())

# Exportamos ambos datasets
df_excel.to_excel('archivo_excel_modificado.xlsx', index=False)
df_html.to_csv('archivo_html_extraido.csv', index=False)

print("\nArchivos exportados exitosamente.")


Datos desde Excel:
   Producto  Precio  Stock
0    Laptop  800000     25
1   Monitor  200000     40
2   Teclado   30000    150
3     Mouse   15000    200
4  Parlante   50000     60
              Precio       Stock
count       5.000000    5.000000
mean   219000.000000   95.000000
std    333099.084358   76.157731
min     15000.000000   25.000000
25%     30000.000000   40.000000
50%     50000.000000   60.000000
75%    200000.000000  150.000000
max    800000.000000  200.000000

Datos desde HTML:
                                                   0  \
0  Lista según el Fondo Monetario Internacional (...   
1                                               Pos.   
2                                                NaN   
3                                                  1   
4                                                  2   

                                                   1  \
0  Lista según el Banco Mundial de (2022)[4]​ Pos...   
1                                               País  

## Clase M3 AE4 - Ejercicio N° 1  
### Carga y exportación de archivos CSV

### Contexto

En esta actividad, los estudiantes aprenderán a importar datos desde archivos `.csv`, adaptarlos a las necesidades del análisis, y luego exportarlos nuevamente con las configuraciones adecuadas.

### Consigna

Utiliza la librería **Pandas** para cargar un archivo `.csv` sin encabezado, renombra las columnas, limpia los datos nulos y exporta el resultado a un nuevo archivo `.csv` con delimitador personalizado.

### Paso a paso:

1. Abre tu entorno de trabajo preferido (VS Code, Jupyter, Colab, etc.).
2. Importa Pandas (`import pandas as pd`).
3. Lee el archivo `datos.csv` usando `header=None` y asigna nombres personalizados con  
   `names=['nombre', 'edad', 'ciudad']`.
4. Reemplaza valores nulos o símbolos como `'?'` usando `na_values` y `fillna()`.
5. Elimina filas duplicadas si las hubiera con `drop_duplicates()`.
6. Exporta el DataFrame limpio con `to_csv()`, usando `sep=';'` y `encoding='utf-8'`.



In [14]:
import pandas as pd

# Paso 1: Cargar archivo CSV sin encabezado y asignar nombres de columnas
print("Paso 1: Cargando el archivo CSV sin encabezado y asignando nombres de columnas...")
column_names = ['nombre', 'edad', 'ciudad']
df = pd.read_csv('/content/datos.csv', header=None, names=column_names)
print(df.head())

# Paso 2: Reemplazar símbolos '?' por valores nulos y luego imputarlos con fillna
print("\nPaso 2: Reemplazando símbolos '?' por NaN y llenando con valores por defecto...")
df.replace('?', pd.NA, inplace=True)
df['edad'] = df['edad'].fillna(df['edad'].mode()[0])
df['ciudad'] = df['ciudad'].fillna('Desconocida')
df['nombre'] = df['nombre'].fillna('Anónimo')
print(df.head())

# Paso 3: Eliminar filas duplicadas
print("\nPaso 3: Eliminando filas duplicadas si existen...")
df.drop_duplicates(inplace=True)
print(df.head())

# Paso 4: Exportar DataFrame limpio a nuevo archivo CSV
print("\nPaso 4: Exportando archivo limpio...")
output_path = 'datos_limpios.csv'
df.to_csv(output_path, sep=';', index=False, encoding='utf-8')
print(f"Datos exportados correctamente a: {output_path}")


Paso 1: Cargando el archivo CSV sin encabezado y asignando nombres de columnas...
  nombre edad      ciudad
0   Juan   25    Santiago
1    Ana   30  Valparaíso
2  Pedro    ?  Concepción
3  Laura   28    Santiago
4   Juan   25    Santiago

Paso 2: Reemplazando símbolos '?' por NaN y llenando con valores por defecto...
  nombre edad      ciudad
0   Juan   25    Santiago
1    Ana   30  Valparaíso
2  Pedro   25  Concepción
3  Laura   28    Santiago
4   Juan   25    Santiago

Paso 3: Eliminando filas duplicadas si existen...
    nombre edad      ciudad
0     Juan   25    Santiago
1      Ana   30  Valparaíso
2    Pedro   25  Concepción
3    Laura   28    Santiago
5  Anónimo   22      Temuco

Paso 4: Exportando archivo limpio...
Datos exportados correctamente a: datos_limpios.csv


## Ejercicio N°2: Lectura de datos desde Excel y extracción web

### Contexto
Comprender cómo obtener datos desde archivos Excel y páginas web, y cómo unificarlos en un solo DataFrame para análisis conjunto.

### Consigna
Lee datos desde un archivo `.xlsx` y desde una tabla HTML de una web. Combina ambos conjuntos en un solo DataFrame y exporta el resultado como archivo Excel con múltiples hojas.

### Paso a paso:
1. Asegúrate de tener instalada la librería `openpyxl`.
2. Carga un archivo Excel con `read_excel('archivo.xlsx', sheet_name='Ventas')`.
3. Usa `read_html()` para extraer la primera tabla de una web (por ejemplo, una página de estadísticas).
4. Unifica ambos conjuntos con `concat()` o `merge()` según el caso.
5. Exporta el resultado a un archivo `resumen.xlsx` con `to_excel()`, incluyendo ambos DataFrames en hojas diferentes usando `ExcelWriter`.


In [16]:
import pandas as pd

# Paso 1: Asegurarse de tener instalada la libreria openpyxl
#ya está instalada en colab

# Paso 2: Cargar archivo Excel
print("\nPaso 2: Cargando hoja 'Ventas' desde archivo Excel...")
df_excel = pd.read_excel('/content/archivo_ventas.xlsx', sheet_name='Ventas')
print(df_excel.head())

# Paso 3: Extraer tabla desde una pagina web
print("\nPaso 3: Extrayendo primera tabla desde pagina web...")
url = 'https://es.wikipedia.org/wiki/Demografia_de_Chile'
df_web_list = pd.read_html(url)
df_web = df_web_list[0]  # primera tabla encontrada
print(df_web.head())

# Paso 4: Unificar los DataFrames
print("\nPaso 4: Unificando los conjuntos de datos...")
df_combined = pd.concat([df_excel, df_web], axis=0, ignore_index=True)
print(df_combined.head())

# Paso 5: Exportar a archivo Excel con multiples hojas
print("\nPaso 5: Exportando a archivo Excel con multiples hojas...")
output_excel = 'resumen.xlsx'
with pd.ExcelWriter(output_excel, engine='openpyxl') as writer:
    df_excel.to_excel(writer, sheet_name='Ventas', index=False)
    df_web.to_excel(writer, sheet_name='TablaWeb', index=False)
    df_combined.to_excel(writer, sheet_name='Combinado', index=False)

print(f"\nExportacion completada: {output_excel}")



Paso 2: Cargando hoja 'Ventas' desde archivo Excel...
   ID   Producto  Cantidad  PrecioUnitario
0   1    Teclado        10           15000
1   2      Mouse        25            8000
2   3    Monitor         8          120000
3   4   Notebook        15          450000
4   5  Impresora         5           90000

Paso 3: Extrayendo primera tabla desde pagina web...
   Demografía de Chile  Demografía de Chile.1  Demografía de Chile.2
0                  NaN                    NaN                    NaN
1            Población  18 480 432 (2024)[1]​  18 480 432 (2024)[1]​
2             Densidad          24,44 hab/km²          24,44 hab/km²
3  Tasa de crecimiento                   1397                   1397
4    Tasa de natalidad       11,99 (2020)[2]​       11,99 (2020)[2]​

Paso 4: Unificando los conjuntos de datos...
    ID   Producto  Cantidad  PrecioUnitario Demografía de Chile  \
0  1.0    Teclado      10.0         15000.0                 NaN   
1  2.0      Mouse      25.0          80

## Clase M3 AE4 - Ejercicio N° 1  
### Limpieza de datos de un e-commerce

### Contexto
Una tienda online desea analizar las ventas del último año. Sin embargo, los datos provienen de múltiples fuentes y presentan problemas comunes como:

- Valores nulos
- Filas duplicadas
- Formatos inconsistentes

### Objetivo
Aplicar técnicas de limpieza de datos usando Pandas para preparar el archivo `ventas_ecommerce.csv` para su análisis.

### Instrucciones

1. **Carga el dataset** usando `pd.read_csv()`.
2. **Elimina filas duplicadas** utilizando `drop_duplicates()`.
3. **Detecta valores nulos** con `isnull()` o `info()` y decide si imputar con `fillna()` o eliminar filas.
4. **Corrige valores mal escritos** en la columna `Método de pago` (por ejemplo, "tarjeta", "efetivo") usando `replace()`.
5. **Asegúrate de que:**
   - Las fechas estén en formato `datetime` (`pd.to_datetime()`).
   - Los precios estén en tipo `float` (`astype(float)` o `pd.to_numeric()`).



In [17]:
import pandas as pd

# Paso 1: Cargar el dataset
df = pd.read_csv("ventas_ecommerce.csv")
print("Vista inicial del dataset:")
print(df.head())

# Paso 2: Eliminar filas duplicadas
df = df.drop_duplicates()
print(f"Cantidad de filas luego de eliminar duplicados: {df.shape[0]}")

# Paso 3: Detectar valores nulos y tratarlos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Rellenar valores nulos en 'Metodo_pago'
df["Metodo_pago"] = df["Metodo_pago"].fillna("desconocido")

# Eliminar filas con valores nulos en 'precio'
df = df.dropna(subset=["precio"])

# Paso 4: Corregir valores incorrectos en 'Metodo_pago'
df["Metodo_pago"] = df["Metodo_pago"].replace({
    "efetivo": "efectivo",
    "tarjeeta": "tarjeta",
    "Tarjeta": "tarjeta"
})
print("Valores únicos en 'Metodo_pago':")
print(df["Metodo_pago"].value_counts())

# Paso 5: Normalizar formatos
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")
df["precio"] = pd.to_numeric(df["precio"], errors="coerce")

# Eliminar filas con errores de conversión
df = df.dropna(subset=["fecha", "precio"])
print("Tipos de datos después de la conversión:")
print(df.dtypes)

# Exportar archivo limpio
df.to_csv("ventas_ecommerce_limpio.csv", index=False)
print("Archivo limpio exportado como ventas_ecommerce_limpio.csv")


Vista inicial del dataset:
   id producto  precio       fecha Metodo_pago
0   1   Laptop  899.99  2024-10-01     tarjeta
1   2    Mouse   19.99  2024-10-01     efetivo
2   3  Teclado   29.99  2024-10-02    tarjeeta
3   3  Teclado   29.99  2024-10-02         NaN
4   4  Monitor     abc       error     Tarjeta
Cantidad de filas luego de eliminar duplicados: 9
Valores nulos por columna:
id             0
producto       0
precio         1
fecha          0
Metodo_pago    1
dtype: int64
Valores únicos en 'Metodo_pago':
Metodo_pago
tarjeta        4
efectivo       3
desconocido    1
Name: count, dtype: int64
Tipos de datos después de la conversión:
id                      int64
producto               object
precio                float64
fecha          datetime64[ns]
Metodo_pago            object
dtype: object
Archivo limpio exportado como ventas_ecommerce_limpio.csv


## Ejercicio Nº 2  
### Transformación y enriquecimiento de datos de RRHH

**Contexto:**  
Un área de Recursos Humanos necesita preparar un informe de rotación laboral con datos de empleados.  
Se requiere agrupar, discretizar y enriquecer la información.

**Consigna:**  
Aplica transformaciones avanzadas a un dataset de empleados (`empleados.csv`) para crear nuevas variables  
y preparar los datos para análisis.

**Paso a paso:**
1. Agrupa los empleados por área y calcula el promedio de antigüedad y edad.
2. Discretiza la edad en categorías:
   - Joven (≤30)
   - Medio (31–45)
   - Senior (46+)
3. Crea una nueva columna con `apply()` para clasificar empleados según su permanencia:  
   - Si Antigüedad > 5 años → “Estable”
4. Exporta el nuevo DataFrame limpio con `to_csv()`.

**Tiempo estimado:** 30 minutos


In [19]:
import pandas as pd

# Paso 1: Cargar el dataset
df = pd.read_csv('/content/empleados.csv')
print("Paso 1: Dataset cargado:")
print(df.head())

# Paso 2: Agrupar por área y calcular promedio de edad y antigüedad
print("\nPaso 2: Promedio de edad y antigüedad por área:")
agrupado = df.groupby('Área')[['Edad', 'Antigüedad']].mean()
print(agrupado)

# Paso 3: Discretizar la edad en categorías
def categorizar_edad(edad):
    if edad <= 30:
        return 'Joven'
    elif edad <= 45:
        return 'Medio'
    else:
        return 'Senior'

df['Categoria_Edad'] = df['Edad'].apply(categorizar_edad)
print("\nPaso 3: Edad categorizada:")
print(df[['Nombre', 'Edad', 'Categoria_Edad']].head())

# Paso 4: Crear columna de permanencia
df['Permanencia'] = df['Antigüedad'].apply(lambda x: 'Estable' if x > 5 else 'No Estable')
print("\nPaso 4: Columna de permanencia creada:")
print(df[['Nombre', 'Antigüedad', 'Permanencia']].head())

# Paso 5: Exportar el nuevo DataFrame limpio
df.to_csv('/content/empleados_limpio.csv', index=False)
print("\nPaso 5: Archivo exportado correctamente como empleados_limpio.csv")


Paso 1: Dataset cargado:
   ID  Nombre  Edad  Antigüedad              Área
0   1     Ana    28           2            Ventas
1   2    Luis    35           7                TI
2   3  Carlos    50          10                TI
3   4   Marta    42           4  Recursos Humanos
4   5   Pedro    23           1            Ventas

Paso 2: Promedio de edad y antigüedad por área:
                       Edad  Antigüedad
Área                                   
Finanzas          42.500000   10.000000
Recursos Humanos  35.500000    3.500000
TI                38.666667    7.666667
Ventas            32.000000    2.666667

Paso 3: Edad categorizada:
   Nombre  Edad Categoria_Edad
0     Ana    28          Joven
1    Luis    35          Medio
2  Carlos    50         Senior
3   Marta    42          Medio
4   Pedro    23          Joven

Paso 4: Columna de permanencia creada:
   Nombre  Antigüedad Permanencia
0     Ana           2  No Estable
1    Luis           7     Estable
2  Carlos          10     Esta

## Clase M3 AE6 - Ejercicio N°1 - Análisis de ventas por categoría

### Contexto
Una empresa de retail necesita analizar sus ventas segmentadas por categoría de producto y mes, para preparar un informe de performance.

### Consigna
Utiliza técnicas de agrupamiento y pivoteado con Pandas para construir un resumen tabular de ventas mensuales por categoría.

### Paso a paso:
1. Carga el archivo `ventas_productos.csv` (contiene columnas como fecha, categoría, producto, ventas).
2. Convertí la columna fecha a tipo datetime y extraé el mes en una nueva columna.
3. Agrupá por categoría y mes usando `groupby()` y calculá la suma de ventas.
4. Pivotá el resultado para que las categorías estén en filas y los meses en columnas.
5. Exportá el DataFrame pivotado como `reporte_categorias.csv`.



In [20]:
# Paso 1: Cargar el archivo CSV
import pandas as pd

df = pd.read_csv('/content/ventas_productos.csv')
print("Paso 1: Dataset cargado")
print(df.head())

# Paso 2: Convertir la columna fecha a tipo datetime y extraer el mes
df['fecha'] = pd.to_datetime(df['fecha'])
df['mes'] = df['fecha'].dt.month
print("\nPaso 2: Fecha convertida a datetime y mes extraído")
print(df[['fecha', 'mes']].head())

# Paso 3: Agrupar por categoría y mes, calcular suma de ventas
df_grouped = df.groupby(['categoria', 'mes'])['ventas'].sum().reset_index()
print("\nPaso 3: Agrupamiento por categoría y mes")
print(df_grouped.head())

# Paso 4: Pivotear el resultado (categorías como filas y meses como columnas)
df_pivot = df_grouped.pivot(index='categoria', columns='mes', values='ventas')
print("\nPaso 4: Pivot de la tabla")
print(df_pivot)

# Paso 5: Exportar el resultado a un nuevo archivo CSV
df_pivot.to_csv('/content/reporte_categorias.csv')
print("\nPaso 5: Archivo exportado como reporte_categorias.csv")


Paso 1: Dataset cargado
        fecha    categoria     producto  ventas
0  2025-01-15  Electrónica       Laptop    1000
1  2025-01-20  Electrónica       Tablet     800
2  2025-02-10  Electrónica   Smartphone    1200
3  2025-02-18  Electrónica  Auriculares     600
4  2025-03-05  Electrónica      Monitor     900

Paso 2: Fecha convertida a datetime y mes extraído
       fecha  mes
0 2025-01-15    1
1 2025-01-20    1
2 2025-02-10    2
3 2025-02-18    2
4 2025-03-05    3

Paso 3: Agrupamiento por categoría y mes
     categoria  mes  ventas
0  Electrónica    1    1800
1  Electrónica    2    1800
2  Electrónica    3    1600
3         Ropa    1     500
4         Ropa    2     650

Paso 4: Pivot de la tabla
mes             1     2     3
categoria                    
Electrónica  1800  1800  1600
Ropa          500   650   900

Paso 5: Archivo exportado como reporte_categorias.csv


## Clase M3 AE6 - Ejercicio 2: Integración de datos de usuarios y compras

### Contexto:
El equipo de marketing quiere unir datos de usuarios registrados con sus compras, para identificar patrones de comportamiento.

### Consigna:
Aplica `merge()` y `groupby()` en Pandas para analizar cuántas compras hizo cada tipo de usuario.

### Paso a paso:

1. Carga dos archivos:  
   - `usuarios.csv` (con columnas `user_id`, `segmento`, `registro_fecha`)  
   - `compras.csv` (con columnas `user_id`, `compra_id`, `monto`)

2. Unir ambos datasets utilizando `merge()` por `user_id`.

3. Agrupar por `segmento` y contar la cantidad de compras realizadas.

4. Calcular también el monto total gastado por segmento usando `.agg()`.

5. Mostrar los resultados ordenados de mayor a menor cantidad de compras.


In [21]:
import pandas as pd

# Paso 1: Cargar los archivos usuarios.csv y compras.csv
df_usuarios = pd.read_csv('/content/usuarios.csv')
df_compras = pd.read_csv('/content/compras.csv')

print("Usuarios:")
print(df_usuarios.head())
print("\nCompras:")
print(df_compras.head())

# Paso 2: Unir los datasets por 'user_id'
df_merged = pd.merge(df_usuarios, df_compras, on='user_id')
print("\nMerge realizado:")
print(df_merged.head())

# Paso 3: Agrupar por segmento y contar cantidad de compras
compras_por_segmento = df_merged.groupby('segmento')['compra_id'].count().reset_index()
compras_por_segmento.rename(columns={'compra_id': 'cantidad_compras'}, inplace=True)

# Paso 4: Calcular el monto total gastado por segmento
monto_por_segmento = df_merged.groupby('segmento')['monto'].sum().reset_index()
monto_por_segmento.rename(columns={'monto': 'monto_total'}, inplace=True)

# Paso 5: Unir ambos resultados y ordenar por cantidad de compras descendente
resumen = pd.merge(compras_por_segmento, monto_por_segmento, on='segmento')
resumen_ordenado = resumen.sort_values(by='cantidad_compras', ascending=False)

# Mostrar resultado
print("\nResumen por segmento:")
print(resumen_ordenado)

# Exportar resultado
resumen_ordenado.to_csv('/content/resumen_segmento.csv', index=False)
print("\nArchivo 'resumen_segmento.csv' exportado correctamente.")


Usuarios:
   user_id segmento registro_fecha
0        1        A     2023-01-10
1        2        B     2023-02-15
2        3        A     2023-03-01
3        4        C     2023-01-20
4        5        B     2023-02-05

Compras:
   user_id  compra_id  monto
0        1        101    200
1        1        102    150
2        2        103    300
3        3        104    120
4        3        105    180

Merge realizado:
   user_id segmento registro_fecha  compra_id  monto
0        1        A     2023-01-10        101    200
1        1        A     2023-01-10        102    150
2        2        B     2023-02-15        103    300
3        3        A     2023-03-01        104    120
4        3        A     2023-03-01        105    180

Resumen por segmento:
  segmento  cantidad_compras  monto_total
0        A                 5          750
1        B                 2          550
2        C                 1          500

Archivo 'resumen_segmento.csv' exportado correctamente.
