# Carga y Transformación de Datos
Este notebook tiene como objetivo demostrar cómo importar datasets desde distintas fuentes (CSV, Excel, JSON, APIs, bases de datos) y aplicar transformaciones iniciales usando pandas.

In [1]:
import pandas as pd
import numpy as np

### Tipos de carga de datos

In [2]:
df = pd.read_csv('datasets/ventas.csv')
df.head()

Unnamed: 0,id,fecha,producto,categoria,ventas_mensuales,costos
0,1,2023-01-15,Zapatos,A,200000,120000
1,2,2023-01-16,Camisa,B,150000,80000
2,3,2023-01-17,Pantalón,C,180000,100000
3,4,2023-01-18,Zapatos,A,210000,130000


In [3]:
df_excel = pd.read_excel('datasets/datos.xlsx')
df_excel.head()

Unnamed: 0,id,fecha,producto,categoria,ventas_mensuales,costos
0,1,2023-01-15,Zapatos,A,200000,120000
1,2,2023-01-16,Camisa,B,150000,80000
2,3,2023-01-17,Pantalón,C,180000,100000
3,4,2023-01-18,Zapatos,A,210000,130000


In [4]:
df_json = pd.read_json('datasets/datos.json')
df_excel.head()

Unnamed: 0,id,fecha,producto,categoria,ventas_mensuales,costos
0,1,2023-01-15,Zapatos,A,200000,120000
1,2,2023-01-16,Camisa,B,150000,80000
2,3,2023-01-17,Pantalón,C,180000,100000
3,4,2023-01-18,Zapatos,A,210000,130000


In [5]:
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df_url = pd.read_csv(url)
df_url.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


###  Exploración rápida

In [6]:
df.info()
df.describe()
df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id                4 non-null      int64 
 1   fecha             4 non-null      object
 2   producto          4 non-null      object
 3   categoria         4 non-null      object
 4   ventas_mensuales  4 non-null      int64 
 5   costos            4 non-null      int64 
dtypes: int64(3), object(3)
memory usage: 324.0+ bytes


Index(['id', 'fecha', 'producto', 'categoria', 'ventas_mensuales', 'costos'], dtype='object')

In [14]:
print(df.dtypes)

fecha       datetime64[ns]
producto            object
ventas               int64
dtype: object


### Transformaciones básicas

In [7]:
# Cambiar nombres de columnas
df.rename(columns={'ventas_mensuales': 'ventas'}, inplace=True)

# Crear nuevas columnas
df['margen'] = df['ventas'] - df['costos']

#Eliminar columnas
df.drop(columns=['id'], inplace=True)

# Reordenar columnas
nuevo_orden = ['fecha', 'producto', 'ventas']
df = df[nuevo_orden]

### Transformaciones comunes

In [8]:
# Cambio de tipos (astype)
df['ventas'] = df['ventas'].astype(int)

# Fechas (to_datetime)
df['fecha'] = pd.to_datetime(df['fecha'])

#Strings (str.lower, str.strip)
df['producto'] = df['producto'].str.lower().str.strip()

### Otras transformaciones

In [22]:
# Conversión de texto a minúscula y limpieza de espacios
df['producto'] = df['producto'].str.lower().str.strip()

# Cálculo de columnas derivadas
# df['utilidad_pct'] = ((df['ventas_mensuales'] - df['costos']) / df['costos']) * 100

# Renombrar columnas de forma masiva
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

### Aplicación de funciones

In [9]:
# apply, map, replace
# df['categoria'] = df['categoria'].map({'A': 'Alta', 'B': 'Media', 'C': 'Baja'})

### Validaciones y control

In [17]:
#Conteo de valores por cada categoría
df['producto'].value_counts()

producto
zapatos     2
camisa      1
pantalón    1
Name: count, dtype: int64

In [10]:
# Conteo de valores únicos por columna
df.nunique()

fecha       4
producto    3
ventas      4
dtype: int64

In [11]:
# Revisar duplicados
df.duplicated().sum()

np.int64(0)

In [12]:
# Revisar valores nulos
df.isnull().sum()

fecha       0
producto    0
ventas      0
dtype: int64

### Guardar transformación

In [13]:
df.to_csv('datasets/ventas_transformado.csv', index=False)