<a href="https://colab.research.google.com/github/AprendaPracticando/AlmacenesDeDatos/blob/main/ADV03_Transform.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 03 Transform usando pandas

---

In [7]:
# Importando la librería de pandas

import pandas as pd

# Se genera un DataFrame ficticio

datos={
    'id':[10,20,30,40,50,60,70,10],
    'nombre':['Juan','Pedro','Ana','Cristina','Diana','Raúl',None,'Juan'],
    'fecha_nac':['2005-01-23','2005-02-13','2005-04-04','2005-11-03',
                 '2005-07-12','2005-09-28','2005-02-01','2005-01-23'],
    'aportaciones':[2,4,5,6,3,4,5,2],
    'peso_kg':[65,55,47,66,84,49,50,65]
}

# Creación de un DataFrame a partir de un diccionario

df=pd.DataFrame(datos)

# Muestra el contenido del DataFrame
df

Unnamed: 0,id,nombre,fecha_nac,aportaciones,peso_kg
0,10,Juan,2005-01-23,2,65
1,20,Pedro,2005-02-13,4,55
2,30,Ana,2005-04-04,5,47
3,40,Cristina,2005-11-03,6,66
4,50,Diana,2005-07-12,3,84
5,60,Raúl,2005-09-28,4,49
6,70,,2005-02-01,5,50
7,10,Juan,2005-01-23,2,65


Toma nota que:

1. La fila con el índice 0 y el índice 7 son exactamente iguales. Están duplicados.
1. La fila con el índice 6 tiene ausente el valor en la columna nombre (None).

In [8]:
# Revisando los tipos de dato de las columnas

df.dtypes

id               int64
nombre          object
fecha_nac       object
aportaciones     int64
peso_kg          int64
dtype: object

Toma nota que:

1. El identificador es numérico (int64), pero como no vamos a hacer operaciones aritméticas con esos valores, debe ser cadena (object / str).
1. La fecha de nacimiento es una cadena, y debería ser una fecha.

In [9]:
# Convertir el id a object (cadena)

df['id']=df['id'].astype(object)

# Revisar tipos
df.dtypes

id              object
nombre          object
fecha_nac       object
aportaciones     int64
peso_kg          int64
dtype: object

In [10]:
# Convertir cadena a datetime

df['fecha_nac']=pd.to_datetime(df['fecha_nac'])

# Revisar tipos
df.dtypes

id                      object
nombre                  object
fecha_nac       datetime64[ns]
aportaciones             int64
peso_kg                  int64
dtype: object

In [11]:
# Conversion de unidades de medida.

# Crear un campo que almacene el peso de las personas, en libras.

# Se almacena el factor de conversión en una variable llamada factor
factor=2.20462

# Se genera un nuevo campo llamado peso_libras, que es el resultado
# de multiplicar el peso en kilogramos, por el factor.

df['peso_libras']=df['peso_kg']*factor

# Ver los datos
df

Unnamed: 0,id,nombre,fecha_nac,aportaciones,peso_kg,peso_libras
0,10,Juan,2005-01-23,2,65,143.3003
1,20,Pedro,2005-02-13,4,55,121.2541
2,30,Ana,2005-04-04,5,47,103.61714
3,40,Cristina,2005-11-03,6,66,145.50492
4,50,Diana,2005-07-12,3,84,185.18808
5,60,Raúl,2005-09-28,4,49,108.02638
6,70,,2005-02-01,5,50,110.231
7,10,Juan,2005-01-23,2,65,143.3003


In [13]:
# Eliminar duplicados.

df.drop_duplicates(inplace=True)

# Se muestran los datos, ya sin duplicados.

df

Unnamed: 0,id,nombre,fecha_nac,aportaciones,peso_kg,peso_libras
0,10,Juan,2005-01-23,2,65,143.3003
1,20,Pedro,2005-02-13,4,55,121.2541
2,30,Ana,2005-04-04,5,47,103.61714
3,40,Cristina,2005-11-03,6,66,145.50492
4,50,Diana,2005-07-12,3,84,185.18808
5,60,Raúl,2005-09-28,4,49,108.02638
6,70,,2005-02-01,5,50,110.231


In [14]:
# Derivación de nuevas columnas.

# Supongamos que cada aportacion es de un monto fijo de $500 pesos.
# Entonces, el total_aportado es igual a aportaciones, por 500.

df['total_aportado']=df['aportaciones']*500

# Se ven los datos
df

Unnamed: 0,id,nombre,fecha_nac,aportaciones,peso_kg,peso_libras,total_aportado
0,10,Juan,2005-01-23,2,65,143.3003,1000
1,20,Pedro,2005-02-13,4,55,121.2541,2000
2,30,Ana,2005-04-04,5,47,103.61714,2500
3,40,Cristina,2005-11-03,6,66,145.50492,3000
4,50,Diana,2005-07-12,3,84,185.18808,1500
5,60,Raúl,2005-09-28,4,49,108.02638,2000
6,70,,2005-02-01,5,50,110.231,2500


In [15]:
# Eliminación de columnas no requeridas.

# Supongamos que después de haber calculado el total aportado, 
# ya no necesitamos la columna aportaciones.

del df['aportaciones']

# Ver los datos
df

Unnamed: 0,id,nombre,fecha_nac,peso_kg,peso_libras,total_aportado
0,10,Juan,2005-01-23,65,143.3003,1000
1,20,Pedro,2005-02-13,55,121.2541,2000
2,30,Ana,2005-04-04,47,103.61714,2500
3,40,Cristina,2005-11-03,66,145.50492,3000
4,50,Diana,2005-07-12,84,185.18808,1500
5,60,Raúl,2005-09-28,49,108.02638,2000
6,70,,2005-02-01,50,110.231,2500


In [16]:
# Eliminar las filas que contengan vacíos. El resultado se coloca
# en el mismo DataFrame.

df.dropna(inplace=True)

# Ver los datos
df

Unnamed: 0,id,nombre,fecha_nac,peso_kg,peso_libras,total_aportado
0,10,Juan,2005-01-23,65,143.3003,1000
1,20,Pedro,2005-02-13,55,121.2541,2000
2,30,Ana,2005-04-04,47,103.61714,2500
3,40,Cristina,2005-11-03,66,145.50492,3000
4,50,Diana,2005-07-12,84,185.18808,1500
5,60,Raúl,2005-09-28,49,108.02638,2000
