<a href="https://colab.research.google.com/github/CamiloInData/analisis-de-datos/blob/master/Untitled19.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

‚ÄúConversi√≥n de tipos de datos en Python (con Pandas en Google Colab)‚Äù es clave en anal√≠tica de datos, porque muchos errores y an√°lisis incorrectos ocurren cuando los tipos de datos est√°n mal definidos.

Objetivo

Aprender a verificar y convertir tipos de datos en un DataFrame de Pandas (por ejemplo: convertir texto a n√∫mero, n√∫mero a texto, o texto a fecha), entendiendo por qu√© y cu√°ndo hacerlo.

Concepto general

En Pandas, cada columna tiene un tipo de dato que determina qu√© operaciones puedes hacer con ella:

| Tipo de dato | Descripci√≥n                | Ejemplo           |
| ------------ | -------------------------- | ----------------- |
| `int64`      | N√∫meros enteros            | 1, 25, -3         |
| `float64`    | N√∫meros decimales          | 3.14, 27.5        |
| `object`     | Texto o cadenas            | "Juan", "Bogot√°"  |
| `bool`       | Booleano (verdadero/falso) | True, False       |
| `datetime64` | Fechas                     | 2024-03-05        |
| `category`   | Texto repetido optimizado  | ‚ÄúHombre‚Äù, ‚ÄúMujer‚Äù |


In [None]:
import pandas as pd

data = {'Nombre': ['Ana', 'Luis', 'Marta', 'Ana', 'Luis', 'Ana']}
df = pd.DataFrame(data)

print("Antes:")
print(df.dtypes)

df['Nombre'] = df['Nombre'].astype('category')

print("\nDespu√©s:")
print(df.dtypes)
print("\nCategor√≠as √∫nicas:", df['Nombre'].cat.categories)

Antes:
Nombre    object
dtype: object

Despu√©s:
Nombre    category
dtype: object

Categor√≠as √∫nicas: Index(['Ana', 'Luis', 'Marta'], dtype='object')


In [None]:
#Ver los tipos de datos en un DataFrame
import pandas as pd

# Ejemplo simple
data = {
    'Nombre': ['Ana', 'Luis', 'Marta'],
    'Edad': ['25', '30', '28'],           # est√° como texto (object)
    'Salario': [2500.50, 3100.00, 2800.00],
    'Fecha_Ingreso': ['2024-01-10', '2024-02-15', '2024-03-01']
}

df = pd.DataFrame(data)

print("=== DataFrame Original ===")
display(df)
print("\nTipos de datos:")
print(df.dtypes)

=== DataFrame Original ===


Unnamed: 0,Nombre,Edad,Salario,Fecha_Ingreso
0,Ana,25,2500.5,2024-01-10
1,Luis,30,3100.0,2024-02-15
2,Marta,28,2800.0,2024-03-01



Tipos de datos:
Nombre            object
Edad              object
Salario          float64
Fecha_Ingreso     object
dtype: object


In [None]:
#Conversiones m√°s comunes
# a) Convertir texto a n√∫mero (object ‚Üí int o float)
df['Edad'] = df['Edad'].astype(int)


#üí° Ahora puedes calcular promedios o sumar edades.

In [None]:
#b) Convertir texto a fecha (object ‚Üí datetime)
df['Fecha_Ingreso'] = pd.to_datetime(df['Fecha_Ingreso'])


#üí° Esto permite ordenar por fecha o calcular antig√ºedad.

In [None]:
#c) Convertir n√∫mero a texto (int ‚Üí object) ejmplo de edad es un texto
df['Edad'] = df['Edad'].astype(str)


#üí° √ötil si quieres mostrar los n√∫meros como texto en reportes.

In [None]:
#d) Convertir a categor√≠a (object ‚Üí category)
df['Nombre'] = df['Nombre'].astype('category')


#üí° Ahorra memoria cuando hay pocos valores √∫nicos repetidos.

In [None]:
#Verifica el cambio si o si verificarlo.
print("\nTipos de datos actualizados:")
print(df.dtypes)

Analog√≠a pr√°ctica

Piensa en los tipos de datos como el tipo de recipiente en una cocina üçΩÔ∏è:
| Tipo       | Analog√≠a                             | Qu√© pasar√≠a si usas mal el tipo                               |
| ---------- | ------------------------------------ | ------------------------------------------------------------- |
| `int`      | un vaso medidor para n√∫meros enteros | Si intentas meter una palabra (‚Äúhola‚Äù) se desborda o da error |
| `float`    | una taza medidora con escala         | Acepta n√∫meros con decimales                                  |
| `object`   | una caja mixta                       | Puedes meter texto, pero no podr√°s hacer c√°lculos             |
| `datetime` | un reloj o calendario                | Solo entiende fechas y horas, no texto                        |
| `category` | un organizador con etiquetas fijas   | Ideal para clasificar grupos repetidos (‚ÄúHombre‚Äù, ‚ÄúMujer‚Äù)    |


In [None]:
#Ejercicio para tus estudiantes
 #Taller: ‚ÄúLimpieza y conversi√≥n de tipos‚Äù
import pandas as pd

data = {
    'Empleado': ['Laura', 'Carlos', 'Mar√≠a', 'Pedro', 'Sof√≠a'],
    'Edad': ['30', '35', '28', '40', '32'],        # Texto
    'Salario': ['2500', '3100.50', 'NaN', '4000', '2800.75'], # Mezcla texto/num√©rico
    'Fecha_Ingreso': ['2024/03/01', '2023/11/10', '2023/12/20', '2022/05/05', '2023/08/15']
}

df = pd.DataFrame(data)
print("=== BASE ORIGINAL ===")
display(df)
print(df.dtypes)

print("Soluci√≥n")
df['edad'] = df['Edad'].astype[int]
print


Convierte las columnas al tipo correcto:


Edad ‚Üí n√∫mero entero


Salario ‚Üí n√∫mero decimal (float)


Fecha_Ingreso ‚Üí tipo fecha (datetime)




Verifica los tipos con:
df.dtypes



Calcula:


Edad promedio


Salario promedio


Antig√ºedad (en d√≠as) de cada empleado respecto a hoy


from datetime import datetime

hoy = pd.Timestamp(datetime.now())
df['Antiguedad_dias'] = (hoy - df['Fecha_Ingreso']).dt.days
display(df)




| Pregunta                                                                  | Respuesta esperada                                    |
| ------------------------------------------------------------------------- | ----------------------------------------------------- |
| ¬øPor qu√© algunas columnas se importan como texto aunque parezcan n√∫meros? | Porque vienen con comillas, espacios o valores ‚ÄúNaN‚Äù. |
| ¬øQu√© pasa si intentas sumar una columna tipo ‚Äúobject‚Äù?                    | Da error o concatena texto.                           |
| ¬øPor qu√© convertir fechas es √∫til en an√°lisis temporal?                   | Permite ordenar, filtrar o calcular diferencias.      |
| ¬øQu√© tipo usar√≠as para clasificaciones como g√©nero o ciudad?              | `category`.                                           |

