# Fundamentos y Creación de Datos en Pandas

Este notebook cubre los conceptos fundamentales de pandas y las diferentes formas de crear datos.

## ¿Qué es Pandas?

Pandas es una biblioteca de Python para análisis y manipulación de datos que proporciona dos estructuras de datos principales:

- **Series**: Array unidimensional etiquetado que puede contener cualquier tipo de dato
- **DataFrame**: Estructura bidimensional (como una tabla) con filas y columnas etiquetadas

**Importación convencional:**

In [1]:
import numpy as np
import pandas as pd

print(f"Pandas versión: {pd.__version__}")
print(f"NumPy versión: {np.__version__}")

Pandas versión: 2.3.3
NumPy versión: 2.3.5


## Creación de Series

Una Series es como un array de NumPy pero con etiquetas (índices).

In [2]:
# Crear Series desde una lista
serie_simple = pd.Series([1, 3, 5, np.nan, 6, 8])
print("Serie simple:")
print(serie_simple)
print(f"Tipo de dato: {serie_simple.dtype}")
print(f"Índice: {serie_simple.index}")

Serie simple:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
Tipo de dato: float64
Índice: RangeIndex(start=0, stop=6, step=1)


In [3]:
# Serie con índice personalizado
serie_personalizada = pd.Series([10, 20, 30, 40], 
                               index=['a', 'b', 'c', 'd'], 
                               name='Mi Serie')
print("Serie con índice personalizado:")
print(serie_personalizada)
print(f"Nombre de la serie: {serie_personalizada.name}")

Serie con índice personalizado:
a    10
b    20
c    30
d    40
Name: Mi Serie, dtype: int64
Nombre de la serie: Mi Serie


## Creación de DataFrames

Un DataFrame es como una tabla de Excel o una base de datos: tiene filas y columnas.

In [4]:
# DataFrame desde un diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'María', 'Carlos'],
    'Edad': [25, 32, 28, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'Salario': [30000, 45000, 38000, 52000]
}

df_personas = pd.DataFrame(datos)
print("DataFrame desde diccionario:")
print(df_personas)
print(f"\nForma del DataFrame: {df_personas.shape}")
print(f"Columnas: {list(df_personas.columns)}")

DataFrame desde diccionario:
   Nombre  Edad     Ciudad  Salario
0     Ana    25     Madrid    30000
1    Luis    32  Barcelona    45000
2   María    28   Valencia    38000
3  Carlos    35    Sevilla    52000

Forma del DataFrame: (4, 4)
Columnas: ['Nombre', 'Edad', 'Ciudad', 'Salario']


In [8]:
# DataFrame con array de NumPy e índice de fechas
fechas = pd.date_range('20240101', periods=6)
df_numerico = pd.DataFrame(np.random.randn(6, 4), 
                          index=fechas, 
                          columns=['A', 'B', 'C', 'D'])
print("DataFrame con índice de fechas:")
print(df_numerico)
print(f"\nTipos de datos:")
print(df_numerico.dtypes)

DataFrame con índice de fechas:
                   A         B         C         D
2024-01-01 -0.246919  0.256357  1.549183 -1.743112
2024-01-02 -0.373911 -0.505171  0.454751  0.145795
2024-01-03 -0.356816 -1.407753  0.886176 -0.816734
2024-01-04 -0.248094  0.877910  0.135393 -2.946993
2024-01-05 -0.083993 -0.289604 -0.757363 -1.719341
2024-01-06  1.203920  0.328048 -1.554851  3.835453

Tipos de datos:
A    float64
B    float64
C    float64
D    float64
dtype: object


In [9]:
# DataFrame con tipos de datos mixtos
df_mixto = pd.DataFrame({
    'Entero': [1, 2, 3, 4],
    'Flotante': [1.1, 2.2, 3.3, 4.4],
    'Texto': ['a', 'b', 'c', 'd'],
    'Booleano': [True, False, True, False],
    'Fecha': pd.date_range('20240101', periods=4),
    'Categoría': pd.Categorical(['bajo', 'medio', 'alto', 'medio'])
}, index=['fila1', 'fila2', 'fila3', 'fila4'])

print("DataFrame con tipos mixtos:")
print(df_mixto)
print(f"\nTipos de datos:")
print(df_mixto.dtypes)

DataFrame con tipos mixtos:
       Entero  Flotante Texto  Booleano      Fecha Categoría
fila1       1       1.1     a      True 2024-01-01      bajo
fila2       2       2.2     b     False 2024-01-02     medio
fila3       3       3.3     c      True 2024-01-03      alto
fila4       4       4.4     d     False 2024-01-04     medio

Tipos de datos:
Entero                int64
Flotante            float64
Texto                object
Booleano               bool
Fecha        datetime64[ns]
Categoría          category
dtype: object


## Información Básica del DataFrame

In [10]:
# Información general del DataFrame
print("Información del DataFrame:")
print(df_personas.info())

print("\nPrimeras filas:")
print(df_personas.head(2))

print("\nÚltimas filas:")
print(df_personas.tail(2))

print("\nEstadísticas descriptivas:")
print(df_personas.describe())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   4 non-null      object
 1   Edad     4 non-null      int64 
 2   Ciudad   4 non-null      object
 3   Salario  4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 260.0+ bytes
None

Primeras filas:
  Nombre  Edad     Ciudad  Salario
0    Ana    25     Madrid    30000
1   Luis    32  Barcelona    45000

Últimas filas:
   Nombre  Edad    Ciudad  Salario
2   María    28  Valencia    38000
3  Carlos    35   Sevilla    52000

Estadísticas descriptivas:
            Edad      Salario
count   4.000000      4.00000
mean   30.000000  41250.00000
std     4.396969   9429.56344
min    25.000000  30000.00000
25%    27.250000  36000.00000
50%    30.000000  41500.00000
75%    32.750000  46750.00000
max    35.000000  52000.00000


## Conversión a NumPy

Pandas está construido sobre NumPy, por lo que puedes convertir fácilmente entre ambos.

In [11]:
# Convertir DataFrame a array de NumPy
array_numerico = df_numerico.to_numpy()
print("Array de NumPy desde DataFrame:")
print(array_numerico)
print(f"Tipo: {type(array_numerico)}")
print(f"Forma: {array_numerico.shape}")

# Nota: al convertir tipos mixtos, se convierte todo a 'object'
array_mixto = df_mixto.to_numpy()
print(f"\nTipo de array mixto: {array_mixto.dtype}")

Array de NumPy desde DataFrame:
[[-0.2469187   0.25635718  1.54918346 -1.74311228]
 [-0.37391066 -0.50517108  0.45475111  0.14579516]
 [-0.35681623 -1.4077534   0.88617637 -0.81673398]
 [-0.24809371  0.87791015  0.13539279 -2.94699327]
 [-0.08399282 -0.2896037  -0.75736284 -1.71934081]
 [ 1.20392003  0.32804768 -1.55485063  3.83545345]]
Tipo: <class 'numpy.ndarray'>
Forma: (6, 4)

Tipo de array mixto: object
