# Atributos y datos subyacentes (estructura interna)üêº
Los objetos de Pandas como ```Series```, ```DataFrames``` e ```Index``` tiene una serie de atributos que permiten acceder a sus __metadatos__ (informaci√≥n sobre los datos) y __datos internos__.

__Etiquetas de ejes:__ üè∑Ô∏è
   - __```Series```:__ Tiene ```index```(su √∫nico eje).üß©
   - __```DataFrame```:__ Tiene ```index``` (filas) y ```columns```(columnas)üß±
 
 __Notaüí°:__ Tanto ```Index``` como ```columns``` son atributos __modificables__, podemos asginarles valores directamente para cambiar etiquetas.

In [1]:
import pandas as pd
import numpy as np

## 1. __Acceso__ a etiquetas de ejes y dimesiones de objetosüßÆ

In [8]:
# Crear DataFrame a partir de un array NumPy (3 filas, 3 columnas)
data = np.arange(1, 10).reshape(3, 3)
df = pd.DataFrame(data, columns=["columna_a", "columna_b", "columna_c"], index=["fila_1", "fila_2", "fila_3"])

# Crear Series a partir de un array NumPy
s = pd.Series(np.array([10, 20, 30]), index=["fila_x", "fila_y", "fila_z"])
print(f'Dataframe:\n{df}')
print('=' * 40)
print(f'Serie:\n{s}')

Dataframe:
        columna_a  columna_b  columna_c
fila_1          1          2          3
fila_2          4          5          6
fila_3          7          8          9
Serie:
fila_x    10
fila_y    20
fila_z    30
dtype: int64


### 1.1. Dimensiones del Objeto: atributo ```shape```üìè
 - Proporciona las __dimesiones__ del objeto Panda. 
 - Devuelve una tupla ```(cantidad_filas,  cantidad_columnas)```.
 - Consistente con un ```numpy.ndarray```

In [12]:
print('Dimesiones del objeto DataFrame:')
print(df.shape)  
print('=' * 35)
print('Dimesiones del objeto Serie:')
print(s.shape)   

Dimesiones del objeto DataFrame:
(3, 3)
Dimesiones del objeto Serie:
(3,)


### 1.2.Etiquetas del Eje 0 (Filas): atributo ```index``` üè∑Ô∏è
 El __eje 0__ es el √∫nico eje de una ```Series``` y el eje de las filas de un ```DataFrame```.

In [14]:
print('Para el DataFrame:')
print(df.index) 
print('='* 55) 
print('Para la serie:')
print(s.index)  

Para el DataFrame:
Index(['fila_1', 'fila_2', 'fila_3'], dtype='object')
Para la serie:
Index(['fila_x', 'fila_y', 'fila_z'], dtype='object')


### 1.3. Etiquetas del Eje 1 (Columnas): atributo ```columns```üè∑Ô∏è.
El es el __conjunto de etiquetas__ del eje de las columnas de un DataFrame.

In [None]:
# Acceso al conjunto de etiquetas de las columnas
print('Solo para DataFrame')
print( type(df.columns) )
print('=' * 65)
print(df.columns)  

Solo para DataFrame
<class 'pandas.core.indexes.base.Index'>
Index(['columna_a', 'columna_b', 'columna_c'], dtype='object')


## 2. Reasignaci√≥n de etiquetas
Los atributos ```index``` y ```columns``` , se puede __reasignar__ de forma segura para cambiar sus __nombres__.

In [33]:
fechas = pd.date_range('2024-01-01', periods= 8)
df = pd.DataFrame(np.random.randn(8, 3), index=fechas, columns = ["columna_a", "columna_b", "columna_b"])
print("DataFrame original‚ú®:")
print(df)


DataFrame original‚ú®:
            columna_a  columna_b  columna_b
2024-01-01  -0.229676  -2.308104   0.709500
2024-01-02   0.817157  -0.229651  -0.622907
2024-01-03  -0.455729  -0.328253   0.821690
2024-01-04   0.298778  -0.126305  -0.568595
2024-01-05  -1.972173   0.351612  -0.255340
2024-01-06   1.813963   1.202417  -0.231575
2024-01-07   0.288478   0.615991  -0.765852
2024-01-08   1.258554  -1.096219   0.631496


In [34]:
# Reasignaci√≥n de etiquetas(cambiamos nombres de columas)
print(f'Columnas del DataFrame, antes:\n{df.columns}')
print('=' * 70)
df.columns = [x.upper() for x in df.columns]
print(f'Columnas del DataFrame, despu√©s:\n{df.columns}')

Columnas del DataFrame, antes:
Index(['columna_a', 'columna_b', 'columna_b'], dtype='object')
Columnas del DataFrame, despu√©s:
Index(['COLUMNA_A', 'COLUMNA_B', 'COLUMNA_B'], dtype='object')


## 3. Acceso a datos subyacentesüì¶
Los objetos (```Index```, ```Series```, ```DataFrame```) actua como __contenedores (clases de pandas que actuan como envoltorios) para arrays__, se son las estructuras que realmente almacenan, manejan y procesas los datos. Para muchos tipos de datos el array sbuyacente es ```numpy.ndarray```.
### 3.1. Propiedad o atributo ```array``` (```Index``` y ```Series```)üîë
Obtenemos los datos internos de un ```Index``` o ```Series``` como un __array de extensi√≥n__ ```ExtensionArray```. Este atributo simmpre devolver√° un ```ExtensionArray```y nunca copiar√° los datos.


In [58]:
s = pd.Series(np.random.randn(5), index = ["a", "b", "c", "d", "e"])
print('Serie de ejemploüß©:')
print(s)

Serie de ejemploüß©:
a   -1.061693
b   -0.709764
c    0.736624
d    1.403236
e   -2.508735
dtype: float64


In [59]:
# Obtener el array de etiquetas de la Serie
datos_array = s.array
print(f'Datos de la serie:\n{datos_array}')

Datos de la serie:
<NumpyExtensionArray>
[-1.0616933174956993, -0.7097640754246526,  0.7366239662812407,
  1.4032359647368415,  -2.508734790015093]
Length: 5, dtype: float64


In [60]:
# Obtener el array de etiquetas de un Index
index_serie = s.index
print(f'Index de una serie:\n{index_serie}')
print('=' * 55)
array_index = index_serie.array
print(f'Array de un Index de una serie:\n{array_index}')



Index de una serie:
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Array de un Index de una serie:
<NumpyExtensionArray>
['a', 'b', 'c', 'd', 'e']
Length: 5, dtype: object


### 3.2. M√©todo ```to_numpy()``` (Series y DataFrames)üöÄ
Usando el metodo ```to_numpy()``` (o el uso m√©todo ```numpy.asarray()``` ) devuelven un ```numpy.ndarray```. 

### 3.2.1. Convirtiendo Series de Pandas a un NumPy Array

In [67]:
numpy_array_s = s.to_numpy()
print(f'Array de NumPy a partir de una Serie:\n{numpy_array_s}')

Array de NumPy a partir de una Serie:
[-1.06169332 -0.70976408  0.73662397  1.40323596 -2.50873479]


### 3.2.  Convertir Series controlando el ```dtype``` con Zonas HorariasüìÖ
Me m√©todo ```to_numpy()``` nos da en control sobre el tipo de datos (```dtype```) del ```ndarray``` resultante. Esto es √∫til para casos como _datetimes_ con zonas horaria _(tz-ware)_. Asimismo, NumPy no entiende las zonas horarias.

In [73]:
#Crear una Series de datetimes con zona horaria (CET)
ser = pd.Series(pd.date_range("2000", periods = 2, tz = "CET"))
print(f'üï∞Ô∏èSerie con zona horaria (CET):\n{ser}')
print('=' * 70)
# 1. Preservar la zona horaria(dtype = object) -> Almacena objetos Timestamp
print('üü¢Preservar TZ con dtype = object:')
tz_preserved = ser.to_numpy(dtype = object)
print(tz_preserved)
print('=' * 70)
#2. Descartar la zona horaria (dtype = "datetime64[ns]") -> convierte a UTC
print('üî¥Descartar TZ con dtype = "datetime64[ns] (convierte a UTC)')
tz_discarded = ser.to_numpy(dtype = "datetime64[ns]")
print(tz_discarded)

üï∞Ô∏èSerie con zona horaria (CET):
0   2000-01-01 00:00:00+01:00
1   2000-01-02 00:00:00+01:00
dtype: datetime64[ns, CET]
üü¢Preservar TZ con dtype = object:
[Timestamp('2000-01-01 00:00:00+0100', tz='CET')
 Timestamp('2000-01-02 00:00:00+0100', tz='CET')]
üî¥Descartar TZ con dtype = "datetime64[ns] (convierte a UTC)
['1999-12-31T23:00:00.000000000' '2000-01-01T23:00:00.000000000']


### 3.3. Para DataFrames (Datos Homog√©neos)
Esto cuando todas las columnas de un ```DataFrame``` tienen el __mismo tipo de dato (homog√©neo)__, ```to_numpy``` devuelve el array de datos subyacentes.

In [75]:
# Reutilizando el DataFrame (que solo contiene floats, es homog√©neo)
numpy_array_df = df.to_numpy()
print('DataFrame (homog√©neo) a NumPy Array:')
print(numpy_array_df)

DataFrame (homog√©neo) a NumPy Array:
[[-0.22967615 -2.30810365  0.70949986]
 [ 0.81715651 -0.22965107 -0.62290653]
 [-0.45572921 -0.32825266  0.82168957]
 [ 0.29877792 -0.12630455 -0.56859498]
 [-1.97217252  0.35161221 -0.25533958]
 [ 1.81396317  1.20241692 -0.23157512]
 [ 0.28847796  0.61599082 -0.76585195]
 [ 1.25855367 -1.09621924  0.63149624]]


üìåSobre datos heterogeneos: Si el ```DataFrame``` tiene columnas de diferentes tipos (por ejemplos, ```int``` , ```srt```, ```float```). Este m√©todo intentar√° encontrar un ```dtype``` com√∫n para todos.
## Desventajas del m√©todo la propiedad o atributos ```values```üö´
Antes  se usaba mucho la propiedad ```values``` para extraer los datos. Se recomienda evitar este propiedad: 
 - __Ambiguedad:__ No esta claro si ```values``` devuelve un array de ```Numpy``` o un array de extensi√≥n (```ExtensionArray```) cuando la serie usa un tipo de extensi√≥n.
 - __Copia y coerci√≥n de tipos en DataFrame:__ Cuando un ```DataFrame``` tiene tipos mixtos, puede copiar los datos y forzar la coerci√≥n de tipos a un ```dtype``` com√∫n, esto lo hace costoso.

## Recomendaci√≥n:

 - Usar ```array``` si quieres el array de extensi√≥n subyacente (sin copias).
 - Usa ```to_numpy()``` si quieres un array de NumPy (puede implicar copia/coerci√≥n).