# Visualización y Exploración de Datos

Este notebook cubre técnicas para visualizar y explorar datos en pandas.

In [1]:
import numpy as np
import pandas as pd

# Crear datos de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=10)
df = pd.DataFrame({
    'A': np.random.randn(10),
    'B': np.random.randn(10),
    'C': np.random.randint(1, 100, 10),
    'D': ['grupo1', 'grupo2', 'grupo1', 'grupo2', 'grupo1', 
          'grupo2', 'grupo1', 'grupo2', 'grupo1', 'grupo2']
}, index=fechas)

print("DataFrame de ejemplo:")
print(df)

DataFrame de ejemplo:
                   A         B   C       D
2024-01-01  0.496714 -0.463418  62  grupo1
2024-01-02 -0.138264 -0.465730  62  grupo2
2024-01-03  0.647689  0.241962  47  grupo1
2024-01-04  1.523030 -1.913280  62  grupo2
2024-01-05 -0.234153 -1.724918  51  grupo1
2024-01-06 -0.234137 -0.562288  55  grupo2
2024-01-07  1.579213 -1.012831  64  grupo1
2024-01-08  0.767435  0.314247   3  grupo2
2024-01-09 -0.469474 -0.908024  51  grupo1
2024-01-10  0.542560 -1.412304   7  grupo2


## Métodos Básicos de Visualización

In [2]:
# Primeras y últimas filas
print("Primeras 3 filas:")
print(df.head(3))

print("\nÚltimas 3 filas:")
print(df.tail(3))

# Información del DataFrame
print("\nInformación del DataFrame:")
print(f"Forma: {df.shape}")
print(f"Índice: {df.index}")
print(f"Columnas: {df.columns.tolist()}")
print(f"Tipos de datos:\n{df.dtypes}")

Primeras 3 filas:
                   A         B   C       D
2024-01-01  0.496714 -0.463418  62  grupo1
2024-01-02 -0.138264 -0.465730  62  grupo2
2024-01-03  0.647689  0.241962  47  grupo1

Últimas 3 filas:
                   A         B   C       D
2024-01-08  0.767435  0.314247   3  grupo2
2024-01-09 -0.469474 -0.908024  51  grupo1
2024-01-10  0.542560 -1.412304   7  grupo2

Información del DataFrame:
Forma: (10, 4)
Índice: DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10'],
              dtype='datetime64[ns]', freq='D')
Columnas: ['A', 'B', 'C', 'D']
Tipos de datos:
A    float64
B    float64
C      int64
D     object
dtype: object


In [3]:
# Estadísticas descriptivas
print("Estadísticas descriptivas:")
print(df.describe())

print("\nEstadísticas solo para columnas numéricas:")
print(df.describe(include=[np.number]))

print("\nEstadísticas para columnas categóricas:")
print(df.describe(include=['object']))

Estadísticas descriptivas:
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.448061  -0.790658  46.400000
std     0.723008   0.755325  22.589083
min    -0.469474  -1.913280   3.000000
25%    -0.210169  -1.312436  48.000000
50%     0.519637  -0.735156  53.000000
75%     0.737498  -0.463996  62.000000
max     1.579213   0.314247  64.000000

Estadísticas solo para columnas numéricas:
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.448061  -0.790658  46.400000
std     0.723008   0.755325  22.589083
min    -0.469474  -1.913280   3.000000
25%    -0.210169  -1.312436  48.000000
50%     0.519637  -0.735156  53.000000
75%     0.737498  -0.463996  62.000000
max     1.579213   0.314247  64.000000

Estadísticas para columnas categóricas:
             D
count       10
unique       2
top     grupo1
freq         5


## Transposición y Ordenamiento

In [4]:
# Transponer el DataFrame
print("DataFrame transpuesto:")
print(df.T)

# Ordenar por índice
print("\nOrdenar por índice (descendente):")
print(df.sort_index(ascending=False).head())

# Ordenar por columnas
print("\nOrdenar columnas alfabéticamente:")
print(df.sort_index(axis=1))

DataFrame transpuesto:
  2024-01-01 2024-01-02 2024-01-03 2024-01-04 2024-01-05 2024-01-06  \
A   0.496714  -0.138264   0.647689    1.52303  -0.234153  -0.234137   
B  -0.463418   -0.46573   0.241962   -1.91328  -1.724918  -0.562288   
C         62         62         47         62         51         55   
D     grupo1     grupo2     grupo1     grupo2     grupo1     grupo2   

  2024-01-07 2024-01-08 2024-01-09 2024-01-10  
A   1.579213   0.767435  -0.469474    0.54256  
B  -1.012831   0.314247  -0.908024  -1.412304  
C         64          3         51          7  
D     grupo1     grupo2     grupo1     grupo2  

Ordenar por índice (descendente):
                   A         B   C       D
2024-01-10  0.542560 -1.412304   7  grupo2
2024-01-09 -0.469474 -0.908024  51  grupo1
2024-01-08  0.767435  0.314247   3  grupo2
2024-01-07  1.579213 -1.012831  64  grupo1
2024-01-06 -0.234137 -0.562288  55  grupo2

Ordenar columnas alfabéticamente:
                   A         B   C       D
2024-01-01

In [5]:
# Ordenar por valores
print("Ordenar por columna B (ascendente):")
print(df.sort_values(by='B'))

print("\nOrdenar por múltiples columnas:")
print(df.sort_values(by=['D', 'C'], ascending=[True, False]))

Ordenar por columna B (ascendente):
                   A         B   C       D
2024-01-04  1.523030 -1.913280  62  grupo2
2024-01-05 -0.234153 -1.724918  51  grupo1
2024-01-10  0.542560 -1.412304   7  grupo2
2024-01-07  1.579213 -1.012831  64  grupo1
2024-01-09 -0.469474 -0.908024  51  grupo1
2024-01-06 -0.234137 -0.562288  55  grupo2
2024-01-02 -0.138264 -0.465730  62  grupo2
2024-01-01  0.496714 -0.463418  62  grupo1
2024-01-03  0.647689  0.241962  47  grupo1
2024-01-08  0.767435  0.314247   3  grupo2

Ordenar por múltiples columnas:
                   A         B   C       D
2024-01-07  1.579213 -1.012831  64  grupo1
2024-01-01  0.496714 -0.463418  62  grupo1
2024-01-05 -0.234153 -1.724918  51  grupo1
2024-01-09 -0.469474 -0.908024  51  grupo1
2024-01-03  0.647689  0.241962  47  grupo1
2024-01-02 -0.138264 -0.465730  62  grupo2
2024-01-04  1.523030 -1.913280  62  grupo2
2024-01-06 -0.234137 -0.562288  55  grupo2
2024-01-10  0.542560 -1.412304   7  grupo2
2024-01-08  0.767435  0.3142

## Información Detallada y Resúmenes

In [6]:
# Información detallada del DataFrame
print("Información detallada:")
df.info()

print("\nMemoria utilizada:")
print(df.memory_usage(deep=True))

print("\nNúmero de valores únicos por columna:")
print(df.nunique())

print("\nValores únicos en columna D:")
print(df['D'].unique())

Información detallada:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 10 entries, 2024-01-01 to 2024-01-10
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       10 non-null     float64
 1   B       10 non-null     float64
 2   C       10 non-null     int64  
 3   D       10 non-null     object 
dtypes: float64(2), int64(1), object(1)
memory usage: 400.0+ bytes

Memoria utilizada:
Index     80
A         80
B         80
C         80
D        550
dtype: int64

Número de valores únicos por columna:
A    10
B    10
C     7
D     2
dtype: int64

Valores únicos en columna D:
['grupo1' 'grupo2']


In [7]:
# Conteo de valores
print("Conteo de valores en columna D:")
print(df['D'].value_counts())

print("\nConteo de valores nulos:")
print(df.isnull().sum())

print("\nConteo de valores no nulos:")
print(df.count())

Conteo de valores en columna D:
D
grupo1    5
grupo2    5
Name: count, dtype: int64

Conteo de valores nulos:
A    0
B    0
C    0
D    0
dtype: int64

Conteo de valores no nulos:
A    10
B    10
C    10
D    10
dtype: int64


## Muestreo y Visualización Rápida

In [8]:
# Muestra aleatoria
print("Muestra aleatoria de 3 filas:")
print(df.sample(3))

print("\nMuestra aleatoria del 30% de los datos:")
print(df.sample(frac=0.3))

# Percentiles específicos
print("\nPercentiles específicos para columna C:")
print(df['C'].quantile([0.25, 0.5, 0.75, 0.9]))

Muestra aleatoria de 3 filas:
                   A         B   C       D
2024-01-10  0.542560 -1.412304   7  grupo2
2024-01-03  0.647689  0.241962  47  grupo1
2024-01-08  0.767435  0.314247   3  grupo2

Muestra aleatoria del 30% de los datos:
                   A         B   C       D
2024-01-01  0.496714 -0.463418  62  grupo1
2024-01-06 -0.234137 -0.562288  55  grupo2
2024-01-03  0.647689  0.241962  47  grupo1

Percentiles específicos para columna C:
0.25    48.0
0.50    53.0
0.75    62.0
0.90    62.2
Name: C, dtype: float64
