# Capitulo 12: Obteniendo información acerca de DataFrames.

#### Ejemplos.

##### Obtener información y uso de memoria.
Para obtener información básica de un DataFrame incluyendo nombres y tipos de datos:


In [2]:
import pandas as pd

df = pd.DataFrame({
    'integers': [1, 2, 3],
    'floats': [1.5, 2.5, 3.0],
    'text': ['a', 'b', 'c'],
    'ints with None': [1, None, 3]
})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   integers        3 non-null      int64  
 1   floats          3 non-null      float64
 2   text            3 non-null      object 
 3   ints with None  2 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 224.0+ bytes


Para obtener el uso de memoria del data frame:

In [3]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   integers        3 non-null      int64  
 1   floats          3 non-null      float64
 2   text            3 non-null      object 
 3   ints with None  2 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 374.0 bytes


##### Lista el nombre de las columnas del dataframe.

In [4]:
df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [4,5,6],
    'c': [7,8,9]
})

Para listar nombres de columnas en un DataFrame:

In [5]:
list(df)

['a', 'b', 'c']

Este método de comprensión de listas es especialmente útil cuando se utiliza el depurador:

In [6]:
[c for c in df]

['a', 'b', 'c']

Esto es el camino largo:

In [9]:
sampledf = df.columns.tolist()
sampledf

['a', 'b', 'c']

También puedes imprimirlos como un índice en lugar de una lista (aunque esto no será muy visible para marcos de datos con muchas columnas):

Index(['a', 'b', 'c'], dtype='object')

##### Varios resumenes estadisticos en Data Frames.

In [12]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,5), columns=list('ABCDE'))

Generar diversas estadísticas resumidas. Para valores numéricos, el número de valores nulos/no NA (count), la media (mean), la desviación estándar estándar y los valores conocidos como resumen de cinco números:

- min : mínimo (observación más pequeña)
- 25%: cuartil inferior o primer cuartil (Q1)
- 50%: mediana (valor medio, Q2)
- 75%: cuartil superior o tercer cuartil (Q3)
- max : máximo (observación más grande)

In [13]:
df.describe()

Unnamed: 0,A,B,C,D,E
count,5.0,5.0,5.0,5.0,5.0
mean,0.362607,0.002674,0.260535,0.085936,0.727535
std,0.765364,1.315653,0.855857,1.377409,0.611949
min,-0.570695,-1.161486,-0.947881,-1.491495,0.055684
25%,-0.136936,-1.10131,-0.255843,-1.115335,0.125298
50%,0.251472,-0.309895,0.568005,0.365659,0.983671
75%,1.039079,0.614067,0.741045,0.857412,1.012757
max,1.230113,1.971994,1.197349,1.813437,1.460265


Read Getting information about DataFrames [online](https://riptutorial.com/pandas/topic/6697/getting-information-about-dataframes):
