# Vista preliminar de una columna

Con el metodo `describe()`es uina función que ofrece un resumen estadistico detallado para cada una de las columnas que lo componen. Es aplicable tanto a datos numéricos como, opcionalmente, a datos categóricos.

Por defecto el metodo `describe()` viene con datos númericos

Podemos utilizarlo de la siguiente forma:
```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.describe())

        capacity_mw   latitude       longitude
count  34936.000000  34936.000000  34936.000000 # Número de observaciones
mean     163.355148     32.816637     -6.972803 # media aritmética
std      489.636072     22.638603     78.405850 # Desviación estandar
min        1.000000    -77.847000   -179.977700 # Valor mínimo
25%        4.900000     29.256475    -77.641550 # 1er cuartil (25% de los datos están por debajo de este valor).
50%       16.745000     39.727750     -2.127100 # 2do cuartil (50% de los datos están por debajo de este valor).
75%       75.344250     46.263125     49.502675 # 3er cuartil (75% de los datos están por debajo de este valor).
max    22500.000000     71.292000    179.388700 # Valor máximo de los datos


# Describe() para datos categóricos

Aplicaremos el método de manera similar a como lo hicimos con los datos numéricos, pero esta vez agregaremos el parámetro include= dentro de describe() con el valor include='object'. Al incluir este parámetro, le estamos indicando de antemano al método que trabaje solo las columnas del tipo objeto. 

Veamos qué sucede:

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.describe(include='object'))

                       country           name       primary_fuel                 owner
count                      34936          34936        34936                    20868
unique                       167          34528           15                    10144
top     United States of America  Santo Antônio        Solar  Cypress Creek Renewable
freq                        9833              6        10665                      185

Al igual que en el caso numerico, analicemos lo que describe() nos devuelve:

* 'count': el número de valores no nulos.
* 'unique': el número de valores únicos.
* 'top': el valor que ocurre con mayor frecuencia.
* 'freq': el número de veces que ocurre el valor más frecuente.

Lo anterior lo podemos traducir de la siguiente forma, por ejemplo, para a variable country : 

* En total, tenemos 34936 registros no nulos.
* Nuestro dataset cuenta con información de 167 países.
* Estados Unidos es el país con mayor número de centrales eléctricas, exactamente 9.833.

Por último, si buscamos combinar las estadísticas para ambos tipos de columnas, podemos utilizar el siguiente valor: include='all'. Sin embargo, bajo esta modalidad, describe() nos devolverá valores NaN para aquellas estadísticas que no sean aplicables al tipo de datos de la columna. Por ejemplo, para una columna numérica, no tiene sentido calcular la frecuencia de los valores, por lo que ese dato aparecerá como NaN. 

He aquí el resultado utilizando `include='all'`
```python
                         country           name   capacity_mw      latitude     longitude primary_fuel                     owner
count                      34936          34936  34936.000000  34936.000000  34936.000000        34936                     20868 
unique                       167          34528           NaN           NaN           NaN           15                     10144
top     United States of America  Santo Antônio           NaN           NaN           NaN        Solar  Cypress Creek Renewables
freq                        9833              6           NaN           NaN           NaN        10665                       185
mean                         NaN            NaN    163.355148     32.816637     -6.972803          NaN                       NaN
std                          NaN            NaN    489.636072     22.638603     78.405850          NaN                       NaN
min                          NaN            NaN      1.000000    -77.847000   -179.977700          NaN                       NaN
25%                          NaN            NaN      4.900000     29.256475    -77.641550          NaN                       NaN
50%                          NaN            NaN     16.745000     39.727750     -2.127100          NaN                       NaN
75%                          NaN            NaN     75.344250     46.263125     49.502675          NaN                       NaN
max                          NaN            NaN  22500.000000     71.292000    179.388700          NaN                       NaN