# Agregaciones de datos

A menudo, cuando se enfrenta a una gran cantidad de datos, un primer paso es calcular estadísticas resumidas para los datos en cuestión. Quizás las estadísticas de resumen más comunes son la media y la desviación estándar, que le permiten resumir los valores "típicos" en un conjunto de datos, pero otros agregados también son útiles (la suma, el producto, la mediana, el mínimo y el máximo, los cuantiles, etc. ).

NumPy tiene funciones de agregación integradas rápidas para trabajar en matrices; discutiremos y demostraremos algunos de ellos aquí.


**Los datos que vamos a usar**

The Meteoritical Society recopila datos sobre meteoritos que han caído a la Tierra desde el espacio exterior. Este conjunto de datos incluye la ubicación, masa, composición y año de caída de más de 45.000 meteoritos que han golpeado nuestro planeta.

Notas sobre puntos de datos faltantes o incorrectos:

Algunas entradas aquí contienen información de fecha que se analizó incorrectamente en la base de datos de la NASA. Como verificación al azar: cualquier fecha anterior a 860 EC o posterior a 2016 es incorrecta; estos deberían ser en realidad años antes de nuestra era. Puede haber otros errores y estamos buscando una forma de identificarlos.
algunas entradas tienen una latitud y longitud de 0N / 0E (frente a la costa occidental de África, donde sería bastante difícil recuperar meteoritos). Muchos de estos fueron descubiertos en la Antártida, pero no se dieron las coordenadas exactas. Las ubicaciones 0N / 0E probablemente deberían tratarse como NA.


El conjunto de datos contiene las siguientes variables:

**nombre:** el nombre del meteorito (normalmente una ubicación, a menudo modificado con un número, año, composición, etc.)

**id:** un identificador único para el meteorito

**nametype:** uno de:
    - válido: un meteorito típico
    - Relict: un meteorito que ha sido altamente degradado por el clima en la Tierra.

**recclass:** la clase del meteorito; una de una gran cantidad de clases basadas en características físicas, químicas y otras (consulte el artículo de Wikipedia sobre clasificación de meteoritos para obtener una cartilla)

**masa:** la masa del meteorito, en gramos

**caída:** si se vio caer el meteorito o se descubrió después de su impacto; uno de:
    - Cayó: se observó la caída del meteorito
    - Encontrado: no se observó la caída del meteorito
**año:** el año en que cayó el meteorito o el año en que se encontró (según el valor de la caída)

**reclamar:** la latitud del aterrizaje del meteorito

**reclong:** la longitud del aterrizaje del meteorito

**GeoLocation:** una tupla separada por comas y entre paréntesis que combina reclamar y reclong

**Sumar los valores en una matriz:**

Como ejemplo rápido, considere calcular el total de la masa de todos los meteoritos registrados en nuestro data set. Python mismo puede hacer esto usando la función de suma incorporada:

In [1]:
import numpy as np
import pandas as pd

data = pd.read_csv(r'meteorite-landings.csv')
data

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.77500,6.08333,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.18333,10.23333,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.21667,-113.00000,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.88333,-99.90000,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.16667,-64.95000,"(-33.166670, -64.950000)"
...,...,...,...,...,...,...,...,...,...,...
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.03700,17.01850,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25000,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.50460,"(49.789170, 41.504600)"


In [2]:
data['mass'].sum()

605281210.6380001

**Mínimo y Máximo:**
De manera similar, Python tiene funciones mínimas y máximas integradas, que se utilizan para encontrar el valor mínimo y el valor máximo de cualquier matriz dada:

In [3]:
data['mass'].max()

60000000.0

In [4]:
data['mass'].min()

0.0

Existen muchas herramientas para agregar datos:

    np.sum    np.nansum Calcular la suma de elementos
    np.prod   np.nanprod Calcular producto de elementos
    np.mean   np.nanmean Calcular la media de elementos
    np.std    np.nanstd Calcular la desviación estándar
    np.var    np.nanvar Calcular varianza
    np.min    np.nanmin Encuentra el valor mínimo
    np.max    np.nanmax Encuentra el valor máximo
    np.argmin np.nanargmin Encontrar índice de valor mínimo
    np.argmax np.nanargmax Encontrar índice de valor máximo
    np.median np.nanmedian Calcular la mediana de los elementos
    np.percentile np.nanpercentile Calcular estadísticas de elementos basadas en rangos
    np. any N / A Evaluar si algún elemento es verdadero
    np.all N / A Evaluar si todos los elementos son verdaderos

**Granularidad**

La granularidad representa el nivel de detalle al que se desea almacenar la información que se esté analizando. Por ejemplo, los datos referentes a los meteoritos pueden registrarse a nivel de nombre, clase o zona dependiendo de la información que tengamos. Mientras mayor sea el nivel de detalle de los datos, se tendrán mayores posibilidades de análisis, ya que los mismos podrán ser resumidos. Es decir, los datos que posean granularidad ﬁna (nivel de detalle) podrán ser resumidos hasta obtener una granularidad media o gruesa.

¿A qué granularidad está nuestro data set?

In [5]:
data

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.77500,6.08333,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.18333,10.23333,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.21667,-113.00000,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.88333,-99.90000,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.16667,-64.95000,"(-33.166670, -64.950000)"
...,...,...,...,...,...,...,...,...,...,...
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.03700,17.01850,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25000,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.50460,"(49.789170, 41.504600)"


In [6]:
data[data['name'].duplicated()]

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation


In [7]:
data[data['recclass'].duplicated()]

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
5,Adhi Kot,379,Valid,EH4,4239.0,Fell,1919.0,32.10000,71.80000,"(32.100000, 71.800000)"
8,Aguada,398,Valid,L6,1620.0,Fell,1930.0,-31.60000,-65.23333,"(-31.600000, -65.233330)"
11,Aïr,424,Valid,L6,24000.0,Fell,1925.0,19.08333,8.38333,"(19.083330, 8.383330)"
13,Akaba,426,Valid,L6,779.0,Fell,1949.0,29.51667,35.05000,"(29.516670, 35.050000)"
21,Alberta,454,Valid,L,625.0,Fell,1949.0,2.00000,22.66667,"(2.000000, 22.666670)"
...,...,...,...,...,...,...,...,...,...,...
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.03700,17.01850,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25000,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.50460,"(49.789170, 41.504600)"


Muestre los datos donde el nivel de granularidad sea la clase 

    DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)

In [8]:
data_class = data.groupby(by = 'recclass')
data_class

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015322864BC8>

In [9]:
data_class = data.groupby(by = 'recclass').mean()
data_class

Unnamed: 0_level_0,id,mass,year,reclat,reclong
recclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Acapulcoite,27540.851852,490.424407,1998.849057,-33.557804,40.802177
Acapulcoite/Lodranite,29920.333333,31.793333,1996.500000,-46.697274,95.803296
Acapulcoite/lodranite,46316.000000,44.933333,2005.500000,0.000000,0.000000
Achondrite-prim,36680.000000,1078.000000,2005.444444,0.000000,0.000000
Achondrite-ung,41284.561404,895.845614,2003.642857,0.534644,15.765216
...,...,...,...,...,...
Unknown,11619.285714,,1926.000000,-9.486666,44.340000
Ureilite,28814.100000,490.014900,1998.103333,-22.849095,55.952609
Ureilite-an,28119.750000,1287.125000,2000.000000,-47.729410,117.873990
Ureilite-pmict,20649.652174,262.685652,1995.521739,-8.140892,65.349957


¿Qué está mal con lo mostrado anteriormente?

In [10]:
data_class = data.groupby('recclass')['mass'].mean()
data_class

recclass
Acapulcoite               490.424407
Acapulcoite/Lodranite      31.793333
Acapulcoite/lodranite      44.933333
Achondrite-prim          1078.000000
Achondrite-ung            895.845614
                            ...     
Unknown                          NaN
Ureilite                  490.014900
Ureilite-an              1287.125000
Ureilite-pmict            262.685652
Winonaite                1129.013200
Name: mass, Length: 466, dtype: float64

In [11]:
data_class = pd.DataFrame(data.groupby('recclass', as_index = False)['mass'].mean())
data_class

Unnamed: 0,recclass,mass
0,Acapulcoite,490.424407
1,Acapulcoite/Lodranite,31.793333
2,Acapulcoite/lodranite,44.933333
3,Achondrite-prim,1078.000000
4,Achondrite-ung,895.845614
...,...,...
461,Unknown,
462,Ureilite,490.014900
463,Ureilite-an,1287.125000
464,Ureilite-pmict,262.685652


Muestre los datos a nivel de año

In [12]:
data_year = data.groupby('year', as_index = False).agg({'mass':['max','min'],'recclass':'count'})
data_year

Unnamed: 0_level_0,year,mass,mass,recclass
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,count
0,301.0,,,1
1,601.0,376.0,376.0,1
2,860.0,472.0,472.0,1
3,920.0,,,1
4,1399.0,107000.0,107000.0,1
...,...,...,...,...
263,2011.0,115777.0,0.0,713
264,2012.0,18000.0,0.0,234
265,2013.0,100000.0,30.0,11
266,2101.0,55.0,55.0,1


In [15]:
data = data[(data['year']>2010) & (data['year']<2016)]
data

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
86,Battle Mountain,56133,Valid,L6,2900.0,Fell,2012.0,40.66813,-117.18913,"(40.668130, -117.189130)"
138,Boumdeid (2011),57167,Valid,L6,3599.0,Fell,2011.0,17.17493,-11.34133,"(17.174930, -11.341330)"
194,Chelyabinsk,57165,Valid,LL5,100000.0,Fell,2013.0,54.81667,61.11667,"(54.816670, 61.116670)"
933,Sołtmany,53829,Valid,L6,1066.0,Fell,2011.0,54.00883,22.00500,"(54.008830, 22.005000)"
965,Sutter's Mill,55529,Valid,C,992.5,Fell,2012.0,38.80389,-120.90806,"(38.803890, -120.908060)"
...,...,...,...,...,...,...,...,...,...,...
38108,Tupelo,56551,Valid,EL6,280.0,Found,2012.0,34.24216,-88.77594,"(34.242160, -88.775940)"
45673,Yelland 001,54765,Valid,L6,4.5,Found,2011.0,39.55801,-114.42715,"(39.558010, -114.427150)"
45687,Yucca 015,57175,Valid,H-metal,3.0,Found,2011.0,34.81970,-114.27610,"(34.819700, -114.276100)"
45688,Yucca 016,57158,Valid,H5,25.9,Found,2011.0,34.82658,-114.27763,"(34.826580, -114.277630)"


In [16]:
data_year = data.groupby('year').agg({'mass':['max','min'],'recclass':'count'})
data_year

Unnamed: 0_level_0,mass,mass,recclass
Unnamed: 0_level_1,max,min,count
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2011.0,115777.0,0.0,713
2012.0,18000.0,0.0,234
2013.0,100000.0,30.0,11


¿Esto tiene sentido?

In [17]:
data['recclass'].count()

958

¿Cuantos meteoritos cayeron por año?

In [23]:
data_year = data.groupby('year').agg({'mass':['max','min'],'recclass':'nunique', 'id':'nunique'})
data_year

Unnamed: 0_level_0,mass,mass,recclass,id
Unnamed: 0_level_1,max,min,nunique,nunique
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2011.0,115777.0,0.0,85,713
2012.0,18000.0,0.0,64,234
2013.0,100000.0,30.0,8,11


In [19]:
data['id'].count()

958