# AST332 Introducción a Machine Learning para Astronomía
Pía Amigo, II Semestre 2024

## Repaso Python: Numpy y Pandas

En este notebook veremos algunas funciones y uso básico de la librería Numpy.

La librería Numpy:
- Nos permite manejar arreglos de n dimensiones.
- Estos arreglos son la base de los dataframes.
- Numpy usa algoritmos basado en C que son muy rápidos
- Numpy permite reducir la cantidad de loops en el código

Un arreglo es una grilla de valores del mismo tipo; esto hace que sea más compacto para guardar información que las listas.

La indexación debe usarse de acuerdo a la cantidad de dimensiones del arreglo




Algunos links de utilidad:
- https://realpython.com/numpy-tutorial/
- https://numpy.org/doc/stable/user/quickstart.html
- https://numpy.org/doc/stable/reference/ufuncs.html

In [1]:
import numpy as np
import pandas as pd

## NumPy

Es una librería de Python especializada en el cálculo numérico y el análisis de datos, especialmente para un gran volumen de datos.

La estructura básica de Numpy son los arreglos de múltiples dimensiones, que permiten representar colecciones de datos de un mismo tipo en varias dimensiones, y funciones muy eficientes para su manipulación.

La ventaja de Numpy frente a las listas predefinidas en Python es que el procesamiento de los arrays se realiza mucho más rápido (hasta 50 veces más) que las listas, lo cual la hace ideal para el procesamiento de vectores y matrices de grandes dimensiones.

In [None]:
mi_lista = [1,2,3]
mi_lista

In [None]:
type(mi_lista)

In [None]:
np.array(mi_lista)

In [None]:
arr=np.array(mi_lista)

In [None]:
type(arr)

In [None]:
mi_matriz = [[1,2.5,3],[4,5,6],[7,8,9]]
mi_matriz

In [None]:
type(mi_matriz)

In [None]:
matriz=np.array(mi_matriz)

In [None]:
print("Arreglo matriz:")
print("número total de elementos: ",matriz.size)
print("tipo de dato de los elementos: ", matriz.dtype)

In [None]:
matriz

### Cómo crear un arreglo
Numpy tiene incluídas muchas funciones para crear un arreglo

### <code>arange()</code> da un arreglo con números igualmente espaciados 

In [None]:
np.arange(0,10,3)

In [None]:
np.arange(0,10)

### <code>zeros</code> y <code>ones</code> generan arreglos solo con ceros y unos, en las dimensiones especificadas

In [None]:
np.zeros(3)

In [None]:
np.zeros((3,4)) #debemos ingresar las dimensiones como una tupla

In [None]:
np.ones(3)

In [None]:
np.ones((3,4), dtype=int)

### <code>linspace</code> genera números igualmente espaciados en un cierto intervalo dado. 
Linspace me permite definir la cantidad de valores que tendrá el arreglo, en cambio arange me permite
definir los intervalos y el espaciamiento de los valores pero no el tamaño del arreglo

In [None]:
np.linspace(0,10,5)# 20 números igualmente espaciados entre 0 y 10(inclusive). 

In [None]:
np.arange(0, 10, 2.5) # todos los números necesarios para ir de 0 a 10 (no incluído) en pasos de a 2

**Ejercicio: cree un arreglo que contenga una secuencia de valores entre 0 y 20, con separación 2 y otro arreglo que contenga una secuencia de 11 valores igualmente espaciados entre 0 y 20**


### Números aleatorios
Usamos las funciones <code>rand()</code> , <code>randn()</code>  y <code>randint()</code> para crear un arreglo de números aleatorios a partir de una distribución uniforme [0,1), una distribución normal y enteros aleatorios

In [None]:
np.random.rand(8)

In [None]:
np.random.rand(2,3)

In [None]:
np.random.randn(2)

In [None]:
np.random.randn(2,3)

In [None]:
np.random.randint(1,100)

In [None]:
np.random.randint(1,100,10)

In [None]:
#si usamos una "semilla" para generar los números aleatorios,
#siempre obtendremos el mismo resultado
#muy útil para reproducibilidad del código
np.random.seed(2) 

In [None]:
np.random.randint(1,100)

### Reshape
Podemos usar reshape para cambiar la forma del arreglo

In [None]:
arreglo=np.arange(0,25)
arreglo

In [None]:
arreglo.size

In [None]:
arreglo.reshape(25,1)

### <code>min()</code>, <code>max()</code>, <code>argmin()</code> y <code>argmax()</code>

In [None]:
arreglo_ran = np.random.randint(0,50,10)
arreglo_ran

In [None]:
arreglo_ran.min()

In [None]:
arreglo_ran.argmin()

In [None]:
arreglo_ran.max()

In [None]:
arreglo_ran.argmax()

El atributo <code>shape</code> nos permite saber la forma de un arreglo

In [None]:
arreglo.shape #vector 1d

In [None]:
arreglo

In [None]:
arreglo.reshape(1,25)

In [None]:
arreglo.reshape(1,25).shape

In [None]:
arreglo.reshape(25,1).shape

## Indexación
La indexación de arreglos de Numpy es similar a las listas

In [None]:
arr = np.arange(0,11)
arr

In [None]:
arr[8] #valor en el índice dado

In [None]:
arr[1:5] # sección del arreglo

Podemos cambiar uno o más elementos en el arreglo

In [None]:
arr[0:5]=100
arr

In [None]:
arr

El valor es cambiado en el arreglo original también para evitar problemas de memoria!! Para evitar cambiar el original, conviene hacer una copia

In [None]:
arr_copia = arr.copy()

arr_copia

**Para indexar arreglos en 2d: arr_2d[row][col] o arr_2d[row,col]**

In [None]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))
arr_2d

In [None]:
arr_2d[1] #índice fila

In [None]:
arr_2d[1][0] #slección de un sólo elemento

In [None]:
arr_2d[1,0]

In [None]:
arr_2d[2,1]

In [None]:
arr_2d[:2,1:] #intervalo de índices en fila,columna

**Ejercicio: Escriba un código que cree un arreglo de NumPy en 3D, y que indexe elementos desde las primeras 3 filas, y la segunda, tercera y cuarta columna**

### Operaciones matemáticas
Se pueden realizar operaciones matemáticas entre arreglos de numpy y también entre un escalar y un arreglo. La operación se hace por cada elemento

In [None]:
arr = np.arange(0,10)
arr2=np.arange(0,5)

In [None]:
arr

In [None]:
arr2

**Ejercicio: Crea dos arrays de NumPy del mismo tamaño y realiza operaciones elementales como suma, resta, multiplicación y división entre ellos.**

**Funciones universales**

In [None]:
np.sqrt(arr) # raíz cuadrada

In [None]:
np.exp(arr) # e^

In [None]:
np.sin(arr) #función seno

In [None]:
np.cos(arr) #función coseno

In [None]:
np.pi #numero pi en numpy

In [None]:
np.sin(np.pi/2)

In [None]:
np.log(arr) #logaritmo natural

In [None]:
np.log10(arr) #logaritmo base 10

## Pandas

Es una librería de Python especializada en el manejo y análisis de estructuras de datos. La estructura básica de Pandas son Series y Dataframes, basadas en los arrays de NumPy. Las ventajas de Pandas son:
* Permite leer y escribir fácilmente archivos en formato CSV, Excel y bases de datos SQL.
* Permite acceder a los datos mediante índices o nombres para filas y columnas.
* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
* Permite trabajar con series temporales.
* Realiza todas estas operaciones de manera muy eficiente.

## Series

Crearemos una estructura de datos de Serie, que es unidimensional. Podemos convertir a serie una lista, un array de numpy o un diccionario

In [None]:
#Ejemplo Series
d = {'Dato1': 1, 'Dato2': 2, 'Dato3': 3} #Datos como diccionario
d

In [None]:
ser1= pd.Series(data=d, index=['Dato1', 'Dato2', 'Dato3']) # Comando Pandas.Series(datos, indice de datos)
ser1

In [None]:
type(ser1)

In [None]:
#labels = ['a','b','c']
#arr = np.array([10,20,30])

Para acceder a un elemento de la serie, lo hacemos de forma similar a una lista. La diferencia es que la serie puede tener nombres especiales para los índices

<code>serie['NombreIndice']</code>

In [None]:
my_list = [10,20,30]
my_list

In [None]:
ser2=pd.Series(data=my_list) #el indice es automatico, 0, 1, 2...
ser2

In [None]:
ser2[0]

In [None]:
ser1

In [None]:
ser1[0]

In [None]:
ser1['Dato1']

In [None]:
labels = ['a','b','c']

In [None]:
ser3=pd.Series(data=my_list, index=labels) #el indice es lo que contiene la lista labels
ser3

In [None]:
ser3['a']

In [None]:
ser3[0]

## Dataframes

Crearemos un dataframe con dos columnas. 

In [None]:
#Ejemplo DataFrame
d = {'Columna 1': [1, 2, 3, 4], 'Columna 2': [3, 4, 8, 9]}


In [None]:
d

In [None]:
df = pd.DataFrame(data=d) #creo el dataframe
df

In [None]:
df1 = {'Nombre':['Carlos','Ignacia','Pedro','Carolina'],
       'Edad':  [20,31,19,19],
       'Altura':[1.63,1.70,1.83,1.65]}


In [None]:
df1

In [None]:
df1 = pd.DataFrame(df1)
df1

Para acceder a una columna del dataframe, indexamos de acuerdo al nombre de la columna. Hay dos formas:

<code>df1['columnname']
df1.columnname</code>

si el nombre de la columna tiene un espacio, no podemos acceder de la segunda forma

In [None]:
df1['Nombre'] #columna de df1

In [None]:
type(df1['Nombre']) #columna

In [None]:
type(df1)

In [None]:
df1.Nombre

In [None]:
df2 = {'Nombre':['Carlos','Ignacia','Pedro','Carolina'],
       'Edad Actual ':  [20,31,19,19],
      'Año': [1984,1999, 2001, 1965]}
df2 = pd.DataFrame(df2)

In [None]:
df2

In [None]:
df2.Nombre

In [None]:
df2['Edad Actual ']

In [None]:
df2['Año']

In [None]:
df2.Año

In [None]:
df2.columns

Podemos seleccionar ciertas columnas del dataframe, pasando las columnas de interés al dataframe en forma de lista

In [None]:
df1

**Ejercicio: Selecciona del Dataframe anterior sólo las columnas de Nombre y Altura**

### Leyendo dataframes desde archivos .csv y hojas de Excel

En la mayoría de las ocasiones, podemos leer difectametne un archivo (.xlsx, .csv, .json, .xml, etc) y guardarlo como dataframe. Los principales son

- Pandas.read_csv(path): Genera un Dataframe a partir de un archivo .csv que se encuentra en path
- Pandas.read_excel(path): Genera un Dataframe a partir de una Sheet en Excel que se encuentra en path. Podemos incluir que hojas del documento y cuales columnas deseamos leer


El comando <code>Pandas.head(n)</code> nos muestra sólo las primeras n líneas del dataframe

Busquemos datos de  Temperatura - Centro de Estudios Avanzados en Zonas Áridas (CEAZA) desde la página oficial de Ministerio de Ciencia 

In [2]:
año='2023' #escoja un año para bajar los datos
temperatura = pd.read_csv("https://raw.githubusercontent.com/MinCiencia/Datos-CambioClimatico/main/output/temperatura_dmc/"+año+"/"+año+"_temperatura_dmc.csv")


In [3]:
temperatura

Unnamed: 0,time,latitud,longitud,Ts_Valor,CodigoNacional,nombreEstacion
0,2023-01-01 01:00:00,-18.35555,-70.34028,20.0,180005.0,"Chacalluta, Arica Ap."
1,2023-01-01 02:00:00,-18.35555,-70.34028,20.3,180005.0,"Chacalluta, Arica Ap."
2,2023-01-01 03:00:00,-18.35555,-70.34028,20.5,180005.0,"Chacalluta, Arica Ap."
3,2023-01-01 04:00:00,-18.35555,-70.34028,20.4,180005.0,"Chacalluta, Arica Ap."
4,2023-01-01 05:00:00,-18.35555,-70.34028,19.8,180005.0,"Chacalluta, Arica Ap."
...,...,...,...,...,...,...
311678,2023-09-29 03:00:00,-62.19194,-58.97972,-3.0,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311679,2023-09-29 04:00:00,-62.19194,-58.97972,-2.9,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311680,2023-09-29 05:00:00,-62.19194,-58.97972,-2.8,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311681,2023-09-29 06:00:00,-62.19194,-58.97972,-2.7,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"


In [4]:
temperatura.columns

Index(['time', 'latitud', 'longitud', 'Ts_Valor', 'CodigoNacional',
       'nombreEstacion'],
      dtype='object')

In [9]:
len(temperatura.nombreEstacion.isnull())

311683

In [None]:
temperatura.head(2)

In [None]:
temperatura['nombreEstacion']

In [None]:
type(temperatura)

**Ejercicio: Determine cuántos datos hay en este set, cuántas columnas, y si hay datos faltantes en el dataframe**

### Otras funciones de dataframes

La función <code>isnull()</code> muestra las entradas del dataframe donde no hay datos (NaN o celdas vacías)

In [10]:
temperatura.isnull()#.head(3)

Unnamed: 0,time,latitud,longitud,Ts_Valor,CodigoNacional,nombreEstacion
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
311678,False,False,False,False,False,False
311679,False,False,False,False,False,False
311680,False,False,False,False,False,False
311681,False,False,False,False,False,False


La función <code>sum()</code> suma todas las entradas por columna

In [11]:
temperatura.isnull().sum()


time                0
latitud             0
longitud            0
Ts_Valor          385
CodigoNacional      0
nombreEstacion      0
dtype: int64

In [13]:
temperatura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 311683 entries, 0 to 311682
Data columns (total 6 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   time            311683 non-null  object 
 1   latitud         311683 non-null  float64
 2   longitud        311683 non-null  float64
 3   Ts_Valor        311298 non-null  float64
 4   CodigoNacional  311683 non-null  float64
 5   nombreEstacion  311683 non-null  object 
dtypes: float64(4), object(2)
memory usage: 14.3+ MB


In [None]:
temperatura.head(4)

La función <code>info()</code> muestra la información de cada columna del dataframe

In [None]:
temperatura.info()

In [17]:
temperatura[~temperatura.Ts_Valor.isnull()]

Unnamed: 0,time,latitud,longitud,Ts_Valor,CodigoNacional,nombreEstacion
0,2023-01-01 01:00:00,-18.35555,-70.34028,20.0,180005.0,"Chacalluta, Arica Ap."
1,2023-01-01 02:00:00,-18.35555,-70.34028,20.3,180005.0,"Chacalluta, Arica Ap."
2,2023-01-01 03:00:00,-18.35555,-70.34028,20.5,180005.0,"Chacalluta, Arica Ap."
3,2023-01-01 04:00:00,-18.35555,-70.34028,20.4,180005.0,"Chacalluta, Arica Ap."
4,2023-01-01 05:00:00,-18.35555,-70.34028,19.8,180005.0,"Chacalluta, Arica Ap."
...,...,...,...,...,...,...
311678,2023-09-29 03:00:00,-62.19194,-58.97972,-3.0,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311679,2023-09-29 04:00:00,-62.19194,-58.97972,-2.9,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311680,2023-09-29 05:00:00,-62.19194,-58.97972,-2.8,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"
311681,2023-09-29 06:00:00,-62.19194,-58.97972,-2.7,950001.0,"C.M.A. Eduardo Frei Montalva, Antártica"


La función <code>describe()</code> muestra la estadística descriptiva del dataframe, solo para columnas que contienen datos numéricos

In [None]:
temperatura.describe()

### Selección e Indexación

Para mostrar el contenido de sólo una columna, indexamos el dataframe con el nombre de la columna

In [None]:
temperatura['latitud']

Para crear una columna nueva

In [None]:
temperatura.columns

In [None]:
temperatura['dummy']=temperatura['latitud']+temperatura['longitud']




In [None]:
temperatura.head(5)

Eliminar columnas

In [None]:
temperatura.drop('dummy',axis=1) #axis 1: columnas

In [None]:
temperatura.columns

Para guardar el cambio, debemos agregar el parámetro <code>inplace=True</code> en la función <code>drop()</code>

In [None]:
temperatura.drop('dummy',axis=1, inplace=True)

In [None]:
temperatura.columns

podemos ordenar las filas usando <code>sort_values()</code>

In [None]:
temperatura.sort_values(by=["Ts_Valor"], ascending = True) 

**Ejercicio: Encuentre el valor más alto de temperatura registrada en 2023**

Para seleccionar filas, usamos las funciones <code>.loc</code> y <code>.iloc</code>

<code>df.loc['nombre fila']</code>

<code>df.loc[indice]</code>

In [None]:
temperatura.iloc[3]

<code>df.loc[indexfila,columna]</code>

In [None]:
temperatura.loc[4,'nombreEstacion']

<code>df.loc[[indexfila1,indexfila2], [columna1, columna2]]</code>

### Selección Condicional usando booleanos

In [None]:
temperatura.nombreEstacion.value_counts()

In [None]:
temperatura['nombreEstacion']=='Putre'

El resultado es una serie que contiene booleanos <code>True</code> o <code>False</code>

Si queremos las filas del dataframe que cumplen con la condició booleana que la columna 'Sexo' == 'Mujer', debemos indexar el dataframe con la condición

In [None]:
temperatura[temperatura['nombreEstacion']=='Putre']

Podemos usar más de una condición con los operadores lógicos and, or y not, sin embargo, cuando usamos pandas, debemos usar &, | y ~ ya que los otros operadores están hechos para escalares y no para comparar vectores . Debemos usar paréntesis para separar cada condición

**Ejercicio: Filtre el dataframe para encontrar las estaciones de medicion que midieron temperaturas entre los -20 y -10ºC**

**Ejercicio: Cree una nueva columna 'T_K' que tenga las temperaturas en Kelvin**

**Encuentre la estación que tiene un promedio de temperaturas más alto**

Cuando filtramos un dataframe con una condición booleana, podemos guardar el resultado en otro dataframe, pero el resultado conservará los índices en el dataframe original

In [None]:
putre=temperatura[temperatura['nombreEstacion']=='Putre']
putre

Para resetear los índices en el nuevo dataframe, usamos la función <code>reset_index()</code>

In [None]:
putre.reset_index(drop=True, inplace=True)

In [None]:
putre.head(5)

**Ejercicio: A partir del dataframe temperatura cree un nuevo dataframe que contenga sólo los datos de las estaciones al norte de Santiago. Escoja el criterio de acuerdo a los datos del dataframe**

### Guardar dataframes en archivos Excel o CSV

Podemos guardar dataframes que hemos creado en nuestro código manipulando los datos con los que estamos trabajando. Veremos cómo hacerlo para excel y csv

Para un archivo **CSV** se usa el comando <code>to_csv()</code>. El nombre del archivo que vamos a crear debe ir en comillas.

In [None]:
putre.to_csv('putre.csv',index=False, encoding = 'utf-8')

Para una hoja de cálculo de **Excel** usamos el comando <code>to_excel()</code>

In [None]:
putre.to_excel('putre.xlsx',sheet_name='Hoja1', encoding='utf-8')

## Manejo de datos faltantes

En general, cuando existen datos faltantes (celdas vacías, NaN o None o NA en R), pandas los excluye para algunas acciones (como <code>mean(), sum(), describe()</code>, etc). Sin embargo, es importante contabilizar cuantos datos faltan, y en muchas situaciones, decidir si los eliminamos o si rellenamos esa celda con algún valor representativo.

Crearemos un dataframe con datos faltantes, para eso agregamos NaN usando la librería numpy

**Ejercicio: Crea un dataframe con 3 columnas y 5 filas, que tengan datos faltantes (puedes agregar datos usando numpy y el objeto np.nan)**

In [None]:
df=pd.DataFrame(...) #crea el dataframe aca

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})
df

In [None]:
df.info()

- Si queremos saber si alguna columna del dataframe contiene NaN, usamos <code>isna()</code>, que retorna valores booleanos, donde True es donde hay un NaN

In [None]:
df['nombre columna'] #reemplaza el valor del nombre de columna

In [None]:
df['nombre columna'].isna()

In [None]:
df[df['nombre columna'].isna()]

In [None]:
df.isna()

In [None]:
df

- También existe la negación de <code>isna()</code>, <code>notna()</code>, que retorna True para no NaN

In [None]:
df.notna()

- Con <code>dropna()</code> podemos eliminar todas las filas que contienen algún valor NaN en alguna de las columnas

In [None]:
df

In [None]:
df.dropna()#axis=0

In [None]:
df.dropna(axis=1) #lo mismo pero para columnas con axis=1

- Si queremos rellenar valores, podemos hacerlo con <code>fillna()</code>, que rellenará los elementos NaN con el valor indicado

In [None]:
df_2=df.fillna(value=1000)

In [None]:
df_2

In [None]:
df

In [None]:
df['A'].fillna(value=df['A'].mean())

## Datos únicos
Muchas veces tenemos datos que se repiten, pero queremos saber cuántos datos tienen valores únicos en el dataframe

In [None]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head() 

- <code>unique()</code> nos muestra un arreglo con los valores únicos en el dataframe, para la columna indicada

**Encuentra los valores únicos de la columna col2**

- <code>nunique()</code> nos muestra la cantidad valores únicos en el dataframe, para la columna indicada

In [None]:
df['col2'].nunique()


- <code>value_counts()</code> nos muestra una lista con los valores únicos y la cantidad de veces que se repiten en el dataframe, para la columna indicada

In [None]:
df.value_counts()

In [None]:
df['col2'].value_counts()


In [None]:
type(df['col2'].value_counts())


podemos aplicar una función lambda para que <code>value_counts()</code> solo nos muestre los elementos únicos que tienen al menos un duplicado

In [None]:
df['col2'].value_counts().loc[lambda x: x>1] 


## Remover duplicados

Podemos identificar las filas que contienen duplicados, y si consideramos necesario, eliminarlos del dataframe

In [None]:
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"], "k2": [1, 1, 2, 3, 3, 4, 4]})

In [None]:
["one", "two"] * 3 + ['two']

In [None]:
['one', 'two', 'one', 'two', 'one', 'two', 'two']

In [None]:
data

- <code>duplicated()</code> nos indica con un booleano las filas que son valores duplicados

In [None]:
data.duplicated() #para todo el dataframe, considerando todos los elementos en la fila

In [None]:
data.k1.duplicated() #para una columna en particulara

In [None]:
data

In [None]:
data.drop_duplicates(subset=["k1"])

Por defecto, <code>drop_duplicates()</code> mantiene la primera aparición del  elemento repetido, pero podemos querer mantener la última

In [None]:
data

In [None]:
data.drop_duplicates(["k1"], keep="last")

## Groupby
Permite agrupar filas para llamar funciones de agregación. En general, con esta función *agruparemos* usando una o más columnas, *seleccionamos* la columna que nos interesa analizar y *aplicamos* una función a los elementos agrupados

![groupby.png](attachment:groupby.png)

In [None]:

data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350]}

In [None]:
df=pd.DataFrame(data)
df

Podemos agrupar los datos usando la columna 'Company'

In [None]:
df.groupby('Company') #genera un objeto de dataframe agrupado

la función groupby no produce un resultado hasta que le demos una función que realizar

In [None]:
df_comp=df.groupby('Company')

In [None]:
df_comp.mean(numeric_only=True)

In [None]:
df.groupby('Company')[['Sales']].mean()

In [None]:
df_mean=df.groupby('Company')[['Sales']].mean()

In [None]:
type(df_mean)

In [None]:
df_comp.std()

In [None]:
df.groupby('Company')[['Sales']].std()

In [None]:
df.groupby('Company')[['Sales']].min()

In [None]:
df.groupby('Company')[['Sales']].max()

In [None]:
df.groupby('Company')[['Sales']].count()

In [None]:
df.groupby('Company').describe()

In [None]:
df

In [None]:
df.groupby('Company')[['Sales']].sum()

In [None]:
df.groupby('Company').size()

In [None]:
df.groupby('Company').get_group('FB')

In [None]:
df.groupby('Company')['Sales'].sum() # resulta una serie

In [None]:
df.groupby('Company')[['Sales']].sum() #resulta un dataframe

In [None]:
df.groupby('Company', as_index=False)[['Sales']].sum() #resulta un dataframe

In [None]:
df

In [None]:
df.groupby(['Company','Person'])[['Sales']].sum() 

**Ejercicio: Agrupe el dataframe temperatura por estacion y calcule el promedio de temperaturas en cada estacion**