In [1]:
import numpy as np
import pandas as pd

# CONTENIDO

1. [Obteniendo y conociendo los datos](#obtiene_conoce_datos)
2. [Ordenar y filtrar](#ordenar_filtrar)
3. [Agrupamiento](#agrupamiento)
4. [Aplicación de funciones](#aplicacion_funciones)

[Referencias](#refe)

## Que es pandas?
Biblioteca de software libre de escrita a partir de NumPy para la manipulación y análisis de datos, especialmente usando tablas numéricas (**DataFrames**) y series temporales (**Series**). 

**Estructura básica**


![](./imgs/pandas-data-structure.png) 

<a id='obtiene_conoce_datos'></a>
# 1. Obteniendo y conociendo los datos

### Series temporales

In [2]:
ciudades = pd.Series(['BUCARAMANGA','MEDELLIN','BOGOTA','CALI'])
ciudades

0    BUCARAMANGA
1       MEDELLIN
2         BOGOTA
3           CALI
dtype: object

In [3]:
poblacion = pd.Series([581130,2569000,7181000,2228000])
poblacion

0     581130
1    2569000
2    7181000
3    2228000
dtype: int64

### Creando DataFrames a mano

Creamos un diccionario con las **Series**

In [4]:
informacion = {'Nombre_ciudades': ciudades,
              'Poblacion': poblacion}
informacion

{'Nombre_ciudades': 0    BUCARAMANGA
 1       MEDELLIN
 2         BOGOTA
 3           CALI
 dtype: object,
 'Poblacion': 0     581130
 1    2569000
 2    7181000
 3    2228000
 dtype: int64}

Ya con las series podemos crear el **DataFrame**.

In [5]:
df = pd.DataFrame(informacion)
df

Unnamed: 0,Nombre_ciudades,Poblacion
0,BUCARAMANGA,581130
1,MEDELLIN,2569000
2,BOGOTA,7181000
3,CALI,2228000


![](./imgs/Ejercicio.png)
**EJERCICIO:** Crear un DataFrame cuyas columnas sean 'Nombre', 'Nacimiento', 'Municipio_de_residencia' (Intentar soluciones diferentes)

In [8]:
#`Solución:`
nombre = pd.Series(['Eliana', 'Juan', 'Leonardo', 'Daniela', 'Profe'])
edad = pd.Series([38, 21, 29, 23, 38])
municipio = pd. Series(['Bucamanga', 'Bucamanga', 'Socorro', 'Bucamanga', 'Bucamanga'])
infromacion_curso = pd.DataFrame({'Nombre ': nombre,
                                 'Edad ': edad,
                                 'Municipio ': municipio })
infromacion_curso

Unnamed: 0,Nombre,Edad,Municipio
0,Eliana,38,Bucamanga
1,Juan,21,Bucamanga
2,Leonardo,29,Socorro
3,Daniela,23,Bucamanga
4,Profe,38,Bucamanga


En el archivo `data/ejemplo.csv` ya se encontraban algunos datos de ejemplo. Se puede **Cargar el archivo** para visualizarlo

In [9]:
informacion = pd.read_csv('Data/ejemplo.txt')
informacion

Unnamed: 0,Nombre,Fecha_de_Nacimiento,Municipio de residencia
0,Juan,1999,Bello
1,Pedro,1980,Bucaramanga
2,Marta,2001,Medellin
3,Armando,2007,Pereira
4,Valentina,1986,Bogota


![Prueba](./imgs/Terminal.png) 

Existe una forma para crear un data Frame (o modificarlo) a traves de archivos .txt. En ellos, basta con escribir cada columna seguido de una coma y cada fila en un renglón independiente. **Hagamoslo con el ejemplo anterior** 

1. Modificar el .txt.
2. Guardarlo.
3. Cargarlo usando `pd.read_csv()

In [10]:
informacion = pd.read_csv('Data/ejemplo.txt')
informacion

Unnamed: 0,Nombre,Fecha_de_Nacimiento,Municipio de residencia
0,Juan,1999,Bello
1,Pedro,1980,Bucaramanga
2,Marta,2001,Medellin
3,Armando,2007,Pereira
4,Valentina,1986,Bogota


Podemos visualizar las columnas

In [11]:
informacion.columns

Index(['Nombre', 'Fecha_de_Nacimiento', 'Municipio de residencia'], dtype='object')

In [12]:
informacion['Nombre']

0         Juan
1        Pedro
2        Marta
3      Armando
4    Valentina
Name: Nombre, dtype: object

In [13]:
informacion.Nombre

0         Juan
1        Pedro
2        Marta
3      Armando
4    Valentina
Name: Nombre, dtype: object

In [14]:
informacion.Fecha_de_Nacimiento

0    1999
1    1980
2    2001
3    2007
4    1986
Name: Fecha_de_Nacimiento, dtype: int64

Si el nombre de la columna tuviera espacios, no podriamos usar esta opción, solo se podría mediante corchetes.

![](./imgs/Ejercicio.png)
Comprobar.

In [None]:
#`Solución:`
informacion.Muni



In [None]:
informacion['Municipio de residencia']

## Archivos CSV
Entre otras características, Pandas permite la lectura y carga de archivos tipo .csv (formato para representar datos en forma de tabla). La diferencia con los .txt **siempre** los datos estan separados por comas, mientras que en los .txt pueden estar separados por otros caracteres o espacios.

![Prueba](../imgs/Terminal.png) 

1. Veamos el archivo `data/population_by_country_2020.csv` [Tomado de kaggle](https://www.kaggle.com/tanuprabhu/population-by-country-2020)
2. Carguemoslo como un dataframe 


In [15]:
p = pd.read_csv('data/population_by_country_2020.csv')
p

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,China,1440297825,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1382345085,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331341050,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,274021604,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,221612785,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...
230,Montserrat,4993,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,Falkland Islands,3497,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,Niue,1628,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,Tokelau,1360,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


![](../imgs/Pregunta.png)
Al cargar a `p` ya es una instancia del objeto DataFrame?

In [20]:
#'Solución:'
#type(p)
isinstance(p, pd.DataFrame)


True

Al crear `p` se creó una instancia de DataFrame. Hay muchos métodos para ella ([ver referencias Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) uno de ellos nos permite ver las primeras filas para conocer las columnas 

In [21]:
p.head()

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,China,1440297825,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1382345085,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331341050,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,274021604,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,221612785,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %


Se pueden ver mas filas, por ejemplo:

In [22]:
p.head(15)

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,China,1440297825,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1382345085,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331341050,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,274021604,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,221612785,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
5,Brazil,212821986,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,Nigeria,206984347,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,Bangladesh,164972348,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,Russia,145945524,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,Mexico,129166028,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %


Veamos algunos otros métodos 

In [23]:
p.tail()

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
230,Montserrat,4993,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,Falkland Islands,3497,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,Niue,1628,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,Tokelau,1360,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %
234,Holy See,801,0.25 %,2,2003,0,,N.A.,N.A.,N.A.,0.00 %


In [24]:
p.shape

(235, 11)

In [25]:
p.columns

Index(['Country (or dependency)', 'Population (2020)', 'Yearly Change',
       'Net Change', 'Density (P/Km²)', 'Land Area (Km²)', 'Migrants (net)',
       'Fert. Rate', 'Med. Age', 'Urban Pop %', 'World Share'],
      dtype='object')

In [26]:
p.index

RangeIndex(start=0, stop=235, step=1)

In [27]:
p.describe()

Unnamed: 0,Population (2020),Net Change,Density (P/Km²),Land Area (Km²),Migrants (net)
count,235.0,235.0,235.0,235.0,201.0
mean,33227440.0,346087.8,475.770213,553591.8,6.283582
std,135303400.0,1128260.0,2331.285935,1687796.0,123291.887548
min,801.0,-383840.0,0.0,0.0,-653249.0
25%,399490.5,424.0,37.0,2545.0,-10047.0
50%,5460109.0,39170.0,95.0,77240.0,-852.0
75%,20671700.0,249660.0,239.5,403820.0,9741.0
max,1440298000.0,13586630.0,26337.0,16376870.0,954806.0


In [28]:
p.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Country (or dependency)  235 non-null    object 
 1   Population (2020)        235 non-null    int64  
 2   Yearly Change            235 non-null    object 
 3   Net Change               235 non-null    int64  
 4   Density (P/Km²)          235 non-null    int64  
 5   Land Area (Km²)          235 non-null    int64  
 6   Migrants (net)           201 non-null    float64
 7   Fert. Rate               235 non-null    object 
 8   Med. Age                 235 non-null    object 
 9   Urban Pop %              235 non-null    object 
 10  World Share              235 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.3+ KB


Se trabaja ahora con un nuevo conjunto de datos sobre ocupación laboral

In [29]:
us = pd.read_csv('data/users.csv')
us.head()

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


![](imgs/Ejercicio.png)
1. Cuántos usuarios tiene el conjunto de datos?
2. Cuáles son la ocupaciones que se enceuntran en el dataset? 
3. Cuántas ocupaciones diferentes hay? 

In [34]:
#`Solución`. 
us.user_id

us.shape
set(us.occupation)

{'administrator',
 'artist',
 'doctor',
 'educator',
 'engineer',
 'entertainment',
 'executive',
 'healthcare',
 'homemaker',
 'lawyer',
 'librarian',
 'marketing',
 'none',
 'other',
 'programmer',
 'retired',
 'salesman',
 'scientist',
 'student',
 'technician',
 'writer'}

In [35]:
us.describe()

Unnamed: 0,user_id,age
count,943.0,943.0
mean,472.0,34.051962
std,272.364951,12.19274
min,1.0,7.0
25%,236.5,25.0
50%,472.0,31.0
75%,707.5,43.0
max,943.0,73.0


![](../imgs/Pregunta.png)
Que tipo de objeto es `us.age`?

In [None]:
#`Solución:`




Conozcamos algunos métodos útiles para este tipo de instancias

In [36]:
print(us.age.nunique())
print(us.occupation.nunique())
print(us.zip_code.nunique())

61
21
795


In [39]:
us.occupation.value_counts()['other']

105

`head()` es una función que en este caso funciona para diferente tipo de clases

In [38]:
us.occupation.value_counts().head(5)

student          196
other            105
educator          95
administrator     79
engineer          67
Name: occupation, dtype: int64

![](imgs/Ejercicio.png)Cuál es la edad que mas se repite?

In [40]:
#`Solución`
us.age.value_counts()



30    39
25    38
22    37
28    36
27    35
      ..
11     1
10     1
73     1
66     1
7      1
Name: age, Length: 61, dtype: int64

<a id='ordenar_filtrar'></a>
# 2. Ordenar y filtrar

Un método mas para pd.DataFrames es `us.values`

In [42]:
us.values#crea una matriz 

array([[1, 24, 'M', 'technician', '85711'],
       [2, 53, 'F', 'other', '94043'],
       [3, 23, 'M', 'writer', '32067'],
       ...,
       [941, 20, 'M', 'student', '97229'],
       [942, 48, 'F', 'librarian', '78209'],
       [943, 22, 'M', 'student', '77841']], dtype=object)

![](imgs/Pregunta.png) Antes de ejecutar, que cree que hará la siguiente celda de código?

In [46]:
m = us.values
mask1 = m[:,2]=='M' 
print(mask1)
m = m[mask1]
mask2 = m[:,3]=='technician'
m = m[mask2]
m
pd.DataFrame(m)

[ True False  True  True False  True  True  True  True  True False False
  True  True False  True  True False  True False  True  True False False
  True  True False  True  True  True  True False  True False False False
  True False  True  True  True  True False  True  True False  True  True
 False  True  True False  True  True  True  True  True  True  True  True
  True False  True  True False  True  True  True  True  True  True False
  True  True  True  True  True  True False False  True  True  True  True
  True  True  True False False  True  True  True  True  True  True False
  True False  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True False
  True False False  True  True False  True False False  True False  True
  True  True  True  True  True  True  True False  True  True  True  True
  True  True False  True False False False False  True  True False  True
  True  True False  True  True  True  True  True Fa

Unnamed: 0,0,1,2,3,4
0,1,24,M,technician,85711
1,4,24,M,technician,43537
2,44,26,M,technician,46260
3,77,30,M,technician,29379
4,143,42,M,technician,08832
5,197,55,M,technician,75094
6,244,28,M,technician,80525
7,294,34,M,technician,92110
8,311,32,M,technician,73071
9,325,48,M,technician,02139


In [None]:
#



Para filtrar datos, podemos usar lo siguiente. Acá se filtran los hombres mayores de 30 años de nuestra base de datos

In [47]:
#recordemos las columnas
us.columns

Index(['user_id', 'age', 'gender', 'occupation', 'zip_code'], dtype='object')

In [48]:
us_filtrado = us[ (us['age'] >=30) & (us['gender']=='M') ]
us_filtrado

Unnamed: 0,user_id,age,gender,occupation,zip_code
5,6,42,M,executive,98101
6,7,57,M,administrator,91344
7,8,36,M,administrator,05201
9,10,53,M,lawyer,90703
12,13,47,M,educator,29206
...,...,...,...,...,...
931,932,58,M,educator,06437
933,934,61,M,engineer,22902
934,935,42,M,doctor,66221
936,937,48,M,educator,98072


In [49]:
us_filtrado = us[ (us.age >=30) & (us.gender =='M') ]
us_filtrado

Unnamed: 0,user_id,age,gender,occupation,zip_code
5,6,42,M,executive,98101
6,7,57,M,administrator,91344
7,8,36,M,administrator,05201
9,10,53,M,lawyer,90703
12,13,47,M,educator,29206
...,...,...,...,...,...
931,932,58,M,educator,06437
933,934,61,M,engineer,22902
934,935,42,M,doctor,66221
936,937,48,M,educator,98072


![](imgs/Pregunta.png) Que tipo de objeto se obtiene al filtrar? cuántos usuarios cumplen con esta condición

In [None]:
#`Solución`



![](imgs/Ejercicio.png) 

1. Hay mas hombres o mujeres ejecutiv@s?
2. Cuál es la media de las edades de los educadores?

**No olvida parentesis en las asignaciones logicas**

In [51]:
#Usar parentesis!
hombres_e= us[(us.gender == 'M') & (us.occupation == 'executive')] 
mujeres_e = us[(us.gender == 'F') & (us.occupation == 'executive')] 

print(hombres_e.shape)
print(mujeres_e.shape)


(29, 5)
(3, 5)


In [53]:
educadores = us[(us.occupation == 'educator')]
educadores.describe()

Unnamed: 0,user_id,age
count,95.0,95.0
mean,466.905263,42.010526
std,250.727201,10.413264
min,13.0,23.0
25%,242.5,33.0
50%,485.0,42.0
75%,641.5,50.0
max,937.0,63.0


Para ordenar los datos se puede usar `sort_values()`

In [54]:
#por defecto ascendente
ordenados= us.sort_values(by = 'age')
display(ordenados)

ordenados_des = us.sort_values(by = 'age', ascending=False)
display(ordenados_des)


# type(ordenados)

Unnamed: 0,user_id,age,gender,occupation,zip_code
29,30,7,M,student,55436
470,471,10,M,student,77459
288,289,11,M,none,94619
879,880,13,M,student,83702
608,609,13,F,student,55106
...,...,...,...,...,...
584,585,69,M,librarian,98501
766,767,70,M,engineer,00000
802,803,70,M,administrator,78212
859,860,70,F,retired,48322


Unnamed: 0,user_id,age,gender,occupation,zip_code
480,481,73,M,retired,37771
802,803,70,M,administrator,78212
766,767,70,M,engineer,00000
859,860,70,F,retired,48322
584,585,69,M,librarian,98501
...,...,...,...,...,...
879,880,13,M,student,83702
608,609,13,F,student,55106
288,289,11,M,none,94619
470,471,10,M,student,77459


 <a id='agrupamiento'></a>
# 3. Agrupamiento



Suponga que se quiere saber la media de las edades por cada una de las ocupaciones. Con lo visto hasta el momento, tocaría filtrar profesión por profesión y clacular la media. Para evitar eso podemos usar agrupamientos

In [55]:
us.groupby('occupation').age.mean()

occupation
administrator    38.746835
artist           31.392857
doctor           43.571429
educator         42.010526
engineer         36.388060
entertainment    29.222222
executive        38.718750
healthcare       41.562500
homemaker        32.571429
lawyer           36.750000
librarian        40.000000
marketing        37.615385
none             26.555556
other            34.523810
programmer       33.121212
retired          63.071429
salesman         35.666667
scientist        35.548387
student          22.081633
technician       33.148148
writer           36.311111
Name: age, dtype: float64

In [56]:
us.groupby('occupation').age.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
administrator,79.0,38.746835,11.123397,21.0,30.0,37.0,48.0,70.0
artist,28.0,31.392857,8.668116,19.0,25.0,30.0,39.0,48.0
doctor,7.0,43.571429,12.501428,28.0,35.5,45.0,48.5,64.0
educator,95.0,42.010526,10.413264,23.0,33.0,42.0,50.0,63.0
engineer,67.0,36.38806,11.199236,22.0,28.0,36.0,43.0,70.0
entertainment,18.0,29.222222,10.056052,15.0,23.0,25.0,33.0,50.0
executive,32.0,38.71875,10.608075,22.0,31.0,38.5,46.0,69.0
healthcare,16.0,41.5625,11.313524,22.0,30.5,44.5,49.25,62.0
homemaker,7.0,32.571429,10.737119,20.0,24.5,32.0,38.5,50.0
lawyer,12.0,36.75,10.830303,21.0,28.75,34.0,47.75,53.0


En este caso no tiene mucho sentido, pero si se quisiera, se puede comparar contra todos los otros atributos 

In [57]:
us.groupby('occupation').describe()

Unnamed: 0_level_0,user_id,user_id,user_id,user_id,user_id,user_id,user_id,user_id,age,age,age,age,age,age,age,age
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
occupation,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
administrator,79.0,430.949367,281.302962,7.0,185.0,436.0,702.0,940.0,79.0,38.746835,11.123397,21.0,30.0,37.0,48.0,70.0
artist,28.0,451.892857,322.96386,23.0,149.0,421.5,823.75,920.0,28.0,31.392857,8.668116,19.0,25.0,30.0,39.0,48.0
doctor,7.0,533.714286,330.491913,138.0,275.0,427.0,843.0,935.0,7.0,43.571429,12.501428,28.0,35.5,45.0,48.5,64.0
educator,95.0,466.905263,250.727201,13.0,242.5,485.0,641.5,937.0,95.0,42.010526,10.413264,23.0,33.0,42.0,50.0,63.0
engineer,67.0,456.328358,261.663697,25.0,249.5,467.0,649.0,934.0,67.0,36.38806,11.199236,22.0,28.0,36.0,43.0,70.0
entertainment,18.0,398.0,295.854098,16.0,153.5,381.0,537.25,926.0,18.0,29.222222,10.056052,15.0,23.0,25.0,33.0,50.0
executive,32.0,422.3125,287.533049,6.0,184.75,346.0,723.25,901.0,32.0,38.71875,10.608075,22.0,31.0,38.5,46.0,69.0
healthcare,16.0,501.4375,261.480393,60.0,343.25,563.5,688.5,910.0,16.0,41.5625,11.313524,22.0,30.5,44.5,49.25,62.0
homemaker,7.0,443.0,345.112059,20.0,195.5,362.0,715.0,898.0,7.0,32.571429,10.737119,20.0,24.5,32.0,38.5,50.0
lawyer,12.0,359.083333,251.926562,10.0,152.25,352.0,480.25,846.0,12.0,36.75,10.830303,21.0,28.75,34.0,47.75,53.0


Si solo queremos ciertos datos

In [59]:
us.groupby('occupation').age.agg(['mean','std'])

Unnamed: 0_level_0,mean,std
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1
administrator,38.746835,11.123397
artist,31.392857,8.668116
doctor,43.571429,12.501428
educator,42.010526,10.413264
engineer,36.38806,11.199236
entertainment,29.222222,10.056052
executive,38.71875,10.608075
healthcare,41.5625,11.313524
homemaker,32.571429,10.737119
lawyer,36.75,10.830303


In [None]:
us.groupby('occupation').age.agg(['mean','std'])

![](imgs/Ejercicio.png)

Agrupar por género para ver las medidas (medias, std, min, max, etc..) con respecto a las otras columnas


In [63]:
#`Solución:`
us.groupby('gender').age.describe()





Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
F,273.0,33.813187,11.799095,13.0,25.0,32.0,44.0,70.0
M,670.0,34.149254,12.356868,7.0,25.0,31.0,42.0,73.0


<a id='aplicacion_funciones'></a>
# Aplicación de funciones

Basados en la columna de las edades, se quiere crear una nueva columna que indique el ciclo de vida en el que se encuentra cada usuario. Para esto se usan las funciones applicadas a datos conocidas como `apply`. Para esto

1. Defina la función a aplicar. 
2. Apliquela a una nueva columna con `.apply` (se puede aplicar a la misma columna si lo que se quiere es cambiar el formato o valor de los datos de la columna)

En nuestro caso, la función es

In [64]:
def rango_etareo(x):
    if x<5:
        etapa='PRIMERA_INFANCIA'
    elif 5<x<=11:
        etapa = 'INFANCIA'
    elif 11<x<=16:
        etapa= 'ADOLESCENCIA'
    elif 16<x<=26:
        etapa = 'JUVENTUD'
    elif 26<x<=59:
        etapa = 'ADULTEZ'
    else:
        etapa = 'VEJEZ'
        
    return etapa        

Apliquemosla

In [65]:
us['Etapa_Vital'] = us.age.apply(rango_etareo)

In [66]:
us.head(10)

Unnamed: 0,user_id,age,gender,occupation,zip_code,Etapa_Vital
0,1,24,M,technician,85711,JUVENTUD
1,2,53,F,other,94043,ADULTEZ
2,3,23,M,writer,32067,JUVENTUD
3,4,24,M,technician,43537,JUVENTUD
4,5,33,F,other,15213,ADULTEZ
5,6,42,M,executive,98101,ADULTEZ
6,7,57,M,administrator,91344,ADULTEZ
7,8,36,M,administrator,5201,ADULTEZ
8,9,29,M,student,1002,ADULTEZ
9,10,53,M,lawyer,90703,ADULTEZ


In [67]:
us['Decada'] = us.age.apply(lambda x: np.round(x,-1))
us.head()

Unnamed: 0,user_id,age,gender,occupation,zip_code,Etapa_Vital,Decada
0,1,24,M,technician,85711,JUVENTUD,20
1,2,53,F,other,94043,ADULTEZ,50
2,3,23,M,writer,32067,JUVENTUD,20
3,4,24,M,technician,43537,JUVENTUD,20
4,5,33,F,other,15213,ADULTEZ,30


![](imgs/Challenge.png)

**EJERCICIO FINAL:**

En el siguiente enlace se presenta un dataset de diagnóstico de diabetes:

[https://www.kaggle.com/mathchi/diabetes-data-set](https://www.kaggle.com/mathchi/diabetes-data-set).

El dataset ya se encuentra descargado en la ruta `/data/diabetes.csv`

Un médico requiere la sigueinte información:

1. *la media y la desviación estandar de la glucosa de los pacientes que fueron diagnosticasdos con diabétes y de los que fueron diagnosticados como no-diabéticos*

2. *Posteriormente, quiere dividir a la población en grupos por rangos de edades de 10 años, es decir, de 0-10, de 10-20, etc. Y para cada uno de estos rupos, calcular la media y la desviación estandar de la glucosa*


<a id='refe'></a>

## Referencias

[1] Que es Pandas?: https://es.wikipedia.org/wiki/Pandas_(software) 

[2] Bivl2ab pandas tutorial: https://gitlab.com/bivl2ab/academico/cursos-uis/ai/ai-uis-student/-/blob/master/notebooks/03_std_Notes_Pandas_Introduction.ipynb

[3] Datasets publicos: https://www.kaggle.com/

[4] Métodos pandas.DataFrame: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

[5] Github Pandas Tutorial: https://github.com/guipsamora/pandas_exercises
<!-- [2] official panda doc sites:http://pandas.pydata.org/pandas-docs/stable/index.html

[2] Description of a dataset: https://www.kaggle.com/camnugent/california-housing-prices -->