# Exploración de datos
**Medidas de tendencia central**

## 1. Primero un momento para entender Colab



*   Podemos mezclar texto, código e imágenes: podemos mostrar al mismo tiempo análisis y resultados de forma ordenada
*   Para agregar celdas podemos hacer clic en **+ Code** o en **+ Text** en la parte superior de la ventana
*   Celdas de código consideran lo que hayamos corrido antes
*   Podemos contraer las secciones con la flechita a la izquierda de los títulos
*   Usamos Python en Google Colab
*   Para ejecutar una celda le damos ▶️ También podemos usar **Ctrl+Enter** para ejecutar o bien **Alt+Enter** para ejecutar y crear nueva celda.
*   Para usar Google Colab en esta clase:


      1.   Iniciamos sesión en nuestra cuenta de google
      2.   Ingresamos al enlace del cuadernillo compartido
      2.   Vamos a File > Save a copy in Drive 
      (Archivo > Guardar una copia en Drive)

¡Ya podemos comenzar a correr código y guardarlo con tranquilidad!





**Ejercicio**: Ejecuten la siguiente celda de código para ver el resultado.

In [5]:
print('¡Hola mundo!')

¡Hola mundo!


## 2. Carga de datos

Para trabajar con datos en Python usamos un paquete llamado Pandas. Para usarlo hay que importarlo:

In [6]:
import pandas as pd

In [7]:
# Adaptado de: https://www.datasciencemadesimple.com/create-frequency-table-of-column-in-pandas-python-2/
sinProcesar = {'Compra':['Caja','Botella','Esfero','Marcador','Botella','Esfero','Marcador','Botella','Caja','Marcador','Marcador','Esfero'],
              'Estado':['Alaska','California','Texas','North Carolina','California','Texas','Alaska','Texas','North Carolina','Alaska','California','Texas'],
              'Cantidad':[14,24,31,12,13,7,9,31,18,16,18,14]}
datos = pd.DataFrame(sinProcesar)

In [8]:
datos.shape

(12, 3)

In [9]:
datos.value_counts('Compra', normalize=True)

Compra
Marcador    0.333333
Botella     0.250000
Esfero      0.250000
Caja        0.166667
Name: proportion, dtype: float64

Tenemos una base de datos de compras.

In [10]:
# Observamos la tabla
display(datos)

Unnamed: 0,Compra,Estado,Cantidad
0,Caja,Alaska,14
1,Botella,California,24
2,Esfero,Texas,31
3,Marcador,North Carolina,12
4,Botella,California,13
5,Esfero,Texas,7
6,Marcador,Alaska,9
7,Botella,Texas,31
8,Caja,North Carolina,18
9,Marcador,Alaska,16


In [1]:
datos.describe()


NameError: name 'datos' is not defined

In [12]:
#seleccionar solo una categoría 
t = datos[datos['Compra'] == 'Marcador']
t

Unnamed: 0,Compra,Estado,Cantidad
3,Marcador,North Carolina,12
6,Marcador,Alaska,9
9,Marcador,Alaska,16
10,Marcador,California,18


In [13]:
datos.count()

Compra      12
Estado      12
Cantidad    12
dtype: int64

In [14]:
#sort_values()
temporal = datos.sort_values(by='Cantidad', ascending=False)
temporal

Unnamed: 0,Compra,Estado,Cantidad
2,Esfero,Texas,31
7,Botella,Texas,31
1,Botella,California,24
8,Caja,North Carolina,18
10,Marcador,California,18
9,Marcador,Alaska,16
0,Caja,Alaska,14
11,Esfero,Texas,14
4,Botella,California,13
3,Marcador,North Carolina,12


## 3. Estadísticos y visualización

In [15]:
# Tabla de frecuencias:
datos.Compra.value_counts()

Compra
Marcador    4
Botella     3
Esfero      3
Caja        2
Name: count, dtype: int64

In [16]:
datos.value_counts('Compra')

Compra
Marcador    4
Botella     3
Esfero      3
Caja        2
Name: count, dtype: int64

In [17]:
datos.value_counts('Compra').reset_index() #Lo convierte en un dataFrame de una columna

Unnamed: 0,Compra,count
0,Marcador,4
1,Botella,3
2,Esfero,3
3,Caja,2


¿Cómo se interpretan estos valores?

RTA: Número de compras que incluyeron cada producto (no número total vendido).

In [18]:
# Media (promedio)
# La cantidad de artículos promedio que compran las personas
datos.Cantidad.mean()

17.25

In [19]:
# Mediana
datos.Cantidad.median()

15.0

¿Cómo se interpreta esto?

In [20]:
temporal = datos.Cantidad.sort_values()
display(temporal)

5      7
6      9
3     12
4     13
0     14
11    14
9     16
8     18
10    18
1     24
2     31
7     31
Name: Cantidad, dtype: int64

La mitad de los datos están por debajo de la mediana.

Juguemos un poco con grupos
¿Entre Alaska y California, quién tiene las canastas más grandes en promedio?

In [125]:
# Grupos
# Condicion
esDeAlaska = datos['Estado']=='Alaska'
esDeCalifornia = datos['Estado']=='California'

# ¿Cómo se ve esto?
esDeAlaska

0      True
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9      True
10    False
11    False
Name: Estado, dtype: bool

In [126]:
# Calculamos media para las filas que cumplen cada condición
datos[esDeAlaska].Cantidad.mean()


13.0

In [127]:
# Calculamos media para las filas que cumplen cada condición
datos[esDeCalifornia].Cantidad.mean()

18.333333333333332

## 4. Un caso de exploración

In [128]:
# Veamos otros datos
sinProcesar = {'Consecutivo_hogar':[284,145,234,575,345,567,745,334,833,282,414,732],
       'Municipio':['Bogota','Ibague','Bogota','Ibague','Bogota','Ibague','Bogota','Ibague','Bogota','Ibague','Bogota','Ibague'],
       'Huella_carbono':[7,6,3,7,11,7,8,3,6,15,8,5],
       'Mercado_promedio':[400000,560000,130000,360000,700000,827000,670000,315000,470000,930000,600000,370000],
       'No_hijos':[0,1,0,1,3,0,0,1,0,0,2,1]}
datosFamilias = pd.DataFrame(sinProcesar)

In [129]:
display(datosFamilias)

Unnamed: 0,Consecutivo_hogar,Municipio,Huella_carbono,Mercado_promedio,No_hijos
0,284,Bogota,7,400000,0
1,145,Ibague,6,560000,1
2,234,Bogota,3,130000,0
3,575,Ibague,7,360000,1
4,345,Bogota,11,700000,3
5,567,Ibague,7,827000,0
6,745,Bogota,8,670000,0
7,334,Ibague,3,315000,1
8,833,Bogota,6,470000,0
9,282,Ibague,15,930000,0


In [130]:
# Campo abierto: qué ejercicios harían? Discutir

Planeen su propio análisis descriptivo individualmente.

Tomemos 10 minutos y volvemos. Nos cuentan cuál es el plan.

Si alcanzan a sacar estadísticas en 5 minutos más, nos cuentan.

Recuerden
1. Entender la unidad de observación. Cada fila es un...
2. ¿Qué columnas tenemos?
3. ¿Qué columnas son objeto de análisis? (escoja una de interés)
4. ¿Qué columnas nos definen grupos interesantes? (escoja una)
5. ¿Qué estadísticos podemos sacarle a esos grupos? (saque alguno o un par)

No hay forma correcta de explorar, depende de la curiosidad de cada quién.