![image.png](attachment:image.png)

### Qué es un DataFrame? 

Un dataframe puede ser interpretado como una tabla de datos, en la que tenemos una serie de filas y de columnas.

Cada **fila** representa un individuo o evento, por ejemplo un cliente de un banco, un producto de un supermercado o un coche que pasa por un peaje. 

En las **columnas** están representadas las características de estos individuos o eventos: su procedencia, tamaño o el día y la hora en que fue tomado el dato.

### Qué tipos de datos contienen los dataframes?

Principalmente eixten cuatro tipos de datos: 

 - **Numéricos** 
 
 - **Cadena de caracteres** (también conocidos como alfanuméricos o string)
 
 - **Booleanos**
 
 - **Fecha**
 

Los datos numéricos son más variados, pueden ser **enteros** o **decimales**, y se pueden hacer operaciones matemáticas con ellos.

Gracias a ellos solemos almacenar datos como la edad, la temperatura o una cantidad de objetos

In [None]:
entero = 10
entero

In [None]:
type(entero)

In [None]:
decimal = 10.5
decimal

In [None]:
type(decimal)

In [None]:
suma = entero + decimal
suma

In [None]:
type(suma)

Los de cadena representan **símbolos de escritura**, principalmente letras, aunque también números y signos de puntuación. 

Son usados para representar nombres o las categorías de una variable

In [None]:
cadena = "Hola Mundo"
cadena

In [None]:
type(cadena)

⚠️¡¡Observa que las cadenas de caracteres van siempre **entre comillas**!! Éstas pueden ser únicas o dobles, tienen el mismo significado, pero deben ser usadas con cuidado por causa de las apóstofres, por ejemplo en inglés...

In [None]:
Saludo = 'Hello! I'm going to the bootcamp
Saludo

In [None]:
Saludo = "Hello I'm going to the bootcamp"
Saludo

Los Booleanos o **dicotómicos** indican 1 ó 0, para indicar Verdadero/Falso 


In [None]:
Verdad = True
Verdad

In [None]:
type(Verdad)

In [None]:
Mentira = False
Mentira

⚠️Oberva que los buleanos en el fondo son **números**!!!

In [None]:
Verdad + Mentira

Finalmente tenemos el formato **fecha**, en el fondo es un número entero pero que puede ser interpretado como un dia/momento en concreto, incluyendo mes y año u hora, minuto, segundo y microsegundo. También se pueden hacer operaciones con ellos, por ejemplo sumar un dia.

Nos ayudan a indicar cuándo fue tomado el dato, la fecha de nacimiento o desde cuándo una persona es cliente

In [None]:
from datetime import datetime
from datetime import timedelta

hoy = datetime.today()
print("Hoy ", hoy)

manana = hoy + timedelta(days = 1)
print("Mañana ", manana)

diferencia = manana - hoy
print("Diferencia ", diferencia)

In [None]:
type(hoy)

¿Qué significan esos **from** e **import**?? Son librerias, conjuntos de funciones 

### Qué es una librería?

Como acabamos de indicar son conjuntos de funciones que nos facilitan la vida. Agilizan las acciones que queremos llevar a cabo con los datos (en nuestro caso).

La librería **datetime** nos permite sumar intervalos de tiempo y cambiar la forma en que representamos el dato, por ejemplo.

Nosotros hoy vamos a centrarnos en la librería **pandas**. Es la especializada en el manejo de los dataframes

In [2]:
import pandas as pd

En esta página podemos encontrar todas las funciones que están integradas en esta librería

https://pandas.pydata.org/

Por convenio, en todo el mundo, usamos el "apodo" **pd** cuando trabajamos con la librería pandas, nos ahorra mucha verbosidad

### Listas y diccionarios

Son dos maneras de almacenar información. 

 - Las **listas** permiten almacenar elementos de diferentes tipos de datos, numeros, string...
 - Están encapsuladas en []
 - Son objetos indexados
 
 
 - Los **diccionarios** también permiten guardar información de varios tipos
 - Los diccionarios se encapsulan en {}
 - Cada elemento del diccionario contiene una key y un value. La **key** equivale al índice y el **value** es la información en sí misma
 
 
 - Ambas maneras de almacenamiento son consideradas **No-estrucutaradas**
 - Pueden **anidarse** varias listas dentro de listas y diccionarios dentro de listas y listas con diccionarios....
 

![image.png](attachment:image.png)

### DataFrames

Hay varias maneras de empezar a trabajar un dataframe:

 - Crearlo a mano
 - Importarlo de un fichero txt o csv... 
 - Llamarlo desde una librería  
 - Transformarlo desde otro formato como una lista o diccionario

Nosotros vamos a crear un diccionario y luego lo vamos a transformar en DataFrame, usando un método de la librería pandas con el mismo nombre.

⚠️ Fíjate! Hemos usado el **pd**

In [3]:
import pandas as pd
familia = {'miembro':('padre','madre','hijo','hija','sobrino','primo','abuela'),
           'nombre':['Manuel','Maria','Diego','Bernarda','Pablo','Antonio','Concha'],
           'edad': [58, 56, 17, 23, 5, 12, 78],
           'estado_civil':['casado','casado','soltero','soltero','soltero','soltero','viuda'],
           'altura':[1.78, 1.69, 1.7, 1.79, 1.56, 1.59, 1.60],
           'sexo':['hombro','mujer','hombre','mujer','hombre','hombre','mujer'],
           'hombre':[True, False, True, False, True, True, False]}

familia_df = pd.DataFrame(familia)
familia_df

Unnamed: 0,miembro,nombre,edad,estado_civil,altura,sexo,hombre
0,padre,Manuel,58,casado,1.78,hombro,True
1,madre,Maria,56,casado,1.69,mujer,False
2,hijo,Diego,17,soltero,1.7,hombre,True
3,hija,Bernarda,23,soltero,1.79,mujer,False
4,sobrino,Pablo,5,soltero,1.56,hombre,True
5,primo,Antonio,12,soltero,1.59,hombre,True
6,abuela,Concha,78,viuda,1.6,mujer,False





📝¿Cuáles son las diferencias y similitudes entre las variables Sexo y Hombre??

Si queremos importar los datos a partir de un csv o un txt debemos usar este comando

In [None]:
ruta = 'Escritorio/fichero.csv' # camino donde se encuentra el fichero guardado en nuestro ordenador
Tabla = pd.read_csv(ruta)

### Jugar con los datos

Una vez tenemos los datos delante vamos a empezar a trabajarlos, qué acciones podemos realizar con ellos?

 - Filtrar los datos por algún criterio (eliminar líneas)
 - Reducir dimensionalidad (eliminar columnas)
 - Crear variables calculadas a partir de otras
 - Ordenar los datos
 - y mucho más...


#### Filtrar datos

In [None]:
familia_df[familia_df['sexo'] == 'hombre']

📝 Cómo haríamos para mostrar solo a los miembros de la familia mayores de edad?? 

In [None]:
familia_df[familia_df['edad'] > 17]

#### seleccionar columnas

In [None]:
familia_df[['edad','nombre']]

🚨 Fíjate en que ha cambiado el orden de las columnas 

#### Calcular nuevas variables

Existen dos métodos para introducirse en el corazón de un dataframe:

 - loc
 - iloc


Con **loc** entramos a través de las variables/columnas, con **iloc** a través de las filas/indices

**loc** es muy utilizado para crear nuevas variables

In [None]:
# lógica de la sintaxis de un loc
# dataframe.loc[dataframe[variable] condicion, nombre_nueva_variable] = valor_que_toma_si_cumple_condicion

familia_df.loc[familia_df['edad'] >= 18, 'adulto'] = 'Si'
familia_df.loc[familia_df['edad'] < 18, 'adulto'] = 'No'
familia_df

Por otro lado **iloc** es usado para acceder a la tabla a través de sus índices

In [None]:
# Accedemos a la información de la tabla a través de la posición de las filas y las columnas.
# dataframe.iloc[rango de filas que queremos retener , rango de columnas que queremos retener]

familia_df.iloc[1:3,2:5]

#### ordenar valores

In [None]:
familia_df.sort_values('edad')

In [None]:
familia_df.sort_values(['estado_civil','miembro'], ascending = [False,True])

#### Agrupar datos

Podemos calcular operaciones matemáticas en función de una variable categórica. Primeramente agrupamos las filas de la tabla inicial por la variable estado civil, posteriormente calculamos la media, la desviación típica y el valor máximo de las variables edad y altura

In [4]:
# otras funciones que podemos calcular: min, count, median, sum
familia_df.groupby('estado_civil')[['edad','altura']].agg(['mean','std','max'])

Unnamed: 0_level_0,edad,edad,edad,altura,altura,altura
Unnamed: 0_level_1,mean,std,max,mean,std,max
estado_civil,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
casado,57.0,1.414214,58,1.735,0.06364,1.78
soltero,14.25,7.632169,23,1.66,0.105515,1.79
viuda,78.0,,78,1.6,,1.6


#### Juntar tablas

Principalmente contamos con dos maneras para juntar información de dos tablas diferentes: 

 - por filas, axis = 0
 - por columnas, axis = 1
 
Por otro lado, tenemos dos métodos que nos permiten hacer esta unión (con la librería pandas):

 - concat
 - merge
 
Primeramente vamos a crear otro dataframe, en este caso contendrá información acerca de la situación laboral de unas personas

In [None]:
trabajadores = {'nombre':['Manuel','Maria','Diego','Bernarda','Alejandro','Felipe','Concha'],
           'antiguedad': [14, 26, 1, 2, 0, 6, 50],
           'profesion':['administrativo','director','becario','analista de datos','desempleado','abogado','retirada'],
           'salario':[1000, 2000, 100, 1000, 0, 1500, 800]}

trabajadores_df = pd.DataFrame(trabajadores)
trabajadores_df

Cuando juntamos por filas hay que tener en cuenta que ambas tablas tengan las mismas columnas, si no crearemos valores missing

Por otro lado, cuando juntamos por columnas es deseable que haya filas en común, según la columna de cruce

In [None]:
# how puede tomar los siguientes valores: left, inner, right y outer
cruce_merge = familia_df.merge(trabajadores_df, on = 'nombre', how = 'left') 
cruce_merge

In [None]:
cruce_concat0 = pd.concat([familia_df, trabajadores_df], axis = 0)
cruce_concat0

In [None]:
cruce_concat1 = pd.concat([familia_df, trabajadores_df], axis = 1)
cruce_concat1

## Medidas de tendencia central y de dispersión

 - Media, suma de los valores dividido entre el número de elementos
 - Mediana, ordenamos los valores ascendentemente y nos quedamos con el valor de en medio
 - Moda, el valor más repetido
 
 
 - Varianza, sumamos la distancia de cada elemento a la media y dividimos por el número de elementos
 - Desviación típica, raíz cuadrada de la varianza
 
 
 - Ventajas y desventajas de la Media y la Mediana:
   - La media estamos mucho más habituados a ella y es más fácil de entender y calcular
   - La media se ve muy afectada por los valores extremos
   - La media solo debe ser usada cuando la distribución de los datos sigue una distribución normal
   - La mediana es más robusta a valores extremos y no precisa de condiciones como seguir una distribución normal


## PREGUNTAS

 - Qué métodos hemos visto en el prework para trabajar con listas? (append, pop, sort, len)
 - Qué es el índice de una lista?
 - diferencias entre un bucle FOR y un WHILE, ejemplos de cuándo usar cuál
 - Qué es la mediana? Cómo se calcula?

### Trabajo para el próximo día

 - Calcula el salario medio de los casados
 
 - Obtén una tabla con el nombre, estado civil y la antigüedad de las mujeres más altas (estrictamente) de 1.60

### Qué hacer cuando tengo dudas?

1) Lo primero pensar en si sé la respuesta

2) Buscar en internet, usando palabras clave, la solución a mi duda

3) Preguntar al profesor y compañeros