# Introdcción a la estadística 

## Qué es la estadística?

Estadística es la disciplina que se refiere a colección, organización, analisis, interpretación y representación de datos. 

En la aplicación de la estadística sobre un problema social, industrial, científico, es común comenzar con una **población estadística** o **modelo estadístico**, una población puede ser diversos grupos de personas u objetos, por ejemplo, "los habitantes de un país" o "cada átomo que compone un cristal". La estadística trabaja con cada aspecto de los datos, incluyendo la planeación de la colección de datos, en términos del diseño de encuestas y experimentos.

## Tipos de estadística

Hay dos ramas principales de la estadística: la **descriptiva** y la **inferencial**. La estadística descriptiva se enfoca en describir y resumir los datos que se tienen a la mano, por ejemplo, podemos preguntar a nuestros compañeros de clase en qué carrera están, podemos ver que 50% son físicos biomédicos, 45% son biólogos y 5% son físicos, eso es la estadística descriptiva. La estadística inferencial usa los datos que se tienen a la mano, llamado _muestra de los datos_, para inferir las propiedades subyacentes de una población más grande. Podemos usar estadística inferencial para encontrar qué porcentaje de los estudiantes en la facultad de ciencias estudia física biomédica, basados en nuestra muestra de datos. 

Hay dos principales tipos de datos: numéricos o cuantitativos, que son los valores numéricos; y los datos categóricos o cualitativos, los cuales se conforman de aquellos valores que pertenecen a distintos grupos.

## Tipos de datos 

Hay dos principales tipos de datos: numéricos o cuantitativos, que son los valores numéricos; y los datos categóricos o cualitativos, los cuales se conforman de aquellos valores que pertenecen a distintos grupos.

* **Datos numéricos**:
    * Continuos
    * Discretos
* **Datos categóricos**:
    * Ordinales
    * Nominales

| patient_id  | age  | genre  | weight_kg |
| ------------ | ------------ | ------------ | ------------ |
| 1  | 24  | F |  56.3 |
| 2  |  43  |  M  | 85.6  |

# Representación gráfica de los datos

La tabla anterior nos muestra que un primer acercamiento a los datos es en su forma tabular, con esto comenzamos a darnos una idea de la información que tenemos. Ahora, veremos cómo mostrar dichos datos en su representación gráfica y cómo interpretarlo.

## Gráfica lineal

Una gráfica lineal puede ser usar para mostrar el valor de una variable sobre el tiempo. Los valores de la variable están dados en el eje vertical, y el tiempo en el eje horizontal.

En python, se utiliza el paquete **matplotlib.pyplot** para crear gráficas.

In [None]:
import pandas as pd

In [None]:
climate_change = pd.read_csv('/home/lorena/Escritorio/Fossion/Trabajo_durante_doctorado/Proyecto_con_Luis_Mnez/Fisica_Biologica_2022-1/Examen/climate_change.csv')

In [None]:
climate_change.tail()

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(climate_change.co2)
plt.show()

Podemos personalizar la gráfica, agregando por ejemplo títulos a los ejes y cambiando el color.

In [None]:
plt.plot(climate_change.co2, color = 'green') # indicando el color
plt.xlabel('Tiempo') # título al eje x
plt.ylabel('Niveles de $CO^2$') # título al eje y
plt.show()

Podemos poner en diferentes marcos las gráficas lineales de las dos columnas, una debajo de la otra, con la función **plt.subplot()**, dentro de esta función debemos colocar el número de filas y columnas que queremos, y el número de la gráfica que se esta manipulando. 

Así por ejemplo si queremos poner una gráfica debajo de la otra, necesitamos indicar que tenemos dos filas y una columna.

In [None]:
plt.subplot(211) # Primer grafica
plt.plot(climate_change.co2, color = 'blue')
#plt.xlabel('Tiempo')
plt.ylabel('Niveles de $CO^2$')

plt.subplot(212) # Segunda grafica
plt.plot(climate_change.relative_temp, color = 'red')
plt.xlabel('Tiempo')
plt.ylabel('rel_temp (°C)')
plt.show()

Ya que las dos gráficas tiene el mismo eje x, podemos hacer que comparta el eje para que no se repita, mediante la siguiente sintaxis:

In [None]:
ax1 = plt.subplot(211) # Le asignamos una variable a la primer grafica
plt.plot(climate_change.co2, color = 'blue')
plt.ylabel('Niveles de $CO^2$')
plt.tick_params('x', labelbottom=False)

ax2 = plt.subplot(212, sharex = ax1) # Se indica que la segunda gráfica comparte el eje
# de la primer gráfica
plt.plot(climate_change.relative_temp, color = 'red')
plt.ylabel('rel_temp (°C)')
plt.xlabel('Tiempo')
plt.show()

También podemos poner en un mismo marco las gráficas de los niveles de $CO^2$ y de la temperatura relativa:

In [None]:
plt.plot(climate_change.co2, color = 'blue')
plt.plot(climate_change.relative_temp, color = 'red')
plt.xlabel('Tiempo')
plt.show()

Incluso podemos agregar leyendas:

In [None]:
plt.plot(climate_change.co2, color = 'blue', label = '$CO^2$')
plt.plot(climate_change.relative_temp, color = 'red', label = 'Temperatura relativa')
plt.xlabel('Tiempo')
plt.legend()
plt.show()

## Gráficas de barras 

Estas gráficas nos ayudan a visualizar las tablas. Veamos la sintaxis para crear una gráfica de este tipo:

In [None]:
import numpy as np

In [None]:
arr1 = [1,2,3,4,5]
#ind = np.arange(len(arr1))
ind = range(len(arr1))
plt.bar(ind, arr1)
plt.show()

También podemos posicioner las barras en el eje vertical:

In [None]:
obj = ('Python', 'C++', 'Java', 'Perl', 'Scala', 'Lisp')
y_pos = np.arange(len(obj))
uso = [10,8,6,4,2,1]

plt.barh(y_pos, uso, align = 'center', alpha = 0.5)
plt.yticks(y_pos, obj)
plt.xlabel('Uso')
plt.title('Uso de lenguajes de programación')

plt.show()

O crear gráficas segmentadas:

In [None]:
x = ['A', 'B', 'C', 'D']
y1 = [100, 120, 110, 130]
y2 = [120, 125, 115, 125]
 
plt.bar(x, y1, color = 'blue')
plt.bar(x, y2, bottom = y1, color = 'red')
plt.show()