[![Banner-Introducci-n.png](https://i.postimg.cc/VkCcqsvv/Banner-Introducci-n.png)](https://postimg.cc/4YsMZgzR)

# Introducción a ciencia de datos
## L1: La significancia estadística y los intervalos de confianza 

De acuerdo con nuestro caso de proyecto de Airbnb, queremos inferir o comprobar si la hipótesis de diferencias de precios entre habitaciones de 2 cuartos en la zona central oeste y central norte son significativas. 

### Objetivos
1. Construir un intervalo de confianza
2. Aplicar la validación de hipótesis
3. Aplicar un p-test para la comparación de muestras


### 1. Contexto del caso
La organización Airbnb ha visto que los barrios centrales Centrum-Oost y Centrum-West, a pesar de ser centro, tienen unos cambios de precios que tienden a variar la catidad de reservas de una zona a otra. Airbnb te solicita identificar si las diferencias de precios que se ven entre la zona central-oriental (Centrum-Oost) y la zona central-occidental(Centrum-West) son significativas. Ellos tienen especial foco en comparar apartamentos de 2 alcobas. 

### 2. Importación de librerías y archivos
En las siguientes líneas de código se importaran los materiales de trabajo necesarios para desarrollar el caso de uso, en esto se incluyen las *librerías y los datos*

In [9]:
pip install --upgrade scipy

Collecting scipy
  Obtaining dependency information for scipy from https://files.pythonhosted.org/packages/9a/25/5b30cb3efc9566f0ebeaeca1976150316353c17031ad7868ef46de5ab8dc/scipy-1.12.0-cp311-cp311-win_amd64.whl.metadata
  Downloading scipy-1.12.0-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.4 kB ? eta -:--:--
     ------------ ------------------------- 20.5/60.4 kB 320.0 kB/s eta 0:00:01
     ------------------- ------------------ 30.7/60.4 kB 325.1 kB/s eta 0:00:01
     -------------------------------- ----- 51.2/60.4 kB 435.7 kB/s eta 0:00:01
     -------------------------------- ----- 51.2/60.4 kB 435.7 kB/s eta 0:00:01
     -------------------------------------- 60.4/60.4 kB 291.9 kB/s eta 0:00:00
Downloading scipy-1.12.0-cp311-cp311-win_amd64.whl (46.2 MB)
   ---------------------------------------- 0.0/46.2 MB ? eta -:--:--
   ---------------------------------------- 0.0/46.2 MB ? eta -:--:--
   --------------------------------

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.0 requires FuzzyTM>=0.4.0, which is not installed.


In [None]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos
import pandas as pd
#librería para cálculos numéricos
import numpy as np
# Calcular el test estadístico
from statsmodels.stats import weightstats as stests
#librería para graficar
import matplotlib.pyplot as plt
from scipy.stats import ztest

In [None]:
# cargar los datos en csv
data = pd.read_excel('C://Users//dany2//Documents//Programacion//analisis_datos_andes//listing.xlsx')

Es importante tener en cuenta la visualización de los datos porque además de contexto se puede entender mucho mejor de qué se está hablando y qué tipos de datos se han cargado desde la máquina

In [None]:
#visualizar los primeros registros
data.head(5)

### 3. Intervalo de confianza
El intervalo de confianza (IC) es esencial en las estadísticas y muy importante para los científicos de datos. 
Como suena, el intervalo de confianza es un rango de valores. En condiciones ideales, debe contener la mejor estimación de un parámetro estadístico. Se expresa como porcentaje. El intervalo de confianza del 95% es el más común. Puede utilizar otros valores como 97%, 90%, 75% o incluso 99% de intervalo de confianza si su investigación lo exige.

En las siguientes líneas vamos a calcular el intervalo de confianza para el valor de flete medio de todos los envíos

Primero obtener los valores necesarios para su cálculo:
* 𝑋=𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 
* 𝛼=𝑆𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎
* 𝜎=𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟
* 𝑛=𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 
* 𝑧=𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑧𝑇𝑒𝑠𝑡

In [None]:
#Media de la muestra
x=data['price'].mean()
print(x)
#significancia
alpha=0.05 #para tener el 95% de confianza
# Desviación estándar
sigma=data['price'].std()
# Tamaño de la muestra
n=len(data['price'])
#Valor del test 
z, p_value = ztest(data["price"], value=None)
print(z)

### 5. Z-test
Te recomendamos utilizar el Z-Test en tus pruebas

In [5]:
# Elegir las zonas
#...

In [6]:
# Mostrar promedio de precios de bookings
# ...

In [7]:
# Valores de z y p
#ztest ,pval1 = stests.ztest(..., x2=..., value=0,alternative='two-sided')
#print('Valor de z: '+str(ztest))
#print('Valor p: '+ str(pval1))

In [52]:
# Regla de decisión si el p valor es menor que la significancia escogida 
confianza=0.95
significancia=1-confianza
# Si se tiene menor valor se rechaza la hipótesis nula
if pval1<significancia:
    print("Rechazar hipótesis nula")
else:
    print("No rechazar hipótesis nula")

Rechazar hipótesis nula


Por lo tanto podemos inferir con un nivel de confianza del 95% que los promedios del valor de habitacion entre estas dos zonas para apartamentos de dos alcobas ES ...