<h1><b>Modulo 2 Ciencias De Datos</b></h1>
<br>
<h1>🎓 ¿Qué es la Estadística y la Probabilidad?</h1>
📊 Estadística
Es una rama de las matemáticas que se encarga de recolectar, organizar, analizar e interpretar datos para tomar decisiones o explicar fenómenos.

La estadística se divide en:

Descriptiva: resume y describe características de un conjunto de datos (ej. promedio, desviación estándar).

Inferencial: permite hacer predicciones o generalizaciones sobre una población a partir de una muestra (ej. pruebas de hipótesis, estimaciones).

🎲 Probabilidad
Es el estudio matemático del azar. Se usa para cuantificar la posibilidad de que ocurra un evento.

Se expresa como un número entre 0 y 1.

Ejemplo: La probabilidad de obtener un 6 al lanzar un dado es 1/6 ≈ 0.1667.

Estadística Descriptiva – Análisis de edades
Problema: Dado un conjunto de edades, calcular la media, mediana, moda y desviación estándar.

In [4]:
import pandas as pdw
from scipy import stats
import numpy as np
edades = np.array([18, 20, 21, 22, 22, 23, 24, 24, 24, 25, 26, 28, 30])
print(np.mean(edades))
print(np.std(edades))
print(np.median(edades))
print(stats.mode(edades))

23.615384615384617
3.101822331331685
24.0
ModeResult(mode=24, count=3)


Estadistica Descriptiba con Pandas

In [7]:
import pandas as pd

df=pd.DataFrame(edades)
print(df.describe())
print(df.mean())
print(df.median())
print(df.std())
print(df.mode())

               0
count  13.000000
mean   23.615385
std     3.228479
min    18.000000
25%    22.000000
50%    24.000000
75%    25.000000
max    30.000000
0    23.615385
dtype: float64
0    24.0
dtype: float64
0    3.228479
dtype: float64
    0
0  24


Estadisitca descriptiva con py

In [None]:
from typing import Counter
import math 

dataset=[18, 20, 21, 22, 22, 23, 24, 24, 24, 25, 26, 28, 30]

def media(lista:list[int])->int:
    return sum(dataset)/len(dataset)

def moda(lista:list[int])-> int:
    return Counter(list)

def par(lista):
    x=len(lista)//2
    return sum(lista[x-1]+lista[x])/2

def impar(lista):
    return lista[int(len(lista)/2)]

def mediana(lista:list[int])->float:
    return par(lista) if len(lista)%2==0 else impar(lista)

def sum_al_cuadrado(lista: list[int]) -> int:
    return sum(x ** 2 for x in lista)


def desviacion_standar(lista:list[int])->int:
     return math.sqrt(variance(lista))

def de_mean(lista: list[float]) -> list[float]:
    x_bar = media(lista) 
    return [x-x_bar for x in lista]

def variance(lista: list[int]) -> int:
    n = len(lista)
    deviations = de_mean(lista)
    return sum_al_cuadrado(deviations) /(n)

print(desviacion_standar(dataset))

3.101822331331685


 Estimar la media de una población a partir de una muestra
🔍 Situación:
Supongamos que hay 10,000 estudiantes en una universidad. Queremos estimar su edad promedio sin preguntarle a todos. Tomamos una muestra aleatoria de 200 estudiantes.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

np.random.seed(42)
poblacion = np.random.normal(loc=22, scale=2.5, size=10000)
muestra = np.random.choice(poblacion, size=200, replace=False)
media_muestra = np.mean(muestra)
std_muestra = np.std(muestra, ddof=1)
confianza = 0.95
z = stats.norm.ppf(1 - (1 - confianza) / 2)  # valor z para 95%
margen_error = z * (std_muestra / np.sqrt(len(muestra)))

# Intervalo
limite_inferior = media_muestra - margen_error
limite_superior = media_muestra + margen_error

# Resultados
print(f"Media muestral: {media_muestra:.2f}")
print(f"Intervalo de confianza al 95%: [{limite_inferior:.2f}, {limite_superior:.2f}]")

Media muestral: 22.26
Intervalo de confianza al 95%: [21.90, 22.63]


<h2>Probabilidad</h2>

Probabilidad – Lanzamiento de un dado
Problema: Calcular la probabilidad de que al lanzar un dado justo de 6 caras, salga un número mayor a 4.

🧮 Teoría
Los resultados posibles: {1, 2, 3, 4, 5, 6}
Eventos favorables: {5, 6} → 2 resultados
Probabilidad = Eventos favorables / Total de eventos = 2 / 6 = 0.333...

Probabilidad Bayesiana: medida de la
confianza o certidumbre de que un suceso
ocurra. La mejor medida de la incertidumbre
es la probabilidad.

In [3]:
espacio_muestral = [1, 2, 3, 4, 5, 6]
eventos_favorables = [x for x in espacio_muestral if x > 4]

probabilidad = len(eventos_favorables) / len(espacio_muestral)
print(f"Probabilidad de obtener un número mayor a 4: {probabilidad:.2f}")

Probabilidad de obtener un número mayor a 4: 0.33


Probabilidad Frecuentista: Si hacemos un
experimento muchas veces, la probabilidad
está asociada a la frecuencia con que ocurre
cada posible valor de la variable aleatoria.

In [27]:
import numpy as np
lanzamientos = np.random.randint(1, 7, size=100000)
exitos = np.sum(lanzamientos > 4)
probabilidad_simulada = exitos / len(lanzamientos)

print(f"Probabilidad simulada (10,000 lanzamientos): {probabilidad_simulada:.2f}")

Probabilidad simulada (10,000 lanzamientos): 0.33


In [28]:
import enum
import random

# Definimos el Enum para representar los posibles valores de un niño
class Kid(enum.Enum):
    BOY = 0
    GIRL = 1

# Función para generar un niño aleatorio
def random_kid() -> Kid:
    return random.choice([Kid.BOY, Kid.GIRL])

# Inicializamos los contadores
both_girls = 0
older_girl = 0
either_girl = 0

# Fijamos la semilla para reproducibilidad
random.seed(0)

# Realizamos las simulaciones
for _ in range(10):
    younger = random_kid()
    older = random_kid()
    print(younger)
    print(older)
    
    if older == Kid.GIRL:
        older_girl += 1
        
    if younger == Kid.GIRL:
        both_girls += 1
    
    if older == Kid.GIRL or younger == Kid.GIRL:
        either_girl += 1

# Calculamos las probabilidades
prob_both_given_older = both_girls / older_girl
prob_both_given_either = both_girls / either_girl

# Imprimimos los resultados
print("P(both | older):", prob_both_given_older)  # Debería ser cercano a 1/2
print("P(both | either):", prob_both_given_either)  # Debería ser cercano a 1/3

Kid.GIRL
Kid.GIRL
Kid.BOY
Kid.GIRL
Kid.GIRL
Kid.GIRL
Kid.GIRL
Kid.GIRL
Kid.GIRL
Kid.BOY
Kid.BOY
Kid.GIRL
Kid.BOY
Kid.BOY
Kid.GIRL
Kid.BOY
Kid.GIRL
Kid.BOY
Kid.BOY
Kid.GIRL
P(both | older): 1.0
P(both | either): 0.6666666666666666


Concepto de Variables
Una variable es una característica o propiedad que puede tomar diferentes valores en un conjunto de datos o en un experimento. En términos estadísticos, una variable es cualquier atributo, cualidad o cantidad que puede variar y que puede ser medida o categorizada. Las variables son fundamentales en el análisis de datos y en la estadística, ya que permiten realizar observaciones, establecer relaciones y hacer inferencias sobre los fenómenos estudiados.

Clasificación de las Variables
Las variables pueden clasificarse en diferentes tipos según su naturaleza y la forma en que pueden ser medidas. Aquí se presentan las principales clasificaciones:

Según su Naturaleza o Tipo de Valor

1- Variables Cuantitativas: Representan cantidades numéricas y permiten medir un grado o nivel de una característica. Estas variables pueden ser:

A-Discretas: Solo pueden tomar ciertos valores específicos, generalmente enteros. Están asociadas con conteos, como el número de hijos, el número de llamadas, etc.

B-Continuas: Pueden tomar cualquier valor dentro de un rango o intervalo, incluyendo valores decimales. Están asociadas con mediciones, como el peso, la altura o la temperatura.

2- Variables Cualitativas: Representan cualidades o categorías que describen una característica, pero no tienen un valor numérico. Estas variables pueden ser:

A-Nominales: No tienen un orden intrínseco. Ejemplos incluyen el color de ojos, el género, la nacionalidad, etc.

B-Ordinales: Tienen un orden o jerarquía. Ejemplos incluyen los niveles de satisfacción (bajo, medio, alto), los rangos militares, o las tallas de ropa (S, M, L).

In [53]:
import seaborn as sns
import pandas as pd

# Cargar el dataset de propinas
tips = sns.load_dataset("tips")

# Clasificación de variables
qualitative = []  # Variables cualitativas (categóricas)
quantitative = []  # Variables cuantitativas (numéricas)

for column in tips.columns:
    if pd.api.types.is_numeric_dtype(tips[column]):
        # Variables cuantitativas (numéricas)
        quantitative.append(column)
    else:
        # Variables cualitativas (categóricas)
        qualitative.append(column)

# Mostrar clasificación de las variables
print("Variables Cualitativas (Categóricas):", qualitative)
print("Variables Cuantitativas (Numéricas):", quantitative)



Variables Cualitativas (Categóricas): ['sex', 'smoker', 'day', 'time']
Variables Cuantitativas (Numéricas): ['total_bill', 'tip', 'size']


<b>Variables Numéricas</b><br>
En general, las variables numéricas podrían ser usadas sin demasiado preprocesamiento, ya que ya están en un formato que los modelos entienden. Sin embargo, muchas veces no es ese el caso. Algunas de las cosas que se suelen hacer son:
<ul>
<li>Discretización y binning</li>
<li>Reescalar (más adelante en el curso)</li>
<li>Combinar con otras variables (más adelante en el curso)</li>
<li>Discretización y binning con Pandas</li>
</ul>
Si ya sabemos qué bines usar, Pandas es muy útil.

cut()

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy as stats
import seaborn as sb

sb.set()
df = pd.read_csv('../DataSets/Titanic.csv')
df.head(5)
bins = [0,3,12,18,60,100]
cats = pd.cut(df.Age, bins)
cats.head(10)
df['Age_bins'] = cats
df.head(100)
bins = [0,3,12,18,60,100]
labels = ['bebe', 'niño', 'adolescente', 'adulto', 'anciano']
cats = pd.cut(df.Age, bins, labels = labels)
cats.head(10)
df['Age_labels'] = cats
df.head()


FileNotFoundError: [Errno 2] No such file or directory: '../DataSets/Titanic.csv'

<h2>Nominales</h2>
Este es uno de los tipos de encoding más comunes que vamos a tener que hacer. Empecemos con un ejemplo, el género en el Titanic. Ya dijimos que queremos llevar los valores male y female a 0 y 1. El orden no importa, lo único importante es que no nos olvidemos cuál es cuál. Esto, en Pandas, lo podemos hacer con

map()
En primer lugar, definimos un diccionario, que es donde tendremos el mapeo.

In [1]:
diccionario = {'male': 0, 'female': 1}
df['Sex_Map'] = df.Sex.map(diccionario)
df.head(10)

NameError: name 'df' is not defined

In [1]:
Educacion=['Primaria', 'Secundaria', 'Preparatoria', 'Universidad']
[1, 2, 3, 4]

[1, 2, 3, 4]

En pandas

In [3]:
import pandas as pd
datos = pd.DataFrame({
    'educacion': ['Primaria', 'Secundaria', 'Preparatoria', 'Universidad', 'Secundaria']
})
orden = ['Primaria', 'Secundaria', 'Preparatoria', 'Universidad']
datos['educacion_ordinal'] = datos['educacion'].apply(lambda x: orden.index(x) + 1)
print(datos)

      educacion  educacion_ordinal
0      Primaria                  1
1    Secundaria                  2
2  Preparatoria                  3
3   Universidad                  4
4    Secundaria                  2


In [None]:
from sklearn.preprocessing import OrdinalEncoder
X = [['Primaria'], ['Secundaria'], ['Preparatoria'], ['Universidad'], ['Secundaria']]
encoder = OrdinalEncoder(categories=[['Primaria', 'Secundaria', 'Preparatoria', 'Universidad']])
X_ordinal = encoder.fit_transform(X)
print(X_ordinal)

[[0.]
 [1.]
 [2.]
 [3.]
 [1.]]


<h3>Transformación de Datos</h3>
Transformación de datos es una de los procesos que más tiempo lleva en un un flujo de Data Science y, lamentablemente, muchas veces no es entretenido. Pero es importante no perder el objetivo de por qué lo hacemos, si bien en este momento de la carrera puede parecer un poco abstracto. Por un lado, los modelos de Machine Learning que usemos, que van a "aprender" de nuestros datos, sólo entienden de números. Esto quiere decir que, si en un dataset como el de Titanic hay una columna de género con dos valores, male y female, tendremos que llevarlo a una representación que los modelos entiendan. En este caso, es sencillo, asignamos un "0" y un "1" a cada uno de los valores y problema resuelto. En el fondo, hay una hipótesis implícita: el género nos sirve para predecir supervivencia, por lo que queremos mantener esta información y hacerla comprensible para nuestros modelos. Eso es un atributo (feature): un pedazo de información potencialmente bueno para aprender de nuestros datos o hacer predicciones útiles.