Escalas

Claro, con gusto te explico qué son las escalas de datos numéricos. Las escalas de datos numéricos se refieren a la manera en que se representan y organizan los valores numéricos en un conjunto de datos. Estas escalas son fundamentales para comprender y analizar datos, ya que influyen en la interpretación de la información y en las conclusiones que se pueden extraer.

Existen diferentes tipos de escalas de datos numéricos, y las principales son:

1. **Escala Nominal:** En esta escala, los valores numéricos se utilizan simplemente para identificar categorías o clases, pero no hay un orden específico entre ellas. Por ejemplo, los números de identificación de estudiantes, colores o géneros son ejemplos de escalas nominales.

2. **Escala Ordinal:** Aquí, los valores numéricos no solo identifican las categorías, sino que también indican un orden relativo entre ellas. Sin embargo, la distancia o diferencia entre los valores no tiene un significado específico. Un ejemplo común es la clasificación por preferencia, como "primero", "segundo" y "tercero".

3. **Escala de Intervalo:** En esta escala, los valores numéricos representan no solo el orden, sino también la igualdad en las diferencias entre ellos. Sin embargo, el cero en esta escala no indica la ausencia de la característica medida, sino que es arbitrario. La temperatura en grados Celsius es un ejemplo de escala de intervalo.

4. **Escala de Razón:** Esta escala es similar a la escala de intervalo, pero tiene un cero absoluto que indica la ausencia completa de la característica medida. Las operaciones de suma, resta, multiplicación y división son válidas en esta escala. Ejemplos incluyen la edad, la altura y el peso.

Cuando trabajas con datos, es crucial entender la escala de los datos que estás manejando, ya que esto afecta la elección de las técnicas de análisis estadístico adecuadas y cómo interpretar los resultados. La elección de la escala depende del tipo de información que se está recolectando y del objetivo del análisis.

In [4]:
import pandas as pd

df = pd.DataFrame(['A+','A','A-','B+','B','B-','C+','C','C-','D+','D'], 
                  index=['excellent','excellent','excellent', 'good','good','good','ok','ok','ok','poor','poor'],
                  columns = ["Grades"])

df

Unnamed: 0,Grades
excellent,A+
excellent,A
excellent,A-
good,B+
good,B
good,B-
ok,C+
ok,C
ok,C-
poor,D+


In [5]:
df.dtypes

Grades    object
dtype: object

In [6]:
#podemos observar que tenemos los datos de la columna como un tipo objeto
df['Grades'].astype("category").head()

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
Name: Grades, dtype: category
Categories (11, object): ['A', 'A+', 'A-', 'B', ..., 'C+', 'C-', 'D', 'D+']

In [16]:
#ahora hemos cambiamos el tipo de nuestros datos a categoricos
#incluso podemos indicar a pandas el ordne de nuestros datos categoricos
my_categories = pd.CategoricalDtype(categories=['D','D+','C-','C','C+','B-','B','B+','A-','A','A+'], 
                                    ordered=True)

grades = df['Grades'].astype(my_categories)
grades

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
good         B-
ok           C+
ok            C
ok           C-
poor         D+
poor          D
Name: Grades, dtype: category
Categories (11, object): ['D' < 'D+' < 'C-' < 'C' ... 'B+' < 'A-' < 'A' < 'A+']

In [9]:
#y ahora podemos observar q las categorias siguen un orden
df[df['Grades'] > 'C']

Unnamed: 0,Grades
ok,C+
ok,C-
poor,D+
poor,D


In [18]:
#PODEMOS VER QUE DADO QUE ESTE DATAFRAME NO TIENE EL ORDEN ESTABLECIDO NO NOS EL RESULTADO QUERIDO, SIN EMBARGO
grades[grades > 'C']

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
good         B-
ok           C+
Name: Grades, dtype: category
Categories (11, object): ['D' < 'D+' < 'C-' < 'C' ... 'B+' < 'A-' < 'A' < 'A+']

In [20]:
import numpy as np 

df = pd.read_csv('../Semana 2/census.csv')

df = df[df['SUMLEV'] == 50]

df = df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'].agg(np.average)

df.head()

STNAME
Alabama        71339.343284
Alaska         24490.724138
Arizona       426134.466667
Arkansas       38878.906667
California    642309.586207
Name: CENSUS2010POP, dtype: float64

In [22]:
pd.cut(df, 10)

STNAME
Alabama                   (11706.087, 75333.413]
Alaska                    (11706.087, 75333.413]
Arizona                 (390320.176, 453317.529]
Arkansas                  (11706.087, 75333.413]
California              (579312.234, 642309.586]
Colorado                 (75333.413, 138330.766]
Connecticut             (390320.176, 453317.529]
Delaware                (264325.471, 327322.823]
District of Columbia    (579312.234, 642309.586]
Florida                 (264325.471, 327322.823]
Georgia                   (11706.087, 75333.413]
Hawaii                  (264325.471, 327322.823]
Idaho                     (11706.087, 75333.413]
Illinois                 (75333.413, 138330.766]
Indiana                   (11706.087, 75333.413]
Iowa                      (11706.087, 75333.413]
Kansas                    (11706.087, 75333.413]
Kentucky                  (11706.087, 75333.413]
Louisiana                 (11706.087, 75333.413]
Maine                    (75333.413, 138330.766]
Maryland     

In [23]:
import pandas as pd
import numpy as np

# Crear un DataFrame con una columna de datos numéricos
data = {'Valores': np.random.randint(0, 100, 20)}
df = pd.DataFrame(data)

# Aplicar pd.cut para dividir los datos en 10 intervalos
df['Categorias'] = pd.cut(df['Valores'], bins=10)

# Mostrar el DataFrame resultante
print(df)


    Valores     Categorias
0        38   (31.1, 40.8]
1        97   (89.3, 99.0]
2        41   (40.8, 50.5]
3        66   (60.2, 69.9]
4        67   (60.2, 69.9]
5         7  (1.903, 11.7]
6         2  (1.903, 11.7]
7         6  (1.903, 11.7]
8        46   (40.8, 50.5]
9        99   (89.3, 99.0]
10       46   (40.8, 50.5]
11       80   (79.6, 89.3]
12       41   (40.8, 50.5]
13       53   (50.5, 60.2]
14       18   (11.7, 21.4]
15       24   (21.4, 31.1]
16       15   (11.7, 21.4]
17       91   (89.3, 99.0]
18       73   (69.9, 79.6]
19       59   (50.5, 60.2]


La función `pd.cut()` es una herramienta útil en el análisis de datos cuando se desea discretizar o categorizar valores numéricos en intervalos específicos. Aquí hay algunas razones por las cuales podría resultar beneficiosa:

1. **Análisis de la Distribución:** La función permite visualizar la distribución de datos al agruparlos en intervalos. Esto puede proporcionar una perspectiva más clara de la variabilidad de los datos y la concentración de valores en diferentes rangos.

2. **Agrupación para Resumen Estadístico:** Facilita la creación de resúmenes estadísticos para cada intervalo, como calcular la media, la mediana o la frecuencia de los valores en cada categoría.

3. **Preparación de Datos para Modelos de Aprendizaje Automático:** Algunos algoritmos de aprendizaje automático pueden beneficiarse de la categorización de datos numéricos en lugar de tratarlos como valores continuos. `pd.cut()` proporciona una manera conveniente de realizar esta discretización.

4. **Facilita la Interpretación:** Al categorizar datos, especialmente en el contexto de análisis exploratorio de datos, puede hacer que la interpretación y la comunicación de resultados sean más comprensibles y accesibles.

Es importante señalar que la elección del número de bins (intervalos) y la comprensión del contexto de los datos son aspectos cruciales al usar `pd.cut()`. Demasiados o muy pocos intervalos pueden afectar la utilidad de la visualización y el análisis. Además, el tipo de escala de datos (nominal, ordinal, de intervalo o de razón) también influirá en cómo se interpretan los resultados.

En resumen, `pd.cut()` es una herramienta versátil que puede ser valiosa en diversas situaciones de análisis de datos, pero su efectividad depende de la comprensión del conjunto de datos y de los objetivos específicos del análisis.