# Taller de programación en Python para estadística descriptiva
#### Elaborado por Joshua Martínez Domínguez
#### 22/03/2025

Este documento contiene los temas desarrollados del *Taller de programación en Python para estadística descriptiva* con ejemplos en celdas de código. Este notebook corresponde a la sesion 4.

## Pandas

Pandas es una herramienta poderosa, rápida, flexible y de facil uso de analisis y manipulación de datos de código abierto, contruida en el lenguaje de programación Python.

![pandas](i4.01.png)

La instalación mas sencilla y facil de realizar es por medio de la distribución Anaconda, una distribución multiplataforma para analisis de datos y cómputo científico. El administrador del paquete Conda es el método de instalación recomendado para la mayoría de los usuarios.

También es posible instalarlo usando el comando

```
pip install pandas
```

Para comenzar a usarlo utilizamos el comando

```
import numpy as np
import pandas as pd
```

In [2]:
import numpy as np
import pandas as pd

## NumPy

NumPy es un paquete fundamental para cómputo científico en Python. Es una libreria de Python que brinda un objeto de arreglos multidimensional, varios objetos derivados (como arreglos enmascarados y matrices) y una variedad de rutinas para operaciones rápidas con arreglos, incluyendo operaciones matemáticas, lógicas, manipulación de forma, ordenamiento, selección, algebra lineal básica, operaciones estadísticas básicas, simulación aleatoria y mucho más.

El corazon de la paqueteria es el objeto `ndarray`. Esto encapsula arreglos *n*-dimensionales de tipos de datos homogeneos. Hay varias diferencias entre las secuencias o *arreglos* de NumPy y las secuencias estandar de Python:

* Los arreglos NumPy tienen un tamaño fijo al momento de su creación. a diferencia de las listas de Python que pueden crecer dinámicamente. Cambiar el tamaño de un *ndarray* creará un nuevo arreglo y borrará el original.
* Los elementos de un arreglo NumPy requiere datos de un mismo tipo y serán del mismo tamaño en la memoria. La excepción es que se pueden tener arreglos de objetos, que permitira arreglos de elementos de diferentes tamaños.
* Los arreglos NumPy facilitan operaciones matemáticas avanzadas y otro tipo de operaciones en grandes numeros de datos.
* Paqueterias de Python usan arreglos NumPy para hacer software eficiente.

Los atributos de un objeto *ndarray* son:

- ndarray.ndim

El numero de dimensiones de un arreglo


- ndarray.shape

Es una tupla de enteros que indica el tamaño de un arreglo en cada dimensión. Para una matriz con *n* filas y *m* columnas, `shape` seria de (*n*, *m*)


- ndarray.size

El total de elementos del arreglo

- ndarray.dtype

Describe el tipo de elementos en el arreglo. Por ejemplo: numpy.int32, numpy.int16, and numpy.float64.

In [5]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [6]:
a.shape

(3, 5)

In [7]:
a.ndim

2

In [9]:
a.dtype.name

'int32'

In [10]:
a.itemsize

4

In [11]:
a.size

15

In [12]:
type(a)

numpy.ndarray

In [13]:
b = np.array([6, 7, 8])
b

array([6, 7, 8])

In [14]:
type(b)

numpy.ndarray

`array` transforma secuencias de secuencias en arreglos de dos dimensiones; secuencias de secuencias de secuencias en arreglos de tresdimensiones y asi sucesivamente

In [15]:
 b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

La función `zeros` crea un arreglo lleno de ceros, la función `ones` crea un arreglo lleno de unos y la función `empty` crea un arreglo cuyo contenido inicial es aleatorio y depende del estado de la memoria

In [16]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [18]:
np.ones((2, 3, 4), dtype = np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [19]:
np.empty((2, 3))

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

Para crear secuencias de números, NumPy brinda la función `arange` que es análoga a la construida en Python `range`, pero devuelve un arreglo

In [20]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

Es posible generar números aleatorios en formato de arreglo, similar a las funciones `np.zeros` y `np.ones` usando la función `np.random.randn`

In [9]:
np.random.rand(3,2)

array([[0.61545379, 0.89856205],
       [0.62030844, 0.32823341],
       [0.98895611, 0.51997913]])

### Números Aleatorios

Es posible generar números aleatorios desde NumPy.

In [10]:
default_rng = np.random.default_rng()
default_rng

Generator(PCG64) at 0x209ED0A92E0

Desde la versión 1.17, NumPy utiliza el algoritmo PCG64 ( generador congruencial permutado-64 ), más eficiente. Este algoritmo produce números menos predecibles, como lo demuestra su rendimiento en la prueba estadística TestU01 , estándar de la industria. PCG64 también es más rápido y requiere menos recursos.

In [11]:
default_rng.random()

0.9909977318781663

In [12]:
default_rng.random()

0.6546357810957991

Por defecto, `Generator.random()` devuelve un valor flotante de 64 bits en el intervalo semiabierto [0.0, 1.0]. Esta notación se utiliza para definir un rango de números. El [ es el parámetro cerrado e indica inclusividad.

#### Distribuciones

El bloque de funciones de distribuciones ofrece numerosas funciones que permiten generar un array de números aleatorios a partir de distribuciones de todo tipo:

- normal

La función `numpy.random.normal` genera un array del tamaño indicado a partir de una distribución normal o gaussiana de una cierta media y desviación estandar:

In [15]:
# Generar un arreglo de 10 números con distribución Normal de media y desviación estandar deseadas
default_rng.normal(loc = 5, scale = 2, size= 10)

array([3.63438934, 6.7636528 , 0.49117109, 3.72654303, 7.20807751,
       1.72275769, 3.10143125, 2.87967712, 1.33990512, 5.02979564])

En este ejemplo hemos generado un arreglo de una dimensión y diez valores con números aleatorios a partir de una distribución gaussiana de media 5 y desviación estándar 2.

In [13]:
# Generar un arreglo de 10 números con distribución Normal Estandar
default_rng.standard_normal(10)

array([-1.19453041,  0.55036602,  1.05802593, -0.08169782, -1.33396343,
       -1.25209265, -1.01817469, -1.38059364, -0.96921581,  1.44737375])

In [16]:
np.random.normal(loc = 5, scale = 2, size= 10)

array([6.29918833, 3.3860609 , 6.66436928, 3.55172745, 9.06425688,
       5.51878877, 2.14225939, 5.13640607, 8.22679591, 9.03214867])

In [18]:
np.random.random(3)

array([0.23943589, 0.81701782, 0.57662235])

Algunas otras distribuciones disponibles:

`numpy.random.beta`: Genera muestras aleatorias a partir de una distribución beta

`numpy.random.chisquare`: Genera muestras aleatorias a partir de una distribución chi-cuadrado

`numpy.random.exponential`: Genera muestras aleatorias a partir de una distribución exponencial

`numpy.random.poisson`: Genera muestras aleatorias a partir de una distribución de Poisson

## Estructuras básicas de datos en Pandas

Pandas tiene dos tipos de clases para manejar datos:

* Serie: Un arreglo de una dimensión que contiene datos de cualquier tipo como enteros, cadenas, objetos de Python, etc.
* DataFrame: Una estructura de datos de dos dimensiones que contiene arreglos de filas y comunas.

In [3]:
#Creamos una Serie
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Es posible crear un `DataFrame` usando un diccionario de objetos donde las llaves son las etiquetas de las columnas y los valores son los valores de las columnas.

In [3]:
#Creamos un DataFrame con diccionario
df = pd.DataFrame({"columna1":[1, 2, 3, 4], "columna2":["a", "b", "c", "d"]})
df

Unnamed: 0,columna1,columna2
0,1,a
1,2,b
2,3,c
3,4,d


Es posible crear un `DataFrame` usando un arreglo NumPy.

In [6]:
#Creamos un DataFrame con arreglo NumPy
minutos = np.arange(10, 30, 5)
minutos

array([10, 15, 20, 25])

In [8]:
df2 = pd.DataFrame(np.random.randn(4, 3), index = minutos, columns = list("123"))
df2

Unnamed: 0,1,2,3
10,-0.122705,-1.3748,-0.558771
15,-0.416494,-1.974314,-1.529811
20,0.614818,0.156526,-0.831648
25,0.594211,1.160695,1.049659


In [19]:
# Veamos los tipos de datos diferentes presentes en las columnas
df.dtypes

columna1     int64
columna2    object
dtype: object

## Importar y exportar datos

### CSV

Es posible escribir un archivo csv usando `DataFrame.to_csv()`

In [20]:
df.to_csv("probando_csv")

Es posible leer un archivo csv usando `read_csv()`

In [21]:
pd.read_csv("probando_csv")

Unnamed: 0.1,Unnamed: 0,columna1,columna2
0,0,1,a
1,1,2,b
2,2,3,c
3,3,4,d


### Excel

Es posible escribir un archivo csv usando `DataFrame.to_excel()`

In [22]:
df.to_excel("probando_excel.xlsx", sheet_name = "Sheet1")

Es posible leer um archivo de excel usando `read_excel()`

In [23]:
pd.read_excel("probando_excel.xlsx", "Sheet1", index_col = None, na_values = ["NA"])

Unnamed: 0.1,Unnamed: 0,columna1,columna2
0,0,1,a
1,1,2,b
2,2,3,c
3,3,4,d


### R

Usualmente los cientificos de datos guardan sus datos de R en archivos csv y los importan a Python. El paquete estadístico R es similar a la combinación de Python y Pandas y varios cientificos usan ambos; manipulando datos en Python y analisis estadístico en R o viceversa, dependiendo de sus paquetes preferidos.

Es posible usar el paquete `pyreadr`. No obstante pueden presentarse incompatibilidades.

Importaremos un conjunto de datos precargados usados en R:

![pandas](i4.02.png)

```
write.csv(iris, file = "C:/Users/josh_/Desktop/Libros/UNISA/Pregrado/2024 - 2025/Taller de python para estadística/iris.csv", row.names=FALSE)
```

In [29]:
pd.read_csv("iris.csv")

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [30]:
iris = pd.read_csv("iris.csv")
#Podemos ver porciones de los datos cuando son numerosos
iris.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [31]:
iris.tail()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [32]:
iris.index

RangeIndex(start=0, stop=150, step=1)

In [34]:
iris.columns

Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')

In [36]:
df.to_numpy()

array([[1, 'a'],
       [2, 'b'],
       [3, 'c'],
       [4, 'd']], dtype=object)

In [38]:
iris.dtypes

Sepal.Length    float64
Sepal.Width     float64
Petal.Length    float64
Petal.Width     float64
Species          object
dtype: object

In [39]:
#Es posible transponer los datos 
iris.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,140,141,142,143,144,145,146,147,148,149
Sepal.Length,5.1,4.9,4.7,4.6,5.0,5.4,4.6,5.0,4.4,4.9,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
Sepal.Width,3.5,3.0,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.1,3.1,2.7,3.2,3.3,3.0,2.5,3.0,3.4,3.0
Petal.Length,1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5.0,5.2,5.4,5.1
Petal.Width,0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2.0,2.3,1.8
Species,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica


In [41]:
#Se pueden renombrar las columnas
nombres = ["Longitud_Sepalo", "Ancho_Sepalo", "Longitud_Petalo", "Ancho_Petalo","Especie"]
iris.columns = nombres

In [42]:
iris.head()

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo,Especie
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [43]:
iris.columns

Index(['Longitud_Sepalo', 'Ancho_Sepalo', 'Longitud_Petalo', 'Ancho_Petalo',
       'Especie'],
      dtype='object')

In [46]:
# Seleccionar columnas
iris[["Longitud_Sepalo", "Longitud_Petalo"]]

Unnamed: 0,Longitud_Sepalo,Longitud_Petalo
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [47]:
# Seleccionas una sola columna que devuelva un formato Series
iris["Especie"]

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Especie, Length: 150, dtype: object

In [48]:
# Seleccionar filas
iris[:5]

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo,Especie
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [50]:
# Seleccionar cruces de filas y columnas
iris.iloc[[5, 6, 7, 8, 9, 10], [1, 4]]

Unnamed: 0,Ancho_Sepalo,Especie
5,3.9,setosa
6,3.4,setosa
7,3.4,setosa
8,2.9,setosa
9,3.1,setosa
10,3.7,setosa


In [51]:
# Filtrado de datos
iris[iris["Longitud_Sepalo"] > 5]

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo,Especie
0,5.1,3.5,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
10,5.4,3.7,1.5,0.2,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [53]:
iris[iris["Especie"] == "setosa"]

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo,Especie
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [62]:
#Operaciones con columnas
iris["Longitud_Sepalo"] / iris["Longitud_Petalo"]

0      3.642857
1      3.500000
2      3.615385
3      3.066667
4      3.571429
         ...   
145    1.288462
146    1.260000
147    1.250000
148    1.148148
149    1.156863
Length: 150, dtype: float64

In [63]:
# Agregar la columna
indice_long_sep_pet = iris["Longitud_Sepalo"] / iris["Longitud_Petalo"]
iris["indice_long_sep_pet"] = indice_long_sep_pet

     Longitud_Sepalo  Ancho_Sepalo  Longitud_Petalo  Ancho_Petalo    Especie  \
0                5.1           3.5              1.4           0.2     setosa   
1                4.9           3.0              1.4           0.2     setosa   
2                4.7           3.2              1.3           0.2     setosa   
3                4.6           3.1              1.5           0.2     setosa   
4                5.0           3.6              1.4           0.2     setosa   
..               ...           ...              ...           ...        ...   
145              6.7           3.0              5.2           2.3  virginica   
146              6.3           2.5              5.0           1.9  virginica   
147              6.5           3.0              5.2           2.0  virginica   
148              6.2           3.4              5.4           2.3  virginica   
149              5.9           3.0              5.1           1.8  virginica   

     indice_long_sep_pet  
0           

In [64]:
iris

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo,Especie,indice_long_sep_pet
0,5.1,3.5,1.4,0.2,setosa,3.642857
1,4.9,3.0,1.4,0.2,setosa,3.500000
2,4.7,3.2,1.3,0.2,setosa,3.615385
3,4.6,3.1,1.5,0.2,setosa,3.066667
4,5.0,3.6,1.4,0.2,setosa,3.571429
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,1.288462
146,6.3,2.5,5.0,1.9,virginica,1.260000
147,6.5,3.0,5.2,2.0,virginica,1.250000
148,6.2,3.4,5.4,2.3,virginica,1.148148


## Estadísticas

La función `describe()` mostrara un resumen rápido de los datos

In [61]:
iris.describe()

Unnamed: 0,Longitud_Sepalo,Ancho_Sepalo,Longitud_Petalo,Ancho_Petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [55]:
# Media
iris["Longitud_Petalo"].mean()

3.7580000000000027

In [56]:
# Mediana
iris["Longitud_Petalo"].median()

4.35

In [57]:
# Varianza
iris["Longitud_Petalo"].var()

3.1162778523489942

In [None]:
# Desviacion estandar
iris["Longitud_Petalo"].std()

In [60]:
# Percentiles
p25 = iris["Longitud_Petalo"].quantile(q = 0.25)
p50 = iris["Longitud_Petalo"].quantile(q = 0.5)
p75 = iris["Longitud_Petalo"].quantile(q = 0.75)

print(p25, p50, p75)

1.6 4.35 5.1


Ejercicio 4

Importe un conjunto de datos real, o bien, cree un set de datos ficticio con las herramientas de Python o obtenga las medidas descriptivas de ese conjunto

## Referencias

https://pandas.pydata.org/docs/getting_started/install.html

https://numpy.org/doc/stable/

https://numpy.org/doc/2.1/reference/random/index.html

https://www.datacamp.com/es/tutorial/pandas-tutorial-dataframe-python

https://www.youtube.com/watch?v=PvNKKrPE0AI

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.quantile.html

https://4geeks.com/es/how-to/anadir-columna-dataframe-python