<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/dataframes_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Creación y Manipulación de DataFrames

## Qué es pandas?

`pandas` es una biblioteca de programación en Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es una de las bibliotecas más populares y ampliamente utilizadas para la manipulación y análisis de datos en Python.

## Qué es una DataFrame?

Un `DataFrame` es una de las principales estructuras de datos en `pandas`. Se puede pensar en un `DataFrame` como una tabla bidimensional (similar a una hoja de cálculo de Excel o una tabla SQL) que puede almacenar datos de diferentes tipos, como números, cadenas y objetos. Un `DataFrame` tiene dos dimensiones: filas y columnas. Cada columna en un `DataFrame` puede considerarse como una `Series`, que es otra estructura de datos principal en `pandas`.

### Características clave de un `DataFrame`

1. **Etiquetas de Eje**: Tanto las filas como las columnas pueden tener etiquetas.
2. **Diferentes tipos de datos**: Cada columna puede tener un tipo de dato diferente.
3. **Tamaño mutable**: Se pueden cambiar las dimensiones (agregar o eliminar filas/columnas).
4. **Operaciones de datos**: Puede realizar muchas operaciones, como agregar y eliminar columnas, llenar valores faltantes, filtrar por condiciones y agrupar por variables.

Un ejemplo simple de un `DataFrame` podría ser una tabla que contiene información sobre estudiantes, donde las filas representan a cada estudiante y las columnas contienen información como nombre, edad y calificación.

## Características clave de una `Series`

Una `Series` en `pandas` es una estructura de datos unidimensional que puede almacenar datos de cualquier tipo (enteros, cadenas, números flotantes, objetos Python, etc.). Es similar a una columna (o vector) en una hoja de cálculo o base de datos.

1. **Etiquetas de Eje**: Cada elemento en una `Series` tiene una etiqueta asociada, que comúnmente se conoce como índice. Por defecto, este índice es una secuencia numérica que comienza desde 0, pero puede ser modificado para tener etiquetas personalizadas o incluso índices jerárquicos.
2. **Tipo de dato único**: A diferencia de un `DataFrame`, una `Series` solo puede contener un tipo de dato en particular.
3. **Operaciones vectorizadas**: Al igual que los arrays en NumPy, las operaciones en una `Series` son vectorizadas, lo que significa que se aplican elemento por elemento, permitiendo operaciones rápidas sin necesidad de bucles explícitos. Un vector se refiere a un array [Lista] unidimencional de datos.

Otra librería en python conocida con Numpy
```python
import numpy as np

# Crear dos arrays
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

# Suma vectorizada
c = a + b
print(c)  # Output: [6 8 10 12]
```

Un ejemplo simple de una `Series` podría ser una lista de calificaciones de estudiantes. Si bien los valores representan las calificaciones, los índices podrían representar los nombres de los estudiantes index=["Juan", "Ana", "Luis", "Marta"]. Sin embargo, el índice podrían ser números secuenciales si no se modifican index=[0, 1, 2, 3].

### Creación de una Series

In [None]:
## Creación de una Series
import pandas as pd

# Con indice declarado
s = pd.Series([90, 85, 78, 92], index=["Juan", "Ana", "Luis", "Marta"])
print(s)

# Sin indice declarado
s = pd.Series([90, 85, 78, 92]) #, index=["Juan", "Ana", "Luis", "Marta"])
print(s)

Juan     90
Ana      85
Luis     78
Marta    92
dtype: int64
0    90
1    85
2    78
3    92
dtype: int64


### Creación de un DataFrame

Crear un `DataFrame` en `pandas` es sencillo y hay varias formas de hacerlo, dependiendo de la fuente de datos y la estructura que tengas.

Formas más comunes de crear un `DataFrame`

Recordar importar pandas y asignarle un apodo (pd) utilizando la siguiente linea de codigo:
```python
import pandas as pd
```

In [None]:
# A partir de un diccionario de listas o arrays:
import pandas as pd

datos = {
    'Nombres': ['Juan', 'Ana', 'Luis', 'Marta'],
    'Edades': [25, 30, 22, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

# Con indice de numero secuenciales
df = pd.DataFrame(datos)
print(df)

# Sin indice numerico
# print(df.to_string(index=False))

  Nombres  Edades     Ciudad
0    Juan      25     Madrid
1     Ana      30  Barcelona
2    Luis      22   Valencia
3   Marta      29    Sevilla


In [None]:
# A partir de una lista de diccionarios:

import pandas as pd

lista_de_diccionarios = [
    {'Nombres': 'Juan', 'Edades': 25, 'Ciudad': 'Madrid'},
    {'Nombres': 'Ana', 'Edades': 30, 'Ciudad': 'Barcelona'},
    {'Nombres': 'Luis', 'Edades': 22, 'Ciudad': 'Valencia'},
    {'Nombres': 'Marta', 'Edades': 29, 'Ciudad': 'Sevilla'}
]

df = pd.DataFrame(lista_de_diccionarios)
print(df)


  Nombres  Edades     Ciudad
0    Juan      25     Madrid
1     Ana      30  Barcelona
2    Luis      22   Valencia
3   Marta      29    Sevilla


In [None]:
# A partir de un array de NumPy:
import pandas as pd
import numpy as np

# array
datos_array= np.array([[25, 'Madrid'], [30, 'Barcelona'], [22, 'Valencia'], [29, 'Sevilla']])
df = pd.DataFrame(datos_array, columns=['Edades', 'Ciudad'], index=['Juan', 'Ana', 'Luis', 'Marta'])
print(df)

      Edades     Ciudad
Juan      25     Madrid
Ana       30  Barcelona
Luis      22   Valencia
Marta     29    Sevilla


In [None]:
#A partir de un archivo:
'''Puedes crear un DataFrame directamente desde un archivo,
como un CSV, Excel, SQL, entre otros. Por ejemplo, para leer un archivo CSV.'''

import pandas as pd

# df = pd.read_csv('ruta_del_archivo.csv')
# df = pd.read_csv('/Users/jast/Downloads/Curso_AI/Pandas/train.csv')
datos_archivo = pd.read_csv('/Users/jast/Downloads/Curso_AI/Pandas/ejempo_datos.csv')

indice = ['Juan', 'Ana', 'Luis', 'Marta']
df = pd.DataFrame(datos_archivo)
print(df)

# Si se desea añadir un indice luego de creado el dataframe se utiliza el siguiente método
df.index = ['Juan', 'Ana', 'Luis', 'Marta']
print(df)

  Nombres  Edades     Ciudad
0    Juan       5     Madrid
1     Ana      30  Barcelona
2    Luis      22   Valencia
3   Marta       9    Sevilla
      Nombres  Edades     Ciudad
Juan     Juan       5     Madrid
Ana       Ana      30  Barcelona
Luis     Luis      22   Valencia
Marta   Marta       9    Sevilla


In [None]:
## Población mundial en millones

In [None]:
import pandas as pd

nombre_paises = ["China", "India", "Estados Unidos", "Indonesia", "Pakistán",
                 "Brasil", "Nigeria", "Bangladesh", "Rusia", "México"]

# encabezado = ["poblacion", "porcentaje"]

datos = [[1439, 18.47],
        [1380, 17.70],
        [331, 4.25],
        [273, 3.51],
        [220, 2.83],
        [212, 2.73],
        [206, 2.64],
        [164, 2.11],
        [145, 1.87],
        [128, 1.65]]

# paises = pd.DataFrame(datos, index=nombre_paises, columns=encabezado)
paises = pd.DataFrame(datos)
# paises


In [None]:
# Datos definidos a través de un diccionario
datos = {"China": [1439, 18.47],
         "India": [1380, 17.70],
         "Estados Unidos": [331, 4.25],
         "Indonesia": [273, 3.51],
         "Pakistán": [220, 2.83],
         "Brasil": [212, 2.73],
         "Nigeria": [206, 2.64],
         "Bangladesh": [164, 2.11],
         "Rusia": [145, 1.87],
         "México": [128, 1.65]}

paises = pd.DataFrame(datos) #, index=encabezado)
# paises = paises.T # Transpuesto (cambiar columnas por renglones y vice versa)
paises


### Atributos básicos de  un DataFrame

Un `DataFrame` en `pandas` tiene varios atributos que permiten acceder a información específica sobre la estructura y los datos que contiene.

Estos atributos son útiles para obtener una idea rápida de la estructura y características de un `DataFrame`, especialmente cuando estás trabajando con un conjunto de datos por primera vez o cuando estás realizando análisis exploratorios.

1. **`df.shape`**: Devuelve una tupla que representa la dimensionalidad del `DataFrame` (número de filas, número de columnas).

2. **`df.index`**: Devuelve el índice (etiquetas de las filas) del `DataFrame`.

3. **`df.columns`**: Devuelve las columnas del `DataFrame` (etiquetas de las columnas).

4. **`df.dtypes`**: Devuelve una serie con el tipo de dato de cada columna.

5. **`df.values`**: Devuelve una representación en forma de array de NumPy de los datos del `DataFrame`.

6. **`df.size`**: Devuelve el número total de elementos en el `DataFrame`.

7. **`df.ndim`**: Devuelve el número de dimensiones del `DataFrame`. Para un `DataFrame` típico, este valor es 2.

8. **`df.empty`**: Devuelve `True` si el `DataFrame` está vacío (sin elementos) y `False` en caso contrario.

9. **`df.info()`**: Proporciona un resumen conciso del `DataFrame`, incluyendo el tipo de dato de cada columna, valores no nulos y memoria utilizada. Aunque `info()` es más bien un método, es comúnmente utilizado para obtener una visión general rápida del `DataFrame`.

In [None]:
# El dataframe se llama paises
# paises.dtypes

In [None]:
# paises.values, paises.size

In [None]:
# Con los objetos index se puede iterar
# paises.index, paises.columns

### Acceso a los elementos de un DataFrame


En `pandas`, hay varias formas de acceder a los elementos de un `DataFrame`. A continuación, te presento algunas de las más comunes:

1. **Acceso a columnas**:
   - Usando corchetes y el nombre de la columna:
     ```python
     df['Nombres']
     ```
   - Usando el atributo de la columna (si el nombre de la columna es un identificador válido en Python):
     ```python
     df.Nombres
     ```

2. **Acceso a filas por etiqueta con `loc`**:
   - Una fila específica por etiqueta:
     ```python
     df.loc[0]
     ```
   - Varias filas y columnas específicas:
     ```python
     df.loc[0:2, ['Nombres', 'Edades']]
     ```

3. **Acceso a filas por posición con `iloc`**:
   - Una fila específica por índice numérico:
     ```python
     df.iloc[0]
     ```
   - Varias filas y columnas específicas:
     ```python
     df.iloc[0:2, 0:2]
     ```

4. **Acceso a elementos individuales**:
   - Usando `loc`:
     ```python
     df.loc[0, 'Nombres']
     ```
   - Usando `at` (más rápido para acceder a un único elemento):
     ```python
     df.at[0, 'Nombres']
     ```
   - Usando `iloc`:
     ```python
     df.iloc[0, 0]
     ```
   - Usando `iat` (más rápido para acceder a un único elemento por posición):
     ```python
     df.iat[0, 0]
     ```

5. **Acceso condicional**:
   Puedes usar condiciones para filtrar filas basadas en ciertos criterios. Por ejemplo, para seleccionar todas las filas donde `Edades` es mayor que 25:
   ```python
   df[df['Edades'] > 25]
   ```

6. **Acceso a través de métodos como `head()` y `tail()`**:
   - Las primeras `n` filas:
     ```python
     df.head(n)
     ```
   - Las últimas `n` filas:
     ```python
     df.tail(n)
     ```

Estas son solo algunas de las formas básicas de acceder a los elementos de un `DataFrame`. `pandas` ofrece una amplia variedad de métodos y funcionalidades para manipular y acceder a datos de manera eficiente.

In [None]:
# Acceso específico a la columna o serie de datos
# paises.poblacion

In [None]:
# paises["poblacion"], paises[["poblacion", "porcentaje"]]

In [None]:
# paises["poblacion"][0], paises.poblacion[0],paises["poblacion"][0:3]

In [None]:
# paises.iloc[0], paises.loc["China"]

### Métodos básicos comunes de DataFrames

Los `DataFrames` en `pandas` vienen con una amplia variedad de métodos que facilitan la manipulación y análisis de datos. A continuación, te presento algunos de los métodos básicos más comunes asociados con `DataFrames`:

1. **Visualización y Resumen**:
   - `head(n)`: Muestra las primeras `n` filas del `DataFrame`.
   - `tail(n)`: Muestra las últimas `n` filas del `DataFrame`.
   - `info()`: Proporciona un resumen del `DataFrame`, incluyendo el número de valores no nulos y el tipo de dato de cada columna.
   - `describe()`: Genera estadísticas descriptivas de las columnas, como el conteo, la media, la desviación estándar, los valores mínimo y máximo, entre otros.

2. **Manipulación de Datos**:
   - `copy()`: Crea una copia del `DataFrame`.
   - `drop(labels, axis)`: Elimina filas (axis=0) o columnas (axis=1) según el valor de `axis`.
   - `drop(labels, axis, inplace=True)`: Elimina filas o columnas dentro del `DataFrame`.
   - `rename()`: Renombra las columnas o índices del `DataFrame`.
   - `astype(dtype)`: Convierte el tipo de dato de las columnas.

3. **Filtrado y Selección**:
   - `loc[]`: Selecciona filas y columnas por etiqueta.
   - `iloc[]`: Selecciona filas y columnas por posición (índice numérico).
   - `query(expr)`: Filtra filas según una expresión de consulta.

4. **Ordenación**:
   - `sort_values(by, ascending)`: Ordena el `DataFrame` por una o más columnas.
   - `sort_index()`: Ordena el `DataFrame` por índices.

5. **Operaciones Aritméticas y Estadísticas**:
   - `sum()`: Suma los valores de las columnas o filas.
   - `mean()`: Calcula la media de las columnas o filas.
   - `min()`, `max()`: Encuentra el valor mínimo o máximo, respectivamente.
   - `cumsum()`: Calcula la suma acumulativa.

6. **Manipulación de Valores Faltantes**:
   - `isna()`, `isnull()`: Devuelve un `DataFrame` booleano que indica si los valores son NA o NULL.
   - `dropna()`: Elimina filas o columnas con valores faltantes.
   - `fillna(value)`: Rellena los valores faltantes con un valor específico o método (como `'mean'` o `'median'`).

7. **Agrupación y Agregación**:
   - `groupby()`: Agrupa el `DataFrame` usando una columna o varias columnas.
   - `agg()`: Agrega usando una o más operaciones sobre el `DataFrame` agrupado.

8. **Combinación y Unión**:
   - `merge()`: Combina `DataFrames` usando una o más claves.
   - `join()`: Une `DataFrames` en un índice o columna específica.
   - `concat()`: Concatena `DataFrames` a lo largo de un eje particular.

9. **Aplicación de Funciones**:
   - `apply(func)`: Aplica una función a lo largo de un eje del `DataFrame`.
   - `applymap(func)`: Aplica una función a cada elemento del `DataFrame`.

Estos son solo algunos de los métodos básicos asociados con `DataFrames` en `pandas`. La biblioteca ofrece una amplia gama de funcionalidades adicionales que cubren diversas necesidades de manipulación y análisis de datos.

In [None]:
# paises["poblacion"] = paises["poblacion"].astype("int") # Convertir en entero

In [None]:
# paises.info()

In [None]:
# paises.head() # Para obtener las primeras filas o renglones

In [None]:
# paises.tail()# Para obtener las últimas filas o renglones

In [None]:
# paises.sort_values(by=["porcentaje"]), ascending=True # Ordenar de menor a mayor por los elementos seleccionado

In [None]:
# paises.sort_index() # Ordena de menor a mayor por la columna de indice

## Agregar y borrar renglones y columnas

In [None]:
# Agregar una columna con los datos a continuación
# tasa_fertilidad = [1.7, 2.2, 1.8, 2.3, 3.6, 1.7, 5.4, 2.1, 1.8, 2.1]
# paises["tasa_fertilidad"] = tasa_fertilidad
# paises

In [None]:
# Borrar columna a través de método pop
# paises.pop("tasa_fertilidad")
# del paises["tasa_fertilidad"]
# paises.drop("tasa_fertilidad", axis=1, inplace=True)
# paises

In [None]:
# Borrar columna a través del metodo del
# del paises["tasa_fertilidad"]
# paises

In [None]:
# Borrar columna o filas a través del metodo del drop, pero requiere el axis=1 y inplace para que lo pueda ejercutar en el dataframe
# paises.drop("tasa_fertilidad", axis=1, inplace=True) # Borrar en el eje  (axis=0) de las columnas, con el parametro de inplace para modificar el dataframe
# paises

In [None]:
# Para agregar un registro requiere crear una Series
# Japón -> 126, 1.62
# renglon = pd.Series(name="Japón", data=[126, 1.62], index=["poblacion", "porcentaje"])
# renglon

# Agregar a la variable paises
# paises = paises.append(renglon)
# paises

In [None]:
# Borrar un renglón o fila o indice
# paises.drop(["Japón"], axis=0, inplace=True) # Borrar en el eje (axis=0) de las filas o renglones

### Funciones de estadística y de agregación básicas

`pandas` ofrece una amplia gama de funciones estadísticas que se pueden aplicar a `Series` y `DataFrames`. Estas funciones son útiles para realizar análisis exploratorio de datos y obtener insights rápidos de tus conjuntos de datos. A continuación, se enumeran algunas de las funciones estadísticas más comunes disponibles en `pandas`:

1. **Medidas de Tendencia Central**:
   - `mean()`: Calcula la media aritmética.
   - `median()`: Calcula la mediana.
   - `mode()`: Devuelve la moda.

2. **Medidas de Dispersión**:
   - `std()`: Calcula la desviación estándar.
   - `var()`: Calcula la varianza.
   - `min()`: Devuelve el valor mínimo.
   - `max()`: Devuelve el valor máximo.
   - `quantile(q)`: Calcula el cuantil del conjunto de datos para el valor `q` dado.

3. **Medidas de Forma**:
   - `skew()`: Calcula la asimetría de la distribución.
   - `kurt()`: Calcula la curtosis de la distribución.

4. **Descripción General**:
   - `describe()`: Proporciona un resumen estadístico que incluye medidas como la media, mediana, desviación estándar, valores mínimo y máximo, y cuantiles.

5. **Conteo**:
   - `count()`: Cuenta el número de valores no nulos.
   - `value_counts()`: Cuenta la frecuencia de valores únicos (típicamente usado en `Series`).

6. **Correlación y Covarianza**:
   - `corr()`: Calcula la correlación entre columnas.
   - `cov()`: Calcula la covarianza entre columnas.

7. **Funciones de Acumulación**:
   - `cumsum()`: Calcula la suma acumulativa.
   - `cumprod()`: Calcula el producto acumulativo.
   - `cummax()`: Devuelve el máximo acumulativo.
   - `cummin()`: Devuelve el mínimo acumulativo.

8. **Funciones de Agregación**:
   - `agg()`, `aggregate()`: Aplican una o más operaciones de agregación al `DataFrame`.

9. **Otros**:
   - `nunique()`: Cuenta el número de valores únicos.
   - `idxmax()`: Devuelve el índice del primer valor máximo.
   - `idxmin()`: Devuelve el índice del primer valor mínimo.
   - `rank()`: Asigna rangos a los elementos.

Estas son solo algunas de las funciones estadísticas disponibles en `pandas`. La biblioteca ofrece muchas otras herramientas y funciones para realizar análisis estadísticos más avanzados y adaptados a diferentes necesidades.

In [None]:
# paises.describe() # metodo describe es para los datos estadísticos descriptivos

In [None]:
# paises.min()

In [None]:
# paises.comsum() # Metodo para suma acumulativa

## Graficos

Dentro de `pandas`, el objeto `DataFrame` tiene un método integrado llamado `.plot()` que proporciona una interfaz para generar diferentes tipos de gráficos utilizando `matplotlib` como backend. A continuación, te muestro algunos ejemplos de gráficos que puedes crear directamente desde un `DataFrame` en `pandas`:

1. **Gráfico de Líneas**:
   ```python
   df.plot(kind='line')
   plt.show()
   ```

2. **Histograma**:
   ```python
   df['columna'].plot(kind='hist')
   plt.show()
   ```

3. **Gráfico de Barras**:
   ```python
   df.plot(kind='bar')
   plt.show()
   ```

4. **Gráfico de Barras Horizontales**:
   ```python
   df.plot(kind='barh')
   plt.show()
   ```

5. **Gráfico de Dispersión (Scatter Plot)**:
   ```python
   df.plot(kind='scatter', x='columna_x', y='columna_y')
   plt.show()
   ```

6. **Diagrama de Caja (Box Plot)**:
   ```python
   df.plot(kind='box')
   plt.show()
   ```

7. **Gráfico de Área**:
   ```python
   df.plot(kind='area')
   plt.show()
   ```

8. **Gráfico Circular (Pie Chart)**:
   ```python
   df['columna'].plot(kind='pie')
   plt.show()
   ```

Para todos estos gráficos, puedes personalizarlos aún más utilizando argumentos adicionales en el método `.plot()` o manipulando el gráfico con funciones adicionales de `matplotlib`.

Es importante mencionar que, para visualizar estos gráficos, necesitarás tener instalada la biblioteca `matplotlib`. Si aún no la tienes, puedes instalarla usando `pip`:

```python
pip install matplotlib
```

Con el método `.plot()` de `pandas`, es fácil y rápido generar visualizaciones básicas directamente desde un `DataFrame`. Sin embargo, para visualizaciones más avanzadas o personalizadas, es posible que desees explorar bibliotecas adicionales como `seaborn` o `plotly`.

In [None]:
# Importar biblioteca de graficios Matplotlib
# import matplotlib.pyplot as plt

In [None]:
# Graficos
# paises.boxplot()

In [None]:
# paises.plot(kind='bar')
# plt.show()