# Pandas




Pandas es una biblioteca de software de código abierto para el lenguaje de programación Python. 

Proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. 

Pandas se utiliza comúnmente en la ciencia de datos y análisis para manipular, limpiar y analizar datos de manera eficiente. 

In [None]:
import pandas as pd

## Dataframes



Un DataFrame es una estructura de datos ***bidimensional*** en Pandas que se utiliza para almacenar y manipular datos tabulares. 

Puede considerarse como una tabla o una hoja de cálculo en la que los datos se organizan en filas y columnas.

Cada columna en un DataFrame representa una variable o característica específica, mientras que cada fila corresponde a una observación o instancia de esos datos.

In [None]:
diccionario_perros = {
    'Raza': ['Labrador Retriever', 'Bulldog Francés', 'Pastor Alemán', 'Golden Retriever', 'Chihuahua'],
    'Tamaño': ['Grande', 'Pequeño', 'Grande', 'Grande', 'Pequeño'],
    'Origen': ['Canadá', 'Francia', 'Alemania', 'Reino Unido', 'México'],
    'Esperanza de vida (años)': [12, 10, 13, 10, 15]
}

df = pd.DataFrame(diccionario_perros)

### Exploración de datos

Para explorar datos en Pandas, hay varias funcionalidades y métodos disponibles.



**df.head():** Muestra los primeros registros del DataFrame. Por defecto, muestra los primeros 5 registros, pero puedes especificar el número deseado de registros dentro de los paréntesis.



In [None]:
df.head()

**df.tail():** Muestra los últimos registros del DataFrame. Al igual que df.head(), por defecto muestra los últimos 5 registros, pero puedes especificar el número deseado.

In [None]:
df.tail()


**df.info():** Proporciona información sobre el DataFrame, incluyendo el número de filas y columnas, los nombres de las columnas, los tipos de datos de las columnas y la cantidad de valores no nulos.

In [None]:
df.info()


**df.describe():** Calcula estadísticas descriptivas como la media, desviación estándar, valor mínimo, percentiles y valor máximo para las columnas numéricas del DataFrame.

In [None]:
df.describe()


### Partes de un DataFrame

Un DataFrame en Pandas está compuesto por varias partes esenciales:

**Índice:** El índice es una etiqueta o identificador único asignado a cada fila del DataFrame. Puede ser un número entero, una cadena de texto u otro tipo de dato. El índice proporciona una forma de acceder y manipular filas de manera individual.



In [None]:
df.index


**Columnas:** Las columnas representan las variables o características del conjunto de datos. Cada columna tiene un nombre único que la identifica. 



In [None]:
df.columns


**Datos:** Los datos en un DataFrame se organizan en una estructura tabular bidimensional. Cada fila del DataFrame representa una observación o instancia de los datos. 

In [None]:
df.values


### Ordenar elementos



Para ordenar columnas en un DataFrame de Pandas, puedes utilizar el método sort_values() junto con el argumento by.

In [None]:
df.sort_values(by='Raza')


Por defecto pandas ordena de manera ascendente, pero podemos cambiar este orden.


In [None]:
df.sort_values(by='Raza', ascending=False)


Podemos especificar multiples columnas para realizar el ordenamiento, utilizando una lista con los nombres de las columnas.

La mayor prioridad de ordenamiento la tendra el elemento con indice 0 de la lista.


In [None]:
df.sort_values(['Tamaño', 'Origen'])


De igual manera se puede especificar diferente ordenamiento para cada columna

In [None]:
df.sort_values(['Tamaño', 'Origen'], ascending=[False, True])

### Subconjuntos




Para obtener un subconjunto por columna, se puede utilizar la notación de corchetes [] y pasar el nombre de la columna como una cadena de texto dentro de los corchetes.

In [None]:
df['Origen']


Se puede obtener subconjuntos de múltiples columnas utilizando la misma notación de corchetes [] y pasando una lista con los nombres de las columnas que deseas seleccionar. 

In [None]:
df[['Origen', 'Esperanza de vida (años)']]

Para seleccionar renglones, filtramos la información de acuerdo a los datos que queramos observar


In [None]:
df[df['Esperanza de vida (años)'] > 12]


Podemos encadenar diferentes filtros uniendolos con un operador boleano


In [None]:
df[(df['Esperanza de vida (años)'] > 12) & (df['Origen'] == 'Alemania')]


Para filtrar por multiples variables categoricas es mas facil utilizar el operador _isin_

In [None]:
df[ df['Origen'].isin(['México', 'Alemania']) ]

### Crear nuevas columnas



En ocasiones los datos pueden no tener la forma que nosotros esperamos y tenemos que generar una nueva columna o modificarla a partir de columnas ya existentes.

Puedes crear una nueva columna basada en cálculos utilizando las columnas existentes. 

In [None]:
df['Esperanza de vida (dias)'] = df['Esperanza de vida (años)'] * 365
df

## Importar y exportar archivos


En Pandas, puedes importar y exportar archivos utilizando diversas funciones específicas para diferentes formatos de archivos.

Para importar un archivo CSV en un DataFrame, puedes utilizar la función ***read_csv()*** de Pandas.


``` python
import pandas as pd

# Importar archivo CSV en un DataFrame
df = pd.read_csv('archivo.csv')
```



Para exportar un DataFrame en Pandas, puedes utilizar los métodos específicos de exportación según el formato de archivo que desees utilizar.



``` python
import pandas as pd

# Exportar DataFrame df a un archivo CSV
df.to_csv('archivo.csv', index=False)

```

