# Tratamiento de datos 
---
<style>
      h1, h2, h3, h4, h5, h6,.imagen {
        text-align: center;
      }
 img{width: 75%; height: 75%;}
</style>

[Pandas](https://pandas.pydata.org/) es una librería de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. En particular, la clase `DataFrame` es útil para representar datos tabulares de forma ordenada y manipularlos de forma eficiente.

[Maltplotlib](https://matplotlib.org/) es una librería de Python para la generación de gráficos a partir de datos contenidos en listas o arrays.

## Instalación
 
```python

!pip install pandas matplotlib

``` 
## Importación

```python

import pandas as pd
import matplotlib.pyplot as plt

```

## Mi primer DataFrame

```python
# Datos categóricos
nombres = ['Naruto', 'One Piece', 'Dragon Ball', 'Attack on Titan', 'Death Note', 'My Hero Academia', 'Fullmetal Alchemist', 'Neon Genesis Evangelion']
demografia = ['Shonen', 'Shonen', 'Shonen', 'Shonen', 'Seinen', 'Shonen', 'Shonen', 'Seinen']
estudio = ['Pierrot', 'Toei Animation', 'Toei Animation', 'Wit Studio', 'Madhouse', 'Bones', 'Bones', 'Gainax']
# Datos continuos 
valoracion = [8.5, 9.0, 9.2, 9.5, 8.8, 9.1, 9.3, 9.4]

# Crear un DataFrame

Animes = pd.DataFrame({'nombre': nombres, 'demografia': demografia, 'estudio': estudio, 'valoracion': valoracion})

# Mostrar el DataFrame
Animes

# Mostrar las primeras 5 o n filas
Animes.head()

# Mostrar las últimas 5 o n filas

Animes.tail()

``` 

## Renombrar columnas

```python

# Renombrar columnas

Animes.rename(columns={'nombre': 'Anime', 'demografia': 'Demografia', 'estudio': 'Estudio', 'valoracion': 'Valoracion'}, inplace=True)

```

## Resumen de los datos

```python

# Resumen de los datos

Animes.describe()

# Resumen de los datos de una columna

Animes['Valoracion'].describe()

 
 
``` 

## Crear una nueva columna

```python

# Crear una nueva columna

Animes['Popularidad'] = ['Alta', 'Alta', 'Alta', 'Alta', 'Media', 'Alta', 'Alta', 'Alta']

```

## Ordenar los datos

```python

# Ordenar los datos

Animes.sort_values(by='Valoracion', ascending=False)

```

##  Acceso a los datos

```python

# Acceso a una columna
Animes['Anime']

# Acceso a una fila

Animes.iloc[0]

# Acceso a un elemento

Animes['Anime'][0]

```



##  Filtrado de datos

```python

# Filtrado de datos

Animes[Animes['Demografia'] == 'Shonen']

 

Animes[(Animes['Demografia'] == 'Shonen') & (Animes['Estudio'] == 'Pierrot')]

 

Animes[(Animes['Demografia'] == 'Shonen') | (Animes['Demografia'] == 'Seinen')]

 

Animes[Animes['Valoracion'] > 9.0]

 

Animes[Animes['Valoracion'] > 9.0][['Anime', 'Demografia', 'Estudio', 'Valoracion']]

# Filtrado de datos con el método query

Animes.query('Demografia == "Shonen"') 

Animes.query('Demografia == "Shonen" & Estudio == "Pierrot"')

Animes.query('Demografia == "Shonen" | Demografia == "Seinen"')

Animes.query('Valoracion > 9.0')

Animes.query('Valoracion > 9.0')[['Anime', 'Demografia', 'Estudio', 'Valoracion']]

```

 

## Asignar tipos de datos

```python

# Asignar tipos de datos

Animes['Demografia'] = Animes['Demografia'].astype('string')

Animes['Estudio'] = Animes['Estudio'].astype('category')

Animes.dtypes

```


## Eliminar columnas

```python

# Eliminar columnas

Animes.drop(['Popularidad'], axis=1, inplace=True)

Animes

```

## Eliminar filas

```python

# Eliminar filas

Animes.drop([0, 1], axis=0, inplace=True)

Animes

```

## Variables categóricas

```python

# Variables dummies

pd.get_dummies(Animes['Demografia'])

pd.get_dummies(Animes['Demografia'], drop_first=True)

Animes =   pd.get_dummies(Animes['Demografia'], drop_first=True) 

Animes

```

## Crear IDs

```python

# Crear IDs

Animes['Animeid'] = pd.factorize(Animes['Anime'])[0]
Animes['Demografiaid'] = pd.factorize(Animes['Demografia'])[0]
Animes['Estudioid'] = pd.factorize(Animes['Estudio'])[0]

Animes

``` 

## Tratamiento de valores nulos

```python

# Tratamiento de valores nulos

Animes.isnull()

Animes.isnull().sum()


Animes.dropna(inplace=True)

Animes

# Tratamiento de valores nulos con el método fillna

Animes.fillna(0, inplace=True)

Animes


```

## Tratamiento de datos duplicados

```python

# Tratamiento de datos duplicados

Animes.duplicated()

Animes.duplicated().sum()


Animes.drop_duplicates(inplace=True)

Animes

```

## Sacar muestras aleatorias para entrenamiento y prueba

```python

train=Animes.sample(frac=0.8)

test=Animes.drop(train.index)

print(train.shape, test.shape)

```

 

# Visualización de datos

```python

# Visualización de datos

Animes.plot(kind='scatter', x='Valoracion', y='Animeid')

Animes.plot(kind='box')

Animes.plot(kind='hist')

Animes.plot(kind='bar')

Animes.plot(kind='line')

Animes.plot(kind='pie', y='Valoracion')

plt.show()

```

## personalización de gráficos

```python
# Gráfico de Barras
Animes.plot.bar(x='Anime', y='Valoracion', legend=False)
plt.xlabel('Anime')
plt.ylabel('Valoración')
plt.title('Valoración de Animes')
plt.show()


# Gráfico de Pastel
demografia_counts = df['Demografia'].value_counts()
demografia_counts.plot.pie(autopct='%1.1f%%')
plt.title('Distribución de Demografía de Animes')
plt.show()


# Gráfico de Barras Apiladas
estudio_valoracion = df.groupby('Estudio')['Valoracion'].mean()
estudio_valoracion.plot(kind='bar', stacked=True)
plt.xlabel('Estudio')
plt.ylabel('Valoración Promedio')
plt.title('Valoración Promedio por Estudio')
plt.show()


# Gráfico de Dispersión
df.plot.scatter(x='Animeid', y='Valoracion')
plt.xlabel('Animeid')
plt.ylabel('Valoración')
plt.title('Relación entre Valoración y Animeid')
plt.show()

```


## Agrupación de datos

```python

# Agrupación de datos

demogroup=Animes.groupby('Demografia')

demogroup['Valoracion'].mean()  


demogroup['Valoracion'].describe()


```

## Descargar datos

```python

!wget  https://huggingface.co/datasets/minoruskore/asfijioasfwlf/resolve/main/nmbrs.zip -O /tmp/nmbrs.zip
!unzip /tmp/nmbrs.zip -d /tmp/

archivo = '../tmp/nombres.csv'

``` 

 

## Lectura de datos

```python

nombres = pd.read_csv(archivo )

```