# Introducción a Pandas para Ciencia de Datos (DF)

### Requerimientos: 
1. Datasets
2. Librerias: Pandas, sqlite3

Para realizar esto, debemos instalar las siguientes dependencias

In [1]:
pip install pandas 

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip




## Extración de datos con Pandas
Ahora que ya tenemos nuestro datasets, vamos a utilizar pandas para leer nuestro csv

**Importamos pandas y le asignamos el alias pd (por convencion, siempre se utiliza pd al importar)**

* `import pandas as pd`
**Importamos sqlite3**
* `import sqlite3`

In [3]:
import pandas as pd
import sqlite3

Ahora utilizaremos el metodo `pd.read_sql_query()` para leer el datasets y lo guardaremos en una variable llamada df(DataFrame)

In [8]:
conn = sqlite3.connect("customer.sqlite")
df = pd.read_sql_query("SELECT * FROM customer", conn)
df.head()
conn.close()

### Exploracion de datos:
Una vez creado el df, podemos utilizar metodos de pandas que nos ayudaran a observar mejor los datos.
En este caso, utilizaremos las funciones: 

* `df.shape()` <- Obtener cuantas columnas y filas tiene el df.
* `df.colums` <- Obtener el nombre de las columnas.
* `df.dtypes` <- Obtener los tipos dedatos de cada columna.
* `df.info()` <- Obtener una vista rapida de los tipos de datos del df.
* `df.isnull().sum()` <- Obtener la cantidad de datos nulos en nuestro df.

In [43]:
#utilizamos el metodo shape para obtener las dimensiones del dataframe
df.info()

#utilizamos el metodo columns para obtener los nombres de las columnas
df.columns



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          99 non-null     int64 
 1   first_name  99 non-null     object
 2   last_name   99 non-null     object
 3   dob         99 non-null     object
 4   city        99 non-null     object
 5   state       99 non-null     object
 6   zip         99 non-null     int64 
dtypes: int64(2), object(5)
memory usage: 5.5+ KB


Index(['id', 'first_name', 'last_name', 'dob', 'city', 'state', 'zip'], dtype='object')

In [17]:
#utilizamos el metodo info para obtener un resumen del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          99 non-null     int64 
 1   first_name  99 non-null     object
 2   last_name   99 non-null     object
 3   dob         99 non-null     object
 4   city        99 non-null     object
 5   state       99 non-null     object
 6   zip         99 non-null     object
dtypes: int64(1), object(6)
memory usage: 5.5+ KB


Ahora utilizaremos el metodo `isnull()` para ver si hay valores nulos en el dataframe y esto lo potenciamos con el metodo `sum()` para ver la cantidad de valores nulos por columna

In [16]:
df.count().isnull()


id            False
first_name    False
last_name     False
dob           False
city          False
state         False
zip           False
dtype: bool

**Exploración de datos**

* df.head()           # Primeras 5 filas
* df.tail()           # Últimas 5 filas
* df.shape            # (filas, columnas)
* df.columns          # Nombres de columnas
* df.info()           # Info general: tipos de datos, nulos, etc.
* df.describe()       # Estadísticas básicas (solo numéricas)
* df.dtypes           # Tipos de datos por columna

In [None]:
# Llamamos las primeras 9 filas
df.head(9)

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
0,1,Kristen,Klein,2002-11-03,North Cynthiafurt,AZ,50788
1,2,April,Norman,1993-08-25,Patrickshire,MN,37010
2,3,Justin,Hanna,1998-01-30,North Chadfurt,WA,39505
3,4,Pamela,Stephens,1995-11-12,Margaretland,MN,13967
4,5,Annette,Murphy,1996-08-09,Ronaldtown,WA,98806
5,6,Gregory,Lee,1996-10-25,Hernandezhaven,ME,92046
6,7,Oscar,Doyle,1995-02-02,South Cindy,VT,4481
7,8,Kelly,Ramos,1997-09-12,South Paulmouth,MT,1272
8,9,James,Rollins,1994-10-17,Lake Ricardoton,CA,22420


In [46]:
#llamamos las 9 ultimas filas
df.tail(9)

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
90,91,Robert,Lewis,1994-07-17,Wilsonborough,MT,53741
91,92,Kelly,Weber,1999-08-01,Connieview,OK,9271
92,93,Timothy,Zhang,2000-08-27,Porterport,IA,97619
93,94,Emma,Miles,1994-02-19,Lake Elizabeth,AL,19328
94,95,Donald,Jackson,2003-05-02,Nicholshaven,MA,96512
95,96,Catherine,Garcia,1997-09-17,Josephville,WY,45174
96,97,Joshua,Henderson,1996-08-27,New Rachel,MA,70661
97,98,Tiffany,Sandoval,1997-08-30,Johnsonberg,ME,33781
98,99,Christopher,Lane,2000-03-22,Schmidtfurt,AR,22426


## Estadisticas descriptivas

* `df.describe()`: Este método se utiliza para generar estadísticas descriptivas de un DataFrame de pandas. Proporciona un resumen estadístico de las columnas numéricas del DataFrame, incluyendo medidas como la media, la desviación estándar, los cuartiles y los valores mínimo y máximo.



### ¿Qué hace df.describe()?

Al aplicar df.describe() a un DataFrame, obtendrás una tabla resumen que incluye las siguientes estadísticas para cada columna numérica:

* count: El número de valores no nulos.
* mean: La media (promedio) de los valores.
* std: La desviación estándar de los valores.
* min: El valor mínimo.
* 25% (o quantile 0.25): El primer cuartil.
* 50% (o quantile 0.50): La mediana (segundo cuartil).
* 75% (o quantile 0.75): El tercer cuartil.
* max: El valor máximo.

In [44]:
#Obtenemos estatidsticas de nuestro df
df.describe()

Unnamed: 0,id,zip
count,99.0,99.0
mean,50.0,47480.79798
std,28.722813,28416.548894
min,1.0,1272.0
25%,25.5,23663.5
50%,50.0,42999.0
75%,74.5,70715.5
max,99.0,99006.0


**Operaciones con columnas**

* df['columna'].value_counts()     # Conteo de valores únicos
* df['columna'].unique()           # Valores únicos
* df['columna'].mean()             # Media
* df['columna'].sum()              # Suma
* df.sort_values('columna')        # Ordenar por columna


In [38]:
# Convierte todos los valores de 'zip' a enteros
df['zip'] = df['zip'].astype(int) 

#Ordena los valores de la columna 'zip' de menor a mayor
df['zip'].sort_values()

7      1272
40     2312
85     3638
6      4481
49     5056
      ...  
59    97768
24    98564
62    98744
4     98806
47    99006
Name: zip, Length: 99, dtype: int64

**Filtrado y selección**.
* df['columna']                     # Selección de una columna
* df[['col1', 'col2']]              # Varias columnas
* df[df['columna'] > 100]           # Filtrado por condición
* df.loc[0]                         # Acceso por etiqueta
* df.iloc[0]                        # Acceso por índice


In [None]:
# Muestra solo las filas donde la columna 'zip' tiene valores mayores a 10000
df[df['zip'] > 10000]

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
0,1,Kristen,Klein,2002-11-03,North Cynthiafurt,AZ,50788
1,2,April,Norman,1993-08-25,Patrickshire,MN,37010
2,3,Justin,Hanna,1998-01-30,North Chadfurt,WA,39505
3,4,Pamela,Stephens,1995-11-12,Margaretland,MN,13967
4,5,Annette,Murphy,1996-08-09,Ronaldtown,WA,98806
...,...,...,...,...,...,...,...
94,95,Donald,Jackson,2003-05-02,Nicholshaven,MA,96512
95,96,Catherine,Garcia,1997-09-17,Josephville,WY,45174
96,97,Joshua,Henderson,1996-08-27,New Rachel,MA,70661
97,98,Tiffany,Sandoval,1997-08-30,Johnsonberg,ME,33781


#### **Exportación a un CSV O XLLS**


* df.to_csv('archivo.csv', index=False)         # Exportar a CSV
* df.to_excel('archivo.xlsx', index=False)      # Exportar a Excel


**1. to_excel**
* Necesita la instalacion de openpyxl o xlsxwriter: pip install xlwt
* Guarda el DataFrame como un archivo Excel (formato .xls o .xlsx)
* Permite formatear celdas, usar varias hojas, estilos, etc.
* Más presentación visual que un .csv.

In [None]:
df.to_excel("customer.xlsx", index=False)

**2.to_cvs**
* Guarda el DataFrame en un archivo de texto separado por comas.
* Ligero, rápido y fácil de abrir con Excel, Google Sheets o cualquier editor de texto.
* Ideal para compartir datos simples.

In [None]:
df.to_cvs("customer.csv", index=False)

**3.to_sqlite**
* Guarda el DataFrame en una tabla de base de datos SQL (por ejemplo, SQLite, MySQL, PostgreSQL).
* Ideal para trabajar con grandes volúmenes de datos estructurados.
* Permite consultas complejas con SQL.
* Muy útil para aplicaciones web.
* Requiere una conexión activa a la base de datos.

In [None]:
df.to_sql("nombre_tabla", conn, index= False)
